Nội dung học phần1 - Giới thiệu chung về Tin sinh học và ứng dụng 2 - Cơ sở dữ liệu tin sinh học Bioinformatic Databases - Sắp xếp thẳng hàng trình tự Sequence Alignment 3 - Phép phân t
Trang 1Giới thiệu chung về
Tin sinh học
TRƯỜNG ĐH CÔNG NGHIỆP THỰC PHẨM TPHCM
KHOA CNSH & KTMT
HỆ ĐẠI HỌC
Trang 2TIN SINH HỌC
• Mã học phần : 08200018
• Số tín chỉ : 2
• Trình độ: Cho sinh viên năm thứ 3 đại học
• Phân bố thời gian: 30 tiết
─ Lý thuyết: 12 tiết
─ Tiểu luận, bài kiểm tra tại lớp: 4 tiết
─ Thực hành, thí nghiệm: 14 tiết
─ Tự học : 60 tiết
Trang 3Nội dung học phần
1 - Giới thiệu chung về Tin sinh học và ứng dụng
2 - Cơ sở dữ liệu tin sinh học (Bioinformatic Databases)
- Sắp xếp thẳng hàng trình tự (Sequence Alignment)
3 - Phép phân tích hệ thống phát sinh loài (Phylogeny)
4 - Giải mã trình tự toàn bộ bộ gen
- Phân tích cắt với restriction enzyme online
5 - Thiết kế primer cho phản ứng PCR
- Ứng dụng các tiện ích của tin sinh học trong nghiên cứu khoa học
6 - Báo cáo tiểu luận
Trang 4Mục tiêu môn học tin sinh học
• Mục tiêu chính:
Khám phá những lĩnh vực mới trong sinh học.
Mở ra triển vọng có tính chất toàn cầu về NC
Thống nhất hóa các nguyên tắc, thành tựu của khoa học trong sinh học.
Số hóa các cơ sở dữ liệu (database) cũng như xây dựng cách quản lý CNSH bằng tin học.
Xây dựng và phát triển các chương trình ứng dụng
trong CNSH nhằm giải quyết vấn đề trong nghiên cứu VD: cây phát sinh loài, đột biến gen…
Trang 5Mục tiêu của môn học
Sau khi học xong học phần này, sinh viên có khả năng:
─ Trình bày các nguyên tắc cơ bản trong phân
tích DNA, phân tích Protein, thiết kế các mồi
─ Tìm kiếm các bản đồ của các RE trên DNA & đăng ký trình tự gene vào ngân hàng gene thế
giới.
Trang 6Tiêu chí đánh giá môn học
• Bài tập lớn (Tiểu luận): 30%
-Nhóm theo chủ đề lớn GV giao: báo cáo Seminar nhóm + báo cáo chủ đề dạng Report MS Word
-Khác: chuyên cần, bài tập cá nhân…
• Thi kết thúc học phần: 70%
-Hình thức thi: trên máy
Trang 7Tài liệu tham khảo
• Tiếng Việt
-Nguyễn Thị Lang, Bùi Chí Bửu (2008) ‘Giáo trình Tin sinh
học–Bioinformatics’, Nhà xuất bản nông nghiệp, TP Hồ Chí
Minh.
-Trần Linh Thước và cộng sự (2008) ‘Thực tập
Bioinformatics –Lưu hành nội bộ’, Đại học Khoa học Tự
nhiên TP.HCM
• Tiếng Anh
-Baxevanis, A.D and Ouellette, B.F.F (2005)
Bioinformatics: A Practical Guide to the Analysis of Genes
and Proteins, 3 rd edition Wiley New York.
-Waterman, M.S (1995) Introduction to Computational
Biology: Sequences, Maps and Genomes CRC Press.
-Mount, D.W (2002) Bioinformatics: Sequence and Genome,
Cold Spring Harbour Press, New York
Trang 8Yêu cầu chung cho môn học
-Tự chia nhóm và nộp cho lớp trưởng tổng hợp (<=5 người/nhóm) Ai không có nhóm = không có điểm báo cáo tiểu luận (Nộp DS vào tuần 2)
-Kiểm tra thông qua các bài báo cáo cá nhân sau mỗi buổi học (lý thuyết hoặc thực hành)
Trang 9ĐẠI CƯƠNG VỀ TIN
SINH HỌC
CHƯƠNG I
Trang 10TỔNG QUAN CHƯƠNG I
- Lịch sử & khái niệm tin sinh học
- Vì sao phải cần nghiên cứu tin sinh học?
- Các lĩnh vực nghiên cứu ứng dụng của tin sinh học
- Các công cụ, kỹ năng phục vụ cho tin sinh học
- Các thuật ngữ sử dụng trong các ứng dụng tin sinh học
Trang 11TỔNG QUAN CHƯƠNG I
• Tin sinh học để làm gì?
• Tin sinh học ứng dụng như thế nào?
• Tin sinh học áp dụng cho đối tượng nào?
Trang 12Lịch sử Tin sinh học
• Khởi nguồn từ nhu cầu cơ bản
trong việc tìm kiếm cũng như
nâng cao các phương pháp tìm
kiếm trong máy tính về di
truyền học
• Làm hữu ích hơn cho sự tiến
bộ của di truyền học và các kỹ
thuật di truyền cũng như sinh
học phân tử
Trang 13Lịch sử Tin sinh học
• Sau sự phát kiến cấu trúc phân tử DNA của
Watson-Crick (1953) ngày càng nhiều nhu cầu quản lý dữ liệu sinh học & CNSH ở các công ty & các nhà khoa học về SHPT.
• Chuyển hướng nghiên cứu từ in vitro in vivo in
situ in silico Hình thành ngành tin sinh học.
Trang 15-Thuật ngữ Tin sinh học lần đầu tiên được công nhận
toàn thế giới vào năm 1991.
Trang 16Lịch sử phát triển Tin sinh học
•1994-2004: Số lượng gia tăng đột biến do việc khám phá kỹ thuật PCR
•2000-2008: gia tăng do việc khởi đầu dự án giải mã toàn bộ bộ gen các loài
và người
Trang 18Lịch sử phát triển của Tin sinh học
Trang 20TIN SINH HỌC LÀ GÌ??
Trang 22Khái niệm tin sinh học
-Tin sinh học (bioinformatics) là môn học được cơ bản hợp nhất hóa từ tổ hợp các môn sinh học, khoa học máy tính
và các kỹ thuật trong công nghệ thông tin.
-Theo Frank Tekaia, “Tin sinh học là những phương pháp dựa trên các thuật toán , thống kê và máy tính để hướng đến việc giải quyết các vấn đề sinh học sử dụng các chuỗi DNA và amino acid cùng những thông tin liên quan đến sinh học”.
Trang 23Bioinformatics là gì?
23
Trang 24What is Bioinformatics
Tin sinh học là gì?
Trang 25Khái niệm tin sinh học
Là phương pháp xác định:
-Khả năng phân biệt giữa trình tự của gen này và
trình tự của những gen khác
-So sánh các trình tự giữa các loài có quan hệ huyết thống nhờ các dữ liệu có sẵn
-Tìm kiếm các hợp phần của gen thông qua các cơ sở
dữ liệu trên thế giới.
Trang 26Nhu cầu tìm hiểu sự khác nhau giữa các loài có chung nguồn gốc
Trang 27Sắp xếp các trình tự và giải
mã trình tự cần biết thông qua các website và phần mềm tin
học
Trang 28VÌ SAO PHẢI NGHIÊN CỨU
TIN SINH HỌC?
Trang 29VÌ SAO PHẢI NGHIÊN CỨU
TIN SINH HỌC?
“Tôi mơ ước rằng một ngày nào đó trên mỗi bàn giấy ở mọi nơi trên thế giới đều có một máy vi tính cá nhân (PC)”
Trang 30Tin sinh học là xu hướng tất yếu của sự phát triển CNSH
“The two technologies that will shape the next century
are biotechnology and information technology”
– Bill Gates –
“The two technologies that will have the greatest impact on each other in the new millennium are biotechnology and information technology”
– Martina McGloughlin -
Trang 31Vai trò ngày càng lớn của CNTT
Nguồn: ABC News, Australia 2010
Trang 32Tầm quan trọng của tin sinh học trong nghiên cứu khoa học
-Khởi đầu sự nghiên cứu tiến hóa hay nghiên cứu trong
hệ genome.
-Duy trì và lưu giữ các dữ kiện và số liệu thông tin trong công nghệ genome bao gồm thông tin về trình tự
DNA, protein của tất cả sinh vật trên thế giới.
-Là công cụ giúp cho phân tích và tập hợp thống nhất các số liệu về sinh học.
Trang 33TIN SINH HỌC CHỌN LỌC TỪ GEN MỤC TIÊU ĐẾN CHỌN TẠO GIỐNG CÓ GIÁ TRỊ
MONG MUỐN
Trang 34Sự bùng nổ của các kỹ thuật di
truyền: Giải mã trình tự
Trang 35Cơ sở dữ liệu sinh học NCBI
120 quốc gia
Anh đã giải mã 30% bản đồ gene
Mỹ, Pháp, Đức, Nhật Bản, Trung Quốc Các vi sinh vật khác: vi khuẩn, Virus…
Tin sinh học xây dựng, bổ sung, tổ chức quản lý khai khác
cơ sở dữ liệu (database - cơ sở dữ liệu) đa dạng, toàn diện trên quy mô toàn cầu về công nghệ sinh học.
Chuyển trình
tự Gene
Trang 36Primary public domain bioinformatics servers
Trang 37Các lĩnh vực nghiên cứu ứng
dụng Tin sinh học
Trang 38Các lĩnh vực nghiên cứu ứng dụng của tin sinh
học
- Nghiên cứu chuỗi trình tự DNA và protein
- Bộ gene người, động vật, thực vật, côn trùng,
VSV
- Sự tiến hóa sinh học
- Đa dạng sinh học di truyền
- Chức năng của gene & protein
- So sánh các gene & protein
- Dự đoán cấu trúc protein
- Phân tích kết quả thí nghiệm
- Bệnh di truyền
- Định danh loài
Trang 39Các ứng dụng của Tin sinh học
Quy trình thực hiện chung của các phần mềm Tin sinh học 39
BẮT ĐẦU THÍ NGHIỆM
PHẦN MỀM
XÁC ĐỊNH LẠI
TỐI ƯU HÓA
THÔNG SỐ MÁY TÍNH
TIẾN HÀNH THÍ NGHIỆM
TỪ CÁC THÔNG
SỐ NÀY
Trang 40Sinh học máy tính (Computational Biology)
Ngành học của việc ứng dụng các kỹ thuật tin học cho sinh học cổ điển
Chủ yếu tập trung vào các quá trình tiến hóa, mật độ phân bố và nguyên lý sinh họchơn là cấp độ tế bào và sinh học phân tử
Thuật ngữ có thể dùng thay thế cho thuật ngữ Tin sinh học
Trang 41PHÂN TÍCH CƠ SỞ DỮ
LIỆU
41
Phần mềm sinh học
1 Sản phẩm nghiên cứu từ nông nghiệp
2 Sản phẩm nghiên cứu từ thực phẩm
3 Sản phẩm từ môi trường
vv…
Các kỹ thuật sinh học khi làm thí nghiệm
Trang 42Tin y học (Medical Informatics)
Cải thiện các dữ liệu giao
tiếp, hiểu sâu và quản lý dữ
liệu y học
Vận dụng CSDL hơn là chỉ
là dữ liệu đơn thuần.
Trang 43Tin hóa học (Chemical Informatics)
Kết hợp với các kỹ thuật
hóa và sinh học cho việc
điều chế và phát triển
thuốc trị bệnh.
Trang 44Công nghệ hệ gen (Genomics)
Phân tích và so sánh toàn bộ genome của 1 loài hoặc nhiều loài với nhau
1 genome là 1 bộ của tất cả các gen có trong 1 cơ thể
Trang 45 Genomics là môn học nghiên cứu đánh giá các chức
năng và phương pháp phân lập so sánh giữa các genome Phương pháp nghiên cứu thường dựa vào khảo sát các đột biến nhằm định danh các bộ, họ, loài
Trang 46Các lĩnh vực chính trong
genomics
Structural genomics (Gen cấu trúc)
Functional genomics (Gen chức năng)
Comparative genomics (Gen so sánh)
Genomics hiện đang là tâm điểm của sinh học.
Trang 47Gen cấu trúc
Tìm hiểu thành phần & cấu trúc bộ gen
Bản đồ di truyền (linking map)
Không có độ phân giải cao
Không thực sự chính xác khi so sánh
Bản đồ vật lý (physical map)
Dựa trên sự phân tích trực tiếp DNA và khoảng cách giữ các gen theo base (bp), Kilobase (Kb) và Megabase (Mb)
Giúp cung cấp thông tin về vị trí các gen, DNA marker và sự phân mảnh NST
Trang 49Gen chức năng
(Functional genomics)
• Mục tiêu chỉ định, nhận diện tổ chức gene và nhận ra
chức năng của chúng.
– Dự đoán chức năng gen từ trình tự
– Dò tìm chức năng theo hướng đồng dạng
– Dò tìm chức năng dựa trên so sánh vùng chủ đạo
– Dò tìm theo tính chất biểu hiện phát sinh loài
– PP Hàng xóm gen (Gene neighboring)
– Kỹ thuật Microarray
Trang 50Gene học chức năng
• Gene học chức năng (functional genomics) có thể
được định nghĩa nôm na như việc dùng tri thức tiêu biểu về hệ gene để tìm hiểu về gene, về các chức năng sản xuất và sự tương tác của chúng, và quan trọng hơn là vì sao điều này làm cho các sinh vật hoạt động.
Gene functions (Chức năng gene)
Protein abundance in a cell
(Sự dư thừa protein trong tế bào)
Gene regulation and networks
(Điều khiển gene và mạng gene)
Trang 51Gene chức năng
– Dường như có một hệ hạn chế các genes (a limited universe of
genes) và proteins tương ứng của chúng
– Sự dư thừa protein (protein abundance) có thể phụ thuộc vào nhiều yếu tố như liệu gene tương ứng có được biểu hiện (expressed)
– Biểu hiện gene (gene expression) là quá trình qua đó thông tin mã
hóa trong một gene được truyền vào cấu trúc đang có trong tế bào và điều khiển tế bào (hoặc proteins hoặc RNAs).
– Một câu hỏi quan trọng và lý thú khác trong sinh học là sự biểu hiện
gene được “bật” và “tắt” thế nào, tức là các genes được điều chỉnh thế
nào.
Trang 52Tin sinh học trong công nghệ
protein (Proteomics)
• Proteomics là ngành
học phân tích các mẫu
sinh học về hàm
lượng, sự phân bố và
hoạt động của protein.
Trang 53Tin sinh học trong so sánh trình tự
(Sequence Alignment)
• Là ngành học nghiên cứu các phương pháp so sánh
chuỗi trình tự protein hay DNA với chuỗi trình tự khác nhằm tìm ra:
– Sự tương đồng giữa 2 chuỗi
– So sánh 1 gen và sản phẩm của nó
– Tìm ra cầu nối disulfide hay các vị trí xúc tác
– Tìm primer hay các đoạn gen đột biến trên gene
– Tìm ra các đoạn lặp lại trên chuỗi trình tự
Trang 54Tin sinh học trong nghiên cứu các quan
hệ tiến hóa (Phylogenetic analysis)
Là ngành nghiên cứu các mối
quan hệ có tính chất tiến
hóa trong bộ các chuỗi trình
tự giống nhau nhờ phương
pháp tạo cây gia hệ
(phylogenetic tree) với các
nhánh đại diện với tính chất
gần gũi.
Trang 55Các công cụ, kỹ năng cần
thiết cho tin sinh học
Là một lĩnh vực khá đặc biệt trong công nghệ sinh học và sinh học hiện đại, Tin-Sinh học cũng cần có những công cụ riêng phục vụ cho nhu cầu và sự phát triển của nó Những công cụ cơ bản có thể bao gồm:
-Máy tính (Computer) và hệ thống máy tính
-Các thuật toán (Algorithms)
-Các công cụ (tools) và phần mềm (software)
-Internet
Trang 56Thông tin Tin sinh học trên Internet
Hầu hết các thông tin CSDL của Tin sinh học cũng
giống như khoa học máy tính đều phải thông qua
Internet
Các cơ sở DL trực tuyến:
– NCBI (The National Centre for Biotechnology
Information)– EMBL (European Bioinformatics Institute)
– TIGR (The Institute for Genomic Research)…
– Các dự án về giải mã bộ gene người (Human
genome project-HGP)
Trang 57Các cơ sở dữ liệu sinh học lớn
trên thế giới
• Là những nơi chứa 1 lượng lớn các thông tin về sinh
học như các báo cáo khoa học, cấu trúc chuỗi DNA,
genome, protein, enzyme
– NCBI (The National Center for Biotechnology
Information)
– EMBL (The European Molecular Biology Laboratory) – CIB –DDBJ (DNA Data Bank of Japan)
– TIGR (The Institute for Genomic Research)
– ExPASy (Expert Protein Analysis System)
Trang 58Ngân hàng dữ liệu protein quốc tế
Nơi cung cấp các kết quả nghiên cứu protein và các
dữ liệu cấu trúc sinh học phân tử gồm 4 phòng
Trang 59KẾT LUẬN
• Tin sinh học cơ bản là nơi tìm kiếm các kỹ thuật và
phương pháp di truyền và sinh học phân tử mà
trong đó máy tính có thể hữu ích cho các phương pháp di truyền kỹ thuật cao.
• Các ứng dụng của tin sinh học trong nghiên cứu
khoa học và thực tiễn
• Các ngân hàng dữ liệu trên thế giới.
Trang 60Challenges in Bioinformatics
– Truy nhập vào được nhiều nguồn phân tán (Access to multiple distributed resources)
– Cần thông tin được cập nhật (Needs information to be up-to-date)
– Dư thừa dữ liệu tối thiểu (Minimal data redundancy) – Các ứng dụng ổn định (Robust applications)
– Các ứng dụng mở rộng được (Extendable applications) – Monolithic App vs Components
– Các phần mềm chuyển tải được (Portable software)
Trang 61Challenges in Bioinformatics
Bùng nổ thông tin
tin lớn
literature, annotations, protein levels, RNA levels etc…)
quan hệ quan trọng trong các tập dữ liệu rất lớn.
Thiếu các “nhà tin sinh học” (“bioinformaticians”)
cách giải thích kết quả của chúng.
Trang 62Con đường tin sinh học
“It’s not the strongest, nor the most
intelligent, but the species most
adaptable to change has the best
chance of survival”
Darwin
Trang 63-KIẾN THỨC CẦN NHỚ
-Các định nghĩa về tin sinh học, các ứng dụng tin sinh học trong CNSH
- Lịch sử tin sinh học bắt nguồn từ khi nào?
-Thế nào là hệ gen học (genomics)? Các hệ gen học cơ bản trong nghiên cứu?
-Các công cụ và kỹ năng cần thiết cho tin sinh học? -Nêu các lĩnh vực ứng dụng của tin sinh học?
Trang 64KẾT THÚC CHƯƠNG I