Vì vậy, để khai thác được các giá trị của tin sinh học, chúng tôi tiến hành đề tài “Tổng quan về tin sinh học và một số ứng dụng trong thực tế" với 2 mục tiêu: 1.. Một số định nghĩa về t
Trang 1BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
HOÀNG NGUYỄN KHÁNH LINH
Trang 2BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
HOÀNG NGUYỄN KHÁNH LINH
Trang 3LỜI CẢM ƠN
Trong quá trình thực hiện và hoàn thành khóa luận này, em đã nhận được
rất nhiều sự quan tâm, động viên và giúp đỡ tận tình từ các thầy cô, gia đình và
bạn bè Nhờ có sự giúp đỡ quý báu đó mà em mới có thể nghiên cứu và hoàn thành
tốt khóa luận của mình
Nhân dịp này, em xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến:
PGS TS Nguyễn Văn Rư, thầy đã tận tình chỉ bảo, tạo mọi điều kiện,
trực tiếp hướng dẫn em hoàn thành khóa luận
Em cũng xin trân trọng cảm ơn Đảng ủy, Ban Giám hiệu nhà trường, Phòng
Đào tạo cùng toàn thể các thầy cô, các cán bộ Trường Đại học Dược Hà Nội đã
tạo điều kiện để em có thể lĩnh hội những kiến thức quý giá về ngành Dược trong
suốt 5 năm học
Cuối cùng, em xin gửi lời cảm ơn sâu sắc đến gia đình, bạn bè đã luôn sát
cánh, động viên em hoàn thành khóa luận này
Hà Nội, ngày 18 tháng 5 năm 2017
Sinh viên Hoàng Nguyễn Khánh Linh
Trang 4MỤC LỤC
ĐẶT VẤN ĐỀ 1
PHẦN I: TỔNG QUAN 2
1 Tổng quan về tin sinh học 2
1.1 Giới thiệu chung về tin sinh học 2
1.1.1 Một số định nghĩa về tin sinh học 2
1.1.2 Vai trò, lợi ích của tin sinh học 3
1.1.3 Một số cơ sở dữ liệu tin sinh học lớn 4
1.2 Tình hình phát triển Tin sinh học tại Việt Nam hiện nay 4
2 Một số chương trình, phần mềm tin sinh học phổ biến 6
2.1 Chương trình thiết kế mồi trong phản ứng PCR 6
2.1.1 Giới thiệu về phản ứng PCR 6
2.1.2 Giai đoạn thiết kế mồi và ứng dụng của tin sinh học 8
2.2 Các công cụ tìm kiếm tương đồng 13
2.2.1 Cấu trúc và chức năng của các phân tử sinh học 13
2.2.2 Quá trình phân tích trình tự 14
2.2.3 Ứng dụng chương trình tìm kiếm tương đồng trong chú giải gen 15
2.3 Các phần mềm trực quan phân tử 18
2.3.1 Một số thông tin liên quan về protein và kĩ thuật đồ họa phân tử 18
Trang 52.3.2 Ứng dụng các phần mềm trực quan phân tử 19
2.4 Một số kĩ thuật mới 25
2.4.1 Kĩ thuật khai thác dữ liệu (Data mining) 25
2.4.2 Kĩ thuật nguồn lực cộng đồng 26
3 Một số ứng dụng của tin sinh học 28
3.1 Các ứng dụng trong chẩn đoán 28
3.1.1 Ứng dụng kĩ thuật giải trình tự định danh vi khuẩn 28
3.1.2 Ứng dụng kỹ thuật PCR, giải trình tự để định danh vi nấm 29
3.1.3 Ứng dụng PCR và giải trình tự trong chẩn đoán bệnh 29
3.2 Ứng dụng trong kiểm nghiệm chất lượng sản phẩm probiotic 29
3.3 Ứng dụng PCR, giải trình tự phát hiện đột biến kháng thuốc 31
3.4 Ứng dụng kĩ thuật giải trình tự dự đoán chức năng protein 31
3.5 Ứng dụng trong việc xác định gen gây bệnh ở người 31
3.6 Ứng dụng trong nghiên cứu phát triển thuốc 33
PHẦN II: BÀN LUẬN 34
KẾT LUẬN VÀ ĐỀ XUẤT 40
TÀI LIỆU THAM KHẢO 41
Trang 6DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
1 ADN Acid deoxyribonucleic
3 BLAST Basic Local Alignment Search Tool
4 CIB DDBJ The Center for Information Biology and DNA Data
Bank of Japan
5 EMBL European Molecular Biology Laboratory
6 FAO Food and Agriculture Organization
7 FDA The Food and Drug Administration
8 GMO Genetically Modified Organism
9 GWAS Genome-wide association study
10 HBV Hepatitis B virrus
11 HCV Hepatitis C virus
12 MTHFR Methylen tetrahydrofolat reductase
13 NCBI National Center for Biotechnology Information
15 PCR Polymerase Chain Reaction
Trang 716 SNP Single nucleotide polymorphisms
18 WHO World Health Organization
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 1: Nguyên tắc và các bước thực hiện phản ứng PCR [90] 7Hình 2: Giao diện kết quả phần mềm thiết kế mồi Primer3 12Hình 3: Giao diện chương trình BLAST 16Hình 4: Biểu diễn đồ họa của cấu trúc 3 chiều protein Hình ảnh 3 chiều của lysozym lòng trắng trứng gà được hiển thị với RasMol (hàng đầu và hàng hai), và Cn3D (hàng ba) [76] 20
Hình 5: Cấu trúc 3 chiều của lysozym lòng trắng trứng gà được tìm kiếm trực tuyến bằng mã PDB: 1LYZ 21
Hình 6: Cấu trúc 3 chiều của phức hợp alcol dehydrogenase được hiển thị với phần mềm RasMol [76] 22
Hình 7: Chuỗi Cα của lysozym lòng trắng trứng gà được hiển thị với phần mềm KineMage [76] 23
Hình 8: Tương tác của các đại phân tử được hiển thị với phần mềm Cn3D [76] 24
Hình 9: Kết quả giải trình tự 16s rDNA trực khuẩn Gram (+) phân lập kị khí từ bệnh phẩm mủ xoang [8] 28
Trang 91
ĐẶT VẤN ĐỀ
Tin sinh học là một khoa học liên ngành ứng dụng tin học để giải quyết các vấn đề thuộc lĩnh vực sinh học Do đặc thù ngành, khoa học sinh học có một số lượng dữ liệu khổng lồ, vì vậy các ứng dụng của tin học có thể giúp lưu trữ, xử lý, chiết tách và ứng dụng các dữ liệu đó một cách hiệu quả nhất
Trên thế giới, ứng dụng tin sinh học đã mang lại nhiều lợi ích trong nhiều lĩnh vực khoa học thực tế như là nông nghiệp, công nghiệp, y dược học đặc biệt là nghiên cứu phát triển thuốc và chẩn đoán theo dõi điều trị bệnh
Ở Việt Nam, tin sinh học đã được quan tâm và ứng dụng vào thực tế đạt được những kết quả to lớn Trong lĩnh vực y dược học, ứng dụng tin sinh học cũng đang diễn ra mạnh mẽ như là nghiên cứu phát triển thuốc, chẩn đoán điều trị bệnh Tuy nhiên những nghiên cứu ứng dụng ở nước ta hiện nay cũng mới chỉ bắt đầu
Vì vậy, để khai thác được các giá trị của tin sinh học, chúng tôi tiến hành đề tài
“Tổng quan về tin sinh học và một số ứng dụng trong thực tế" với 2 mục tiêu:
1 Thu thập và trình bày được các kiến thức về tin sinh học
2 Trình bày được một số ứng dụng về tin sinh học trong thực tế
Trang 102
PHẦN I: TỔNG QUAN
1 Tổng quan về tin sinh học
1.1 Giới thiệu chung về tin sinh học
1.1.1 Một số định nghĩa về tin sinh học
Có rất nhiều định nghĩa khác nhau về tin sinh học:
- Thuật ngữ tin sinh học dùng để chỉ hầu hết các ứng dụng máy tính vào khoa học sinh học, ban đầu dùng để gọi việc phân tích dữ liệu trình tự sinh học vào giữa thập niên 80 [11]
- Việc sử dụng máy tính và công nghệ thông tin để lưu trữ và phân tích trình
tự nucleotid và acid amin và các thông tin liên quan [55]
- Một lĩnh vực khoa học gồm tất cả các khía cạnh của việc thu thập, lưu trữ,
xử lý, phân tích, giải thích và truyền bá thông tin sinh học [38]
Tóm lại, tin sinh học là một lĩnh vực liên ngành, với sự kết hợp của sinh học, khoa học máy tính và công nghệ thông tin Có 3 hướng chính trong tin sinh học:
- (1) Phát triển các kĩ thuật thống kê và thuật toán mới để đánh giá mối quan
hệ giữa các dữ liệu trong cơ sở dữ liệu lớn
- (2) Phân tích và diễn giải các loại dữ liệu khác nhau, bao gồm trình tự nucleotid, acid amin, và cấu trúc protein
- (3) Sự phát triển các công cụ cho phép truy cập và quản lý hiệu quả các loại thông tin khác nhau
Trang 113
1.1.2 Vai trò, lợi ích của tin sinh học
Tin sinh học đã và đang được ứng dụng vào nhiều lĩnh vực trong nghiên cứu khoa học Trong công nghệ sinh học, tin sinh học giúp thúc đẩy các quá trình như giải trình tự gen tự động, dự đoán chức năng gen, dự đoán cấu trúc protein, phát triển thuốc, thiết kế vaccin [71], nghiên cứu tiến hóa, cải tiến cây trồng, khoa học thú y [37]
Với riêng ngành dược, tin sinh học được ứng dụng nhiều trong phát triển thuốc Quá trình nghiên cứu và phát triển thuốc rất tốn kém về tiền bạc và thời gian Vì vậy, các công ty dược phẩm luôn tìm mọi cách để giảm nguy cơ thất bại khi phát triển thuốc cũng như cố gắng đẩy nhanh tiến trình phát hiện thuốc Việc ứng dụng tin sinh học vào nghiên cứu phát triển thuốc đem lại nhiều lợi ích to lớn:
- Tiết kiệm chi phí: Theo ước tính, chi phí của quá trình nghiên cứu phát triển thuốc lên tới 800 triệu đô cho mỗi thuốc được đưa ra thị trường [21] Các công cụ tin sinh học đang được ứng dụng để giảm bớt gánh nặng chi phí này
- Tiết kiệm thời gian: Sức mạnh của các công cụ tin sinh học có thể giúp dự đoán các hoạt chất tiềm năng Việc dự đoán hoạt chất tiềm năng nhất để tập trung phát triển hoạt chất đó thay vì nghiên cứu dàn trải có thể rút ngắn thời gian nghiên cứu phát triển thuốc, thuốc có thể sẽ được đưa ra thị trường sớm hơn
- Hiệu quả điều trị: Một thuốc mới được đưa ra thị trường có thể là thuốc
để trị một bệnh chưa tìm ra các thuốc chữa, hoặc là thuốc có ưu thế về một mặt nào đó hơn các thuốc trị bệnh đó đã biết Hiệu quả của thuốc sẽ đem lại những lợi ích cho các bệnh nhân nói riêng và toàn xã hội nói chung
Trang 124
1.1.3 Một số cơ sở dữ liệu tin sinh học lớn
Cơ sở dữ liệu của NCBI là một trong các cơ sỡ dữ liệu sinh học lớn nhất thế giới hiện nay Trung tâm dữ liệu này gồm một số mảng dữ liệu con như PubMed chứa các công trình nghiên cứu của các nhà khoa học, GenBank chứa dữ liệu về cấu trúc chuỗi ADN và chuỗi acid amin, dịch vụ Entrez kết nối liên thông giữa các mảng dữ liệu khác,…
Cơ sở dữ liệu EMBL của phòng thí nghiệm sinh học phân tử châu Âu là một trong ba ngân hàng dữ liệu sinh học lớn nhất thế giới Trung tâm dữ liệu này cũng bao gồm một số mảng dữ liệu, trong đó lớn nhất phải kể đến dữ liệu cấu trúc ADN (EMBL), dữ liệu cấu trúc protein (SWISS-PROT) và dữ liệu cấu trúc các đại phân tử (EBI-MSD)
Cơ sở dữ liệu CIB – DDBJ là cơ sở dữ liệu thuộc sự quản lý của Trung tâm thông tin sinh học, Viện di truyền quốc gia Nhật Bản, và cũng là một trong ba ngân hàng dữ liệu sinh học lớn nhất thế giới
3 trung tâm dữ liệu gen lớn nhất thế giới là NCBI, EMBL và DDBJ liên kết với nhau GenBank chính là sản phẩm hợp tác quốc tế giữa 3 trung tâm này Mỗi
cơ sở dữ liệu đều sở hữu các thông tin của 2 cơ sở dữ liệu còn lại [3]
1.2 Tình hình phát triển Tin sinh học tại Việt Nam hiện nay
Bắt kịp xu thế phát triển của khoa học thế giới, ở Việt Nam đã có một số nhà khoa học quan tâm nghiên cứu lĩnh vực đầy tiềm năng này và đã đạt được một
số thành công nhất định
Trang 135
- Năm 2015, PGS Lê Sỹ Vinh cùng các cộng sự đến từ Đại học Công nghệ (Đại học Quốc gia Hà Nội) đã công bố kết quả nghiên cứu xây dựng và phân tích thành công hệ gen 3 cá thể của một gia đình người Việt Nam
- Tiến sĩ Nguyễn Cường cùng các cộng sự đến từ Phòng Tin sinh học, Viện Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam có nhiều công trình nghiên cứu theo các hướng như giải trình tự, lập bản đồ gen, phân tích
Trang 146
2 Một số chương trình, phần mềm tin sinh học phổ biến
2.1 Chương trình thiết kế mồi trong phản ứng PCR
Trang 157
2.1.1.2 Nguyên tắc và các bước thực hiện phản ứng PCR
Hình 1: Nguyên tắc và các bước thực hiện phản ứng PCR [90]
Nguyên tắc và các bước thực hiện: [8],[90]
Bước 1: ADN khuôn có cấu trúc xoắn kép sẽ được làm biến tính bởi nhiệt (khoảng 940C) và tách thành 2 mạch đơn
Bước 2: Hạ nhiệt độ xuống (khoảng 55-560C), mồi xuôi và mồi ngược sẽ gắn bổ sung vào 2 mạch đơn
Bước 3: Nhiệt độ lại được tăng (khoảng 720C) Các polymerase chịu nhiệt thực hiện phản ứng kéo dài chuỗi Đoạn ADN ban đầu được khuếch đại
Trang 168
Lặp đi lặp lại các bước như trên Sau mỗi chu kỳ, số sản phẩm nằm giữa hai
vị trí mồi được nhân đôi Sau 20 chu kỳ, trình tự đích tăng gấp khoảng một triệu lần [41]
2.1.1.3 Các yếu tố cần thiết cho một phản ứng PCR
Thành phần của một phản ứng PCR gồm có [67]:
- Một mẫu ADN chứa đoạn ADN đích cần khuếch đại
- Một ADN polymerase, thường sử dụng Taq polymerase chịu nhiệt [49] vì khả năng duy trì sự nguyên vẹn về cấu trúc và chức năng trong giai đoạn biến tính chuỗi ADN
- Hai đoạn mồi ADN
- dNTP gồm 4 loại dATP, dGTP, dCTP, dTTP là nguyên liệu để tổng hợp sợi bổ sung
- Một dung dịch đệm cung cấp môi trường hóa học thích hợp cho hoạt động của enzym ADN polymerase
- Các cation hóa trị hai, thường sử dụng Mg2+ hoặc Mn2+, là cofactor của enzym ADN polymerase
2.1.2 Giai đoạn thiết kế mồi và ứng dụng của tin sinh học
2.1.2.1 Vai trò của mồi và giai đoạn thiết kế mồi
Mồi là các đoạn trình tự ngắn oligonucleotid bổ sung với 2 đầu của đoạn ADN cần khuếch đại Để polymerase tổng hợp được sợi bổ sung, mồi phải bắt cặp được với sợi khuôn Do vậy có thể nói mồi đóng vai trò quyết định tính đặc hiệu của PCR [8]
Trang 179
Mồi phải thỏa mãn một số yêu cầu về độ dài, chiều, nhiệt độ gắn mồi, nhiệt
độ nóng chảy, mật độ GC Chọn mồi phải tuân theo một số nguyên tắc sau đây [1],[18]:
- Độ dài mồi cần chọn nằm trong khoảng 16 đến 30 nucleotid Chiều dài mồi xuôi và mồi ngược chênh lệch không quá 3 nucleotid
- Trình tự của mồi được chọn không có sự bắt cặp giữa mồi xuôi và mồi ngược, và cũng không tạo những cấu trúc kẹp tóc
- Mồi phải chọn đặc trưng cho ADN cần khuếch đại và không trùng với các trình tự lặp lại trên gen
- Trình tự nằm giữa mồi xuôi và mồi ngược không quá lớn (1kb)
- Nhiệt độ nóng chảy của mồi khoảng 72°C Chênh lệch nhiệt độ nóng chảy của mồi xuôi và mồi ngược không cách nhau quá xa, thông thường trong khoảng
từ 4-5°C
Để phản ứng PCR diễn ra thuận lợi, cần thiết kế mồi thỏa mãn các đặc điểm nêu trên
2.1.2.2 Ứng dụng tin sinh học vào giai đoạn thiết kế mồi
Có thể thấy, việc thiết kế mồi thủ công rất phức tạp và mất nhiều thời gian Một số phần mềm tin sinh học trợ giúp việc thiết kế mồi đã được phát triển, giúp tìm kiếm và lựa chọn đoạn nucleotid tương đồng với cấu trúc chuỗi phân tích Các chương trình thiết kế mồi được sử dụng phổ biến gồm có Primer3 [64], Primer – Blast [87], FastPCR [34], Oligo Primer Analysis [65]
Trang 1810
Primer3 là phần mềm được sử dụng phổ biến nhất để thiết kế mồi [18] Đây
là một chương trình đơn giản và miễn phí, với phiên bản trực tuyến tại địa chỉ: http://bioinfo.ut.ee/primer3/
Các thao tác sử dụng chính phần mềm Primer3 [1]:
Bước 1: Nhập dữ liệu Chuỗi ký tự được viết theo định dạng FASTA
Bước 2: Thiết lập các thông số Một số thông số cơ bản gồm có:
Number to Return: số cặp mồi lựa chọn
Max 3’ Stability: chỉ số lựa chọn độ ổn định của chuỗi mồi
Primer Size: kích thước giới hạn của đoạn mồi được chọn
Primer Tm: nhiệt độ phân ly cặp mồi
Max Self Complementaty: tổng trị số lớn nhất đánh giá khả năng tự bắt cặp của đoạn mồi với đoạn mồi khác
Salt Concentration: nồng độ muối trong phản ứng PCR
Annealing Ologo Concentration: nồng độ mồi trong phản ứng PCR
Start Codong Position: vị trí xác định trong thực nghiệm
Bước 3: Gửi lệnh yêu cầu Nhấn “Pick Primer” để gửi thông tin đi xử lý
Chương trình sẽ trả về kết quả lựa chọn đoạn mồi
Ví dụ, với chuỗi trình tự sau:
ctcagctgtgtcaaagtttcacagatcctcgtcttctattccggctacactcagtctcctccagcttagatctttgtccttctcctgggtactctccgactccttcttccagctaatgtccggtcattagaaaagttttaaagtttgaattgtcnntccctgtcaaagtttccagacctcgtcgtccttctcttctccgtcagctctcagtcttcattggaacagatctgtctttattcc
Trang 1911
gcctgctacactcagtctcctccttcagtctcttaaaagtttgttcagtcttagatgaatttctctgggtactttgtcctccgactccgtccagctaatcggtcttgtcgtcattagatttccttcttctagatgattcatgtctacctattgtcnntcgtcttcccgtgtnnnccaggtccgtttcgtccgcctgtcgtctattctatctcggtccttacacaaagttgtccttaaagtttttttgtgtccctagtccaaggtccaattttttccatctgtttcgtcctgtcttttttgngntcgcgtccgtttcccgttctctatgcctccctcctcttatc
Đầu tiên, nhập trình tự vào ô nhập Sau đó, thiết lập một số thông số, ví dụ:
- Pair Max Mispriming: 24.00
- Primer Size: Min: 15 Opt: 20 Max: 25
- Primer Tm: Min: 55 Opt: 60 Max: 65
- Product Tm: Min: Opt: 50 Max:
- Các tham số còn lại giữ nguyên giá trị mặc định
Nhấn “Pick Primer” để gửi thông tin đi xử lý Chương trình sẽ trả về kết quả lựa chọn đoạn mồi, với giao diện như sau:
Trang 2012
Hình 2: Giao diện kết quả phần mềm thiết kế mồi Primer3
Như vậy, chương trình Primer3 đã lựa chọn được 4 cặp mồi Cặp mồi phù hợp nhất là cặp mồi được hiển thị đầu tiên trong tệp kết quả:
- Mồi xuôi: cgtcgtccttctcttctccg
Trang 2113
- Mồi ngược: gagggaggcatagagaacgg
Sau đó là 3 cặp mồi khác kém hơn, xếp theo thứ tự chất lượng giảm dần như sau:
1 Mồi xuối: gcctgctacactcagtctcc
Mồi ngược: ggaggcatagagaacgggaa
2 Mồi xuôi: attccgcctgctacactcag
Mồi ngược: agaggagggaggcatagaga
3 Mồi xuôi: tctccgtcagctctcagtct
Mồi ngược: gataagaggagggaggcatag
Thông tin này sẽ được sử dụng để tổng hợp nên đoạn mồi
2.2 Các công cụ tìm kiếm tương đồng
2.2.1 Cấu trúc và chức năng của các phân tử sinh học
Acid nucleic là một đại phân tử sinh học, được cấu thành từ 3 thành phần: một đường pentose, một nhóm phosphat, và một base nitơ Acid nucleic gồm 2 loại là ADN và ARN Acid nucleic là một polymer được hình thành từ các monomer là nucleotid bằng liên kết phosphodieste Có 5 loại nucleotid là Adenin (A), Cytosin (C), Guanin (G), Thymin (T) và Uracil (U) Trật tự sắp xếp các nucleotid này tạo thành trình tự của ADN và ARN
ADN là một chuỗi xoắn kép gồm 2 chuỗi đơn, mỗi chuỗi đơn là một chuỗi polynucleotid Trật tự sắp xếp các nucleotid tạo thành trình tự gen Trình tự gen quy định trình tự ARN được tạo ra qua quá trình phiên mã, trình tự ARN lại quy định trình tự protein được tạo ra qua quá trình dịch mã Như vậy, trật tự sắp xếp
Trang 2214
các nucleotid trên các gen sẽ quyết định trật tự sắp xếp các acid amin trên protein
mà gen đó mã hóa Trình tự ADN chứa 4 loại nucleotid là: A, C, G, T
Có 20 acid amin thông thường Mỗi acid amin ngoài tên đầy đủ còn có thể biểu diễn dưới dạng viết tắt 3 chữ cái hoặc 1 chữ cái Trình tự acid amin được quy định bởi trình tự nucleotid trên gen Mỗi bộ ba nucleotid liên tiếp (còn gọi là một codon) mã hóa cho một loại acid amin nhất định
Protein là những phân tử gồm một hoặc nhiều chuỗi polypeptid, được cấu tạo từ các đơn vị cơ bản là acid amin Trình tự các acid amin trong chuỗi polypeptid quyết định cấu trúc không gian của chuỗi, từ đó sẽ quyết định chức năng của protein
2.2.2 Quá trình phân tích trình tự
2.2.2.1 Giải trình tự
Giải trình tự gen là quá trình xác định thứ tự sắp xếp các nucleotid trên phân
tử ADN Trước đây, phân tử ADN được giải trình tự bằng phương pháp hóa học hoặc phương pháp enzym Hiện nay, với sự phát triển của khoa học công nghệ, các đoạn vẫn được giải trình tự theo phương pháp enzym nhưng bằng các máy giải trình tự tự động [8]
2.2.2.2 Lắp ráp trình tự
Các công cụ giải trình tự hiện nay chỉ có thể đọc được những đoạn nhỏ của
bộ gen (từ 100bp đến khoảng 20kb), ngắn hơn đáng kể so với các gen đang được nghiên cứu (ví dụ như bộ gen con người chứa trên 3Gb) Do vậy, để thu được một trình tự hoàn chỉnh, sau khi giải trình tự từng đoạn nhỏ, phải lắp ráp các đoạn nhỏ
đó lại thành một chuỗi hoàn chỉnh [1],[70] Đó chính là quá trình lắp ráp trình tự,
Trang 2315
với sự trợ giúp của các chương trình máy tính Một số phần mềm được sử dụng phổ biến là Celera, Euler, Phrap, Velvet [70],[48]
2.2.2.3 Chú giải gen
Sau khi có được trình tự gen, quá trình dự đoán gen và chú giải gen sẽ diễn
ra Đây là quá trình xác định vị trí của gen, các vùng mã hóa trong gen và xác định chức năng sinh học của protein mà gen đó mã hóa Tìm kiếm tương đồng là một bài toán trong lĩnh vực chú giải gen Bằng cách so sánh trình tự nucleotid của gen hoặc trình tự acid amin của protein mà gen đó mã hóa với trình tự của các gen hoặc protein đã biết chức năng, nhà nghiên cứu có thể xác định những trình tự tương đồng, điều này cung cấp đầu mối chức năng của protein mới Các chương trình tin sinh học tìm kiếm tương đồng thường được sử dụng cho mục đích này [41]
2.2.3 Ứng dụng chương trình tìm kiếm tương đồng trong chú giải gen
Các chương trình tìm kiếm tương đồng được sử dụng rộng rãi gồm có: BLAST [9], PSI – BLAST [9], SSEARCH [73],[53], FASTA [54] và HMMER3 [32] Đề tài sẽ tập trung giới thiệu về chương trình BLAST
BLAST - một trong những phần mềm tìm kiếm trình tự được sử dụng rộng rãi nhất [17] – là một trong những phần mềm được sử dụng phổ biến trong chú giải gen
Phần mềm BLAST so sánh cấu trúc chuỗi ADN cần phân tích với thư viện các chuỗi ADN đã biết được lưu giữ trong ngân hàng dữ liệu, để xác định chuỗi (hoặc các chuỗi) tương đồng nhất với chuỗi cần phân tích [1]
Trang 2416
Chương trình BLAST có thể được sử dụng online tại địa chỉ:
https://blast.ncbi.nlm.nih.gov/Blast.cgi
Giao diện chương trình BLAST:
Hình 3: Giao diện chương trình BLAST
Thao tác sử dụng phần mềm BLAST [1]:
Bước 1: Lựa chọn chương trình BLAST
Có 5 phiên bản của chương trình BLAST [12]:
Blastp: so sánh trình tự protein cần phân tích với các trình tự protein trong ngân hàng dữ liệu
Blastn: so sánh trình tự nucleotid cần phân tích với trình tự các nucleotid trong ngân hàng dữ liệu
Blastx: so sánh trình tự nucleotid cần phân tích với trình tự các protein trong ngân hàng dữ liệu
Trang 25Người dùng nhập dữ liệu chuỗi cần phân tích Người dùng có thể tải tập tin
dữ liệu ở định dạng FASTA hoặc nhập mã của trình tự truy vấn vào ô nhập
Bước 3: Đặt vùng phân tích “Set Subsequence” Trong mục này, người phân tích phải cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bằng 2 giá trị số chỉ vị trí giới hạn đầu – cuối đoạn chuỗi ấy
Bước 4: Lựa chọn ngân hàng dữ liệu “choose databases”: Người phân tích phải xác định nhóm dữ liệu cụ thể của ngân hàng dữ liệu được chỉ định làm đối tượng so sánh, bằng cách đánh dấu vào một trong các mảng cấu trúc chuỗi
Người phân tích có thể đặt thêm một số tùy chọn như giới hạn, lọc chuỗi,…
để tối ưu các kết quả
Bước 5: Gửi yêu cầu xử lý Người phân tích nhấn lệnh “BLAST” để gửi yêu cầu Chương trình BLAST sẽ phản hồi yêu cầu bằng một tệp dữ liệu kết quả, với các mức từ thấp đến cao (nghĩa là các chuỗi được hiện thị theo độ tương đồng
từ mức cao xuống mức thấp hơn)
Trang 2618
Cấu trúc tệp tin kết quả được trả về: Phần đầu hiển thị kết quả sơ bộ dạng
đồ họa hình ảnh màu của các chuỗi có độ tương đồng cao nhất Phần tiếp theo hiển thị kết quả dạng ký tự tóm tắt kết quả Phần thứ ba hiển thị kết quả cụ thể khi so sánh từng cặp chuỗi Phần cuối cùng tóm tắt thông tin về chế độ chạy yêu cầu cho BLAST
Sau khi hoàn thành quá trình tìm kiếm, chương trình xếp hạng bắt cặp giữa chuỗi truy vấn và những chuỗi có sẵn trong cơ sở dữ liệu theo giá trị kì vọng (E-value) Giá trị kì vọng càng thấp có nghĩa là độ tương đồng giữa hai trình tự càng cao
2.3 Các phần mềm trực quan phân tử
2.3.1 Một số thông tin liên quan về protein và kĩ thuật đồ họa phân tử
Protein được cấu tạo từ một hoặc nhiều polypeptid, mỗi polypeptid cuộn và xoắn tạo thành cấu trúc ba chiều riêng biệt Cấu trúc không gian của một protein quy định chức năng của protein đó, ví dụ các phân tử tín hiệu và protein thụ thể đặc hiệu chỉ có thể gắn và tạo phản ứng khi có sự bổ sung chính xác về hình dạng giữa bề mặt của phân tử tín hiệu và thụ thể [60]
Đồ họa phân tử [19] là một kĩ thuật mô phỏng các phân tử trên các thiết bị hiển thị đồ họa Kĩ thuật này cho phép quan sát cấu trúc phân tử ở dạng không gian 3 chiều
Tóm lại, cấu trúc không gian của các phân tử là một thuộc tính quan trọng quy định tính chất và đặc tính của chúng Các chương trình hiển thị cấu trúc giúp các nhà khoa học có thể quan sát, so sánh các đặc điểm về cấu trúc, từ đó phân tích, dự đoán được các đặc tính của đối tượng nghiên cứu [1]
Trang 2719
2.3.2 Ứng dụng các phần mềm trực quan phân tử
2.3.2.1 Thông tin chung về các phần mềm trực quan phân tử
Thông tin về cấu trúc 3 chiều của các phân tử sinh học được lưu trong các tệp tin định dạng PDB, với phần mở rộng tệp là pdb hoặc ent Định dạng PDB chứa các thông tin về cấu trúc của phân tử Định dạng này có thể được đọc và biểu diễn bởi hầu hết các phần mềm trực quan phân tử như RasMol [68], Cn3D [81] hoặc KineMage [62] (hình 5) Mỗi phân tử có một mã PDB riêng gồm 4 kí tự chữ
và số, mã này dùng để tìm kiếm phân tử đó trong các cơ sở dữ liệu, ví dụ mã số của lysozym lòng trắng trứng gà là 1LYZ
Trang 2820
Hình 4: Biểu diễn đồ họa của cấu trúc 3 chiều protein Hình ảnh 3 chiều của lysozym lòng trắng trứng gà được hiển thị với RasMol (hàng đầu và hàng hai), và Cn3D (hàng ba) [76]
Một số phần mềm phổ biến được sử dụng để hiển thị cấu trúc 3 chiều của các phân tử, có thể kể đến: ChemOffice (http://www.camsoft.com), RasMol (http://www.umass.edu/microbio/rasmol/index2.htm) – một trong những phần mềm miễn phí được sử dụng rộng rãi nhất (Hình 7), KineMage (http://orca.st.usm.edu/rbateman/kinemage/) (Hình 8), Cn3D (Hình 9)
Ngoài ra, người dùng cũng có thể tìm kiếm đồ họa cấu trúc 3 chiều của phân
tử trực tuyến tại địa chỉ http://www.rcsb.org/pdb/ bằng cách tìm kiếm thông qua
mã PDB (Hình 6)
Trang 2921
Hình 5: Cấu trúc 3 chiều của lysozym lòng trắng trứng gà được tìm
kiếm trực tuyến bằng mã PDB: 1LYZ