1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tổng quan về tin sinh học và một số ứng dụng trong thực tế

59 312 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 1,29 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Vì vậy, để khai thác được các giá trị của tin sinh học, chúng tôi tiến hành đề tài “Tổng quan về tin sinh học và một số ứng dụng trong thực tế" với 2 mục tiêu: 1.. Một số định nghĩa về t

Trang 1

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

HOÀNG NGUYỄN KHÁNH LINH

Trang 2

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

HOÀNG NGUYỄN KHÁNH LINH

Trang 3

LỜI CẢM ƠN

Trong quá trình thực hiện và hoàn thành khóa luận này, em đã nhận được

rất nhiều sự quan tâm, động viên và giúp đỡ tận tình từ các thầy cô, gia đình và

bạn bè Nhờ có sự giúp đỡ quý báu đó mà em mới có thể nghiên cứu và hoàn thành

tốt khóa luận của mình

Nhân dịp này, em xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến:

PGS TS Nguyễn Văn Rư, thầy đã tận tình chỉ bảo, tạo mọi điều kiện,

trực tiếp hướng dẫn em hoàn thành khóa luận

Em cũng xin trân trọng cảm ơn Đảng ủy, Ban Giám hiệu nhà trường, Phòng

Đào tạo cùng toàn thể các thầy cô, các cán bộ Trường Đại học Dược Hà Nội đã

tạo điều kiện để em có thể lĩnh hội những kiến thức quý giá về ngành Dược trong

suốt 5 năm học

Cuối cùng, em xin gửi lời cảm ơn sâu sắc đến gia đình, bạn bè đã luôn sát

cánh, động viên em hoàn thành khóa luận này

Hà Nội, ngày 18 tháng 5 năm 2017

Sinh viên Hoàng Nguyễn Khánh Linh

Trang 4

MỤC LỤC

ĐẶT VẤN ĐỀ 1

PHẦN I: TỔNG QUAN 2

1 Tổng quan về tin sinh học 2

1.1 Giới thiệu chung về tin sinh học 2

1.1.1 Một số định nghĩa về tin sinh học 2

1.1.2 Vai trò, lợi ích của tin sinh học 3

1.1.3 Một số cơ sở dữ liệu tin sinh học lớn 4

1.2 Tình hình phát triển Tin sinh học tại Việt Nam hiện nay 4

2 Một số chương trình, phần mềm tin sinh học phổ biến 6

2.1 Chương trình thiết kế mồi trong phản ứng PCR 6

2.1.1 Giới thiệu về phản ứng PCR 6

2.1.2 Giai đoạn thiết kế mồi và ứng dụng của tin sinh học 8

2.2 Các công cụ tìm kiếm tương đồng 13

2.2.1 Cấu trúc và chức năng của các phân tử sinh học 13

2.2.2 Quá trình phân tích trình tự 14

2.2.3 Ứng dụng chương trình tìm kiếm tương đồng trong chú giải gen 15

2.3 Các phần mềm trực quan phân tử 18

2.3.1 Một số thông tin liên quan về protein và kĩ thuật đồ họa phân tử 18

Trang 5

2.3.2 Ứng dụng các phần mềm trực quan phân tử 19

2.4 Một số kĩ thuật mới 25

2.4.1 Kĩ thuật khai thác dữ liệu (Data mining) 25

2.4.2 Kĩ thuật nguồn lực cộng đồng 26

3 Một số ứng dụng của tin sinh học 28

3.1 Các ứng dụng trong chẩn đoán 28

3.1.1 Ứng dụng kĩ thuật giải trình tự định danh vi khuẩn 28

3.1.2 Ứng dụng kỹ thuật PCR, giải trình tự để định danh vi nấm 29

3.1.3 Ứng dụng PCR và giải trình tự trong chẩn đoán bệnh 29

3.2 Ứng dụng trong kiểm nghiệm chất lượng sản phẩm probiotic 29

3.3 Ứng dụng PCR, giải trình tự phát hiện đột biến kháng thuốc 31

3.4 Ứng dụng kĩ thuật giải trình tự dự đoán chức năng protein 31

3.5 Ứng dụng trong việc xác định gen gây bệnh ở người 31

3.6 Ứng dụng trong nghiên cứu phát triển thuốc 33

PHẦN II: BÀN LUẬN 34

KẾT LUẬN VÀ ĐỀ XUẤT 40

TÀI LIỆU THAM KHẢO 41

Trang 6

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

1 ADN Acid deoxyribonucleic

3 BLAST Basic Local Alignment Search Tool

4 CIB DDBJ The Center for Information Biology and DNA Data

Bank of Japan

5 EMBL European Molecular Biology Laboratory

6 FAO Food and Agriculture Organization

7 FDA The Food and Drug Administration

8 GMO Genetically Modified Organism

9 GWAS Genome-wide association study

10 HBV Hepatitis B virrus

11 HCV Hepatitis C virus

12 MTHFR Methylen tetrahydrofolat reductase

13 NCBI National Center for Biotechnology Information

15 PCR Polymerase Chain Reaction

Trang 7

16 SNP Single nucleotide polymorphisms

18 WHO World Health Organization

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1: Nguyên tắc và các bước thực hiện phản ứng PCR [90] 7Hình 2: Giao diện kết quả phần mềm thiết kế mồi Primer3 12Hình 3: Giao diện chương trình BLAST 16Hình 4: Biểu diễn đồ họa của cấu trúc 3 chiều protein Hình ảnh 3 chiều của lysozym lòng trắng trứng gà được hiển thị với RasMol (hàng đầu và hàng hai), và Cn3D (hàng ba) [76] 20

Hình 5: Cấu trúc 3 chiều của lysozym lòng trắng trứng gà được tìm kiếm trực tuyến bằng mã PDB: 1LYZ 21

Hình 6: Cấu trúc 3 chiều của phức hợp alcol dehydrogenase được hiển thị với phần mềm RasMol [76] 22

Hình 7: Chuỗi Cα của lysozym lòng trắng trứng gà được hiển thị với phần mềm KineMage [76] 23

Hình 8: Tương tác của các đại phân tử được hiển thị với phần mềm Cn3D [76] 24

Hình 9: Kết quả giải trình tự 16s rDNA trực khuẩn Gram (+) phân lập kị khí từ bệnh phẩm mủ xoang [8] 28

Trang 9

1

ĐẶT VẤN ĐỀ

Tin sinh học là một khoa học liên ngành ứng dụng tin học để giải quyết các vấn đề thuộc lĩnh vực sinh học Do đặc thù ngành, khoa học sinh học có một số lượng dữ liệu khổng lồ, vì vậy các ứng dụng của tin học có thể giúp lưu trữ, xử lý, chiết tách và ứng dụng các dữ liệu đó một cách hiệu quả nhất

Trên thế giới, ứng dụng tin sinh học đã mang lại nhiều lợi ích trong nhiều lĩnh vực khoa học thực tế như là nông nghiệp, công nghiệp, y dược học đặc biệt là nghiên cứu phát triển thuốc và chẩn đoán theo dõi điều trị bệnh

Ở Việt Nam, tin sinh học đã được quan tâm và ứng dụng vào thực tế đạt được những kết quả to lớn Trong lĩnh vực y dược học, ứng dụng tin sinh học cũng đang diễn ra mạnh mẽ như là nghiên cứu phát triển thuốc, chẩn đoán điều trị bệnh Tuy nhiên những nghiên cứu ứng dụng ở nước ta hiện nay cũng mới chỉ bắt đầu

Vì vậy, để khai thác được các giá trị của tin sinh học, chúng tôi tiến hành đề tài

“Tổng quan về tin sinh học và một số ứng dụng trong thực tế" với 2 mục tiêu:

1 Thu thập và trình bày được các kiến thức về tin sinh học

2 Trình bày được một số ứng dụng về tin sinh học trong thực tế

Trang 10

2

PHẦN I: TỔNG QUAN

1 Tổng quan về tin sinh học

1.1 Giới thiệu chung về tin sinh học

1.1.1 Một số định nghĩa về tin sinh học

Có rất nhiều định nghĩa khác nhau về tin sinh học:

- Thuật ngữ tin sinh học dùng để chỉ hầu hết các ứng dụng máy tính vào khoa học sinh học, ban đầu dùng để gọi việc phân tích dữ liệu trình tự sinh học vào giữa thập niên 80 [11]

- Việc sử dụng máy tính và công nghệ thông tin để lưu trữ và phân tích trình

tự nucleotid và acid amin và các thông tin liên quan [55]

- Một lĩnh vực khoa học gồm tất cả các khía cạnh của việc thu thập, lưu trữ,

xử lý, phân tích, giải thích và truyền bá thông tin sinh học [38]

Tóm lại, tin sinh học là một lĩnh vực liên ngành, với sự kết hợp của sinh học, khoa học máy tính và công nghệ thông tin Có 3 hướng chính trong tin sinh học:

- (1) Phát triển các kĩ thuật thống kê và thuật toán mới để đánh giá mối quan

hệ giữa các dữ liệu trong cơ sở dữ liệu lớn

- (2) Phân tích và diễn giải các loại dữ liệu khác nhau, bao gồm trình tự nucleotid, acid amin, và cấu trúc protein

- (3) Sự phát triển các công cụ cho phép truy cập và quản lý hiệu quả các loại thông tin khác nhau

Trang 11

3

1.1.2 Vai trò, lợi ích của tin sinh học

Tin sinh học đã và đang được ứng dụng vào nhiều lĩnh vực trong nghiên cứu khoa học Trong công nghệ sinh học, tin sinh học giúp thúc đẩy các quá trình như giải trình tự gen tự động, dự đoán chức năng gen, dự đoán cấu trúc protein, phát triển thuốc, thiết kế vaccin [71], nghiên cứu tiến hóa, cải tiến cây trồng, khoa học thú y [37]

Với riêng ngành dược, tin sinh học được ứng dụng nhiều trong phát triển thuốc Quá trình nghiên cứu và phát triển thuốc rất tốn kém về tiền bạc và thời gian Vì vậy, các công ty dược phẩm luôn tìm mọi cách để giảm nguy cơ thất bại khi phát triển thuốc cũng như cố gắng đẩy nhanh tiến trình phát hiện thuốc Việc ứng dụng tin sinh học vào nghiên cứu phát triển thuốc đem lại nhiều lợi ích to lớn:

- Tiết kiệm chi phí: Theo ước tính, chi phí của quá trình nghiên cứu phát triển thuốc lên tới 800 triệu đô cho mỗi thuốc được đưa ra thị trường [21] Các công cụ tin sinh học đang được ứng dụng để giảm bớt gánh nặng chi phí này

- Tiết kiệm thời gian: Sức mạnh của các công cụ tin sinh học có thể giúp dự đoán các hoạt chất tiềm năng Việc dự đoán hoạt chất tiềm năng nhất để tập trung phát triển hoạt chất đó thay vì nghiên cứu dàn trải có thể rút ngắn thời gian nghiên cứu phát triển thuốc, thuốc có thể sẽ được đưa ra thị trường sớm hơn

- Hiệu quả điều trị: Một thuốc mới được đưa ra thị trường có thể là thuốc

để trị một bệnh chưa tìm ra các thuốc chữa, hoặc là thuốc có ưu thế về một mặt nào đó hơn các thuốc trị bệnh đó đã biết Hiệu quả của thuốc sẽ đem lại những lợi ích cho các bệnh nhân nói riêng và toàn xã hội nói chung

Trang 12

4

1.1.3 Một số cơ sở dữ liệu tin sinh học lớn

Cơ sở dữ liệu của NCBI là một trong các cơ sỡ dữ liệu sinh học lớn nhất thế giới hiện nay Trung tâm dữ liệu này gồm một số mảng dữ liệu con như PubMed chứa các công trình nghiên cứu của các nhà khoa học, GenBank chứa dữ liệu về cấu trúc chuỗi ADN và chuỗi acid amin, dịch vụ Entrez kết nối liên thông giữa các mảng dữ liệu khác,…

Cơ sở dữ liệu EMBL của phòng thí nghiệm sinh học phân tử châu Âu là một trong ba ngân hàng dữ liệu sinh học lớn nhất thế giới Trung tâm dữ liệu này cũng bao gồm một số mảng dữ liệu, trong đó lớn nhất phải kể đến dữ liệu cấu trúc ADN (EMBL), dữ liệu cấu trúc protein (SWISS-PROT) và dữ liệu cấu trúc các đại phân tử (EBI-MSD)

Cơ sở dữ liệu CIB – DDBJ là cơ sở dữ liệu thuộc sự quản lý của Trung tâm thông tin sinh học, Viện di truyền quốc gia Nhật Bản, và cũng là một trong ba ngân hàng dữ liệu sinh học lớn nhất thế giới

3 trung tâm dữ liệu gen lớn nhất thế giới là NCBI, EMBL và DDBJ liên kết với nhau GenBank chính là sản phẩm hợp tác quốc tế giữa 3 trung tâm này Mỗi

cơ sở dữ liệu đều sở hữu các thông tin của 2 cơ sở dữ liệu còn lại [3]

1.2 Tình hình phát triển Tin sinh học tại Việt Nam hiện nay

Bắt kịp xu thế phát triển của khoa học thế giới, ở Việt Nam đã có một số nhà khoa học quan tâm nghiên cứu lĩnh vực đầy tiềm năng này và đã đạt được một

số thành công nhất định

Trang 13

5

- Năm 2015, PGS Lê Sỹ Vinh cùng các cộng sự đến từ Đại học Công nghệ (Đại học Quốc gia Hà Nội) đã công bố kết quả nghiên cứu xây dựng và phân tích thành công hệ gen 3 cá thể của một gia đình người Việt Nam

- Tiến sĩ Nguyễn Cường cùng các cộng sự đến từ Phòng Tin sinh học, Viện Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam có nhiều công trình nghiên cứu theo các hướng như giải trình tự, lập bản đồ gen, phân tích

Trang 14

6

2 Một số chương trình, phần mềm tin sinh học phổ biến

2.1 Chương trình thiết kế mồi trong phản ứng PCR

Trang 15

7

2.1.1.2 Nguyên tắc và các bước thực hiện phản ứng PCR

Hình 1: Nguyên tắc và các bước thực hiện phản ứng PCR [90]

Nguyên tắc và các bước thực hiện: [8],[90]

Bước 1: ADN khuôn có cấu trúc xoắn kép sẽ được làm biến tính bởi nhiệt (khoảng 940C) và tách thành 2 mạch đơn

Bước 2: Hạ nhiệt độ xuống (khoảng 55-560C), mồi xuôi và mồi ngược sẽ gắn bổ sung vào 2 mạch đơn

Bước 3: Nhiệt độ lại được tăng (khoảng 720C) Các polymerase chịu nhiệt thực hiện phản ứng kéo dài chuỗi Đoạn ADN ban đầu được khuếch đại

Trang 16

8

Lặp đi lặp lại các bước như trên Sau mỗi chu kỳ, số sản phẩm nằm giữa hai

vị trí mồi được nhân đôi Sau 20 chu kỳ, trình tự đích tăng gấp khoảng một triệu lần [41]

2.1.1.3 Các yếu tố cần thiết cho một phản ứng PCR

Thành phần của một phản ứng PCR gồm có [67]:

- Một mẫu ADN chứa đoạn ADN đích cần khuếch đại

- Một ADN polymerase, thường sử dụng Taq polymerase chịu nhiệt [49] vì khả năng duy trì sự nguyên vẹn về cấu trúc và chức năng trong giai đoạn biến tính chuỗi ADN

- Hai đoạn mồi ADN

- dNTP gồm 4 loại dATP, dGTP, dCTP, dTTP là nguyên liệu để tổng hợp sợi bổ sung

- Một dung dịch đệm cung cấp môi trường hóa học thích hợp cho hoạt động của enzym ADN polymerase

- Các cation hóa trị hai, thường sử dụng Mg2+ hoặc Mn2+, là cofactor của enzym ADN polymerase

2.1.2 Giai đoạn thiết kế mồi và ứng dụng của tin sinh học

2.1.2.1 Vai trò của mồi và giai đoạn thiết kế mồi

Mồi là các đoạn trình tự ngắn oligonucleotid bổ sung với 2 đầu của đoạn ADN cần khuếch đại Để polymerase tổng hợp được sợi bổ sung, mồi phải bắt cặp được với sợi khuôn Do vậy có thể nói mồi đóng vai trò quyết định tính đặc hiệu của PCR [8]

Trang 17

9

Mồi phải thỏa mãn một số yêu cầu về độ dài, chiều, nhiệt độ gắn mồi, nhiệt

độ nóng chảy, mật độ GC Chọn mồi phải tuân theo một số nguyên tắc sau đây [1],[18]:

- Độ dài mồi cần chọn nằm trong khoảng 16 đến 30 nucleotid Chiều dài mồi xuôi và mồi ngược chênh lệch không quá 3 nucleotid

- Trình tự của mồi được chọn không có sự bắt cặp giữa mồi xuôi và mồi ngược, và cũng không tạo những cấu trúc kẹp tóc

- Mồi phải chọn đặc trưng cho ADN cần khuếch đại và không trùng với các trình tự lặp lại trên gen

- Trình tự nằm giữa mồi xuôi và mồi ngược không quá lớn (1kb)

- Nhiệt độ nóng chảy của mồi khoảng 72°C Chênh lệch nhiệt độ nóng chảy của mồi xuôi và mồi ngược không cách nhau quá xa, thông thường trong khoảng

từ 4-5°C

Để phản ứng PCR diễn ra thuận lợi, cần thiết kế mồi thỏa mãn các đặc điểm nêu trên

2.1.2.2 Ứng dụng tin sinh học vào giai đoạn thiết kế mồi

Có thể thấy, việc thiết kế mồi thủ công rất phức tạp và mất nhiều thời gian Một số phần mềm tin sinh học trợ giúp việc thiết kế mồi đã được phát triển, giúp tìm kiếm và lựa chọn đoạn nucleotid tương đồng với cấu trúc chuỗi phân tích Các chương trình thiết kế mồi được sử dụng phổ biến gồm có Primer3 [64], Primer – Blast [87], FastPCR [34], Oligo Primer Analysis [65]

Trang 18

10

Primer3 là phần mềm được sử dụng phổ biến nhất để thiết kế mồi [18] Đây

là một chương trình đơn giản và miễn phí, với phiên bản trực tuyến tại địa chỉ: http://bioinfo.ut.ee/primer3/

Các thao tác sử dụng chính phần mềm Primer3 [1]:

Bước 1: Nhập dữ liệu Chuỗi ký tự được viết theo định dạng FASTA

Bước 2: Thiết lập các thông số Một số thông số cơ bản gồm có:

Number to Return: số cặp mồi lựa chọn

Max 3’ Stability: chỉ số lựa chọn độ ổn định của chuỗi mồi

Primer Size: kích thước giới hạn của đoạn mồi được chọn

Primer Tm: nhiệt độ phân ly cặp mồi

Max Self Complementaty: tổng trị số lớn nhất đánh giá khả năng tự bắt cặp của đoạn mồi với đoạn mồi khác

Salt Concentration: nồng độ muối trong phản ứng PCR

Annealing Ologo Concentration: nồng độ mồi trong phản ứng PCR

Start Codong Position: vị trí xác định trong thực nghiệm

Bước 3: Gửi lệnh yêu cầu Nhấn “Pick Primer” để gửi thông tin đi xử lý

Chương trình sẽ trả về kết quả lựa chọn đoạn mồi

Ví dụ, với chuỗi trình tự sau:

ctcagctgtgtcaaagtttcacagatcctcgtcttctattccggctacactcagtctcctccagcttagatctttgtccttctcctgggtactctccgactccttcttccagctaatgtccggtcattagaaaagttttaaagtttgaattgtcnntccctgtcaaagtttccagacctcgtcgtccttctcttctccgtcagctctcagtcttcattggaacagatctgtctttattcc

Trang 19

11

gcctgctacactcagtctcctccttcagtctcttaaaagtttgttcagtcttagatgaatttctctgggtactttgtcctccgactccgtccagctaatcggtcttgtcgtcattagatttccttcttctagatgattcatgtctacctattgtcnntcgtcttcccgtgtnnnccaggtccgtttcgtccgcctgtcgtctattctatctcggtccttacacaaagttgtccttaaagtttttttgtgtccctagtccaaggtccaattttttccatctgtttcgtcctgtcttttttgngntcgcgtccgtttcccgttctctatgcctccctcctcttatc

Đầu tiên, nhập trình tự vào ô nhập Sau đó, thiết lập một số thông số, ví dụ:

- Pair Max Mispriming: 24.00

- Primer Size: Min: 15 Opt: 20 Max: 25

- Primer Tm: Min: 55 Opt: 60 Max: 65

- Product Tm: Min: Opt: 50 Max:

- Các tham số còn lại giữ nguyên giá trị mặc định

Nhấn “Pick Primer” để gửi thông tin đi xử lý Chương trình sẽ trả về kết quả lựa chọn đoạn mồi, với giao diện như sau:

Trang 20

12

Hình 2: Giao diện kết quả phần mềm thiết kế mồi Primer3

Như vậy, chương trình Primer3 đã lựa chọn được 4 cặp mồi Cặp mồi phù hợp nhất là cặp mồi được hiển thị đầu tiên trong tệp kết quả:

- Mồi xuôi: cgtcgtccttctcttctccg

Trang 21

13

- Mồi ngược: gagggaggcatagagaacgg

Sau đó là 3 cặp mồi khác kém hơn, xếp theo thứ tự chất lượng giảm dần như sau:

1 Mồi xuối: gcctgctacactcagtctcc

Mồi ngược: ggaggcatagagaacgggaa

2 Mồi xuôi: attccgcctgctacactcag

Mồi ngược: agaggagggaggcatagaga

3 Mồi xuôi: tctccgtcagctctcagtct

Mồi ngược: gataagaggagggaggcatag

Thông tin này sẽ được sử dụng để tổng hợp nên đoạn mồi

2.2 Các công cụ tìm kiếm tương đồng

2.2.1 Cấu trúc và chức năng của các phân tử sinh học

Acid nucleic là một đại phân tử sinh học, được cấu thành từ 3 thành phần: một đường pentose, một nhóm phosphat, và một base nitơ Acid nucleic gồm 2 loại là ADN và ARN Acid nucleic là một polymer được hình thành từ các monomer là nucleotid bằng liên kết phosphodieste Có 5 loại nucleotid là Adenin (A), Cytosin (C), Guanin (G), Thymin (T) và Uracil (U) Trật tự sắp xếp các nucleotid này tạo thành trình tự của ADN và ARN

ADN là một chuỗi xoắn kép gồm 2 chuỗi đơn, mỗi chuỗi đơn là một chuỗi polynucleotid Trật tự sắp xếp các nucleotid tạo thành trình tự gen Trình tự gen quy định trình tự ARN được tạo ra qua quá trình phiên mã, trình tự ARN lại quy định trình tự protein được tạo ra qua quá trình dịch mã Như vậy, trật tự sắp xếp

Trang 22

14

các nucleotid trên các gen sẽ quyết định trật tự sắp xếp các acid amin trên protein

mà gen đó mã hóa Trình tự ADN chứa 4 loại nucleotid là: A, C, G, T

Có 20 acid amin thông thường Mỗi acid amin ngoài tên đầy đủ còn có thể biểu diễn dưới dạng viết tắt 3 chữ cái hoặc 1 chữ cái Trình tự acid amin được quy định bởi trình tự nucleotid trên gen Mỗi bộ ba nucleotid liên tiếp (còn gọi là một codon) mã hóa cho một loại acid amin nhất định

Protein là những phân tử gồm một hoặc nhiều chuỗi polypeptid, được cấu tạo từ các đơn vị cơ bản là acid amin Trình tự các acid amin trong chuỗi polypeptid quyết định cấu trúc không gian của chuỗi, từ đó sẽ quyết định chức năng của protein

2.2.2 Quá trình phân tích trình tự

2.2.2.1 Giải trình tự

Giải trình tự gen là quá trình xác định thứ tự sắp xếp các nucleotid trên phân

tử ADN Trước đây, phân tử ADN được giải trình tự bằng phương pháp hóa học hoặc phương pháp enzym Hiện nay, với sự phát triển của khoa học công nghệ, các đoạn vẫn được giải trình tự theo phương pháp enzym nhưng bằng các máy giải trình tự tự động [8]

2.2.2.2 Lắp ráp trình tự

Các công cụ giải trình tự hiện nay chỉ có thể đọc được những đoạn nhỏ của

bộ gen (từ 100bp đến khoảng 20kb), ngắn hơn đáng kể so với các gen đang được nghiên cứu (ví dụ như bộ gen con người chứa trên 3Gb) Do vậy, để thu được một trình tự hoàn chỉnh, sau khi giải trình tự từng đoạn nhỏ, phải lắp ráp các đoạn nhỏ

đó lại thành một chuỗi hoàn chỉnh [1],[70] Đó chính là quá trình lắp ráp trình tự,

Trang 23

15

với sự trợ giúp của các chương trình máy tính Một số phần mềm được sử dụng phổ biến là Celera, Euler, Phrap, Velvet [70],[48]

2.2.2.3 Chú giải gen

Sau khi có được trình tự gen, quá trình dự đoán gen và chú giải gen sẽ diễn

ra Đây là quá trình xác định vị trí của gen, các vùng mã hóa trong gen và xác định chức năng sinh học của protein mà gen đó mã hóa Tìm kiếm tương đồng là một bài toán trong lĩnh vực chú giải gen Bằng cách so sánh trình tự nucleotid của gen hoặc trình tự acid amin của protein mà gen đó mã hóa với trình tự của các gen hoặc protein đã biết chức năng, nhà nghiên cứu có thể xác định những trình tự tương đồng, điều này cung cấp đầu mối chức năng của protein mới Các chương trình tin sinh học tìm kiếm tương đồng thường được sử dụng cho mục đích này [41]

2.2.3 Ứng dụng chương trình tìm kiếm tương đồng trong chú giải gen

Các chương trình tìm kiếm tương đồng được sử dụng rộng rãi gồm có: BLAST [9], PSI – BLAST [9], SSEARCH [73],[53], FASTA [54] và HMMER3 [32] Đề tài sẽ tập trung giới thiệu về chương trình BLAST

BLAST - một trong những phần mềm tìm kiếm trình tự được sử dụng rộng rãi nhất [17] – là một trong những phần mềm được sử dụng phổ biến trong chú giải gen

Phần mềm BLAST so sánh cấu trúc chuỗi ADN cần phân tích với thư viện các chuỗi ADN đã biết được lưu giữ trong ngân hàng dữ liệu, để xác định chuỗi (hoặc các chuỗi) tương đồng nhất với chuỗi cần phân tích [1]

Trang 24

16

Chương trình BLAST có thể được sử dụng online tại địa chỉ:

https://blast.ncbi.nlm.nih.gov/Blast.cgi

Giao diện chương trình BLAST:

Hình 3: Giao diện chương trình BLAST

Thao tác sử dụng phần mềm BLAST [1]:

Bước 1: Lựa chọn chương trình BLAST

Có 5 phiên bản của chương trình BLAST [12]:

Blastp: so sánh trình tự protein cần phân tích với các trình tự protein trong ngân hàng dữ liệu

Blastn: so sánh trình tự nucleotid cần phân tích với trình tự các nucleotid trong ngân hàng dữ liệu

Blastx: so sánh trình tự nucleotid cần phân tích với trình tự các protein trong ngân hàng dữ liệu

Trang 25

Người dùng nhập dữ liệu chuỗi cần phân tích Người dùng có thể tải tập tin

dữ liệu ở định dạng FASTA hoặc nhập mã của trình tự truy vấn vào ô nhập

Bước 3: Đặt vùng phân tích “Set Subsequence” Trong mục này, người phân tích phải cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bằng 2 giá trị số chỉ vị trí giới hạn đầu – cuối đoạn chuỗi ấy

Bước 4: Lựa chọn ngân hàng dữ liệu “choose databases”: Người phân tích phải xác định nhóm dữ liệu cụ thể của ngân hàng dữ liệu được chỉ định làm đối tượng so sánh, bằng cách đánh dấu vào một trong các mảng cấu trúc chuỗi

Người phân tích có thể đặt thêm một số tùy chọn như giới hạn, lọc chuỗi,…

để tối ưu các kết quả

Bước 5: Gửi yêu cầu xử lý Người phân tích nhấn lệnh “BLAST” để gửi yêu cầu Chương trình BLAST sẽ phản hồi yêu cầu bằng một tệp dữ liệu kết quả, với các mức từ thấp đến cao (nghĩa là các chuỗi được hiện thị theo độ tương đồng

từ mức cao xuống mức thấp hơn)

Trang 26

18

Cấu trúc tệp tin kết quả được trả về: Phần đầu hiển thị kết quả sơ bộ dạng

đồ họa hình ảnh màu của các chuỗi có độ tương đồng cao nhất Phần tiếp theo hiển thị kết quả dạng ký tự tóm tắt kết quả Phần thứ ba hiển thị kết quả cụ thể khi so sánh từng cặp chuỗi Phần cuối cùng tóm tắt thông tin về chế độ chạy yêu cầu cho BLAST

Sau khi hoàn thành quá trình tìm kiếm, chương trình xếp hạng bắt cặp giữa chuỗi truy vấn và những chuỗi có sẵn trong cơ sở dữ liệu theo giá trị kì vọng (E-value) Giá trị kì vọng càng thấp có nghĩa là độ tương đồng giữa hai trình tự càng cao

2.3 Các phần mềm trực quan phân tử

2.3.1 Một số thông tin liên quan về protein và kĩ thuật đồ họa phân tử

Protein được cấu tạo từ một hoặc nhiều polypeptid, mỗi polypeptid cuộn và xoắn tạo thành cấu trúc ba chiều riêng biệt Cấu trúc không gian của một protein quy định chức năng của protein đó, ví dụ các phân tử tín hiệu và protein thụ thể đặc hiệu chỉ có thể gắn và tạo phản ứng khi có sự bổ sung chính xác về hình dạng giữa bề mặt của phân tử tín hiệu và thụ thể [60]

Đồ họa phân tử [19] là một kĩ thuật mô phỏng các phân tử trên các thiết bị hiển thị đồ họa Kĩ thuật này cho phép quan sát cấu trúc phân tử ở dạng không gian 3 chiều

Tóm lại, cấu trúc không gian của các phân tử là một thuộc tính quan trọng quy định tính chất và đặc tính của chúng Các chương trình hiển thị cấu trúc giúp các nhà khoa học có thể quan sát, so sánh các đặc điểm về cấu trúc, từ đó phân tích, dự đoán được các đặc tính của đối tượng nghiên cứu [1]

Trang 27

19

2.3.2 Ứng dụng các phần mềm trực quan phân tử

2.3.2.1 Thông tin chung về các phần mềm trực quan phân tử

Thông tin về cấu trúc 3 chiều của các phân tử sinh học được lưu trong các tệp tin định dạng PDB, với phần mở rộng tệp là pdb hoặc ent Định dạng PDB chứa các thông tin về cấu trúc của phân tử Định dạng này có thể được đọc và biểu diễn bởi hầu hết các phần mềm trực quan phân tử như RasMol [68], Cn3D [81] hoặc KineMage [62] (hình 5) Mỗi phân tử có một mã PDB riêng gồm 4 kí tự chữ

và số, mã này dùng để tìm kiếm phân tử đó trong các cơ sở dữ liệu, ví dụ mã số của lysozym lòng trắng trứng gà là 1LYZ

Trang 28

20

Hình 4: Biểu diễn đồ họa của cấu trúc 3 chiều protein Hình ảnh 3 chiều của lysozym lòng trắng trứng gà được hiển thị với RasMol (hàng đầu và hàng hai), và Cn3D (hàng ba) [76]

Một số phần mềm phổ biến được sử dụng để hiển thị cấu trúc 3 chiều của các phân tử, có thể kể đến: ChemOffice (http://www.camsoft.com), RasMol (http://www.umass.edu/microbio/rasmol/index2.htm) – một trong những phần mềm miễn phí được sử dụng rộng rãi nhất (Hình 7), KineMage (http://orca.st.usm.edu/rbateman/kinemage/) (Hình 8), Cn3D (Hình 9)

Ngoài ra, người dùng cũng có thể tìm kiếm đồ họa cấu trúc 3 chiều của phân

tử trực tuyến tại địa chỉ http://www.rcsb.org/pdb/ bằng cách tìm kiếm thông qua

mã PDB (Hình 6)

Trang 29

21

Hình 5: Cấu trúc 3 chiều của lysozym lòng trắng trứng gà được tìm

kiếm trực tuyến bằng mã PDB: 1LYZ

Ngày đăng: 09/10/2017, 16:34

HÌNH ẢNH LIÊN QUAN

Hình 1: Nguyên tắc và các bước thực hiện phản ứng PCR [90] - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
Hình 1 Nguyên tắc và các bước thực hiện phản ứng PCR [90] (Trang 15)
Hình 2: Giao diện kết quả phần mềm thiết kế mồi Primer3 - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
Hình 2 Giao diện kết quả phần mềm thiết kế mồi Primer3 (Trang 20)
Hình 3: Giao diện chương trình BLAST - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
Hình 3 Giao diện chương trình BLAST (Trang 24)
Hình  5:  Cấu trúc  3  chiều của  lysozym  lòng  trắng  trứng  gà  được  tìm - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
nh 5: Cấu trúc 3 chiều của lysozym lòng trắng trứng gà được tìm (Trang 29)
Hình 6: Cấu trúc 3 chiều của phức hợp alcol dehydrogenase được hiển  thị với phần mềm RasMol [76] - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
Hình 6 Cấu trúc 3 chiều của phức hợp alcol dehydrogenase được hiển thị với phần mềm RasMol [76] (Trang 30)
Hình 7: Chuỗi C α  của lysozym lòng trắng trứng gà được hiển thị với  phần mềm KineMage [76] - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
Hình 7 Chuỗi C α của lysozym lòng trắng trứng gà được hiển thị với phần mềm KineMage [76] (Trang 31)
Hình 8: Tương tác của các đại phân tử được hiển thị với phần mềm  Cn3D [76] - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
Hình 8 Tương tác của các đại phân tử được hiển thị với phần mềm Cn3D [76] (Trang 32)
Hình 9: Kết quả giải trình tự 16s rDNA trực khuẩn Gram (+) phân lập - Tổng quan về tin sinh học và một số ứng dụng trong thực tế
Hình 9 Kết quả giải trình tự 16s rDNA trực khuẩn Gram (+) phân lập (Trang 36)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w