TÌM KIẾM DỮ LIỆU SINH HỌC

 Cơ sở dữ liệu sinh học csdl là các thông tin về trình tự a.nu ADN, ARN, trình tự a.a của các phân tử Protein, thông tin về cấu trúc và trình tự nucleotit của một số genom, mô hình cấu

Trang 2

1 CƠ SỞ DỮ LIỆU SINH HỌC VÀ CÁC NGÂN HÀNG DLSH

2 CÁC CÔNG CỤ TÌM KIẾM, PHÂN TÍCH CÁC CSDL

3 THỰC HÀNH TÌM KIẾM CÁC DLSH

Trang 3

 Cơ sở dữ liệu sinh học (csdl) là các thông tin về trình tự a.nu (ADN, ARN), trình tự a.a của các phân tử Protein, thông tin về cấu trúc và trình tự nucleotit của một số genom, mô hình cấu trúc

không gian của các đại phân tử

 Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống

máy tính rất mạnh của 3 ngân hàng dữ liệu sinh học lớn nhất thế giới là NCBI, EMBL, DDBJ Ngoài ra toàn bộ dữ liệu Protein còn được lưu trữ ở PDB (Protein Data Bank)

I Cơ sở dữ liệu sinh học và các ngân hàng dữ liệu sinh học:

1.1 Khái quát chung về cơ sở dữ liệu sinh học:

Trang 4

 Các thông tin về dữ liệu DNA, protein chủ yếu là trình tự

nucleotit và trình tự axit amin

 Ngân hàng gen cũng có thể xem như một thư viện sách, trong

đó mỗi cuốn sách chính là một trình tự nucleotit của DNA hoặc aa của protein và chúng đều có đánh số Bằng cách này hoặc cách khác ta đều có thể tìm được trình tự mà ta quan tâm Dữ liệu về trình tự nucleotit trong DNA và trình tự aa trong protein là những

Trang 5

 Đối với DNA đó là số lượng, thành phần, trình tự sắp xếp của các nucleotit, ribonucleotit trên phân tử DNA và mRNA Thông tin

về DNA thường chỉ rõ chúng mã hóa cho sản phẩm gen gì? có mặt trong đối tượng sinh vật nào? Phân bố ở đâu?ngoài ra các thông tin này còn liên quan đến vấn đề nghiên cứu gì? Của tác giả nào?

 Đối với protein đó là số lượng và trình tự sắp xếp của aa trong

1 phân tử protein Các thông tin này cũng bao gồm định tính và vai trò của protein, vị trí có mặt trong tế bào, mô, cơ quan

Trang 6

 Genomic: Là tất cả những dữ liệu về thông tin di truyền của một

tế bào sinh vật nhất định

 Proteomic: Là tất cả các sản phẩm của gen(protein) của một tế

bào mô hoặc cơ quan của một sinh vật nào đó trong một giai

đoạn sinh lí nhất định Phạm vi hẹp ta có thể nói đó là tổng hợp sản phẩm dịch mà của tất cả các mARN trong tế bào sinh vật tại thời điểm nghiên cứu(tức là hướng tiếp cận từ protein)

Trang 7

Hiện nay có các cơ sở dữ liệu và ngân hàng dữ liệu sinh học lớn của thế giới:

 NCBI ( National Centre for Biotechnology Information)

 EMBL (European Molecular Biology Laboratory )

 DDBJ ( DNA Data Bank of Japan)

 PDB (Protein Data Bank)

1.2 Các cơ sở dữ liệu sinh học:

Trang 8

1.2.1 NCBI (National Centre for Biotechnology Information ): cơ

sở dữ liệu của Mỹ (http://www.ncbi.nlm.nih.gov/) Trong NCBI có các mục:

 PubMed: chứa phần tóm tắt của hơn 15.000.000 kết quả

nghiên cứu trong lĩnh vực sinh y học.( http://

Trang 9

 OMIM (Online Mendelian Inheritance in Man) : Với hơn

15.000 đăng mục, OMIM được duy trì bởi tiến sĩ Victor A

McKusick và cộng sự (Đại học Johns Hopkins), đăng tải 1 hệ

thống bệnh di truyền và liên tục được update

 OMIA ( Online Mendelian Inheritance in Animals) là một cơ sở

dữ liệu của các gen, các gen rối loạn di truyền và các tính trạng của các loài động vật

 Journals: Tìm kiếm các cơ sở dữ liệu tạp chí cho phép kết nối

1.2.1 NCBI (National Centre for Biotechnology Information ):

Trang 10

Trang 11

Trang 12

Trang 13

1.2.2 EMBL (European Molecular Biology Laboratory )

EMBL cấu thành tài nguyên trình tự nucleotide chính của châu

Âu Nguồn chính của các trình tự DNA và RNA là được đưa lên trực tiếp từ các nhà nghiên cứu, các dự án nghiên cứu gen và các sáng chế ứng dụng EMBL được hình thành trong một sự hợp tác quốc tế với GenBank (Mỹ) và cơ sở dữ liệu ADN của Nhật Bản

(DDBJ)

Trang 14

Trang 15

Trang 16

1.2.3 DDBJ ( DNA Data Bank of Japan)

Ngân hàng dữ liệu DNA của Nhật Bản là ngân hàng dữ liệu về các trình tự nucleotide duy nhất ở châu Á Cơ sở dữ liêêu này trao đổi các dữ liệu thu thập được với cơ sở dữ liệu EMBL và GenBank Các cơ sở dữ liệu này hầu như thống nhất được gọi

là “ISND, cơ sở dữ liệu trình tự nucleotide quốc tế" DDBJ thu thập dữ liệu chuỗi chủ yếu là từ các nhà nghiên cứu Nhật Bản, nhưng tất nhiên vẫn chấp nhận dữ liệu từ các nhà nghiên cứu trong bất kỳ các quốc gia khác 99% dữ liệu INSD từ các nhà nghiên cứu Nhật Bản được gửi thông qua DDBJ

Trang 17

Trang 18

Trang 19

PDB là kho lưu trữ duy nhất trên toàn thế giới, thông tin về các cấu trúc 3D của các phân tử sinh học lớn, bao gồm cả protein và axit nucleic Đây là những phân tử của sự sống được tìm thấy trong tất cả các sinh vật bao gồm vi khuẩn, nấm men, thực vật, ruồi, động vật khác, và con người Hiểu biết về hình dạng của một phân tử giúp chúng ta hiểu nó hoạt động như thế nào Kiến thức này có thể được sử dụng để giúp suy ra vai trò của một cấu trúc trong sức khỏe con người và bệnh tật, và trong thuốc phát triển PDB miễn phí cho người sử dụng Các kho lưu trữ PDB được cập nhật thứ tư mỗi tuần 1.2.4 PDB ( Protein Data Bank)

Trang 20

1.2.4.PDB ( Protein Data Bank)

http://www.rcsb.org/pdb/home/home.do

Trang 21

1.3 Sử dụng trình tự DNA và protein:

1.3.1 Cơ sở dữ liệu về nucleotit(nucleotide databases):

 GenBank : Tập hợp tất cả các trình tự nucleotit axit amin

GenBank đã cung cấp đầy đủ Cứ sau 2 tháng, 1 phiên bản

update được đưa ra

Trang 22

http://www.ncbi.nlm.nih.gov/genbank/

Trang 23

http://www.ebi.ac.uk/embl/

Trang 24

http://www.ddbj.nig.ac.jp/

Trang 25

1.3.2 Cơ sở dữ liệu protein:

1.3 Sử dụng trình tự DNA và protein:

http://www.uniprot.org/

Trang 26

1.3.2 Cơ sở dữ liệu protein:

http://www.ncbi.nlm.nih.gov/protein?db=protein

Trang 27

1.3.3 Cơ sở dữ liệu cấu trúc 3D Domain:

MMDB (molecular modeling database) : Cơ sở dữ liệu mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của cơ sở dữ liệu của NCBI, bao gồm các trình tự ,trích dẫn, phân loại học và các trình tự, cấu trúc lân cận

Trang 28

http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml

Trang 29

http://www.rcsb.org/pdb/home/home.do

Trang 30

1.3.4 Cơ sở dữ liệu toàn bộ gen (genome):

Trong giữa thập niên 1970, các phương pháp để cô lập các

trình tự DNA đã được thành lập và ý tưởng lập bản đồ toàn bộ bộ gien đã nảy sinh Một số loài sinh học (virus, vi khuẩn E coli, nấm men, ruồi giấm) sau đó đã được nghiên cứu mạnh mẽ

Một số trang web cung cấp thông tin về trình tự sắp xếp nucleotit của các gen đã được nghiên cứu như:

Trang 31

 Toàn bộ hệ gen (NCBI)

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome

 Toàn bộ bộ gen của vi sinh vật (TIGR)

http://www.tigr.org/tigr-scripts/CMR2/CMRGenomes.spl

 Chưa hoàn chỉnh bộ gen (TIGR) http://tigrblast.tigr.org/ufmg/

 Cơ sở dữ liệu đa hình đơn http://www.ncbi.nlm.nih.gov/SNP/

Trang 32

Trang 34

Trang 35

1.3.5 Cơ sở dữ liệu hệ thống học:

Chứa tên các sinh vật có trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotit hoặc trình tự axit amin Cung cấp một hệ thống phân loại và đơn vị phân loại

1.3 Sử dụng trình tự DNA và protein :

Trang 36

1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:

 Biết được trình tự sắp xếp của một gen bất kì so sánh với dữ liệu trong ngân hàng gen.từ đó xác định được đoạn ADN đó của sinh vật nào(tìm kiếm trình tự tương đồng)

 Biết được trình tự sắp xếp nucleotit của một đoạn ADN ta suy

ra được trình tự các axit amin tương ứng trên mạch Polipeptide nếu đoạn ADN mã hóa.(Dịch mã 1 phân tử ADN ra trình tự axit

amin)

1.3.4.1 Đối với cơ sở dữ liệu về nucleotit:

Trang 37

 Biết được trình tự gen của một gen(chẳng hạn như gen ung thư) người ta ó thể phát hiện sớm bằng PCR, lai ADN để ngăn

chặn, điều trị

 Từ các trình tự nucleotit có thể thiết kế những cặp mồi để

nhân bản các đoạn gen này cho những mục đích khác nhau, cũng như xác định mức độ hoạt động của gen đó trong những điều

kiện phức tạp

Trang 38

 Xác định đột biến, sự sắp xếp về trình tự nucleotit trong cùng một sản phẩm gen, có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn.

 Về mặt phân loại sinh học, đối với những gen bảo thủ cao, mang tính đặc thù cho loài, ví dụ gen mã hóa cho mARN Dựa

vào những gen này mà người ta so sánh trình tự nucleotide các loài với nhau để xác định mối quan hệ họ hàng

Trang 39

 Từ trình tự nucleotit của một phân tử ADN có thể nhận biết bản đồ các vị trí nhận biết của các enzim cắt hạn chế Điều này

có ý nghĩa trong công nghệ ADN tái tổ hợp, một trong những ứng dụng quan trọng là chuyển gen để tạo ra những sinh vật hoàn

toàn mới như các vi khuẩn, tế bào nấm men, từ đó đưa ra sản xuất công nghiệp các sản phẩm Protein, enzim

Trang 40

 Từ trình tự aa của một phân tử protein có thể dự đoán được trình tự nucleotit của gen mã hóa.

 Từ trình tự của các aa trong phân tử protein hoặc enzim nào

đó, chúng ta có thể so sánh với các protein hoặc enzim cùng

chức năng ở các loài khác để biết được thành phần axit amin nào quan trọng

1.3.4.2 Đối với cơ sở dữ liệu về protein:

Trang 41

II Các công cụ tìm kiếm, phân tích các cơ sở dữ liệu:

2.1 Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu):

Trang 42

2.1.2 Phân tích chức năng protein:

2.1 Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu):

 Phân tích trình tự protein: xác định được các vùng mã hóa

protein của một trình tự DNA ClustalWso sánh trình tự DNA hoặc protein để xác định mối quan hệ cũng như nguồn gốc tiến hóa

của chúng

 Phân tích cấu trúc: Sử dụng phần mềm Dali và Pymol.

Trang 43

2.2 Công cụ của NCBI:

2.2.1 Các công cụ phân tích trình tự:

Công cụ quan trong là Tìm khung đọc mở (ORF Finder): Một

công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL

2.2.1 Các công cụ phân tích trình tự:

Trang 44

Blast homepage: Cho phép truy cập vào chương trình và công

cụ của Blast, các trợ giúp…

2.2.2 Phân tích trình tự tương đồng:

Trang 45

2.3 Các trình duyệt Entrez:

Các trình duyệt Entrez cũng cung cấp khả năng tìm kiếm

MEDLINE ( http://www.ncbi.nlm.nih.gov/entrez/query.fcgi), một cơ

sở dữ liệu trên xuất bản phẩm sinh học và y tế có thể truy cập tại Thư viện Y khoa Quốc gia Trích dẫn bao gồm cả thông tin về

protein hay trình tự nucleotide được liên kết đến các mục trình tự

cơ sở dữ liệu tương ứng và các trích dẫn liên quan khác Cơ sở này cho phép tìm thấy một số lượng lớn các trích dẫn thuộc vào khu vực của bạn quan tâm một khi bạn đã tìm thấy một vài trích dẫn có liên quan, và làm tăng đáng kể sức mạnh của tìm kiếm của bạn

Trang 46

III Thực hành tìm kiếm các cơ sở dữ liệu:

Nguyên tắc:

Tiêu đề	Tìm Kiếm Dữ Liệu Sinh Học
Người hướng dẫn	TS. Võ Văn Toàn
Trường học	Trường Đại học Sinh học Thực Nghiệm
Chuyên ngành	Sinh học
Thể loại	Giáo trình
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	48
Dung lượng	3,64 MB

TÌM KIẾM DỮ LIỆU SINH HỌC

Cơ sở dữ liệu toàn bộ gen (genome):1.3 Sử dụng trình tự DNA và protein: