Cơ sở dữ liệu sinh học csdl là các thông tin về trình tự a.nu ADN, ARN, trình tự a.a của các phân tử Protein, thông tin về cấu trúc và trình tự nucleotit của một số genom, mô hình cấu
Trang 21 CƠ SỞ DỮ LIỆU SINH HỌC VÀ CÁC NGÂN HÀNG DLSH
2 CÁC CÔNG CỤ TÌM KIẾM, PHÂN TÍCH CÁC CSDL
3 THỰC HÀNH TÌM KIẾM CÁC DLSH
Trang 3 Cơ sở dữ liệu sinh học (csdl) là các thông tin về trình tự a.nu (ADN, ARN), trình tự a.a của các phân tử Protein, thông tin về cấu trúc và trình tự nucleotit của một số genom, mô hình cấu trúc
không gian của các đại phân tử
Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống
máy tính rất mạnh của 3 ngân hàng dữ liệu sinh học lớn nhất thế giới là NCBI, EMBL, DDBJ Ngoài ra toàn bộ dữ liệu Protein còn được lưu trữ ở PDB (Protein Data Bank)
I Cơ sở dữ liệu sinh học và các ngân hàng dữ liệu sinh học:
1.1 Khái quát chung về cơ sở dữ liệu sinh học:
Trang 4 Các thông tin về dữ liệu DNA, protein chủ yếu là trình tự
nucleotit và trình tự axit amin
Ngân hàng gen cũng có thể xem như một thư viện sách, trong
đó mỗi cuốn sách chính là một trình tự nucleotit của DNA hoặc aa của protein và chúng đều có đánh số Bằng cách này hoặc cách khác ta đều có thể tìm được trình tự mà ta quan tâm Dữ liệu về trình tự nucleotit trong DNA và trình tự aa trong protein là những
I Cơ sở dữ liệu sinh học và các ngân hàng dữ liệu sinh học:
1.1 Khái quát chung về cơ sở dữ liệu sinh học:
Trang 5I Cơ sở dữ liệu sinh học và các ngân hàng dữ liệu sinh học:
1.1 Khái quát chung về cơ sở dữ liệu sinh học:
Đối với DNA đó là số lượng, thành phần, trình tự sắp xếp của các nucleotit, ribonucleotit trên phân tử DNA và mRNA Thông tin
về DNA thường chỉ rõ chúng mã hóa cho sản phẩm gen gì? có mặt trong đối tượng sinh vật nào? Phân bố ở đâu?ngoài ra các thông tin này còn liên quan đến vấn đề nghiên cứu gì? Của tác giả nào?
Đối với protein đó là số lượng và trình tự sắp xếp của aa trong
1 phân tử protein Các thông tin này cũng bao gồm định tính và vai trò của protein, vị trí có mặt trong tế bào, mô, cơ quan
Trang 6I Cơ sở dữ liệu sinh học và các ngân hàng dữ liệu sinh học:
1.1 Khái quát chung về cơ sở dữ liệu sinh học:
Genomic: Là tất cả những dữ liệu về thông tin di truyền của một
tế bào sinh vật nhất định
Proteomic: Là tất cả các sản phẩm của gen(protein) của một tế
bào mô hoặc cơ quan của một sinh vật nào đó trong một giai
đoạn sinh lí nhất định Phạm vi hẹp ta có thể nói đó là tổng hợp sản phẩm dịch mà của tất cả các mARN trong tế bào sinh vật tại thời điểm nghiên cứu(tức là hướng tiếp cận từ protein)
Trang 7Hiện nay có các cơ sở dữ liệu và ngân hàng dữ liệu sinh học lớn của thế giới:
NCBI ( National Centre for Biotechnology Information)
EMBL (European Molecular Biology Laboratory )
DDBJ ( DNA Data Bank of Japan)
PDB (Protein Data Bank)
1.2 Các cơ sở dữ liệu sinh học:
Trang 81.2.1 NCBI (National Centre for Biotechnology Information ): cơ
sở dữ liệu của Mỹ (http://www.ncbi.nlm.nih.gov/) Trong NCBI có các mục:
PubMed: chứa phần tóm tắt của hơn 15.000.000 kết quả
nghiên cứu trong lĩnh vực sinh y học.( http://
Trang 9 OMIM (Online Mendelian Inheritance in Man) : Với hơn
15.000 đăng mục, OMIM được duy trì bởi tiến sĩ Victor A
McKusick và cộng sự (Đại học Johns Hopkins), đăng tải 1 hệ
thống bệnh di truyền và liên tục được update
OMIA ( Online Mendelian Inheritance in Animals) là một cơ sở
dữ liệu của các gen, các gen rối loạn di truyền và các tính trạng của các loài động vật
Journals: Tìm kiếm các cơ sở dữ liệu tạp chí cho phép kết nối
1.2.1 NCBI (National Centre for Biotechnology Information ):
Trang 101.2.1 NCBI (National Centre for Biotechnology Information ):
Trang 111.2.1 NCBI (National Centre for Biotechnology Information ):
Trang 121.2.1 NCBI (National Centre for Biotechnology Information ):
Trang 131.2.2 EMBL (European Molecular Biology Laboratory )
EMBL cấu thành tài nguyên trình tự nucleotide chính của châu
Âu Nguồn chính của các trình tự DNA và RNA là được đưa lên trực tiếp từ các nhà nghiên cứu, các dự án nghiên cứu gen và các sáng chế ứng dụng EMBL được hình thành trong một sự hợp tác quốc tế với GenBank (Mỹ) và cơ sở dữ liệu ADN của Nhật Bản
(DDBJ)
Trang 141.2.1 EMBL (European Molecular Biology Laboratory )
Trang 151.2.1 EMBL (European Molecular Biology Laboratory )
Trang 161.2.3 DDBJ ( DNA Data Bank of Japan)
Ngân hàng dữ liệu DNA của Nhật Bản là ngân hàng dữ liệu về các trình tự nucleotide duy nhất ở châu Á Cơ sở dữ liêêu này trao đổi các dữ liệu thu thập được với cơ sở dữ liệu EMBL và GenBank Các cơ sở dữ liệu này hầu như thống nhất được gọi
là “ISND, cơ sở dữ liệu trình tự nucleotide quốc tế" DDBJ thu thập dữ liệu chuỗi chủ yếu là từ các nhà nghiên cứu Nhật Bản, nhưng tất nhiên vẫn chấp nhận dữ liệu từ các nhà nghiên cứu trong bất kỳ các quốc gia khác 99% dữ liệu INSD từ các nhà nghiên cứu Nhật Bản được gửi thông qua DDBJ
Trang 171.2.3 DDBJ ( DNA Data Bank of Japan)
Trang 181.2.3 DDBJ ( DNA Data Bank of Japan)
Trang 19PDB là kho lưu trữ duy nhất trên toàn thế giới, thông tin về các cấu trúc 3D của các phân tử sinh học lớn, bao gồm cả protein và axit nucleic Đây là những phân tử của sự sống được tìm thấy trong tất cả các sinh vật bao gồm vi khuẩn, nấm men, thực vật, ruồi, động vật khác, và con người Hiểu biết về hình dạng của một phân tử giúp chúng ta hiểu nó hoạt động như thế nào Kiến thức này có thể được sử dụng để giúp suy ra vai trò của một cấu trúc trong sức khỏe con người và bệnh tật, và trong thuốc phát triển PDB miễn phí cho người sử dụng Các kho lưu trữ PDB được cập nhật thứ tư mỗi tuần 1.2.4 PDB ( Protein Data Bank)
Trang 201.2.4.PDB ( Protein Data Bank)
http://www.rcsb.org/pdb/home/home.do
Trang 211.3 Sử dụng trình tự DNA và protein:
1.3.1 Cơ sở dữ liệu về nucleotit(nucleotide databases):
GenBank : Tập hợp tất cả các trình tự nucleotit axit amin
GenBank đã cung cấp đầy đủ Cứ sau 2 tháng, 1 phiên bản
update được đưa ra
Trang 221.3.1 Cơ sở dữ liệu về nucleotit(nucleotide databases):
http://www.ncbi.nlm.nih.gov/genbank/
Trang 231.3.1 Cơ sở dữ liệu về nucleotit(nucleotide databases):
http://www.ebi.ac.uk/embl/
Trang 241.3.1 Cơ sở dữ liệu về nucleotit(nucleotide databases):
http://www.ddbj.nig.ac.jp/
Trang 251.3.2 Cơ sở dữ liệu protein:
1.3 Sử dụng trình tự DNA và protein:
http://www.uniprot.org/
Trang 261.3.2 Cơ sở dữ liệu protein:
http://www.ncbi.nlm.nih.gov/protein?db=protein
Trang 271.3.3 Cơ sở dữ liệu cấu trúc 3D Domain:
MMDB (molecular modeling database) : Cơ sở dữ liệu mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của cơ sở dữ liệu của NCBI, bao gồm các trình tự ,trích dẫn, phân loại học và các trình tự, cấu trúc lân cận
Trang 281.3.3 Cơ sở dữ liệu cấu trúc 3D Domain:
http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml
Trang 291.3.3 Cơ sở dữ liệu cấu trúc 3D Domain:
http://www.rcsb.org/pdb/home/home.do
Trang 301.3.4 Cơ sở dữ liệu toàn bộ gen (genome):
Trong giữa thập niên 1970, các phương pháp để cô lập các
trình tự DNA đã được thành lập và ý tưởng lập bản đồ toàn bộ bộ gien đã nảy sinh Một số loài sinh học (virus, vi khuẩn E coli, nấm men, ruồi giấm) sau đó đã được nghiên cứu mạnh mẽ
Một số trang web cung cấp thông tin về trình tự sắp xếp nucleotit của các gen đã được nghiên cứu như:
1.3.4 Cơ sở dữ liệu toàn bộ gen (genome):
1.3.4 Cơ sở dữ liệu toàn bộ gen (genome):
1.3.4 Cơ sở dữ liệu toàn bộ gen (genome):
Trang 31 Toàn bộ hệ gen (NCBI)
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
Toàn bộ bộ gen của vi sinh vật (TIGR)
http://www.tigr.org/tigr-scripts/CMR2/CMRGenomes.spl
Chưa hoàn chỉnh bộ gen (TIGR) http://tigrblast.tigr.org/ufmg/
Cơ sở dữ liệu đa hình đơn http://www.ncbi.nlm.nih.gov/SNP/
Trang 321.3.4 Cơ sở dữ liệu toàn bộ gen (genome):
Trang 341.3.4 Cơ sở dữ liệu toàn bộ gen (genome):
Trang 351.3.5 Cơ sở dữ liệu hệ thống học:
Chứa tên các sinh vật có trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotit hoặc trình tự axit amin Cung cấp một hệ thống phân loại và đơn vị phân loại
1.3 Sử dụng trình tự DNA và protein :
Trang 361.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
Biết được trình tự sắp xếp của một gen bất kì so sánh với dữ liệu trong ngân hàng gen.từ đó xác định được đoạn ADN đó của sinh vật nào(tìm kiếm trình tự tương đồng)
Biết được trình tự sắp xếp nucleotit của một đoạn ADN ta suy
ra được trình tự các axit amin tương ứng trên mạch Polipeptide nếu đoạn ADN mã hóa.(Dịch mã 1 phân tử ADN ra trình tự axit
amin)
1.3.4.1 Đối với cơ sở dữ liệu về nucleotit:
1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
1.3.4.1 Đối với cơ sở dữ liệu về nucleotit:
1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
1.3.4.1 Đối với cơ sở dữ liệu về nucleotit:
1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
Trang 37 Biết được trình tự gen của một gen(chẳng hạn như gen ung thư) người ta ó thể phát hiện sớm bằng PCR, lai ADN để ngăn
chặn, điều trị
Từ các trình tự nucleotit có thể thiết kế những cặp mồi để
nhân bản các đoạn gen này cho những mục đích khác nhau, cũng như xác định mức độ hoạt động của gen đó trong những điều
kiện phức tạp
1.3.4.1 Đối với cơ sở dữ liệu về nucleotit:
1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
1.3 Sử dụng trình tự DNA và protein :
Trang 38 Xác định đột biến, sự sắp xếp về trình tự nucleotit trong cùng một sản phẩm gen, có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn.
Về mặt phân loại sinh học, đối với những gen bảo thủ cao, mang tính đặc thù cho loài, ví dụ gen mã hóa cho mARN Dựa
vào những gen này mà người ta so sánh trình tự nucleotide các loài với nhau để xác định mối quan hệ họ hàng
1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
1.3.4.1 Đối với cơ sở dữ liệu về nucleotit:
Trang 39 Từ trình tự nucleotit của một phân tử ADN có thể nhận biết bản đồ các vị trí nhận biết của các enzim cắt hạn chế Điều này
có ý nghĩa trong công nghệ ADN tái tổ hợp, một trong những ứng dụng quan trọng là chuyển gen để tạo ra những sinh vật hoàn
toàn mới như các vi khuẩn, tế bào nấm men, từ đó đưa ra sản xuất công nghiệp các sản phẩm Protein, enzim
1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
1.3.4.1 Đối với cơ sở dữ liệu về nucleotit:
1.3 Sử dụng trình tự DNA và protein :
Trang 40 Từ trình tự aa của một phân tử protein có thể dự đoán được trình tự nucleotit của gen mã hóa.
Từ trình tự của các aa trong phân tử protein hoặc enzim nào
đó, chúng ta có thể so sánh với các protein hoặc enzim cùng
chức năng ở các loài khác để biết được thành phần axit amin nào quan trọng
1.3.5 Ý nghĩa của các cơ sở dữ liệu sinh hoc:
1.3.4.2 Đối với cơ sở dữ liệu về protein:
Trang 41II Các công cụ tìm kiếm, phân tích các cơ sở dữ liệu:
2.1 Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu):
Trang 422.1.2 Phân tích chức năng protein:
2.1 Công cụ của EMBI/EBI ( Viện tin sinh học của châu Âu):
Phân tích trình tự protein: xác định được các vùng mã hóa
protein của một trình tự DNA ClustalWso sánh trình tự DNA hoặc protein để xác định mối quan hệ cũng như nguồn gốc tiến hóa
của chúng
Phân tích cấu trúc: Sử dụng phần mềm Dali và Pymol.
Trang 432.2 Công cụ của NCBI:
2.2.1 Các công cụ phân tích trình tự:
Công cụ quan trong là Tìm khung đọc mở (ORF Finder): Một
công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL
2.2 Công cụ của NCBI:
2.2.1 Các công cụ phân tích trình tự:
2.2 Công cụ của NCBI:
2.2 Công cụ của NCBI:
Trang 44Blast homepage: Cho phép truy cập vào chương trình và công
cụ của Blast, các trợ giúp…
2.2.2 Phân tích trình tự tương đồng:
2.2 Công cụ của NCBI:
Trang 452.3 Các trình duyệt Entrez:
Các trình duyệt Entrez cũng cung cấp khả năng tìm kiếm
MEDLINE ( http://www.ncbi.nlm.nih.gov/entrez/query.fcgi), một cơ
sở dữ liệu trên xuất bản phẩm sinh học và y tế có thể truy cập tại Thư viện Y khoa Quốc gia Trích dẫn bao gồm cả thông tin về
protein hay trình tự nucleotide được liên kết đến các mục trình tự
cơ sở dữ liệu tương ứng và các trích dẫn liên quan khác Cơ sở này cho phép tìm thấy một số lượng lớn các trích dẫn thuộc vào khu vực của bạn quan tâm một khi bạn đã tìm thấy một vài trích dẫn có liên quan, và làm tăng đáng kể sức mạnh của tìm kiếm của bạn
Trang 46III Thực hành tìm kiếm các cơ sở dữ liệu:
Nguyên tắc: