Được xây dựng nhằm mục đích cho phép người sử dụng tiếp cận với nguồn dữ liệu khổng lồ bao gồm các tài liệu, báo cáo, các nghiên cứu, trình tự và cấu trúc của các phân tử sinh học…để phụ
Trang 1GIÁO TRÌNH THỰC TẬP BIOINFORMATIC
(Hệ thống website http://www.ncbi.nlm.nih.gov/ )
-oOo -
1 Các nội dung chính trên NCBI:
1.1 Giới thiệu NCBI
Website NCBI (National Center for Biotechnology Information - http://www.ncbi.nlm.nih.gov/) là một trong những website hàng đầu về khoa học sự sống
và y học NCBI trực thuộc Thư viện Y khoa Quốc gia Hoa Kỳ (National Library of Medicine, NLM), đồng thời là một cơ quan của Các Viện Y tế Quốc gia Hoa Kỳ (National Institutes of Health, NIH) Hầu hết các phần của hệ thống NCBI là các cở sở dữ liệu (CSDL) mở cho phép truy cập miễn phí thông qua Internet Được xây dựng nhằm mục đích cho phép người sử dụng tiếp cận với nguồn dữ liệu khổng lồ bao gồm các tài liệu, báo cáo, các nghiên cứu, trình tự và cấu trúc của các phân tử sinh học…để phục vụ
nghiên cứu và học tập, NCBI được trang bị hệ thống tìm kiếm cực mạnh Entrez cho phép
tìm kiếm rất nhanh kết quả từ CSDL Hầu hết các bộ công cụ tìm kiếm, so sánh của NCBI
đều dựa trên hệ thống Entrez
Hiện tại các CSDL trên NCBI không ngừng được phát triển mở rộng thêm nhờ vào
sự đóng góp của cộng đồng các nhà khoa học, các học viện, các viện nghiên cứu… trên thế giới
1.2 Trang chủ NCBI
Giao diện trang chủ của NCBI được truy cập tại địa chỉ http://www.ncbi.nlm.nih.gov/
Trang 2Hình 1: Giao diện trang chủ NCBI (ảnh chụp ngày 24/11/2007)
Trang chủ NCBI cung cấp đường dẫn liên kết đến các nội dung chủ yếu trên NCBI Có thể tìm hiểu các thành phần trong trang chủ NCBI tại địa chỉ http://www.ncbi.nlm.nih.gov/ hoặc từ đĩa CD đính kèm tài liệu này
Ghi chú: Có thể sử dụng tất cả các trình duyệt để truy cập vào trang
http://www.ncbi.nlm.nih.gov/ Tuy nhiên chỉ sử dụng trình duyệt Internet Explorer (IE) để thể hiện đầy đủ các nội dung trang web trong CD kèm theo Di chuyển chuột vào các thành phần trên trang để xem giải thích Các liên kết trên CD được mô phỏng tương tự việc truy cập online NCBI kèm với giải thích nội dung các thành phần trên giao diện Việc giải thích thành phần bằng tiếng Việt chỉ có tác dụng trên CD kèm theo
Nếu trình duyệt IE không được mặc định thì bấm chuột phải vào file NCBI HomePage chọn Open with chọn Internet Explorer
Hình 2: Sử dụng trình duyệt IE để duyệt tài liệu trên CD
Trang 3Từ trang chủ của NCBI ta có thể truy cập đến mọi phần quan trọng của hệ thống NCBI
1.3 Trang chính của CSDL PubMed
(http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed)
Để truy cập vào trang PubMed, từ trang chủ NCBI chọn PubMed
Hình 3: Giao diện trang PubMeb (ảnh chụp ngày 29/11/2007)
Trang PubMed cung cấp các phương thức khác nhau cho phép tìm kiếm những tài liệu, tạp chí, báo cáo, ấn phẩm và xuất bản về khoa học sự sống và y học cần thiết từ CSDL khổng lồ của PubMed Có thể tìm hiểu các thành phần trong trang PubMed tại địa chỉ http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed
1.4 Trang chính của công cụ BLAST (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)
Để truy cập vào trang BLAST, từ trang chủ NCBI chọn BLAST
Trang 4Hình 4: Giao diện trang BLAST (ảnh chụp ngày 29/11/2007)
Trang BLAST cung cấp bộ công cụ khá đơn giản nhưng mạnh mẽ cho phép người
sử dụng tìm kiếm, so sánh chuỗi trình tự của các phân tử sinh học hiện có trong CSDL (gồm nucleotide, protein, ) dựa trên việc đưa vào các chuỗi trình tự được người sử dụng nhập vào dùng làm điều kiện Bộ công cụ của BLAST bao gồm một tập hợp nhiều công
cụ khác nhau cung cấp cho những mục đích tìm kiếm và so sánh khác nhau cũng như với những cấp độ người dùng khác nhau từ cơ bản (basic BLAST) đến nâng cao (Specialized BLAST) Bộ công cụ BLAST được xây dựng dựa trên nguồn cơ sở dữ liệu chuỗi trình tự khổng lồ và hệ thống tìm kiếm cực mạnh Entryz mà NCBI đang sở hữu
Có thể tìm hiểu các thành phần trong trang BLAST tại địa chỉ http://www.ncbi.nlm.nih.gov/blast/Blast.cgi hoặc từ đĩa CD đính kèm tài liệu này
Lưu ý: Công cụ BLAST sử dụng định dạng FASTA (Rapid and sensitive protein similarity searches) cho trình tự truy vấn đưa vào để dùng làm điều kiện tìm kiếm hay so sánh các chuỗi trình tự Cấu trúc của của định dạng FASTA như sau:
>Tên (hoặc ID)| (có thể thêm các mô tả khác)
Chuỗi trình tự với dạng ký tự text không định dạng
Trang 5Hình 5: Định dạng FASTA của một chuỗi protein 1.5 Trang chính của CSDL structure (CSDL cấu trúc của các phân tử sinh học)
Để truy cập vào trang Structure từ trang chủ NCBI ta bấm chọn Structure hoặc tại http://www.ncbi.nlm.nih.gov/sites/entrez?db=Structure
CSDL Structure chứa đựng một lượng lớn các thông tin và công cụ hỗ trợ việc nghiên cứu cấu trúc của các chuỗi phân tử sinh học như protein Được xây dựng bởi sự kết hợp của CSDL và hệ thống Entryz, Structure cung cấp khả năng tìm kiếm nhanh cấu trúc của các phân tử sinh học
Hình 6: Trang chính của CSDL Structure
Có thể tìm hiểu các thành phần trong trang Structure tại địa chỉ http://www.ncbi.nlm.nih.gov/sites/entrez?db=Structure hoặc từ đĩa CD đính kèm tài liệu này
1.6 Các CSDL khác
Ngoài các CSDL trên, có thể tìm thấy đường link trực tiếp từ trang chủ NCBI đến các CSDL khác bao gồm: PubMed, Protein, 3D Domains, UniGene , UniSTS , SNP, Conserved Domains, Journals, PMC, NCBI Web Site, MeSH, GEO Profiles, Nucleotide, GEO Datasets, Gene, HomoloGene, CancerChromosomes, NLM Catalog, PubChem BioAssay, PubChem Compound, PubChem Substance, GENSAT, Probe, Genome
Trang 6Project, OMIA, dbGaP, Protein Clusters, CoreNucleotide, EST, GSS, Genome, PopSet, All Databases, OMIM, Taxonomy, Books,… phục vụ cho những mục đích nghiên cứu khác nhau
Có thể kiếm nội dung trực tiếp trên trang chủ hoặc bất cứ trang nào bằng cách nhập từ khóa và chọn CSDL tương ứng Hoặc truy cập trực tiếp vào trang chính của
CSDL đó bằng cách chọn CSDL từ menu thả xuống và bấm Go
Hình 7: Truy cập vào các CSDL khác trên NCBI
2 Sử dụng các công cụ trên NCBI:
Phần này hướng dẫn sơ lược các bước nhằm sử dụng các phần của hệ thống NCBI cho việc nghiên cứu và học tập Bao gồm các công cụ tìm kiếm tài liệu, tìm kiếm so sánh chuỗi mã và cấu trúc của phân tử sinh học
2.1 Tìm kiếm trong NCBI
Việc tìm kiếm trong NCBI (trừ tìm kiếm bằng BLAST) hầu hết các CSDL còn lại đều thực hiện việc tìm kiếm bằng từ khóa Từ khóa bao gồm những từ hoặc cụm từ khác nhau chỉ nội dung cần tìm, các số ID (số lưu trữ của tài liệu hoặc chuỗi mã cần tìm), các thuật toán logic (and, or, not, ), các từ khóa đặc biệt chỉ định vị trí các trường (filed) cần tìm (thí dụ [AB] tìm trong abtract, có thể tìm hiểu thêm về các từ khóa chỉ định trường tại NCBI handbooks)
Ví dụ: Câu lệnh (("drought tolerance") AND (Wilson SD[Auth])) AND
(ecology[Jour]) có nghĩa tìm tất cả tài liệu có cụm “drought tolerance” tác giả là “Wilson
SD” và đăng trên tạp chí “Ecology”
Có thể tìm hiểu về cách thức nhập từ khóa và tìm kết quả trên trang NCBI hoặc
tìm hiểu qua mô phỏng quá trình đó trên CD đính kèm (từ khóa mặc định thử nhiệm trên
CD là “drought tolerance”) trong thực tế trên NCBI các từ khóa khác cũng có quá trình
tìm kiếm và trả kết quả tương tự
+ Mô phỏng tìm kiếm trong Entrez + Mô phỏng tìm kiếm trong PubMeb + Mô phỏng tìm kiếm trong Nucleotide + Mô phỏng tìm kiếm trong Structure + Mô phỏng tìm kiếm trong All database + Mô phỏng tìm kiếm trong Protein
2.2 Sử dụng CSDL tìm kiếm PubMed:
Việc sử dụng CSDL PubMed được thực hiện như sau:
2.2.1 Cách 1: Sử dụng CSDL PubMed thông qua trang chủ NCBI
Trang 7Bước 1: Chọn vùng chỉ định tìm kiếm là PubMed
Bước 2: Nhập điều kiện (keywords – từ khóa) tìm kiếm vào vùng điều kiện và
click Go Ví dụ từ khóa cần tìm là drought tolerant
Hình 8: Minh họa tìm kiếm trực tiếp từ trang chủ các tài liệu về nghiên cứu chịu hạn
hiện có trên NCBI
Bước 3: Duyệt kết quả tìm được, chọn cách trình bày nội dung cho trang kết quả Thể hiện mặc định của những tài liệu tìm được là nội dung tóm tắt (Summary) của tài liệu đó Có thể thay đổi nội dung thể hiện của tài liệu hoặc số lượng tài liệu thể hiện
trên 1 trang bằng cách chọn các menu thả xuống tương ứng trong vùng Display (Ghi chú:
có thể tìm hiểu các thành phần của trang trình bày kết quả trên CD)
Hình 9: Một phần của các kết quả tìm được từ PubMed Ngoài ra có thể tăng khả năng tìm kiếm chính xác tài liệu bằng tùy chọn Limits
2.2.2 Cách 2: Thao tác trực tiếp từ CSDL PubMed
Bước 2: Từ trang chủ bấm vào liên kết đến trang PubMed
Bước 3: Bấm chọn thẻ Limits
Bước 4: Nhập từ khóa của nội dung cần tìm vào (Ví dụ từ khóa cần tìm là
drought tolerant)
Trang 8Hình 10: Trang cho phép giới hạn điều kiện tìm kiếm trên PubMed
Bước 5: Giới hạn bớt để tìm kiếm chính xác tài liệu cần tìm
+ Click chọn Add Author để tìm kiếm tài liệu do một hoặc một nhóm tác
giả
+ Click chọn Add Journal để tìm kiếm tài liệu được đăng bởi tạp chí hay ấn phẩm
+ Đánh dấu chọn vào vùng của tương ứng trên Full Text, Free Full Text, and Abstracts để tìm kiếm những tài liệu có nội dung đầy đủ (Full Text),
nội dung đầy đủ và được truy cập miễn phí (Free Full Text) hoặc tóm tắt nội dung (Abstracts)
Hình 11: ba vùng chọn lựa quan trọng cho phép thu hẹp kết quả tìm được
+ Ngoài ra còn nhiều giới hạn tìm kiếm khác cho phép thu hẹp phạm vi tìm kiếm của từ khóa bao gồm: tìm theo ngày tháng xuất bản, tìm theo lĩnh vực, tìm theo ngôn ngữ sử dụng,…
Bước 6: Click OK để bắt đầu tìm kiếm
Bước 7: Chọn cách trình bày nội dung cho trang kết quả
2.3 Sử dụng công cụ tìm kiếm Entrez
Trang 9Công cụ tìm kiếm Entrez là cỗ máy tìm kiếm chính bao trùm toàn bộ phục vụ cho mục đích tìm kiếm thông tin trong các CSDL của hệ thống ncbi Cách tìm kiếm thông tin bằng Entrez:
Bước 1: Bấm chọn All Database từ trang chủ
Bước 2: Nhập từ khóa của nội dung cần tìm vào ô tìm kiếm và bấm Go
Hình 12: Kết quả thu được khi tìm kiếm với từ khóa trong trang All database
Bước 3: Chọn kết quả thu được bằng cách bấm vào CSDL cần nghiên cứu
2.4 Sử dụng công cụ tìm kiếm BLAST :
Trên trang BLAST có nhiều công cụ so sánh khác nhau nhằm phục vụ cho những mục đích tìm kiếm chuỗi trình tự khác nhau trong ngân hàng gen cũng như ngân hàng chuỗi trình tự
Hầu hết các công cụ trên đều hoạt động theo một số bước nhất định như sau: Bước 1: Truy cập vào trang BLAST
Bước 2: Bấm chọn công cụ cần sử dụng (giao diện và nguyên tắc của các công cụ
khá giống nhau chỉ khác nhau về chức năng)
Trang 10Hình 13: Giao diện công cụ nucleotide BLAST
Bước 3: Nhập vào số truy cập hoặc chuỗi trình tự vào vùng nhập liệu hoặc tải lên
từ máy tính đối với những chuỗi trình tự đã chuẩn bị sẵn Bước 4: Chỉ định yêu cầu, giới hạn hoặc cách thức hoạt động cho công cụ sau đó
bấm nút BLAST thực hiện quá trình tìm kiếm và so sánh Sau đó hệ thống sẽ thực hiện việc tìm kiếm, người sử dụng chờ đợi quá trình diễn
ra cho đến khi kết quả được trả về
Bước 5: Nếu tìm thấy kết quả, người sử dụng cần lựa chọn cách trình bày kết quả
phù hợp với mục đích sử dụng
Việc chỉ định cũng như giới hạn các điều kiện cho việc so sánh chuỗi rất hữu ích, tuy vậy trong khuôn khổ tài liệu này chúng tôi không thể mô phỏng cụ thể sự thay đổi trong kết quả Blast khi có các giới hạn và điều kiện khác nhau
2.5 Các bài tập ứng dụng tìm kiếm bằng BLAST
2.5.1 Bài tập 1 :
Có chuỗi trình tự như sau sử dụng BLAST để tìm kiếm và so sánh với CSDL hiện
có của NCBI (đây là chuỗi dữ liệu của protein Cys2/His2 mã hóa bởi gen ZPT2-3 có vai trò quan trọng trong khả năng chống chịu khô hạn - PubMeb)
2.5.1.1 Tìm với dữ liệu là protein kết quả là protein
MERHRCKLCSRSFMNGRALGGHMRSHLATLPLPLKKQKTPGNSNFQLGGGTESDSSSTR SEDENNNNNNNNNKLSSYELRDNPRKSVKALDPEFMDAGSIVVQDRESETESTQNPTRR RSKRASQRTSRQLEFEVPKKCKWVGSESAAESTPVSSVSDPSQDEEVALCLMMLSRDAW ERVEKEKSVEDTNESATELKTGLITRRPATRVAAKFKCLGCKKVFRTGRALAGHKASNK QCCHENSTSDDHVNVVGVKIFECPFCYKVFGSGQALGGHKRSHLLGLSSANNNNNNNN NNANVVASNNADRVGETTTTTTTTNTSFILDLNLPAPFEDDDEDDHI
Bước 1: Truy cập vào trang Blast
Bước 2: Bấm chọn so sánh protein Blast
Trang 11Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm, các tùy chọn khác để nguyên vào
bấm nút BLAST để thực hiện lệnh
Bước 4: Xem và nhận xét kết quả
2.5.1.2 Tìm với dữ liệu là protein kết quả là các translated nucleotide
Bước 1: Truy cập vào trang Blast
Bước 2: Bấm chọn tblastn
Bước 3: Chép chuỗi trình tự protein trên vào ô tìm kiếm, các tùy chọn khác để
nguyên vào bấm nút BLAST để thực hiện lệnh Bước 4: Xem và bấm vào một chuỗi mã (chuỗi đầu tiên) và nhận xét kết quả
2.5.1.3 Tìm với dữ liệu là nucleotide kết quả là nucleotide:
ATGGAGAGACACAGATGCAAACTTTGTTCTAGGAGCTTTATGAATGGTAGAG CATTGGGTGGTCATATGAGGTCTCATTTAGCTACTTTACCTCTTCCTCTTAAGA AGCAAAAAACTCCTGGAAATTCAAATTTCCAACTCGGTGGTGGGACCGAGTC CGACTCGTCCTCAACTCGTTCAGAAGACGAGAATAATAATAATAATAATAAT AATAATAAACTGAGTTCGTACGAGTTGAGGGATAACCCAAGGAAGAGTGTTA AGGCATTAGATCCCGAGTTTATGGATGCAGGGTCAATCGTTGTGCAAGACAG GGAAAGCGAGACCGAGTCAACTCAGAACCCAACTCGGAGACGATCTAAGAG GGCGAGTCAGAGGACGAGCCGGCAACTCGAGTTTGAAGTGCCGAAGAAATGT AAATGGGTTGGGTCGGAGTCAGCCGCTGAATCGACCCCGGTCAGTTCCGTGTC TGACCCGAGTCAGGATGAAGAGGTTGCACTTTGTCTTATGATGCTGTCTAGGG ATGCTTGGGAGAGAGTTGAGAAGGAGAAGTCTGTTGAGGATACTAATGAGTC GGCGACCGAGTTGAAGACGGGTTTAATAACACGTCGTCCTGCAACTCGTGTG GCCGCAAAATTCAAGTGTTTGGGATGTAAAAAAGTGTTCAGGACAGGCAGGG CACTAGCTGGGCATAAGGCGTCTAATAAACAATGTTGCCATGAAAATTCGAC AAGTGATGATCATGTTAATGTGGTGGGAGTAAAAATATTTGAATGCCCGTTTT GTTATAAGGTTTTTGGGTCGGGTCAAGCTTTGGGAGGTCATAAAAGATCACAC CTTTTAGGGTTGTCATCGGCTAACAACAACAACAACAACAACAATAATAATG CTAATGTTGTTGCATCTAACAATGCTGATAGAGTTGGTGAAACTACCACTACT ACGACTACTACTAATACTAGCTTTATTTTGGATCTCAACTTGCCTGCACCGTTT GAAGATGATGATGAGGACGATCATATATAG
Bước 1: Truy cập vào trang Blast
Bước 2: Bấm chọn so sánh nucleotide Blast
Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm, trong vùng chọn Choose Search
Set bấm chọn CSDL cần so sánh là Các tùy chọn khác
để nguyên vào bấm nút BLAST để thực hiện lệnh
Trang 12Bước 4: Xem và nhận xét kết quả
2.5.1.4 Tìm với dữ liệu là translated nucleotide kết quả là protein
Bước 1: Truy cập vào trang Blast
Bước 2: Bấm chọn so sánh Blastx
Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm Các tùy chọn khác để nguyên
vào bấm nút BLAST để thực hiện lệnh
Bước 4: Xem và nhận xét kết quả
2.5.1.5 Tìm với dữ liệu là translated nucleotide kết quả là translated nucleotide
Bước 1: Truy cập vào trang Blast
Bước 2: Bấm chọn so sánh tBlastx
Bước 3: Chép chuỗi trình tự trên vào ô tìm kiếm Các tùy chọn khác để nguyên
vào bấm nút BLAST để thực hiện lệnh
Bước 4: Xem và nhận xét kết quả
2.5.1.6 Tìm trong CSDL gen của một hoặc một nhóm sinh vật
Bước 1: Chọn một trong các CSDL gen của sinh vật cần nghiên cứu (Ví dụ đính
kèm CD mô phỏng cho quá nhóm Microbes)
Bước 2: Chép chuỗi trình tự protein ở trên vào ô tìm kiếm (đồng thời xác định loại
truy vấn là DNA hay protein trong ví dụ là protein) Bước 3: Chỉ định cần so sánh với CSDL gen của sinh vật nào Nếu chọn hết thì
Bước 4: Bấm BLAST để thực hiện so sánh
Bước 5: Trong trang kế bấm chọn vào để xem kết
quả
Bước 6: Xem kết quả so sánh và tìm kiếm Đưa ra nhận xét
2.5.2 Bài tập 2 :
Có các chuỗi trình tự như sau sử dụng BLAST để tìm kiếm và so sánh với CSDL hiện có của NCBI (đây là chuỗi dữ liệu của protein alcohol dehydrogenase có liên quan
đến tính chống chịu hạn – PubMeb)
Protein QGQTPLFPRIFGHEAAGIVESIGEGV
Nucleotide GGTCTCGGAGTGGATCGATTTGGGATTCTGTTCGAAGATTTGCGG
AGGGGGGCAATGGCGACCGCGGGGAAGGTGATC Thực hiện các bước như bài tập 1
2.5.3 Bài tập 3 :