Thu thập nguồn gene và tổ chức dữ liệu gene
Trang 2- Bảng chú thích các trường và một số nguyên tắc tìm kiếm
Trường
(Fields)
Chú thích (Comments)
Locus Trường Locus chứa 1 số những yếu tố dữ liệu khác nhau, bao gồm tên
Locus, chiều dài trình tự, loại phân tử, khu vực GenBank (division) và ngày cập nhật
Locus name Locus name trong ví dụ trên là SCU49845
Locus name là một cách trình bày đặc biệt để giúp nhóm những mục từ (entries) có trình tự tương đồng: ba ký tự đầu tiên thường để chỉ sinh vật; bốn và năm chữ tiếp theo thường dùng để chỉ những nhóm tên khác như: sản phẩm gene, sự phân cấp các mục từ; ký tự cuối cùng là một mã của dãy những số nguyên
Tuy nhiên, 10 ký tự trong tên của Locus thì không đủ để cung cấp ý nghĩa để trình bày một lượng lớn thông tin mang ý nghĩa nguồn gốc đặc biệt chứa đựng trong Locus
Hiện nay chỉ một quy tắc để thiết kế tên của Locus và nó là duy nhất
Ví dụ: 1 GenBank record có tên là 6 ký tự accession (như U12345), tên của Locus thì thường là ký tự đầu tiên của tên giống và loài, tiếp theo mới là số accession
Ví dụ khác: 8 ký tự accession (như AF123456) thì tên Locus chỉ là số accession
Cơ sở dữ liệu RefSeq chứa những trình tự tham khảo cũng được ấn
định theo chuẩn tên locus với mỗi record, tượng trưng cho gene RefSeq tồn tại riêng rẽ với cơ sở dữ liệu GenBank, nhưng chứa những tham khảo tương ứng với những record GenBank
Cách tìm kiếm: Số Accession [ACCN]
Chỉ dẫn: Tìm kiếm số accession tốt hơn là là tìm tên locus, vì số
accession thì ổn định nhưng tên locus có thể thay đổi
Sequence
Length
Là số lượng cặp Nucleotide (hoặc chuỗi amino acid) trong record trình
tự
Trang 3Ví dụ: Ở record trên, chiều dài trình tự là 5028 bp
Không có giới hạn tối đa cho kích thước của 1 trình tự được submit lên GenBank Bạn có thể submit cả một genome nếu bạn có thể Tuy nhiên,
có giới hạn là 350 kb đối với riêng mỗi loại record GenBank
Chiều dài nhỏ nhất đòi hỏi của một submit là 50 bp, mặc dù có những record ngắn hơn ở những năm trước
Cách tìm kiếm: chiều dài trình tự [SLEN]
Chỉ dẫn:
(1) để trích những record với 1 khoảng chiều dài, ta dùng như sau: 2500:2600[SLEN]
(2) để trích tất cả những trình tự ngắn hơn 1 số chắc chắn nào đó, ta dùng như sau: 2:100[SLEN]
(3) để trích tất cả những trình tự dài hơn 1 số chắc chắn nào đó, ta dùng
1 dãy số 9 dùng như giới hạn trên, ta dùng như sau: 325000: 99999999[SLEN]
Molecule type Là loại phân tử của trình tự trong record
Ví dụ: Ở record trên loại phân tử là DNA Mỗi record GenBank phải chứa dữ liệu trình tự liên tiếp nhau từ 1 loại đơn phân tử Có nhiều loại phân tử khác nhau đã được mô tả như: genomic DNA, genomic RNA, tiền RNA, mRNA (cDNA), ribosomal RNA, RNA chuyển (transfer RNA), RNA nhân con, và RNA tế bào chất
Các khu vực trong GenBank (GenBank Division)
GenBank phân chia record một trong các trường thể hiện ngắn gọn thuộc bẳng 3 ký tự tóm tắt Trong ví dụ trên GenBank Division là PLN
Cơ sở dữ liệu GenBank được phân thành 17 khu vực:
1 PRI – trình tự động vật có vú phát triển cao (gồm người, vượn, khỉ
đuôi dài…; động vật linh trưởng)
Trang 411.UNA – những trình tự không chú thích
12 EST – những trình tự EST (expressed sequence tags) 13.PAT – những trình tự có bằng công nhận sáng chế
14.STS – những trình tự STS (sequence tagged sites)
15.GSS - những trình tự GSS (genome survey sequences) 16.HTG – những trình tự HTG (high-throughput genomic sequences) 17.HTC – unfinished high-throughput cDNA sequencing
Một vài khu vực chứa những trình tự từ những nhóm sinh vật cụ thể, trong khi đó những khu vực khác (EST, GSS, HTG, …), chứa dữ liệu tạo ra bằng kỹ thuật giải trình tự đặc biệt từ nhiều sinh vật khác nhau
Cách tìm kiếm: đặc tính [PROP]
Chỉ dẫn: nội dung tìm kiếm nên được định dạng sau: gbdiv_pri,
gbdiv_est, …, ví dụ để loại trừ tất cả những trình tự từ những khu vực đặc biệt như ESTs, bạn có thể dùng nội dung lệnh như sau:
human[ORGN] NOT gbdiv_est[PROP]
Thay thế những cách ở trên, không dùng GenBank divisions để trích tất
cả trình tự từ 1 sinh vật đặc biệt, ta dùng NCBI Taxonomy Browser Modification
Date
Ngày trong trường Locus là ngày cập nhật cuối cùng của Record
Ví dụ: Ngày cập nhật sau cùng của record trên là 21-06-1999
Cách tìm kiếm: ngày cập nhật [MDAT]
Chỉ dẫn:
(1) nhập vào nội dung tìm kiếm theo dạng sau: năm/tháng/ngày (ví dụ:
Trang 51999/07/25) (2) để trích những record được bổ sung giữa 2 ngày, dùng dấu hai chấm trong lệnh như sau: 1999/07/25:1999/07/31[DMAT]
(3) Bạn có thể dùng trường ngày xuất bản [PDAT] của Entrez để giới hạn kết quả tìm kiếm (bởi ngày này được thêm vào trong hệ thống của Entrez) Ngày xuất bản có thể được thay đổi giống như ngày ngày cập nhật
Definition Mô tả vắn tắt về trình tự; bao gồm những thông tin như nguồn gốc sinh
vật, tên gene/tên protein, hoặc một vài mô tả của chức năng trình tự (nếu trình tự là không mã hóa) Nếu trình tự là một vùng mã hóa (CDS), những mô tả có thể được đầy đủ hơn như “complete cds”
Cách tìm kiếm: từ tiêu đề [TITL]
Chỉ dẫn: Mặc dù những dòng định nghĩa theo một cấu trúc định dạng,
nhưng GenBank không dùng từ ngữ được kiểm soát và tác giả sẽ quyết định nội dung của record Vì vậy, nếu tìm kiếm một nội dung đặc biệt
mà không lấy được những record mong muốn, hãy cố gắng những nội dung khác mà tác giả đã dùng, như là từ cùng nghĩa, từ đầy đủ, hoặc một chữ viết tắt Chức năng “related records” (hoặc “neighbors”) của Entrez còn cho phép bạn mở rộng tìm kiếm của bạn bằng cách trích những record với những trình tự tương tự, những nội dung mô tả không quan tâm được dùng bởi người submit
Accession Cách tìm kiếm: accession [ACCN]
Chỉ dẫn: Những từ trong accession number có thể được viết như trên
Riêng số RefSeq accession phải chứa 1 dấu gạch giữa những từ và số như NM_002111
Version Là số dùng nhận dạng một trình tự nucleoide, nó chỉ có một, trình tự
đặc trưng trong cơ sở dữ liệu GenBank Số xác định này thường được
định dạng accession.version theo qui ước của GenBank/EMBL/DDBJ
vào tháng 2 năm 1999
Nếu bạn có bất kỳ thay đổi trong dữ liệu trình tự (kể cả một base), số version sẽ được tăng như U12345.1 → U12345.2, nhưng phần
Trang 6accession vẫn giữ ổn định
Hệ thống xác định accession.version của trình tự chạy song song với hệ thống số GI, khi có bất kỳ sự thay đổi được tạo ra ở một trình tự, hệ thống sẽ tự trích ra một số GI mới và tăng số version của nó lên một Công cụ duyệt lại trình tự (Sequence Revision History) có nhiệm vụ theo dõi những số GI khác nhau, những số version và cập nhật ngày cho trình tự khi có sự xuất hiện một record đặc biệt ở GenBank
Cách tìm kiếm: dùng chuẩn chọn lựa của “All Fields’
GI “GenInfo Identifier” là số nhận dạng trình tự, trong trường hợp này, là
trình tự nucleotide Nếu một trình tự thay đổi theo bất kỳ cách nào, một
số GI mới sẽ được ấn định
Một số GI riêng lẽ còn được ấn định với mỗi protein được dịch trong phạm vi một record trình tự nucleotide, và một số GI mới sẽ được ấn định nếu sự dịch protein thay đổi theo bất kỳ cách nào
Sự xác định số GI trình tự chạy song song với hệ thống xác định accession.version mới của trình tự
Công cụ duyệt lại trình tự (Sequence Revision History) có nhiệm vụ theo dõi những số GI khác nhau, những số version và cập nhật ngày cho trình tự khi có sự xuất hiện một record đặc biệt ở GenBank
Cách tìm kiếm: dùng chuẩn chọn lựa của “All Fields’
Keyword Cách tìm kiếm: từ khóa [KYWD]
Chỉ dẫn: Bởi vì những từ khóa thì không có mặt trong nhiều records,
điều đó thì không tốt khi tìm kiếm Thay vào đó, tìm kiếm tất cả các trường [ALL], tìm trường từ text [WORD], hoặc tìm trường từ tiêu đề [TITL], để thu hẹp những kết quả tìm được
Source Cách tìm kiếm: Organism [ORGN]
Chỉ dẫn: Một vài sinh vật được thiết lập với tên gọi thông thường, như
là men bánh mì, chuột, và người, một tìm kiếm với tên thông thường sẽ cho kết quả giống như tìm kiếm với tên đặc biệt, …, một tìm kiếm với tên “baker‟s yeast” trong trường Organism sẽ cho kết quả giống như tìm với tên “Saccharomyces cerevisiae” Đây là một điều đúng bởi
Trang 7trường Organism đã được kết nối với cơ sở dữ liệu NCBI Taxonomy, nơi chứa những tham khảo giữa tên thông thường, tên đặc biệt và những sinh vật tương đồng đã được giữ trong cơ sở dữ liệu trình tự Organism Cách tìm kiếm: sinh vật [ORGN]
Chỉ dẫn: Bạn có thể tìm kiếm ở trường Organism bởi bất kỳ nội dung
nào (node) trong hệ thống phân loại (taxonomic hierarchy), …, như bạn
có thể tìm kiếm nội dung “Saccharomyces cerevisiae”,
“Saccharomycetales”, “Ascomycota”, … để trích tất cả những trình tự
từ những sinh vật đã được nhóm đặc biệt
Reference Cách tìm kiếm: Những trường con khác nhau dưới mục References thì
có thể tìm kiếm ở trang tìm kiếm Entrez với những trường như bên dưới
Authors Danh sách những tác giả trong nhóm, xuất hiện trong bài báo
Cách tìm kiếm: tác giả [AUTH]
Chỉ dẫn: Nhập tên tác giả vào trong khung: tên thật (không có gì sau
chữ đầu) Ban đầu có thể được bỏ qua Sự cắt gọn còn có thể được dùng
để trích tất cả tên tác giả bắt đầu với chuỗi ký tự, như: Richards* hoặc Boguski M*
Title Cách tìm kiếm: text word [WORD]
Chú ý: Về những record trình tự, trường Title Word [TITL] của Entrez tìm kiếm ở dòng Definition, không có những Titles của References được liệt kê ở record Vì thế, phải dùng trường Text Word để tìm kiếm những chủ đề của References
Chỉ dẫn: Nếu tìm kiếm cho một nội dung đặc biệt không trích được
những record mong muốn, hãy cố gắng với những nội dung khác mà những tác giả đó phải dùng, như: cụm từ cùng nghĩa, câu đầy đủ, hoặc chữ viết tắt Chức năng “những Record có liên quan (related records)” của tìm kiếm Entrez còn cho phép bạn mở rộng tìm kiếm của bạn bởi những record trích được với những trình tự tương đồng, không quan tâm đến những nội dung được diễn tả bởi những người submit
Journal MEDLINE là chữ viết tắt của tên một tạp chí
Trang 8Cách tìm kiếm: Journal Name [JOUR]
Chỉ dẫn: tên tạp chí có thể được nhập vào chữ đầy đủ hoặc viết tắt của
MEDLINE Bạn có thể tìm kiếm trường tên tạp chí trong danh mục (Index) để xem danh mục cho trường đó và chọn một hoặc nhiều tên tạp chí nhập vào trong tìm kiếm của bạn
MEDLINE Số xác định duy nhất trên MEDLINE (UID)
Những sự tham khảo bao gồm MEDLINE UIDs chứa những liên kết từ record trình tự đến record MEDLINE tương ứng Ngược lại, những record MEDLINE chứa số Accession trong trường SI (secondary source identifier - nguồn xác định thứ cấp) chứa những liên kết ngược lại record trình tự
Cách tìm kiếm: Không thể tìm kiếm ở cơ sở dữ liệu trình tự nucleotide
và protein bởi số MEDLINE UID Tuy nhiên, bạn có thể tìm kiếm ở cơ
sở dữ liệu tài liệu (PubMed) của Entrez cho MEDLINE UID, và sau đó liên kết tới những record trình tự có quan hệ
PUBMED Số xác định PubMed (PMID)
Những tham khảo bao gồm IDs PubMed chứa những liên kết từ record trình tự tới record PubMed tương ứng Ngược lại, những record PubMed chứa số Accession trong trường SI (nguồn ID thứ cấp) chứa những liên kết ngược lại record trình tự
Cách tìm kiếm: Không thể tìm kiếm ở cơ sở dữ liệu trình tự nucleotide
và protein bởi số PubMed ID Tuy nhiên, bạn có thể tìm kiếm tài liệu ở
cơ sở dữ liệu PubMed của Entrez cho số PubMed ID, và sau đó liên kết đến những record trình tự có quan hệ
Direct
Submission
Thông tin liên lạc của người submit, như là viện/cơquan và địa chỉ bưu điện Đây là sự trích dẫn sau cùng trong trường References Một vài record cũ không chứa tham khảo “Direct Submission” Tuy nhiên, nó được yêu cầu trong tất cả những record mới
Trường con Authors chứa tên của người submit, Title chứa những từ
“Direct Submission”, và Journal chứa địa chỉ
Ngày của trường con Journal là ngày mà tác giả sửa submission Trong
Trang 9nhiều trường hợp, nó còn là ngày mà trình tự được thừa nhận bởi nhóm GenBank
Cách tìm kiếm: dùng Field Author [AUTH] nếu tìm kiếm theo tên của
tác giả Dùng All Fields [ALL] nếu tìm kiếm với những thông tin về tác giả như địa chỉ tác giả, …(ví dụ: Yale University) Chú ý, những record được trích lấy phải chứa tên của cơ quan trong trường (field) như lời dẫn giải, nhiều chi tiết phần tham khảo Submit trực tiếp, vì thế bạn có thể lấy một vài danh mục sai
Chỉ dẫn: thỉnh thoảng có một sự hữu dụng khi dùng cả từ đủ nghĩa kết
hợp với từ viết tắt trong tìm kiếm, ví dụ “Washington University” OR
“WashU”, bởi vì việc viết đúng được dùng cũng có một sức mạnh riêng
FEATURES Chứa thông tin về các gene và những sản phẩm của gene, chính xác là
những vùng sinh học quan trọng được báo cáo lên trong một record trình tự Những điều này bao gồm những vùng trình tự mã hóa những phân tử protein và phân tử RNA, đúng hơn là có một đặc trưng (fearures) khác nhau
Một danh sách feature hoàn chỉnh có thể có những phần sau đây:
(có thể xem chi tiết hơn ở Appendix III, Appendix IV trong phần 3.4.12.1 của file GenBank notes)
Một record mẫu được đưa ra ở trên chỉ bao gồm một số nhỏ những thành phần của features (như nguồn, CDS, và gene, tất cả những mô tả bên dưới nó) Những phần Features khác, bên dưới, cung cấp những liên kết tới một vài GenBank record mà ở đó có trình diễn những feature truyền thống khác
Cách tìm kiếm: Feature Key [FKEY]
Chỉ dẫn: để xem danh các features có sẵn, tham khảo Bảng Feature
(phiên bản 6.2) Sau đó, bạn có thể chọn một hoặc nhiều feature từ trong danh mục bao gồm luôn yêu cầu của bạn Ví dụ, bạn có thể giới hạn tìm kiếm của bạn tới những record chứa vừa primer gắn lẫn đặc tính promoter
Trang 10source Cách tìm kiếm: All Fields [ALL] bạn có thể dùng để tìm kiếm một vài
yếu tố trong trường source, như chủng loại, dòng, loại mô
Dùng trường Sequence Length [SLEN] để tìm kiếm chiều dài và trường Organism [ORGN] để tìm kiếm tên sinh vật
Taxon Là số ID duy nhất, ổn định của phân loại nguồn gốc sinh vật Số phân
loại ID được ấn định cho mỗi phân loại (loài, giống, họ, …) trong cơ sở
dữ liệu NCBI
Cách tìm kiếm: Số ID phân loại thì không thể tìm kiếm trong trường
Organism của trang Entrez nhưng có thể tìm kiếm ở trang Taxonomy Browser
Trình tự mã hóa; là vùng nucleotide tương ứng với trình tự amino acids trong một phân tử protein (vị trí từ codon mở đều cho đến codon kết thúc) Điểm đặc trưng của CDS bao gồm sự dịch amino acid Tác giả có thể chỉ rõ CDS tự nhiên bằng cách dùng từ hạn định
“/evidence=experimental” hoặc “/evidence=not_experimental”
Người gởi còn được khuyến khích chú giải phần đặc tính của mRNA, bao gồm vùng không mã hóa 5‟ (5‟UTR), trình tự mã hóa (CDS, exon),
và vùng mã hóa 3‟
Cách tìm kiếm: Feature Key [FKEY]
Chỉ dẫn: Bạn có thể dùng trường này để giới hạn tìm kiếm của bạn
những record chứa 1 đặc tính (feature) đặc biệt, như CDS Để làm hiện lên danh mục những đặc tính có giá trị, xem trường Feature Key trong chọn lựa danh mục
<1 206 : phần mở rộng base của đặc tính sinh học được chỉ ra bên trái, trong trường hợp này là đặc tính CDS Đặc tính có thể hoàn chỉnh, một phần trên đầu 5‟ (< 1 206) , một phần tại đầu 3‟ (4821 5028>) hay trên mạch bổ sung (complement(3300 4037))
protein_id Số xác định trình tự protein, tương tự số version của trình tự nucleotide
Cách tìm: sử dụng “All Fields”
GI “GenInfo Identifier” số xác định trình tự, trong trường hợp này cho sản
Trang 11gene Vùng sinh học quan tâm đƣợc xác định nhƣ là gene và đƣợc đặt tên
Cách tìm kiếm: Feature Key [FKEY]
complement Chỉ ra rằng đặc tính nằm trên mạch bổ sung
Các đặc tính
khác
Trong các record khác chỉ ra rất nhiều đặc tính sinh học khác Ví dụ:
AF165912 (gene, promoter, TATA signal, mRNA, 5'UTR, CDS, 3'UTR)
AF090832 (protein bind, gene, 5'UTR, mRNA, CDS, 3'UTR)
L00727 (alternatively spliced mRNAs) BASE
COUNT
Số lƣợng A, C, T, G trong trình tự
ORIGIN Thông tin trình tự bắt đầu ngay sau từ ORIGIN