Thu thập nguồn gene và tổ chức dữ liệu gene 8.pdf

Thu thập nguồn gene và tổ chức dữ liệu gene

Trang 2

- Bảng chú thích các trường và một số nguyên tắc tìm kiếm

Trường

(Fields)

Chú thích (Comments)

Locus Trường Locus chứa 1 số những yếu tố dữ liệu khác nhau, bao gồm tên

Locus, chiều dài trình tự, loại phân tử, khu vực GenBank (division) và ngày cập nhật

Locus name Locus name trong ví dụ trên là SCU49845

Locus name là một cách trình bày đặc biệt để giúp nhóm những mục từ (entries) có trình tự tương đồng: ba ký tự đầu tiên thường để chỉ sinh vật; bốn và năm chữ tiếp theo thường dùng để chỉ những nhóm tên khác như: sản phẩm gene, sự phân cấp các mục từ; ký tự cuối cùng là một mã của dãy những số nguyên

Tuy nhiên, 10 ký tự trong tên của Locus thì không đủ để cung cấp ý nghĩa để trình bày một lượng lớn thông tin mang ý nghĩa nguồn gốc đặc biệt chứa đựng trong Locus

Hiện nay chỉ một quy tắc để thiết kế tên của Locus và nó là duy nhất

Ví dụ: 1 GenBank record có tên là 6 ký tự accession (như U12345), tên của Locus thì thường là ký tự đầu tiên của tên giống và loài, tiếp theo mới là số accession

Ví dụ khác: 8 ký tự accession (như AF123456) thì tên Locus chỉ là số accession

Cơ sở dữ liệu RefSeq chứa những trình tự tham khảo cũng được ấn

định theo chuẩn tên locus với mỗi record, tượng trưng cho gene RefSeq tồn tại riêng rẽ với cơ sở dữ liệu GenBank, nhưng chứa những tham khảo tương ứng với những record GenBank

Cách tìm kiếm: Số Accession [ACCN]

Chỉ dẫn: Tìm kiếm số accession tốt hơn là là tìm tên locus, vì số

accession thì ổn định nhưng tên locus có thể thay đổi

Sequence

Length

Là số lượng cặp Nucleotide (hoặc chuỗi amino acid) trong record trình

tự

Trang 3

Ví dụ: Ở record trên, chiều dài trình tự là 5028 bp

Không có giới hạn tối đa cho kích thước của 1 trình tự được submit lên GenBank Bạn có thể submit cả một genome nếu bạn có thể Tuy nhiên,

có giới hạn là 350 kb đối với riêng mỗi loại record GenBank

Chiều dài nhỏ nhất đòi hỏi của một submit là 50 bp, mặc dù có những record ngắn hơn ở những năm trước

Cách tìm kiếm: chiều dài trình tự [SLEN]

Chỉ dẫn:

(1) để trích những record với 1 khoảng chiều dài, ta dùng như sau: 2500:2600[SLEN]

(2) để trích tất cả những trình tự ngắn hơn 1 số chắc chắn nào đó, ta dùng như sau: 2:100[SLEN]

(3) để trích tất cả những trình tự dài hơn 1 số chắc chắn nào đó, ta dùng

1 dãy số 9 dùng như giới hạn trên, ta dùng như sau: 325000: 99999999[SLEN]

Molecule type Là loại phân tử của trình tự trong record

Ví dụ: Ở record trên loại phân tử là DNA Mỗi record GenBank phải chứa dữ liệu trình tự liên tiếp nhau từ 1 loại đơn phân tử Có nhiều loại phân tử khác nhau đã được mô tả như: genomic DNA, genomic RNA, tiền RNA, mRNA (cDNA), ribosomal RNA, RNA chuyển (transfer RNA), RNA nhân con, và RNA tế bào chất

Các khu vực trong GenBank (GenBank Division)

GenBank phân chia record một trong các trường thể hiện ngắn gọn thuộc bẳng 3 ký tự tóm tắt Trong ví dụ trên GenBank Division là PLN

Cơ sở dữ liệu GenBank được phân thành 17 khu vực:

1 PRI – trình tự động vật có vú phát triển cao (gồm người, vượn, khỉ

đuôi dài…; động vật linh trưởng)

Trang 4

11.UNA – những trình tự không chú thích

12 EST – những trình tự EST (expressed sequence tags) 13.PAT – những trình tự có bằng công nhận sáng chế

14.STS – những trình tự STS (sequence tagged sites)

15.GSS - những trình tự GSS (genome survey sequences) 16.HTG – những trình tự HTG (high-throughput genomic sequences) 17.HTC – unfinished high-throughput cDNA sequencing

Một vài khu vực chứa những trình tự từ những nhóm sinh vật cụ thể, trong khi đó những khu vực khác (EST, GSS, HTG, …), chứa dữ liệu tạo ra bằng kỹ thuật giải trình tự đặc biệt từ nhiều sinh vật khác nhau

Cách tìm kiếm: đặc tính [PROP]

Chỉ dẫn: nội dung tìm kiếm nên được định dạng sau: gbdiv_pri,

gbdiv_est, …, ví dụ để loại trừ tất cả những trình tự từ những khu vực đặc biệt như ESTs, bạn có thể dùng nội dung lệnh như sau:

human[ORGN] NOT gbdiv_est[PROP]

Thay thế những cách ở trên, không dùng GenBank divisions để trích tất

cả trình tự từ 1 sinh vật đặc biệt, ta dùng NCBI Taxonomy Browser Modification

Date

Ngày trong trường Locus là ngày cập nhật cuối cùng của Record

Ví dụ: Ngày cập nhật sau cùng của record trên là 21-06-1999

Cách tìm kiếm: ngày cập nhật [MDAT]

Chỉ dẫn:

(1) nhập vào nội dung tìm kiếm theo dạng sau: năm/tháng/ngày (ví dụ:

Trang 5

1999/07/25) (2) để trích những record được bổ sung giữa 2 ngày, dùng dấu hai chấm trong lệnh như sau: 1999/07/25:1999/07/31[DMAT]

(3) Bạn có thể dùng trường ngày xuất bản [PDAT] của Entrez để giới hạn kết quả tìm kiếm (bởi ngày này được thêm vào trong hệ thống của Entrez) Ngày xuất bản có thể được thay đổi giống như ngày ngày cập nhật

Definition Mô tả vắn tắt về trình tự; bao gồm những thông tin như nguồn gốc sinh

vật, tên gene/tên protein, hoặc một vài mô tả của chức năng trình tự (nếu trình tự là không mã hóa) Nếu trình tự là một vùng mã hóa (CDS), những mô tả có thể được đầy đủ hơn như “complete cds”

Cách tìm kiếm: từ tiêu đề [TITL]

Chỉ dẫn: Mặc dù những dòng định nghĩa theo một cấu trúc định dạng,

nhưng GenBank không dùng từ ngữ được kiểm soát và tác giả sẽ quyết định nội dung của record Vì vậy, nếu tìm kiếm một nội dung đặc biệt

mà không lấy được những record mong muốn, hãy cố gắng những nội dung khác mà tác giả đã dùng, như là từ cùng nghĩa, từ đầy đủ, hoặc một chữ viết tắt Chức năng “related records” (hoặc “neighbors”) của Entrez còn cho phép bạn mở rộng tìm kiếm của bạn bằng cách trích những record với những trình tự tương tự, những nội dung mô tả không quan tâm được dùng bởi người submit

Accession Cách tìm kiếm: accession [ACCN]

Chỉ dẫn: Những từ trong accession number có thể được viết như trên

Riêng số RefSeq accession phải chứa 1 dấu gạch giữa những từ và số như NM_002111

Version Là số dùng nhận dạng một trình tự nucleoide, nó chỉ có một, trình tự

đặc trưng trong cơ sở dữ liệu GenBank Số xác định này thường được

định dạng accession.version theo qui ước của GenBank/EMBL/DDBJ

vào tháng 2 năm 1999

Nếu bạn có bất kỳ thay đổi trong dữ liệu trình tự (kể cả một base), số version sẽ được tăng như U12345.1 → U12345.2, nhưng phần

Trang 6

accession vẫn giữ ổn định

Hệ thống xác định accession.version của trình tự chạy song song với hệ thống số GI, khi có bất kỳ sự thay đổi được tạo ra ở một trình tự, hệ thống sẽ tự trích ra một số GI mới và tăng số version của nó lên một Công cụ duyệt lại trình tự (Sequence Revision History) có nhiệm vụ theo dõi những số GI khác nhau, những số version và cập nhật ngày cho trình tự khi có sự xuất hiện một record đặc biệt ở GenBank

Cách tìm kiếm: dùng chuẩn chọn lựa của “All Fields’

GI “GenInfo Identifier” là số nhận dạng trình tự, trong trường hợp này, là

trình tự nucleotide Nếu một trình tự thay đổi theo bất kỳ cách nào, một

số GI mới sẽ được ấn định

Một số GI riêng lẽ còn được ấn định với mỗi protein được dịch trong phạm vi một record trình tự nucleotide, và một số GI mới sẽ được ấn định nếu sự dịch protein thay đổi theo bất kỳ cách nào

Sự xác định số GI trình tự chạy song song với hệ thống xác định accession.version mới của trình tự

Công cụ duyệt lại trình tự (Sequence Revision History) có nhiệm vụ theo dõi những số GI khác nhau, những số version và cập nhật ngày cho trình tự khi có sự xuất hiện một record đặc biệt ở GenBank

Cách tìm kiếm: dùng chuẩn chọn lựa của “All Fields’

Keyword Cách tìm kiếm: từ khóa [KYWD]

Chỉ dẫn: Bởi vì những từ khóa thì không có mặt trong nhiều records,

điều đó thì không tốt khi tìm kiếm Thay vào đó, tìm kiếm tất cả các trường [ALL], tìm trường từ text [WORD], hoặc tìm trường từ tiêu đề [TITL], để thu hẹp những kết quả tìm được

Source Cách tìm kiếm: Organism [ORGN]

Chỉ dẫn: Một vài sinh vật được thiết lập với tên gọi thông thường, như

là men bánh mì, chuột, và người, một tìm kiếm với tên thông thường sẽ cho kết quả giống như tìm kiếm với tên đặc biệt, …, một tìm kiếm với tên “baker‟s yeast” trong trường Organism sẽ cho kết quả giống như tìm với tên “Saccharomyces cerevisiae” Đây là một điều đúng bởi

Trang 7

trường Organism đã được kết nối với cơ sở dữ liệu NCBI Taxonomy, nơi chứa những tham khảo giữa tên thông thường, tên đặc biệt và những sinh vật tương đồng đã được giữ trong cơ sở dữ liệu trình tự Organism Cách tìm kiếm: sinh vật [ORGN]

Chỉ dẫn: Bạn có thể tìm kiếm ở trường Organism bởi bất kỳ nội dung

nào (node) trong hệ thống phân loại (taxonomic hierarchy), …, như bạn

có thể tìm kiếm nội dung “Saccharomyces cerevisiae”,

“Saccharomycetales”, “Ascomycota”, … để trích tất cả những trình tự

từ những sinh vật đã được nhóm đặc biệt

Reference Cách tìm kiếm: Những trường con khác nhau dưới mục References thì

có thể tìm kiếm ở trang tìm kiếm Entrez với những trường như bên dưới

Authors Danh sách những tác giả trong nhóm, xuất hiện trong bài báo

Cách tìm kiếm: tác giả [AUTH]

Chỉ dẫn: Nhập tên tác giả vào trong khung: tên thật (không có gì sau

chữ đầu) Ban đầu có thể được bỏ qua Sự cắt gọn còn có thể được dùng

để trích tất cả tên tác giả bắt đầu với chuỗi ký tự, như: Richards* hoặc Boguski M*

Title Cách tìm kiếm: text word [WORD]

Chú ý: Về những record trình tự, trường Title Word [TITL] của Entrez tìm kiếm ở dòng Definition, không có những Titles của References được liệt kê ở record Vì thế, phải dùng trường Text Word để tìm kiếm những chủ đề của References

Chỉ dẫn: Nếu tìm kiếm cho một nội dung đặc biệt không trích được

những record mong muốn, hãy cố gắng với những nội dung khác mà những tác giả đó phải dùng, như: cụm từ cùng nghĩa, câu đầy đủ, hoặc chữ viết tắt Chức năng “những Record có liên quan (related records)” của tìm kiếm Entrez còn cho phép bạn mở rộng tìm kiếm của bạn bởi những record trích được với những trình tự tương đồng, không quan tâm đến những nội dung được diễn tả bởi những người submit

Journal MEDLINE là chữ viết tắt của tên một tạp chí

Trang 8

Cách tìm kiếm: Journal Name [JOUR]

Chỉ dẫn: tên tạp chí có thể được nhập vào chữ đầy đủ hoặc viết tắt của

MEDLINE Bạn có thể tìm kiếm trường tên tạp chí trong danh mục (Index) để xem danh mục cho trường đó và chọn một hoặc nhiều tên tạp chí nhập vào trong tìm kiếm của bạn

MEDLINE Số xác định duy nhất trên MEDLINE (UID)

Những sự tham khảo bao gồm MEDLINE UIDs chứa những liên kết từ record trình tự đến record MEDLINE tương ứng Ngược lại, những record MEDLINE chứa số Accession trong trường SI (secondary source identifier - nguồn xác định thứ cấp) chứa những liên kết ngược lại record trình tự

Cách tìm kiếm: Không thể tìm kiếm ở cơ sở dữ liệu trình tự nucleotide

và protein bởi số MEDLINE UID Tuy nhiên, bạn có thể tìm kiếm ở cơ

sở dữ liệu tài liệu (PubMed) của Entrez cho MEDLINE UID, và sau đó liên kết tới những record trình tự có quan hệ

PUBMED Số xác định PubMed (PMID)

Những tham khảo bao gồm IDs PubMed chứa những liên kết từ record trình tự tới record PubMed tương ứng Ngược lại, những record PubMed chứa số Accession trong trường SI (nguồn ID thứ cấp) chứa những liên kết ngược lại record trình tự

Cách tìm kiếm: Không thể tìm kiếm ở cơ sở dữ liệu trình tự nucleotide

và protein bởi số PubMed ID Tuy nhiên, bạn có thể tìm kiếm tài liệu ở

cơ sở dữ liệu PubMed của Entrez cho số PubMed ID, và sau đó liên kết đến những record trình tự có quan hệ

Direct

Submission

Thông tin liên lạc của người submit, như là viện/cơquan và địa chỉ bưu điện Đây là sự trích dẫn sau cùng trong trường References Một vài record cũ không chứa tham khảo “Direct Submission” Tuy nhiên, nó được yêu cầu trong tất cả những record mới

Trường con Authors chứa tên của người submit, Title chứa những từ

“Direct Submission”, và Journal chứa địa chỉ

Ngày của trường con Journal là ngày mà tác giả sửa submission Trong

Trang 9

nhiều trường hợp, nó còn là ngày mà trình tự được thừa nhận bởi nhóm GenBank

Cách tìm kiếm: dùng Field Author [AUTH] nếu tìm kiếm theo tên của

tác giả Dùng All Fields [ALL] nếu tìm kiếm với những thông tin về tác giả như địa chỉ tác giả, …(ví dụ: Yale University) Chú ý, những record được trích lấy phải chứa tên của cơ quan trong trường (field) như lời dẫn giải, nhiều chi tiết phần tham khảo Submit trực tiếp, vì thế bạn có thể lấy một vài danh mục sai

Chỉ dẫn: thỉnh thoảng có một sự hữu dụng khi dùng cả từ đủ nghĩa kết

hợp với từ viết tắt trong tìm kiếm, ví dụ “Washington University” OR

“WashU”, bởi vì việc viết đúng được dùng cũng có một sức mạnh riêng

FEATURES Chứa thông tin về các gene và những sản phẩm của gene, chính xác là

những vùng sinh học quan trọng được báo cáo lên trong một record trình tự Những điều này bao gồm những vùng trình tự mã hóa những phân tử protein và phân tử RNA, đúng hơn là có một đặc trưng (fearures) khác nhau

Một danh sách feature hoàn chỉnh có thể có những phần sau đây:

(có thể xem chi tiết hơn ở Appendix III, Appendix IV trong phần 3.4.12.1 của file GenBank notes)

Một record mẫu được đưa ra ở trên chỉ bao gồm một số nhỏ những thành phần của features (như nguồn, CDS, và gene, tất cả những mô tả bên dưới nó) Những phần Features khác, bên dưới, cung cấp những liên kết tới một vài GenBank record mà ở đó có trình diễn những feature truyền thống khác

Cách tìm kiếm: Feature Key [FKEY]

Chỉ dẫn: để xem danh các features có sẵn, tham khảo Bảng Feature

(phiên bản 6.2) Sau đó, bạn có thể chọn một hoặc nhiều feature từ trong danh mục bao gồm luôn yêu cầu của bạn Ví dụ, bạn có thể giới hạn tìm kiếm của bạn tới những record chứa vừa primer gắn lẫn đặc tính promoter

Trang 10

source Cách tìm kiếm: All Fields [ALL] bạn có thể dùng để tìm kiếm một vài

yếu tố trong trường source, như chủng loại, dòng, loại mô

Dùng trường Sequence Length [SLEN] để tìm kiếm chiều dài và trường Organism [ORGN] để tìm kiếm tên sinh vật

Taxon Là số ID duy nhất, ổn định của phân loại nguồn gốc sinh vật Số phân

loại ID được ấn định cho mỗi phân loại (loài, giống, họ, …) trong cơ sở

dữ liệu NCBI

Cách tìm kiếm: Số ID phân loại thì không thể tìm kiếm trong trường

Organism của trang Entrez nhưng có thể tìm kiếm ở trang Taxonomy Browser

Trình tự mã hóa; là vùng nucleotide tương ứng với trình tự amino acids trong một phân tử protein (vị trí từ codon mở đều cho đến codon kết thúc) Điểm đặc trưng của CDS bao gồm sự dịch amino acid Tác giả có thể chỉ rõ CDS tự nhiên bằng cách dùng từ hạn định

“/evidence=experimental” hoặc “/evidence=not_experimental”

Người gởi còn được khuyến khích chú giải phần đặc tính của mRNA, bao gồm vùng không mã hóa 5‟ (5‟UTR), trình tự mã hóa (CDS, exon),

và vùng mã hóa 3‟

Chỉ dẫn: Bạn có thể dùng trường này để giới hạn tìm kiếm của bạn

những record chứa 1 đặc tính (feature) đặc biệt, như CDS Để làm hiện lên danh mục những đặc tính có giá trị, xem trường Feature Key trong chọn lựa danh mục

 <1 206 : phần mở rộng base của đặc tính sinh học được chỉ ra bên trái, trong trường hợp này là đặc tính CDS Đặc tính có thể hoàn chỉnh, một phần trên đầu 5‟ (< 1 206) , một phần tại đầu 3‟ (4821 5028>) hay trên mạch bổ sung (complement(3300 4037))

protein_id Số xác định trình tự protein, tương tự số version của trình tự nucleotide

Cách tìm: sử dụng “All Fields”

GI “GenInfo Identifier” số xác định trình tự, trong trường hợp này cho sản

Trang 11

gene Vùng sinh học quan tâm đƣợc xác định nhƣ là gene và đƣợc đặt tên

complement Chỉ ra rằng đặc tính nằm trên mạch bổ sung

Các đặc tính

khác

Trong các record khác chỉ ra rất nhiều đặc tính sinh học khác Ví dụ:

 AF165912 (gene, promoter, TATA signal, mRNA, 5'UTR, CDS, 3'UTR)

 AF090832 (protein bind, gene, 5'UTR, mRNA, CDS, 3'UTR)

 L00727 (alternatively spliced mRNAs) BASE

COUNT

Số lƣợng A, C, T, G trong trình tự

ORIGIN Thông tin trình tự bắt đầu ngay sau từ ORIGIN

Tiêu đề	Thu Thập Nguồn Gene Và Tổ Chức Dữ Liệu Gene
Tác giả	Nguyễn Kỳ Trung, Lê Thành Trung
Trường học	Trường Đại Học Khoa Học Tự Nhiên
Chuyên ngành	Công Nghệ Sinh Học
Thể loại	Luận Văn
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	22
Dung lượng	907,62 KB