ĐỊNH NGHĨA GIẢI TRÌNH TỰ GEN• Là phương pháp thực nghiệm để xác định trình tự nucleotide của một đoạn ADN • Xác định chính xác trật tự sắp xếp của các cặp trong một đoạn ADN www.accessex
Trang 1Giảng viên hướng dẫn: TS Võ Văn Toàn Học viên thực hiện: Phùng Tấn Thi
Lớp: Sinh học thực nghiệm khóa 12
Qui Nhơn, tháng 3 năm 2011
TIN SINH HỌC
PHƯƠNG PHÁP XÁC ĐỊNH TRÌNH TỰ AND
VÀ ỨNG DỤNG TRONG THỰC TẾ
Trang 2What is bioinformatics?
Tin sinh h c l gì? ọ à
Bio: Sinh h c phân t (Molecular ọ ử
Biology)
Informatics: Khoa h c tính toán ọ
Bioinformatics: Gi i quy t các b i toán ả ế à
sinh h c b ng vi c s d ng các ph ng ọ ằ ệ ử ụ ươ pháp c a khoa h c tính toán ủ ọ
Synonyms: Computational
biology,Computational molecular biology,
Biocomputing
Trang 4DNA/RNA
Trang 5CẤU TRÚC PHÂN TỬ CỦA ĐƯỜNG RIBOSE VÀ DEOXYRIBOSE
Trang 6Trạng thái tự nhiên Trạng thái biến tính sợi đơn Trạng thái lại tính
Trang 7ĐỊNH NGHĨA GIẢI TRÌNH TỰ GEN
• Là phương pháp thực nghiệm để xác định trình tự
nucleotide của một đoạn ADN
• Xác định chính xác trật tự sắp xếp của các cặp trong một đoạn ADN
www.accessexcellence.org/AE/AEPC/NIH/gene27.html
• Phân tích trình tự của các đơn vị mang thông tin di truyền
www.mwgbiotech.com/html/glossary/glossary_overview.shtml
Trang 8LỊCH SỬ PHÂN TÍCH TRÌNH TỰ GEN
1870 Mischer: PHÁT MINH DNA
1940 Avery: DNA LÀ “CHẤT LIỆU DI TRUYỀN”
1953 Watson & Crick: CẤU TRÚC XOẮN KÉP CỦA DNA
1965 Holley: TRÌNH TỰ CỦA t RNA NẤM MEN
1977 Wu: TRÌNH TỰ CỦA ĐẦU DÍNH DNA TRỰC KHUẨN λ
1977 Sanger: PHƯƠNG PHÁP DỪNG CHUỖI BẰNG DIDEOXY
Maxam & Gilbert: PHƯƠNG PHÁP PHÂN GiẢI HÓA HỌC
1980 Messing: CHỌN LỌC DÒNG TRỰC KHUẨN M13
1986 Hood et al: TỰ ĐỘNG HÓA MỘT PHẦN
1990 PHÂN TÍCH TRÌNH TỰ BẰNG CHU TRÌNH NHIỆT (PCR); CÁC ENZYME ĐƯỢC HOÀN THIỆN ĐỂ ĐỌC TRÌNH TỰ; CÁC HỆ THỐNG DÒ HUỲNH QUANG ĐƯỢC HOÀN THIỆN (ĐỌC QUA ỐNG MAO DẪN)
Trang 9PHÂN BỐ SỐ LƯỢNG GENOM ĐÃ ĐƯỢC GIẢI TRÌNH TỰ HOÀN TOÀN Ở CÁC SINH VẬT
Archea (16)
Eukarya (20)
Bacteria (139)
Viruses (1500)
Trang 10NGUYÊN LÝ CỦA CÁC PHƯƠNG PHÁP
PHÂN TÍCH TRÌNH TỰ GEN
PHƯƠNG PHÁP SANGER
Frederick (Fred) Sanger
Trang 11PHƯƠNG PHÁP MAXAM-GILBERT
Walter Gilbert
Trang 12PHẢN ỨNG CHUỖI/DÂY CHUYỀN (CỦA/BẰNG/NHỜ/DO) POLYMERASE
Polymerase Chain Reaction (PCR)
Kary Mullis
GIẢI NOBEL VỀ HÓA HỌC, 1993
Trang 13Mullis, K.B (1990) The unusual origin of the polymerase chain reaction
Scientific American 262 (4) 56-65
devised by Kary Mullis c1983
POLYMERASE CHAIN REACTION - PCR
A 'licence' to do molecular biology
A key central technique that has revolutionised molecular and consequently cell biology
Trang 14Schematic illustration of PCR steps
Sơ đồ minh họa các buớc PCR
From: Recombinant DNA by Watson, Gilman, Witkowski & Zoller
Trang 15Target Amplification
MỤC TIÊU KHUẾCH ĐẠI
No of No Amplicon Cycles Copies of Target
Trang 16CÁC PHƯƠNG PHÁP XÁC ĐỊNH
TRÌNH TỰ GENE
1 Phương pháp Maxam-Gilbert (hoá học)
Phương pháp được phát minh đầu tiên nhưng đến
nay ít được sử dụng, chỉ dùng cho
“footprinting”
Sử dụng DNA polymerase, primer, dNTP và một
lượng nhỏ ddNTP (để kết thúc chuỗi)
Trang 175’-Xử lý bằng hoá chất cắt đặc hiệu tại một base nào đó
4 ống
G-rxn A>G
-rxn
T>C -rxn C-rxn
C
C
Trình tự được đọc trực tiếp
autoradiograph of dried sequencing gel
C T A G
3’
G C A T T C C A T A G G 5’
Trang 18D a v o s th y phân c tr ng phân t DNA c n ự à ự ủ đặ ư ử ầ xác nh trình t b ng ph ng pháp hóa h c đị ự ằ ươ ọ
- Tr c h t DNA ướ ế đượ đ c ánh d u b ng P32 m t u ấ ằ ở ộ đầ
- Sau ó, chúng đ đượ c chia th nh à n m phân o n, ă đ ạ
Trang 19Hóa ch t ấ Base b nh h ng ị ả ưở
Trang 205’-DNA Polymerase +dNTPs + one of:
In the ddGTP reaction there is a
random chance a ddGTP will be
incorporated across from a C
C T A G
ddNTP Reaction Mix
5’
C G T A A G G T A T C C 3’
Trang 21Khi các Dideoxynucleotide b t c p b sung ắ ặ ổ
v i nucleotide t ng ng trên m ch g c thì ớ ươ ứ ạ ố
ph n ng t ng h p ng ng l i do không t o ả ứ ổ ợ ừ ạ ạ
c liên k t phosphodister.
Trang 22DNA Sequencing sau khi t¹o dßng
Primer
Trang 23O (P)-(P)-(P)-
H
Base
O (P)-(P)-(P)-
be added
OH
Trang 24P O OH
DNA Sequencing using the Sanger
method involves the use of
2’3’-dideoxynucleotide triphosphates in
addition to regular
2’-deoxynucleotide triphosphates
Because 2’3’-dideoxynucleotide
triphosphates lack a 3’ hydroxyl
group, and DNA polymerization
occurs only in the 3’ direction,
once 2’3’-dideoxynucleotide
triphosphates are incorporated (lk
chặt), primer extension stops
H
2’3’-dideoxynucleotide monophosphate
dideoxynucleotide monophosphate
Trang 252’-S U G A R -P H O S P H A T E B A C K B O N E
N
O
O
NH 2 N
NH N
H 2 N N
H 2 O
2
’3
’d id e o x y n u c le o
ti d e
Trang 27The dideoxy method has been
modified (bổ sung) so it can be
done in one tube In this case all of the ddNTP’s are labeled with
different, coloured fluorescent
molecules
This makes automation much
simpler, reduces the cost of the
reactions, and speeds up the
process tremendously (rất lớn)
Large sequencing centres use
this method and can read
millions of bp every single day
Trang 28Trong k thu t n y, không dùng các ng v ĩ ậ à đồ ị
phóng x , thay v o ó l các hóa ch t có kh ạ à đ à ấ ả
n ng phát hu nh quang (fluochrome) ă ỳ
M i lo i Dideoxynucleotide ỗ ạ đượ đ c ánh d u b ng ấ ằ fluochrome có m u khác nhau à
Trang 29Sequencing Data
Trang 31Máy giải trình tự DNA tự động
(Automated DNA Sequencers)
ABI: ABI 377, 310, 3100, 3100 Avant, 3700, 3730…
Amersham: MegaBace 500, 100
Beckman-Coulter: CE2000, 8000
Li-Cor:
Shimatzu: DSQ1000, 2000…
ABI 3100 Avant (4 capillaries): 5/ VCNSH, TTCNSH (ĐHQGHN);
Trang 32ABI sequencers
ABI 377
ABI 373
ABI 371
Trang 33ABI Automated Sequencers
(contd.)
ABI 310
ABI 3700
ABI 3100Avant ABI 3100
Trang 34Lý giải trình tự DNA
123123123
654654654
Khung đọc mở 2 Khung đọc mở 1
Trang 35C¸c C¬ së d÷ liÖu gen
Quèc tÕ
- EMBL/EBI (EU);
- NCBI (USA);
Trang 36CỞ SỞ DỮ LIỆU GEN CỦA EMBL/EBI
CSDL trình tự nucleotide của EMBL là một thành viên các nước châu Âu trong 3 CSDL lớn nhất thế giới Có thể truy cập vào hàng trăm trình tự genom hoàn chỉnh cùng với các sản phẩm protein dịch mã nhờ máy chủ của EBI
ASD: CSDL phân cắt nảy sinh (Alternative Splicing Database) chứa dữ liệu về các exon phân cắt phát sinh cùng với các thông tin bổ sung đi kèm Dự án ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy mô genome.
Trang 37 ATD: CSDL đa dạng về các bản phiên mã nảy sinh (Alternate Transcript Diversity Database ATD) chứa dữ liệu về các bản phiên mã trong đó mỗi bản phiên mã được
mô tả cho một dạng cắt ghép nảy sinh và sự polyadenyl hóa nảy sinh (alternative polyadenylation).
EMBL-Align database: CSDL so sánh nhiều trình tự
EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL trình tự nucleotide EMBL, đóng góp vào nguồn trình tự nucleotide sơ cấp của châu Âu
Trang 38 EMBL CDS: là một CSDL của trình tự nucleotide của trình
tự mã hóa (CDS coding sequence)
Ensembl: Mô tả tự động của các genome eukaryote
Genomes Server: một cái nhìn tổng quan của các genom hoàn chỉnh ở EBI Những trang web này cho phép truy cập với một số lượng lớn các genom hoàn chỉnh.
Genome Reviews: CSDL genom được chỉnh sửa bao gồm các phiên bản chính xác của các mục tra cứu (entry) genom hoàn chỉnh từ CSDL trình tự nucleotide của EMBL/GenBank/DDBJ
Karyn's Genomes: thu thập và mô tả một số trình tự genom
Trang 39 IMGT/HLA: CSDL di truyền miễn dịch, bao gồm CSDL IMGT/HLA của phức hệ phù hợp tổ chức (MHC) CSDL
di truyền miễn dịch IMGT/LIGM bao gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế bào T
IPD: CSDL đa hình miễn dịch (Immuno Polymorphism Database IPD), bao gồm các gen đa hình của hệ thống miễn dịch, chẳng hạn như KIR, HPA và MHC không phải của người.
LGICdb: CSDL các chất gắn các kênh Ion (Ligand Gated Ion Channel Database)
Mutations: Dự án CSDL sự đa hình trình tự (Sequence variation database project)
Parasites: CSDL genome ký sinh (Parasite Genome databases)
Trang 41CÔNG CỤ PHÂN TÍCH TRÌNH TỰ AND CỦA EMBL/EBI
Sử dụng rất nhiều phương pháp tin sinh học để xác định chức năng sinh học, cấu trúc của các gen và protein mà chúng mã hóa.
Các công cụ như Transeq có thể giúp xác định các vùng mã hóa protein của một trình tự DNA ClustalW được sử dụng
để so sánh trình tự DNA hoặc protein để làm sáng tỏ mối quan hệ cũng như nguồn gốc tiến hóa của chúng
Trang 42Các công c phân tích do EBI cung c p: ụ ấ
hợp cho các promoter.
W hoặc T-Coffee phụ thuộc vào tùy chọn khác nhau
promoter
được với một số phương pháp so sánh khác nhau
Trang 43CƠ SỞ DỮ LIỆU GEN CỦA NCBI
GenBank: Tập hợp tất cả các trình tự nucleotide và axit amin hiện có
GenBank® là CSDL trình tự di truyền của NIH Có khoảng 51.674.486.881 base trong 46.947.388 bản trình tự trong các nhánh của GenBank và 53.346.605.784 base trong 10.276.161 bản ghi trình tự ở nhánh WGS vào 8/2005
Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của
Cứ sau 2 tháng, một phiên bản update được đưa ra
GenBank là một phần của (International Nucleotide Sequence Database Collaboration) bao gồm ở DDBJ, EMBL
và NCBI Ba tổ chức này trao đổi dữ liệu với nhau hàng ngày.
Trang 44 Trong lần công bố gần đây nhất, INSDC cho biết CSDL trình tự DNA đã vượt quá 100 Gb GenBank là một thành viên quan trọng đóng góp cho mức này và tất nhiên đó là kết quả đóng góp của rất nhiều các nhà khoa học trên toàn thế giới.
dbEST (data base of Expressed Sequence Tags): Theo Nature Genetics 4:332-3; 1993 thì dbEST là một tập hợp của các trình tự đeo thẻ hoặc các trình tự ngắn, duy nhất lấy từ mRNA (cDNA) dbEST cũng là một nhánh của GenBank.
Trang 45 dbGSS (data base of Genome Survey Sequences): cũng là một nhánh của GenBank nhưng khác với dbEST là hầu hết các trình tự đều có nguồn gốc từ genomic chứ không phải là cDNA (mRNA) Nhánh dbGSS chứa các dạng dữ liệu sau:
•Single - pass genom sequence
•Các trình t t n cùng c a cosmid/BAC/YAC ự ậ ủ
(transposon –tagged).
dbSNP (data base of Single-base Nucleotide Polymorphism):
là CSDL các đa hình do sự thay thế hoặc thêm, bớt một nucleotide
Trang 46 RefSeq: CSDL của các trình tự tra cứu không có sự dư thừa (non-redundant reference sequence) bao gồm: các đoạn contig DNA genom, các mRNA, các protein của các gen đã biết
dbSTS (data base of sequence tagged sites): CSDL của các
vị trí trình tự được đeo thẻ hoặc các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom.
UniSTS: là một cơ sở dữ liệu toàn diện của các STS (các vị trí đánh dấu trình tự) được lấy từ các bản đồ STS và các thí nghiệm khác.
UniGene: Tập hợp của các trình tự EST và các trình tự mRNA có chiều dài đầy đủ được nhóm vào các cụm và mỗi cụm đại diện cho một gene duy nhất được biết hoặc gene người được mô tả cùng với bản đồ và những thông tin về quá trình biểu hiện gen.
Trang 47 dbHTG (data base of high-throughput genom sequence): tập hợp của các trình tự genom thu được từ các trung tâm xác định trình tự genom.
HomoloGene: Sử dụng để so sánh trình tự nucleotide giữa hai sinh vật để đánh giá mức độ
ortholog giả định.
MGC: (Mamalian Gene Collection) cung cấp các dòng đầy đủ chiều dài các khung đọc mở (full- length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống
PopSet: PopSet là một hệ thống các trình tự DNA được thu thập để phân tích mối quan hệ tiến hóa của một quần thể
Trang 48 RefSeq: Cung cấp hệ thống các trình tự: DNA, các loại RNA và sản phẩm protein để nghiên cứu các sinh vật
TPA: Third Party Annotation (TPA) Sequence: Được thiết
kế để thu hút các kết quả thực nghiệm và hỗ trợ cho những người đăng ký mô tả, giải thích về trình tự mà người đăng
ký không xác định được trực tiếp nhưng có thể lấy từ dữ liệu sơ cấp của GenBank.
RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử dụng trong việc thiết kế các bản đồ lai phóng xạ Nó bao gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm và các tra cứu chéo.
Trang 50CÁC CÔNG CỤ PHÂN TÍCH TRÌNH TỰ AND
HomoloGene: So sánh các trình tự nucleotide giữa các cặp sinh vật để xác định các gen ở các loài khác nhau được tiến hóa từ một gen tổ tiên chung do quá trình phân loài và chúng thường vẫn giữ được nguyên chức năng trong quá trình tiến hóa.
Trang 51 CSDL các vùng bảo thủ (Conserved Domain Database CDD): Tập hợp các bản so sánh trình tự (sequence alignment) và các profile của các vùng bảo thủ của các phân
tử protein trong quá trình tiến hóa phân tử.
Tập hợp các gen động vật có vú (Mammalian Gene Collection MGC): Một nỗ lực mới của NIH để thu được các nguồn cDNA với chiều dài đầy đủ.
Clone Registry: Một CSDL được sử dụng bởi sự tham gia của các trung tâm trình tự genom người và chuột để lưu giữ những dòng được lựa chọn từ việc đọc trình tự, các dòng đang được đọc trình tự và các dòng đã hoàn tất và được lưu giữ ở GenBank
Trang 52 Trace Archive: Được phát triển để lưu giữ các dữ liệu trình
tự thô được tạo ra từ các dự án xác định trình tự.
Tìm khung đọc mở (ORF Finder): Một công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL.
VecScreen: Một công cụ cho phép xác định các đoạn trình
tự nucleotide mà có thể là của vector, các vùng linker hoặc các điểm khởi đầu sao chép (origin) trước khi sử dụng các công cụ phân tích trình tự hoặc đăng ký trình tự.
Electronic-PCR (e-PCR): Có thể được sử dụng để so sánh một trình tự truy vấn (query sequence) với các vị trí trong trình tự đánh dấu (sequence-tagged sites) để tìm ra một vị trí bản đồ có thể cho trình tự truy vấn.
Trang 53Tìm khung c m (ORF Finder) đọ ở
Các trình t DNA mã hóa thông tin di truy n ự ề
d i d ng các b ba nucleotide Khi có m t ướ ạ ộ ộ trình t DNA, chúng ta c n ph i tìm trình t ự ầ ả ự
protein n u mu n xác nh s n ph m sau d ch ế ố đị ả ẩ ị
mã c a trình t n y Tuy nhiên, các trình t ủ ự à ự
DNA, sau khi đượ c phiên mã, ch ỉ đượ c d ch mã ị
th nh protein khi chúng l m t khung c m à à ộ đọ ở (Open Reading Frame - ORF) Các khung c đọ
Trang 54tìm các khung c m có th có trong m t trình t DNA, chúng
ta s d ng m t ch ng trình có tên l ORF finder c a NCBI ử ụ ộ ươ à ủ
Ch ng trình n y s tìm ki m nh ng khung c m có th có c a ươ à ẽ ế ữ đọ ở ể ủ trình t nh p v o v trình t b sung c a nó Sau ó a ra b n ự ậ à à ự ổ ủ đ đư ả đồ khung c m v i các trình t ã d ch mã th nh trình t amino đọ ở ớ ự đ ị à ự acid.
B c 1: T google chúng ta nh p v o t khóa orf finder ướ ừ ậ à ừ
Trang 55B c 2: M trang ướ ở ORF finder t trang ch NCBI b ng ừ ủ ằ cách nh n vào dòng ấ ORF finder.
Trang 56AGATCTTCTAGCTACCTTGCAGTCTTGCTTAATTGCTTGCGTTGATTTACCGTGCGCACTCATGCCGCTA
TATATTCTCTGATCGACCAGGGGTTGGCTTGCTCACCGTGCCCTACGCCCTCTCCGAGGGGGGCTGGGTG
AGCCTCGCGCTGCTCGCCGCCGTGGCCGCCGCCTGCTGGTACACCGGGATCCTCCTCTGCCGCTGCATGG ACGCCGACGACGCCATCCGGACGTACCCGGACATCGGCGAGCGCGCGTTCGGCCGCACGGGCCGCCTCCT CGTGTCCGCCTTCACGTACGTCGAGCTCTACCTCGTCGCCACCGGCTTCCTCATCCTCGAGGGCGACAAC
CTCGACAAGCTCTTCCCAGGAGCCAGAGTCACCCTGGGGACGGTGTCCCTCGCCGGGAAGCGGCTGTTCG TCGTGCTCGTCGCGCTCGTGGTGGCGCCCACGACGTGGCTGCGCAGCCTCGGCGTGCTCGCGTACGTCTC CGCCACGGGCGTGTTCGCGTCCGTCGTCATCGTGCTCAGCGTGCTGTGGCCGCGGCCGTCGACGGCGTCG GATTCTCCGGACGAGGGACGACGACGCCGCTACGGATCGCGGGGCTCCCGACGGCTCTCGGGCTGTACAT CTTCTGCTACGGGGGACACCCCATGTTCCCGACGCTCTACACATCTATGAAGAGGAAGTCTCAGTTTCCA
GCTGCCCTGCGCCTGCTACGTCAGGATCTTCGGGGCGCCGTCGATGAGCAGCGTGGAGGCCGTGGCGATC GGCGGGATACTGGTGCTGGGCTCGCTGGTGGCTGTCACGGGGACTTACTATTCCCTGATGAAAATTATCC
GTGAGTTGGTGTGA