Mã univesal của 20 loại amino axit 1.1.3 Đột biến và tương đồng Trong quá trình phát triển và tiến hóa, dưới tác động của môi trường và các tácnhân hóa học, các quá trình đột biến xảy ra
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Tạ Thị Thúy
Xây dựng mô hình biến đổi amino axit cho nấm
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Khoa học máy tính
HÀ NỘI – 2010
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Tạ Thị Thúy
Xây dựng mô hình biến đổi amino axit cho nấm
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
Cán bộ hướng dẫn:TS.Lê Sỹ Vinh
Cán bộ đồng hướng dẫn:ThS.Đặng Cao Cường
Trang 3Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng kính trọng và cảm ơn sâu sắc tới Tiến sỹ Lê Sĩ Vinh
và Thạc sĩ Đặng Cao Cường đã trực tiếp giao đề tài và tận tình hướng dẫn em trongsuốt quá trình thực hiện khóa luận này
Em cũng xin bày tỏ lòng biết ơn đến các thầy cô trong trường Đại học Công nghệ
đã giảng dạy và cho em những kiến thức quý báu, làm nền tảng để hoàn thành khóaluận cũng như thành công trong nghiên cứu, làm việc trong tương lai
Cuối cùng, cho em gửi lời cảm ơn sâu sắc tới gia đình đã luôn động viên và tạo điều kiện để em học tập tốt và hoàn thành được khóa luận
Hà Nội, tháng 05, năm 2010
Sinh viên
Tạ Thị Thúy
Trang 4Mục lục
Mở đầu 1
Chương 1 Tổng quan về mô hình biến đổi amino axit 2
1.1 Giới thiệu 2
1.1.1 ADN, ARN 2
1.1.2 Amino axit và quá trình tổng hợp protein 2
1.1.3 Đột biến và tương đồng 4
1.1.4 Sắp hàng trình tự 5
1.1.5 Khoảng cách tiến hóa 6
1.1.6 Cây phát sinh loài 7
1.2 Mô hình biến đổi amino axit 8
1.2.1 Mô hình biến đổi nucleotid 8
1.2.2 Mô hình biến đổi amino acid 10
1.2.3 Ước lượng khoảng cách tiến hóa 10
1.2.4 Mô hình với tốc độ biến đổi theo vị trí 11
1.2.5 Tại sao sử dụng mô hình biến đổi amino axit 12
Chương 2 Các mô hình biến đổi amino axit hiện tại 14
2.1 Các mô hình hiện tại 14
2.2 Mô hình Dayhoff, JTT 15
2.3 Mô hình VT 15
2.4 Mô hình mtREV 16
2.5 Mô hình WAG 16
2.6 Mô hình LG 16
2.7 Mô hình FLU 17
Chương 3 Các phương pháp ước lượng mô hình biến đổi amino axit 18
3.1 Phương pháp đếm 18
3.2 Phương pháp maximum likelihood 18
3.2.1 Mô hình 18
Trang 5Chương 4 Xây dựng mô hình biến đổi amino axit cho nấm 22
4.1 Dữ liệu 22
4.2 Mô hình 22
4.3 Kết quả và đánh giá 23
4.3.1 Kết quả 23
4.3.2 Đánh giá 26
Kết luận 31
Trang 6Mở đầu
Protein là các hợp chất hữu cơ làm nên sự sống với các chức năng thiết yếu như:
là thành phần cấu tạo cơ sở của các tế bào, là enzyme đóng vai trò xúc tác cho tất cảcác phản ứng hóa học trong cơ thể, là nguồn dinh dưỡng cung cấp năng lượng cho tếbào và cơ thể duy trì và lớn lên, Với vai trò to lớn như vậy, phân tích các chuỗiprotein trở thành một trong các bài toán phổ biến trong phân tích sinh học Một trongnhững thành phần quan trọng trong các bài toán này đó là mô hình biến đổi amino axit.Hiện nay, các mô hình chung đã được ước lượng, tuy nhiên cho kết quả chưa tốt với
dữ liệu của các loài sinh vật riêng biệt như nấm, Khóa luận tốt nghiệp này sẽ trìnhbày tổng quan thế nào là mô hình biến đổi amino axit và áp dụng phương phápmaximum likelihood để ước lượng mô hình biến đổi amino axit mới cho nấm
Trang 7Chương 1.Tổng quan về mô hình biến đổi amino axit
Chương 1 giới thiệu tóm tắt các khái niệm, các quá trình trong phân tích sinhhọc; nêu tổng qua thế nào là mô hình biến đổi amino axit và vì sao sử dụng nó
polynucleotid xoắn kép liên kết với nhau theo nguyên tắc bổ sung A = T, G = C (tức là
tại 1 vị trí, nếu nucleotid A ở chuỗi này thì tương ứng ở chuỗi kia là nucleotid T, tương
tự với G và C) ARN là chuỗi đơn polyribonucleotid
Ví dụ:
- Chuỗi ADN :
A T G T A G C G G T A C | | | | | | | | | | | |
T A C A T C G C C A T G
- Chuỗi ARN :
AAUGACUUCUAGCCGAThông tin di truyền được truyền từ thế hệ này sang thế hệ khác nhờ quá trình saochép ADN (chuỗi con sinh ra giống hệt chuỗi mẹ)
1.1.2 Amino axit và quá trình tổng hợp protein
Amino axit là đơn phân tử cấu tạo nên protein Giống như ADN, tính đặc thù và
đa dạng của protein thể hiện bởi số lượng , thành phần và trật tự sắp xếp các aminoaxit trong chuỗi Có tất cả 20 loại amino axit cấu tạo nên các protein
Chuỗi amino axit được tổng hợp từ một đoạn của chuỗi ADN (gen) thông quaquá trình sau:
ADN ARN protein
Trong quá trình sao mã (transcription), trình tự các nucleotid trong một chuỗi
đơn của chuỗi ADN, gọi là mạch gốc, sẽ quy định trình tự các ribonucleotid trong
Sao mã Dịch mã
Trang 8ARN theo nguyên tắc bổ sung (A = U, G = C) Trong quá trình dịch mã (translation),
cứ bộ ba ribonucleotid trong ARN sẽ quy định 1 amino axit trong protein Hay nóicách khác, mỗi bộ ba nucleotid trong chuỗi ADN (được gọi là một codon hay mã ditruyền) sẽ mã hóa cho 1 amino axit trong chuỗi protein được tổng hợp
Ví dụ về quá trình sinh tổng hợp protein:
- Mạch gốc ADN: T A C G C C A A G A T T
Sao mã
- Mạch ARN A U G C G G U U C U A A
Dịch mã
- Chuỗi amino axit: aamđ aa1 aa2 aa3
Mã di truyền hay codon có một vài đặc điểm sau:
- Mã di truyền là liên tục và không gối lên nhau, 1 chuỗi ADN chỉ xác định một
- Mã di truyền có tính phổ biến (universal), nghĩa là thống nhất cho toàn bộ các
loài sinh vật Mã universal của 20 loại amino axit được cho ở bảng 1
Trang 93 chữ cái 1 chữ cáiAlanine Ala A GCU, GCC, GCA, GCG
Aspartic axit Asp D GAU, GAC
Glutamic axit Glu E GAA, GAG
Phenylalanine Phe F UUU, UUC
Glycine Gly G GGU, GGC, GGA, GGG
Isoleucine Ile I AUU, AUC, AUA
Leucine Leu L UUA, UUG, CUU, CUC, CUA, CUGMethionine Met M AUG (START)
Proline Pro P CCU, CCC, CCA, CCG
Arginine Arg R CGU, CGC, CGA, CGG, AGA, AGGSerine Ser S UCU, UCC, UCA, UCG, AGU, AGCThreonine Thr T ACU, ACC, ACA, ACG
Bảng 1 Mã univesal của 20 loại amino axit
1.1.3 Đột biến và tương đồng
Trong quá trình phát triển và tiến hóa, dưới tác động của môi trường và các tácnhân hóa học, các quá trình đột biến xảy ra, trải qua chọn lọc tự nhiên và được tích lũydần dần dẫn đến sự biến đổi thông tin di truyền giữa các thế hệ, hình thành nên sự đadạng sinh học Từ chuỗi ADN ban đầu sau các quá trình đột biến sẽ tạo ra các chuỗiADN con không còn giống hệt chuỗi ADN mẹ nữa, nếu được chọn lọc tự nhiên chấpnhận nó sẽ tồn tại và truyền cho đời sau như một chuỗi mới độc lập Sự kiện đó gọi là
sự phân kỳ chuỗi Các đột biến được xét ở đây là các đột biến điểm bao gồm:
- mất 1 nucleotid
- thêm 1 nucleotid
- thay thế nucleotid này thành nucleotid khác
Việc biến đổi chuỗi ADN (tức là biến đổi bộ mã hóa cho chuỗi protein) có thểdẫn đến làm biến đổi chuỗi amino axit tương ứng:
Trang 10- thay thế amino axit này thành amino axit khác
- thêm 1 amino axit
Chuỗi con sau đột biến: T A C G A C A A G A T G M L L Y
Nhìn chung, các chuỗi có họ hàng càng xa, đột biến xảy ra càng nhiều thì sự phân
kỳ chuỗi càng xa và sự khác nhau giữa các chuỗi càng lớn
Từ đây dẫn đến một khái niệm mới đó là “tính tương đồng” Hai đặc tính được
xem là tương đồng nếu chúng được coi như là phân kỳ từ một tổ tiên chung Các đặctính tương đồng có thể là các đặc tính hình thái (hình dạng, màu sắc, ) hay trật tự cấutạo các chuỗi nucleotid hay amino axit
1.1.4 Sắp hàng trình tự
Kết quả của sự tiến hóa phân kỳ là các chuỗi nucleotid (amino axit) tương đồng
sẽ khác nhau về số lượng cũng như thành phần các nucleotid (amino axit) Các bàitoán phân tích sinh học đều dựa trên mối quan hệ giữa các đặc tính tương đồng, do đóbước đầu tiên là các chuỗi cần được sắp xếp lại sao cho các vị trí được coi là tương
đồng sẽ tương ứng với nhau Sắp hàng trình tự là bài toán giải quyết vấn đề trên Các
chuỗi được sắp thành một ma trận D, trong đó mỗi hàng là một chuỗi đang xét, các vịtrí được coi là tương đồng sẽ được sắp thẳng trên một cột Các chuỗi sau khi sắp hàngđược gọi là một alignment, nếu chỉ có 2 chuỗi gọi là pair-alignment, nếu có nhiềuchuỗi gọi là multi-alignment Do độ dài của hai chuỗi có thể không bằng nhau nênkhoảng trống hoặc dấu cách được thêm vào thể hiện đột biến thêm/mất nucleotid(amino axit) tại vị trí đó
Trang 11Ví dụ về 1 multi-alignment cho 5 chuỗi amino axit:
số 1,3,7 và 8; và đột biến thêm hoặc mất amino axit xảy ra ở vị trí số 1 và 10
1.1.5 Khoảng cách tiến hóa
Khi có hai chuỗi amino axit (nucleotid) tương đồng, vấn đề đặt ra làm thế nào đểbiết được mối quan hệ “họ hàng” giữa chúng xa hay gần như thế nào Độ đo mối quan
hệ này gọi là khoảng cách tiến hóa (evolutionary distance hay genetic distance), nó
biểu thị số biến đổi xảy ra giữa hai chuỗi
Cách đơn giản nhất để đo khoảng cách tiến hóa giữa hai chuỗi tương đồng là sắphàng cho chúng và đếm số vị trí tương đồng khác biệt Tỉ lệ khác biệt này còn được
gọi là khoảng cách quan sát (observed distance), thường được biểu thị bằng số biến
đổi trung bình trên mỗi vị trí Ví dụ xét 2 chuỗi amino axit đã được sắp hàng sau:
1 2 3 4 5 6 7 8 9
10
11
12
D1 E I H K I R M T L T S T
D2 E I L K I R I T L - S TQuan sát thấy có sự khác biệt ở vị trí 3, 7 và 10 Do đó, khoảng cách quan sát sẽbằng 3/12 = 0,25 Tuy nhiên, có thể thấy cách đo này là hoàn toàn trực quan trong khiquá trình tiến hóa là một quá trình lâu dài và phức tạp, do đó một số biến đổi có thể bị
ẩn đi do các sự kiện sau:
- Đa biến đổi (multiple hits): hai hay nhiều đột biến thay thế cùng xảy ra tại một
điểm Ví dụ đột biến thay thế amino axit H -> K -> L; tuy nhiên chỉ có 1 sự khác biệt được quan sát trong alignment (H -> L)
- Biến đổi quay lui (back mutation): hai hay vài biến đổi cùng xảy ra tại một vị
trí, tuy nhiên trạng thái đầu và cuối giống nhau nên không có biến đổi nào đượcquan sát
Trang 12- Biến đổi song song (parallel mutation): cùng một biến đổi xảy ra tại cùng một
vị trí tại tất cả các chuỗi cũng dẫn đến kết quả là không đột biến nào được quan sát
Nếu tốc độ biến đổi càng cao thì tỉ lệ các biến đổi bị ẩn đi càng nhiều, khi đódùng khoảng cách quan sát để thể hiện khoảng cách tiến hóa không còn chính xác nữa.Nhìn chung, khoảng cách quan sát sẽ nhỏ hơn khoảng cách tiến hóa Có thể suy rakhoảng cách tiến hóa từ khoảng cách quan sát nhưng mối liên quan này thường khôngtuyến tính
Khoảng cách tiến hóa cũng có thể suy ra trực tiếp từ dữ liệu bằng phương phápmaximum-likelihood (sẽ được trình bày ở phần sau)
1.1.6 Cây phát sinh loài
Nếu khoảng cách tiến hóa chỉ thể hiện mối quan hệ giữa hai chuỗi tương đồng,
thì cây phát sinh loài có thể minh họa mối quan hệ tiến hóa đồng thời giữa tất cả các
chuỗi (hay giữa các loài) trong một tập dữ liệu Trong đó, lá của cây là các loài trongthời kì hiện tại (hay là các chuỗi DNA hoặc protein tương ứng đại diện cho mỗi loài).Các nút trong được coi như là các tổ tiên giả định Các nhánh chính là khoảng cáchtiến hóa giữa hai loài (hay nói cách khác là giữa hai chuỗi) Cây phát sinh loài thường
là cây có các nhánh rẽ đôi với giả thuyết là từ một chuỗi tổ tiên ban đầu chỉ có thể làmxuất hiện 2 chuỗi con mới phát triển độc lập Cây tiến hóa có thể có gốc hoặc không cógốc Nếu là cây có gốc, khi đó gốc cây sẽ được coi là tổ tiên chung của tất cả các loàitrong cây Nếu cây không có gốc tức là cây chỉ thể hiện mối quan hệ gần gũi giữa cácloài trong cây
Hình 1 là một ví dụ đơn giản về một cây phát sinh loài trong đó các lá A, B, C,
D là các loài hiện tại, các nút trong là các tổ tiên giả định, các số là độ dài nhánh cây
BA
CD3
Trang 131.2 Mô hình biến đổi amino axit
Sự biến đổi giữa các nucleotid hay amino axit trong một chuỗi luôn luôn đượcxem như là một sự kiện ngẫu nhiên Do đó cần một mô hình cung cấp các mô tả về quátrình này, gọi là mô hình biến đổi hay mô hình tiến hóa [10]
Trước khi nói đến mô hình biến đổi amino axit, hãy cùng xem xét mô hình biếnđổi nucleotid
1.2.1 Mô hình biến đổi nucleotid
Thông tin tham khảo trong [10],[16]
Mô hình biến đổi nucleotid mô hình hóa quá trình thay thế giữa các nucleotid.Thành phần chính của mô hình là ma trận tốc độ thay thế tức thời Q
Mô hình thừa nhận 4 giả định:
- Tốc độ thay thế từ nucleotid i thành nucleotid j là độc lập với các quá trình
trước đó sinh ra nucleotid i (tính chất Markov)
- Tốc độ biến đổi là không đổi theo thời gian (time-homogeneous).
- Đột biến thay thế giữa các nucleotid có thể xảy ra ở bất kỳ thời gian nào của
quá trình (time-continuous).
- Tần suất π = (πA, πC, πG, πT) của các nucleotid là cân bằng (stationary).
Một số mô hình còn có thêm giả định time-reversibility, tức là tốc độ biến đổi từ
nucleotid i thành nucleotid j bằng tốc độ ngược lại biến đổi từ nucleotid j về nucleotid
Trang 14i Hay tốc độ tương đối sẽ là a'=a, b'=b, c'=c, d'=d, e'=e và f'=f Mô hình như vậy gọi là
GTR (general time-reversible model) Khi đó mô hình Q trở thành:
Mô hình biến đổi còn được thể hiện bằng ma trận xác suất chuyển P(t) =
{P ij (t)} trong đó P ij (t) là xác suất thay thế từ nucleotid i thành nucleotid j sau khoảng
thời gian tiến hóa t Ma trận xác suất chuyển được suy ra từ ma trận tốc độ tức thời Qqua công thức:
Nếu thời gian ngắn, P(t) có thể xấp xỉ tuyến tính theo Q:
Trang 151.2.2 Mô hình biến đổi amino acid
Tương tự nucleotid, quá trình biến đổi giữa các cặp amino acid được mô hình hóa
dưới dạng một ma trận 20x20 gọi là ma trận biến đổi tốc độ tức thời amino acid
Mô hình biến đổi amino axit thể hiện tính chất sinh học, vật lý, hóa học của các amino axit Ví dụ các amino axit có cấu trúc hóa học gần giống nhau và codon mã hóa cho chúng chỉ khác nhau bởi 1 nucleotid sẽ có tốc độ biến đổi nhanh hơn các biến đổi
mà cần thay thế nhiều hơn 1 nucleotid trong codon
Tuy nhiên với 20 loại amino axit so với 4 loại nucleotid, mô hình biến đổi aminoaxit chứa nhiều tham số và để ước lượng được mô hình thì khối lượng tính toán rấtlớn Do đó các mô hình biến đổi amino axit thường là các mô hình kinh nghiệm tức làcác mô hình được ước lượng một lần trên tập dữ liệu lớn và được sử dụng lại vào cácbài toán cụ thể
1.2.3 Ước lượng khoảng cách tiến hóa
Khi đã có mô hình biến đổi Q, tức là các tham số về tần suất và tốc độ biến đổicủa từng loại amino axit đã biết, thì có thể tính được khoảng cách tiến hóa giữa 2chuỗi amino axit bằng phương pháp maximum likelihood Hàm likelihood L(d) là hàmtính xác suất biến đổi từ 1 chuỗi thành chuỗi còn lại nếu trung bình có d biến đổi xảy
ra trên mỗi vị trí (hay khoảng cách tiến hóa là d), cụ thể:
Trong đó, xi là amino axit tại vị trí thứ i trong chuỗi x = {xi} Pxiyi(d) là xác suấtchuyển từ amino axit xi trong chuỗi x sang amino axit yi trong chuỗi y sau thời giantiến hóa d Khi đó d được ước lượng bằng cách tìm giá trị d* làm cực đại hóa hàmlikelihood L(d):
d* = argmax {L(d)}
Trang 161.2.4 Mô hình với tốc độ biến đổi theo vị trí
Thực nghiệm cho thấy tốc độ xảy ra đột biến thay thế là không giống nhau giữacác vị trí Ví dụ, tốc độ biến đổi ở vị trí thứ ba của 1 codon trong chuỗi nucleotid mãhóa cho protein thường nhanh hơn ở vị trí thứ nhất và thứ hai Đối với chuỗi protein,các vị trí mà nếu biến đổi nó sẽ ít tác động lên chức năng hoặc cấu trúc protein thì tốc
độ tiến hóa sẽ nhanh hơn các vị trí khác có sự ràng buộc lớn hơn Việc mô hình hóaquá trình biến đổi với giả định tốc độ biến đổi là như nhau giữa các vị trí trong chuỗi làkhông thực tế, do đó có thể làm cho việc phân tích các chuỗi và ước lượng khoảngcách tiến hóa là không chính xác Để khắc phục vấn đề này, một số mô hình được đềxuất đã xét đến sự biến đổi tốc độ theo vị trí trong chuỗi
Thông tin sau đây tham khảo trong [10][16]
Sự biến đổi tốc độ theo vị trí được mô hình hóa đầu tiên bởi Fitch và Margoliash,theo đó các vị trí trong chuỗi sẽ được phân chia thành có biến đổi và không biến đổi
Do đó mô hình này còn được gọi là mô hình hai trạng thái:
0 nếu vị trí s là không biến đổi
θ được ước lượng từ dữ liệu và thường nhỏ hơn tỉ lệ thật các vị trí không biến đổitrong dữ liệu
Ngày nay, phân phối Γ được sử dụng rộng rãi cho việc mô hình hóa sự biến đổitốc độ theo vị trí Theo đó, tốc độ biến đổi sẽ được phân bố theo phân phối Γ với kìvọng 1.0 và phương sai 1/α, α > 0
Trang 17Trong đó
Mức độ biến đổi tốc độ theo vị trí thay đổi tùy theo tham số hình dạng α Tham
số α nhỏ hơn mô tả sự biến đổi tốc độ theo vị trí lớn hơn
Hình 2 Phân phối GammaHàm Γ(α) liên tục có thể được thay xấp xỉ bằng hàm Γ rời rạc với c lớp tươngứng với c hệ số tỉ lệ tốc độ biến đổi r1, r2, , rc (Yang, 1994) Tham số α thường đượcước lượng từ dữ liệu
Có thể kết hợp mô hình 2 trạng thái với mô hình sử dụng phân phối Γ Khi đó,
mô hình lai sẽ giả định tỉ lệ θ các vị trí là không đổi, các vị trí khác là biến đổi với tốc
độ biến đổi tuân theo phân phối Γ
1.2.5 Tại sao sử dụng mô hình biến đổi amino axit
Mô hình biến đổi amino axit là một trong những thành phần quan trọng trong cácbài toán phân tích sinh học liên quan đến protein như:
- Sắp hàng trình tự chuỗi protein
- Tính khoảng cách tiến hóa giữa các chuỗi
- Xây dựng cây phát sinh loài (cây tiến hóa)
Trang 18- Các ứng dụng khác như dự đoán chức năng của protein mới,
Đối với bài toán xây dựng cây phát sinh loài, tùy dữ liệu cần phân tích là cácchuỗi nucleotid hay amino axit, mô hình tiến hóa được sử dụng là mô hình biến đổinucleotid hay mô hình biến đổi amino axit Việc suy ra cây tiến hóa từ chuỗi aminoaxit có một vài ưu điểm so với chuỗi nucleotid [10] như:
Thứ nhất, gen được thể hiện chỉ khi nó là bộ mã hóa cho chuỗi protein và ở dạngtập các bộ ba mã hóa (gọi là gen cấu trúc) Ở các động vật bậc cao, các gen có thể chứacác đoạn intron, tức các đoạn không mã hóa protein nằm xen kẽ giữa các exon – cácđoạn mã hóa protein (gọi là gen phân đoạn) Các đoạn intron không có ý nghĩa nhiềutrong quá trình tiến hóa nên khi phân tích, những đoạn intron nên được loại bỏ, việcnày là khó khi phân tích ở mức nucleotid trong khi sẽ dễ hơn khi phân tích ở mứcprotein
Thứ hai, với các gen cấu trúc, chọn lọc tự nhiên sẽ tác động lên chính proteinđược tổng hợp, chứ không phải trên chuỗi ADN Các đột biến có được chấp nhận haykhông là do mức protein quyết định
Thứ ba, vì chuỗi ADN chỉ được cấu tạo từ 4 loại nucleotid, nếu hai chuỗi được
sắp hàng ngẫu nhiên mà không chèn thêm dấu cách thì trung bình 25% các vị trí là
giống nhau giữa các chuỗi, nếu chèn thêm dấu cách số vị trí con số này có thể lên tới50% Điều này có thể ảnh hưởng đến kết quả phân tích đặc biệt khi so sánh các chuỗi
có họ hàng xa và tốc độ tiến hóa nhanh (còn gọi là nhiễu) Ngược lại, với 20 loạiamino axit, trung bình 5% các vị trí trong hai chuỗi đước sắp hàng ngẫu nhiên là giốngnhau nếu không chèn thêm dấu cách; nếu chèn thêm dấu cách con số này cũng chỉkhoảng 10 – 15% Do đó, so với chuỗi DNA, chuỗi protein sẽ dễ sắp hàng hơn vàgiảm tỉ lệ nhiễu hơn
Trang 19Chương 2.Các mô hình biến đổi amino axit hiện tại
Chương này sẽ liệt kê các mô hình biến đổi amino axit hiện tại và giới thiệu quamột số mô hình tiêu biểu
2.1 Các mô hình hiện tại
Hiện nay có tất cả 15 mô hình, các mô hình được liệt kê tóm tắt dưới bảng 2:
Mô hình Năm Dữ liệu Phương pháp ước lượng
mô hìnhDayhoff [11] 1978 Mô hình chung* Phương pháp đếm
Blosum62 [8] 1992 Mô hình chung Phương pháp đếm
JTT [7] 1992 Mô hình chung Phương pháp đếm
MtREV [2] 1996 Protein mã hóa bởi chuỗi DNA
Maximum likelihood
VT [12] 2000 Mô hình chung resolvent
WAG [15] 2001 Mô hình chung Maximum likelihoodrtREV [6] 2002 Retroviral Pol protein Maximum likelihoodDcMut [9] 2004 Mô hình chung Phương pháp đếm
MtArt [1] 2006 Protein mã hóa bởi chuỗi DNA
nằm trong ti thể (động vật thânđốt)
Maximum likelihood
HIVb [13] 2007 Vi rút HIV Maximum likelihoodHIVw [13] 2007 Vi rút HIV Maximum likelihood
Trang 20LG [14] 2008 Pfam – mô hình chung Maximum likelihoodFLU [5] 2009 Vi rút cúm Maximum likelihood
Bảng 2 15 mô hình biến đổi amino axit hiện tại(*) Mô hình chung có nghĩa là tập dữ liệu lớn và phân kỳ gồm các chuỗi proteinthuộc nhiều loài, nhiều họ protein khác nhau
(**) ti thể là một cơ quan trong tế bào
(***) lục lạp là một cơ quan trong tế bào thực vật
2.2 Mô hình Dayhoff, JTT
Dayhoff và các cộng sự [11] là những người đầu tiên mô hình hóa quá trình biếnđổi amino axit (1978) Họ sử dụng tập dữ liệu gồm 71 tập các protein có họ hàng gầnnhau và quan sát được 1572 biến đổi giữa các amino axit Bằng phương pháp đếm đơngiản, họ đã mô hình hóa những biến đổi này bằng các ma trận nổi tiếng gọi là các ma
trận PAM (probability of accepted mutation).
Trong đó, ma trận PAM-1 là ma trận quan trọng nhất Nó thể hiện xác suất biếnđổi từ 1 amino axit thành 1 amino axit khác sau thời gian được tính bằng thời gian 1%tổng số amino axit đã biến đổi Một cách tổng quát, PAM-t là xác suất biến đổi từ 1amino axit này thành 1 amino axit khác nếu tổng số biến đổi giữa chúng là t% Ma trậnPAM-t được tính bằng lũy thừa mũ t của ma trận PAM-1
Năm 1992, Jones và các cộng sự [7] cũng áp dụng cùng phương pháp nhưDayhoff nhưng với tập dữ liệu protein lớn hơn và phân kỳ hơn để ước lượng ra matrận xác suất đột biến điểm gọi là ma trận JTT
Hạn chế của các ma trận PAM là tập dữ liệu phải là các protein có họ hàng gầnnhau (thường là các cặp chuỗi giống nhau trên 85%)
2.3 Mô hình VT
Năm 2000, Muller và Vingron [12] giới thiệu một phương pháp ước lượng mới
cải thiện sự hạn chế của phương pháp Dayhoff, gọi là phương pháp resolvent Họ sử
dụng tập dữ liệu SYSTERS gồm các chuỗi protein với nhiều mức phân kỳ và dùngphương pháp resolvent ước lượng ra mô hình VT