1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng mô hình biến đổi amino axit cho nấm

40 427 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng mô hình biến đổi amino axit cho nấm
Tác giả Tạ Thị Thúy
Người hướng dẫn TS. Lê Sỹ Vinh, ThS. Đặng Cao Cường
Trường học Học viện Công nghệ - Đại học Quốc Gia Hà Nội
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp đại học hệ chính quy
Năm xuất bản 2010
Thành phố Hà Nội
Định dạng
Số trang 40
Dung lượng 514,84 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mã univesal của 20 loại amino axit 1.1.3 Đột biến và tương đồng Trong quá trình phát triển và tiến hóa, dưới tác động của môi trường và các tácnhân hóa học, các quá trình đột biến xảy ra

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Tạ Thị Thúy

Xây dựng mô hình biến đổi amino axit cho nấm

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành:Khoa học máy tính

HÀ NỘI – 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Tạ Thị Thúy

Xây dựng mô hình biến đổi amino axit cho nấm

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Khoa học máy tính

Cán bộ hướng dẫn:TS.Lê Sỹ Vinh

Cán bộ đồng hướng dẫn:ThS.Đặng Cao Cường

Trang 3

Lời cảm ơn

Đầu tiên, em xin bày tỏ lòng kính trọng và cảm ơn sâu sắc tới Tiến sỹ Lê Sĩ Vinh

và Thạc sĩ Đặng Cao Cường đã trực tiếp giao đề tài và tận tình hướng dẫn em trongsuốt quá trình thực hiện khóa luận này

Em cũng xin bày tỏ lòng biết ơn đến các thầy cô trong trường Đại học Công nghệ

đã giảng dạy và cho em những kiến thức quý báu, làm nền tảng để hoàn thành khóaluận cũng như thành công trong nghiên cứu, làm việc trong tương lai

Cuối cùng, cho em gửi lời cảm ơn sâu sắc tới gia đình đã luôn động viên và tạo điều kiện để em học tập tốt và hoàn thành được khóa luận

Hà Nội, tháng 05, năm 2010

Sinh viên

Tạ Thị Thúy

Trang 4

Mục lục

Mở đầu 1

Chương 1 Tổng quan về mô hình biến đổi amino axit 2

1.1 Giới thiệu 2

1.1.1 ADN, ARN 2

1.1.2 Amino axit và quá trình tổng hợp protein 2

1.1.3 Đột biến và tương đồng 4

1.1.4 Sắp hàng trình tự 5

1.1.5 Khoảng cách tiến hóa 6

1.1.6 Cây phát sinh loài 7

1.2 Mô hình biến đổi amino axit 8

1.2.1 Mô hình biến đổi nucleotid 8

1.2.2 Mô hình biến đổi amino acid 10

1.2.3 Ước lượng khoảng cách tiến hóa 10

1.2.4 Mô hình với tốc độ biến đổi theo vị trí 11

1.2.5 Tại sao sử dụng mô hình biến đổi amino axit 12

Chương 2 Các mô hình biến đổi amino axit hiện tại 14

2.1 Các mô hình hiện tại 14

2.2 Mô hình Dayhoff, JTT 15

2.3 Mô hình VT 15

2.4 Mô hình mtREV 16

2.5 Mô hình WAG 16

2.6 Mô hình LG 16

2.7 Mô hình FLU 17

Chương 3 Các phương pháp ước lượng mô hình biến đổi amino axit 18

3.1 Phương pháp đếm 18

3.2 Phương pháp maximum likelihood 18

3.2.1 Mô hình 18

Trang 5

Chương 4 Xây dựng mô hình biến đổi amino axit cho nấm 22

4.1 Dữ liệu 22

4.2 Mô hình 22

4.3 Kết quả và đánh giá 23

4.3.1 Kết quả 23

4.3.2 Đánh giá 26

Kết luận 31

Trang 6

Mở đầu

Protein là các hợp chất hữu cơ làm nên sự sống với các chức năng thiết yếu như:

là thành phần cấu tạo cơ sở của các tế bào, là enzyme đóng vai trò xúc tác cho tất cảcác phản ứng hóa học trong cơ thể, là nguồn dinh dưỡng cung cấp năng lượng cho tếbào và cơ thể duy trì và lớn lên, Với vai trò to lớn như vậy, phân tích các chuỗiprotein trở thành một trong các bài toán phổ biến trong phân tích sinh học Một trongnhững thành phần quan trọng trong các bài toán này đó là mô hình biến đổi amino axit.Hiện nay, các mô hình chung đã được ước lượng, tuy nhiên cho kết quả chưa tốt với

dữ liệu của các loài sinh vật riêng biệt như nấm, Khóa luận tốt nghiệp này sẽ trìnhbày tổng quan thế nào là mô hình biến đổi amino axit và áp dụng phương phápmaximum likelihood để ước lượng mô hình biến đổi amino axit mới cho nấm

Trang 7

Chương 1.Tổng quan về mô hình biến đổi amino axit

Chương 1 giới thiệu tóm tắt các khái niệm, các quá trình trong phân tích sinhhọc; nêu tổng qua thế nào là mô hình biến đổi amino axit và vì sao sử dụng nó

polynucleotid xoắn kép liên kết với nhau theo nguyên tắc bổ sung A = T, G = C (tức là

tại 1 vị trí, nếu nucleotid A ở chuỗi này thì tương ứng ở chuỗi kia là nucleotid T, tương

tự với G và C) ARN là chuỗi đơn polyribonucleotid

Ví dụ:

- Chuỗi ADN :

A T G T A G C G G T A C | | | | | | | | | | | |

T A C A T C G C C A T G

- Chuỗi ARN :

AAUGACUUCUAGCCGAThông tin di truyền được truyền từ thế hệ này sang thế hệ khác nhờ quá trình saochép ADN (chuỗi con sinh ra giống hệt chuỗi mẹ)

1.1.2 Amino axit và quá trình tổng hợp protein

Amino axit là đơn phân tử cấu tạo nên protein Giống như ADN, tính đặc thù và

đa dạng của protein thể hiện bởi số lượng , thành phần và trật tự sắp xếp các aminoaxit trong chuỗi Có tất cả 20 loại amino axit cấu tạo nên các protein

Chuỗi amino axit được tổng hợp từ một đoạn của chuỗi ADN (gen) thông quaquá trình sau:

ADN ARN protein

Trong quá trình sao mã (transcription), trình tự các nucleotid trong một chuỗi

đơn của chuỗi ADN, gọi là mạch gốc, sẽ quy định trình tự các ribonucleotid trong

Sao mã Dịch mã

Trang 8

ARN theo nguyên tắc bổ sung (A = U, G = C) Trong quá trình dịch mã (translation),

cứ bộ ba ribonucleotid trong ARN sẽ quy định 1 amino axit trong protein Hay nóicách khác, mỗi bộ ba nucleotid trong chuỗi ADN (được gọi là một codon hay mã ditruyền) sẽ mã hóa cho 1 amino axit trong chuỗi protein được tổng hợp

Ví dụ về quá trình sinh tổng hợp protein:

- Mạch gốc ADN: T A C G C C A A G A T T

Sao mã

- Mạch ARN A U G C G G U U C U A A

Dịch mã

- Chuỗi amino axit: aamđ aa1 aa2 aa3

Mã di truyền hay codon có một vài đặc điểm sau:

- Mã di truyền là liên tục và không gối lên nhau, 1 chuỗi ADN chỉ xác định một

- Mã di truyền có tính phổ biến (universal), nghĩa là thống nhất cho toàn bộ các

loài sinh vật Mã universal của 20 loại amino axit được cho ở bảng 1

Trang 9

3 chữ cái 1 chữ cáiAlanine Ala A GCU, GCC, GCA, GCG

Aspartic axit Asp D GAU, GAC

Glutamic axit Glu E GAA, GAG

Phenylalanine Phe F UUU, UUC

Glycine Gly G GGU, GGC, GGA, GGG

Isoleucine Ile I AUU, AUC, AUA

Leucine Leu L UUA, UUG, CUU, CUC, CUA, CUGMethionine Met M AUG (START)

Proline Pro P CCU, CCC, CCA, CCG

Arginine Arg R CGU, CGC, CGA, CGG, AGA, AGGSerine Ser S UCU, UCC, UCA, UCG, AGU, AGCThreonine Thr T ACU, ACC, ACA, ACG

Bảng 1 Mã univesal của 20 loại amino axit

1.1.3 Đột biến và tương đồng

Trong quá trình phát triển và tiến hóa, dưới tác động của môi trường và các tácnhân hóa học, các quá trình đột biến xảy ra, trải qua chọn lọc tự nhiên và được tích lũydần dần dẫn đến sự biến đổi thông tin di truyền giữa các thế hệ, hình thành nên sự đadạng sinh học Từ chuỗi ADN ban đầu sau các quá trình đột biến sẽ tạo ra các chuỗiADN con không còn giống hệt chuỗi ADN mẹ nữa, nếu được chọn lọc tự nhiên chấpnhận nó sẽ tồn tại và truyền cho đời sau như một chuỗi mới độc lập Sự kiện đó gọi là

sự phân kỳ chuỗi Các đột biến được xét ở đây là các đột biến điểm bao gồm:

- mất 1 nucleotid

- thêm 1 nucleotid

- thay thế nucleotid này thành nucleotid khác

Việc biến đổi chuỗi ADN (tức là biến đổi bộ mã hóa cho chuỗi protein) có thểdẫn đến làm biến đổi chuỗi amino axit tương ứng:

Trang 10

- thay thế amino axit này thành amino axit khác

- thêm 1 amino axit

Chuỗi con sau đột biến: T A C G A C A A G A T G M L L Y

Nhìn chung, các chuỗi có họ hàng càng xa, đột biến xảy ra càng nhiều thì sự phân

kỳ chuỗi càng xa và sự khác nhau giữa các chuỗi càng lớn

Từ đây dẫn đến một khái niệm mới đó là “tính tương đồng” Hai đặc tính được

xem là tương đồng nếu chúng được coi như là phân kỳ từ một tổ tiên chung Các đặctính tương đồng có thể là các đặc tính hình thái (hình dạng, màu sắc, ) hay trật tự cấutạo các chuỗi nucleotid hay amino axit

1.1.4 Sắp hàng trình tự

Kết quả của sự tiến hóa phân kỳ là các chuỗi nucleotid (amino axit) tương đồng

sẽ khác nhau về số lượng cũng như thành phần các nucleotid (amino axit) Các bàitoán phân tích sinh học đều dựa trên mối quan hệ giữa các đặc tính tương đồng, do đóbước đầu tiên là các chuỗi cần được sắp xếp lại sao cho các vị trí được coi là tương

đồng sẽ tương ứng với nhau Sắp hàng trình tự là bài toán giải quyết vấn đề trên Các

chuỗi được sắp thành một ma trận D, trong đó mỗi hàng là một chuỗi đang xét, các vịtrí được coi là tương đồng sẽ được sắp thẳng trên một cột Các chuỗi sau khi sắp hàngđược gọi là một alignment, nếu chỉ có 2 chuỗi gọi là pair-alignment, nếu có nhiềuchuỗi gọi là multi-alignment Do độ dài của hai chuỗi có thể không bằng nhau nênkhoảng trống hoặc dấu cách được thêm vào thể hiện đột biến thêm/mất nucleotid(amino axit) tại vị trí đó

Trang 11

Ví dụ về 1 multi-alignment cho 5 chuỗi amino axit:

số 1,3,7 và 8; và đột biến thêm hoặc mất amino axit xảy ra ở vị trí số 1 và 10

1.1.5 Khoảng cách tiến hóa

Khi có hai chuỗi amino axit (nucleotid) tương đồng, vấn đề đặt ra làm thế nào đểbiết được mối quan hệ “họ hàng” giữa chúng xa hay gần như thế nào Độ đo mối quan

hệ này gọi là khoảng cách tiến hóa (evolutionary distance hay genetic distance), nó

biểu thị số biến đổi xảy ra giữa hai chuỗi

Cách đơn giản nhất để đo khoảng cách tiến hóa giữa hai chuỗi tương đồng là sắphàng cho chúng và đếm số vị trí tương đồng khác biệt Tỉ lệ khác biệt này còn được

gọi là khoảng cách quan sát (observed distance), thường được biểu thị bằng số biến

đổi trung bình trên mỗi vị trí Ví dụ xét 2 chuỗi amino axit đã được sắp hàng sau:

1 2 3 4 5 6 7 8 9

10

11

12

D1 E I H K I R M T L T S T

D2 E I L K I R I T L - S TQuan sát thấy có sự khác biệt ở vị trí 3, 7 và 10 Do đó, khoảng cách quan sát sẽbằng 3/12 = 0,25 Tuy nhiên, có thể thấy cách đo này là hoàn toàn trực quan trong khiquá trình tiến hóa là một quá trình lâu dài và phức tạp, do đó một số biến đổi có thể bị

ẩn đi do các sự kiện sau:

- Đa biến đổi (multiple hits): hai hay nhiều đột biến thay thế cùng xảy ra tại một

điểm Ví dụ đột biến thay thế amino axit H -> K -> L; tuy nhiên chỉ có 1 sự khác biệt được quan sát trong alignment (H -> L)

- Biến đổi quay lui (back mutation): hai hay vài biến đổi cùng xảy ra tại một vị

trí, tuy nhiên trạng thái đầu và cuối giống nhau nên không có biến đổi nào đượcquan sát

Trang 12

- Biến đổi song song (parallel mutation): cùng một biến đổi xảy ra tại cùng một

vị trí tại tất cả các chuỗi cũng dẫn đến kết quả là không đột biến nào được quan sát

Nếu tốc độ biến đổi càng cao thì tỉ lệ các biến đổi bị ẩn đi càng nhiều, khi đódùng khoảng cách quan sát để thể hiện khoảng cách tiến hóa không còn chính xác nữa.Nhìn chung, khoảng cách quan sát sẽ nhỏ hơn khoảng cách tiến hóa Có thể suy rakhoảng cách tiến hóa từ khoảng cách quan sát nhưng mối liên quan này thường khôngtuyến tính

Khoảng cách tiến hóa cũng có thể suy ra trực tiếp từ dữ liệu bằng phương phápmaximum-likelihood (sẽ được trình bày ở phần sau)

1.1.6 Cây phát sinh loài

Nếu khoảng cách tiến hóa chỉ thể hiện mối quan hệ giữa hai chuỗi tương đồng,

thì cây phát sinh loài có thể minh họa mối quan hệ tiến hóa đồng thời giữa tất cả các

chuỗi (hay giữa các loài) trong một tập dữ liệu Trong đó, lá của cây là các loài trongthời kì hiện tại (hay là các chuỗi DNA hoặc protein tương ứng đại diện cho mỗi loài).Các nút trong được coi như là các tổ tiên giả định Các nhánh chính là khoảng cáchtiến hóa giữa hai loài (hay nói cách khác là giữa hai chuỗi) Cây phát sinh loài thường

là cây có các nhánh rẽ đôi với giả thuyết là từ một chuỗi tổ tiên ban đầu chỉ có thể làmxuất hiện 2 chuỗi con mới phát triển độc lập Cây tiến hóa có thể có gốc hoặc không cógốc Nếu là cây có gốc, khi đó gốc cây sẽ được coi là tổ tiên chung của tất cả các loàitrong cây Nếu cây không có gốc tức là cây chỉ thể hiện mối quan hệ gần gũi giữa cácloài trong cây

Hình 1 là một ví dụ đơn giản về một cây phát sinh loài trong đó các lá A, B, C,

D là các loài hiện tại, các nút trong là các tổ tiên giả định, các số là độ dài nhánh cây

BA

CD3

Trang 13

1.2 Mô hình biến đổi amino axit

Sự biến đổi giữa các nucleotid hay amino axit trong một chuỗi luôn luôn đượcxem như là một sự kiện ngẫu nhiên Do đó cần một mô hình cung cấp các mô tả về quátrình này, gọi là mô hình biến đổi hay mô hình tiến hóa [10]

Trước khi nói đến mô hình biến đổi amino axit, hãy cùng xem xét mô hình biếnđổi nucleotid

1.2.1 Mô hình biến đổi nucleotid

Thông tin tham khảo trong [10],[16]

Mô hình biến đổi nucleotid mô hình hóa quá trình thay thế giữa các nucleotid.Thành phần chính của mô hình là ma trận tốc độ thay thế tức thời Q

Mô hình thừa nhận 4 giả định:

- Tốc độ thay thế từ nucleotid i thành nucleotid j là độc lập với các quá trình

trước đó sinh ra nucleotid i (tính chất Markov)

- Tốc độ biến đổi là không đổi theo thời gian (time-homogeneous).

- Đột biến thay thế giữa các nucleotid có thể xảy ra ở bất kỳ thời gian nào của

quá trình (time-continuous).

- Tần suất π = (πA, πC, πG, πT) của các nucleotid là cân bằng (stationary).

Một số mô hình còn có thêm giả định time-reversibility, tức là tốc độ biến đổi từ

nucleotid i thành nucleotid j bằng tốc độ ngược lại biến đổi từ nucleotid j về nucleotid

Trang 14

i Hay tốc độ tương đối sẽ là a'=a, b'=b, c'=c, d'=d, e'=e và f'=f Mô hình như vậy gọi là

GTR (general time-reversible model) Khi đó mô hình Q trở thành:

Mô hình biến đổi còn được thể hiện bằng ma trận xác suất chuyển P(t) =

{P ij (t)} trong đó P ij (t) là xác suất thay thế từ nucleotid i thành nucleotid j sau khoảng

thời gian tiến hóa t Ma trận xác suất chuyển được suy ra từ ma trận tốc độ tức thời Qqua công thức:

Nếu thời gian ngắn, P(t) có thể xấp xỉ tuyến tính theo Q:

Trang 15

1.2.2 Mô hình biến đổi amino acid

Tương tự nucleotid, quá trình biến đổi giữa các cặp amino acid được mô hình hóa

dưới dạng một ma trận 20x20 gọi là ma trận biến đổi tốc độ tức thời amino acid

Mô hình biến đổi amino axit thể hiện tính chất sinh học, vật lý, hóa học của các amino axit Ví dụ các amino axit có cấu trúc hóa học gần giống nhau và codon mã hóa cho chúng chỉ khác nhau bởi 1 nucleotid sẽ có tốc độ biến đổi nhanh hơn các biến đổi

mà cần thay thế nhiều hơn 1 nucleotid trong codon

Tuy nhiên với 20 loại amino axit so với 4 loại nucleotid, mô hình biến đổi aminoaxit chứa nhiều tham số và để ước lượng được mô hình thì khối lượng tính toán rấtlớn Do đó các mô hình biến đổi amino axit thường là các mô hình kinh nghiệm tức làcác mô hình được ước lượng một lần trên tập dữ liệu lớn và được sử dụng lại vào cácbài toán cụ thể

1.2.3 Ước lượng khoảng cách tiến hóa

Khi đã có mô hình biến đổi Q, tức là các tham số về tần suất và tốc độ biến đổicủa từng loại amino axit đã biết, thì có thể tính được khoảng cách tiến hóa giữa 2chuỗi amino axit bằng phương pháp maximum likelihood Hàm likelihood L(d) là hàmtính xác suất biến đổi từ 1 chuỗi thành chuỗi còn lại nếu trung bình có d biến đổi xảy

ra trên mỗi vị trí (hay khoảng cách tiến hóa là d), cụ thể:

Trong đó, xi là amino axit tại vị trí thứ i trong chuỗi x = {xi} Pxiyi(d) là xác suấtchuyển từ amino axit xi trong chuỗi x sang amino axit yi trong chuỗi y sau thời giantiến hóa d Khi đó d được ước lượng bằng cách tìm giá trị d* làm cực đại hóa hàmlikelihood L(d):

d* = argmax {L(d)}

Trang 16

1.2.4 Mô hình với tốc độ biến đổi theo vị trí

Thực nghiệm cho thấy tốc độ xảy ra đột biến thay thế là không giống nhau giữacác vị trí Ví dụ, tốc độ biến đổi ở vị trí thứ ba của 1 codon trong chuỗi nucleotid mãhóa cho protein thường nhanh hơn ở vị trí thứ nhất và thứ hai Đối với chuỗi protein,các vị trí mà nếu biến đổi nó sẽ ít tác động lên chức năng hoặc cấu trúc protein thì tốc

độ tiến hóa sẽ nhanh hơn các vị trí khác có sự ràng buộc lớn hơn Việc mô hình hóaquá trình biến đổi với giả định tốc độ biến đổi là như nhau giữa các vị trí trong chuỗi làkhông thực tế, do đó có thể làm cho việc phân tích các chuỗi và ước lượng khoảngcách tiến hóa là không chính xác Để khắc phục vấn đề này, một số mô hình được đềxuất đã xét đến sự biến đổi tốc độ theo vị trí trong chuỗi

Thông tin sau đây tham khảo trong [10][16]

Sự biến đổi tốc độ theo vị trí được mô hình hóa đầu tiên bởi Fitch và Margoliash,theo đó các vị trí trong chuỗi sẽ được phân chia thành có biến đổi và không biến đổi

Do đó mô hình này còn được gọi là mô hình hai trạng thái:

0 nếu vị trí s là không biến đổi

θ được ước lượng từ dữ liệu và thường nhỏ hơn tỉ lệ thật các vị trí không biến đổitrong dữ liệu

Ngày nay, phân phối Γ được sử dụng rộng rãi cho việc mô hình hóa sự biến đổitốc độ theo vị trí Theo đó, tốc độ biến đổi sẽ được phân bố theo phân phối Γ với kìvọng 1.0 và phương sai 1/α, α > 0

Trang 17

Trong đó

Mức độ biến đổi tốc độ theo vị trí thay đổi tùy theo tham số hình dạng α Tham

số α nhỏ hơn mô tả sự biến đổi tốc độ theo vị trí lớn hơn

Hình 2 Phân phối GammaHàm Γ(α) liên tục có thể được thay xấp xỉ bằng hàm Γ rời rạc với c lớp tươngứng với c hệ số tỉ lệ tốc độ biến đổi r1, r2, , rc (Yang, 1994) Tham số α thường đượcước lượng từ dữ liệu

Có thể kết hợp mô hình 2 trạng thái với mô hình sử dụng phân phối Γ Khi đó,

mô hình lai sẽ giả định tỉ lệ θ các vị trí là không đổi, các vị trí khác là biến đổi với tốc

độ biến đổi tuân theo phân phối Γ

1.2.5 Tại sao sử dụng mô hình biến đổi amino axit

Mô hình biến đổi amino axit là một trong những thành phần quan trọng trong cácbài toán phân tích sinh học liên quan đến protein như:

- Sắp hàng trình tự chuỗi protein

- Tính khoảng cách tiến hóa giữa các chuỗi

- Xây dựng cây phát sinh loài (cây tiến hóa)

Trang 18

- Các ứng dụng khác như dự đoán chức năng của protein mới,

Đối với bài toán xây dựng cây phát sinh loài, tùy dữ liệu cần phân tích là cácchuỗi nucleotid hay amino axit, mô hình tiến hóa được sử dụng là mô hình biến đổinucleotid hay mô hình biến đổi amino axit Việc suy ra cây tiến hóa từ chuỗi aminoaxit có một vài ưu điểm so với chuỗi nucleotid [10] như:

Thứ nhất, gen được thể hiện chỉ khi nó là bộ mã hóa cho chuỗi protein và ở dạngtập các bộ ba mã hóa (gọi là gen cấu trúc) Ở các động vật bậc cao, các gen có thể chứacác đoạn intron, tức các đoạn không mã hóa protein nằm xen kẽ giữa các exon – cácđoạn mã hóa protein (gọi là gen phân đoạn) Các đoạn intron không có ý nghĩa nhiềutrong quá trình tiến hóa nên khi phân tích, những đoạn intron nên được loại bỏ, việcnày là khó khi phân tích ở mức nucleotid trong khi sẽ dễ hơn khi phân tích ở mứcprotein

Thứ hai, với các gen cấu trúc, chọn lọc tự nhiên sẽ tác động lên chính proteinđược tổng hợp, chứ không phải trên chuỗi ADN Các đột biến có được chấp nhận haykhông là do mức protein quyết định

Thứ ba, vì chuỗi ADN chỉ được cấu tạo từ 4 loại nucleotid, nếu hai chuỗi được

sắp hàng ngẫu nhiên mà không chèn thêm dấu cách thì trung bình 25% các vị trí là

giống nhau giữa các chuỗi, nếu chèn thêm dấu cách số vị trí con số này có thể lên tới50% Điều này có thể ảnh hưởng đến kết quả phân tích đặc biệt khi so sánh các chuỗi

có họ hàng xa và tốc độ tiến hóa nhanh (còn gọi là nhiễu) Ngược lại, với 20 loạiamino axit, trung bình 5% các vị trí trong hai chuỗi đước sắp hàng ngẫu nhiên là giốngnhau nếu không chèn thêm dấu cách; nếu chèn thêm dấu cách con số này cũng chỉkhoảng 10 – 15% Do đó, so với chuỗi DNA, chuỗi protein sẽ dễ sắp hàng hơn vàgiảm tỉ lệ nhiễu hơn

Trang 19

Chương 2.Các mô hình biến đổi amino axit hiện tại

Chương này sẽ liệt kê các mô hình biến đổi amino axit hiện tại và giới thiệu quamột số mô hình tiêu biểu

2.1 Các mô hình hiện tại

Hiện nay có tất cả 15 mô hình, các mô hình được liệt kê tóm tắt dưới bảng 2:

Mô hình Năm Dữ liệu Phương pháp ước lượng

mô hìnhDayhoff [11] 1978 Mô hình chung* Phương pháp đếm

Blosum62 [8] 1992 Mô hình chung Phương pháp đếm

JTT [7] 1992 Mô hình chung Phương pháp đếm

MtREV [2] 1996 Protein mã hóa bởi chuỗi DNA

Maximum likelihood

VT [12] 2000 Mô hình chung resolvent

WAG [15] 2001 Mô hình chung Maximum likelihoodrtREV [6] 2002 Retroviral Pol protein Maximum likelihoodDcMut [9] 2004 Mô hình chung Phương pháp đếm

MtArt [1] 2006 Protein mã hóa bởi chuỗi DNA

nằm trong ti thể (động vật thânđốt)

Maximum likelihood

HIVb [13] 2007 Vi rút HIV Maximum likelihoodHIVw [13] 2007 Vi rút HIV Maximum likelihood

Trang 20

LG [14] 2008 Pfam – mô hình chung Maximum likelihoodFLU [5] 2009 Vi rút cúm Maximum likelihood

Bảng 2 15 mô hình biến đổi amino axit hiện tại(*) Mô hình chung có nghĩa là tập dữ liệu lớn và phân kỳ gồm các chuỗi proteinthuộc nhiều loài, nhiều họ protein khác nhau

(**) ti thể là một cơ quan trong tế bào

(***) lục lạp là một cơ quan trong tế bào thực vật

2.2 Mô hình Dayhoff, JTT

Dayhoff và các cộng sự [11] là những người đầu tiên mô hình hóa quá trình biếnđổi amino axit (1978) Họ sử dụng tập dữ liệu gồm 71 tập các protein có họ hàng gầnnhau và quan sát được 1572 biến đổi giữa các amino axit Bằng phương pháp đếm đơngiản, họ đã mô hình hóa những biến đổi này bằng các ma trận nổi tiếng gọi là các ma

trận PAM (probability of accepted mutation).

Trong đó, ma trận PAM-1 là ma trận quan trọng nhất Nó thể hiện xác suất biếnđổi từ 1 amino axit thành 1 amino axit khác sau thời gian được tính bằng thời gian 1%tổng số amino axit đã biến đổi Một cách tổng quát, PAM-t là xác suất biến đổi từ 1amino axit này thành 1 amino axit khác nếu tổng số biến đổi giữa chúng là t% Ma trậnPAM-t được tính bằng lũy thừa mũ t của ma trận PAM-1

Năm 1992, Jones và các cộng sự [7] cũng áp dụng cùng phương pháp nhưDayhoff nhưng với tập dữ liệu protein lớn hơn và phân kỳ hơn để ước lượng ra matrận xác suất đột biến điểm gọi là ma trận JTT

Hạn chế của các ma trận PAM là tập dữ liệu phải là các protein có họ hàng gầnnhau (thường là các cặp chuỗi giống nhau trên 85%)

2.3 Mô hình VT

Năm 2000, Muller và Vingron [12] giới thiệu một phương pháp ước lượng mới

cải thiện sự hạn chế của phương pháp Dayhoff, gọi là phương pháp resolvent Họ sử

dụng tập dữ liệu SYSTERS gồm các chuỗi protein với nhiều mức phân kỳ và dùngphương pháp resolvent ước lượng ra mô hình VT

Ngày đăng: 13/07/2014, 17:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
5. Dang Cao Cuong, Le Si Quang, Le Sy Vinh. Influenza-specific amino acid substitution model, BMC Evolutionary Biology 2010 Sách, tạp chí
Tiêu đề: BMC
10. Marco Salemi and Anne-Mieke Vandamme. The Phylogenetic Handbook. A practical approach to DNA and protein Phylogeny Sách, tạp chí
Tiêu đề: The Phylogenetic Handbook. A practical approach to DNA and protein Phylogeny
Tác giả: Marco Salemi, Anne-Mieke Vandamme
13. Nickle DC, Heath L, Jensen MA, Gilbert PB, Mullins JI, Pond SK: HIV- Specific Probabilistic Models of Protein Evolution. PLoS ONE 2007, 2:e503 Sách, tạp chí
Tiêu đề: HIV-Specific Probabilistic Models of Protein Evolution
Tác giả: Nickle DC, Heath L, Jensen MA, Gilbert PB, Mullins JI, Pond SK
Nhà XB: PLoS ONE
Năm: 2007
17. Sylvain Marthey, Gabriela Aguileta, Franỗois Rodolphe1, Annie Gendrault, Tatiana Giraud, Elisabeth Fournier, Manuela Lopez-Villavicencio, Angélique Gautier, Marc-Henri Lebrun and Hélène Chiapello, FUNYBASE: a fungal phylogenomic database, 2008 Sách, tạp chí
Tiêu đề: FUNYBASE: a fungal phylogenomic database
Tác giả: Sylvain Marthey, Gabriela Aguileta, Franỗois Rodolphe, Annie Gendrault, Tatiana Giraud, Elisabeth Fournier, Manuela Lopez-Villavicencio, Angélique Gautier, Marc-Henri Lebrun, Hélène Chiapello
Năm: 2008
1. Abascal F., Posada D. and Zardoya R. 2007. MtArt: a new model of aminoa acid replacement for Arthropoda. Mol. Biol. Evol. 24(1), 1-5 Khác
2. Adachi J, Hasegawa M: Model of Amino Acid Substitution in Proteins Encoded by Mitochondrial DNA. J. Mol. Evol. 1996, 42:459–468 Khác
3. Adachi, J., P. Waddell, W. Martin, and M. Hasegawa. 2000. Plastid genome phylogeny and a model of amino acid substitution for proteins encoded by chloroplast DNA. Journal of Molecular Evolution 50:348-358 Khác
4. Cao, Y. et al. 1998 Conflict amongst individual mitochondrial proteins in resolving the phylogeny of eutherian orders. Journal of Molecular Evolution 15:1600- 1611 Khác
6. Dimmic M.W., J.S. Rest, D.P. Mindell, and D. Goldstein. 2002. RtREV: An amino acid substitution matrix for inference of retrovirus and reverse transcriptase phylogeny. Journal of Molecular Evolution 55: 65-73 Khác
7. D.T. Jones, W. R. Taylor, and J. M. Thornton. (1992). The rapid generation of mutation data matrices from protein sequences. CABIOS 8, no.3, 275-282 Khác
8. Henikoff, S., and J. G. Henikoff. 1992. Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci., U.S.A. 89:10915-10919 Khác
9. Koisol C., Goldman N. 2005. Different versions of the Dayhoff rate matrix.Mol Biol Evol. 2005 Feb;22(2):193-9 Khác
11. M.O. Dayhoff, R. M. Schwartz, and B. C. Orcutt. (1978). A model of evolutionary change in proteins. In: Dayhoff, M. O. (ed.) Atlas of Protein Sequence Structur, Vol. 5, Suppl. 3. National Biomedical Research Foundation, Washington DC, pp. 345-352 Khác
12. Muller, T., and M. Vingron. 2000. Modeling amino acid replacement. Journal of Computational Biology 7:761-776 Khác
14. Q. Le and O. Gascuel, An improved general amino acid replacement matrix, Mol. Biol. Evol., vol. 25, pp. 1307–1320, 2008 Khác
15. S. Whelan and N. Goldman. (2001). A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach Mol. Biol. Evol. 18, 691-699 Khác
18. Nick Goldman, Jon P.Anderson, Allen G.Rodrigo, Likelihood-Based Tests of Topologies in Phylogenetics, 2000 Khác

HÌNH ẢNH LIÊN QUAN

Bảng 1. Mã univesal của 20 loại amino axit - xây dựng mô hình biến đổi amino axit cho nấm
Bảng 1. Mã univesal của 20 loại amino axit (Trang 9)
Hình 1 là một ví dụ đơn giản về một cây phát sinh loài trong đó các lá A, B, C, - xây dựng mô hình biến đổi amino axit cho nấm
Hình 1 là một ví dụ đơn giản về một cây phát sinh loài trong đó các lá A, B, C, (Trang 12)
Hình 2. Phân phối Gamma - xây dựng mô hình biến đổi amino axit cho nấm
Hình 2. Phân phối Gamma (Trang 17)
Hình 1. So sánh tần suất amino axit giữa mô hình FUG với mô hình LG, WAG - xây dựng mô hình biến đổi amino axit cho nấm
Hình 1. So sánh tần suất amino axit giữa mô hình FUG với mô hình LG, WAG (Trang 30)
Hình 2. Hệ số tốc độ trao đổi giữa các amino axit của mô hình FUG và LG - xây dựng mô hình biến đổi amino axit cho nấm
Hình 2. Hệ số tốc độ trao đổi giữa các amino axit của mô hình FUG và LG (Trang 31)
Hình 3. Sự khác biệt tương đối giữa hệ số tốc độ trao đổi amino axit của mô hình FUG - xây dựng mô hình biến đổi amino axit cho nấm
Hình 3. Sự khác biệt tương đối giữa hệ số tốc độ trao đổi amino axit của mô hình FUG (Trang 31)
Bảng 3. So sánh mô hình FUG với 6 mô hình tốt nhất khi xây dựng cây phát sinh loài với tần suất amino axit được ước lượng từ dữ liệu - xây dựng mô hình biến đổi amino axit cho nấm
Bảng 3. So sánh mô hình FUG với 6 mô hình tốt nhất khi xây dựng cây phát sinh loài với tần suất amino axit được ước lượng từ dữ liệu (Trang 34)
Bảng 4. So sánh giá trị AIC/site của mô hình FUG và các mô hình LG, WAG, RtREV, JTT, CpREV, Dayhoff - xây dựng mô hình biến đổi amino axit cho nấm
Bảng 4. So sánh giá trị AIC/site của mô hình FUG và các mô hình LG, WAG, RtREV, JTT, CpREV, Dayhoff (Trang 35)
Bảng 5. So sánh từng cặp giữa mô hình FUG và mô hình LG, WAG, RtREV, JTT. LogLK/site: sự chênh lệch giá trị likelihood/site của các cây được sinh ra dùng - xây dựng mô hình biến đổi amino axit cho nấm
Bảng 5. So sánh từng cặp giữa mô hình FUG và mô hình LG, WAG, RtREV, JTT. LogLK/site: sự chênh lệch giá trị likelihood/site của các cây được sinh ra dùng (Trang 35)
Hình 4. Khoảng cách Robinson-Foulds giữa các cây được xây dựng dùng mô hình FUG và mô hình LG, WAG, RtREV và JTT - xây dựng mô hình biến đổi amino axit cho nấm
Hình 4. Khoảng cách Robinson-Foulds giữa các cây được xây dựng dùng mô hình FUG và mô hình LG, WAG, RtREV và JTT (Trang 37)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w