1. Trang chủ
  2. » Luận Văn - Báo Cáo

kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm

41 689 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Kiểm định và So Sánh Các Mô Hình Biến Đổi Amino Acid Cho Virút Cúm
Tác giả Phan Duy Tùng
Người hướng dẫn TS. Lê Sỹ Vinh
Trường học Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội
Chuyên ngành Khoa học Máy tính
Thể loại Khóa luận tốt nghiệp đại học
Năm xuất bản 2009
Thành phố Hà Nội
Định dạng
Số trang 41
Dung lượng 1,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ước lượng của sắp cặp khoảng cách khoảng cách tiến hóa giữa chuỗi là nhiệm vụ cơ bản và quan trọng trong phân tích chuỗi chẳng hạn như tìm kiếm có liên quan chặt chẽ đến chuỗi trong cơ s

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Duy Tùng

KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIẾN

ĐỔI AMINO ACID CHO VIRÚT CÚM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: khoa học máy tính

HÀ NỘI - 2009

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Duy Tùng

KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIẾN

ĐỔI AMINO ACID CHO VIRÚT CÚM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: khoa học máy tính

Cán bộ hướng dẫn: TS Lê Sỹ Vinh

HÀ NỘI - 2009

Trang 3

Tóm tắt khóa luận

Khóa luận với đề tài “kiểm định và so sánh các mô hình biến đổi amino acid cho

virút cúm” Đề tài này chúng tôi đã thực hiện những công việc sau:

1 Nghiên cứu tổng quan về sinh học phân tử và tin sinh học

2 Nghiên cứu mô hình biến đổi amino acid

3 Kiểm thứ mô hình I09 cho virút cúm và so sánh với các mô hình khác như: LG,

WAG, HIVw, HIVb, JTT ……

Kết quả cho thấy I09 [31] tốt hơn các mô hình khác khi áp dụng cho dữ liệu virút cúm

Trang 4

4 năm học tại trường

Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu và sự

hỗ trợ tốt nhất

Trang 5

Mục lục

Lời nói đầu 1

Chương 1: Tổng quan về sinh học phân tử và 2

Một số khái niệm khái niệm tin sinh 2

1.1 Sinh học phân tử 2

1.2 Sắp hàng đa chuỗi 4

1.3 Cây phân loài 6

Chương 2: Mô hình thay thế nucleotide và 7

Mô hình thay thế amino acids 7

2.1 Mô hình của chuỗi tiến hóa 7

2.2 Mô hình thay thế của nucleotide 9

2.3 Mô hình thay thế của amino acid 13

Chương 3: Virút 17

3.1 Khái niệm cơ bản về virút 17

3.2 Phân loại Virút 17

3.3 Virút cúm 18

Chương 4: Quá trình thực hiện kết quả 21

4.1 Sơ lược về chương trình 22

4.2 Những điểm cần chú ý trong chương trình 22

4.3 Quá trình thực hiện 24

Kết luận 31

Chương 5: Tổng kết – Đánh giá 32

5.1 Tổng kết 32

5.2 Những đóng góp 32

5.3 Hướng phát triển 32

Tài liệu tham khảo 33

Hình tham khảo 36

Trang 6

Lời nói đầu

Tin sinh (Bioinformatics), Bio:sinh học phân tử (Molecular Biology), Informatics (Khoa học máy tính) Bioinformatics: giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học máy tính Với sự phát triển mạnh mẽ của công nghệ sinh học, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National center for biotechnology information) Tin sinh học hiện đang được ứng dụng phổ biến trong sinh học phân tử, nông nghiệp, công nghệ thực phẩm, môi trường,

y - dược học, và kiểm soát bệnh

Trong những năm gần đây trên toàn cầu đã bùng nổ những đại dịch cúm như đại dịch H5N1 và gần đây nhất mới phát hiện ra đại dịch mới do chủng H1N1 (đã đột biến) gây ra, có thể lây từ người sang người Các nhà khoa học trên toàn thế giới đang

ra sức nghiên cứu, tìm hiểu về loại virút cúm mới này Vì vậy việc tìm ra một mô hình thay thế amino acid tốt nhất để giúp các nhà khoa học nghiên cứu tốt hơn các loại virút

cúm là rất cần thiết Với đề tài khóa luận tốt nghiệp “Kiểm định và so sánh các mô

hình biến đổi Amino Acid cho virút cúm” chúng tôi hi vọng sẽ có những đóng góp vào

việc sản xuất và điều chế ra vacxin điều trị cúm Sau quá trình nghiên cứu và kiểm tra

chúng tôi đã thu được một số kết quả sau Chúng tôi đã tìm ra mô hình I09 [31] là tốt

nhất để nghiên cứu các loại dữ liệu virút cúm Mặc dù mô hình này mới ở giai đoạn

đầu phát triển nhưng nó đã có những thuộc tính nổi trội cao so với các mô hình khác

Kiểm tra giá trị log likelihood trên 489 aligment độc lập đã cho chúng ta những kết quả như sau: I09 tốt hơn HIVb 455 bộ trên 489 aligmenent, tồi hơn 34 bộ, và I09 tốt

hơn HIVw 476 bộ trên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên

489 aligmenent và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và tồi hơn 21 bộ

Trang 7

Chương 1: Tổng quan về sinh học phân tử và Một số khái niệm khái niệm tin sinh

1.1 Sinh học phân tử

Mọi cơ thể sống đều cấu tạo từ các tế

bào Tế bào có cấu tạo gồm: vỏ, nhân Nhân

tế bào đều chứa acid nucleic Đó là những

phân tử lớn gồm nhiều các nucleotide Có

hai loại nucleic: DNA và RNA Để dễ hình

dung hơn chúng ta có thể xem hình 1 thể

hiện mô hình của một tế bào được phóng to

ra

Hình 1: Cấu tạo tế bào

ADN (Acid deoxyribonucleic): là chuỗi

xoán kép, mang thông tin di truyền, được cấu tạo từ 4 thành phần cơ bản sau: Adenine (A), Cytosine (C), Guanine (G), Thymine (T) Những đặc điểm này được thể hiện ở hình 2, hình này mô tả chuỗi xoán kép DNA và các liên kết A-T và C-G

Hình 2: Cấu trúc xoắn kép của DNA

Trang 8

Trật tự các base dọc theo chiều dài của chuỗi DNA gọi là trình tự, trình tự này rất quan trọng vì nó chính là mật mã nói lên đặc điểm hình thái của sinh vật Tuy nhiên, vì mỗi loại base chỉ có khả năng kết hợp với 1 loại base trên sợi kia, cho nên chỉ cần trình

tự base của 1 chuỗi là đã đại diện cho cả phân tử DNA

Đột biến hiểu đơn giản là hậu quả của những sai sót hoá học trong quá trình nhân đôi Bằng cách nào đó, một base đã bị bỏ qua, chèn thêm, bị sao chép nhầm hay có thể chuỗi DNA bị đứt gẫy hoặc gắn với chuỗi DNA khác Về mặt cơ bản, sự xuất hiện

những đột biến này là ngẫu nhiên và xác suất rất thấp

- Sự thay thế: thay thế một nucleotide bởi cái khác trong chuỗi

- Sự bỏ đi: xóa một hoặc nhiều hơn nucleotide từ chuỗi

- Thêm vào: thêm một hoặc nhiều nucleotide trong chuỗi

- Transitions: thay thế một purine trong purine khác (A  G) hoặc một pyrimidine trong pyrimidine (CT)

- Transversion: thay thế một purine trong một pyrimidine AC, AT, GC,

GT

RNA cũng tương tự như DNA nhưng trong thành phần cơ bản của nó thì T được

thay bằng U (Uracil)

Mối quan hệ của DNA, RNA, Protein được thể hiện qua sơ đồ sau:

Protein là thành phần quan trọng trong tế bào của virút Protein được cấu tạo từ

20 loại amino axit Sự khác nhau về lượng và trình tự sắp xếp các amino axit tạo thành các protein khác nhau

Transcription Translatio n

Trang 9

20 loại amino axit: một bộ ba các A, C,

G, T tương ứng với một amino acid gọi là

bộ ba mã hóa (codon) Các bộ ba này ứng

với các amino acid thể hiện trong hình 3, với

các loại amino acid như sau: Phe, Leu, Ser,

Tyr, Cys, Trp, Pro, His, Gln, Arg, lle, Thr,

Asn, Lys, Arg, Val, Ala, Asp, Glu, Gly

1.2 Sắp hàng đa chuỗi

Sắp hàng đa chuỗi (gióng hàng đa chuỗi) là cách sắp hàng các chuỗi DNA, RNA

hay protein sao cho chúng giống nhau nhất Các chuỗi này sau khi sắp hàng sẽ có cùng chiều dài Một số chương trình dùng để sắp hàng đa chuỗi như: CLUSTALW [28], T-COFFEE [17], hoặc MUSCLE [5]

Sắp hàng 2 chuỗi: là trường hợp riêng của sắp hàng đa chuỗi.Ví dụ chúng ta có hai chuỗi DNA của người và tinh tinh:

Trang 10

Ví dụ: có sắp hàng đa chuỗi của 7 chuỗi sau:

Sau khi các chuỗi được sắp hàng xong chúng sẽ được sử dụng với nhiều mục đích khác nhau Một trong những mục đích quan trọng là xây dựng cây phân loài

Trang 11

1.3 Cây phân loài

Cây phân loài biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật Có nhiều

phương pháp để xây dựng cây phân loài như Maximum parsimony, Distance Based,

hay Maximum Likelihood [15] Nhưng ngày nay, phương pháp Maximum Likelihood

được sử dụng phổ biến nhất Sử dụng phần mềm PhyML [23] để xây đựng cây phân loài bằng phương pháp Maximum Likelihoood Hình 4 là một ví dụ về cây phân loài

của 4 loài: người, tinh tinh, gorilla, khỉ Rhesus

Hình 4: Ví dụ về cây phân loài

Muốn xây dựng những cây phân loài tốt và chuẩn xác thì cần phải có những kiến thức cơ bản về những mô hình thay thế nucleotide hoặc mô hình thay thế amino acid Những mô hình này là nền tảng của việc xây dựng nên cây phân loài Lựa chọn được

mô hình tốt sẽ dẫn tới việc có cây phân loài tốt Phần tiếp theo sẽ nói chi tiết hơn về các mô hình thay thế nucleotide và mô hình thay thế amino acid

Trang 12

Chương 2: Mô hình thay thế nucleotide và

Mô hình thay thế amino acids

Sau đây chúng tôi trình bày tổng quan về mô hình tiến hóa, mô hình thay thế của

nucleotide, mô hình thay thế của amino acid Chi tiết có thể tham khảo tại [15, 29]

2.1 Mô hình của chuỗi tiến hóa

Sau khi đã được chuỗi sắp hàng đồng nhất, mối quan hệ có thể được phân tích trên các ký tự đồng nhất của chúng Ước lượng của sắp cặp khoảng cách (khoảng cách tiến hóa) giữa chuỗi là nhiệm vụ cơ bản và quan trọng trong phân tích chuỗi chẳng hạn như tìm kiếm có liên quan chặt chẽ đến chuỗi trong cơ sở dữ liệu và xây dựng lại khoảng cách cơ bản của cây phân loài [24]

Chính xác, Chúng ta có A= {A, C, G, T} theo thứ tự là 4 nucleotide tình trạng có thể thực hiện được Giống nhau, của 20 trạng thái amino acid viết tắt với A= {A, C, D,

E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} Nhìn 2 sắp hàng chuỗi (Nucleotide

hoặc amino acids) x=(x 1 , x 2 ,…, x m ) và y=(y 1 , y 2 , ….,y m ) khi x i , y iA với i=1 …m

Hình 5: quan hệ giữa khoảng cách quan sát và khoảng cách gen giữa 2 chuỗi

Trang 13

Nếu khoảng cách gen là nhỏ, nó có thể ước lượng bởi khoảng cách quan sát Tuy nhiên, khoảng cách quan sát tăng lên thì bão hòa và đó là giới hạn của nó Bởi vậy, khoảng cách quan sát đánh giá bởi khoảng cách gen

Định nghĩa: Khoảng cách gen d g (x,y) giữa 2 chuỗi tương đồng x=(x 1 ,x 2 ,….,x m )

và y=(y 1 ,y 2 … ,y m ) A với i=1 … m là số thay thế có thật giữa x và y trên site

Ước lượng khoảng cách gen giữa chuỗi điển hình phụ thuộc vào thống kê mô tả

của xử lý thay thế giữa nucleotie hoặc amino acids, gọi là mô hình thay thế

Trước khi miêu tả mô hình, chẳng hạn một sự đi chệch trong khoảng cách quan sát 2 chuỗi cái mà đơn giản nhất và thuộc về ước lượng trực giác của khoảng cách gen [24]

Định nghĩa: khoảng cách nhìn thấy d 0 (x,y) giữa chuỗi đồng nhất x=(x 1 , x 2 ,

… ,x n ) và y=(y 1 ,y 2 , … ,y m ) với x i ,y iA với i=1,… m là tỷ lệ của vị trí không ghép đôi

trong sắp cặp chuỗi tương ứng Toán học,

d o (x,y)= m1 ( i i)

i x y m

Trang 14

nếu khoảng cách gen dg(x,y) là nhỏ, nó đã ước lượng một cách đúng đắn bởi

khoảng cách quan sát do(x,y) như biểu đồ minh họa hình 5 Tuy nhiên, một tỷ lệ thay

thế cao hoặc một thời gian tiến hóa giữa chuỗi có thể là nguyên nhân không đánh giá được khoảng cách gen từ khoảng cách quan sát Rõ ràng hơn ở hình 6 hiển thị ví dụ về nhiều thay thế, thay thế song song và thay thế sau, trong cái khoảng cách quan sát giữa

2 chuỗi là nhỏ hơn số của thay thế thực tế giữa chúng

Nhiều thay thế (multiple subsituations): có 2 hoặc nhiều hơn thay thế xảy ra

tại vị trí giống nhau Tuy nhiên, một thay thế quan trọng là có thể nhìn thấy tại vị trí trong sắp cặp trình tự (vị trí 1 hình 6)

Thay thế song song (parallel substitution): thay thế giống nhau có xảy ra tại

vị trí giống nhau trong 2 chuỗi Bởi vậy, chúng ta không quan sát thấy thay thế giữa 2

ký tự tại vị trí trong sắp cặp trình tự (vị trí 3 hình 6)

Thay thế sau (Back subsituations): có 2 hoặc nhiều hơn thay thế xảy ra tại vị

trí giống nhau trong một chuỗi.Tuy nhiên, ký tự cuỗi cùng có trạng thái như trạng thái ban đầu.Vậy kết quả là không thể quan sát được thay thế tại vị trí sắp cặp trình tự (vị trí 5 hình 6)

Để giải quyết vấn đề này, chúng ta sử dụng mô hình xử lý thay thế giữa nuclotides và mô hình xử lý thay thế giữa amino acid

2.2 Mô hình thay thế của nucleotide

Xử lý thay thế giữa nucleotides là mô hình như một thời gian đồng nhất, thời gian tiến hành không dịch chuyển của xử lý Markov [27, 24] Thành phần trung tâm của xử lý là thay thế ngay lập tức tỷ lệ thay thế ma trận

(2.3) (2.2)

Trang 15

Khi Qij là số của thay thế từ nucleotide i thành nucleotide j trên thời gian Tham

số a, a’, b, b’, c, c’, d, d’, e, e’, f, f’ phù hợp có liên quan tới tỷ lệ thay thế từ một nucleotide với nucleotide khác Cuối cùng, tham số     A, C, G, T miêu tả tần số của nucleotides A, C, G, T, miêu tả tần số của nucleotide A, C, G, T theo thứ tự định sẵn Chú ý rằng thành phần đường chéo Qii là phân chia như tổng của các thành phần của hàng và kết quả bằng 0

Thời gian thuận nghịch giả định thường xuyên áp đặt với suy ra sự phân loài, cái

có liên quan đến tỷ lệ thay thế giữa nucleotide i và nucleotide j là giống nhau trong cả

2 phương hướng Rõ ràng, tỷ lệ thay thế tương đối a’=a, b’=b, c’=c, d’=d, e’=e và f’=f Bời vậy, phổ biến thời gian thuận nghịch (GTR) [27] là:

Mô hình áp đặt 4 điều kiện:

- Tỷ lệ của thay thế từ nucleotide i với nucleotide j phụ thuộc vào lịch sử của nucleotide i (đặc tính Markov)

- Tỷ lệ thay thế là bất biến với thời gian (đồng nhất thời gian)

- Thay thế giữa nucleotide có thể xuất hiện tại thời gian trong xử lý (thời gian liên tục)

- Tần số = (    A, C, G, T) của nucleotide A, C, G, T

Tỷ lệ thay thế tức thời ma trận Q có thể tách rời trong có liên quan đến tỷ lệ thay

thế của ma trận R= {R ij} và tần số nucleotie như:

Khi quan hệ ma trận tỷ lệ thay thế là:

(2.5) (2.4)

Trang 16

Một ma trận tỷ lệ thay thế tức thời Q lý thuyết gọi là ma trận khả năng thay thế P(t)={Pij(t)} trong này Pij(t) là xác suất thay đổi từ nucleotide i thành nucleotide j trong thời gian tiến hóa t có thể tính toán bởi:

Mô hình đảo ngược phổ biến Q là chéo hóa (Keilson [12]; Gu and Li [8] ), P (t)

có thể tính toán hiệu quả sử dụng sự phân ly của Q Công thức

Trang 17

Hình 7: sự khác nhau giữa các mô hình thay thế nucleotide là số tham số tự do

(Free parameters)

|A|=4 là số trạng thái có thể thực hiện được

=diag { 1, 2, , A} là |A||A| ma trận đường chéo tương ứng với giá trị đặc trưng của mà trận  1, 2, , A của Q

U= {u 1 , u 2 , , u |A|} là ma trận tương ứng với đặc trưng của Q và U-1 là ma trận nghịch đảo

Sự khác nhau của các ma trận Q là 8 tham số tự do Tuy nhiên có thể tìm hiểu rõ hơn về những tham số tự do này thông qua các mô hình như sau: JC69 [11], F81 [7], K2P [13], HKY85 [9], TN93 [26]

Hình 7 hiển thị sự khác nhau của mô hình thay thế nucleotide cũng như số các tham số tự do của chúng Tham số tự do của mô hình thường ước lượng dữ liệu sử dụng chương trình tính toán như là PAUP* [25], TREE-PUZZLE [20], MRBAYES [19], PHYML [23]

Trang 18

2.3 Mô hình thay thế của amino acid

Chuỗi amino acid là bao gồm loại dữ liệu phân tử sử dụng để nghiên cứu quan hệ giữa loài năm 1960 bởi Eck và Dayhoff [4] Giống nhau với nucleotides, thay thế xử lý giữa amino acid là không có thật với một đồng nhất thời gian thời gian liên tiếp thời gian đảo ngược không đổi xử lý Markov Tuy nhiên, 20 trạng thái amino acid cần đến

C202 mô hình thay thế tham số với ước lượng Bởi vậy, tham số là đặc trưng nhận được

từ kinh nghiệm nghiên cứu cơ bản trên số lượng dữ liệu rộng lớn [3, 10, 1, 16, 22] Sau đây, mô hình thay thế của amino acid gọi là mô hình thay thế kinh nghiệm

Dayhoff (1978) [3] là mô hình thay thế amino acid đầu tiên Họ sử dụng 71 bộ

protein có quan hệ chặt chẽ với nhau và quan sát 1572 thay thế giữa các amino acid

Họ sưu tập thay thế này trong xác suất phổ biến của ma trận sự thay thế đã được thừa nhận (PAM) hoặc mô hình Dayhoff

PAM-001 là ma trận quan trọng nhất PAM cái biểu hiện xác suất của sự thay thế

từ một amino acid với amino acid khác Nếu một phần trăm của amino acid có thay thế giữa chúng Phổ biến hơn là PAM-t là xác suất của thay thế từ một amino acid tới cái khác nếu số lượng của thay thế giữa chúng là t phần trăm PAM-t có thể tính toán dễ dàng bởi sự tăng ma trận PAM-001 với số mũ t [6]

Jones et al (1992) [10] ứng dụng phương pháp giống như của Dayhoof et al

(1978) nhưng với giá trị lớn hơn về số bộ dữ liệu để lập bảng xác suất của ma trận biến đổi công nhận có tên là ma trận JTT

Một thiếu sót của ma trận PAM là chúng chỉ thống kê trên một chuỗi protein có quan hệ mật thiết với nhau.Muller và Vingrron (2000) giới thiệu một cải tiến ước lượng, gọi là phương thức giải thức, chiến thắng cái sự hạn chế.Sau đó, họ tính toán gọi là ma trận VT cơ bản trên chuỗi protein của mức độ biến đổi của sự khác nhau từ

dữ liệu SYSTERS [14]

Adachi và Hasegawa (1996) [1] nghiên cứu sự thay thế acmino acid xử lý trong

ngữ cảnh của mtDNA- mã hóa protein Họ xây dựng một ma trận xác suất chuyển đổi,

Trang 19

đó là ma trận mtREV, sử dụng ma trận maximum likelihood cơ bản trên 20 động vật

có xương sống mtDNA giải mã chuỗi protein Tác giả đưa ra kết quả: mtREV thực sự tốt hơn mô hình khác khi xử lý mối quan hệ phân loài trong loài căn cứ trên mtDNA giải mã chuỗi protein của họ

Whelan và Goldman (2001) [22] sử dụng một ma trận gần đúng phương thức

likelihood để ước lượng một mô hình mới của thay thế amino acid, tên là WAG, căn

cứ trên 3,905 chuỗi protein dạng cầu từ 182 họ protein Họ đưa ra kết quả: WAG là tốt hơn phương thức Dayhoff với chi tiết của ma trận giá trị likelihood từ một số lớn của

họ protein cầu

David C.Nickle và các đồng nghiệp (2007) [2] đã đưa ra 2 mô hình theo kinh

nghiệm HIVb và HIVw Mô hình này nghiên cứu về virút HIV trên người (HIV-1) Ngoài ra tác giả còn khẳng định rằng mô hình của họ còn có thể áp dụng với virút viêm gan C, và virút cúm A Mô hình HIVw sử dụng sắp hàng chuỗi của 48 cặp tương ứng với tổng số 6,328 cặp amino acid khác nhau Mô hình HIVb sử dụng 8 bộ dữ liệu với tổng cộng 7,189 amino acid khác nhau Số bộ dữ liệu này khá là tuyệt vời lớn hơn 1,700 amino acid so với Dayhoff sử dụng và gấp 2 lần so với rtREV và C.Nickle cũng

sử dụng phương thức ước lượng cực đại giống của Whelan và Goldman để suy ra mô hình Kết quả họ thu được là khả thi hơn các mô hình trước đó được tổng kết tại bảng 1.Từ bảng 1 ta có thể thấy được rằng HIV-Wm đứng nhất 44 lần trên 47 cặp, đứng thứ 2: 2 lần trên tổng số 47 cặp.Với kết quả này ta thấy được sự vượt trội của HIV với những mô hình trước đó

Trang 20

Bảng 1: Kết quả so sánh 19 model trên 47 cặp alignment giống nhau

Lê Sĩ Quang và Olivire Gascuel (2008 )[21] đã công bố một mô hình mới đó là

mô hình LG Mô hình này chạy tốt trên nhiều loại amino aicds khác nhau Phương phát để suy ra mô hình này là: tác giả cải tiến mô hình WAG của Whelan và Goldman (2001) bằng cách sử dụng ước lượng cực đại (maximum likelihood) kết hợp chặc chẽ tính biến đổi của tỷ lệ tiến hóa vị trí xoắn trong ma trận ước lượng Tác giả đã kết hợp với phần mềm XRATE và 3,912 aligment từ Pfam, bam gồm 50,000 chuỗi và 6.5 triệu amino acid.Và tác giả đã sử dụng lấy mẫu độc lập của 59 alignments từ TreeBase để

so sánh kết quá như bảng thống kê ở bảng 2 bên dưới

Ngày đăng: 17/02/2014, 22:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[15] Marco salemi Anne –Mieke Vandamme, “The Phylogenetic Handbook”, 2003, pages. 1 -160 Sách, tạp chí
Tiêu đề: The Phylogenetic Handbook
[18] Press, W. H., Teukolsky, S. A., Vetterling, W. T. and Flannery, Numerical Repcipes in C: The art of scientific computing. Cambridge University Press, New York, 2002 Sách, tạp chí
Tiêu đề: Numerical Recipes in C: The art of scientific computing
Tác giả: W. H. Press, S. A. Teukolsky, W. T. Vetterling, Flannery
Nhà XB: Cambridge University Press
Năm: 2002
[22] Simon Whelan and Nick Goldman, A General Empirical Model of Protein Evolution Derived from Multiple Protein Families Using a Maximum-Likelihood Approach, 2001, pages. 1-9 Sách, tạp chí
Tiêu đề: Simon Whelan and Nick Goldman, " A General Empirical Model of Protein Evolution Derived from Multiple Protein Families Using a Maximum-Likelihood Approach," 2001," pages
[26] Tamura, K. and Nei, Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees. Mol.Biol.Evol., 1993, pages 512–526 Sách, tạp chí
Tiêu đề: Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees
Tác giả: Tamura, K., Nei
Nhà XB: Mol.Biol.Evol.
Năm: 1993
[1] Adachi, J. and Hasegawa, Model of amino acid substitution in proteins encoded by mitochondrial DNA. J. Mol. Evol., 1996, pages. 459–468 Khác
[2] David C. Nickle, HIV-Specific Probabilistic Models of Protein Evolution, 2007, pages. 1-11 Khác
[3] Dayhoff, M. O., Schwartz, R. M. and Orcutt, A model of evolutionary change in proteins. In Dayhoff et al. (1978),1978, pages 345–352 Khác
[4] Eck, R. and Dayhoff, In Atlas of protein sequence and structure. National Biomedical Research Foundation, Silver Spring, Maryland, USA, 1966 Khác
[5] Edgar, R. C, MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucl. Acids Res., 2004, pages. 1792–1797 Khác
[6] Felsenstein, Infering Phylogenies. Sinauer Associates, Sunderland, Massachusetts, 2004 Khác
[7] Felsenstein, Evolutionary trees from gene frequencies and quantitative characters:Finding maximum likelihood estimates. Evolution, 1981, pages.1229–1242 Khác
[8] Gu, X. and Li, A general additive distance with time-revesibility and rate variation among nucleotide sites. Proc. Natl. Acad. Sci. USA, 1996, pages. 4671–4676 Khác
[9] Hasegawa, M., Kishino, H. and Yano,Dating of the human–ape splitting by a molecular clock of mitochondrial DNA. J. Mol. Evol., 1985, pages.160–174 Khác
[10] Jones, D. T., Taylor, W. R. and Thornton, The rapid generation of mutation data matrices from protein sequences. Comput. Appl. Biosci., 1992,pages. 275–282 Khác
[11] Jukes, T. H. and Cantor, Evolution of protein molecules. In Munro, H. N. (ed.), Mammalian Protein Metabolism, vol. 3, 1969, pages 21–123, Academic Press, New York Khác
[12] Keilson, Markov chain models: rarity and exponentially. Spinger, New York, USA., 1979 Khác
[13] Kimura, A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. J. Mol. Evol., 1980, pages.111–120 Khác
[14] Krause, A., Nicod`eme, P., Bornberg-Bauer, E., Rehmsmeier, M. and Vingron, WWW-access to the SYSTERS protein sequence cluster set. Bioinformatics, 1999, pages. 262–263 Khác
[16] M¨uller, T. and Vingron, Modeling amino acid replacement. J. Comput. Biol., 2000,pages. 761–776 Khác
[17] Notredame, C, Higgins, D. and Heringa, J., T-COFFEE: A novel method for multiple sequence alignments. Journal of Molecular Biology, 2000, pages. 205–217 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1: Cấu tạo tế bào. - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 1 Cấu tạo tế bào (Trang 7)
Hình 2: Cấu trúc xoắn kép của DNA. - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 2 Cấu trúc xoắn kép của DNA (Trang 7)
Hình 3: 20 amino acid. - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 3 20 amino acid (Trang 9)
Hình 4: Ví dụ về cây phân loài - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 4 Ví dụ về cây phân loài (Trang 11)
Chương 2: Mơ hình thay thế nucleotide và Mơ hình thay thế amino acids - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
h ương 2: Mơ hình thay thế nucleotide và Mơ hình thay thế amino acids (Trang 12)
Ước lượng khoảng cách gen giữa chuỗi điển hình phụ thuộc vào thống kê mô tả của xử lý thay thế giữa nucleotie hoặc amino acids, gọi là mô hình thay thế - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
c lượng khoảng cách gen giữa chuỗi điển hình phụ thuộc vào thống kê mô tả của xử lý thay thế giữa nucleotie hoặc amino acids, gọi là mô hình thay thế (Trang 13)
Để giải quyết vấn đề này, chúng ta sử dụng mơ hình xử lý thay thế giữa nuclotides và mơ hình xử lý thay thế giữa amino acid - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
gi ải quyết vấn đề này, chúng ta sử dụng mơ hình xử lý thay thế giữa nuclotides và mơ hình xử lý thay thế giữa amino acid (Trang 14)
Mô hình áp đặt 4 điều kiện: - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
h ình áp đặt 4 điều kiện: (Trang 15)
Chúng ta phải chú ý rằng ma trận tỷ lệ thay thế tức thời Q là điển hình như số trông đợi của thay thế trên đơn vị thời gian gọi là tốc độ thay thế là: - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
h úng ta phải chú ý rằng ma trận tỷ lệ thay thế tức thời Q là điển hình như số trông đợi của thay thế trên đơn vị thời gian gọi là tốc độ thay thế là: (Trang 16)
Hình 7: sự khác nhau giữa các mơ hình thay thế nucleotide là số tham số tự do (Free parameters) - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 7 sự khác nhau giữa các mơ hình thay thế nucleotide là số tham số tự do (Free parameters) (Trang 17)
Bảng 1: Kết quả so sánh 19 model trên 47 cặp alignment giống nhau - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Bảng 1 Kết quả so sánh 19 model trên 47 cặp alignment giống nhau (Trang 20)
Bảng 2: So sánh các mơ hình với 59 alignments từ TreeBase - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Bảng 2 So sánh các mơ hình với 59 alignments từ TreeBase (Trang 21)
Hình 8: Ba loại virút: virút của vi khuẩn, cịn gọi là thực khuẩn thể (trái); virút của động vật (phải trên); và retrovirút (phải dưới) - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 8 Ba loại virút: virút của vi khuẩn, cịn gọi là thực khuẩn thể (trái); virút của động vật (phải trên); và retrovirút (phải dưới) (Trang 22)
Hình 9: Bộ gen của virút cú mA - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 9 Bộ gen của virút cú mA (Trang 24)
Hình 10: Sự lây lan của virút cúm - kiểm định và so sánh các mô hình biến đổi amino acid cho virút cúm
Hình 10 Sự lây lan của virút cúm (Trang 24)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w