Trong lĩnh vực Công Nghệ Thông Tin nói riêng, yêu cầu quan trọng nhất của người học đó chính là thực hành. Có thực hành thì người học mới có thể tự mình lĩnh hội và hiểu biết sâu sắc với lý thuyết. Với ngành mạng máy tính, nhu cầu thực hành được đặt lên hàng đầu. Tuy nhiên, trong điều kiện còn thiếu thốn về trang bị như hiện nay, người học đặc biệt là sinh viên ít có điều kiện thực hành. Đặc biệt là với các thiết bị đắt tiền như Router, Switch chuyên dụng
Trang 1TIN SINH HỌC ĐẠI CƯƠNG
(Introduction to Bioinformatics)
PGS.TS Trần Văn Lăng Email: langtv@vast.vn
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY
TIẾN HÓA PHÂN TỬ VÀ CÂY PHÂN LOÀI
Chương 4:
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2
• Khái niệm cây phân loài
• Nguồn gốc cây phân loài
• Các phương pháp xây dựng cây phân loài
Khái niệm
• Cây phân loài (Phylogenetic tree) hay còn gọi là:
– Cây phả hệ – Cây tiến hóa (Revolutionary tree)
– Cây phát sinh loài
Trang 2• Cây được dùng để mô hình
hóa lịch sử tiến hóa thực tế
của một nhóm các trình tự
hay các sinh vật
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5
• Đối tượng nghiên cứu truyền thống của cây phân loài là biểu diễn mối quan hệ tiến hóa giữa các loài
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6
• Khi biểu diễn trong
cây phân loài
– n loài hiện tại được
biểu diễn ở n lá của
cây
– Các nút bên trong (các
nhánh) đại diện cho
• Các nút bên trong đôi khi còn được coi:
– Sự đại diện cho một nhóm các loài – Một sự kiện riêng biệt
Trang 3• Cách biểu diễn: có 2 dạng
– Cây có gốc (rooted tree)
– Cây không gốc (unrooted tree)
• Gọi là biểu diễn Phylip hay NEWICK
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9
Biểu diễn cây có gốc
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10
Các biểu diễn cây không gốc
• Biểu diễn cây (A, (B, C)) và ((B, C), A) giống nhau hoàn toàn
• Theo tự nhiên, cây có nút gốc được vẽ từ dưới lên
• Tuy nhiên, khi biểu diễn cây có gốc thường
từ đĩnh xuống hoặc từ trái sang phải
• Cây không gốc được vẽ từ trung tâm đi ra
Trang 4Ví dụ: cá sấu, …, chồn
((Alligator,Bear),((Cow,(Dog,Elephant)),Ferret))
((Alligator,Bear),(((Cow,Dog),Elephant),Ferret))
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13
Trường hợp cây không gốc
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14
((Alligator,Bear),((Cow,(Dog,Elephant)),Ferret)) ((Alligator,Bear),(((Cow,Dog),Elephant),Ferret))
Trang 5Phương pháp
• Trên cơ sở khoảng cách giữa từng cặp trình
tự, biểu diễn thành dạng ma trận khoảng
cách
• Ma trận khoảng cách là ma trận đối xứng
• Trên cơ sở ma trận khoảng cách, tìm các
cụm gần nhất một cách lần lượt
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17
Khoảng cách trong cây phân loài
• Ma trận khoảng cách D = (dij) là ma trận trong đó mỗi phần từ dij là khoảng cách giữa
2 nút lá trong cây phân loài
• Ngoài ra, trong cây phân loài, còn chỉ rõ khoảng cách giữa các nút lá và các nút bên trong cây
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18
• Khoảng cách dij trong ngữ cảnh tiến hóa thỏa
mãn các điều kiện sau đây:
– Tính đối xứng: dij = dji với mọi i, j
– Tính phân biệt: dij ≠ 0 nếu và chỉ nếu i ≠ j
– Bất đẳng thức tam giác: dij ≤ dik + dkj với mọi i, j, k
• Khoảng cách thỏa mãn các điều kiện trên được gọi là một Metric (thước đo, độ đo)
• Ngoài ra, cơ chế tiến hóa có thể áp đặt các hạn chế bổ sung trên khoảng cách như:
– khoảng cách additive (cộng thêm) – khoảng cách ultrametric (siêu metric)
Trang 6• Khoảng cách additive
– Cây được gọi là additive nếu như khoảng cách
giữa một cặp nút là (i,j) bất kỳ là tổng khoảng
cách giữa nút k và các nút lá i, j trên đường đi
Trang 7Additive Metric
• Let S be a set of species, and let M be the
distance matrix for S If there exists a tree T
where:
– Every edge has a positive weight and every leaf
is labelled by a disinct species in S
– For every i, j ∈ S, Mij = the sum of the edge
weights along the path from i to j
• Then, M is an additive metric T is called an
additive tree
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25
Example: Additive Metric and Additive
Tree
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26
Properties of Additive Metric
• M is additive if and only if for any four
species, we can label them as i, j, l, k such
– A root of the tree can be identified such that the distance to all leaves from the root is the same, that is, the length is a fixed value
• Then M is known as an ultrametric and the tree mentioned is called an ultrametric tree
Trang 8Propertied of Ultrametric
• M is ultrametric if and only if for any three
species in S, we can label them i, j, k such
that Mik = Mjk ≥ Mij
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29
• Về mặt sinh học, độ dài cạnh dij tương ứng với thời gian trôi qua từ khi phân tách i và j khỏi nút chung
• Điều đó có nghĩa chiều dài cạnh được đo bởi một “molecular clock” với tỉ lệ không đổi
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30
Minh họa
• Cho 5 trình tự A, B, C, D, E
• Từ đây, suy ra cần 10 khoảng cách giữa 5
trình tự này để tạo ma trận khoảng cách
– 10 = n(n-1)/2, với n = 5
Ví dụ
• Giả sử 5 trình tự này
có ma trận khoảng cách như bảng
• Lần lượt tính toán khoảng cách giữa các trình tự gom nhóm và không gom nhóm
Trang 9• Trong ma trận này, khoảng
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33
• Tính lại ma trận khoảng cách trong đó có khoảng cách giữa nhóm AB với các loài (trình tự) C, D, E còn lại
• Khoảng cách từ một loài đến nhóm là khoảng cách trung bình từ loài này đến các loài trong nhóm
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34
• 4 là khoảng cách nhỏ nhất, nên nhóm AB được gom cụm với trình tự D
để có nhóm (AB)D Có chung tổ tiên là II
Trang 10C 6
E 6,3 9
• Theo ma trận khoảng cách mới, giá trị nhỏ nhất là 6 nên tạo ra cụm ((AB)D)C với nút trung tâm III
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38
• Tương tự, khoảng cách giữa cụm ((AB)D)C
Trang 11Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41
• Minh họa trên web
Tổng quát về phương pháp gom cụm
• Có 4 phương pháp gom cụm
• Những phương pháp này khác nhau ở cách tính khoảng cách
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42
4. Tính khoảng cách dku với k không thuộc cụm u
5. Loại cụm u (cụm i,j) từ ma trận khoảnh cách
• Sự khác nhau giữa các phương pháp
– Liên kết đơn giản: dku = min(dki,dkj) – Liên kết phức tạp: dku = max(dki,dkj) – UPGMA: dku = (nidki + njdkj)/(ni+nj) – WPGMA: dku = (dki + dkj)/2
Trong đó ni là số phần tử của cụm i
Trang 12Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45
• Tính các khoảng cách mới theo UPGMA
– dA(BC) = (1x8 + 1x8)/(1+1) = 8 – dD(BC) = (1x12 + 1x12)(1+1) = 12 – dE(BC) = (1x4 + 1x4)/(1+1) = 4
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46
• Loại bỏ B, C để có
ma trận khoảng cách
mới
• Theo ma trận khoảng cách: khoảng cách giữa cụm (BC) và E là
bé nhất
• Nên tạo cụm (BC) với
E để có cụm (BC)E với chiều cao là 4/2 = 2
Trang 13• Tiếp tục tính khoảng cách từ cụm (BC)E đến
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50
• Do khoảng cách giữa A và cụm (BC)E là
bé nhất, nên tạo cụm mới ((BC)E)A có chiều cao bằng 8/2 = 4
• Khoảng cách giữa D với cụm ((BC)E)A
– dD((BC)E)A = (3xdD((BC)E) + 1xdDA)/(3+1)
– = (3x12 + 1x12)/4 = 12
• Từ đây suy ra chiều cao của cây là 12/2 = 6
• Lưu ý, do cây này là
ultrametric, nên kết quả của 4 cách tính là như nhau
Trang 14• Với cây ultrametric, khoảng
Trang 15PHƯƠNG PHÁP NEIGHBOR -
JOINING
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57
• Do Naruya Saitou và Masatoshi Nei đưa ra vào năm 1987
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58
Neighbor - Joining
• Phương pháp Neighbor – Joining là phương
pháp tương tự như phương pháp gom cụm
• Tuy nhiên, khái niệm cụm hàng xóm có
khác:
– Hai trình tự được gọi là hàng xóm (lân cận) trong
một cây nếu như giữa chúng chỉ có duy nhất một
nút
Phương pháp
• Cho ma trận khoảng cách chứa khoảng cách
dij giữa các trình tự trong tập hợp n trình tự
• Các trình tự ban đầu được biểu diễn như hình ngôi sao
Trang 16Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62
viu = dij
2 +
ri− rj2n − 4 , và vju = dij − viu
Trang 17C như hình bên
• Vì vậy, khoảng cách nhỏ nhất không cần thiết
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66
Trang 18Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70
• dB(AC) = (dAB + dCB – dAC)/2
• = (3 + 5 – 4)/2 = 2
• dD(AC) = (dAD + dCD – dAC)/2
• = (5 + 7 - 4)/2 = 4
Trang 19Bước 5
• Loại bỏ trình tự A và C,
ma trận khoảng cách
còn lại như bên cạnh
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73
• Tiếp tục quay lại Bước 1 với n = 3
– rAC = d(AC)B + d(AC)D = 2 + 4 = 6 – rB = dB(AC) + dBD = 2 + 4 = 6 – rD = dD(AC) + dDB = 4 + 4 = 8
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74
– dB((AC)B) = d(AC)B – dAC((AC)B) = 2 – 1 = 1
Trang 20Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77
– d((AC)B)D = (d(AC)D + dBD – d(AC)B)/2 – = (4 + 4 – 2)/2 = 3
• Khi đó có cây như hình
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 78
Bài tập
• Vẽ cây không gốc theo
Neighbor – Joining với ma
trận khoảng cách là:
KHOẢNG CÁCH TIẾN HÓA
Trang 21• Khoảng cách của 2 trình tự là tỷ số giữa các
A. AGGCCATGAATTAAGAATAA
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82
• Khoảng cách tiến hóa giữa