1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài giảng Tin sinh học đại cương - Chương 5: Tiến hóa phân tử và cây phân loại

21 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiến Hóa Phân Tử Và Cây Phân Loài
Tác giả Assoc. Prof. Tran Van Lang, PhD
Người hướng dẫn Người hướng dẫn: (Thông tin không cung cấp)
Trường học Vietnam Academy of Science and Technology
Chuyên ngành Tin sinh học
Thể loại Bài giảng
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 21
Dung lượng 4,61 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong lĩnh vực Công Nghệ Thông Tin nói riêng, yêu cầu quan trọng nhất của người học đó chính là thực hành. Có thực hành thì người học mới có thể tự mình lĩnh hội và hiểu biết sâu sắc với lý thuyết. Với ngành mạng máy tính, nhu cầu thực hành được đặt lên hàng đầu. Tuy nhiên, trong điều kiện còn thiếu thốn về trang bị như hiện nay, người học đặc biệt là sinh viên ít có điều kiện thực hành. Đặc biệt là với các thiết bị đắt tiền như Router, Switch chuyên dụng

Trang 1

TIN SINH HỌC ĐẠI CƯƠNG

(Introduction to Bioinformatics)

PGS.TS Trần Văn Lăng Email: langtv@vast.vn

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY

TIẾN HÓA PHÂN TỬ VÀ CÂY PHÂN LOÀI

Chương 4:

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 2

•  Khái niệm cây phân loài

•  Nguồn gốc cây phân loài

•  Các phương pháp xây dựng cây phân loài

Khái niệm

•  Cây phân loài (Phylogenetic tree) hay còn gọi là:

–  Cây phả hệ –  Cây tiến hóa (Revolutionary tree)

–  Cây phát sinh loài

Trang 2

•  Cây được dùng để mô hình

hóa lịch sử tiến hóa thực tế

của một nhóm các trình tự

hay các sinh vật

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 5

•  Đối tượng nghiên cứu truyền thống của cây phân loài là biểu diễn mối quan hệ tiến hóa giữa các loài

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 6

•  Khi biểu diễn trong

cây phân loài

–  n loài hiện tại được

biểu diễn ở n lá của

cây

–  Các nút bên trong (các

nhánh) đại diện cho

•  Các nút bên trong đôi khi còn được coi:

–  Sự đại diện cho một nhóm các loài –  Một sự kiện riêng biệt

Trang 3

•  Cách biểu diễn: có 2 dạng

–  Cây có gốc (rooted tree)

–  Cây không gốc (unrooted tree)

•  Gọi là biểu diễn Phylip hay NEWICK

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 9

Biểu diễn cây có gốc

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 10

Các biểu diễn cây không gốc

•  Biểu diễn cây (A, (B, C)) và ((B, C), A) giống nhau hoàn toàn

•  Theo tự nhiên, cây có nút gốc được vẽ từ dưới lên

•  Tuy nhiên, khi biểu diễn cây có gốc thường

từ đĩnh xuống hoặc từ trái sang phải

•  Cây không gốc được vẽ từ trung tâm đi ra

Trang 4

Ví dụ: cá sấu, …, chồn

((Alligator,Bear),((Cow,(Dog,Elephant)),Ferret))

((Alligator,Bear),(((Cow,Dog),Elephant),Ferret))

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 13

Trường hợp cây không gốc

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 14

((Alligator,Bear),((Cow,(Dog,Elephant)),Ferret)) ((Alligator,Bear),(((Cow,Dog),Elephant),Ferret))

Trang 5

Phương pháp

•  Trên cơ sở khoảng cách giữa từng cặp trình

tự, biểu diễn thành dạng ma trận khoảng

cách

•  Ma trận khoảng cách là ma trận đối xứng

•  Trên cơ sở ma trận khoảng cách, tìm các

cụm gần nhất một cách lần lượt

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 17

Khoảng cách trong cây phân loài

•  Ma trận khoảng cách D = (dij) là ma trận trong đó mỗi phần từ dij là khoảng cách giữa

2 nút lá trong cây phân loài

•  Ngoài ra, trong cây phân loài, còn chỉ rõ khoảng cách giữa các nút lá và các nút bên trong cây

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 18

•  Khoảng cách dij trong ngữ cảnh tiến hóa thỏa

mãn các điều kiện sau đây:

–  Tính đối xứng: dij = dji với mọi i, j

–  Tính phân biệt: dij ≠ 0 nếu và chỉ nếu i ≠ j

–  Bất đẳng thức tam giác: dij ≤ dik + dkj với mọi i, j, k

•  Khoảng cách thỏa mãn các điều kiện trên được gọi là một Metric (thước đo, độ đo)

•  Ngoài ra, cơ chế tiến hóa có thể áp đặt các hạn chế bổ sung trên khoảng cách như:

–  khoảng cách additive (cộng thêm) –  khoảng cách ultrametric (siêu metric)

Trang 6

•  Khoảng cách additive

–  Cây được gọi là additive nếu như khoảng cách

giữa một cặp nút là (i,j) bất kỳ là tổng khoảng

cách giữa nút k và các nút lá i, j trên đường đi

Trang 7

Additive Metric

•  Let S be a set of species, and let M be the

distance matrix for S If there exists a tree T

where:

–  Every edge has a positive weight and every leaf

is labelled by a disinct species in S

–  For every i, j ∈ S, Mij = the sum of the edge

weights along the path from i to j

•  Then, M is an additive metric T is called an

additive tree

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 25

Example: Additive Metric and Additive

Tree

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 26

Properties of Additive Metric

•  M is additive if and only if for any four

species, we can label them as i, j, l, k such

–  A root of the tree can be identified such that the distance to all leaves from the root is the same, that is, the length is a fixed value

•  Then M is known as an ultrametric and the tree mentioned is called an ultrametric tree

Trang 8

Propertied of Ultrametric

•  M is ultrametric if and only if for any three

species in S, we can label them i, j, k such

that Mik = Mjk ≥ Mij

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 29

•  Về mặt sinh học, độ dài cạnh dij tương ứng với thời gian trôi qua từ khi phân tách i và j khỏi nút chung

•  Điều đó có nghĩa chiều dài cạnh được đo bởi một “molecular clock” với tỉ lệ không đổi

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 30

Minh họa

•  Cho 5 trình tự A, B, C, D, E

•  Từ đây, suy ra cần 10 khoảng cách giữa 5

trình tự này để tạo ma trận khoảng cách

–  10 = n(n-1)/2, với n = 5

Ví dụ

•  Giả sử 5 trình tự này

có ma trận khoảng cách như bảng

•  Lần lượt tính toán khoảng cách giữa các trình tự gom nhóm và không gom nhóm

Trang 9

•  Trong ma trận này, khoảng

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 33

•  Tính lại ma trận khoảng cách trong đó có khoảng cách giữa nhóm AB với các loài (trình tự) C, D, E còn lại

•  Khoảng cách từ một loài đến nhóm là khoảng cách trung bình từ loài này đến các loài trong nhóm

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 34

•  4 là khoảng cách nhỏ nhất, nên nhóm AB được gom cụm với trình tự D

để có nhóm (AB)D Có chung tổ tiên là II

Trang 10

C 6

E 6,3 9

•  Theo ma trận khoảng cách mới, giá trị nhỏ nhất là 6 nên tạo ra cụm ((AB)D)C với nút trung tâm III

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 38

•  Tương tự, khoảng cách giữa cụm ((AB)D)C

Trang 11

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41

•  Minh họa trên web

Tổng quát về phương pháp gom cụm

•  Có 4 phương pháp gom cụm

•  Những phương pháp này khác nhau ở cách tính khoảng cách

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42

4.  Tính khoảng cách dku với k không thuộc cụm u

5.  Loại cụm u (cụm i,j) từ ma trận khoảnh cách

•  Sự khác nhau giữa các phương pháp

–  Liên kết đơn giản: dku = min(dki,dkj) –  Liên kết phức tạp: dku = max(dki,dkj) –  UPGMA: dku = (nidki + njdkj)/(ni+nj) –  WPGMA: dku = (dki + dkj)/2

Trong đó ni là số phần tử của cụm i

Trang 12

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45

•  Tính các khoảng cách mới theo UPGMA

–  dA(BC) = (1x8 + 1x8)/(1+1) = 8 –  dD(BC) = (1x12 + 1x12)(1+1) = 12 –  dE(BC) = (1x4 + 1x4)/(1+1) = 4

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46

•  Loại bỏ B, C để có

ma trận khoảng cách

mới

•  Theo ma trận khoảng cách: khoảng cách giữa cụm (BC) và E là

bé nhất

•  Nên tạo cụm (BC) với

E để có cụm (BC)E với chiều cao là 4/2 = 2

Trang 13

•  Tiếp tục tính khoảng cách từ cụm (BC)E đến

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50

•  Do khoảng cách giữa A và cụm (BC)E là

bé nhất, nên tạo cụm mới ((BC)E)A có chiều cao bằng 8/2 = 4

•  Khoảng cách giữa D với cụm ((BC)E)A

–  dD((BC)E)A = (3xdD((BC)E) + 1xdDA)/(3+1)

–  = (3x12 + 1x12)/4 = 12

•  Từ đây suy ra chiều cao của cây là 12/2 = 6

•  Lưu ý, do cây này là

ultrametric, nên kết quả của 4 cách tính là như nhau

Trang 14

•  Với cây ultrametric, khoảng

Trang 15

PHƯƠNG PHÁP NEIGHBOR -

JOINING

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57

•  Do Naruya Saitou và Masatoshi Nei đưa ra vào năm 1987

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58

Neighbor - Joining

•  Phương pháp Neighbor – Joining là phương

pháp tương tự như phương pháp gom cụm

•  Tuy nhiên, khái niệm cụm hàng xóm có

khác:

–  Hai trình tự được gọi là hàng xóm (lân cận) trong

một cây nếu như giữa chúng chỉ có duy nhất một

nút

Phương pháp

•  Cho ma trận khoảng cách chứa khoảng cách

dij giữa các trình tự trong tập hợp n trình tự

•  Các trình tự ban đầu được biểu diễn như hình ngôi sao

Trang 16

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62

viu = dij

2 +

ri− rj2n − 4 , và vju = dij − viu

Trang 17

C như hình bên

•  Vì vậy, khoảng cách nhỏ nhất không cần thiết

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66

Trang 18

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70

•  dB(AC) = (dAB + dCB – dAC)/2

•  = (3 + 5 – 4)/2 = 2

•  dD(AC) = (dAD + dCD – dAC)/2

•  = (5 + 7 - 4)/2 = 4

Trang 19

Bước 5

•  Loại bỏ trình tự A và C,

ma trận khoảng cách

còn lại như bên cạnh

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73

•  Tiếp tục quay lại Bước 1 với n = 3

–  rAC = d(AC)B + d(AC)D = 2 + 4 = 6 –  rB = dB(AC) + dBD = 2 + 4 = 6 –  rD = dD(AC) + dDB = 4 + 4 = 8

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74

–  dB((AC)B) = d(AC)B – dAC((AC)B) = 2 – 1 = 1

Trang 20

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77

–  d((AC)B)D = (d(AC)D + dBD – d(AC)B)/2 –  = (4 + 4 – 2)/2 = 3

•  Khi đó có cây như hình

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 78

Bài tập

•  Vẽ cây không gốc theo

Neighbor – Joining với ma

trận khoảng cách là:

KHOẢNG CÁCH TIẾN HÓA

Trang 21

•  Khoảng cách của 2 trình tự là tỷ số giữa các

A.  AGGCCATGAATTAAGAATAA

Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82

•  Khoảng cách tiến hóa giữa

Ngày đăng: 01/07/2023, 06:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm