1.2 PHÂN TÍCH TRÌNH TỰ DNA DNA sequence analysis• Có 4 loại nucleotide A, C, G, và T- tương ứng với tên của 4 gốc base nitơ: adenine, cytosine, guanine và thymine gắn với sườn deoxyrib
Trang 2Hình 4.32 Cây phả hệ trong sổ tay ghi chép của Darwin
Trang 3Hai yếu tố nốt (nodes) và nhánh (branch)
B C D
Z
Y X
E R
Hình 4.34 Một rooted tree
Trang 4Hai yếu tố nốt (nodes) và nhánh (branch)
C A
B
D
Hình 4.35 Cây không cùng gốc (unrooted tree)
Trang 5Hình 4.33 Cây phả hệ các giống cam, quýt, tắc ở Việt Nam
Hình 4.34 là cây
cùng gốc (rooted
tree) các đầu
nhánh của nó
tượng trưng cho 5
taxa (A, B, C, D,
E), bao gốm gốc R
với 4 nốt bên trong
(R, X, Y, Z) Một
cây được gọi là
cùng gốc nếu nó
có một nốt đặc biệt
- gốc – từ đó một
đường dẫn hướng
duy nhất đến mỗi
taxon Trong hình
3, R là gốc vì nó là
nốt bên trong duy
nhất từ đó có thể
đến tấc cả những
nốt khác
Trang 61.2 PHÂN TÍCH TRÌNH TỰ DNA (DNA sequence analysis)
• Có 4 loại nucleotide A, C, G, và T- tương ứng với tên của 4 gốc base nitơ: adenine, cytosine,
guanine và thymine gắn với sườn
deoxyribosyl-phosphate qua liên kết cộng hóa trị
• Ví dụ: AAAGTCTGAC, đi từ đầu 5' đến 3' tính từ trái sang phải
• ký hiệu gạch ngang gap (-) chỉ khoảng trống (so
6
Trang 7• quy ước IUPAC (International Union of
Pure and Applied Chemistry):
• A: Adenine; C: Cytosine; G: Guanine; T (or U) Thymine (or Uracil);
• I: inosine; U: uridine; X: xanthosine; Ψ:
pseudouridine;
• R: A or G; Y: C or T (U); S: G or C;
• W: A or T (U); K: G or T (U);
• M: A or C; B: C or G or T (U); D: A or G or
T (U); H: A or C or T (U);
• V: A or C or G; N: any base; -: gap
7
Trang 8• - Chỉ số bootstrap: là tần số xuất hiện
của một nhóm (cluster) trên số lần giản đồ được thiết lập Đơn vị tính là % (phần
trăm) Theo Felsenstein (1985) bootstrap
là một công cụ hỗ trợ cho việc xây dựng
cây phát sinh loài Chỉ số bootstrap nói
lên độ tin cậy của sự gần gũi các thành
viên của nhóm của cây phả hệ
Trang 9- Chỉ số CI (Consistency Index): là tỉ số đo tương thích giữa một
cây bất kỳ nào đó trong tổng số các cây được phân tích có tổng
số nhánh ít nhất Giá trị CI biến động trong khoảng 1.0 (tương thích tối đa) tiệm cận đến 0 (ít tương thích nhất) Giá trị CI càng
lớn thì kết quả có mức độ tin cậy càng cao
• Chỉ số CI được tính bằng công thức: CI = M/S
• Trong đó:
• M: số lượng nhỏ nhất có thể có của sự thay đổi tính trạng (bậc)
trong một cây phát sinh loài bất kỳ
• S: số lượng sự thay đổi tính trạng thật sự (bậc) trong cây phát
sinh đang nói đến (cây phát sinh đã có ý nghĩa giải thích tất cả
sự phân bố tính trạng của giống cần phân loại)
Giá trị này biến động trong khoảng 1.0 (tương thích nhất hay) tiệm cận đến 0 (ít tương thích nhất) Giá trị này có ý nghĩa cao khi >0,90 ; Giá trị này không có ý nghĩa khi <0,20
• - RI (Retention Index): chỉ số thể hiện số lượng tính trạng
tương đồng của 2 hay nhiều giống cùng tổ tiên trên cây phân loại
Trang 10- Max score: Giá trị này được tính dựa vào sự giống nhau giữa các
cặp nucleotide của hai trình tự so sánh so với các trình tự khác
trong cơ sở sữ liệu Thuật toán so sánh cặp được sử dụng trong
việc tính toán này và kết quả được xuất ra thể hiện bằng giá trị “bit”
(đơn vị thông tin) Về cơ bản, giá trị này càng lớn thì sự giống nhau
giữa hai trình tự càng nhiều (Tao, 2007).
- Total score: là tổng điểm số của tất cả các HSP (high scoring
pairs) trong trình tự của cơ sở dữ liệu Giá trị này tương ứng với
max score trong đa số trường hợp.
10
Trang 11- Query Coverage: thể hiện sự bao phủ về chiều dài của những cặp nucleotit được cho điểm cao trong dữ liệu trình tự so với trình
tự tìm kiếm
-Maximal Identity: là tỉ lệ phần trăm cao nhất được xác định khi so sánh các cặp được cho điểm cao trong cùng một cơ sở dữ liệu trình tự
-E value: giá trị E được định nghĩa là xác suất khả năng xuất hiện của một trình tự khác có độ tương đồng cao hơn trình tự mà
chương trình Blast đang so sánh Hay nói cách khác, giá trị E thể hiện độ tin cậy của các giá trị score Giới hạn của một giá trị tìm kiếm đáng tin cậy là E score > 0.01-1 (không có ý nghĩa), nghĩa là giá trị E càng tiến về 0 thì độ tin cậy càng cao, xác suất để có một trình tự khác có score cao hơn càng thấp
3e-15 (có nghĩa là 3x10 mũ -15) 11
Trang 12• Đỗ Anh Dũng và cộng sự (2004) đã
nghiên cứu sự đa hình của DNA ty thể của loài thỏ xám phân bố ở vùng Văn
Quán, Lạng Sơn để khẳng định chúng là loài thỏ quí hiếm ở nước ta
Trang 13• Đặng Thúy Bình, Nguyễn Thị Anh Thư và
Lê Thị Mai Anh (ĐH Nha Trang) 2012
Mối quan hệ phát sinh loài của trai tai
tượng (Tridacna SPP.) ở vùng biển Việt
Nam và Trung bộ Việt Nam
- gien 16S và CO1 của ADN ty thể
Trang 14• Đặng Tất Thế và cộng sự (2000 - 2007)
đã phân tích tiến hóa phân tử, phát sinh chủng loại và đa dạng di truyền của DNA
ty thể của một số loài thú, bò sát quí hiếm
ở Việt Nam
Trang 15Giun đất ở Việt Nam
E
1mm
1mm
1mm
10 mm
gm mp
amp
A
B
C
D
E
F
G
6/7
F
Trang 16Hình 2 Giản đồ phả hệ (phylogenetic tree) của 37 loài hoa lan
Trang 17Giun đất ở Việt Nam
100
100
66
82
83
72
36 40
92
2A
2B
2C
II
I
1
Figure 1 A dendrogram generated using UPGMA method with arithmetic
average analysis of 10 taxa based on the analysis of morphological traits
The numbers at the nodes indicate the confidence limits for the grouping of those species in a branch based on 1,000 cycles in bootstraps analysis using the FreeTree program I Glossoscolecidae; II Megascolecidae.
Trang 18Hình 1 Cây chủng loại phân tích bằng Neighbor Joining trong Mega3.1 dựa vào trình tự đoạn ADN 488bp trên gien COII của 15 mẫu ruồi và 6 trình tự đã được công bố trên thế giới Số trên các nhánh cây là giá trị Bootstrap được phân tích với 1000 lần nhắc lại (Lê Quốc Điền, Bùi Ngọc Kim Ngân, và Trần Nhân
Dũng, 2012)