Trong lĩnh vực Công Nghệ Thông Tin nói riêng, yêu cầu quan trọng nhất của người học đó chính là thực hành. Có thực hành thì người học mới có thể tự mình lĩnh hội và hiểu biết sâu sắc với lý thuyết. Với ngành mạng máy tính, nhu cầu thực hành được đặt lên hàng đầu. Tuy nhiên, trong điều kiện còn thiếu thốn về trang bị như hiện nay, người học đặc biệt là sinh viên ít có điều kiện thực hành. Đặc biệt là với các thiết bị đắt tiền như Router, Switch chuyên dụng
Trang 1TIN SINH HỌC ĐẠI CƯƠNG
(Introduction to Bioinformatics)
PGS.TS Trần Văn Lăng Email: langtv@vast.vn
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
BẮT CẶP TRÌNH TỰ (SEQUENCE ALIGNMENT)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
MỘT SỐ KHÁI NIỆM CHUNG
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 2Nhắc lại
• Sinh vật được tạo thành từ tế bào
• Bên trong mỗi tế bào - ngoại trừ hồng huyết cầu
trưởng thành - có nhân (nucleus) chứa tất cả các
chỉ thị di truyền (genetic instruction)
• Những chỉ thị này là chức năng của tế bào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Các tế bào, với các ngăn khác nhau của nó gọi
là bào quan, phải đối mặt với một vấn đề là:
– Tế bào sản xuất các phân tử như kích thích tố, dẫn truyền thần kinh, các cytokine và enzyme
– Chúng phải được gửi đến nơi khác bên trong tế bào, hoặc xuất ra khỏi tế bào
– Việc sản xuất và vận chuyển này phải được thực hiện đúng nơi và đúng lúc
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Chẳng hạn, mỗi tế bào người có 46 nhiễm sắc
thể, được tổ chức thành 23 cặp
• Mỗi nhiễm sắc thể được cấu thành bởi một trình
tự DNA
• DNA chứa các gen mã hóa RNA mà nó sẽ sinh
ra các protein, để từ đó điều chỉnh tất cả các quá
trình phát triển của một sinh vật
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Một gene là một đoạn của DNA với trình tự base đặc trưng – cụ thể, gọi là mã di truyền (genetic code), hay chỉ thị di truyền để xác định chức năng của tế bào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 3• Việc bắt cặp được thực hiện bằng cách thêm các
“gap” vào các vị trí có thể sao cho các cột giống
nhau hoặc tương tự nhau
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Việc thêm các gap biểu thị sự đột biến mất nucliotide đã xãy ra tại vị trì này trên trình tự
• Trong tin học , việc thêm ký tự gap là khoảng trống (“-”) giúp cho việc tạo ra 2 chuỗi ký tự gần giống nhau nhất
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Tiến hóa và đột biến
• Trong sự tiến hóa , các gốc giống nhau đó chính
là một phần của trình tự sinh học tổ tiên
• Còn các gốc bắt cặp không giống nhau chính là
sự đột biến của một trong hai trình tự
– Tuy nhiên, không thể xác định trình tự nào bị đột biến
so với trình tự nào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Dưới góc độ sinh học , đột biến xãy ra trên cả một trình tự DNA của bộ gene
• Vì vậy có thể xãy ra tại:
– các gene mã hóa protein
– các gene mã hóa phân tử RNA chức năng
– trình tự điều hòa tham gia bật tắc gene khác
– vùng trình tự nối các gene
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 4• Từ đó, đột biến có thể ảnh hưởng hay không ảnh
hưởng đến kiểu hình của sinh vật
• Khi phân loại, có 2 loại đột biến
– đột biến điểm : chỉ xãy ra ở một nucleotide, sẽ rất
quan trọng nếu tại vùng mã hóa protein, hay vùng tín
hiệu
– đột biến đoạn : do mất hay thêm một đoạn trình tự Kết
quả của việc đột biến đoạn là sự nhân đôi gene hay
nhân đôi một vùng nhiễm sắc thể
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Qua thời gian, những đột biến có lợi hoặc không
có hại sẽ được giữ lại trong quần thể, kích thích
sự hình thành và phát triển loài mới
• Đó chính là sự tiến hóa (evaluation), trong đó đột biến là nguyên liệu quan trọng
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Kết quả – ACGCTG- – | | | – -C-ATGT
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Tương tự, với 2 trình tự dài hơn – tcctctgcctctgccatcat -caaccc – |||| ||| ||||| ||||| ||||||
– tcctgtgcatctgcaatcatgggcaaccc
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 5Ký tự “gap”
• Ký tự “gap” là chỗ trống, khe hở, chỗ gián đoạn,
chỗ thiếu sót
• Trong sinh học gap có ý nghĩa: sự đột biến, hoặc
mất đi do quá trình tiến hóa
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
deletion
• Mục đích
– Bắt cặp trình tự nhằm nghiên cứu sự tiến hóa
– Hoặc để tìm kiếm, so sánh mức độ tương đồng giữa
các trình tự
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Về bắt cặp trình tự protein
• Sự bắt cặp trình tự không chỉ dừng lại ở trình tự DNA mà cả trình tự protein
• Trong đó, việc chỉ có 4 ký tự được thay bởi 20 ký
Trang 6• Vì vậy, trong qua trình tiến hóa có khuynh hướng
chỉ thay thế các amino acid có cấu trúc tương tự,
ít làm thay đổi đến cấu trúc và chức năng protein
• Những trình tự protein trong cùng một họ tiến
hóa chung thường có sự thay thế giữa các amino
acid có cùng đặc tính hóa lý
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Đánh giá sự bắt cặp
• Thế nào là sự bắt cặp tốt, tiêu chuẩn nào
• Có thể cho điểm tốt đối với giá trị Match, điểm xấu với các trường hợp ngược lại
• Tuy nhiên, với trình tự protein việc thay thế một amino acid khác vẫn bảo toàn cấu trúc và chức năng cũng không thể là điểm xấu
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Đánh giá
• Chính vì vậy, với việc bắt cặp trình tự protein có
các ma trận điểm thay thế để xem xét khả năng
thay thế amino acid mà không ảnh hưởng này
• Có 2 loại ma trận điểm thay thế:
– Ma trận PAM (Percentage Accepted Mutation)
– Ma trận BLOSUM (BLOck SUbstitution Matrix)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Sự tương tự giữa PAM và BLOSUM:
– PAM100 ~ BLOSUM90 – PAM160 ~ BLOSUM62 – PAM250 ~ BLOSUM45
• PAM được tạo ra từ khoảng cách tiến hóa trong các trình tự liên quan
– Chẳng hạn, PAM100 có khoảng cách tiến hóa 100 lần đột biến trên 100 gốc amino acid
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 7• BLOSUM được tính toán thông qua tần suất thay
thế của các cặp amino acid trong việc bắt cặp
• Chẳng hạn, nếu – Match (Giống nhau ở cùng vi trí): giá trị là +2 – Mismatch (Không giống nhau): giá trị là -1 – Gap (Thêm vào hoặc bị loại bỏ): giá trị là -2
• Hàm đánh giá có giá trị càng cao thì sự giống nhau càng nhiều
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Định nghĩa: Mức độ tương đồng (điểm đánh giá)
của 2 trình tự bắt cặp S 1 ’ và S 2 ’ là đại lượng:
n a x match + n i x mismatch + n g x gap
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Trong đó, – n a , n i , n g : tương ứng là số phần tử giống nhau (match), không giống nhau (mitmatch) và số gap
– match, mismatch, gap: tương ứng là giá trị tính toán
để đánh giá
– Thông thường, điểm dương cho match, điểm âm cho
sự đột biến (mismatch và gap)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 9Phân loại
• Có 2 loại:
– Bắt cặp toàn cục (Global alignment): được áp dụng
trên toàn bộ trình tự để tìm sự tương đồng giữa các
trình tự
– Thường được sử dụng khi 2 trình tự có độ tương đồng
cao, chiều dài xấp xỉ nhau
Thuật toán sử dụng: Needleman - Wunsch
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
– Bắt cặp cục bộ (Local alignment): chỉ thực hiện trên một vùng trình tự con tương đồng nằm ở các vị trí khác nhau trên hai trình tự
– Mục đích tìm ra vùng trình tự tương đồng nhất
– Sử dụng khi so sánh 2 trình tự có chiều dài khác nhau, mức độ tương đồng trên toàn bộ là thấp
Thuật toán: Smith - Waterman
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Bắt cặp hai trình tự
• Bài toán (Pairwise Sequence Alignment - PSA):
cho 2 trình tự sinh học S 1 , S 2 Hãy tìm 2 trình tự
S 1 ’, S 2 ’ bằng cách thêm các ký tự ‘-’ sao cho:
– Điểm đánh giá Score(S1’, S2’) là lớn nhất với giá trị
match, mismatch và gap cho trước
– Chiều dài S 1 ’, S 2 ’ là bằnh nhau (|S 1 ’| = |S 2 ’|)
– Nếu loại bỏ ký tự gap từ S 1 ’, S 2 ’ sẽ nhận được S 1 , S 2
Trang 10Bắt cặp đa trình tự
• Bài toán (Multiple Sequence Alignment - MSA):
Cho k trình tự sinh học S 1 , S 2 , …, S k Hãy tìm k
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Trong quá trình tiến hóa, một đoạn gen có thể:
– đột biến
– mất đi
– di truyền lại (giữ lại)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 11• Như vậy, với 2 trình tự:
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Khi đó, ký tự “gap” vừa:
– deletion gap: mất đi – insertion gap: thêm vào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PHẦN MỀM CLUSTALX
Sử dụng
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Có thể tìm tại http://www.clustal.org/clustal2/
Trang 12• Có hai dạng Clustal trên 3 hệ điều hành khác
nhau: Linux, Mac OS X, Windows:
– ClustalW: thực thi ở chế độ dòng lệnh
– ClustalX: dùng ở chế độ khung của sổ (window)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Ví dụ
• Để bắt cặp 2 trình tự, – tạo file dạng FASTA – chọn File/Load Sequences
là file mới tạo – chọn Alignment/Do Complete Sequences
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
>Seq1 ACTCCGATT
>Seq2 AGCTAATC
Hoặc có thể viết một application
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
NEEDLEMAN - WUNSCH
Thuật toán
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 13• Do Saul Needleman và Christian Wunsch đưa ra
vào năm 1970
• Áp dụng trên toàn bộ trình tự để tìm sự tương
đồng giữa toàn bộ 2 trình tự (bắt cặp toàn cục –
Gobal Alignment)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Cho 2 trình tự lần lượt có chiều dài là n và m
• Thuật toán gồm các bước sau:
– Bước 1: Khởi tạo giá trị ban đầu cho ma trận tính toán
Trang 14Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53
Trang 15Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57
Trang 16Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61
Trang 17Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65
Trang 18Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69
Trang 19Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73
Trang 20Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77
Trang 21Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 81
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 82
− Mi−1, j−1= Mij− σij, theo duong chéo, (i,j) → (i-1,j-1)
− Mi−1, j= Mij− d , dich chuyen lên trên, (i,j) → (i-1,j)
− Mi, j−1= Mij− d , dich chuyen lui, (i,j) → (i,j-1)
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 83
Trang 22Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 86
• Gồm các amino acid: Alanin (A), Cystein (C), Glycine (G), Aspartic acid (D)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 23• Có thể biểu diễn
– U = “ACGCDG”
– V = “CADGD”
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Tạo ma trận đánh giá theo quy tắc:
– M 00 = 0 – M i0 = M i-1,0 + d – M 0j = M 0,j-1 + d – M ij = Max {M i-1,j-1 + σ ij , M i,j-1 + d, M i-1,j + d}
– d = -1
• Trong đó – σ ij = +2 nếu U i và V j giống nhau – σ ij = -1 nếu U i và V j khác nhau
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 24• Trong trường hợp này, có nhiều vết được tạo ra
(màu red, blue, green)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Sử dụng kỹ thuật lưu vết theo quy tắc:
– (i,j) →(i-1,j-1): U i và V j được ghi vào
– (i,j) →(i-1,j): “-” và V j được ghi và
– (i,j) →(i,j-1): U i và “-” được ghi vào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Vết Red: 3(2) + 1(-1) + 3(-1) = 2 CADG-D-
-ACGCDG
• Vết Blue: 3(2) + 1(-1) + 3(-1) = 2 -CA-DGD
ACGCDG-• Vết Green: 3(2) + 1(-1) + 3(-1) = 2 -C-ADGC
ACGCDG-PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 25• Rút ra nhận xét
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 26TG Needleman – Wunsch nguyên thủy
for i=0 to length(U)
Score ← M(i,j) ScoreDiag ← M(i - 1, j - 1) ScoreUp ← M(i, j - 1) ScoreLeft ← M(i - 1, j)
if (Score == ScoreDiag + σ(i,j)){
AlignmentU ← Ui + AlignmentU AlignmentV ← Vj + AlignmentV
i ← i - 1
j ← j - 1 }
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
else if (Score == ScoreLeft + d){
i ← i - 1 }
while (j > 0){
AlignmentU ← "-" + AlignmentU AlignmentV ← Vj + AlignmentV
j ← j - 1 }
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Coi thêm NeedWun.java
Trang 27SMITH - WATERMAN
Thuật toán
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Do Temple F Smith và Michael S Waterman đưa ra vào 1981
• Khác biệt so với thuật toán Needleman – Wunsch là chỉ sử dụng để bắt cặp 2 trình tự trong một đoạn của trình tự (bắt cặp cục bộ - Local Alignment)
• Các bước tính toán hoàn toàn tương tự, chỉ khác
một số bước như sau:
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 28Ví dụ
• Với U = “ACA”, V = “AGCA”, với d = -1 ta có các
phần tử của ma trận H như sau:
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 29PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Xuất phát từ H nmax,mmax , nếu:
– H ij = H i-1,j-1 + σ ij thì vết (i,j) → (i-1,j-1) theo đường chéo – H ij = H i,j-1 + d thì vết (i,j) → (i,j-1) đi lui
– H ij = H i-1,j + d thì vết (i,j) → (i-1,j) đi lên
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Ui và Vj được ghi vào – (i,j) →(i-1,j): đi lên
“-” và Vj được ghi vào – (i,j) →(i,j-1): đi lui
Ui và “-” được ghi vào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 30PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Với kỹ thuật lưu vết như trên
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 31• Cũng bằng cách ghi kết quả theo vết, 2 trình tự
• Với 2 trình tự như hình, có thể tính được
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Kết quả trên ứng với match = 2, mismatch = -3
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 32CLUSTAL
Thuật toán
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Thuật toán ClustalW
• Dùng cho việc bắt cặp nhiều trình tự (giải bài toán MSA)
• Lấy ý tưởng từ thuật toán lũy tiến (Progessive Algorithm)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Thuật toán lũy tiến như sau:
– Bước 1: giải bài toán PSA trên 2 trình tự bất kỳ được
chọn
– Bước 2: chọn một trình tự khác rồi sắp hàng với nhóm
đã thực hiện
– Bước 3: lặp lại Bước 2 cho trình tự khác
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Thuật toán Clustal W
• Bước 1:
– Dùng PSA cho tất cả các trình tự – Xác định mức độ tương đồng mỗi cặp – Xây dựng ma trận khoảng cách tương đồng giữa các trình tự
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM