Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM Nhắc lại ại 5 • Các tế bào, với các ngăn khác nhau của nó gọi là bào quan, phải đối mặt với một vấn đề là: –Tế bào sản xuất c
Trang 1TIN SINH HỌC ĐẠI CƯƠNG
(Introduction to Bioinformatics)
PGS.TS Trần Văn Lăng Email: langtv@vast.vn
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM1
BẮT CẶP TRÌNH TỰ (SEQUENCE ALIGNMENT)
Trang 2• Sinh vật được tạo thành từ tế bào.
• Bên trong mỗi tế bào - ngoại trừ hồng huyết cầu
trưởng thành - có nhân (nucleus) chứa tất cả
các chỉ thị di truyền (genetic instruction)
• Những chỉ thị này là chức năng của tế bào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Nhắc lại ại
5
• Các tế bào, với các ngăn khác nhau của nó gọi
là bào quan, phải đối mặt với một vấn đề là:
–Tế bào sản xuất các phân tử như kích thích tố, dẫn truyền thần kinh, các cytokine và enzyme
–Chúng phải được gửi đến nơi khác bên trong tế bào, hoặc xuất ra khỏi tế bào.
–Việc sản xuất và vận chuyển này phải được thực hiện đúng nơi và đúng lúc.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• DNA phiên mã thành RNA, rồi được dịch mã
thành Protein Từ đó điều chỉnh tất cả các quá
trình phát triển của một sinh vật
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Một gene là một đoạn của DNA với trình tự base đặc trưng – cụ thể, gọi là mã di truyền (genetic code), hay chỉ thị di truyền để xác định chức năng của tế bào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 3Chẳng hạn, về ung thư
• Cơ thể chúng ta liên tục sản xuất ra các tế bào
để giúp chúng ta phát triển, để thay thế những tế
bào đã chết, hoặc hàn gắn lại những tế bào bị
tổn thương sau một chấn thương.
• Có các gene kiểm soát quá trình này; khi những
gene này bị gây tổn hại dẫn đến bệnh tật, đặc
biệt là ung thư.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
10
• Những khối u có thể lành tính (không phải ung
thư) hoặc ác tính (ung thư)
• Những khối u lành tính không xâm lấn vào các
cơ quan và các mô xung quanh của cơ thể
Trong khi đó khối u ác tính sẽ phát triển, có thể
xâm lấn vào những mô xung quanh, trở thành
ung thư.
Như vậy,
• Ung thư xuất phát từ một tế bào đơn lẻ, sau đó chuyển dạng tế bào bình thường thành tế bào ung thư Việc này có thể do:
–Tác nhân vật lý: tia cực tím, bức xạ ion –Tác nhân hóa học: như
Asbestos: các thành phần của khói thuốc lá, Aflatoxin: một chất nhiễm bẩn thức ăn Arsenic: một chất nhiễm bẩn nước uống
–Tác nhân sinh học: nhiễm trùng từ virus, vi khuẩn, ký sinh trùng.
Trang 4• Trong quá trình sinh trưởng và phát triển, các tế
bào được thay thế bằng những tế bào mới nhờ
quá trình phân bào.
Ngoại trừ tế bào não và tế bào thần kinh là không được
sinh sản thêm ra mà chỉ mất đi.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
13
• Quá trình phân bào phải sao chép và truyền đạt lại toàn bộ và chính xác các thông tin di truyền cho các tế bào con
• Nên DNA của tế bào mẹ phải được nhân đôi một cách chính xác sao cho mỗi tế bào con đều nhận được DNA giống tế bào mẹ
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
14
• Các tác nhân từ ngoài tác động gây ra những tế
bào có DNA "bất thường" Nhưng cơ thể con
người là một bộ phận để phản ứng với tình trạng
này bằng cách:
–Các tế bào có cơ chế để sửa chữa những DNA bị hư
trước khi chúng gây ra một vấn đề nào đó Hoặc,
–Hệ thống miễn dịch nhận ra được những tế bào bất
thường và tiêu diệt đi.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Cơ chế làm cho hầu hết các tế bào có DNA bất thường (gọi là các tế bào "tiền ung thư") đều chết trước khi có thể gây ra ung thư
• Chỉ có một số ít không bị diệt (lọt lưới) để rồi gây
ra ung thư
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 5• Các tế bào ung thư được lưu hành trong hệ
bạch huyết và máu và tìm đến bộ phận nào yếu
nhất trong cơ thể để lưu lại đó.
• Khi đó tế bào ung thư tiếp tục quá trình phân
bào để tạo thành khối u ung thư.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
18
• Việc thêm các gap biểu thị sự đột biến mất
nucliotide đã xãy ra tại vị trì này trên trình tự.
trống (“-”) giúp cho việc tạo ra 2 chuỗi ký tự gần
giống nhau nhất.
Ví dụ
• Ví dụ bắt cặp 2 trình tự
– GAATTCAGTTA – GGATCGA
• Kết quả
– GAATTCAGTTA – | || | | | – GGAT-C-G—-A
• Hoặc 2 trình tự
– ACGCTG – CATGT
• Kết quả
– – | | |
Trang 6ACGCTG-• Tương tự, với 2 trình tự dài hơn
Trang 7• Vì vậy, trong qua trình biến đổi có khuynh
hướng chỉ thay thế các amino acid có cấu trúc
tương tự, ít làm thay đổi đến cấu trúc và chức
• Thế nào là sự bắt cặp tốt, tiêu chuẩn nào.
• Có thể cho điểm tốt đối với giá trị match, điểm xấu với các trường hợp ngược lại.
• Tuy nhiên, với trình tự protein việc thay thế một amino acid khác vẫn bảo toàn cấu trúc và chức năng cũng không thể là điểm xấu
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
26
• Chính vì vậy, với việc bắt cặp trình tự protein có
các ma trận điểm thay thế để xem xét khả năng
thay thế amino acid mà không ảnh hưởng này.
• Có 2 loại ma trận điểm thay thế:
–Ma trận PAM (Percentage Accepted Mutation)
–Ma trận BLOSUM (BLOck SUbstitution Matrix)
• Sự tương tự giữa PAM và BLOSUM:
–PAM100 ~ BLOSUM90 –PAM160 ~ BLOSUM62 –PAM250 ~ BLOSUM45
• PAM được tạo ra từ khoảng cách trong các trình
tự liên quan
–Chẳng hạn, PAM100 có khoảng cách 100 lần đột biến trên 100 gốc amino acid
Trang 8• BLOSUM được tính toán thông qua tần suất
thay thế của các cặp amino acid trong việc bắt
Bảng giá trị của BLOSUM62
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
–Match (Giống nhau ở cùng vi trí): giá trị là +2
–Mismatch (Không giống nhau): giá trị là -1
–Gap (Thêm vào hoặc bị loại bỏ): giá trị là -2
• Hàm đánh giá có giá trị càng cao thì sự giống
nhau càng nhiều.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Định nghĩa: Mức độ tương đồng (điểm đánh
lượng:
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 9• Trong đó,
–na, ni, ng: tương ứng là số phần tử giống nhau
(match), không giống nhau (mitmatch) và số gap.
–match, mismatch, gap: tương ứng là giá trị tính toán
để đánh giá.
–Thông thường, điểm dương cho match, điểm âm cho
sự đột biến (mismatch và gap)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
33
Ví dụ
• Với –match = 2 –mismatch = -1 –gap = -2
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 10–Bắt cặp toàn cục (Global alignment): được áp dụng
trên toàn bộ trình tự để tìm sự tương đồng giữa các trình tự.
–Thường được sử dụng khi 2 trình tự có độ tương đồng cao, chiều dài xấp xỉ nhau
Thuật toán sử dụng: Needleman - Wunsch
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
–Sử dụng khi so sánh 2 trình tự có chiều dài khác
nhau, mức độ tương đồng trên toàn bộ là thấp.
Thuật toán: Smith - Waterman
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Bắt cặp hai trình tự
• Bài toán (Pairwise Sequence Alignment
-PSA): cho 2 trình tự sinh học S 1 , S 2 Hãy tìm 2
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 11• Bài toán (Multiple Sequence Alignment
-MSA): Cho k trình tự sinh học S 1 , S 2 , …, S k Hãy tìm k trình tự S 1 ’, S 2 ’,…, S k ’ bằng cách thêm các
–Thêm TA vào vị trí 4: “ A GCTA AT C”
• Như vậy, từ “ACTCGATT” sẽ biến thành “AC GATT”,
“AG CATC”, “AG CTAATC”
Trang 12• Như vậy, với 2 trình tự:
• Khi đó, ký tự “gap” vừa:
–deletion gap: mất đi –insertion gap: thêm vào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 13• Có hai dạng Clustal trên 3 hệ điều hành khác
nhau: Linux, Mac OS X, Windows:
–ClustalW: thực thi ở chế độ dòng lệnh
–ClustalX: dùng ở chế độ khung của sổ (window)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
49
Ví dụ
• Để bắt cặp 2 trình tự, –tạo file dạng FASTA –chọn File/Load Sequences
là file mới tạo –chọn Alignment/Do Complete Sequences
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
>Seq1 ACTCCGATT
>Seq2 AGCTAATC
50
Hoặc có thể viết một application
NEEDLEMAN - WUNSCH
Thuật toán
Trang 14• Do Saul Needleman và Christian Wunsch đưa ra
vào năm 1970
• Áp dụng trên toàn bộ trình tự để tìm sự tương
đồng giữa toàn bộ 2 trình tự (bắt cặp toàn cục –
Gobal Alignment)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
53
• Cho 2 trình tự lần lượt có chiều dài là n và m
• Thuật toán gồm các bước sau:
–Bước 1: Khởi tạo giá trị ban đầu cho ma trận tính
toán M như sau:
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 15Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57
Trang 16Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61
Trang 17Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65
Trang 18Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69
Trang 19Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73
Trang 20Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77
Trang 21Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 81
Trang 22Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 85
• Bước 2: Tìm vết dựa trên kết quả tính các giá trị
của ma trận trước đó Xuất phát từ M nm nếu:
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 86
− Mi−1, j−1= Mij− σij, theo duong chéo, (i,j) → (i-1,j-1)
− Mi−1, j= Mij− d , dich chuyen lên trên, (i,j) → (i-1,j)
− Mi , j−1= Mij− d , dich chuyen lui, (i,j) → (i,j-1)
Trang 23• Bước 3: Bắt cặp trình tự
–Xuất phát từ phần tử M nm
–Nếu phần tử kế nằm trên đường chéo: hai ký tự
được bắt cặp với nhau
–Nếu phần tử kế nằm bên trái: thêm gap cho trình tự
Assoc Prof Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 90
• Gồm các amino acid: Alanin (A), Cystein (C), Glycine (G), Aspartic acid (D)
Trang 25• Trong trường hợp này, có nhiều vết được tạo ra
(màu red, blue, green)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Sử dụng kỹ thuật lưu vết theo quy tắc:
–(i,j) →(i-1,j-1): U i và V j được ghi vào
–(i,j) →(i-1,j): “-” và V j được ghi và
–(i,j) →(i,j-1): U i và “-” được ghi vào
• Vết Red: 3(2) + 1(-1) + 3(-1) = 2
-ACGCDG
CADG-D-• Vết Blue: 3(2) + 1(-1) + 3(-1) = 2
-CA-DGD ACGCDG-
• Vết Green: 3(2) + 1(-1) + 3(-1) = 2
-C-ADGC
Trang 26• Rút ra nhận xét
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 27TG Needleman – Wunsch nguyên thủy
for i=0 to length(U)
M(i,j) ← max(First, Second, Third)
if (Value == ValueDiag + σ(i,j)){
AlignmentU ← Ui + AlignmentU AlignmentV ← Vj + AlignmentV
i ← i - 1
j ← j - 1 }
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
i ← i - 1 }
while (j > 0){
AlignmentU ← "-" + AlignmentU AlignmentV ← Vj + AlignmentV
j ← j - 1 }
Trang 28• Khác biệt so với thuật toán Needleman – Wunsch là chỉ sử dụng để bắt cặp 2 trình tự trong một đoạn của trình tự (bắt cặp cục bộ - Local Alignment)
110
• Các bước tính toán hoàn toàn tương tự, chỉ khác
một số bước như sau:
giá trị tốt nhất (điểm cao nhất của ma trận), cho đến khi H có giá trị 0.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 29Ví dụ
• Với U = “ACA”, V = “AGCA”, với d = -1 ta có các
phần tử của ma trận H như sau:
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 30PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
• Xuất phát từ H nmax,mmax , nếu:
–H ij = H i-1,j-1 + σ ij thì vết (i,j) → (i-1,j-1) theo đường chéo
–H ij = H i,j-1 + d thì vết (i,j) → (i,j-1) đi lui –H ij = H i-1,j + d thì vết (i,j) → (i-1,j) đi lên
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
–(i,j) →(i-1,j-1): theo đường chéo
Uivà Vjđược ghi vào
–(i,j) →(i-1,j): đi lên
“-” và Vjđược ghi vào
–(i,j) →(i,j-1): đi lui
Uivà “-” được ghi vào
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 31PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 32• Cũng bằng cách ghi kết quả theo vết, 2 trình tự
• Với 2 trình tự như hình, có thể tính được
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 33Bắt cặp 2 trình tự protein
• Giá trị 𝜎 𝑖𝑗 trong các thuật toán Smith
-Waterman, hay Needleman –Wunsch khi bắt
cặp trình tự DNA chỉ căn cứ vào sự giống nhau
(match) hay khác nhau (mismatch) của 2
BLOSUM62.txt)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
* Henikoff S, J.G Henikoff (1992) - Amino Acid Substitution Matrices from
Protein Blocks", Proc Natl Acad Sci USA, 89 (22): 10915–10919
(http://www.pnas.org/content/pnas/89/22/10915.full.pdf)
130
• Nhìn lại, với bắt cặp trình từ nucleotide, ma trận tương tự BLOSUM có thể viết cho 4 nucleotide như sau với d = -2, match = 2, mismatch = -1
Trang 34Thuật toán
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
133
Thuật toán Clustal
• Dùng cho việc bắt cặp nhiều trình tự (giải bài toán MSA)
• Lấy ý tưởng từ thuật toán lũy tiến (Progessive Algorithm)
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
134
• Thuật toán lũy tiến như sau:
–Bước 1: giải bài toán PSA trên 2 trình tự bất kỳ được
chọn.
–Bước 2: chọn một trình tự khác rồi sắp hàng với
nhóm đã thực hiện.
–Bước 3: lặp lại Bước 2 cho trình tự khác
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Thuật toán Clustal W
• Bước 1:
–Dùng PSA cho tất cả các trình tự –Xác định mức độ tương đồng mỗi cặp –Xây dựng ma trận khoảng cách tương đồng giữa các trình tự.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 35• Bước 2:
–Xây dựng cây cây tương đồng (similarity tree) hay
cây hướng dẫn (guide tree) bằng cách dùng thuật
toán gom nhóm Neighbor – Joining.
–Cây hướng dẫn hể hiện mối quan hệ tương đồng
giữa các trình tự với nhau
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
137
• Bước 3: Thực hiện quá trình lũy tiến –Căn cứ vào cây hướng dẫn xác định những nhánh
có cặp trình tự tương đồng lớn nhất –Thực hiện PSA trên từng cặp –Kết hợp những cặp đó lại thu được kết quả đa trình tự.
PGS.TS Trần Văn Lăng, VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Trang 36–m = số mismatch giữa 2 trình tự (không tính gap)
–n = số cặp không phải là gap giữa 2 trình tự
Trang 38• Tiếp tục, khoảng cách giữa S 13 và S 4 là nhỏ
A-DF-IKF ARDFG-I
ARDFGI A-DF IKF AR-FGLI ARDFG-I
A-DF IKF AR-FGLI A-KHGL - ARDFG-I A-DF IKF AR-FGLI A-KHGL - AKD -ILM
Trang 39• Ở đây kết quả có được bằng cách gióng từng