1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Tài liệu Chuyên đề nghiên cứu tin sinh học ppt

34 549 3
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm hiểu bài toán so sánh cặp trình tự
Tác giả Nguyễn Hồng Kiên
Người hướng dẫn Ngô Công Thắng
Trường học Cao Đẳng Công Nghệ Thông Tin
Chuyên ngành Tin sinh học
Thể loại Chuyên đề
Định dạng
Số trang 34
Dung lượng 443,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự.. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự.. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp tr

Trang 1

Chuyên Đề Nghiên Cứu 7 - Tin Sinh Học.

Giảng Viên: Ngô Công Thắng.

Sinh viên thực hiện: Nguyễn Hồng Kiên

Lớp: Tin học A-K52.

Khoa: Công Nghệ Thông Tin.

Mã Sinh Viên: 521996.

Trang 2

Chuyên Đề Nghiên Cứu 7 - Tin Sinh Học.

Nội Dung:

Nhóm 2:

Nhóm 2: Tìm hiểu bài toán so sánh cặp trình tự:

a Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự

b Thuật toán ma trận điểm

d Thuật toán quy hoạch động Needleman-Wunsch

Trang 3

Nội dung

Tìm hiểu bài toán so sánh cặp trình tự:

1 Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự

2 Thuật toán ma trận điểm

3 Thuật toán quy hoạch động Needleman-Wunsch

Trang 4

1 Nội dung và ý nghĩa sinh học của bài toán

Trang 5

1 Nội dung và ý nghĩa sinh học của bài toán

so sánh cặp trình tự.

- Cho 2 chuỗi sinh học S1,S2 Gióng cặp chuỗi này được thực

hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu là ”-”) tại các vị trí bất kỳ với số lượng không hạn chế

để tạo ra 2 chuỗi S1’ và S2’ tương ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho môi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời

Trang 6

1 Nội dung và ý nghĩa sinh học của bài toán

so sánh cặp trình tự

Dựa trên phương pháp so sánh người ta chia ra làm 2 loại:

- Phép so sánh trình tự theo hướng toàn cục: Phép toán so sánh được áp dụng trên toàn bộ chuỗi trình tự Thường được sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng, giống nhau cao

Trang 8

Tùy thuộc vào số lượng trình tự, bài toán so sánh trình tự được chia làm 2 mức độ:

- So sánh 2 trình tự

- So sánh nhiều trình tự

1 Nội dung và ý nghĩa sinh học của bài toán

so sánh cặp trình tự.

Trang 9

- Ví dụ về so sánh trình tự theo hướng toàn cục:

Trang 11

- Ví dụ so sánh 2 trình tự:

- Ví dụ so sánh nhiều trình tự

A C – – G C T G – C A T G – T –

Trang 12

• Ý nghĩa:

- Trên quan điểm sinh học, phép so sánh trình tự thể hiện quá trình biến đổi chọn lọc tự nhiên của các chuỗi

trình tự, từ đó cho phép các nhà sinh học đưa ra kết

luận về nguồn gốc của các đoạn gene, DNA, RNA, hay protein

- Mặt khác, cho phép ta xây dựng cây phát sinh chủng

loại, xây dựng cây tiến hóa từ đó đánh giá được mối

quan hệ giữa các loài

1 Nội dung và ý nghĩa sinh học của bài toán

so sánh cặp trình tự

Trang 13

Nội dung

Tìm hiểu bài toán so sánh cặp trình tự:

1 Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự

2 Thuật toán ma trận điểm

3 Thuật toán quy hoạch động Needleman-Wunsch

Trang 14

2 Thuật toán ma trận điểm.

• Kết quả của việc tính giá trị cho mỗi phép so sánh phụ thuộc nhiều vào kết quả của hàm đánh giá sự tương đồng của mỗi cặp amino acid (nucleotide), ký hiệu là: σ (a,b)

Độ tương đồng của các cặp amino acid thường được lưu trữ dưới dạng một ma trận 2 chiều gọi là ma trận điểm

• Xét trên phương diện toán, ma trận đánh giá là 1 ánh xạ được định

nghĩa như sau:

σ : (∑’)²→RR

Trong đó : ∑’=∑ − { ‘-’ }

và ∑ là tập các amino acid hoặc nucleotide.

Trang 15

2 Thuật toán ma trận điểm.

• Có nhiều loại ma trận điểm dựa trên quá trình nghiên cứu, thống kê thực tế sinh học

• Hiện tại có 4 loại ma trận điểm: identity matrix, enetic code matrix, chemical similarity matrix và substitution matrix

Trang 16

• Đây là cơ chế đánh giá độ tương đồng đơn giản nhất, trong ma trận này các cặp amino acid giống nhau sẽ có giá trị của phần

tử (ký tự) tương ứng trong ma trận là 1, các cặp amino acid còn lại sẽ nhận giá trị 0

Trang 17

• Genetic code matrix (Ma trận mã di truyền) :

- Trong ma trận này hàm đánh giá của mỗi cặp amino acid dựa trên độ tương đồng về mã di truyền

Ngày nay ma trận này hiếm khi được sử dụng trong việc so sánh các chuỗi amino acid

• Chemical similarity matrix (Ma trận tương đồng hóa học) :

- Trong ma trận này, các amino acid có cấu trúc tương đồng về cấu trúc vật lý cũng như thuộc tính hóa học như kích thước, hình dạng, khả năng phân cực,… thì phần tử tương ứng trong

ma trận sẽ nhận giá trị lớn hơn so với các cặp còn lại

2 Thuật toán ma trận điểm.

Trang 18

• Substitution matrix (Ma trận thay thế) :

- Ma trận này được tính toán và xây dựng dựa trên các quan sát thống kê về tần số thay đổi của các amino acid trong việc so sánh các chuỗi trình tự

- Ma trận thay thế được đánh giá là tốt hơn so với 3 loại ma trận trên và hiện nay cũng được sử dụng phổ biến nhất

2 Thuật toán ma trận điểm.

Trang 19

• Ví dụ ma trận BLOSUM62 lưu trữ hàm đánh giá độ tương đồng của tập 23 amino acid

Trang 20

Nội dung

Tìm hiểu bài toán so sánh cặp trình tự:

1 Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự

2 Thuật toán ma trận điểm

3 Thuật toán quy hoạch động Needleman-Wunsch

Trang 21

3 Thuật toán quy hoạch động Needleman-Wusch

• Giải thuật Needleman-Wusch là giải thuật gióng cặp chuỗi toàn cục dựa trên quy hoạch động để tính điểm cho quá trình gióng chuỗi

• Điểm số cho phương án này được gọi là mức độ

tương đồng giữa các cặp chuỗi

Trang 22

3 Thuật toán quy hoạch động Needleman-Wusch

• Giải thuật phụ thuộc vào số trình tự, chiều dài cũng như sự khác biệt của các trình tự

• Giải thuật này đòi hỏi độ phức tạp là hàm số mũ theo chiều dài và số trình tự θ(nª))

• Trong thực tế việc hiện thực giải thuật này đòi hỏi chi phí tiêu tốn rất cao về mặt thời gian cũng như bộ nhớ

sử dụng

• Khi n và a đủ lớn việc thực thi giải thuật là

không thực tế

Trang 23

3 Thuật toán quy hoạch động Needleman-Wusch

• Quy hoạch động Needleman-Wusch gồm 3 bước:

- Khởi tạo ma trận từ 2 chuỗi trình tự

- Tính toán, điền giá trị cho ma trận

- Sử dụng kỹ thuật lưu vết để tìm ra kết quả

Trang 24

• Xét định nghĩa về 1 cơ chế đánh giá như sau:

• - Nếu a và b là 2 ký tự đại diện cho các amino acid

3 Thuật toán quy hoạch động Needleman-Wusch

Trang 25

• Trong thực tế, để đơn giản hầu hết các phương pháp đề xuất tính giá trị của gap dựa trên một hàm tuyến tính theo chiều dài của gap

• (Một gap bao gồm các phần tử của 1 chuỗi mà mỗi

phần tử này tương ứng với các phần tử có ký hiệu là

“-“ của chuỗi còn lại.)

Ví dụ về Gap:

3 Thuật toán quy hoạch động Needleman-Wusch

Trang 26

Ví dụ Thuật toán quy hoạch động

Trang 27

- B1: Khởi tạo ma trận từ 2 chuỗi trình tự

- B2: Tính toán, điền giá trị cho ma trận

Gọi S(i,j) là giá trị của một phép so sánh tối ưu của chuỗi S1i(S1[1], , S1[i]) và S2j (S2[1], ,S2[j])

( 1≤ ≤ in ,1≤ ≤ jm) như vậy S(n,m) sẽ là giá trị của một phép

so sánh tối ưu của S1 và S2

S(i, j) được định nghĩa như sau:

Trang 28

S(i,j)= max { S(i-1, j-1) + σ(S1[i], S2[j])

Trang 30

Làm tương tự với các giá trị khác, ta có ma trận sau:

3 Thuật toán quy hoạch động Needleman-Wusch

Trang 31

- B3: Sử dụng kỹ thuật lưu vết để tìm ra kết quả:

Dựa vào các con đường được sinh ra do kỹ thuật lưu vết từ S(m,n) đến S(0,0), các phép so sánh sẽ được sinh ra dựa trên nguyên tắc:

+ Nếu con đường đi theo hướng đường chéo từ S(i,j) đến S(i-1,j-1) thì 2 ký tự đại diện cho S1[i] và S2[j] sẽ được ghi vào kết quả.

+ Nếu con đường đi theo hướng từ S(i,j) đến S(i-1,j) thì ký

tự đại diện cho S1[i] và ‘-‘ sẽ được ghi vào kết quả.

+ Nếu con đường đi theo hướng từ S(i, j) đến S(i, j-1) thì

ký tự đại diện cho S2[j] và ‘-‘ sẽ được ghi vào kết quả.

3 Thuật toán quy hoạch động Needleman-Wusch

Trang 32

• Theo nguyên tắc này, trong ví dụ trên ta thu được 3 kết quả tương ứng với 3 con đường truy hồi:

3 Thuật toán quy hoạch động Needleman-Wusch

Trang 34

Thank you for your attention !

Ngày đăng: 22/12/2013, 15:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w