1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác

55 436 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,79 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MỤC LỤC PHầN Mở ĐầU 1 1. Lý do chọn đề tài 1 2. Lịch sử nghiên cứu 2 3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 3 3.1 Mục đích nghiên cứu 3 3.2 Đối tượng nghiên cứu 3 3.3 Phạm vi nghiên cứu 3 4. Tóm tắt 3 5. Phương pháp nghiên cứu 4 CHƯƠNG I. TỔNG QUAN 5 1.1 Protein 5 1.1.1 Thế nào là protein 5 1.1.2. Cấu trúc – chức năng của Protein 5 1.1.3. Vai trò Protein trong sinh học 8 1.2. Sự tương tác giữa các protein 10 1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein 12 1.4Hidden Markov Model (HMM) 16 1.4.1Chuỗi Markov là gì? 16 1.4.2 Observable Markov Model 16 1.4.3 Mô hình Markov ẩn 17 CHƯƠNG II. ĐỀ XUẤT PHƯƠNG ÁN CẢI TIẾN KẾT QUẢ DỰ ĐOÁN LIÊN KẾT RESIDUE 31 2.1 Đặt vấn đề 31 2.2 Đề xuất phương án cải tiến 33 CHƯƠNG III. CÀI ĐẶT VÀ THỬ NGHIỆM 38 3.1 Dữ liệu 38 3.3Kết quả thực nghiệm 40 KếT LUậN VÀ HƯớNG PHÁT TRIểN 44 TÀI LIệU THAM KHẢO 45  

Trang 1

LỜI CẢM ƠN

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới

Cô giáo, TS Lê Thị Tú Kiên đã tận tình hướng dẫn, động viên, giúp đỡ emtrong suốt quá trình thực hiện luận văn

Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô trong Khoa Công nghệthông tin đã truyền đạt kiến thức quý báu cho em trong những năm học vừaqua

Con xin nói lên lòng biết ơn đối với Ông Bà, Cha Mẹ luôn là nguồnchăm sóc, động viên trên mỗi bước đường học vấn của con

Xin chân thành cảm ơn các Anh Chị và Bạn bè, đặc biệt là các thànhviên trong lớp K23 đã ủng hộ, giúp đỡ và động viên tôi trong suốt thời gianhọc tập trên giảng đường và thực hiện luận văn này

Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng chophép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em kính mongnhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các Bạn

Em xin chân thành cảm ơn!

Hà Nội, ngày 30 tháng 09 năm 2015

Học viên

Nguyễn Thị Hằng

Trang 2

MỤC LỤC

PHẦN MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Lịch sử nghiên cứu 2

3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 3

3.1 Mục đích nghiên cứu 3

3.2 Đối tượng nghiên cứu 3

3.3 Phạm vi nghiên cứu 3

4 Tóm tắt 3

5 Phương pháp nghiên cứu 4

CHƯƠNG I TỔNG QUAN 5

1.1 Protein 5

1.1.1 Thế nào là protein 5

1.1.2 Cấu trúc – chức năng của Protein 5

1.1.3 Vai trò Protein trong sinh học 8

1.2 Sự tương tác giữa các protein 10

1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein 12

1.4Hidden Markov Model (HMM) 16

1.4.1Chuỗi Markov là gì? 16

1.4.2 Observable Markov Model 16

1.4.3 Mô hình Markov ẩn 17

CHƯƠNG II ĐỀ XUẤT PHƯƠNG ÁN CẢI TIẾN KẾT QUẢ DỰ ĐOÁN LIÊN KẾT RESIDUE 31

Trang 3

2.1 Đặt vấn đề 31

2.2 Đề xuất phương án cải tiến 33

CHƯƠNG III CÀI ĐẶT VÀ THỬ NGHIỆM 38

3.1 Dữ liệu 38

3.3Kết quả thực nghiệm 40

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 44

TÀI LIỆU THAM KHẢO 45

Trang 4

DANH MỤC HÌNH ẢNH

Hình 1.1 Cấu trúc không gian của protein kháng thể 6

Hình 1.2 Phenylalanine hydroxylase 6

Hình 1.3 Hormone tăng trưởng (Growth hormone) 7

Hình 1.4 Actin 7

Hình 1.5 Ferritin 8

Hình 1.6 Tương tác protein-protein 11

Hình 1.7 Mạng tương tác protein-protein 11

Hình 1.12Mô hình Markov 3 trạng thái 16

Hình 1.13 Ví dụ mô hình Markov ẩn 18

Hình 1.14Sự tiến hóa theo thời gian của mô hình Markov ẩn 18

Hình 1.15 Phân lớp 21

Hình 1.16 Lề 22

Hình 1.17 Đường phân lớp tốt nhất 23

Hình 1.18 Khoảng cách từ điểm dữ liệu đến mặt phân cách 23

Hình 1.19 Một vài điểm bị phân lớp sai 27

Hình 1.20 Cực tiểu khoảng cách lề 28

Hình 2.1 Mô hình phương pháp dự đoán 33

Hình 2.2 Dự đoán liên kết residue giữa các protein 34

Hình 2.3 Sơ đồ khối mô tả các bước thực hiện 36

Hình 3.1 Struct A của C1-set 41

Hình 3.2 Struct B của C1-set 41

Hình 3.3 So sánh độ đo MCC trước và sau loại bỏ 42

Hình 3.4 So sánh độ đo Precision trước và sau loại bỏ 42

Trang 5

DANH MỤC BẢNG

Bảng 3-1 Danh sách dữ liệu 39Bảng 3-2 Công thức tính độ đo 40

Trang 6

PHẦN MỞ ĐẦU

1 Lý do chọn đề tài

Trong tế bào động vật, protein có vai trò hết sức quan trọng Chúngtham gia cấu trúc của tế bào, là những enzym xúc tác cho các quá trình sinh lísinh hóa xảy ra trong tế bào, protein còn tham gia các quá trình vận chuyển,bảo vệ, điều khiển, là nơi dự trữ chất dinh dưỡng, nhận biết các loại phân tửkhác nhau, chịu trách nhiệm về sự vận động của động vật ở mức tế bào và cơthể Các chức năng này có thể do một hoặc nhiều phân tử protein đặc hiệuđảm nhiệm Chính vì thế,sự tương tác giữa các protein rất quan trọng đối vớicác hoạt động sống của tế bào Protein

Sự hiểu biết chi tiết về tương tác giữa các protein không chỉ hữu íchtrong việc giải thích chức năng cho các protein, mà còn rất quan trọng trongviệc chế tạo thuốc và điều trị bệnh

Trên thế giới đã có một số phương pháp thực nghiệm nghiên cứu xemliệu hai (hay nhiều) protein có liên kết với nhau hay không Nhưng các phươngpháp thực nghiệm này thường tốn rất nhiều chi phí và thời gian, lại rất khó có thểgiải quyết được bài toán sâu hơn về sự tương tác giữa hai protein, nghĩa lànghiên cứu xem các residure liên kết với nhau như thế nào nào giữa vùngtương tác của hai protein, nên các nhà nghiên cứu thường dựa trên các phươngpháp Sinh–Vật lý như Nuclear Magnetic Resonance (NMR), X-raycrystallography hay các phương pháp tính toán như PPI binding sites, docking,covariance-based để giải quyết bài toán này

Trong những năm gần đây, đã cómột số nghiên cứu về dự đoán liên kếtresidue giữa các protein tương tác [10, 27]đã đạt được kết quả dự đoán tốt,nhưng vẫn còn một số điểm hạn chế, vẫn tồn tại một số trường hợp dự đoánchưa chính xác Tức là có xuất hiện một số trường hợp dự đoán khác so với

Trang 7

kết quả thực tế, xuất hiện một số trường hợp False Positive (FP) (nhữngresidue trong thực tế không tương tác với nhau, nhưng lại dự đoán chúngtương tác với nhau).

Vì những lí do trên, chúng tôi lựa chọn đề tài “Dự đoán liên kết residuegiữa các protein tương tác” để tiếp tục tìm hiểu và mở rộng hướng nghiên cứutrước đó nhằm loại bỏ một số trường hợp dự đoán chưa chính xác để tăng độchính xác dự đoán

2 Lịch sử nghiên cứu

Nghiên cứu về sự tương tác giữa các protein thường được chia ở haimức Ở mức một, các nhà nghiên cứu quan tâm đến việc trả lời câu hỏi: “Hai(hay nhiều) protein đã cho có tương tác với nhau hay không?” Các phươngpháp thực nghiệm sinh học như Sắc kí ái lực (Affinity chromatography), Kếttủa miễn dịch (Immunopricipitate), Cross-linking, hệ thống lai kép (Twohybride system) sẽ trả lời được câu hỏi này Tuy nhiên, các phương pháp thựcnghiệm này thường tốn rất nhiều chi phí và thời gian nên một số phương pháptính toán như Dựa trên hệ gien (Genomic based methods), Gien láng riềng(Gene neighborhood), Phânloại (Classification methods) đã được ra đời nhằmtrợ giúp giải quyết vấn đề này

Trong khi đó, ở mức hai, các nhà nghiên cứu quan tâm đến việc trả lờicâu hỏi: “Hai (hay nhiều) protein tương tác với nhau như thế nào?” Nghĩa làcác residue trên bề mặt tiếp xúc của hai protein liên kết với nhau như thế nào.Với câu hỏi này thì các phương pháp thực nghiệm sinh học rất khó có thể trảlời được mà các nhà nghiên cứu thường chỉ dựa vào phân tích các phức hợpcấu trúc protein (Structural protein complex-based methods), hay phân tíchchuỗi dựa trên phương pháp Hiệp phương sai (Covariance-based methods ofsequences analysis)

Trang 8

Trong những năm gần đây, một số nghiên cứu của các nhóm tác giảGonzález [10], Tu Kien T Le [27] đã kết hợp thông tin về Structural proteincomplex và Sequence covariance nhằm nâng cao kết quả dự đoán sự liên kếtresidure trên bề mặt tiếp xúc của các protein.

Trong luận văn này,chúng tôi tiếp tục tìm hiểu và mở rộng hướng nghiêncứu trước đó nhằm loại bỏ một số trường hợp “dị biệt” và tăng độ chính xác dựđoán

3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu

3.1 Mục đích nghiên cứu

Cải tiến kết quả dự đoán liên kết residue giữa các protein tương tác từ kếtquả dự đoán trong bài báo của nhóm tác giả Tu Kien T Le [27]

3.2 Đối tượng nghiên cứu

Nghiên cứu phương pháp dự đoán liên kết residue từ các nghiên cứutrước của các nhóm tác giả González [10] và Tu Kien T Le [27]

Công cụ xây dựng phương pháp dự đoán liên kết residue giữa cácprotein tương tác: Ngôn ngữ lập trình Matlab

Để cải tiến, bước đầu luận văn mô tả tổng quan về protein, tương tácgiữa các protein, tiếp theo mô tả thuật toán loại bỏ trường hợp dị biệt để tăng

độ chính xác cho việc dự đoán liên kết residue giữa các protein tương tác

Trang 9

Cuối cùng luận văn trình bày phần cài đặt thử nghiệm về dự đoán liên kếtresidue giữa các protein tương tác và đưa ra đánh giá hiệu quả của cải tiến này.

5 Phương pháp nghiên cứu

Nghiên cứu lý thuyết

Nghiên cứu các phương pháp trước về dự đoán liên kết residue giữa cácprotein tương tác

Cài đặt và thử nghiệm

Tham khảo ý kiến đánh giá

Trang 10

1.1.2 Cấu trúc – chức năng của Protein

Theo công trình nghiên cứu “What is protein” của Georgia C.Lauritzen thuộc đại học Utah State: “Protein được cấu tạo từ các đơn vị nhỏhơn được gọi là các axit amin Hiên nay đã phát hiện ra hơn 20 loại axit aminkhác nhau Mỗi phân tử protein bao gồm rất nhiều các axitamin, được sắp xếptheo một trình tự ngẫu nhiên, từ đó tạo ra hàng trăm, hàng nghìn các phân tửprotein có cấu trúc khác nhau Hầu hết các proteinlà các phân tử lớn có thểchứa hàng trăm axit aminđược sắp xếptrong các ngànhvà các chuỗi” Trìnhtựaxit amin xác định cấu trúc không gian 3 chiều của protein và chức năngchuyên biệt của chúng Có 5 loại cấu trúc không gian, ứng với 5 chức năngcủa Protein như sau:

Trang 11

Hình 1.1 Cấu trúc không gian của protein kháng thể

Enzyme xúc tác cho hầu hết các phản ứng hóa học xảy ra trong tế bào Chúngcũng giúp đỡ hình thành những phân tử mới bằng cách đọc thông tin di truyềnlưu trữ trong DNA (Hình 1.2)

Hình 1.2 Phenylalanine hydroxylase.

Trang 12

- Thông tin – Messenger

Protein thông tin, như một số loại hormone, truyền tải tín hiệu để phối hợpcác quá trình sinh học giữa các tế bào, mô, cơ quan khác nhau Ví dụ:hormone tăng trưởng (Growth hormone) (Hình 1.3)

Hình 1.3 Hormone tăng trưởng (Growth hormone).

- Thành phần cấu trúc

Những protein này cung cấp cấu trúc và nuôi dưỡng tế bào Trong mộtphạm vi lớn hơn, chúng còn cho phép tế bào di chuyển Ví dụ: Actin

Trang 13

- Vận chuyển-dự trữ

Các protein này bám vào những nguyên tử và phân tử nhỏ bên trong tếbào và lưu thông trong cơ thể Ví dụ: Ferritin (Hình 1.5)

Hình 1.5 Ferritin.

1.1.3 Vai trò Protein trong sinh học

Protein là những đại phân tử được cấu tạo theo nguyên tắc đa phân màcác đơn phân là axit amin Chúng kết hợp với nhau thành một mạch dài nhờcác liên kết peptide (gọi là chuỗi polypeptide) Các chuỗi này có thể xoắncuộn hoặc gấp theo nhiều cách để tạo thành các bậc cấu trúc không gian khácnhau của protein

Protein hình thành, duy trì và thay thế các tế bào trong cơ thể Proteinchiếm tới trên 50% khối lượng khô của tế bào và là vật liệu cấu trúc của tếbào Thiếu protein dẫn đến suy dinh dưỡng, chậm lớn, suy giảm miễn dịch,ảnh hưởng xấu đến chức năng của các cơ quan trong cơ thể

Protein là tham gia vào thành phần cơ bắp, máu, bạch huyết, hocmôn,men, kháng thể, các tuyến bài tiết và nội tiết Vì vậy, protein có liên quan đếnmọi chức năng sống của cơ thể (tuần hoàn, hô hấp, sinh dục, tiêu hóa, bài tiếthoạt động thần kinh và tinh thần )

Trang 14

Protein cần thiết cho chuyển hóa bình thường các chất dinh dưỡngkhác, đặc biệt là các vitamin và chất khoáng Khi thiếu protein, nhiều vitaminkhông phát huy đầy đủ chức năng của chúng mặc dù không thiếu về số lượng.

Protein còn là nguồn năng lượng cho cơ thể, thường cung cấp 15% năng lượng của khẩu phần, 1g protein đốt cháy trong cơ thể cho 4 Kcal(trong khi đó Gluxit là 4 Kcal, Lipit là 9kcal và rượu là 7kcal)

10%-Protein kích thích sự thèm ăn và vì thế nó giữ vai trò chính tiếp nhậncác chế độ ăn khác nhau Thiếu protein gây ra các rối loạn quan trọng trong

cơ thể như ngừng lớn hoặc chậm phát triển, mỡ hóa gan, rối loạn hoạt độngnhiều tuyến nội tiết (giáp trạng, sinh dục), thay đổi thành phần protein máu,giảm khả năng miễn dịch sinh học của cơ thể và tăng tính cảm thụ của cơ thểvới các bệnh nhiễm khuẩn

Bổ sung protein cho cơ thể:Sau khi được nạp vào cơ thể, trong quátrình tiêu hoá thức ăn, protein được phân huỷ tại dạ dày bởi các enzyme Nó chuyển thành các polypeptides, cung cấp các axit amin cần thiết cho sự sống.Thành phần axit amin của cơ thể người không thay đổi và cơ thể chỉ tiếp thumột lượng các axit amin hằng định vào mục đích xây dựng và tái tạo tổ chức

Có 8 axit amin cơ thể không thể tổng hợp được hoặc chỉ tổng hợp một lượngrất ít Đó là Lyzin, tryptophan, phenynalaninin, lơ - xin, izolơxin, valin,treonin, metionin Người ta gọi chúng là các axit amin cần thiết

Các axit amin cần thiết này được lấy thông qua protein của thức ăn từbên ngoài Tuy nhiên, trong tự nhiên không có loại protein thức ăn nào cóthành phần hoàn toàn giống với thành phần axit amin của cơ thể Do đó đểđáp ứng nhu cầu cơ thể cần phối hợp các loại protein thức ăn để có thànhphần axit amin cân đối nhất

Giá trị dinh dưỡng một loại protein cao khi thành phần axit amin cầnthiết trong đó cân đối và ngược lại Hầu hết thức ăn có nguồn gốc động vật và

Trang 15

thực vật chứa đầy đủ và cân đối các thành phần của các axit amin cần thiết Tuy nhiên, không có một loại thức ăn nào có đủ tất cả mà cần phải sử dụngmột chế độ hỗn hợp nhiều loại thức ăn.

Thực phẩm nguồn gốc động vật (thịt, cá, trứng, sữa) là nguồn proteinquý, nhiều về số lượng, và cân đối hơn về thành phần và đậm độ axit amincần thiết cao Hàm lượng các axit amin cần thiết trong thực phẩm nguồn gốcthực vật (đậu tương, gạo, mì, ngô, các loại đậu khác ) không cao (trừ đậunành); nhưng cơ thể vẫn phải bổ sung cân đối đấy đủ các loại này Vì vậy,biết phối hợp các nguồn protein thức ăn hợp lý sẽ tạo nên giá trị dinh dưỡngcao của khẩu phần Ví dụ gạo, ngô, mì nghèo lizin còn đậu tương, lạc, vừnghàm lượng lyzin cao, khi phối hợp gạo hoặc mì hoặc ngô với đậu tương,vừng, lạc sẽ tạo nên protein khẩu phần có giá trị dinh dưỡng cao hơn cácprotein đơn lẻ

1.2 Sự tương tác giữa các protein

Tương tác protein là quá trình tác động qua lại giữa các protein với nhauhoặc giữa các protein với các phân tử khác trong tế bào ảnh hưởng đến cáchoạt động sống trong tế bào và ảnh hưởng đến quá trình sống của động vật(Hình 1.6)

Trang 16

Hình 1.6 Tương tác protein-protein.

- Mạng tương tác protein

Việc tìm hiểu tương tác của các protein là 1 trong những vấn đề quantrọng trong sinh học Các thí nghiệm thực tế cho thấy các protein thể hiệnchức năng khi tương tác với nhau Tập hợp các tương tác của protein được gọi

là mạng tương tác protein-protein (protein-protein interactions - PPIs) (Hình1.7) Mạng PPIs thường được biểu diễn bằng một đồ thị mà mỗi cạnh là mộtprotein và mỗi đỉnh là một tương tác

Hình 1.7 Mạng tương tác protein-protein.

- Domain – Domain Interactions (DDIs)

Tương tác domain - domain có thể là một đoạn ngắn hoặc vùng xoắn

Vì thế, định nghĩa tương tác giữa domain - domain của protein rất hữu dụngcho việc nghiên cứu, phân tích và phát tiển về chức năng, cấu trúc mạng lướiprotein và tín hiệu đường dẫn [45]

Protein domains được biết đến như một phần chức năng và cấu trúc củaprotein Chúng được tồn tại trong suốt quá trình phát triển Trong tổ hợp

Trang 17

enzymes và cấu trúc phức hợp protein, bề mặt tương tác giữa hai miền luôn xuấthiện giữa hai domain DDIs có thể xuất hiện trong cùng một hoặc hai proteinkhác nhau Tóm lại, sự hiểu biết về DDIs rất quan trọng vì chúng không chỉ làmsáng tỏ PPIs và chức năng protein, mà còn có thể đưa ra PPIs mới.

Có hai cách chính để nhận ra DDIs từ hai nguồn dữ liệu PPIs khácnhau Cách 1 là định nghĩa dựa trên cấu trúc phức hợp của protein trong ngânhàng cơ sở dữ liệu protein ( Protein Data Bank – PDB) Phương pháp tiếp cận

cơ sở dữ liệu không những cung cấp cặp domain của chuỗi protein có thểtương tác, mà còn cung cấp cách thức tương tác của chúng, chúng chỉ ra mộtcách rõ ràng cặp residue của hai domain rằng buộc với nhau Cơ sở dữ liệuđược tạo từ phương pháp 3did, InterPare, PIBASE, SCOPPI, SCOWLP đượcgọi là cơ sở dữ liệu tương tác

- Protein-protein interaction interfaces ( Bề mặt tương tác giữa các protein)

Mỗi một protein có nhiều chức năng khác nhau Để thực hiện chứcnăng của mình thì các protein thường tương tác với các protein khác hoặc vớicác phân tử khác

Khi hai protein tương tác với nhau thì bề mặt tiếp xúc giữa hai protein

ấy người ta gọi là bề mặt tương tác (hay tiếng anh gọi là interface) Nếu ta

biết chi tiết thông tin liên kết về những residue trong hai bề mặt tiếp xúc củahai chuỗi protein này tương tác với nhau như thế nào thì sẽ rất hữu ích trongviệc chúng ta chuẩn đoán bệnh và điều chế thuốc

1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein

Nghiên cứu về sự tương tác giữa các protein được chia ra làm hai mức độ

Ở mức độ thứ nhất, các nhà nghiên cứu thường quan tâm xem liệu hai (haynhiều) protein có liên kết với nhau hay không Các phương pháp thực nghiệm

Trang 18

sinh học như Sắc kí ái lực (Affinity chromatography), Kết tủa miễn dịch(Immunopricipitate), Cross-linking, hệ thống lai kép (Two hybrid system) sẽ đưa rahướng giải quyết bài toán này Tuy nhiên, các phương pháp thực nghiệm này thườngtốn rất nhiều chi phí và thời gian nên một số phương pháp tính toán như Dựa trên hệgien (Genomic based methods), Gien láng riềng (Gene neighborhood), Phânloại(Classification methods) đã được ra đời nhằm trợ giúp giải quyết vấn đề này Ở mức

độ hai, các nhà nghiên cứu tìm hiểu sâu hơn về sự tương tác giữa hai protein,nghĩa là nghiên cứu xem các residure liên kết với nhau như thế nào nào giữavùng tương tác của hai protein Các phương pháp thực nghiệm sinh học rấtkhó có thể giải quyết được bài toán này nên các nhà nghiên cứu thường dựatrên các phương pháp Sinh–Vật lý như Nuclear Magnetic Resonance(NMR),X-ray crystallography hay các phương pháp tính toán như PPI binding sites,docking, covariance-based

1.3.1 PPI binding sites

Phương pháp PPI binding sites là phương pháp Sinh – Vật lý nghiêncứu sự tương tác bề mặt của các protein Một số phương pháp cụ thể như dựđoán vị trí tương tác với phân bố xác suất ba chiều của nguyên tử tương táctrên bề mặt protein [46] Phương pháp này được mô phỏng bằng việc xâydựng bản đồ mật độ xác suất ba chiều của các atom tương tác non-covalenttrên bề mặt protein Xác suất tương tác được bắt nguồn từ cấu trúcbên trong của protein Người ta đã sử dụng phương pháp học máy để tìm hiểu

về mô hình PPI sites này Dự đoán được huấn luyện cho PPI là validated vớitập huấn luyện (gồm 432 protein) và đã được thử nghiệm trênmột bộ dữ liệu riêng biệt (gồm 142 protein) Dựa trên hệ số tương quanMatthews các tập kiểm tra independent là 0,423; accuracy, precision,sensitivity, specificity tương ứng là 0,753, 0,519, 0,677, 0,779 Kết quảBenchmark chỉ ra mô hình học máy là một trong những dự đoán tốt nhất

Trang 19

cross-trong việc xác định PPI trên bề mặt protein Đặc biệt, kết quả dự đoán PPItăng, vớikích thước của PPI tăng lên và với hydrophobicity trong thành phầnacid amin của bề mặt chung PPI cũng tăng lên; vùng bề mặt chung có độ dựđoán cao hơn Kết quả chỉ ra rằng các mô hình Sinh–Vật lý trên bề mặtprotein là yếu tố quyết định quan trọng trong PPI, và phần lớn có thể dự đoánmột cách chính xác PPI với các tính năng dựa trên các dữ liệu tương tác non-covalent có chứa bên trong protein.

Phương pháp phát triển của phương pháp [ 46] này thường dựa vào đặcđiểm trình tự, cấu trúc, vật lý - hóa học để phân biệt bề mặt chung cácresidues từ bề mặt riêng của các residuestrong một protein đơn lẻ Tuy nhiên,một protein có thể có hai hoặc nhiều bề mặt chung và mỗi bề mặt chung này

có đặc trưng so với một vài protein cùng loại Vì vậy, điều đó cần thiết trongviệc phát triển các phương pháp để tìm ra liên kết residue: liên kết giữa cácresidues của hai protein tương tác

1.3.2 Docking

Phương pháp Docking là phương pháp Sinh – Vật lí nghiên cứu tìmhiểu sâu hơn về sự tương tác giữa hai protein, nghĩa là nghiên cứu xem cácresidure liên kết với nhau như thế nào nào giữa vùng tương tác của haiprotein Tuy nhiên, hiện nay phương pháp Docking này đòi hỏi một quá trìnhtính toán dài và rất khó để tìm ra các giải pháp tốt nhất [43] Ngoài ra, nhữngthay đổi cấu tạo của monomertrong quá trình hình thành các chuỗi proteincũng là hạn chế [42] Gần đây, một vài phương pháp Docking đã kết hợp giữakiến thức của vị trí liên kết PPI với các quá trình Docking nhằm cải thiện hiệusuất của chúng [42,44] Phương pháp cải thiện kết quả docking bằng cách sửdụng binding site prediction nhưngkhông chính xác 100% Phương pháp đã

sử dụng các thuật toán:PI-LZerD (sử dụng Predicted Interface dựa trên mô tảthuật toán Docking Local 3D Zernike), được dựa trên một cặp protein thuật

Trang 20

toán dự đoán docking LzerD đã phát triển trước đây PI-LZerD bắt đầu từthực hiện dự đoán docking với điều kiện dự đoán bề mặt tương tác protein-protein, tiếp theo là thông tin bề mặt docking được cập nhật để cải thiện cấutạo docking hơn nữa Kết quả đạt được của các trường hợp PI-LzerD cho thấyviệccải thiện dự đoán docking chính xác hơn so với việc sử dụng phươngpháp PPI bằng cách sử dụng PPI như post-filtering.

Tuy nhiên ứng dụng của phương pháp vẫn còn hạn chế, rất khó để dựđoán chuỗi protein lớn bao gồm nhiều đơn vị cấu trúc (ví dụ, các vùng và cácmonome) bằng phương pháp Docking Trong hoàn cảnh này, việc phát triểncác phương pháp mới và tốt hơn là rất cấp bách [42]

1.3.3 Covariance-based

Phương pháp phântíchliênkếtprotein residure dựatrêntrìnhtựhiệpphươngsaicó các phương pháp tiếp cận khác nhau để xác địnhliên kết residue giữa các protein hay các domain tương tác [33-36].Ví dụ nhưphương pháp Bayesian[34], phương pháp tiếp cận này dựa trên giả thuyếtrằng giữa các amino axit được bản mẫu thay thế và các residue tương tác bịràng buộc và tương quan với nhau Sự ghép đôi này có thể được phát hiệnthông qua ràng buộc lẫn nhau về sự thay thế amino axit trong hai cột của cácsequence được dóng hàng

Chỉ phụ thuộc vào các thông tin trình tự, phương phápphântíchliênkếtprotein residure dựa trêntrìnhtựhiệpphươngsainày hứa hẹn sẽ

là một ứng dụng để dự đoán các chuỗi protein phức hợp có kích thước lớn,đặc biệt là để dự đoán chuỗi tạm thời Tuy nhiên, phương pháp đó đòi hỏi mộttập hợp lớn các tương tác PPI nhị phân hoặc tương tác giữa các domain(DDIs) giữa các phần tử protein của hai hay nhiều họ protein

Trang 21

1.4Hidden Markov Model (HMM)

Xét một hệ thống gồm N trạng thái phân biệt, được đánh số thứ tự 1, 2,

…, N Tại thời điểm t bất kỳ, hệ thống có thể chuyển từ trạng thái Si sang mộttrong N – 1 trạng thái còn lại hoặc chuyển trở lại chính trạng thái Si

Như vậy, ở thời điểm t, từ trạng thái Si có N nhánh thao tác chuyểntrạng thái Mỗi nhánh này có một độ đo khả năng xảy ra (xác suất xảy ra),được gọi là xác suất chuyển trạng thái

+ Ví dụ:

Hình 1.12Mô hình Markov 3 trạng thái.

Trong đó: S làcác trạng thái trong mô hình Markov

a là các xác suất chuyển tiếp

1.4.2 Observable Markov Model

Xác suất chuyển trạng thái cho tất cả các trạng thái trong hệ thống cóthể được mô tả bằng ma trận chuyển trạng thái:

Trang 22

Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là

mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quátrình Markov với các tham số không biết trước và nhiệm vụ là xác định cáctham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham

số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích

kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếpbởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham sốduy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suấtphân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiệnđược sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.Đây là một môhình toán thống kê có ứng dụng rộng rãi trong Tin sinh học

Mô hình Markov ẩn là dạng mở rộng của mô hình Markov Trong môhình Markov, các sự kiện quan sát được nằm trong mỗi trạng thái và phụ

Trang 23

thuộc vào và phụ thuộc vào hàm mật độ xác suất trong các trạng thái đó (Hình1.13).

Hình 1.13 Ví dụ mô hình Markov ẩn.

Trong đó: S là các trạng thái trong mô hình Markov

a là các xác suất chuyển tiếp

b làcác xác suất đầu ra

v là dữ liệu quan sát

+ Sự tiến hóa của mô hình Markov:

Hình 1.14 dưới đây làm nổi bật các chuyển tiếp trạng thái của mô hìnhMarkov ẩn Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của mô hình theothời gian, với các trạng thái tại các thời điểm khác nhau t1 và t2 được biểudiễn bằng các tham biến khác nhau, x(t1) và x(t2)

Hình 1.14Sự tiến hóa theo thời gian của mô hình Markov ẩn.

Trang 24

Trong sơ đồ này, nó được hiểu rằng thời gian chia cắt ra (x(t), y(t)) mởrộng tới các thời gian trước và sau đó như một sự cần thiết Thông thường látcắt sớm nhất là thời gian t=0 hay t=1.

+ Sử dụng các mô hình Markov:

Có ba vấn đề cơ bản để giải quyết bằng HMM:

- Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra

cụ thể Giải bằng thuật toán tiến trước

- Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn)

có khả năng lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp Giải bằngthuật toán Viterbi

- Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyểntiếp trạng thái và các xác suất đầu ra Giải bằng thuật toán Baum-Welch

+ Ví dụ cụ thể:

Giả sử chúng tôi có một người bạn sống ở rất xa Hàng ngày chúng tôi gọiđiện thoại cho nhau và anh ta kể cho chúng tôi nghe anh ta đã làm gì trong ngày.Người bạn chúng tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ

và 3) dọn phòng Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếpvào thời tiết hôm đấy thế nào Như vậy, chúng tôi không nhận được thông tin cụthể về thời tiết nơi anh bạn chúng tôi sống nhưng chúng tôi lại biết về xu hướngchung Dựa vào lời kể của công việc hàng ngày của anh ta, chúng tôi có thể đoán

về thời tiết hôm đó

Như vậy, thời tiết được vận hành như một chuỗi Markov cụ thể Có 2trạng thái thời tiết, "Mưa" và "Nắng", nhưng chúng tôi không quan sát trựctiếp, do đó, chúng là ẩn đối với chúng tôi Vào mỗi ngày, anh bạn chúng tôi sẽlàm một trong các việc sau phụ thuộc vào thời tiết hôm đó là "đi dạo", "đichợ" và "dọn phòng" Vì anh bạn chúng tôi đã tường thuật lại hoạt động của

Trang 25

mình, đó là các dữ liệu quan sát Toàn bộ hệ thống này là một mô hìnhMarkov ẩn (HMM).

Chúng tôi biết được xu hướng thời tiết nói chung và chúng tôi cũng biếtbạn chúng tôi thường thích làm gì Nói cách khác, các thông số của HMM đãbiết Thực tế, chúng ta có thể mô tả điều này bằng ngôn ngữ lập trình Python:

ta sẽ đi dạo

1.4.2 Vector hỗ trợ (SVM - Support Vector Machine)

Phương pháp phân lớp sử dụng máy vec-tơ hỗ trợ SVM (support vectormachine) là một phương pháp nổi tiếng dựa trên việc cực đại hóa dải biênphân lớp (max margin classification) và việc lựa chọn các hàm nhân (kernel)phù hợp Phương pháp này được sử dụng rộng rãi để giải quyết nhiều bài toáncủa tin sinh học do tính hiệu quả, độ chính xác cao, và khả năng xử lý đối với

Trang 26

các bộ dữ liệu lớn [2] Sau đây là những vấn đề cơ bản của kỹ thuật phân lớp

sử dụng SVM

Support Vector Machine (SVM) là một phuơng pháp phân lớp dựa trên lýthuyết học thống kê, được đề xuất bởi Vapnik (1995).Để đơn giản ta sẽ xét bàitoán phân lớp nhị phân, sau đó sẽ mở rộng vấn đề ra cho bài toán phân nhiều lớp

Xét một ví dụ của bài toán phân lớp như hình 1.15; ở đó ta phải tìmmột đường thẳng sao cho bên trái nó toàn là các điểm đỏ, bên phải nó toàn làcác điểm xanh Bài toán mà dùng đường thẳng để phân chia này được gọi làphân lớp tuyến tính (linear classification)

Trang 27

Lưu ý cách dùng từ ở đây: điểm dữ liệu, mẫu… đều được hiểu là inputvector xi; nếu là không gian 2 chiều thì đường phân cách là đường thẳng,nhưng trong không gian đa chiều thì gọi đó là siêu phẳng.

Giả sử tập dữ liệu của ta có thể phân tách tuyến tính hoàn toàn (cácmẫu đều được phân đúng lớp) trong không gian đặc trưng (feature space), do

đó sẽ tồn tại giá trị tham số w và b theo (1) thỏa y(x n)> 0 cho những điểm cónhãn t n=+1 và y(x n)<0 cho những điểm có t n=−1, vì thế mà t n y(x n)>0 cho mọiđiểm dữ liệu huấn luyện

SVM tiếp cận giải quyết vấn đề này thông qua khái niệm gọi là lề,đường biên… (margin) Lề được chọn là khoảng cách nhỏ nhất từ đường phâncách đến mọi điểm dữ liệu hay là khoảng cách từ đường phân cách đến nhữngđiểm gần nhất (Hình 1.16)

Hình 1.16 Lề.

Trong SVM, đường phân lớp tốt nhất chính là đường có khoảng cáchmargin lớn nhất (tức là sẽ tồn tại rất nhiều đường phân cách xoay theo cácphương khác nhau, và ta chọn ra đường phân cách mà có khoảng cách margin

là lớn nhất) (Hình 1.17)

Ngày đăng: 26/08/2016, 07:48

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Nguyễn Thị Thảo, Nguyễn Thị Huyền, Đoàn Thị Thu Hà Trần Thị Thu Huyền, Nguyễn Thị Thủy (2011), “ Phương pháp phân lớp sử dụng máy vec- to hỗ trợ ứng dụng trong tin sinh học, Tạp chí Khoa học và Phát triển 2011, 9 (6), tr.1021 – 1031.Tiếng Anh Sách, tạp chí
Tiêu đề: Phương pháp phân lớp sử dụng máy vec-to hỗ trợ ứng dụng trong tin sinh học, "Tạp chí Khoa học và Phát triển 2011
Tác giả: Nguyễn Thị Thảo, Nguyễn Thị Huyền, Đoàn Thị Thu Hà Trần Thị Thu Huyền, Nguyễn Thị Thủy
Năm: 2011
34. Burger, L. and Van Nimwegen, E. (2008) Accurate pre-diction of protein- protein interactions from sequence alignments using a BayesianmethodMolecular Systems Biology, 4, 1-14.http://dx.doi.org/10.1038/msb4100203 Link
35. White, R.A., Szurmant, H., Hoch, J.A. and Hwa, T. (2007) Features of protein-protein interactions in two-component signaling deduced from genomic libraries. Methods in Enzymology, 422, 75-101.http://dx.doi.org/10.1016/S0076-6879(06)22004-4 Link
36. Weigt, M., White, R.A., Szurmant, H., Hoch, J.A. and Hwa, T. (2009) Identification of direct residue contacts in protein-protein interaction by message passing. PNAS, 106, 67-72.http://dx.doi.org/10.1073/pnas.0805923106 Link
37. Aloy, P., Ceulemans, H., Stark, A. and Russell, R.B. (2003) The relationship between sequence and interaction divergence in proteins.Journal of Molecular Biology, 332, 989-998.http://dx.doi.org/10.1016/j.jmb.2003.07.006 Link
38. Ghoorah, A.W., Devignes, M.-D., Smạl-Tabbone, M. and Ritchie, D.W. (2011) Spatial clustering of protein binding sites for template based protein docking. Bioin-formatics, 27, 2820-2827.http://dx.doi.org/10.1093/bioinformatics/btr493 Link
39. Keskin, O. and Nussinov, R. (2007) Similar binding sites and different partners: Implications to shared proteins in cellular pathways. Structure, 15, 341-354.http://dx.doi.org/10.1016/j.str.2007.01.007 Link
40. Morcos, F., Pagnani, A., Lunt, B., Bertolino, A., Marks,D.S., Sander, C., Zecchina, R., Onuchic, J.N., Hwa, T. and Weigt, M. (2011) Directcoupling analysis of residue coevolution captures native contacts across many proteinfamilies. Proceedings of the National Academy of Sciences of the United States of America, 108, E1293- E1301.http://dx.doi.org/10.1073/pnas.1111471108 Link
41. Kawashima, S., Pokarowski, P., Pokarowska, M., Kolinski, A., Katayama, T. and Kanehisa, M. (2008) AAindex: Amino acid index database, progress report 2008. Nucleic Acids Research, 36, D202-D205.http://dx.doi.org/10.1093/nar/gkm998 Link
42. Zhou, H.-X. and Qin, S. (2007) Interaction-site prediction for protein complexes: A critical assessment. Bioinformatics, 23, 2203-2209.http://dx.doi.org/10.1093/bioinformatics/btm323 Link
43. Ritchie, D.W. (2008) Recent progress and future directions in protein- protein docking. Current Protein and Peptide Science, 9, 1-15.http://dx.doi.org/10.2174/138920308783565741 Link
44. Li, B. and Kihara, D. (2012) Protein docking prediction using predicted protein-protein interface. BMC Bioinformatics, 13, 7.http://dx.doi.org/10.1186/1471-2105-13-7 Link
46.Chen, C.-T., Peng, H.-P., Jian, J.-W., Tsai, K.-C., Chang, J.-Y., Yang, E.- W., Chen, J.-B., Ho, S.-Y., Hsu, W.-L. and Yang, A.-S. (2012) Protein- protein interaction site predictions with three-dimensional probability distributions of interacting atoms on protein surfaces. PloS ONE, 7, e37706.http://dx.doi.org/10.1371/journal.pone.0037706 Link
1.Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng, Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư Khác
3. Bleakley K, Biau G, Vert J-P: Supervised reconstruction of biological networks with local models. Bioinformatics (Oxford, England) 2007, 23:i57–65 Khác
4. Bowers PM, Pellegrini M, Thompson MJ, Fierro J, Yeates TO, Eisenberg D: Prolinks : a database of protein functional linkages derived from coevolution. 2004 Khác
5. Dandekar T, Snel B, Huynen M, Bork P: Conservation of gene order : a fingerprint of proteins that physically interact Thomas Dandekar , Berend Snel ,. TIBS, Elsevier Science Ltd. 1998, 0004:324–328 Khác
6. Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA: Protein interaction maps for complete genomes based on gene fusion events.Nature,Macmillan Magazines Ltd 1999, 402 Khác
7. Ermolaeva MD, White O, Salzberg SL: Prediction of operons in microbial genomes. Nucleic acids research 2001, 29:1216–1221 Khác
8. Galperin MY, Koonin E V: Who’s your neighbor? New computational approaches for functional genomics. Nature Biotechnology 2000, 18:609–613 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.3 Hormone tăng trưởng (Growth hormone). - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.3 Hormone tăng trưởng (Growth hormone) (Trang 11)
Hình 1.4 Actin. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.4 Actin (Trang 11)
Hình 1.5 Ferritin. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.5 Ferritin (Trang 12)
Hình 1.6 Tương tác protein-protein. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.6 Tương tác protein-protein (Trang 15)
Hình 1.7 Mạng tương tác protein-protein. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.7 Mạng tương tác protein-protein (Trang 16)
Hình 1.12Mô hình Markov 3 trạng thái. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.12 Mô hình Markov 3 trạng thái (Trang 21)
Hình 1.14Sự tiến hóa theo thời gian của mô hình Markov ẩn. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.14 Sự tiến hóa theo thời gian của mô hình Markov ẩn (Trang 23)
Hình 1.16 Lề. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.16 Lề (Trang 27)
Hình 1.18 Khoảng cách từ điểm dữ liệu đến mặt phân cách. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.18 Khoảng cách từ điểm dữ liệu đến mặt phân cách (Trang 28)
Hình 1.20 Cực tiểu khoảng cách lề. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 1.20 Cực tiểu khoảng cách lề (Trang 32)
Hình 2.2 Dự đoán liên kết residue giữa các protein. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 2.2 Dự đoán liên kết residue giữa các protein (Trang 38)
Sơ đồ khối mô tả các bước thực hiện ( hình 2.3): - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Sơ đồ kh ối mô tả các bước thực hiện ( hình 2.3): (Trang 39)
Bảng 3-2 Công thức tính độ đo. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Bảng 3 2 Công thức tính độ đo (Trang 44)
Hình 3.1 Struct A của C1-set - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 3.1 Struct A của C1-set (Trang 45)
Hình 3.3. So sánh độ đo MCC trước và sau loại bỏ. - Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác
Hình 3.3. So sánh độ đo MCC trước và sau loại bỏ (Trang 46)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w