MỤC LỤC PHầN Mở ĐầU 1 1. Lý do chọn đề tài 1 2. Lịch sử nghiên cứu 2 3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 3 3.1 Mục đích nghiên cứu 3 3.2 Đối tượng nghiên cứu 3 3.3 Phạm vi nghiên cứu 3 4. Tóm tắt 3 5. Phương pháp nghiên cứu 4 CHƯƠNG I. TỔNG QUAN 5 1.1 Protein 5 1.1.1 Thế nào là protein 5 1.1.2. Cấu trúc – chức năng của Protein 5 1.1.3. Vai trò Protein trong sinh học 8 1.2. Sự tương tác giữa các protein 10 1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein 12 1.4Hidden Markov Model (HMM) 16 1.4.1Chuỗi Markov là gì? 16 1.4.2 Observable Markov Model 16 1.4.3 Mô hình Markov ẩn 17 CHƯƠNG II. ĐỀ XUẤT PHƯƠNG ÁN CẢI TIẾN KẾT QUẢ DỰ ĐOÁN LIÊN KẾT RESIDUE 31 2.1 Đặt vấn đề 31 2.2 Đề xuất phương án cải tiến 33 CHƯƠNG III. CÀI ĐẶT VÀ THỬ NGHIỆM 38 3.1 Dữ liệu 38 3.3Kết quả thực nghiệm 40 KếT LUậN VÀ HƯớNG PHÁT TRIểN 44 TÀI LIệU THAM KHẢO 45
Trang 1LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới
Cô giáo, TS Lê Thị Tú Kiên đã tận tình hướng dẫn, động viên, giúp đỡ emtrong suốt quá trình thực hiện luận văn
Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô trong Khoa Công nghệthông tin đã truyền đạt kiến thức quý báu cho em trong những năm học vừaqua
Con xin nói lên lòng biết ơn đối với Ông Bà, Cha Mẹ luôn là nguồnchăm sóc, động viên trên mỗi bước đường học vấn của con
Xin chân thành cảm ơn các Anh Chị và Bạn bè, đặc biệt là các thànhviên trong lớp K23 đã ủng hộ, giúp đỡ và động viên tôi trong suốt thời gianhọc tập trên giảng đường và thực hiện luận văn này
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng chophép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em kính mongnhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các Bạn
Em xin chân thành cảm ơn!
Hà Nội, ngày 30 tháng 09 năm 2015
Học viên
Nguyễn Thị Hằng
Trang 2MỤC LỤC
PHẦN MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Lịch sử nghiên cứu 2
3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 3
3.1 Mục đích nghiên cứu 3
3.2 Đối tượng nghiên cứu 3
3.3 Phạm vi nghiên cứu 3
4 Tóm tắt 3
5 Phương pháp nghiên cứu 4
CHƯƠNG I TỔNG QUAN 5
1.1 Protein 5
1.1.1 Thế nào là protein 5
1.1.2 Cấu trúc – chức năng của Protein 5
1.1.3 Vai trò Protein trong sinh học 8
1.2 Sự tương tác giữa các protein 10
1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein 12
1.4Hidden Markov Model (HMM) 16
1.4.1Chuỗi Markov là gì? 16
1.4.2 Observable Markov Model 16
1.4.3 Mô hình Markov ẩn 17
CHƯƠNG II ĐỀ XUẤT PHƯƠNG ÁN CẢI TIẾN KẾT QUẢ DỰ ĐOÁN LIÊN KẾT RESIDUE 31
Trang 32.1 Đặt vấn đề 31
2.2 Đề xuất phương án cải tiến 33
CHƯƠNG III CÀI ĐẶT VÀ THỬ NGHIỆM 38
3.1 Dữ liệu 38
3.3Kết quả thực nghiệm 40
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 44
TÀI LIỆU THAM KHẢO 45
Trang 4DANH MỤC HÌNH ẢNH
Hình 1.1 Cấu trúc không gian của protein kháng thể 6
Hình 1.2 Phenylalanine hydroxylase 6
Hình 1.3 Hormone tăng trưởng (Growth hormone) 7
Hình 1.4 Actin 7
Hình 1.5 Ferritin 8
Hình 1.6 Tương tác protein-protein 11
Hình 1.7 Mạng tương tác protein-protein 11
Hình 1.12Mô hình Markov 3 trạng thái 16
Hình 1.13 Ví dụ mô hình Markov ẩn 18
Hình 1.14Sự tiến hóa theo thời gian của mô hình Markov ẩn 18
Hình 1.15 Phân lớp 21
Hình 1.16 Lề 22
Hình 1.17 Đường phân lớp tốt nhất 23
Hình 1.18 Khoảng cách từ điểm dữ liệu đến mặt phân cách 23
Hình 1.19 Một vài điểm bị phân lớp sai 27
Hình 1.20 Cực tiểu khoảng cách lề 28
Hình 2.1 Mô hình phương pháp dự đoán 33
Hình 2.2 Dự đoán liên kết residue giữa các protein 34
Hình 2.3 Sơ đồ khối mô tả các bước thực hiện 36
Hình 3.1 Struct A của C1-set 41
Hình 3.2 Struct B của C1-set 41
Hình 3.3 So sánh độ đo MCC trước và sau loại bỏ 42
Hình 3.4 So sánh độ đo Precision trước và sau loại bỏ 42
Trang 5DANH MỤC BẢNG
Bảng 3-1 Danh sách dữ liệu 39Bảng 3-2 Công thức tính độ đo 40
Trang 6PHẦN MỞ ĐẦU
1 Lý do chọn đề tài
Trong tế bào động vật, protein có vai trò hết sức quan trọng Chúngtham gia cấu trúc của tế bào, là những enzym xúc tác cho các quá trình sinh lísinh hóa xảy ra trong tế bào, protein còn tham gia các quá trình vận chuyển,bảo vệ, điều khiển, là nơi dự trữ chất dinh dưỡng, nhận biết các loại phân tửkhác nhau, chịu trách nhiệm về sự vận động của động vật ở mức tế bào và cơthể Các chức năng này có thể do một hoặc nhiều phân tử protein đặc hiệuđảm nhiệm Chính vì thế,sự tương tác giữa các protein rất quan trọng đối vớicác hoạt động sống của tế bào Protein
Sự hiểu biết chi tiết về tương tác giữa các protein không chỉ hữu íchtrong việc giải thích chức năng cho các protein, mà còn rất quan trọng trongviệc chế tạo thuốc và điều trị bệnh
Trên thế giới đã có một số phương pháp thực nghiệm nghiên cứu xemliệu hai (hay nhiều) protein có liên kết với nhau hay không Nhưng các phươngpháp thực nghiệm này thường tốn rất nhiều chi phí và thời gian, lại rất khó có thểgiải quyết được bài toán sâu hơn về sự tương tác giữa hai protein, nghĩa lànghiên cứu xem các residure liên kết với nhau như thế nào nào giữa vùngtương tác của hai protein, nên các nhà nghiên cứu thường dựa trên các phươngpháp Sinh–Vật lý như Nuclear Magnetic Resonance (NMR), X-raycrystallography hay các phương pháp tính toán như PPI binding sites, docking,covariance-based để giải quyết bài toán này
Trong những năm gần đây, đã cómột số nghiên cứu về dự đoán liên kếtresidue giữa các protein tương tác [10, 27]đã đạt được kết quả dự đoán tốt,nhưng vẫn còn một số điểm hạn chế, vẫn tồn tại một số trường hợp dự đoánchưa chính xác Tức là có xuất hiện một số trường hợp dự đoán khác so với
Trang 7kết quả thực tế, xuất hiện một số trường hợp False Positive (FP) (nhữngresidue trong thực tế không tương tác với nhau, nhưng lại dự đoán chúngtương tác với nhau).
Vì những lí do trên, chúng tôi lựa chọn đề tài “Dự đoán liên kết residuegiữa các protein tương tác” để tiếp tục tìm hiểu và mở rộng hướng nghiên cứutrước đó nhằm loại bỏ một số trường hợp dự đoán chưa chính xác để tăng độchính xác dự đoán
2 Lịch sử nghiên cứu
Nghiên cứu về sự tương tác giữa các protein thường được chia ở haimức Ở mức một, các nhà nghiên cứu quan tâm đến việc trả lời câu hỏi: “Hai(hay nhiều) protein đã cho có tương tác với nhau hay không?” Các phươngpháp thực nghiệm sinh học như Sắc kí ái lực (Affinity chromatography), Kếttủa miễn dịch (Immunopricipitate), Cross-linking, hệ thống lai kép (Twohybride system) sẽ trả lời được câu hỏi này Tuy nhiên, các phương pháp thựcnghiệm này thường tốn rất nhiều chi phí và thời gian nên một số phương pháptính toán như Dựa trên hệ gien (Genomic based methods), Gien láng riềng(Gene neighborhood), Phânloại (Classification methods) đã được ra đời nhằmtrợ giúp giải quyết vấn đề này
Trong khi đó, ở mức hai, các nhà nghiên cứu quan tâm đến việc trả lờicâu hỏi: “Hai (hay nhiều) protein tương tác với nhau như thế nào?” Nghĩa làcác residue trên bề mặt tiếp xúc của hai protein liên kết với nhau như thế nào.Với câu hỏi này thì các phương pháp thực nghiệm sinh học rất khó có thể trảlời được mà các nhà nghiên cứu thường chỉ dựa vào phân tích các phức hợpcấu trúc protein (Structural protein complex-based methods), hay phân tíchchuỗi dựa trên phương pháp Hiệp phương sai (Covariance-based methods ofsequences analysis)
Trang 8Trong những năm gần đây, một số nghiên cứu của các nhóm tác giảGonzález [10], Tu Kien T Le [27] đã kết hợp thông tin về Structural proteincomplex và Sequence covariance nhằm nâng cao kết quả dự đoán sự liên kếtresidure trên bề mặt tiếp xúc của các protein.
Trong luận văn này,chúng tôi tiếp tục tìm hiểu và mở rộng hướng nghiêncứu trước đó nhằm loại bỏ một số trường hợp “dị biệt” và tăng độ chính xác dựđoán
3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
3.1 Mục đích nghiên cứu
Cải tiến kết quả dự đoán liên kết residue giữa các protein tương tác từ kếtquả dự đoán trong bài báo của nhóm tác giả Tu Kien T Le [27]
3.2 Đối tượng nghiên cứu
Nghiên cứu phương pháp dự đoán liên kết residue từ các nghiên cứutrước của các nhóm tác giả González [10] và Tu Kien T Le [27]
Công cụ xây dựng phương pháp dự đoán liên kết residue giữa cácprotein tương tác: Ngôn ngữ lập trình Matlab
Để cải tiến, bước đầu luận văn mô tả tổng quan về protein, tương tácgiữa các protein, tiếp theo mô tả thuật toán loại bỏ trường hợp dị biệt để tăng
độ chính xác cho việc dự đoán liên kết residue giữa các protein tương tác
Trang 9Cuối cùng luận văn trình bày phần cài đặt thử nghiệm về dự đoán liên kếtresidue giữa các protein tương tác và đưa ra đánh giá hiệu quả của cải tiến này.
5 Phương pháp nghiên cứu
Nghiên cứu lý thuyết
Nghiên cứu các phương pháp trước về dự đoán liên kết residue giữa cácprotein tương tác
Cài đặt và thử nghiệm
Tham khảo ý kiến đánh giá
Trang 101.1.2 Cấu trúc – chức năng của Protein
Theo công trình nghiên cứu “What is protein” của Georgia C.Lauritzen thuộc đại học Utah State: “Protein được cấu tạo từ các đơn vị nhỏhơn được gọi là các axit amin Hiên nay đã phát hiện ra hơn 20 loại axit aminkhác nhau Mỗi phân tử protein bao gồm rất nhiều các axitamin, được sắp xếptheo một trình tự ngẫu nhiên, từ đó tạo ra hàng trăm, hàng nghìn các phân tửprotein có cấu trúc khác nhau Hầu hết các proteinlà các phân tử lớn có thểchứa hàng trăm axit aminđược sắp xếptrong các ngànhvà các chuỗi” Trìnhtựaxit amin xác định cấu trúc không gian 3 chiều của protein và chức năngchuyên biệt của chúng Có 5 loại cấu trúc không gian, ứng với 5 chức năngcủa Protein như sau:
Trang 11Hình 1.1 Cấu trúc không gian của protein kháng thể
Enzyme xúc tác cho hầu hết các phản ứng hóa học xảy ra trong tế bào Chúngcũng giúp đỡ hình thành những phân tử mới bằng cách đọc thông tin di truyềnlưu trữ trong DNA (Hình 1.2)
Hình 1.2 Phenylalanine hydroxylase.
Trang 12- Thông tin – Messenger
Protein thông tin, như một số loại hormone, truyền tải tín hiệu để phối hợpcác quá trình sinh học giữa các tế bào, mô, cơ quan khác nhau Ví dụ:hormone tăng trưởng (Growth hormone) (Hình 1.3)
Hình 1.3 Hormone tăng trưởng (Growth hormone).
- Thành phần cấu trúc
Những protein này cung cấp cấu trúc và nuôi dưỡng tế bào Trong mộtphạm vi lớn hơn, chúng còn cho phép tế bào di chuyển Ví dụ: Actin
Trang 13- Vận chuyển-dự trữ
Các protein này bám vào những nguyên tử và phân tử nhỏ bên trong tếbào và lưu thông trong cơ thể Ví dụ: Ferritin (Hình 1.5)
Hình 1.5 Ferritin.
1.1.3 Vai trò Protein trong sinh học
Protein là những đại phân tử được cấu tạo theo nguyên tắc đa phân màcác đơn phân là axit amin Chúng kết hợp với nhau thành một mạch dài nhờcác liên kết peptide (gọi là chuỗi polypeptide) Các chuỗi này có thể xoắncuộn hoặc gấp theo nhiều cách để tạo thành các bậc cấu trúc không gian khácnhau của protein
Protein hình thành, duy trì và thay thế các tế bào trong cơ thể Proteinchiếm tới trên 50% khối lượng khô của tế bào và là vật liệu cấu trúc của tếbào Thiếu protein dẫn đến suy dinh dưỡng, chậm lớn, suy giảm miễn dịch,ảnh hưởng xấu đến chức năng của các cơ quan trong cơ thể
Protein là tham gia vào thành phần cơ bắp, máu, bạch huyết, hocmôn,men, kháng thể, các tuyến bài tiết và nội tiết Vì vậy, protein có liên quan đếnmọi chức năng sống của cơ thể (tuần hoàn, hô hấp, sinh dục, tiêu hóa, bài tiếthoạt động thần kinh và tinh thần )
Trang 14Protein cần thiết cho chuyển hóa bình thường các chất dinh dưỡngkhác, đặc biệt là các vitamin và chất khoáng Khi thiếu protein, nhiều vitaminkhông phát huy đầy đủ chức năng của chúng mặc dù không thiếu về số lượng.
Protein còn là nguồn năng lượng cho cơ thể, thường cung cấp 15% năng lượng của khẩu phần, 1g protein đốt cháy trong cơ thể cho 4 Kcal(trong khi đó Gluxit là 4 Kcal, Lipit là 9kcal và rượu là 7kcal)
10%-Protein kích thích sự thèm ăn và vì thế nó giữ vai trò chính tiếp nhậncác chế độ ăn khác nhau Thiếu protein gây ra các rối loạn quan trọng trong
cơ thể như ngừng lớn hoặc chậm phát triển, mỡ hóa gan, rối loạn hoạt độngnhiều tuyến nội tiết (giáp trạng, sinh dục), thay đổi thành phần protein máu,giảm khả năng miễn dịch sinh học của cơ thể và tăng tính cảm thụ của cơ thểvới các bệnh nhiễm khuẩn
Bổ sung protein cho cơ thể:Sau khi được nạp vào cơ thể, trong quátrình tiêu hoá thức ăn, protein được phân huỷ tại dạ dày bởi các enzyme Nó chuyển thành các polypeptides, cung cấp các axit amin cần thiết cho sự sống.Thành phần axit amin của cơ thể người không thay đổi và cơ thể chỉ tiếp thumột lượng các axit amin hằng định vào mục đích xây dựng và tái tạo tổ chức
Có 8 axit amin cơ thể không thể tổng hợp được hoặc chỉ tổng hợp một lượngrất ít Đó là Lyzin, tryptophan, phenynalaninin, lơ - xin, izolơxin, valin,treonin, metionin Người ta gọi chúng là các axit amin cần thiết
Các axit amin cần thiết này được lấy thông qua protein của thức ăn từbên ngoài Tuy nhiên, trong tự nhiên không có loại protein thức ăn nào cóthành phần hoàn toàn giống với thành phần axit amin của cơ thể Do đó đểđáp ứng nhu cầu cơ thể cần phối hợp các loại protein thức ăn để có thànhphần axit amin cân đối nhất
Giá trị dinh dưỡng một loại protein cao khi thành phần axit amin cầnthiết trong đó cân đối và ngược lại Hầu hết thức ăn có nguồn gốc động vật và
Trang 15thực vật chứa đầy đủ và cân đối các thành phần của các axit amin cần thiết Tuy nhiên, không có một loại thức ăn nào có đủ tất cả mà cần phải sử dụngmột chế độ hỗn hợp nhiều loại thức ăn.
Thực phẩm nguồn gốc động vật (thịt, cá, trứng, sữa) là nguồn proteinquý, nhiều về số lượng, và cân đối hơn về thành phần và đậm độ axit amincần thiết cao Hàm lượng các axit amin cần thiết trong thực phẩm nguồn gốcthực vật (đậu tương, gạo, mì, ngô, các loại đậu khác ) không cao (trừ đậunành); nhưng cơ thể vẫn phải bổ sung cân đối đấy đủ các loại này Vì vậy,biết phối hợp các nguồn protein thức ăn hợp lý sẽ tạo nên giá trị dinh dưỡngcao của khẩu phần Ví dụ gạo, ngô, mì nghèo lizin còn đậu tương, lạc, vừnghàm lượng lyzin cao, khi phối hợp gạo hoặc mì hoặc ngô với đậu tương,vừng, lạc sẽ tạo nên protein khẩu phần có giá trị dinh dưỡng cao hơn cácprotein đơn lẻ
1.2 Sự tương tác giữa các protein
Tương tác protein là quá trình tác động qua lại giữa các protein với nhauhoặc giữa các protein với các phân tử khác trong tế bào ảnh hưởng đến cáchoạt động sống trong tế bào và ảnh hưởng đến quá trình sống của động vật(Hình 1.6)
Trang 16Hình 1.6 Tương tác protein-protein.
- Mạng tương tác protein
Việc tìm hiểu tương tác của các protein là 1 trong những vấn đề quantrọng trong sinh học Các thí nghiệm thực tế cho thấy các protein thể hiệnchức năng khi tương tác với nhau Tập hợp các tương tác của protein được gọi
là mạng tương tác protein-protein (protein-protein interactions - PPIs) (Hình1.7) Mạng PPIs thường được biểu diễn bằng một đồ thị mà mỗi cạnh là mộtprotein và mỗi đỉnh là một tương tác
Hình 1.7 Mạng tương tác protein-protein.
- Domain – Domain Interactions (DDIs)
Tương tác domain - domain có thể là một đoạn ngắn hoặc vùng xoắn
Vì thế, định nghĩa tương tác giữa domain - domain của protein rất hữu dụngcho việc nghiên cứu, phân tích và phát tiển về chức năng, cấu trúc mạng lướiprotein và tín hiệu đường dẫn [45]
Protein domains được biết đến như một phần chức năng và cấu trúc củaprotein Chúng được tồn tại trong suốt quá trình phát triển Trong tổ hợp
Trang 17enzymes và cấu trúc phức hợp protein, bề mặt tương tác giữa hai miền luôn xuấthiện giữa hai domain DDIs có thể xuất hiện trong cùng một hoặc hai proteinkhác nhau Tóm lại, sự hiểu biết về DDIs rất quan trọng vì chúng không chỉ làmsáng tỏ PPIs và chức năng protein, mà còn có thể đưa ra PPIs mới.
Có hai cách chính để nhận ra DDIs từ hai nguồn dữ liệu PPIs khácnhau Cách 1 là định nghĩa dựa trên cấu trúc phức hợp của protein trong ngânhàng cơ sở dữ liệu protein ( Protein Data Bank – PDB) Phương pháp tiếp cận
cơ sở dữ liệu không những cung cấp cặp domain của chuỗi protein có thểtương tác, mà còn cung cấp cách thức tương tác của chúng, chúng chỉ ra mộtcách rõ ràng cặp residue của hai domain rằng buộc với nhau Cơ sở dữ liệuđược tạo từ phương pháp 3did, InterPare, PIBASE, SCOPPI, SCOWLP đượcgọi là cơ sở dữ liệu tương tác
- Protein-protein interaction interfaces ( Bề mặt tương tác giữa các protein)
Mỗi một protein có nhiều chức năng khác nhau Để thực hiện chứcnăng của mình thì các protein thường tương tác với các protein khác hoặc vớicác phân tử khác
Khi hai protein tương tác với nhau thì bề mặt tiếp xúc giữa hai protein
ấy người ta gọi là bề mặt tương tác (hay tiếng anh gọi là interface) Nếu ta
biết chi tiết thông tin liên kết về những residue trong hai bề mặt tiếp xúc củahai chuỗi protein này tương tác với nhau như thế nào thì sẽ rất hữu ích trongviệc chúng ta chuẩn đoán bệnh và điều chế thuốc
1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein
Nghiên cứu về sự tương tác giữa các protein được chia ra làm hai mức độ
Ở mức độ thứ nhất, các nhà nghiên cứu thường quan tâm xem liệu hai (haynhiều) protein có liên kết với nhau hay không Các phương pháp thực nghiệm
Trang 18sinh học như Sắc kí ái lực (Affinity chromatography), Kết tủa miễn dịch(Immunopricipitate), Cross-linking, hệ thống lai kép (Two hybrid system) sẽ đưa rahướng giải quyết bài toán này Tuy nhiên, các phương pháp thực nghiệm này thườngtốn rất nhiều chi phí và thời gian nên một số phương pháp tính toán như Dựa trên hệgien (Genomic based methods), Gien láng riềng (Gene neighborhood), Phânloại(Classification methods) đã được ra đời nhằm trợ giúp giải quyết vấn đề này Ở mức
độ hai, các nhà nghiên cứu tìm hiểu sâu hơn về sự tương tác giữa hai protein,nghĩa là nghiên cứu xem các residure liên kết với nhau như thế nào nào giữavùng tương tác của hai protein Các phương pháp thực nghiệm sinh học rấtkhó có thể giải quyết được bài toán này nên các nhà nghiên cứu thường dựatrên các phương pháp Sinh–Vật lý như Nuclear Magnetic Resonance(NMR),X-ray crystallography hay các phương pháp tính toán như PPI binding sites,docking, covariance-based
1.3.1 PPI binding sites
Phương pháp PPI binding sites là phương pháp Sinh – Vật lý nghiêncứu sự tương tác bề mặt của các protein Một số phương pháp cụ thể như dựđoán vị trí tương tác với phân bố xác suất ba chiều của nguyên tử tương táctrên bề mặt protein [46] Phương pháp này được mô phỏng bằng việc xâydựng bản đồ mật độ xác suất ba chiều của các atom tương tác non-covalenttrên bề mặt protein Xác suất tương tác được bắt nguồn từ cấu trúcbên trong của protein Người ta đã sử dụng phương pháp học máy để tìm hiểu
về mô hình PPI sites này Dự đoán được huấn luyện cho PPI là validated vớitập huấn luyện (gồm 432 protein) và đã được thử nghiệm trênmột bộ dữ liệu riêng biệt (gồm 142 protein) Dựa trên hệ số tương quanMatthews các tập kiểm tra independent là 0,423; accuracy, precision,sensitivity, specificity tương ứng là 0,753, 0,519, 0,677, 0,779 Kết quảBenchmark chỉ ra mô hình học máy là một trong những dự đoán tốt nhất
Trang 19cross-trong việc xác định PPI trên bề mặt protein Đặc biệt, kết quả dự đoán PPItăng, vớikích thước của PPI tăng lên và với hydrophobicity trong thành phầnacid amin của bề mặt chung PPI cũng tăng lên; vùng bề mặt chung có độ dựđoán cao hơn Kết quả chỉ ra rằng các mô hình Sinh–Vật lý trên bề mặtprotein là yếu tố quyết định quan trọng trong PPI, và phần lớn có thể dự đoánmột cách chính xác PPI với các tính năng dựa trên các dữ liệu tương tác non-covalent có chứa bên trong protein.
Phương pháp phát triển của phương pháp [ 46] này thường dựa vào đặcđiểm trình tự, cấu trúc, vật lý - hóa học để phân biệt bề mặt chung cácresidues từ bề mặt riêng của các residuestrong một protein đơn lẻ Tuy nhiên,một protein có thể có hai hoặc nhiều bề mặt chung và mỗi bề mặt chung này
có đặc trưng so với một vài protein cùng loại Vì vậy, điều đó cần thiết trongviệc phát triển các phương pháp để tìm ra liên kết residue: liên kết giữa cácresidues của hai protein tương tác
1.3.2 Docking
Phương pháp Docking là phương pháp Sinh – Vật lí nghiên cứu tìmhiểu sâu hơn về sự tương tác giữa hai protein, nghĩa là nghiên cứu xem cácresidure liên kết với nhau như thế nào nào giữa vùng tương tác của haiprotein Tuy nhiên, hiện nay phương pháp Docking này đòi hỏi một quá trìnhtính toán dài và rất khó để tìm ra các giải pháp tốt nhất [43] Ngoài ra, nhữngthay đổi cấu tạo của monomertrong quá trình hình thành các chuỗi proteincũng là hạn chế [42] Gần đây, một vài phương pháp Docking đã kết hợp giữakiến thức của vị trí liên kết PPI với các quá trình Docking nhằm cải thiện hiệusuất của chúng [42,44] Phương pháp cải thiện kết quả docking bằng cách sửdụng binding site prediction nhưngkhông chính xác 100% Phương pháp đã
sử dụng các thuật toán:PI-LZerD (sử dụng Predicted Interface dựa trên mô tảthuật toán Docking Local 3D Zernike), được dựa trên một cặp protein thuật
Trang 20toán dự đoán docking LzerD đã phát triển trước đây PI-LZerD bắt đầu từthực hiện dự đoán docking với điều kiện dự đoán bề mặt tương tác protein-protein, tiếp theo là thông tin bề mặt docking được cập nhật để cải thiện cấutạo docking hơn nữa Kết quả đạt được của các trường hợp PI-LzerD cho thấyviệccải thiện dự đoán docking chính xác hơn so với việc sử dụng phươngpháp PPI bằng cách sử dụng PPI như post-filtering.
Tuy nhiên ứng dụng của phương pháp vẫn còn hạn chế, rất khó để dựđoán chuỗi protein lớn bao gồm nhiều đơn vị cấu trúc (ví dụ, các vùng và cácmonome) bằng phương pháp Docking Trong hoàn cảnh này, việc phát triểncác phương pháp mới và tốt hơn là rất cấp bách [42]
1.3.3 Covariance-based
Phương pháp phântíchliênkếtprotein residure dựatrêntrìnhtựhiệpphươngsaicó các phương pháp tiếp cận khác nhau để xác địnhliên kết residue giữa các protein hay các domain tương tác [33-36].Ví dụ nhưphương pháp Bayesian[34], phương pháp tiếp cận này dựa trên giả thuyếtrằng giữa các amino axit được bản mẫu thay thế và các residue tương tác bịràng buộc và tương quan với nhau Sự ghép đôi này có thể được phát hiệnthông qua ràng buộc lẫn nhau về sự thay thế amino axit trong hai cột của cácsequence được dóng hàng
Chỉ phụ thuộc vào các thông tin trình tự, phương phápphântíchliênkếtprotein residure dựa trêntrìnhtựhiệpphươngsainày hứa hẹn sẽ
là một ứng dụng để dự đoán các chuỗi protein phức hợp có kích thước lớn,đặc biệt là để dự đoán chuỗi tạm thời Tuy nhiên, phương pháp đó đòi hỏi mộttập hợp lớn các tương tác PPI nhị phân hoặc tương tác giữa các domain(DDIs) giữa các phần tử protein của hai hay nhiều họ protein
Trang 211.4Hidden Markov Model (HMM)
Xét một hệ thống gồm N trạng thái phân biệt, được đánh số thứ tự 1, 2,
…, N Tại thời điểm t bất kỳ, hệ thống có thể chuyển từ trạng thái Si sang mộttrong N – 1 trạng thái còn lại hoặc chuyển trở lại chính trạng thái Si
Như vậy, ở thời điểm t, từ trạng thái Si có N nhánh thao tác chuyểntrạng thái Mỗi nhánh này có một độ đo khả năng xảy ra (xác suất xảy ra),được gọi là xác suất chuyển trạng thái
+ Ví dụ:
Hình 1.12Mô hình Markov 3 trạng thái.
Trong đó: S làcác trạng thái trong mô hình Markov
a là các xác suất chuyển tiếp
1.4.2 Observable Markov Model
Xác suất chuyển trạng thái cho tất cả các trạng thái trong hệ thống cóthể được mô tả bằng ma trận chuyển trạng thái:
Trang 22Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là
mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quátrình Markov với các tham số không biết trước và nhiệm vụ là xác định cáctham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham
số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích
kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu
Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếpbởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham sốduy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suấtphân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiệnđược sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.Đây là một môhình toán thống kê có ứng dụng rộng rãi trong Tin sinh học
Mô hình Markov ẩn là dạng mở rộng của mô hình Markov Trong môhình Markov, các sự kiện quan sát được nằm trong mỗi trạng thái và phụ
Trang 23thuộc vào và phụ thuộc vào hàm mật độ xác suất trong các trạng thái đó (Hình1.13).
Hình 1.13 Ví dụ mô hình Markov ẩn.
Trong đó: S là các trạng thái trong mô hình Markov
a là các xác suất chuyển tiếp
b làcác xác suất đầu ra
v là dữ liệu quan sát
+ Sự tiến hóa của mô hình Markov:
Hình 1.14 dưới đây làm nổi bật các chuyển tiếp trạng thái của mô hìnhMarkov ẩn Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của mô hình theothời gian, với các trạng thái tại các thời điểm khác nhau t1 và t2 được biểudiễn bằng các tham biến khác nhau, x(t1) và x(t2)
Hình 1.14Sự tiến hóa theo thời gian của mô hình Markov ẩn.
Trang 24Trong sơ đồ này, nó được hiểu rằng thời gian chia cắt ra (x(t), y(t)) mởrộng tới các thời gian trước và sau đó như một sự cần thiết Thông thường látcắt sớm nhất là thời gian t=0 hay t=1.
+ Sử dụng các mô hình Markov:
Có ba vấn đề cơ bản để giải quyết bằng HMM:
- Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra
cụ thể Giải bằng thuật toán tiến trước
- Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn)
có khả năng lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp Giải bằngthuật toán Viterbi
- Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyểntiếp trạng thái và các xác suất đầu ra Giải bằng thuật toán Baum-Welch
+ Ví dụ cụ thể:
Giả sử chúng tôi có một người bạn sống ở rất xa Hàng ngày chúng tôi gọiđiện thoại cho nhau và anh ta kể cho chúng tôi nghe anh ta đã làm gì trong ngày.Người bạn chúng tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ
và 3) dọn phòng Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếpvào thời tiết hôm đấy thế nào Như vậy, chúng tôi không nhận được thông tin cụthể về thời tiết nơi anh bạn chúng tôi sống nhưng chúng tôi lại biết về xu hướngchung Dựa vào lời kể của công việc hàng ngày của anh ta, chúng tôi có thể đoán
về thời tiết hôm đó
Như vậy, thời tiết được vận hành như một chuỗi Markov cụ thể Có 2trạng thái thời tiết, "Mưa" và "Nắng", nhưng chúng tôi không quan sát trựctiếp, do đó, chúng là ẩn đối với chúng tôi Vào mỗi ngày, anh bạn chúng tôi sẽlàm một trong các việc sau phụ thuộc vào thời tiết hôm đó là "đi dạo", "đichợ" và "dọn phòng" Vì anh bạn chúng tôi đã tường thuật lại hoạt động của
Trang 25mình, đó là các dữ liệu quan sát Toàn bộ hệ thống này là một mô hìnhMarkov ẩn (HMM).
Chúng tôi biết được xu hướng thời tiết nói chung và chúng tôi cũng biếtbạn chúng tôi thường thích làm gì Nói cách khác, các thông số của HMM đãbiết Thực tế, chúng ta có thể mô tả điều này bằng ngôn ngữ lập trình Python:
ta sẽ đi dạo
1.4.2 Vector hỗ trợ (SVM - Support Vector Machine)
Phương pháp phân lớp sử dụng máy vec-tơ hỗ trợ SVM (support vectormachine) là một phương pháp nổi tiếng dựa trên việc cực đại hóa dải biênphân lớp (max margin classification) và việc lựa chọn các hàm nhân (kernel)phù hợp Phương pháp này được sử dụng rộng rãi để giải quyết nhiều bài toáncủa tin sinh học do tính hiệu quả, độ chính xác cao, và khả năng xử lý đối với
Trang 26các bộ dữ liệu lớn [2] Sau đây là những vấn đề cơ bản của kỹ thuật phân lớp
sử dụng SVM
Support Vector Machine (SVM) là một phuơng pháp phân lớp dựa trên lýthuyết học thống kê, được đề xuất bởi Vapnik (1995).Để đơn giản ta sẽ xét bàitoán phân lớp nhị phân, sau đó sẽ mở rộng vấn đề ra cho bài toán phân nhiều lớp
Xét một ví dụ của bài toán phân lớp như hình 1.15; ở đó ta phải tìmmột đường thẳng sao cho bên trái nó toàn là các điểm đỏ, bên phải nó toàn làcác điểm xanh Bài toán mà dùng đường thẳng để phân chia này được gọi làphân lớp tuyến tính (linear classification)
Trang 27Lưu ý cách dùng từ ở đây: điểm dữ liệu, mẫu… đều được hiểu là inputvector xi; nếu là không gian 2 chiều thì đường phân cách là đường thẳng,nhưng trong không gian đa chiều thì gọi đó là siêu phẳng.
Giả sử tập dữ liệu của ta có thể phân tách tuyến tính hoàn toàn (cácmẫu đều được phân đúng lớp) trong không gian đặc trưng (feature space), do
đó sẽ tồn tại giá trị tham số w và b theo (1) thỏa y(x n)> 0 cho những điểm cónhãn t n=+1 và y(x n)<0 cho những điểm có t n=−1, vì thế mà t n y(x n)>0 cho mọiđiểm dữ liệu huấn luyện
SVM tiếp cận giải quyết vấn đề này thông qua khái niệm gọi là lề,đường biên… (margin) Lề được chọn là khoảng cách nhỏ nhất từ đường phâncách đến mọi điểm dữ liệu hay là khoảng cách từ đường phân cách đến nhữngđiểm gần nhất (Hình 1.16)
Hình 1.16 Lề.
Trong SVM, đường phân lớp tốt nhất chính là đường có khoảng cáchmargin lớn nhất (tức là sẽ tồn tại rất nhiều đường phân cách xoay theo cácphương khác nhau, và ta chọn ra đường phân cách mà có khoảng cách margin
là lớn nhất) (Hình 1.17)