PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)
Trang 1i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả nghiên cứu được viết chung với các tác giả khác đều được sự đồng ý của
họ trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác
Tác giả
Đặng Vũ Tùng
Trang 2ii
LỜI CẢM ƠN
Luận án tiến sỹ này là kết quả của quá trình nghiên cứu lý thuyết và tiến hành các thực nghiệm đầy thách thức và khó khăn; đòi hỏi sự kiên trì và tập trung cao độ Tôi thực sự hạnh phúc với kết quả đạt được trong đề tài nghiên cứu của mình
Kết quả đạt được không chỉ là những nỗ lực cá nhân, mà còn có sự hỗ trợ và giúp đỡ của tập thể người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản, đồng nghiệp và gia đình Tôi xin bày tỏ tình cảm của mình đến với họ
Trước tiên, tôi xin bày tỏ sự biết ơn sâu sắc đến PGS.TS Từ Minh Phương và PGS.TS Lê Đức Hậu Được làm việc với hai thầy là một cơ hội lớn cho tôi học hỏi phương pháp nghiên cứu, tính kiên trì và phương pháp làm việc nghiêm túc, khoa học
Tôi xin trân trọng cảm ơn Khoa Quốc tế và sau đại học, Khoa Công nghệ thông tin, Ban Giám đốc Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án
Tôi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam và các bạn bè, đồng nghiệp đã cổ vũ, động viên và tạo các điều kiện thuận lợi nhất cho tôi trong quá trình học tập, nghiên cứu
Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình tôi, nơi khơi dậy truyền thống và luôn bên cạnh ủng hộ, giúp đỡ, chia sẻ với tôi những lúc khó khăn
Xin chân thành cảm ơn!
Trang 3iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC CHỮ VIẾT TẮT vii
DANH MỤC CÁC HÌNH ix
DANH MỤC CÁC BẢNG xi
PHẦN MỞ ĐẦU 1
1 Tính cấp thiết của luận án 1
2 Mục tiêu của luận án 3
3 Các đóng góp của luận án 3
4 Bố cục của luận án 5
Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH 7
1.1 CƠ SỞ VỀ SINH HỌC PHÂN TỬ 7
1.1.1 Tế bào 7
1.1.2 DNA 7
1.1.3 Gen 8
1.1.4 Quá trình điều khiển tổng hợp protein từ gen 9
1.2 PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT 11
1.2.1 Bài toán phân hạng gen 11
1.2.2 Các hướng tiếp cận giải quyết bài toán phân hạng gen 12
Trang 4iv
1.3 CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC 16
1.3.1 Các cơ sở dữ liệu sinh học 16
1.3.2 Các mạng sinh học 20
1.3.3 Mạng tương tác gen/protein 22
1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC 23
1.4.1 Phương pháp dựa trên mức độ gần nhau của các gen/protein 23
1.4.2 Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn 25
1.4.3 Phương pháp dựa trên tích hợp thông tin kiểu hình 27
1.4.4 Phương pháp xây dựng các mô đun bệnh 28
1.5 PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG 33
1.5.1 Phương pháp kiểm tra chéo 33
1.5.2 Xác định hiệu quả của các phương pháp phân hạng 35
1.6 KẾT LUẬN CHƯƠNG 1 38
Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN 41
2.1 ĐẶT VẤN ĐỀ 41
2.1.1 Bài toán phân hạng nút trên đồ thị 43
2.1.2 Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm 43
2.1.3 Thuật toán phân hạng bằng học tăng cường 45
2.1.4 Thuật toán bước ngẫu nhiên có quay lui 46
2.2 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIÊN NGHIỆM 48 2.2.1 Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 48
Trang 5v
2.2.2 Dữ liệu thực nghiệm 51
2.2.3 Thực nghiệm và kết quả 53
2.3 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN 61
2.3.1 Thuật toán dựa trên xác suất liên kết 61
2.3.2 Dữ liệu thực nghiệm 67
2.3.3 Thực nghiệm và kết quả 67
2.4 SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT 74
2.4.1 Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng 74
2.4.2 Về thực nghiệm 75
2.5 KẾT LUẬN CHƯƠNG 2 76
Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT 78
3.1 ĐẶT VẤN ĐỀ 78
3.2 MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN 82
3.2.1 Tổng quan về phương pháp xây dựng mạng không đồng nhất 82
3.2.2 Các mạng gen/protein 82
3.2.3 Các mạng bệnh tương đồng 86
3.2.4 Mạng lưỡng phân 87
3.3 THUẬT TOÁN BƯỚC NGẪU NHIÊN CÓ QUAY LUI TRÊN MẠNG KHÔNG ĐỒNG NHẤT 87
3.4 CÁC THỰC NGHIỆM VÀ KẾT QUẢ 92
3.4.1 So sánh hiệu quả với các phương pháp cùng lớp 92
3.4.2 Dự đoán các gen liên quan đến bệnh Alzheimer 94
Trang 6vi
3.5 KẾT LUẬN CHƯƠNG 3 95
KẾT LUẬN 97
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 100
TÀI LIỆU THAM KHẢO 101
Trang 7vii
DANH MỤC CÁC CHỮ VIẾT TẮT
AUC Area Under ROC Curve Diện tích phía dưới đường cong
BioGRID Biological General Repository for
Interaction data sets
Cơ sở dữ liệu sinh học công khai bao gồm nhiều bộ dữ liệu tương tác
CANDID
A flexible method for prioritizing
candidate genes for complex human
traits
Một phương pháp phân hạng gen được giới thiệu bởi Hutz và cộng sự
CIPHER
Correlating protein Interaction
network and PHEnotype network to
pRedict disease genes
Một phương pháp phân hạng gen được giới thiệu bởi Wu và cộng sự DNA DeoxyriboNucleic Acid A-xít deoxyribonucleic
EST Expressed Sequence Tag Thẻ biểu diễn trình tự
eVOC A controlled vocabulary for unifying
gene expression data
Một từ vựng được kiểm soát để hợp nhất dữ liệu biểu hiện gen
dương bị phân lớp sai vào lớp âm)
bị phân lớp sai vào lớp dương)
GWAS Genome - Wide Association Studies
Nghiên cứu các liên kết bộ gen mở rộng (nghiên cứu tương quan toàn
bộ nhiễm sắc thể) HITS Hypertext Induced Topic Search Thuật toán tìm kiếm trên Web HPO Human Phenotype Ontology Bản thể kiểu hình của con người
HPRD Human Protein Reference Database Cơ sở dữ liệu tương tác protein của
con người KEGG Kyoto Encyclopedia of Genes and Bách khoa toàn thư Kyoto về gen
Trang 8viii
LOOCV Leave one out cross validation Kiểm tra chéo bỏ ra một
MeSH Medical Subject Heading Cơ sở dữ liệu các chủ đề về y học MINT Molecular Interaction Database Cơ sở dữ liệu về tương tác phân tử MPO Mammalian Phenotype Ontology Bản thể kiểu hình động vật có vú
NCBI National Center for Biotechnology
ROC Receiver Operating Characteristic/
Receiver Operating Curve
Đường cong đặc trưng hoạt động của bộ thu nhận - để xác định là có tín hiệu hay chỉ là do nhiễu
RWR Random Walk with Restart Thuật toán bước ngẫu nhiên có
được phân lớp đúng vào lớp âm)
TP True Positive
Dương tính thật (mẫu mang nhãn dương được phân lớp đúng vào lớp dương)
UMLS Unified Medical Language System Hệ thống ngôn ngữ y học thống
nhất
Y2H Yeast Two-Hybrid System
Hệ thống lai kép nấm men (một phương pháp được sử dụng để xác định các tương tác protein)
Trang 9ix
DANH MỤC CÁC HÌNH
Hình 1 1 Cấu trúc DNA 8
Hình 1 2 Sơ đồ tổng hợp protein từ gen 10
Hình 1 3 Thay thế các exon trong các sơ đồ kết nối cho phép tế bào tạo ra các protein khác nhau từ một gen đơn lẻ 11
Hình 1 4 Sơ đồ tổng quan về phân hạng gen 12
Hình 1 5 Sơ đồ dự đoán gen liên quan đến bệnh dựa trên mô hình học máy [59] 14
Hình 1 6 Sơ đồ phương pháp phân hạng gen dựa trên mạng 15
Hình 1 7 Mô phỏng sự rối loạn trong các mạng sinh học là nguyên nhân gây ra các căn bệnh của con người 21
Hình 1 8 Phương pháp đánh giá các thuật toán phân hạng gen 34
Hình 1 9 Phương pháp vẽ đường cong ROC 36
Hình 2 1 Thuật toán RL_Rank with priors 50
Hình 2 2 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.8 và γ tăng từ 0.1 đến 0.9 53
Hình 2 3 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.7 và γ tăng từ 0.1 đến 0.9 54
Hình 2 4 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ = 0.5 và β tăng từ 0.1 đến 0.9 55
Hình 2 5 Đường cong ROC biểu diễn kết quả RL_Rank with priors với các tham số γ = 0.5, β = 0.7 và PageRank with priors với tham số β = 0.7 56
Hình 2 6 Ví dụ về tính toán xác suất đường đi trên đồ thị 64
Hình 2 7 Thủ tục SigPathSum tính toán độ liên quan mỗi nút với một nút truy vấn 65
Trang 10x
Hình 2 8 Thuật toán phân hạng gen dựa trên xác suất liên kết 66
Hình 2 9 Đường biểu diễn các giá trị AUC trung bình khi thay đổi giá trị f 67
Hình 2 10 Biểu diễn đường cong ROC của SigPathSum và RWR 69
Hình 2 11 Biểu diễn đường cong ROC của RL_Rank with Priors, SigPathSum và RWR 75
Hình 3 1 Sơ đồ xây dựng mạng không đồng nhất tích hợp bệnh - gen 83
Hình 3 2 Sơ đồ hoạt động của thuật toán RWRH 88
Hình 3 3 Thuật toán RWRH 91
Hình 3 4 Đường cong ROC biểu diễn kết quả dự đoán của các mạng dựa trên HPO và OMIM 93
Trang 11xi
DANH MỤC CÁC BẢNG
Bảng 1 1 Các phương pháp đo khoảng cách giữa các phần tử trong mạng tương tác
25
Bảng 1 2 Một số phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng [119] 30
Bảng 1 3 Ma trận nhầm lẫn 35
Bảng 2 1 Các nguồn dữ liệu xây dựng FLN [60, 66] 52
Bảng 2 2 Kết quả của RL_Rank with priors và các thuật toán cùng lớp 57
Bảng 2 3 Danh sách các gen liên quan đến bệnh cao huyết áp đã biết và số liên kết tương ứng trong mạng tương tác gen/protein 58
Bảng 2 4 Danh sách 20 gen có thứ hạng cao theo kết quả phân hạng của RL-Rank with prior và các gen đã được chứng minh có liên quan tới bệnh cao huyết áp 59
Bảng 2 5 Kết quả thực hiện thuật toán với giá trị f thay đổi, tính trung bình trên 398 bệnh 68
Bảng 2 6 Kết quả thực hiện thuật toán với giá trị thay đổi, tính trung bình trên 398 bệnh 68
Bảng 2 7 Kết quả thực hiện SigPathSum với f = 0.1, = 10-6 và RWR với = 0.7, tính trung bình trên 398 bệnh 69
Bảng 2 8 Danh sách các gen liên quan đến bệnh tiểu đường tuýp 2 và số liên kết trong mạng tương tác protein 70
Bảng 2 9 Danh sách các gen có thứ hạng cao và các y văn liên quan 72
Bảng 2 10 Kết quả thực hiện RL_Rank with Priors, SigPathSum và RWR tính trung bình trên 398 bệnh 76
Bảng 3 1 Kích cỡ các mạng gen/protein và số lượng kiểu hình bệnh thử nghiệm cho các mạng không đồng nhất tương ứng 86
Trang 12xii
Bảng 3 2 Giá trị AUC của các mạng không đồng nhất dựa trên HPO và OMIM 94 Bảng 3 3 Các gen đã được chứng minh có liên quan đến bệnh Alzheimer trong 20 gen ứng viên có thứ hạng cao nhất 95
Trang 131
PHẦN MỞ ĐẦU
1 Tính cấp thiết của luận án
Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh Việc khám phá cơ
sở phân tử cơ bản của các căn bệnh rất có giá trị trong vấn đề phòng ngừa, chẩn đoán và điều trị bệnh
Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong lĩnh vực
y sinh học và sinh học phân tử Trước đây, việc xác định các gen liên quan đến bệnh được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao
Trong lĩnh vực tin sinh học những năm gần đây, các dữ liệu sinh học ngày càng phong phú, được công bố rộng rãi và phần lớn là miễn phí Với các dữ liệu đó, các hệ thống thông tin dựa trên phương pháp tính toán và xử lý dữ liệu sinh học đã được phát triển, cho phép tiết kiệm thời gian, chi phí và giúp các nhà nghiên cứu y sinh học tìm ra các gen mới liên quan đến bệnh cho một số căn bệnh cụ thể
Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân
tử (khoảng hơn 1700 được liệt kê trong cơ sở dữ liệu OMIM - Online Mendelian Inheritance in Man) [5] Thậm chí, ngay cả với những bệnh đã biết được một phần thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan tới bệnh vẫn chưa được phát hiện
Trên thực tế, có nhiều phương pháp đã được phát triển dành riêng cho việc phát hiện các gen liên quan đến bệnh [129] Ví dụ như phương pháp nghiên cứu tương quan trên toàn hệ gen (Genome Wide Association Studies - GWAS) Phương pháp GWAS tương đối mạnh và hiệu quả nhưng còn gặp nhiều khó khăn khi cần phải thu hẹp danh sách các gen ứng viên [115] Mặt khác, các căn bệnh của con
Trang 142
người không tuân theo các giả thiết về mối quan hệ kiểu gen - kiểu hình đơn giản
mà là hậu quả của sự rối loạn trong các mạng phân tử gây ra bởi nhiều yếu tố khác nhau như: đột biến gen, thay đổi biểu sinh và các tác nhân gây bệnh [117]
Những nghiên cứu về đặc điểm của các gen liên quan đến bệnh trên mạng sinh học đã cho thấy rằng, các gen có mối liên quan với cùng một bệnh hoặc các bệnh tương đồng thường liên kết với nhau và khu trú trong cùng một khu vực của mạng sinh học Các gen này tạo thành các mô đun vật chất hoặc chức năng trong cơ thể con người [28, 83, 85] Phát hiện này là cơ sở của các phương pháp tính toán, dự đoán các gen ứng viên liên quan đến bệnh dựa trên mạng sinh học Do đó, phần lớn các phương pháp phân hạng và dự đoán gen liên quan đến bệnh đã đề xuất dựa trên mạng sinh học với sự trợ giúp của các cơ sở dữ liệu về hệ gen và các thông tin kiểu hình bệnh Tuy nhiên, các phương pháp phân hạng gen dựa trên mạng sinh học đã
đề xuất vẫn còn tồn tại một số vấn đề như:
Mức độ bao phủ của các mạng sinh học còn hạn chế (chưa bao phủ hết toàn bộ hệ gen người)
Hầu hết các phương pháp dựa trên mạng sinh học đã đề xuất mới sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số
Trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối tương tác gián tiếp khác
Các phương pháp kết hợp mạng sinh học chưa được sử dụng nhiều hoặc chưa khai thác các nguồn dữ liệu sinh học mới
Từ các lý do trên, việc phát triển các phương pháp phân hạng gen mới, đạt hiệu quả cao dựa trên mạng sinh học là vấn đề cấp thiết
Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” được thực hiện trong khuôn khổ luận án tiến sĩ chuyên
ngành Hệ thống thông tin Mục đích của đề tài luận án là nghiên cứu, xây dựng một
Trang 153
phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán các gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học
2 Mục tiêu của luận án
Mục tiêu thứ nhất là: Nghiên cứu, phát triển một số phương pháp tính toán
cho phép phân hạng gen dựa trên các mạng sinh học đạt hiệu quả cao hơn so với các phương pháp đã công bố
Mục tiêu thứ hai là: Nghiên cứu, ứng dụng các mô hình tính toán mới trong
lĩnh vực phân tích mạng xã hội/web cho bài toán phân hạng và dự đoán gen liên quan đến bệnh
Mục tiêu thứ ba là: Nghiên cứu, thu thập mạng tương tác gen/protein liên
kết chức năng, có trọng số từ các y văn hoặc nguồn dữ liệu công cộng; sử dụng mạng này trong các thuật toán phân hạng gen để nâng cao độ chính xác của kết quả
dự đoán
Mục tiêu thứ tư là: Nghiên cứu, tìm hiểu về các mô hình mạng sinh học tích
hợp; đề xuất phương án xây dựng mạng sinh học tích hợp dựa trên các nguồn dữ liệu sinh học mới, phục vụ cho vấn đề dự đoán gen liên quan đến bệnh
Các kết quả nghiên cứu của luận án có thể được phát triển thành các phần mềm hệ thống thông tin ứng dụng trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh
3 Các đóng góp của luận án
Đóng góp thứ nhất là: Đề xuất một phương pháp phân hạng và dự đoán gen
liên quan đến bệnh bằng cách kết hợp kỹ thuật Học tăng cường với thuật toán phân hạng PageRank, đồng thời bổ sung xác suất tiên nghiệm hợp lý cho các gen liên quan đến bệnh đã biết Phương pháp được thử nghiệm trên mạng tương tác gen/protein của con người và so sánh với các phương pháp phân hạng gen cùng lớp
đã có Kết quả cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các
Trang 164
phương pháp được so sánh thể hiện thông qua giá trị diện tích phía dưới đường cong ROC (Area Under ROC Curve - AUC)
Đóng góp thứ hai là: Đề xuất ứng dụng một phương pháp phân tích mạng xã
hội để phân hạng và dự đoán các gen ứng viên có độ liên quan cao nhất đối với các gen bệnh đã biết dựa trên tổng xác suất chọn đường đi giữa hai gen/protein trong mạng Trong đó, các gen ứng viên có xác suất liên kết với gen liên quan đến bệnh
đã biết nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ phức tạp tính toán Thực nghiệm trên dữ liệu tương tác gen/protein của con người cho thấy phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác hơn phương pháp phân hạng gen được áp dụng khá phổ biến là bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR)
Phương pháp này được đề xuất để áp dụng trên các mạng tương tác gen/protein có kích thước lớn trong khi vẫn đảm bảo hiệu quả dự đoán cao Kết quả thực nghiệm cũng cho thấy ngoài hiệu quả dự đoán tổng thể cao, phương pháp này còn có thể ứng dụng để xác định các gen mới liên quan đến một căn bệnh cụ thể
Đóng góp thứ ba là: Đề xuất phương pháp xây dựng một mạng không đồng
nhất bao gồm một mạng bệnh tương đồng dựa trên bản thể kiểu hình của con người (Human Phenotype Ontology - HPO) và mạng tương tác gen/protein được kết nối với nhau bằng các liên kết bệnh - gen đã biết Khi so sánh phương pháp đề xuất và phương pháp sử dụng mạng bệnh tương đồng dựa trên hồ sơ OMIM với cùng một thuật toán bước ngẫu nhiên có quay lui trên đồ thị mạng không đồng nhất (Random Walk with Restart on Heterogeneous network - RWRH), kết quả thực nghiệm cho thấy hiệu quả dự đoán gen liên quan đến bệnh (đặc biệt là những bệnh có số lượng gen liên quan đã được phát hiện còn ít) của phương pháp đề xuất tốt hơn (thể hiện thông qua giá trị AUC), không phân biệt các mạng gen/protein kết hợp Điều này dẫn đến kết luận là mạng bệnh tương đồng dựa trên HPO đã cải thiện hiệu suất của thuật toán RWRH cho việc dự đoán các gen liên quan đến bệnh
Trang 17Luận án đầy đủ ở file: Luận án full