1. Trang chủ
  2. » Thể loại khác

PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)

126 184 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 126
Dung lượng 397,41 KB
File đính kèm Luận án Full.rar (1 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)

Trang 1

i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả nghiên cứu được viết chung với các tác giả khác đều được sự đồng ý của

họ trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác

Tác giả

Đặng Vũ Tùng

Trang 2

ii

LỜI CẢM ƠN

Luận án tiến sỹ này là kết quả của quá trình nghiên cứu lý thuyết và tiến hành các thực nghiệm đầy thách thức và khó khăn; đòi hỏi sự kiên trì và tập trung cao độ Tôi thực sự hạnh phúc với kết quả đạt được trong đề tài nghiên cứu của mình

Kết quả đạt được không chỉ là những nỗ lực cá nhân, mà còn có sự hỗ trợ và giúp đỡ của tập thể người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản, đồng nghiệp và gia đình Tôi xin bày tỏ tình cảm của mình đến với họ

Trước tiên, tôi xin bày tỏ sự biết ơn sâu sắc đến PGS.TS Từ Minh Phương và PGS.TS Lê Đức Hậu Được làm việc với hai thầy là một cơ hội lớn cho tôi học hỏi phương pháp nghiên cứu, tính kiên trì và phương pháp làm việc nghiêm túc, khoa học

Tôi xin trân trọng cảm ơn Khoa Quốc tế và sau đại học, Khoa Công nghệ thông tin, Ban Giám đốc Học viện Công nghệ Bưu chính Viễn thông đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án

Tôi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam và các bạn bè, đồng nghiệp đã cổ vũ, động viên và tạo các điều kiện thuận lợi nhất cho tôi trong quá trình học tập, nghiên cứu

Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình tôi, nơi khơi dậy truyền thống và luôn bên cạnh ủng hộ, giúp đỡ, chia sẻ với tôi những lúc khó khăn

Xin chân thành cảm ơn!

Trang 3

iii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC CHỮ VIẾT TẮT vii

DANH MỤC CÁC HÌNH ix

DANH MỤC CÁC BẢNG xi

PHẦN MỞ ĐẦU 1

1 Tính cấp thiết của luận án 1

2 Mục tiêu của luận án 3

3 Các đóng góp của luận án 3

4 Bố cục của luận án 5

Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH 7

1.1 CƠ SỞ VỀ SINH HỌC PHÂN TỬ 7

1.1.1 Tế bào 7

1.1.2 DNA 7

1.1.3 Gen 8

1.1.4 Quá trình điều khiển tổng hợp protein từ gen 9

1.2 PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT 11

1.2.1 Bài toán phân hạng gen 11

1.2.2 Các hướng tiếp cận giải quyết bài toán phân hạng gen 12

Trang 4

iv

1.3 CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC 16

1.3.1 Các cơ sở dữ liệu sinh học 16

1.3.2 Các mạng sinh học 20

1.3.3 Mạng tương tác gen/protein 22

1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC 23

1.4.1 Phương pháp dựa trên mức độ gần nhau của các gen/protein 23

1.4.2 Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn 25

1.4.3 Phương pháp dựa trên tích hợp thông tin kiểu hình 27

1.4.4 Phương pháp xây dựng các mô đun bệnh 28

1.5 PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG 33

1.5.1 Phương pháp kiểm tra chéo 33

1.5.2 Xác định hiệu quả của các phương pháp phân hạng 35

1.6 KẾT LUẬN CHƯƠNG 1 38

Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN 41

2.1 ĐẶT VẤN ĐỀ 41

2.1.1 Bài toán phân hạng nút trên đồ thị 43

2.1.2 Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm 43

2.1.3 Thuật toán phân hạng bằng học tăng cường 45

2.1.4 Thuật toán bước ngẫu nhiên có quay lui 46

2.2 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIÊN NGHIỆM 48 2.2.1 Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 48

Trang 5

v

2.2.2 Dữ liệu thực nghiệm 51

2.2.3 Thực nghiệm và kết quả 53

2.3 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN 61

2.3.1 Thuật toán dựa trên xác suất liên kết 61

2.3.2 Dữ liệu thực nghiệm 67

2.3.3 Thực nghiệm và kết quả 67

2.4 SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT 74

2.4.1 Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng 74

2.4.2 Về thực nghiệm 75

2.5 KẾT LUẬN CHƯƠNG 2 76

Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT 78

3.1 ĐẶT VẤN ĐỀ 78

3.2 MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN 82

3.2.1 Tổng quan về phương pháp xây dựng mạng không đồng nhất 82

3.2.2 Các mạng gen/protein 82

3.2.3 Các mạng bệnh tương đồng 86

3.2.4 Mạng lưỡng phân 87

3.3 THUẬT TOÁN BƯỚC NGẪU NHIÊN CÓ QUAY LUI TRÊN MẠNG KHÔNG ĐỒNG NHẤT 87

3.4 CÁC THỰC NGHIỆM VÀ KẾT QUẢ 92

3.4.1 So sánh hiệu quả với các phương pháp cùng lớp 92

3.4.2 Dự đoán các gen liên quan đến bệnh Alzheimer 94

Trang 6

vi

3.5 KẾT LUẬN CHƯƠNG 3 95

KẾT LUẬN 97

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 100

TÀI LIỆU THAM KHẢO 101

Trang 7

vii

DANH MỤC CÁC CHỮ VIẾT TẮT

AUC Area Under ROC Curve Diện tích phía dưới đường cong

BioGRID Biological General Repository for

Interaction data sets

Cơ sở dữ liệu sinh học công khai bao gồm nhiều bộ dữ liệu tương tác

CANDID

A flexible method for prioritizing

candidate genes for complex human

traits

Một phương pháp phân hạng gen được giới thiệu bởi Hutz và cộng sự

CIPHER

Correlating protein Interaction

network and PHEnotype network to

pRedict disease genes

Một phương pháp phân hạng gen được giới thiệu bởi Wu và cộng sự DNA DeoxyriboNucleic Acid A-xít deoxyribonucleic

EST Expressed Sequence Tag Thẻ biểu diễn trình tự

eVOC A controlled vocabulary for unifying

gene expression data

Một từ vựng được kiểm soát để hợp nhất dữ liệu biểu hiện gen

dương bị phân lớp sai vào lớp âm)

bị phân lớp sai vào lớp dương)

GWAS Genome - Wide Association Studies

Nghiên cứu các liên kết bộ gen mở rộng (nghiên cứu tương quan toàn

bộ nhiễm sắc thể) HITS Hypertext Induced Topic Search Thuật toán tìm kiếm trên Web HPO Human Phenotype Ontology Bản thể kiểu hình của con người

HPRD Human Protein Reference Database Cơ sở dữ liệu tương tác protein của

con người KEGG Kyoto Encyclopedia of Genes and Bách khoa toàn thư Kyoto về gen

Trang 8

viii

LOOCV Leave one out cross validation Kiểm tra chéo bỏ ra một

MeSH Medical Subject Heading Cơ sở dữ liệu các chủ đề về y học MINT Molecular Interaction Database Cơ sở dữ liệu về tương tác phân tử MPO Mammalian Phenotype Ontology Bản thể kiểu hình động vật có vú

NCBI National Center for Biotechnology

ROC Receiver Operating Characteristic/

Receiver Operating Curve

Đường cong đặc trưng hoạt động của bộ thu nhận - để xác định là có tín hiệu hay chỉ là do nhiễu

RWR Random Walk with Restart Thuật toán bước ngẫu nhiên có

được phân lớp đúng vào lớp âm)

TP True Positive

Dương tính thật (mẫu mang nhãn dương được phân lớp đúng vào lớp dương)

UMLS Unified Medical Language System Hệ thống ngôn ngữ y học thống

nhất

Y2H Yeast Two-Hybrid System

Hệ thống lai kép nấm men (một phương pháp được sử dụng để xác định các tương tác protein)

Trang 9

ix

DANH MỤC CÁC HÌNH

Hình 1 1 Cấu trúc DNA 8

Hình 1 2 Sơ đồ tổng hợp protein từ gen 10

Hình 1 3 Thay thế các exon trong các sơ đồ kết nối cho phép tế bào tạo ra các protein khác nhau từ một gen đơn lẻ 11

Hình 1 4 Sơ đồ tổng quan về phân hạng gen 12

Hình 1 5 Sơ đồ dự đoán gen liên quan đến bệnh dựa trên mô hình học máy [59] 14

Hình 1 6 Sơ đồ phương pháp phân hạng gen dựa trên mạng 15

Hình 1 7 Mô phỏng sự rối loạn trong các mạng sinh học là nguyên nhân gây ra các căn bệnh của con người 21

Hình 1 8 Phương pháp đánh giá các thuật toán phân hạng gen 34

Hình 1 9 Phương pháp vẽ đường cong ROC 36

Hình 2 1 Thuật toán RL_Rank with priors 50

Hình 2 2 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.8 và γ tăng từ 0.1 đến 0.9 53

Hình 2 3 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.7 và γ tăng từ 0.1 đến 0.9 54

Hình 2 4 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ = 0.5 và β tăng từ 0.1 đến 0.9 55

Hình 2 5 Đường cong ROC biểu diễn kết quả RL_Rank with priors với các tham số γ = 0.5, β = 0.7 và PageRank with priors với tham số β = 0.7 56

Hình 2 6 Ví dụ về tính toán xác suất đường đi trên đồ thị 64

Hình 2 7 Thủ tục SigPathSum tính toán độ liên quan mỗi nút với một nút truy vấn 65

Trang 10

x

Hình 2 8 Thuật toán phân hạng gen dựa trên xác suất liên kết 66

Hình 2 9 Đường biểu diễn các giá trị AUC trung bình khi thay đổi giá trị f 67

Hình 2 10 Biểu diễn đường cong ROC của SigPathSum và RWR 69

Hình 2 11 Biểu diễn đường cong ROC của RL_Rank with Priors, SigPathSum và RWR 75

Hình 3 1 Sơ đồ xây dựng mạng không đồng nhất tích hợp bệnh - gen 83

Hình 3 2 Sơ đồ hoạt động của thuật toán RWRH 88

Hình 3 3 Thuật toán RWRH 91

Hình 3 4 Đường cong ROC biểu diễn kết quả dự đoán của các mạng dựa trên HPO và OMIM 93

Trang 11

xi

DANH MỤC CÁC BẢNG

Bảng 1 1 Các phương pháp đo khoảng cách giữa các phần tử trong mạng tương tác

25

Bảng 1 2 Một số phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng [119] 30

Bảng 1 3 Ma trận nhầm lẫn 35

Bảng 2 1 Các nguồn dữ liệu xây dựng FLN [60, 66] 52

Bảng 2 2 Kết quả của RL_Rank with priors và các thuật toán cùng lớp 57

Bảng 2 3 Danh sách các gen liên quan đến bệnh cao huyết áp đã biết và số liên kết tương ứng trong mạng tương tác gen/protein 58

Bảng 2 4 Danh sách 20 gen có thứ hạng cao theo kết quả phân hạng của RL-Rank with prior và các gen đã được chứng minh có liên quan tới bệnh cao huyết áp 59

Bảng 2 5 Kết quả thực hiện thuật toán với giá trị f thay đổi, tính trung bình trên 398 bệnh 68

Bảng 2 6 Kết quả thực hiện thuật toán với giá trị  thay đổi, tính trung bình trên 398 bệnh 68

Bảng 2 7 Kết quả thực hiện SigPathSum với f = 0.1,  = 10-6 và RWR với  = 0.7, tính trung bình trên 398 bệnh 69

Bảng 2 8 Danh sách các gen liên quan đến bệnh tiểu đường tuýp 2 và số liên kết trong mạng tương tác protein 70

Bảng 2 9 Danh sách các gen có thứ hạng cao và các y văn liên quan 72

Bảng 2 10 Kết quả thực hiện RL_Rank with Priors, SigPathSum và RWR tính trung bình trên 398 bệnh 76

Bảng 3 1 Kích cỡ các mạng gen/protein và số lượng kiểu hình bệnh thử nghiệm cho các mạng không đồng nhất tương ứng 86

Trang 12

xii

Bảng 3 2 Giá trị AUC của các mạng không đồng nhất dựa trên HPO và OMIM 94 Bảng 3 3 Các gen đã được chứng minh có liên quan đến bệnh Alzheimer trong 20 gen ứng viên có thứ hạng cao nhất 95

Trang 13

1

PHẦN MỞ ĐẦU

1 Tính cấp thiết của luận án

Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh Việc khám phá cơ

sở phân tử cơ bản của các căn bệnh rất có giá trị trong vấn đề phòng ngừa, chẩn đoán và điều trị bệnh

Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong lĩnh vực

y sinh học và sinh học phân tử Trước đây, việc xác định các gen liên quan đến bệnh được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao

Trong lĩnh vực tin sinh học những năm gần đây, các dữ liệu sinh học ngày càng phong phú, được công bố rộng rãi và phần lớn là miễn phí Với các dữ liệu đó, các hệ thống thông tin dựa trên phương pháp tính toán và xử lý dữ liệu sinh học đã được phát triển, cho phép tiết kiệm thời gian, chi phí và giúp các nhà nghiên cứu y sinh học tìm ra các gen mới liên quan đến bệnh cho một số căn bệnh cụ thể

Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân

tử (khoảng hơn 1700 được liệt kê trong cơ sở dữ liệu OMIM - Online Mendelian Inheritance in Man) [5] Thậm chí, ngay cả với những bệnh đã biết được một phần thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan tới bệnh vẫn chưa được phát hiện

Trên thực tế, có nhiều phương pháp đã được phát triển dành riêng cho việc phát hiện các gen liên quan đến bệnh [129] Ví dụ như phương pháp nghiên cứu tương quan trên toàn hệ gen (Genome Wide Association Studies - GWAS) Phương pháp GWAS tương đối mạnh và hiệu quả nhưng còn gặp nhiều khó khăn khi cần phải thu hẹp danh sách các gen ứng viên [115] Mặt khác, các căn bệnh của con

Trang 14

2

người không tuân theo các giả thiết về mối quan hệ kiểu gen - kiểu hình đơn giản

mà là hậu quả của sự rối loạn trong các mạng phân tử gây ra bởi nhiều yếu tố khác nhau như: đột biến gen, thay đổi biểu sinh và các tác nhân gây bệnh [117]

Những nghiên cứu về đặc điểm của các gen liên quan đến bệnh trên mạng sinh học đã cho thấy rằng, các gen có mối liên quan với cùng một bệnh hoặc các bệnh tương đồng thường liên kết với nhau và khu trú trong cùng một khu vực của mạng sinh học Các gen này tạo thành các mô đun vật chất hoặc chức năng trong cơ thể con người [28, 83, 85] Phát hiện này là cơ sở của các phương pháp tính toán, dự đoán các gen ứng viên liên quan đến bệnh dựa trên mạng sinh học Do đó, phần lớn các phương pháp phân hạng và dự đoán gen liên quan đến bệnh đã đề xuất dựa trên mạng sinh học với sự trợ giúp của các cơ sở dữ liệu về hệ gen và các thông tin kiểu hình bệnh Tuy nhiên, các phương pháp phân hạng gen dựa trên mạng sinh học đã

đề xuất vẫn còn tồn tại một số vấn đề như:

 Mức độ bao phủ của các mạng sinh học còn hạn chế (chưa bao phủ hết toàn bộ hệ gen người)

 Hầu hết các phương pháp dựa trên mạng sinh học đã đề xuất mới sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số

 Trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối tương tác gián tiếp khác

 Các phương pháp kết hợp mạng sinh học chưa được sử dụng nhiều hoặc chưa khai thác các nguồn dữ liệu sinh học mới

Từ các lý do trên, việc phát triển các phương pháp phân hạng gen mới, đạt hiệu quả cao dựa trên mạng sinh học là vấn đề cấp thiết

Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” được thực hiện trong khuôn khổ luận án tiến sĩ chuyên

ngành Hệ thống thông tin Mục đích của đề tài luận án là nghiên cứu, xây dựng một

Trang 15

3

phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán các gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học

2 Mục tiêu của luận án

Mục tiêu thứ nhất là: Nghiên cứu, phát triển một số phương pháp tính toán

cho phép phân hạng gen dựa trên các mạng sinh học đạt hiệu quả cao hơn so với các phương pháp đã công bố

Mục tiêu thứ hai là: Nghiên cứu, ứng dụng các mô hình tính toán mới trong

lĩnh vực phân tích mạng xã hội/web cho bài toán phân hạng và dự đoán gen liên quan đến bệnh

Mục tiêu thứ ba là: Nghiên cứu, thu thập mạng tương tác gen/protein liên

kết chức năng, có trọng số từ các y văn hoặc nguồn dữ liệu công cộng; sử dụng mạng này trong các thuật toán phân hạng gen để nâng cao độ chính xác của kết quả

dự đoán

Mục tiêu thứ tư là: Nghiên cứu, tìm hiểu về các mô hình mạng sinh học tích

hợp; đề xuất phương án xây dựng mạng sinh học tích hợp dựa trên các nguồn dữ liệu sinh học mới, phục vụ cho vấn đề dự đoán gen liên quan đến bệnh

Các kết quả nghiên cứu của luận án có thể được phát triển thành các phần mềm hệ thống thông tin ứng dụng trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh

3 Các đóng góp của luận án

Đóng góp thứ nhất là: Đề xuất một phương pháp phân hạng và dự đoán gen

liên quan đến bệnh bằng cách kết hợp kỹ thuật Học tăng cường với thuật toán phân hạng PageRank, đồng thời bổ sung xác suất tiên nghiệm hợp lý cho các gen liên quan đến bệnh đã biết Phương pháp được thử nghiệm trên mạng tương tác gen/protein của con người và so sánh với các phương pháp phân hạng gen cùng lớp

đã có Kết quả cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các

Trang 16

4

phương pháp được so sánh thể hiện thông qua giá trị diện tích phía dưới đường cong ROC (Area Under ROC Curve - AUC)

Đóng góp thứ hai là: Đề xuất ứng dụng một phương pháp phân tích mạng xã

hội để phân hạng và dự đoán các gen ứng viên có độ liên quan cao nhất đối với các gen bệnh đã biết dựa trên tổng xác suất chọn đường đi giữa hai gen/protein trong mạng Trong đó, các gen ứng viên có xác suất liên kết với gen liên quan đến bệnh

đã biết nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ phức tạp tính toán Thực nghiệm trên dữ liệu tương tác gen/protein của con người cho thấy phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác hơn phương pháp phân hạng gen được áp dụng khá phổ biến là bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR)

Phương pháp này được đề xuất để áp dụng trên các mạng tương tác gen/protein có kích thước lớn trong khi vẫn đảm bảo hiệu quả dự đoán cao Kết quả thực nghiệm cũng cho thấy ngoài hiệu quả dự đoán tổng thể cao, phương pháp này còn có thể ứng dụng để xác định các gen mới liên quan đến một căn bệnh cụ thể

Đóng góp thứ ba là: Đề xuất phương pháp xây dựng một mạng không đồng

nhất bao gồm một mạng bệnh tương đồng dựa trên bản thể kiểu hình của con người (Human Phenotype Ontology - HPO) và mạng tương tác gen/protein được kết nối với nhau bằng các liên kết bệnh - gen đã biết Khi so sánh phương pháp đề xuất và phương pháp sử dụng mạng bệnh tương đồng dựa trên hồ sơ OMIM với cùng một thuật toán bước ngẫu nhiên có quay lui trên đồ thị mạng không đồng nhất (Random Walk with Restart on Heterogeneous network - RWRH), kết quả thực nghiệm cho thấy hiệu quả dự đoán gen liên quan đến bệnh (đặc biệt là những bệnh có số lượng gen liên quan đã được phát hiện còn ít) của phương pháp đề xuất tốt hơn (thể hiện thông qua giá trị AUC), không phân biệt các mạng gen/protein kết hợp Điều này dẫn đến kết luận là mạng bệnh tương đồng dựa trên HPO đã cải thiện hiệu suất của thuật toán RWRH cho việc dự đoán các gen liên quan đến bệnh

Trang 17

Luận án đầy đủ ở file: Luận án full

Ngày đăng: 27/11/2017, 12:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w