1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC

124 307 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 124
Dung lượng 1,53 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

PHẦN MỞ ĐẦU 1. Tính cấp thiết của luận án Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh. Việc khám phá cơ sở phân tử cơ bản của các căn bệnh rất có giá trị trong vấn đề phòng ngừa, chẩn đoán và điều trị bệnh. Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong lĩnh vực y sinh học và sinh học phân tử. Trước đây, việc xác định các gen liên quan đến bệnh được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao. Trong lĩnh vực tin sinh học những năm gần đây, các dữ liệu sinh học ngày càng phong phú, được công bố rộng rãi và phần lớn là miễn phí. Với các dữ liệu đó, các hệ thống thông tin dựa trên phương pháp tính toán và xử lý dữ liệu sinh học đã được phát triển, cho phép tiết kiệm thời gian, chi phí và giúp các nhà nghiên cứu y sinh học tìm ra các gen mới liên quan đến bệnh cho một số căn bệnh cụ thể. Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân tử (khoảng hơn 1700 được liệt kê trong cơ sở dữ liệu OMIM - Online Mendelian Inheritance in Man) [5]. Thậm chí, ngay cả với những bệnh đã biết được một phần thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan tới bệnh vẫn chưa được phát hiện. Trên thực tế, có nhiều phương pháp đã được phát triển dành riêng cho việc phát hiện các gen liên quan đến bệnh [129]. Ví dụ như phương pháp nghiên cứu tương quan trên toàn hệ gen (Genome Wide Association Studies - GWAS). Phương pháp GWAS tương đối mạnh và hiệu quả nhưng còn gặp nhiều khó khăn khi cần phải thu hẹp danh sách các gen ứng viên [115]. Mặt khác, các căn bệnh của con người không tuân theo các giả thiết về mối quan hệ kiểu gen - kiểu hình đơn giản mà là hậu quả của sự rối loạn trong các mạng phân tử gây ra bởi nhiều yếu tố khác nhau như: đột biến gen, thay đổi biểu sinh và các tác nhân gây bệnh [117]. Những nghiên cứu về đặc điểm của các gen liên quan đến bệnh trên mạng sinh học đã cho thấy rằng, các gen có mối liên quan với cùng một bệnh hoặc các bệnh tương đồng thường liên kết với nhau và khu trú trong cùng một khu vực của mạng sinh học. Các gen này tạo thành các mô đun vật chất hoặc chức năng trong cơ thể con người [28, 83, 85]. Phát hiện này là cơ sở của các phương pháp tính toán, dự đoán các gen ứng viên liên quan đến bệnh dựa trên mạng sinh học. Do đó, phần lớn các phương pháp phân hạng và dự đoán gen liên quan đến bệnh đã đề xuất dựa trên mạng sinh học với sự trợ giúp của các cơ sở dữ liệu về hệ gen và các thông tin kiểu hình bệnh. Tuy nhiên, các phương pháp phân hạng gen dựa trên mạng sinh học đã đề xuất vẫn còn tồn tại một số vấn đề như:  Mức độ bao phủ của các mạng sinh học còn hạn chế (chưa bao phủ hết toàn bộ hệ gen người).  Hầu hết các phương pháp dựa trên mạng sinh học đã đề xuất mới sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số.  Trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối tương tác gián tiếp khác.  Các phương pháp kết hợp mạng sinh học chưa được sử dụng nhiều hoặc chưa khai thác các nguồn dữ liệu sinh học mới. Từ các lý do trên, việc phát triển các phương pháp phân hạng gen mới, đạt hiệu quả cao dựa trên mạng sinh học là vấn đề cấp thiết. Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” được thực hiện trong khuôn khổ luận án tiến sĩ chuyên ngành Hệ thống thông tin. Mục đích của đề tài luận án là nghiên cứu, xây dựng một

Trang 1

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC CHỮ VIẾT TẮT vii

DANH MỤC CÁC HÌNH ix

DANH MỤC CÁC BẢNG xi

PHẦN MỞ ĐẦU 1

1 Tính cấp thiết của luận án 1

2 Mục tiêu của luận án 3

3 Các đóng góp của luận án 3

4 Bố cục của luận án 5

Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH 7

1.1 CƠ SỞ VỀ SINH HỌC PHÂN TỬ 7

1.1.1 Tế bào 7

1.1.2 DNA 7

1.1.3 Gen 8

1.1.4 Quá trình điều khiển tổng hợp protein từ gen 9

1.2 PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT 11

1.2.1 Bài toán phân hạng gen 11

1.2.2 Các hướng tiếp cận giải quyết bài toán phân hạng gen 12

Trang 2

1.3 CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC 16

1.3.1 Các cơ sở dữ liệu sinh học 16

1.3.2 Các mạng sinh học 20

1.3.3 Mạng tương tác gen/protein 22

1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC 23

1.4.1 Phương pháp dựa trên mức độ gần nhau của các gen/protein 23

1.4.2 Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn 25

1.4.3 Phương pháp dựa trên tích hợp thông tin kiểu hình 27

1.4.4 Phương pháp xây dựng các mô đun bệnh 28

1.5 PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG 33

1.5.1 Phương pháp kiểm tra chéo 33

1.5.2 Xác định hiệu quả của các phương pháp phân hạng 35

1.6 KẾT LUẬN CHƯƠNG 1 38

Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN 41

2.1 ĐẶT VẤN ĐỀ 41

2.1.1 Bài toán phân hạng nút trên đồ thị 43

2.1.2 Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm 43

2.1.3 Thuật toán phân hạng bằng học tăng cường 45

2.1.4 Thuật toán bước ngẫu nhiên có quay lui 46

2.2 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIÊN NGHIỆM 48 2.2.1 Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 48

Trang 3

2.2.2 Dữ liệu thực nghiệm 51

2.2.3 Thực nghiệm và kết quả 53

2.3 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN 61

2.3.1 Thuật toán dựa trên xác suất liên kết 61

2.3.2 Dữ liệu thực nghiệm 67

2.3.3 Thực nghiệm và kết quả 67

2.4 SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT 74

2.4.1 Về nguyên tắc thực hiện, ưu nhược điểm và phạm vi áp dụng 74

2.4.2 Về thực nghiệm 75

2.5 KẾT LUẬN CHƯƠNG 2 76

Chương 3 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN GÂY BỆNH DỰA TRÊN MẠNG KHÔNG ĐỒNG NHẤT 78

3.1 ĐẶT VẤN ĐỀ 78

3.2 MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN 82

3.2.1 Tổng quan về phương pháp xây dựng mạng không đồng nhất 82

3.2.2 Các mạng gen/protein 82

3.2.3 Các mạng bệnh tương đồng 86

3.2.4 Mạng lưỡng phân 87

3.3 THUẬT TOÁN BƯỚC NGẪU NHIÊN CÓ QUAY LUI TRÊN MẠNG KHÔNG ĐỒNG NHẤT 87

3.4 CÁC THỰC NGHIỆM VÀ KẾT QUẢ 92

3.4.1 So sánh hiệu quả với các phương pháp cùng lớp 92

3.4.2 Dự đoán các gen liên quan đến bệnh Alzheimer 94

Trang 4

3.5 KẾT LUẬN CHƯƠNG 3 95

KẾT LUẬN 97

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 100

TÀI LIỆU THAM KHẢO 101

Trang 5

DANH MỤC CÁC CHỮ VIẾT TẮT

AUC Area Under ROC Curve Diện tích phía dưới đường cong

BioGRID Biological General Repository for

Interaction data sets

Cơ sở dữ liệu sinh học công khai bao gồm nhiều bộ dữ liệu tương tác CANDID

A flexible method for prioritizing

candidate genes for complex human

traits

Một phương pháp phân hạng gen được giới thiệu bởi Hutz và cộng sự

CIPHER

Correlating protein Interaction

network and PHEnotype network to

pRedict disease genes

Một phương pháp phân hạng gen được giới thiệu bởi Wu và cộng sự DNA DeoxyriboNucleic Acid A-xít deoxyribonucleic

EST Expressed Sequence Tag Thẻ biểu diễn trình tự

eVOC A controlled vocabulary for unifying

gene expression data

Một từ vựng được kiểm soát để hợp nhất dữ liệu biểu hiện gen

dương bị phân lớp sai vào lớp âm)

bị phân lớp sai vào lớp dương)

GWAS Genome - Wide Association Studies

Nghiên cứu các liên kết bộ gen mở rộng (nghiên cứu tương quan toàn

bộ nhiễm sắc thể) HITS Hypertext Induced Topic Search Thuật toán tìm kiếm trên Web HPO Human Phenotype Ontology Bản thể kiểu hình của con người

HPRD Human Protein Reference Database Cơ sở dữ liệu tương tác protein của

con người KEGG Kyoto Encyclopedia of Genes and Bách khoa toàn thư Kyoto về gen

Trang 6

Genomes và bộ gen

LOOCV Leave one out cross validation Kiểm tra chéo bỏ ra một

MeSH Medical Subject Heading Cơ sở dữ liệu các chủ đề về y học MINT Molecular Interaction Database Cơ sở dữ liệu về tương tác phân tử MPO Mammalian Phenotype Ontology Bản thể kiểu hình động vật có vú

NCBI National Center for Biotechnology

ROC Receiver Operating Characteristic/

Receiver Operating Curve

Đường cong đặc trưng hoạt động của bộ thu nhận - để xác định là có tín hiệu hay chỉ là do nhiễu

RWR Random Walk with Restart Thuật toán bước ngẫu nhiên có

TN True Negative Âm tính thật (mẫu mang nhãn âm

được phân lớp đúng vào lớp âm)

TP True Positive

Dương tính thật (mẫu mang nhãn dương được phân lớp đúng vào lớp dương)

UMLS Unified Medical Language System Hệ thống ngôn ngữ y học thống

nhất Y2H Yeast Two-Hybrid System

Hệ thống lai kép nấm men (một phương pháp được sử dụng để xác định các tương tác protein)

Trang 7

DANH MỤC CÁC HÌNH

Hình 1 1 Cấu trúc DNA 8

Hình 1 2 Sơ đồ tổng hợp protein từ gen 10

Hình 1 3 Thay thế các exon trong các sơ đồ kết nối cho phép tế bào tạo ra các protein khác nhau từ một gen đơn lẻ 11

Hình 1 4 Sơ đồ tổng quan về phân hạng gen 12

Hình 1 5 Sơ đồ dự đoán gen liên quan đến bệnh dựa trên mô hình học máy [59] 14

Hình 1 6 Sơ đồ phương pháp phân hạng gen dựa trên mạng 15

Hình 1 7 Mô phỏng sự rối loạn trong các mạng sinh học là nguyên nhân gây ra các căn bệnh của con người 21

Hình 1 8 Phương pháp đánh giá các thuật toán phân hạng gen 34

Hình 1 9 Phương pháp vẽ đường cong ROC 36

Hình 2 1 Thuật toán RL_Rank with priors 50

Hình 2 2 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.8 và γ tăng từ 0.1 đến 0.9 53

Hình 2 3 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 0.7 và γ tăng từ 0.1 đến 0.9 54

Hình 2 4 Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ = 0.5 và β tăng từ 0.1 đến 0.9 55

Hình 2 5 Đường cong ROC biểu diễn kết quả RL_Rank with priors với các tham số γ = 0.5, β = 0.7 và PageRank with priors với tham số β = 0.7 56

Hình 2 6 Ví dụ về tính toán xác suất đường đi trên đồ thị 64

Hình 2 7 Thủ tục SigPathSum tính toán độ liên quan mỗi nút với một nút truy vấn 65

Trang 8

Hình 2 8 Thuật toán phân hạng gen dựa trên xác suất liên kết 66

Hình 2 9 Đường biểu diễn các giá trị AUC trung bình khi thay đổi giá trị f 67

Hình 2 10 Biểu diễn đường cong ROC của SigPathSum và RWR 69

Hình 2 11 Biểu diễn đường cong ROC của RL_Rank with Priors, SigPathSum và RWR 75

Hình 3 1 Sơ đồ xây dựng mạng không đồng nhất tích hợp bệnh - gen 83

Hình 3 2 Sơ đồ hoạt động của thuật toán RWRH 88

Hình 3 3 Thuật toán RWRH 91

Hình 3 4 Đường cong ROC biểu diễn kết quả dự đoán của các mạng dựa trên HPO và OMIM 93

Trang 9

DANH MỤC CÁC BẢNG

Bảng 1 1 Các phương pháp đo khoảng cách giữa các phần tử trong mạng tương tác

25

Bảng 1 2 Một số phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng [119] 30

Bảng 1 3 Ma trận nhầm lẫn 35

Bảng 2 1 Các nguồn dữ liệu xây dựng FLN [60, 66] 52

Bảng 2 2 Kết quả của RL_Rank with priors và các thuật toán cùng lớp 57

Bảng 2 3 Danh sách các gen liên quan đến bệnh cao huyết áp đã biết và số liên kết tương ứng trong mạng tương tác gen/protein 58

Bảng 2 4 Danh sách 20 gen có thứ hạng cao theo kết quả phân hạng của RL-Rank with prior và các gen đã được chứng minh có liên quan tới bệnh cao huyết áp 59

Bảng 2 5 Kết quả thực hiện thuật toán với giá trị f thay đổi, tính trung bình trên 398 bệnh 68

Bảng 2 6 Kết quả thực hiện thuật toán với giá trị  thay đổi, tính trung bình trên 398 bệnh 68

Bảng 2 7 Kết quả thực hiện SigPathSum với f = 0.1,  = 10-6 và RWR với  = 0.7, tính trung bình trên 398 bệnh 69

Bảng 2 8 Danh sách các gen liên quan đến bệnh tiểu đường tuýp 2 và số liên kết trong mạng tương tác protein 70

Bảng 2 9 Danh sách các gen có thứ hạng cao và các y văn liên quan 72

Bảng 2 10 Kết quả thực hiện RL_Rank with Priors, SigPathSum và RWR tính trung bình trên 398 bệnh 76

Bảng 3 1 Kích cỡ các mạng gen/protein và số lượng kiểu hình bệnh thử nghiệm cho các mạng không đồng nhất tương ứng 86

Trang 10

Bảng 3 2 Giá trị AUC của các mạng không đồng nhất dựa trên HPO và OMIM 94 Bảng 3 3 Các gen đã được chứng minh có liên quan đến bệnh Alzheimer trong 20 gen ứng viên có thứ hạng cao nhất 95

Trang 11

PHẦN MỞ ĐẦU

1 Tính cấp thiết của luận án

Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh Việc khám phá cơ

sở phân tử cơ bản của các căn bệnh rất có giá trị trong vấn đề phòng ngừa, chẩn đoán và điều trị bệnh

Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong lĩnh vực

y sinh học và sinh học phân tử Trước đây, việc xác định các gen liên quan đến bệnh được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao

Trong lĩnh vực tin sinh học những năm gần đây, các dữ liệu sinh học ngày càng phong phú, được công bố rộng rãi và phần lớn là miễn phí Với các dữ liệu đó, các hệ thống thông tin dựa trên phương pháp tính toán và xử lý dữ liệu sinh học đã được phát triển, cho phép tiết kiệm thời gian, chi phí và giúp các nhà nghiên cứu y sinh học tìm ra các gen mới liên quan đến bệnh cho một số căn bệnh cụ thể

Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân

tử (khoảng hơn 1700 được liệt kê trong cơ sở dữ liệu OMIM - Online Mendelian Inheritance in Man) [5] Thậm chí, ngay cả với những bệnh đã biết được một phần thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan tới bệnh vẫn chưa được phát hiện

Trên thực tế, có nhiều phương pháp đã được phát triển dành riêng cho việc phát hiện các gen liên quan đến bệnh [129] Ví dụ như phương pháp nghiên cứu tương quan trên toàn hệ gen (Genome Wide Association Studies - GWAS) Phương pháp GWAS tương đối mạnh và hiệu quả nhưng còn gặp nhiều khó khăn khi cần phải thu hẹp danh sách các gen ứng viên [115] Mặt khác, các căn bệnh của con

Trang 12

người không tuân theo các giả thiết về mối quan hệ kiểu gen - kiểu hình đơn giản

mà là hậu quả của sự rối loạn trong các mạng phân tử gây ra bởi nhiều yếu tố khác nhau như: đột biến gen, thay đổi biểu sinh và các tác nhân gây bệnh [117]

Những nghiên cứu về đặc điểm của các gen liên quan đến bệnh trên mạng sinh học đã cho thấy rằng, các gen có mối liên quan với cùng một bệnh hoặc các bệnh tương đồng thường liên kết với nhau và khu trú trong cùng một khu vực của mạng sinh học Các gen này tạo thành các mô đun vật chất hoặc chức năng trong cơ thể con người [28, 83, 85] Phát hiện này là cơ sở của các phương pháp tính toán, dự đoán các gen ứng viên liên quan đến bệnh dựa trên mạng sinh học Do đó, phần lớn các phương pháp phân hạng và dự đoán gen liên quan đến bệnh đã đề xuất dựa trên mạng sinh học với sự trợ giúp của các cơ sở dữ liệu về hệ gen và các thông tin kiểu hình bệnh Tuy nhiên, các phương pháp phân hạng gen dựa trên mạng sinh học đã

đề xuất vẫn còn tồn tại một số vấn đề như:

 Mức độ bao phủ của các mạng sinh học còn hạn chế (chưa bao phủ hết toàn bộ hệ gen người)

 Hầu hết các phương pháp dựa trên mạng sinh học đã đề xuất mới sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số

 Trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối tương tác gián tiếp khác

 Các phương pháp kết hợp mạng sinh học chưa được sử dụng nhiều hoặc chưa khai thác các nguồn dữ liệu sinh học mới

Từ các lý do trên, việc phát triển các phương pháp phân hạng gen mới, đạt hiệu quả cao dựa trên mạng sinh học là vấn đề cấp thiết

Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán

dựa trên mạng sinh học” được thực hiện trong khuôn khổ luận án tiến sĩ chuyên

ngành Hệ thống thông tin Mục đích của đề tài luận án là nghiên cứu, xây dựng một

Trang 13

phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán các gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học

2 Mục tiêu của luận án

Mục tiêu thứ nhất là: Nghiên cứu, phát triển một số phương pháp tính toán

cho phép phân hạng gen dựa trên các mạng sinh học đạt hiệu quả cao hơn so với các phương pháp đã công bố

Mục tiêu thứ hai là: Nghiên cứu, ứng dụng các mô hình tính toán mới trong

lĩnh vực phân tích mạng xã hội/web cho bài toán phân hạng và dự đoán gen liên quan đến bệnh

Mục tiêu thứ ba là: Nghiên cứu, thu thập mạng tương tác gen/protein liên

kết chức năng, có trọng số từ các y văn hoặc nguồn dữ liệu công cộng; sử dụng mạng này trong các thuật toán phân hạng gen để nâng cao độ chính xác của kết quả

dự đoán

Mục tiêu thứ tư là: Nghiên cứu, tìm hiểu về các mô hình mạng sinh học tích

hợp; đề xuất phương án xây dựng mạng sinh học tích hợp dựa trên các nguồn dữ liệu sinh học mới, phục vụ cho vấn đề dự đoán gen liên quan đến bệnh

Các kết quả nghiên cứu của luận án có thể được phát triển thành các phần mềm hệ thống thông tin ứng dụng trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh

3 Các đóng góp của luận án

Đóng góp thứ nhất là: Đề xuất một phương pháp phân hạng và dự đoán gen

liên quan đến bệnh bằng cách kết hợp kỹ thuật Học tăng cường với thuật toán phân hạng PageRank, đồng thời bổ sung xác suất tiên nghiệm hợp lý cho các gen liên quan đến bệnh đã biết Phương pháp được thử nghiệm trên mạng tương tác gen/protein của con người và so sánh với các phương pháp phân hạng gen cùng lớp

đã có Kết quả cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các

Trang 14

phương pháp được so sánh thể hiện thông qua giá trị diện tích phía dưới đường cong ROC (Area Under ROC Curve - AUC)

Đóng góp thứ hai là: Đề xuất ứng dụng một phương pháp phân tích mạng xã

hội để phân hạng và dự đoán các gen ứng viên có độ liên quan cao nhất đối với các gen bệnh đã biết dựa trên tổng xác suất chọn đường đi giữa hai gen/protein trong mạng Trong đó, các gen ứng viên có xác suất liên kết với gen liên quan đến bệnh

đã biết nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ phức tạp tính toán Thực nghiệm trên dữ liệu tương tác gen/protein của con người cho thấy phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác hơn phương pháp phân hạng gen được áp dụng khá phổ biến là bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR)

Phương pháp này được đề xuất để áp dụng trên các mạng tương tác gen/protein có kích thước lớn trong khi vẫn đảm bảo hiệu quả dự đoán cao Kết quả thực nghiệm cũng cho thấy ngoài hiệu quả dự đoán tổng thể cao, phương pháp này còn có thể ứng dụng để xác định các gen mới liên quan đến một căn bệnh cụ thể

Đóng góp thứ ba là: Đề xuất phương pháp xây dựng một mạng không đồng

nhất bao gồm một mạng bệnh tương đồng dựa trên bản thể kiểu hình của con người (Human Phenotype Ontology - HPO) và mạng tương tác gen/protein được kết nối với nhau bằng các liên kết bệnh - gen đã biết Khi so sánh phương pháp đề xuất và phương pháp sử dụng mạng bệnh tương đồng dựa trên hồ sơ OMIM với cùng một thuật toán bước ngẫu nhiên có quay lui trên đồ thị mạng không đồng nhất (Random Walk with Restart on Heterogeneous network - RWRH), kết quả thực nghiệm cho thấy hiệu quả dự đoán gen liên quan đến bệnh (đặc biệt là những bệnh có số lượng gen liên quan đã được phát hiện còn ít) của phương pháp đề xuất tốt hơn (thể hiện thông qua giá trị AUC), không phân biệt các mạng gen/protein kết hợp Điều này dẫn đến kết luận là mạng bệnh tương đồng dựa trên HPO đã cải thiện hiệu suất của thuật toán RWRH cho việc dự đoán các gen liên quan đến bệnh

Trang 15

Các kết quả nghiên cứu của luận án sẽ là những đóng góp mới về mặt lý thuyết cho lĩnh vực Tin sinh học, đồng thời có thể ứng dụng để giải quyết bài toán phát hiện các gen liên quan đến những căn bệnh cụ thể Đây cũng là bước tiền đề để tìm ra các phương pháp điều trị thích hợp cho các bệnh liên quan đến gen (ví dụ: bệnh cao huyết áp, tiểu đường, ung thư, …) và tiến tới giai đoạn “y học cá nhân hóa” hoặc “cá nhân hóa điều trị” Các phương pháp phân hạng gen được đề xuất cũng có thể phát triển thành các phần mềm ứng dụng để triển khai trong các cơ sở nghiên cứu về y sinh học phục vụ công tác nghiên cứu và đào tạo

4 Bố cục của luận án

Nội dung luận án được chia thành ba chương, cụ thể như sau:

Chương 1 - Tổng quan về phân hạng, dự đoán gen liên quan đến bệnh

và các vấn đề liên quan: Giới thiệu một số khái niệm về sinh học phân tử; tổng

quan về bài toán phân hạng và dự đoán gen liên quan đến bệnh; các hướng tiếp cận

để giải quyết bài toán và tóm lược các nghiên cứu về phân hạng, dự đoán gen liên quan đến bệnh đã được công bố Trên cơ sở những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu của đề tài là phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng sinh học Cách thức đánh giá hiệu quả của các phương pháp phân hạng được giới thiệu ở phần cuối chương

Chương 2 - Phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng tương tác gen/protein: Nội dung chương đề xuất hai phương pháp phân

hạng và dự đoán gen liên quan đến bệnh dựa trên mạng tương tác gen/protein và các kết quả thực nghiệm đã được tiến hành để đánh giá hiệu quả của các phương pháp Phương pháp thứ nhất kết hợp kỹ thuật học tăng cường với xác suất tiên nghiệm; phương pháp thứ hai sử dụng một thuật toán phân tích mạng xã hội cho bài toán phân hạng gen Thực nghiệm được tiến hành trên dữ liệu mạng tương tác protein của con người cho thấy các phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác hơn các phương pháp được so sánh như RWR, PageRank with Prior, K-step Markov thể hiện qua giá trị AUC Ngoài ra, các phương pháp đề xuất

Trang 16

cũng được áp dụng vào dự đoán gen liên quan tới các căn bệnh cụ thể và phần lớn các gen được dự đoán đã được xác nhận có liên quan tới căn bệnh trong các y văn

Chương 3 - Phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng không đồng nhất: Nhằm mục đích nâng cao hiệu quả của bài toán dự đoán

gen mới có liên quan đến bệnh, nội dung chương này đề xuất phương pháp xây dựng một mạng không đồng nhất bao gồm mạng bệnh tương đồng ngữ nghĩa dựa trên HPO và mạng gen/protein Hai mạng này được liên kết bởi các kiểu hình bệnh - gen đã biết Phương pháp đề xuất cho thấy hiệu quả dự đoán gen liên quan đến bệnh tốt hơn khi so sánh với phương pháp sử dụng mạng bệnh tương đồng dựa trên hồ sơ OMIM, không phân biệt các mạng gen/protein kết hợp Ngoài ra, phương pháp đề xuất cũng được sử dụng để dự đoán những gen mới liên quan đến bệnh căn Alzheimer Trong số 20 gen ứng viên có thứ hạng cao nhất, kết quả cho thấy có 4 gen đã được khẳng định liên quan đến căn bệnh trong các y văn và các gen này chưa được ghi nhận trong bất kỳ cơ sở dữ liệu liên kết bệnh - gen nào cho tới thời điểm thực hiện nghiên cứu

Phần cuối cùng của luận án là một số kết luận và đề xuất hướng nghiên cứu tiếp theo

Trang 17

Chương 1 TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN

QUAN ĐẾN BỆNH

Nội dung chương này giới thiệu tổng quan về bài toán phân hạng và dự đoán gen liên quan đến bệnh; các hướng tiếp cận để giải quyết bài toán và tóm lược các nghiên cứu về phân hạng, dự đoán gen liên quan đến bệnh đã được công bố Trên

cơ sở những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu của đề tài là phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng sinh học Cách thức đánh giá hiệu quả của các phương pháp phân hạng được giới thiệu ở phần cuối chương Các kết quả nghiên cứu của đề tài sẽ được trình bày trong các chương tiếp theo của luận án

1.1 CƠ SỞ VỀ SINH HỌC PHÂN TỬ

1.1.1 Tế bào

Tế bào là đơn vị cấu tạo cơ bản của sự sống, chúng cung cấp cấu trúc cho cơ thể, tạo nên chất dinh dưỡng từ thức ăn, chuyển hóa chất dinh dưỡng thành năng lượng và thực hiện các chức năng chuyên biệt Ngoài ra, tế bào còn chứa các yếu tố

di truyền của sinh vật sống và có thể tự nhân bản Mỗi tế bào gồm nhiều thành phần, mỗi thành phần là những cấu trúc chuyên dụng có chức năng khác nhau Một

số thành phần được gọi là bào quan thực hiện những nhiệm vụ nhất định bên trong

tế bào

1.1.2 DNA

DNA (deoxyribonucleic acid) là yếu tố di truyền ở hầu hết các sinh vật sống Gần như mọi tế bào trong cơ thể sinh vật sống đều có cùng DNA Đa phần các DNA nằm trong nhân tế bào Thông tin trong DNA được lưu trữ dưới dạng mã hóa gồm bốn bazơ: adenine (A), cytosine (C), guanine (G) và thymine (T) Các bazơ DNA bắt cặp với nhau: A với T và C với G, tạo thành các cặp bazơ Mỗi cặp bazơ liên kết với một phân tử đường và một phân tử phosphate gọi là một nucleotide Các

Trang 18

nucleotide được sắp xếp thành hai sợi dài xoắn đều quanh một trục tưởng tượng tạo thành một đường xoắn kép (Hình 1.1)

Một đặc tính quan trọng của DNA là nó có thể tự nhân đôi, tạo ra nhiều bản sao của chính nó Điều này rất cần thiết khi tế bào phân chia, khi đó mỗi tế bào mới cần một bản sao chính xác của DNA hiện diện trong tế bào cũ

Hình 1 1 Cấu trúc DNA

(nguồn: U.S National Library of Medicine, https://ghr.nlm.nih.gov)

1.1.3 Gen

Gen được xem là một đơn vị cơ sở của hiện tượng di truyền ở cấp độ phân

tử Mỗi gen là một đoạn DNA chứa thông tin quy định cấu tạo của các phân tử chức năng như RNA (axit ribonucleic) và protein thông qua các phản ứng hóa học trong

cơ thể sinh vật Các protein tương tác với nhau để thực hiện các chức năng của cơ thể, như vậy có thể coi các protein là các dạng chức năng của gen

Trang 19

Ở con người, chiều dài gen có thể thay đổi từ vài trăm đến hơn 2 triệu DNA bazơ Dự án giải mã hệ gen người (The Human Genome Project) ước đoán con người có khoảng từ 20.000 đến 25.000 gen Mỗi cá thể có hai bản sao của một gen, một bản từ bố và bản còn lại từ mẹ Hầu hết các gen là như nhau ở mọi người, nhưng có một số ít gen (ít hơn 1% tổng số) khác nhau giữa mỗi người Alen là các dạng của cùng một gen với những khác biệt nhỏ trong trình tự DNA Những khác biệt này tạo nên nét đặc trưng của mỗi người

1.1.4 Quá trình điều khiển tổng hợp protein từ gen

Quá trình điều khiển tổng hợp protein từ gen bao gồm hai bước chính: phiên

mã (transcription) và dịch mã (translation)

 Quá trình phiên mã: thông tin lưu trữ trong gen của DNA được chuyển

tải sang cho một phân tử tương tự là RNA (ribonucleic acid) trong nhân

tế bào Cả RNA lẫn DNA đều được hình thành từ chuỗi các nucleotide, nhưng chúng khác nhau về đặc tính hóa học Loại protein chứa đựng thông tin hình thành protein gọi là RNA thông tin (mRNA), vì chúng mang thông tin, hoặc thông điệp được gửi từ nhân tới tế bào chất

 Quá trình dịch mã: trong tế bào chất, các mRNA tương tác với một phức

hệ đặc biệt gọi là ribosome (máy giải mã trình tự mRNA bazơ) Mỗi đơn

vị mã thường mã hóa một amino acid riêng biệt (amino acid là đơn vi cấu tạo nên protein) Một loại RNA khác gọi là RNA vận chuyển (tRNA) chuyên mang những amino acid đặc trưng tới ribosome để lắp ráp thành protein Các amino acid lần lượt được lắp ráp dựa trên thông tin từ mRNA cho đến khi ribosome gặp một mã kết thúc (stop codon, một trình

tự 3 bazơ mà không mã hóa amino acid nào)

Hình 1.2 mô phỏng sơ đồ tổng quan về quá trình phiên mã và dịch mã các gen từ DNA để chuyển đổi thành các protein Trong sơ đồ này, các đoạn DNA thể hiện cấu trúc gen bao gồm nhiều đoạn trình tự DNA riêng biệt gọi là exon và intron Các exon chứa thông tin hướng dẫn, điều khiển tổng hợp protein được ngăn cách

Trang 20

bởi các intron không chứa thông tin hữu ích Khi tổng hợp protein, các intron được cắt bỏ khỏi phân tử RNA, các exon được giữ lại và kết nối với nhau thành các trình

tự mã hóa liên tục

Quá trình kết nối các exon phải thật chính xác, một lỗi xảy ra trong quá trình kết nối ví dụ như xóa bỏ một nucleotide trong exon hoặc bổ sung một nucleotide trong intron sẽ tạo ra một protein bất thường hoặc quá trình tổng hợp protein thất bại (nhiều căn bệnh đã phát sinh do lỗi kết nối này, điển hình là bệnh Alzheimer)

Hình 1 2 Sơ đồ tổng hợp protein từ gen

(nguồn: National Institute of General Medical Sciences, https://publications.nigms.nih.gov)

Bằng cách thay thế các exon trong các sơ đồ kết nối khác nhau, một tế bào có thể tạo ra nhiều protein khác nhau từ một gen đơn lẻ Sự kết nối thay thế này giải

Protein

(tổng hợp protein)

Trang 21

thích lý do tại sao tế bào người chỉ có khoảng 20.000 gen những vẫn tạo ra hàng trăm ngàn protein khác nhau (Hình 1.3)

Hình 1 3 Thay thế các exon trong các sơ đồ kết nối cho phép tế bào tạo ra các

protein khác nhau từ một gen đơn lẻ

(nguồn: National Institute of General Medical Sciences, https://publications.nigms.nih.gov)

1.2 PHÂN HẠNG GEN VÀ CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT

1.2.1 Bài toán phân hạng gen

Phân hạng gen là sử dụng các phương pháp tính toán để xếp hạng các gen theo khả năng liên quan của chúng đối với căn bệnh được xem xét Các gen có thứ hạng cao sau đó được xác nhận bằng thực nghiệm sinh học để kiểm chứng khả năng liên quan tới căn bệnh

Khái niệm về phân hạng gen được giới thiệu lần đầu tiên vào năm 2002 bởi Perez-Iratxeta và cộng sự [85] Trong bài báo, Perez-Iratxeta và cộng sự đã mô tả phương pháp tiếp cận tính toán đầu tiên để giải quyết vấn đề này Kể từ đó, nhiều

Trang 22

phương pháp phân hạng gen sử dụng các chiến lược, các thuật toán và nguồn dữ liệu khác nhau đã được phát triển

Bài toán phân hạng gen có thể phát biểu như sau: Với một căn bệnh D, một

bộ gen C là ứng viên cần xem xét và dữ liệu huấn luyện T Sau khi nhập dữ liệu và tính toán, phương pháp sẽ tính điểm số cho mỗi gen ứng viên, những gen có điểm số cao là những gen có nhiều khả năng liên quan đến bệnh

Hình 1 4 Sơ đồ tổng quan về phân hạng gen

Mục đích của phân hạng gen là cung cấp cho các nhà nghiên cứu y sinh học những gợi ý ban đầu về các gen có khả năng liên quan tới căn bệnh, giúp thu hẹp danh sách các gen ứng viên cần dự đoán và các cơ chế liên quan đến căn bệnh Những đóng góp này là rất cần thiết để xác định các gen mới liên quan đến bệnh, đặc biệt là đối với các căn bệnh phức tạp

1.2.2 Các hướng tiếp cận giải quyết bài toán phân hạng gen

1.2.2.1 Các phương pháp dựa trên dữ liệu chú giải chức năng

Các phương pháp dựa trên chú giải chức năng tính điểm số phân hạng các gen ứng viên bằng cách xác định mức độ tương đồng của mỗi gen ứng viên so với một tập các gen liên quan đến bệnh đã biết, dựa trên hồ sơ được xây dựng từ nhiều nguồn dữ liệu chú giải chức năng [3, 4, 20]

Các gen ứng viên được xếp hạng dựa vào hồ sơ gen trích rút từ nhiều nguồn

dữ liệu sinh học như: dữ liệu về thông tin nội tại của gen (genetic localisation), dữ

Phương pháp phân hạng gen

Dữ liệu huấn luyện

Trang 23

liệu biểu hiện gen (gene expression), dữ liệu về kiểu hình (phenotypic data) [28], dữ liệu tương tác giữa các gen [89], bản thể gen (gen ontology) và những dữ liệu khác

[2, 6, 103] Do đó các phương pháp này chủ yếu tập trung vào việc tích hợp các bộ

dữ liệu sinh học khác nhau để có thể xác định được mức độ tương đồng giữa gen ứng viên và gen liên quan đến bệnh đã biết chính xác hơn

Điển hình của hướng tiếp cận này là GenSeeker, một công cụ Web cho phép

dự đoán gen liên quan đến bệnh dựa trên dữ liệu biểu hiện gen và kiểu hình từ người và chuột [28, 29] Hệ thống EVO lựa chọn gen ứng viên dựa trên các kỹ thuật khai phá dữ liệu y văn thông qua tên bệnh [2, 69, 114] và sử dụng thông tin trình tự

cơ bản để phân loại gen có hoặc không có khả năng liên quan đến căn bệnh Tuy nhiên, những phương pháp này gặp phải hạn chế là các nguồn dữ liệu chú giải chức năng chưa bao phủ được toàn bộ hệ gen của con người

1.2.2.2 Các phương pháp dựa trên học máy

Đối với hướng tiếp cận này, nhiều kỹ thuật học máy đã được áp dụng để dự đoán các gen ứng viên có liên quan đến bệnh Trong đó, vấn đề dự đoán gen được xem xét giống như một bài toán phân lớp dữ liệu

Theo mô hình này, một bộ phân lớp học từ tập dữ liệu huấn luyện sau đó dự đoán một gen ứng viên có phải là gen liên quan đến bệnh hay không Những năm đầu, các nghiên cứu dựa trên học máy để dự đoán các gen mới liên quan đến bệnh thường tiếp cận theo mô hình phân lớp nhị phân [59], trong đó tập huấn luyện bao gồm các gen liên quan đến bệnh đã biết và các gen không liên quan đến bệnh

Các phương pháp học máy thường được áp dụng là: cây quyết định [2, 69], k-láng giềng gần nhất [111], Naive Bayes [15, 56, 111], máy hỗ trợ vector [49, 94, 107], mạng nơ ron [49, 94, 107, 111] và rừng ngẫu nhiên [59]

Trên thực tế, các phương pháp học máy thường gặp hạn chế trong việc xây dựng tập dữ liệu huấn luyện khi phải lựa chọn mẫu huấn luyện là các gen thực sự không liên quan tới bệnh Vấn đề này là gần như không thể trong nghiên cứu y sinh

Trang 24

Gần đây, một số kỹ thuật học máy cải tiến đã được phát triển để khắc phục hạn chế này [62] Tuy nhiên, vấn đề dự đoán gen liên quan đến bệnh vẫn chỉ là phân loại các gen có khả năng liên quan tới bệnh hay không, trong khi đó yêu cầu của bài toán phân hạng gen là cần có một danh sách thứ hạng các gen nhằm mục đích thu hẹp danh sách các gen ứng viên cần xem xét

Hình 1 5 Sơ đồ dự đoán gen liên quan đến bệnh dựa trên mô hình học máy [59]

1.2.2.3 Các phương pháp dựa trên mạng sinh học

Để khắc phục hạn chế của hai hướng tiếp cận trên, các phương pháp dự đoán gen liên quan đến bệnh dựa trên các mạng sinh học đã được phát triển [9, 121] và cho thấy kết quả khả quan hơn các phương pháp dựa trên chú giải chức năng và học máy [19, 53]

Các phương pháp này chủ yếu sử dụng các mạng sinh học để thực hiện quá trình phân hạng Các mạng sinh học được xây dựng dựa trên các dữ liệu y sinh học khác nhau, do đó không bị giới hạn bởi mức độ bao phủ như các nguồn dữ liệu chú giải chức năng Ngoài ra, các phương pháp này có thể được coi như kỹ thuật học bán giám sát sử dụng dữ liệu không gán nhãn và kết quả thu được là bảng xếp hạng các gen ứng viên được ước tính dựa trên sự liên quan tương đối của chúng với các gen liên quan đến bệnh đã biết

Hình 1.6 cho thấy sơ đồ tổng quan chung về các phương pháp phân hạng gen

dựa trên mạng sinh học Theo đó, đầu vào bao gồm: căn bệnh D, tập huấn luyện S gồm các gen hạt giống đã biết là có liên quan đến căn bệnh D, kèm theo đó là điểm

viên

Trang 25

số (v, D) biểu thị khả năng liên quan đến căn bệnh của mỗi gen Thành phần khác

của đầu vào là tập gen ứng viên C gồm các gen còn lại được biểu diễn bởi các nút trong đồ thị mạng tương tác sinh học G = (V, E) Sau khi tính toán, phân hạng, kết

quả đầu ra là điểm số phân hạng của các gen ứng viên, gen nào có điểm số cao hơn

sẽ có xác suất liên quan đến căn bệnh D cao hơn

Hình 1 6 Sơ đồ phương pháp phân hạng gen dựa trên mạng

Các phương pháp phân hạng dựa trên mạng sinh học có thể được phân chia

thành phương pháp cục bộ và phương pháp tổng thể Phương pháp cục bộ sử dụng

thông tin cục bộ của các gen hạt giống Về cơ bản, các phương pháp này phân hạng dựa trên tính lân cận thông qua việc kiểm tra trực tiếp hàng xóm của những gen hạt giống Nói cách khác là những gen hàng xóm của gen liên quan đến bệnh đã biết sẽ được gán điểm cao hơn so với các gen còn lại trong mạng Trong khi đó, các phương pháp tổng thể lan truyền tín hiệu liên quan đến bệnh qua hệ thống mạng để cung cấp điểm số của các kết nối và tác động của các gen hạt giống trên các gen còn lại Các phương pháp dựa trên mạng sử dụng các thuật toán lan truyền gần đây đã tỏ

ra vượt trội so với các phương pháp cục bộ [19, 53]

(v,D)

là điểm số của tất cả các vector v trong C đối với bệnh D

Trang 26

Tóm lại, các phương pháp tiếp cận dựa trên mạng khai thác các thuộc tính kết nối của mạng sinh học để tính điểm số liên kết giữa các gen ứng viên và các gen liên quan đến bệnh đã biết Mặc dù đã có nhiều phương pháp được đề xuất nhưng vẫn tồn tại một số hạn chế như: hầu hết các mạng sinh học được sử dụng đều dựa trên các tương tác vật lý chưa bao phủ hết toàn bộ hệ gen người; các phương pháp chưa kết hợp các tương tác có trọng số; trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối tương tác gián tiếp khác

1.3 CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC

1.3.1 Các cơ sở dữ liệu sinh học

Trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh, có nhiều nguồn dữ liệu khác nhau đã được khai thác thành công để dự đoán sự liên quan tới căn bệnh của các gen ứng viên Nguồn dữ liệu sử dụng đóng vai trò quan trọng, có liên quan trực tiếp tới chất lượng và khả năng dự đoán Các nguồn dữ liệu khác nhau có thể coi là các quan điểm khác nhau về cùng một đối tượng là các gen Một nguồn dữ liệu duy nhất có thể không đảm bảo độ chính xác cần thiết mà cần phải sử dụng các nguồn dữ liệu bổ sung Phần này giới thiệu một số nguồn dữ liệu có thể được sử dụng cho bài toán phân hạng và dự đoán gen liên quan đến bệnh

1.3.1.1 Dữ liệu khai thác từ các y văn

Khai thác dữ liệu từ các y văn là một trong những phương pháp tiếp cận đầu tiên để dự đoán các gen có liên quan tới căn bệnh Cho tới thời điểm hiện tại, đã có hàng triệu các tài liệu mô tả mối liên quan giữa các căn bệnh và gen được cung cấp bởi cơ sở dữ liệu PubMed [1] và hàng ngàn kiểu hình bệnh - gen chứa trong hồ sơ OMIM [5] Các dữ liệu này có thể được khai thác bằng cách sử dụng kỹ thuật khai phá văn bản và xử lý ngôn ngữ tự nhiên chuyên dụng Tuy nhiên, các nguồn y văn này không được tổ chức một cách có hệ thống và mỗi khái niệm có thể được mô tả theo nhiều hướng tiếp cận khác nhau Do đó, một số công cụ xử lý tự động các hồ

sơ, y văn dựa vào các từ vựng được kiểm soát như: MeSH [1], UMLS [12] hoặc

Trang 27

eVOC [50] đã được đề xuất để xây dựng sơ đồ tổ chức các y văn, phục vụ cho mục đích khai thác dữ liệu

1.3.1.2 Dữ liệu chú giải chức năng gen

Chú giải chức năng gen theo nghĩa rộng không chỉ bao gồm các quá trình sinh học và các chức năng phân tử mà còn bao gồm cả sự chuyển hóa và các tín hiệu lộ trình Đây là những căn cứ chính xác, có giá trị và được sử dụng rộng rãi để

dự đoán gen liên quan đến bệnh Dựa vào các thông tin chú giải chức năng gen là một phương thức hợp lý để dự đoán các gen ứng viên, tuy nhiên nó chỉ phù hợp với các gen có biểu hiện đặc điểm rõ ràng Hơn nữa, trên thực tế chỉ có một tỷ lệ nhỏ các chú giải chức năng gen được xác định bằng thực nghiệm

Một trong những cơ sở dữ liệu chú giải chức năng được sử dụng rộng rãi nhất là bản thể gen (Gene Ontology - GO) [6] Đây là một bản thể học được kiểm soát bao gồm một tập hợp các tiêu chuẩn về từ và cụm từ sử dụng để lập chỉ mục và truy vấn thông tin Ngoài việc xác định các tiêu chuẩn, GO cũng xác định mối quan

hệ giữa các thuật ngữ làm cho nó trở thành một bộ từ vựng có cấu trúc

Bên cạnh đó, nhiều cơ sở dữ liệu chú giải chức năng gen khác cũng được quan tâm, sử dụng trong dự đoán gen liên quan đến bệnh và chú giải các gen/protein như KEGG [46], MeSH, UMLS, eVOC, MPO [108] và gần đây hơn là bản thể kiểu hình của con người HPO [54] là các ví dụ tiêu biểu Đặc biệt đáng chú ý là cơ sở dữ liệu HPO, một bản thể học có kiểm soát của hơn 8000 tiêu chuẩn đại diện cho các kiểu hình dị thường đơn lẻ Ngoài ra, HPO còn cung cấp chú giải cho tất cả các mục trong OMIM với các tiêu chuẩn, từ đó giúp cho việc chuẩn hóa các khái niệm Đây

là nguồn dữ liệu rất quan trọng mô tả về các bệnh

Ngoài các cơ sở dữ liệu chú giải chức năng nêu trên, bản thể bệnh DO [82] dựa trên UMLS cũng đã được sử dụng cho một số công cụ dự đoán [90]

1.3.1.3 Dữ liệu về quan hệ kiểu hình

Mối quan hệ kiểu hình có thể được mô tả dưới dạng các cơ sở dữ liệu hoặc mạng quan hệ kiểu hình Chúng cũng được sử dụng để xác định một tập các gen

Trang 28

tham khảo nếu căn bệnh cần quan tâm có cơ sở phân tử không rõ ràng, tức là không biết bất kỳ gen liên quan tới bệnh nào Khi đó, có thể tham khảo thông tin các gen

từ một căn bệnh tương đồng hoặc căn bệnh có khả năng phát sinh cơ chế tương đồng

Mối quan hệ kiểu hình - gen thường được thu thập từ các nguồn dữ liệu khác nhau như dựa trên dữ liệu khai phá văn bản của các mục kiểu hình trong hồ sơ OMIM hoặc sử dụng bộ từ vựng có điều khiển MeSH

1.3.1.4 Dữ liệu thuộc tính nội tại của gen

Các thuộc tính nội tại của gen/protein như chiều dài, khả năng phát sinh loài, mức độ bảo tồn loài … cũng có thể cung cấp các đầu mối về sự liên quan đến các rối loạn di truyền, bởi vì các thuộc tính này khác biệt về mặt thống kê giữa gen liên quan đến bệnh và các gen chưa biết có liên quan đến căn bệnh [69] Đây là kết quả của một số công cụ dự đoán Tuy nhiên, khả năng dự đoán gen liên quan đến bệnh dựa vào các thông tin nội tại gen có thể có ý nghĩa đối với các căn bệnh phát sinh do rối loạn di truyền đơn gen nhưng ít có ý nghĩa đối với các căn bệnh đa gen gây ra bởi nhiều gen kết hợp Các căn bệnh đa gen thường phát sinh kiểu hình phức tạp, không rõ ràng, làm tăng tính mẫn cảm của bệnh hoặc khả năng biến đổi Tức là chúng có thể gây ra những đột biến nghiêm trọng ở các gen liên quan đến bệnh

Trong số các thuộc tính nội tại của gen, sự hiện diện của các miền protein có

ý nghĩa đặc biệt quan trọng bởi vì chúng có thể bổ sung các gợi ý về các chức năng phân tử trong đó có thể có một gen liên quan Ví dụ với một gen đã biết có liên quan đến bệnh, các tín hiệu được tăng cường cho một miền protein đặc thù, sau đó

sự xuất hiện hay không của miền protein này trong các gen ứng viên sẽ là một tiêu chí có ý nghĩa để dự đoán gen liên quan đến bệnh

1.3.1.5 Dữ liệu trình tự

Dữ liệu trình tự là kiểu dữ liệu hiếm khi sử dụng nhưng cũng được xem xét đến và chắc chắn được sử dụng trong tương lai Dữ liệu trình tự được thu thập qua các giai đoạn kế tiếp nhau với mục đích trực tiếp xác định những đột biến trong các

Trang 29

gen của bệnh nhân và đánh giá khả năng liên quan đến bệnh của chúng Mặc dù mã hóa các trình tự và các phần tử liên quan tới chúng có thể coi như thuộc tính nội tại của gen Tuy nhiên có sự khác biệt về khái niệm với các thuộc tính chung của gen/protein như độ dài, mức độ bảo tồn loài …

1.3.1.6 Dữ liệu tương tác protein

Dữ liệu tương tác protein biểu thị các tương tác vật lý giữa các protein, đây

là nguồn dữ liệu thường được sử dụng để dự đoán các gen liên quan đến căn bệnh [78] Mỗi tương tác vật lý giữa các protein sẽ tạo ra một chức năng cơ bản, chính vì vậy một sự thay đổi tương tác sẽ dẫn đến một kiểu hình bệnh Trên thực tế, giả định này được xác nhận bởi các liên kết phức hợp protein với bệnh [14] Một số nghiên cứu cũng đã tích hợp thêm trọng số vào các tương tác protein vật lý nhằm mục đích biểu thị mức độ tương tác chức năng đã được dự đoán giữa các protein Tuy nhiên, chất lượng của dữ liệu tương tác protein cũng còn nhiều nhược điểm vì các tương tác thường được thu thập từ các phương pháp thực nghiệm nên chưa đầy đủ hoặc còn có sự nhầm lẫn

Một số cơ sở dữ liệu tương tác protein của các loài thường được sử dụng là: BIND, BIOGRID, INTACT, MIPS, DIPS, HPRD, STRING and MINT [7, 18, 51,

86, 109] trong đó HPRD [92] là cơ sở dữ liệu tương tác protein của con người và STRING [43] là cơ sở dữ liệu bao gồm cả các tương tác vật lý và chức năng giữa các protein của hơn 630 loài

1.3.1.7 Dữ liệu biểu hiện gen

Biểu hiện gen là một khía cạnh quan trọng của chức năng gen, nó biểu thị các quá trình liên quan đến việc chuyển đổi thông tin di truyền chứa trong gen thành các protein Do đó, dữ liệu biểu hiện gen có thể đưa ra các gợi ý có giá trị về các mối quan hệ chức năng và tương tác giữa hai gen hoặc giữa các nhóm gen [30, 93] Trên thực tế, dữ liệu biểu hiện gen ít được sử dụng cho vấn đề dự đoán gen liên quan đến bệnh Tuy nhiên, nó có thể được xem là bằng chứng cụ thể để xác định mối quan hệ giữa các gen trong các trường hợp không thể xác định chúng có tương tác với nhau

Trang 30

hay không Vì về nguyên tắc, thông tin biểu hiện gen không nhất thiết đòi hỏi các phép đo định lượng mức độ biểu hiện Dự đoán có thể dựa trên các thông tin định tính biểu hiện gen trong các mẫu bệnh cụ thể

Các mạng sinh học có thể được chia thành hai loại:

 Các mạng tương tác (mạng trao đổi chất, mạng tương tác protein và mạng

điều hòa gen, ) đại diện cho tương tác vật chất, hóa sinh giữa các phân tử

 Các mạng chức năng (định hình phiên mã, định hình kiểu hình, mạng tương

tác di truyền, ) thể hiện các mối quan hệ chức năng hoặc tính tương đồng giữa gen và các sản phẩm từ gen

Các mạng sinh học thường được biểu diễn bởi đồ thị vô hướng hoặc có hướng với các nút là các phân tử và các cạnh thể hiện liên kết vật chất hoặc chức năng giữa chúng [104] Các mạng tương tác protein thường là các đồ thị vô hướng

có các cạnh biểu diễn liên kết vật chất giữa các protein, ngược lại các mạng điều hòa gen thường là các đồ thị có hướng và các cạnh thể hiện mối liên kết vật chất giữa một nút (là yếu tố phiên mã) với các nút khác (là các phần tử quy định DNA)

Trang 31

Trong các mạng trao đổi chất, các nút là các chất chuyển hóa còn các cạnh (có hướng hoặc vô hướng) là các chất hoạt hóa hoặc các enzym xúc tác trong các phản ứng để chuyển đổi một nút thành một nút khác Các mạng chức năng định hình phiên mã, định hình kiểu hình, mạng tương tác di truyền đều có các nút đại diện cho các gen nhưng các cạnh biểu diễn khả năng đồng thể hiện tương quan ở mức độ cao giữa định hình kiểu hình và các tương tác di truyền đã biết tương ứng Thông tin và cách tiếp cận để xây dựng các mạng này được trình bày trong [9, 118]

Hình 1 7 Mô phỏng sự rối loạn trong các mạng sinh học là nguyên nhân gây ra các

căn bệnh của con người

Loại bỏ cạnh Loại bỏ nút

Căn bệnh A Căn bệnh B

MẠNG SINH HỌC

Trang 32

Các mạng tương tác gen/protein thường được xây dựng dựa trên phương pháp thu thập các tương tác từ thực nghiệm Hai công nghệ chính đã được phát triển

và ứng dụng thành công trong việc tạo ra một số lượng lớn các tương tác protein của con người là: phương pháp phát triển một hệ thống thông lượng cao Y2H để chọn lọc các tương tác nhị phân trực tiếp giữa các cặp protein [98, 110, 126] và phương pháp làm sạch đồng dạng hiệu năng cao bằng khối phổ để xác định các phức hợp protein trên con người [17, 32]

Một hướng khác để xây dựng các mạng tương tác gen/protein là dự đoán thông qua các y văn Các dữ liệu được khai thác chủ yếu từ cơ sở dữ liệu tham chiếu các protein của con người HPRD, cơ sở dữ liệu tương tác phân tử MINT, cơ sở dữ liệu tổng hợp của các tương tác sinh học BioGRID, cơ sở dữ liệu mạng tương tác phân tử sinh học BIND và IntAct [7, 18, 51, 86, 109]

Các mạng tương tác gen/protein có thể được chia thành hai loại: mạng tương tác vật lý và mạng tương tác chức năng:

 Mạng tương tác gen/protein vật lý: là mạng không có trọng số, biểu diễn

các tương tác vật lý giữa các protein có trong tế bào

 Mạng tương tác gen/protein chức năng: là mạng tương tác gen/protein

vật lý được bổ sung thêm trọng số để biểu thị mức độ tương đồng về chức năng giữa các protein

Trang 33

Việc sử dụng cả hai loại tương tác vật lý và chức năng có thể làm tăng độ tin cậy của các phương pháp phân hạng và dự đoán gen liên quan đến bệnh [67]

Mặc dù trên thực tế vẫn còn các vấn đề tồn tại trong mạng tương tác gen/protein như khả năng chưa bao phủ hết hệ gen của con người và còn nhiều sai sót trong quá trình thu thập Tuy nhiên, với những nỗ lực không ngừng trong việc xây dựng và phát triển, các mạng tương tác gen/protein hiện nay đã phần nào đáp ứng được yêu cầu của bài toán phân hạng và dự đoán các gen liên quan đến bệnh

1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC

1.4.1 Phương pháp dựa trên mức độ gần nhau của các gen/protein

Đa số các phương pháp phân hạng và dự đoán gen liên quan đến bệnh hiện tại đều dựa trên giả thiết "mô đun bệnh", tức là các gen liên quan đến cùng một bệnh thường nằm kề nhau trên các mạng tương tác Các gen này có xu hướng tham gia vào lộ trình sinh học giống nhau và có tác động tương tự trên kiểu hình bệnh

Các phương pháp phân hạng này sử dụng các chiến lược ghi điểm khác nhau nhưng về bản chất là đo khoảng cách giữa gen liên quan đến bệnh đã biết và gen ứng viên trên mạng tương tác protein Các phép đo được chia thành ba loại chính là:

đo khoảng cách cục bộ, đo khoảng cách tổng thể và phương pháp phân hoạch đồ thị

để tính toán mức độ gần nhau của từng cặp protein trong một mạng (Bảng 1.1)

Phương pháp phân hạng và dự đoán gen liên quan đến bệnh đơn giản nhất là xem xét liệu hai protein trong một mạng có được kết nối với nhau hay không (phương pháp đếm hàng xóm trực tiếp) Với mỗi cặp protein bất kỳ, nếu chúng được kết nối trực tiếp bởi một cạnh sẽ được gán giá trị 1, ngược lại gán giá trị 0 Gen ứng viên có kết nối trực tiếp tới nhiều gen liên quan đến bệnh thì nó có khả năng là các gen liên quan đến bệnh

Khi có hai protein cùng tham gia vào lộ trình sinh học mà không có tương tác vật lý hoặc chức năng, một số nghiên cứu đã xác định khoảng cách giữa chúng

Trang 34

trong các mạng tương tác gen/protein bằng phương pháp đường đi ngắn nhất [55, 94] Các gen liên quan đến bệnh đã biết được coi như các nút hạt giống và tính toán chiều dài đường đi ngắn nhất giữa các nút này tới các nút khác trên mạng Một nút gần với nút hạt giống sẽ có điểm số cao hơn giống như một gen liên quan đến bệnh ứng viên Krauthammer và cộng sự [55] đã đánh giá các phương pháp dự đoán gen liên quan đến bệnh Alzheimer và cho thấy các gen liên quan đến bệnh được dự đoán bằng phương pháp đường đi ngắn nhất có cùng kết quả với phương pháp xác định bằng thực nghiệm Tuy nhiên, đường đi ngắn nhất giữa hai protein không thể đại diện đầy đủ cho mức độ gần nhau giữa chúng mà còn phải xem xét cấu trúc mạng xung quanh hai protein Ví dụ hai protein được kết nối bởi một trung tâm hoặc giữa chúng có nhiều đường đi sẽ biểu hiện mức độ lân cận khác nhau giữa chúng

Các phép đo khoảng cách tổng thể bao hàm được các yếu tố này bằng cách giả sử xác suất của một protein khuếch tán dọc theo các liên kết của mạng tương tác gen/protein là bằng nhau Kohler và cộng sự [53] đã tiến hành thử nghiệm trên 110 nhóm bệnh trong đó bao gồm 783 gen bệnh được phân hạng Kết quả cho thấy các phép đo khoảng cách tổng thể (khuếch tán hạt nhân, bước ngẫu nhiên có quay lui) đạt hiệu quả tốt hơn các phép đo khoảng cách cục bộ (hàng xóm trực tiếp, chiều dài đường đi ngắn nhất)

Khi so sánh hiệu suất của các phương pháp phân hạng và dự đoán gen bệnh

sử dụng các phép đo khoảng cách khác nhau như: hàng xóm trực tiếp, bước ngẫu nhiên có quay lui, dòng lan truyền, phân hoạch đồ thị không giám sát, phân cụm Markov và phân hoạch đồ thị bán giám sát Navlakha và Kingsford [78] cũng cho thấy rằng bước ngẫu nhiên có quay lui cho hiệu suất tốt nhất về độ chính xác và độ bao phủ, sau đó đến phương pháp dòng lan truyền, phân cụm và hàng xóm trực tiếp Mỗi phương pháp đều đưa ra những dự đoán mới của riêng mình và chỉ có một vài

dự đoán không chính xác Vì vậy, một phương pháp kết hợp các phép đo mức độ gần nhau được đề xuất một cách hợp lý sẽ cho hiệu quả phân hạng tốt nhất do có khả năng nhận biết được các thuộc tính khác nhau của mạng tương tác

Trang 35

Bảng 1 1 Các phương pháp đo khoảng cách giữa các phần tử trong mạng tương tác Phương pháp Chức năng Mô tả

Hàng xóm trực tiếp

Nuv =

1, nếu ∃ E

0, nếu ngược lại

Với mỗi cặp protein u và v, Nuv = 1 nếu giữa chúng có cạnh kết nối trực tiếp Euv, ngược lại Nuv = 0

Đường đi ngắn nhất Duv = Luv với Luv ≤

L

Khoảng cách Duv giữa protein u và v là độ dài đường ngắn nhất Luv L là độ dài của đường bất có thể kết nối protein u và v

W là ma trận kề của đồ thị và Pt là xác suất của vector hiện tại ở các nút lặp t

1.4.2 Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn

Nhiều phương pháp tích hợp dữ liệu đã được đề xuất để phân hạng và dự đoán các gen liên quan đến bệnh Các phương pháp này đều dựa trên giả định cho rằng các gen liên quan đến bệnh sẽ chia sẻ những đặc tính chung trong các dữ liệu

về chú giải gen, ngữ nghĩa gen, biểu hiện gen, trình tự gen và miền protein Chúng

Trang 36

cũng đồng thời có khả năng tham gia vào các lộ trình sinh học và lộ trình tương tự chức năng [35] Khi hiệu quả dự đoán tốt hơn có thể đạt được bằng cách kết hợp nhiều nguồn dữ liệu [41], câu hỏi đặt ra là làm thế nào để có thể tích hợp các dữ liệu không đồng nhất với nhau

Các thông tin về đặc tính gen liên quan đến bệnh thường được xem xét là các chú giải chức năng, biểu hiện microarray, biểu hiện EST (là một phần nhỏ của trình

tự DNA được tạo ra từ một hoặc hai đầu của gen), y văn, các miền protein, tương tác protein, lộ trình chuyển hóa, phức hợp điều hòa cis, mô típ phiên mã, dữ liệu trình tự và các nguồn dữ liệu tiềm năng khác được bổ sung bởi người sử dụng Một xếp hạng tổng thể bằng cách kết hợp các xếp hạng của từng đặc tính được sử dụng

để phân hạng các gen ứng viên Endeavour [115] là một phương pháp phân hạng sử dụng bộ dữ liệu gen tổng hợp, tích hợp 12 đặc tính để xếp hạng các gen ứng viên dựa trên sự tương đồng của chúng với các gen liên quan đến bệnh đã biết căn cứ vào từng đặc tính Kết quả cho thấy hiệu suất của phương pháp sử dụng tất cả các nguồn dữ liệu tốt hơn nhiều so với phương pháp chỉ sử dụng các nguồn dữ liệu riêng biệt

Các mạng liên kết chức năng cũng được đề xuất cho phân hạng các gen ứng viên bằng cách hợp nhất thông tin từ các nguồn dữ liệu khác nhau sử dụng một bộ phân lớp Bayes [33, 67] Phương pháp Prioritizer [33] đã xây dựng bốn loại mạng chức năng bằng cách kết hợp các nguồn dữ liệu khác nhau là ngữ nghĩa gen, biểu hiện gen và tương tác protein Thử nghiệm với locus nhạy cảm nhân tạo có chứa từ

50 -150 gen Ở bước thứ 50, lân cận các gen liên quan đến bệnh đã được tạo ra

Linghu và cộng sự [67] đã tiến hành phân hạng bộ gen mở rộng bằng cách

xây dựng một mạng chức năng liên kết dấu hiệu - trọng số (evidence - weighted)

của 21657 gen dựa trên 16 nguồn dữ liệu Các liên kết chức năng của từng cặp gen

ở mỗi đặc tính được tích hợp vào một mạng liên kết chức năng duy nhất, trọng số bằng tổng các liên kết chức năng, sử dụng một bộ phân lớp Naive Bayes Đối với một căn bệnh bất kỳ, điểm số để phân hạng các gen ứng viên được gán dựa trên tổng trọng số của các liên kết tới các gen liên quan đến bệnh đã biết Thuật toán đã

Trang 37

được thử nghiệm để phân hạng và dự đoán gen liên quan đến bệnh cho 110 bệnh và

đã cho thấy hiệu quả vượt trội

Qua khảo sát thực tế, hiệu quả phân hạng và dự đoán gen liên quan đến bệnh

sử dụng mạng chức năng tích hợp (chiếm tỷ lệ thành công 62%) là tốt hơn so với chỉ sử dụng mạng tương tác protein (chiếm tỷ lệ thành công 40%) Điều này đã khẳng định được tầm quan trọng của vấn đề tích hợp dữ liệu trong phân hạng và dự đoán gen liên quan đến bệnh ứng viên

1.4.3 Phương pháp dựa trên tích hợp thông tin kiểu hình

Thực tế đã chứng minh rằng các bệnh với kiểu hình tương đồng thường chia

sẻ một tập các gen có nguy cơ tiềm ẩn hoặc có quan hệ chức năng [14] Quan sát này đã được sử dụng để xây dựng các mạng bệnh, trong đó hai bệnh được kết nối với nhau nếu chúng chia sẻ ít nhất một gen chung Một số phương pháp khác nhau

đã được phát triển để tính điểm tương đồng giữa các bệnh Rzhetsky và cộng sự [101] thực hiện nghiên cứu trên 1,5 triệu hồ sơ bệnh nhân và 161 bệnh rối loạn chức năng cơ thể bằng cách sử dụng mô hình thống kê và cho thấy rằng các kiểu hình bệnh hình thành một mạng kết nối cao với mối tương quan mạnh giữa từng cặp Một mạng kiểu hình bệnh tương đồng đã được xây dựng bằng cách kết nối các bệnh dựa trên tính đồng xuất hiện của chúng trong một số lượng lớn bệnh nhân [38]

Dựa trên giả thiết các kiểu hình bệnh chồng chéo chia sẻ các gen tiềm ẩn tương đồng về chức năng, đó là mục đích của việc kết hợp chặt chẽ các hồ sơ kiểu hình tương đồng này trong phân hạng gen ứng viên Một số nghiên cứu cho thấy rằng sự tích hợp của các mạng kiểu hình bệnh và mạng tương tác protein cho kết quả tốt hơn so với các phương pháp tiếp cận khác trong nhiệm vụ phân hạng và dự đoán gen bệnh [16, 56, 66, 116, 124, 125] Wu và cộng sự [124] xây dựng thuật toán CIPHER sử dụng phương pháp hồi quy tuyến tính đơn giản để mô hình hóa tương quan giữa các hồ sơ tương đồng kiểu hình và hồ sơ các gen có khoảng cách gần nhau trong mạng tương tác protein Giả thiết cơ bản của thuật toán là sự tương đồng kiểu hình giữa hai bệnh có thể được giải thích bằng sự gần nhau của các gen liên quan đến bệnh trong mạng tương tác Kết quả thực nghiệm cho thấy các dự

Trang 38

đoán gen ứng viên liên quan đến bệnh của họ là đáng tin cậy trong cả hai kiểu liên kết và toàn bộ hệ gen Đặc biệt hơn nữa là khả năng có thể dự đoán gen ứng viên liên quan đến bệnh mà không cần bất kỳ gen liên quan đến bệnh đã biết Họ cũng chứng minh được rằng hiệu suất của CIPHER là tương đương với Endeavor [4], một cách tiếp cận tích hợp sử dụng hơn 10 dữ liệu về gen quy mô lớn như đã đề cập

ở trên

Một cách tiếp cận tương tự là PRINCE được phát triển bởi Vanunu và cộng

sự [116] Trong nghiên cứu của mình, họ đã tính toán sự liên quan giữa một bệnh

truy vấn D với một protein p và một gen bệnh đã biết của một bệnh D 0 tương đồng

kiểu hình với D Liên kết protein - bệnh này đại diện cho sự liên quan của protein p với bệnh D và được sử dụng như kiến thức tiên nghiệm để xây dựng các chức năng

phân hạng PRINCE đã được chứng minh có thể dự đoán thành công không chỉ các gen, mà còn dự đoán cả tổ hợp các protein liên kết với một căn bệnh

Li và Patra [66] đã xây dựng một mạng hỗn hợp bằng cách tích hợp các mạng tương tác protein và mạng kiểu hình dựa trên các mối quan hệ gen - bệnh trong OMIM Các tác giả đã phát triển một thuật toán mới bằng cách mở rộng thuật toán bước ngẫu nhiên có quay lui cho mạng không đồng nhất Trong trường hợp này, thuật toán bước ngẫu nhiên có quay lui không còn bị giới hạn trong mạng gen

mà còn được phép chuyển đến mạng kiểu hình để phân hạng các gen và kiểu hình một cách đồng thời Việc bao hàm một mạng kiểu hình và thuật toán đã cải tiến trong cả hai mạng gen và kiểu hình đã tăng cường đáng kể hiệu quả phân hạng gen liên quan đến bệnh

1.4.4 Phương pháp xây dựng các mô đun bệnh

Ngoài các thuật toán phân hạng các gen ứng viên liên quan đến bệnh cho các bệnh nói chung, nhiều nỗ lực quan trọng cũng đã được thực hiện nhằm hướng tới việc phát hiện gen liên quan đến bệnh cho các bệnh đặc biệt, đơn lẻ bằng cách xây dựng các mô đun bệnh [9] Các thành phần mạng trong các mô đun topo được cho

là có liên quan theo chức năng và sự cố của một mô đun sẽ dẫn đến một bệnh cụ thể Thông tin về các gen liên quan đến bệnh đã biết được thu thập để xây dựng các

Trang 39

mô đun bệnh hoặc các mạng con, trong đó các thành viên sẽ chia sẻ các chức năng tương đồng, mô hình biểu hiện hoặc các con đường chuyển hóa

Khái niệm mô đun bệnh đã được sử dụng trong nghiên cứu nhiều bệnh khác nhau như bệnh ung thư, tiểu đường tuýp 2, béo phì, hen suyễn, thần kinh [22, 26,

40, 68, 112] Cách tiếp cận mô đun bệnh, đặc biệt là đối với những bệnh chưa được nghiên cứu nhiều thường yêu cầu những nỗ lực thực nghiệm quan trọng để xác định các tương tác cho việc xây dựng những mô đun bệnh căn bản

Liu và cộng sự [68] sử dụng phương pháp tiếp cận dựa trên mạng và đã xác

định được một mô đun báo hiệu insulin và một mạng của các thụ thể hạt nhân đóng

vai trò quan trọng trong bệnh tiểu đường tuýp 2 Cùng với một mạng con của các tương tác protein, các tác giả đã đề xuất các tiến trình sinh học cơ bản cho rối loạn này Trong một nghiên cứu về bệnh béo phì, các mạng đồng biểu hiện mô - mô

trong vùng dưới đồi (hypothalamus), gan hoặc mô mỡ đã được xây dựng và cho

phép xác định các gen liên quan đến bệnh cụ thể [26] Nghiên cứu cho thấy nhiều gen trong các mạng con đã tham gia vào các chức năng sinh học liên quan đến bệnh béo phì như rối loạn nhịp sinh học, mất cân bằng năng lượng, phản ứng căng thẳng hoặc phản ứng miễn dịch

Một cách tiếp cận khác được phát triển để phân hạng và dự đoán gen liên quan đến bệnh đặc thù bằng cách xây dựng các mạng con của bệnh với những điều kiện cụ thể [25] Các gen liên quan đến bệnh cụ thể, chẳng hạn như các gen có biểu hiện khác biệt được xác định dưới những điều kiện của bệnh, sau đó được ánh xạ tới mạng tương tác protein tổng thể Mạng con bao gồm các con đường ngắn nhất được xây dựng với các nút kết nối trong con đường ngắn nhất giữa các gen liên quan đến bệnh đặc thù Mỗi nút trong mạng con này được đánh giá và gán điểm topo bằng cách so sánh số lượng các đường đi ngắn nhất của các cặp nút đi qua nó trong mạng con này với số lượng các đường đi ngắn nhất đi qua nó trong mạng tổng thể

Các phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng đã đề xuất được tóm tắt trong Bảng 1.2

Trang 40

Bảng 1 2 Một số phương pháp phân hạng và dự đoán gen liên quan đến bệnh dựa

Đặc trưng Dữ liệu

Phương pháp Mô tả

Direct neighbor

Dự đoán một gen ứng viên là gen liên quan đến bệnh nếu nó tương tác trực tiếp với một gen liên quan đến bệnh đã biết và nằm trong locus bệnh đã biết không có các gen liên quan đến bệnh được xác định

Direct neighbor, Shortest path length, Diffusion kernel, Random walk with restart

Xếp hạng các gen ứng viên dựa trên điểm số về khoảng cách gần nhau của chúng với các gen liên quan đến bệnh đã biết

(i) Dự đoán một gen là gen liên quan đến bệnh nếu nó nằm trong locus biết là có liên quan đến bệnh và điểm số phép đo mạng cao hơn một ngưỡng quy định;

(ii) Kết hợp tất cả 13 phép đo sự gần nhau cho các tổ hợp của cây quyết định, sử dụng một bộ phân lớp rừng ngẫu nhiên

Ngày đăng: 27/11/2017, 10:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Acland A. and Agarwala R., (2014), Database resources of the National Center for Biotechnology Information, Nucleic Acids Research, vol. 42, pp.7-17 Sách, tạp chí
Tiêu đề: Nucleic Acids Research
Tác giả: Acland A. and Agarwala R
Năm: 2014
[2] Adie E., Adams R., Evans K., Porteous D., and Pickard B., (2005), Speeding disease gene discovery by sequence based candidate prioritization, BMC Bioinformatics, vol. 6, p. 55 Sách, tạp chí
Tiêu đề: BMC Bioinformatics
Tác giả: Adie E., Adams R., Evans K., Porteous D., and Pickard B
Năm: 2005
[3] Adie E., Adams R., Evans K., Porteous D., and Pickard B., (2006), Suspects: enabling fast and effective prioritization of positional candidates, Bioinformatics, vol. 22, pp. 773-774 Sách, tạp chí
Tiêu đề: Bioinformatics
Tác giả: Adie E., Adams R., Evans K., Porteous D., and Pickard B
Năm: 2006
[4] Aerts S., Lambrechts D., Maity S., Loo P. V., Coessens B., Smet F. D., et al., (2006), Gene prioritization through genomic data fusion, Nature Biotechnology, vol. 24, pp. 537-544 Sách, tạp chí
Tiêu đề: et al.", (2006), Gene prioritization through genomic data fusion, "Nature Biotechnology
Tác giả: Aerts S., Lambrechts D., Maity S., Loo P. V., Coessens B., Smet F. D., et al
Năm: 2006
[5] Amberger J., Bocchini C. A., Scott A. F., and Hamosh A., (2009), McKusick's Online Mendelian Inheritance in Man (OMIM®), Nucleic Acids Research, vol. 37, pp. D793-D796 Sách, tạp chí
Tiêu đề: Nucleic Acids Research
Tác giả: Amberger J., Bocchini C. A., Scott A. F., and Hamosh A
Năm: 2009
[6] Ashburner M., Ball C. A., Blake J. A., Botstein D., Butler H., Cherry J. M., et al., (2000), Gene Ontology: tool for the unification of biology, Nat. Genet, vol. 25, pp. 25-29 Sách, tạp chí
Tiêu đề: et al.", (2000), Gene Ontology: tool for the unification of biology, "Nat. Genet
Tác giả: Ashburner M., Ball C. A., Blake J. A., Botstein D., Butler H., Cherry J. M., et al
Năm: 2000
[8] Barabasi A. and Albert R., (1999), Emergence of scaling in random networks, Science, vol. 286, pp. 509-512 Sách, tạp chí
Tiêu đề: Science
Tác giả: Barabasi A. and Albert R
Năm: 1999
[9] Barabasi A., Gulbahce N., and Loscalzo J., (2011), Network medicine: a network-based approach to human disease, Nat Rev Genet, vol. 12, pp. 56- 68 Sách, tạp chí
Tiêu đề: Nat Rev Genet
Tác giả: Barabasi A., Gulbahce N., and Loscalzo J
Năm: 2011
[10] Barrell D., Dimmer E., Huntley R. P., Binns D., O’Donovan C., and Apweiler R., (2009), The GOA database in 2009 - an integrated Gene Ontology Annotation resource, Nucleic Acids Res, vol. 37, pp. D396–D403 Sách, tạp chí
Tiêu đề: Nucleic Acids Res
Tác giả: Barrell D., Dimmer E., Huntley R. P., Binns D., O’Donovan C., and Apweiler R
Năm: 2009
[11] Berg J., Lassig M., and Wagner A., (2004), Structure and evolution of protein interaction networks: a statistical model for link dynamics and gene duplications, BMC Evol Biol, vol. 4 Sách, tạp chí
Tiêu đề: BMC Evol Biol
Tác giả: Berg J., Lassig M., and Wagner A
Năm: 2004
[12] Bodenreider O., (2004), The Unified Medical Language System (UMLS): integrating biomedical terminology, Nucleic Acids Res vol. 32, pp. D267- D270 Sách, tạp chí
Tiêu đề: Nucleic Acids Res
Tác giả: Bodenreider O
Năm: 2004
[13] Bodhini D., Sandhiya M., Ghosh S., Majumder P., Rao M., Mohan V., et al., (2012), Association of His1085His INSR gene polymorphism with type 2 diabetes in South Indians, Diabetes Technol Ther, vol. 14, pp. 696-700 Sách, tạp chí
Tiêu đề: et al.", (2012), Association of His1085His INSR gene polymorphism with type 2 diabetes in South Indians, "Diabetes Technol Ther
Tác giả: Bodhini D., Sandhiya M., Ghosh S., Majumder P., Rao M., Mohan V., et al
Năm: 2012
[14] Brunner H. and Driel M. v., (2004), From syndrome families to functional genomics, Nat Rev Genet, vol. 5, pp. 545-551 Sách, tạp chí
Tiêu đề: Nat Rev Genet
Tác giả: Brunner H. and Driel M. v
Năm: 2004
[15] Calvo S., Jain M., Xie X., Sheth S. A., Chang B., Goldberger O. A., et al., (2006), Systematic identification of human mitochondrial disease genes through integrative genomics, Nat. Genet, vol. 38, pp. 576-582 Sách, tạp chí
Tiêu đề: et al.", (2006), Systematic identification of human mitochondrial disease genes through integrative genomics, "Nat. Genet
Tác giả: Calvo S., Jain M., Xie X., Sheth S. A., Chang B., Goldberger O. A., et al
Năm: 2006
[16] Care M., Bradford J., and Needham C., (2009), Combining the interactome and deleterious SNP predictions to improve disease gene identification, Hum Mutat, vol. 30, pp. 485-492 Sách, tạp chí
Tiêu đề: Hum Mutat
Tác giả: Care M., Bradford J., and Needham C
Năm: 2009
[17] Charbonnier S., Gallego O., and Gavin A., (2008), The social network of a cell: recent advances in interactome mapping, Biotechnol Annu Rev vol. 14, pp. 1-28 Sách, tạp chí
Tiêu đề: Biotechnol Annu Rev
Tác giả: Charbonnier S., Gallego O., and Gavin A
Năm: 2008
[19] Chen J., Aronow B. J., and Jegga A. G., (2009), Disease candidate gene identification and prioritization using protein interaction networks, BMC Bioinformatics, vol. 10:73 Sách, tạp chí
Tiêu đề: BMC Bioinformatics
Tác giả: Chen J., Aronow B. J., and Jegga A. G
Năm: 2009
[20] Chen J., Xu H., Aronow B. J., and Jegga A. G., (2007), Improved human disease candidate gene prioritization using mouse phenotype, BMC Bioinformatics, vol. 8:392 Sách, tạp chí
Tiêu đề: BMC Bioinformatics
Tác giả: Chen J., Xu H., Aronow B. J., and Jegga A. G
Năm: 2007
[21] Chen X., Liu M.-X., and Yan G.-Y., (2012), Drug–target interaction prediction by random walk on the heterogeneous network, Molecular BioSystems, vol. 8, pp. 1970-1978 Sách, tạp chí
Tiêu đề: Molecular BioSystems
Tác giả: Chen X., Liu M.-X., and Yan G.-Y
Năm: 2012
[22] Chen Y., Zhu J., Lum P., Yang X., Pinto S., MacNeil D., et al., (2008), Variations in DNA elucidate molecular networks that cause disease, Nature Genetics, vol. 452, pp. 429-435 Sách, tạp chí
Tiêu đề: et al.", (2008), Variations in DNA elucidate molecular networks that cause disease, "Nature Genetics
Tác giả: Chen Y., Zhu J., Lum P., Yang X., Pinto S., MacNeil D., et al
Năm: 2008

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w