Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” nhằm mục đích nghiên cứu, xây dựng một phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học.
Trang 1BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 2
Công trình được hoàn thành tại:
Học viện Công nghệ Bưu chính Viễn thông
Luận án được bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại:
Học viện Công nghệ Bưu chính Viễn thông
Vào hồi giờ ngày tháng năm
Có thể tìm hiểu luận án tại:
Thư viện Học viện Công nghệ Bưu chính Viễn thông
Trang 3
PHẦN MỞ ĐẦU
1 Tính cấp thiết của luận án
Trong những năm gần đây, nhiều phát hiện mang tính đột phá về mối liên quan giữa bộ gen của con người với các căn bệnh và cơ sở phân tử của chúng đã góp phần làm sáng tỏ nguyên nhân phát sinh của các căn bệnh Việc khám phá cơ sở phân tử của các căn bệnh có giá trị trong phòng ngừa, chẩn đoán và điều trị bệnh
Xác định các gen có liên quan đến bệnh là bài toán quan trọng trong
y sinh học và sinh học phân tử Trước đây, việc xác định gen được thực hiện chủ yếu bằng các thực nghiệm sinh học, phương pháp này cho kết quả tin cậy nhưng đòi hỏi nhiều thời gian và chi phí cao
Trong lĩnh vực tin sinh học, các dữ liệu sinh học ngày càng phong phú, được công bố rộng rãi và phần lớn là miễn phí Các phương pháp tính toán, xử lý dữ liệu sinh học đã được phát triển giúp các nhà nghiên cứu y sinh học tìm ra các gen liên quan đến bệnh tiết kiệm thời gian và chi phí hơn rất nhiều so với phương pháp truyền thống
Mặc dù đạt được nhiều thành tựu đáng kể trong lĩnh vực phát hiện gen liên quan đến bệnh, tuy nhiên vẫn còn một số lượng lớn các bệnh chưa biết cơ sở phân tử Thậm chí, ngay cả với những bệnh đã biết được một phần thông tin về cơ sở phân tử nhưng một tỷ lệ lớn các gen có liên quan vẫn chưa được phát hiện Mặt khác, các phương pháp đã đề xuất gặp khó khăn khi cần phải thu hẹp danh sách các gen ứng viên
Những nghiên cứu về đặc điểm của các gen liên quan đến bệnh trên mạng sinh học cho thấy các gen có mối liên quan với cùng một bệnh hoặc các bệnh tương đồng thường liên kết với nhau và khu trú trong cùng một khu vực của mạng Chúng tạo thành các mô đun vật chất hoặc chức năng trong cơ thể con người Phát hiện này là cơ sở của các phương pháp dự đoán các gen ứng viên liên quan đến bệnh dựa trên mạng sinh học
Cho tới thời điểm hiện nay, đã có nhiều phương pháp phân hạng và
dự đoán gen liên quan đến bệnh dựa trên mạng sinh học đã được nghiên cứu, đề xuất với sự trợ giúp của các cơ sở dữ liệu về hệ gen và các thông tin kiểu hình bệnh Tuy nhiên, vẫn còn tồn tại một số vấn đề như: (1)
Trang 4mức độ bao phủ của các mạng sinh học còn hạn chế, (2) hầu hết các phương pháp mới sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số, (3) trong các phương pháp cục bộ, điểm số chỉ được tính cho các gen tương tác trực tiếp với các gen liên quan đến bệnh mà bỏ qua các gen có mối tương tác gián tiếp khác và (4) các phương pháp sử dụng mạng tích hợp chưa nhiều và chưa khai thác được các nguồn dữ liệu mới
Từ các lý do trên, việc phát triển các phương pháp phân hạng gen mới, đạt hiệu quả cao dựa trên mạng sinh học là vấn đề cấp thiết
Đề tài “Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học” nhằm mục đích nghiên cứu, xây
dựng một phân hệ trong hệ thống thông tin, hỗ trợ phân hạng và dự đoán gen liên quan đến bệnh sử dụng các kỹ thuật tính toán và tin sinh học
2 Mục tiêu của luận án
Nghiên cứu, phát triển một số phương pháp tính toán cho phép phân hạng gen dựa trên các mạng sinh học đạt hiệu quả cao hơn so với các phương pháp đã công bố
Nghiên cứu, ứng dụng các mô hình tính toán mới trong lĩnh vực phân tích mạng xã hội/web cho bài toán phân hạng và dự đoán gen liên quan đến bệnh
Nghiên cứu, thu thập mạng tương tác gen/protein liên kết chức năng,
có trọng số từ các y văn hoặc nguồn dữ liệu công cộng và sử dụng mạng này trong các phương pháp phân hạng gen để nâng cao độ chính xác của kết quả dự đoán
Nghiên cứu, tìm hiểu các mô hình mạng sinh học tích hợp và đề xuất phương án xây dựng mạng tích hợp dựa trên các nguồn dữ liệu sinh học mới, phục vụ cho vấn đề dự đoán gen liên quan đến bệnh
Các kết quả nghiên cứu của luận án có thể được phát triển thành các phần mềm hệ thống thông tin ứng dụng trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh
3 Các đóng góp của luận án
Đề xuất phương pháp phân hạng gen ứng viên bằng cách kết hợp kỹ thuật Học tăng cường với thuật toán phân hạng PageRank, đồng thời bổ
Trang 5sung xác suất tiên nghiệm hợp lý cho các gen liên quan đến bệnh đã biết Phương pháp được thử nghiệm trên mạng tương tác gen/protein của con người và so sánh với các phương pháp phân hạng gen cùng lớp đã
có Kết quả cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các phương pháp được so sánh thể hiện thông qua giá trị AUC
Đề xuất ứng dụng một phương pháp phân tích mạng xã hội để phân hạng và dự đoán các gen ứng viên có độ liên quan cao nhất đối với các gen liên quan đến bệnh đã biết Trong đó, các gen ứng viên có xác suất liên kết với gen bệnh nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ phức tạp tính toán Kết quả cho thấy phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác hơn phương pháp phân hạng gen được áp dụng khá phổ biến là bước ngẫu nhiên có quay lui Phương pháp này được đề xuất áp dụng trên các mạng tương tác gen/protein có kích thước lớn trong khi vẫn đảm bảo hiệu quả dự đoán cao
Đề xuất phương pháp xây dựng mạng không đồng nhất bao gồm một mạng bệnh tương đồng dựa trên HPO bằng cách sử dụng các độ đo tương đồng ngữ nghĩa và một mạng gen/protein nhằm mục đích cải thiện, nâng cao hiệu quả dự đoán gen liên quan đến bệnh so với các mạng không đồng nhất được giới thiệu trong các nghiên cứu trước đây Các kết quả nghiên cứu của luận án sẽ là những đóng góp mới về mặt lý thuyết cho lĩnh vực Tin sinh học, đồng thời có thể ứng dụng để giải quyết bài toán phát hiện các gen liên quan đến những căn bệnh cụ thể Đây cũng là bước tiền đề để tìm ra các phương pháp điều trị thích hợp cho các bệnh liên quan đến gen (ví dụ: bệnh cao huyết áp, tiểu đường, ung thư, …) và tiến tới giai đoạn “y học cá nhân hóa” hoặc “cá nhân hóa điều trị” Các phương pháp phân hạng gen được đề xuất cũng
có thể phát triển thành các phần mềm ứng dụng để triển khai trong các
cơ sở nghiên cứu về y sinh học phục vụ công tác nghiên cứu và đào tạo
4 Bố cục của luận án
Nội dung luận án được chia thành ba chương, cụ thể như sau:
Chương 1 - Tổng quan về phân hạng, dự đoán gen liên quan đến bệnh và các vấn đề liên quan: Giới thiệu một số khái niệm về sinh học
Trang 6phân tử; bài toán phân hạng gen; các hướng tiếp cận giải quyết bài toán
và tóm lược các nghiên cứu liên quan đã được công bố
Chương 2 - Phân hạng và dự đoán gen liên quan đến bệnh dựa trên
mạng tương tác gen/protein: Trình bày hai phương pháp phân hạng và
dự đoán gen liên quan đến bệnh dựa trên mạng tương tác gen/protein cùng các thực nghiệm được tiến hành để đánh giá hiệu quả của các phương pháp
Chương 3 - Phân hạng và dự đoán gen liên quan đến bệnh dựa trên
mạng không đồng nhất: Trình bày phương pháp xây dựng mạng không
đồng nhất bao gồm mạng bệnh tương đồng ngữ nghĩa dựa trên HPO và mạng gen/protein Phương pháp đề xuất cho thấy hiệu quả tốt hơn khi so sánh với phương pháp dựa trên hồ sơ OMIM
Phần cuối cùng của luận án là một số kết luận và đề xuất hướng nghiên cứu tiếp theo
Chương 1 - TỔNG QUAN VỀ PHÂN HẠNG VÀ DỰ ĐOÁN GEN
LIÊN QUAN ĐẾN BỆNH 1.1 CƠ SỞ VỀ SINH HỌC PHÂN TỬ
1.1.1 Tế bào
Tế bào là đơn vị cấu tạo cơ bản của sự sống, chúng cung cấp cấu trúc cho cơ thể, tạo nên chất dinh dưỡng từ thức ăn, chuyển hóa chất dinh dưỡng thành năng lượng và thực hiện các chức năng chuyên biệt Tế bào chứa các yếu tố di truyền và có thể tự nhân bản
1.1.2 DNA
DNA là yếu tố di truyền ở hầu hết các sinh vật sống Thông tin trong DNA được lưu trữ dưới dạng mã hóa gồm bốn bazơ: A, G, C và T Các bazơ DNA bắt cặp với nhau tạo thành các cặp bazơ Mỗi cặp bazơ liên kết với một phân tử đường và một phân tử phosphate tạo thành một nucleotide Các nucleotide được sắp xếp thành hai sợi dài xoắn đều quanh một trục tạo thành một đường xoắn kép
1.1.3 Gen
Gen là một đơn vị cơ sở của hiện tượng di truyền ở cấp độ phân tử Mỗi gen là một đoạn DNA chứa thông tin quy định cấu tạo của các phân
Trang 7tử chức năng như RNA và protein Các protein tương tác với nhau để thực hiện các chức năng của cơ thể Như vậy có thể coi các protein là các dạng chức năng của gen
1.1.4 Quá trình điều khiển tổng hợp protein từ gen
Quá trình điều khiển tổng hợp protein từ gen gồm hai bước chính:
Phiên mã: thông tin lưu trữ trong gen của DNA được chuyển tải
sang cho một phân tử tương tự là mRNA trong nhân tế bào
Dịch mã: các mRNA được ghép nối, tổng hợp thành các
Bài toán phân hạng gen có thể phát biểu như sau: Với một căn bệnh
D, một bộ gen C là ứng viên cần xem xét và dữ liệu huấn luyện T Sau khi nhập dữ liệu và tính toán, phương pháp sẽ tính điểm số cho mỗi gen ứng viên, những gen có điểm số cao là những gen có nhiều khả năng liên quan đến bệnh
Mục đích của phân hạng gen là cung cấp cho các nhà nghiên cứu y sinh học những gợi ý ban đầu về các gen có khả năng liên quan tới căn bệnh, giúp thu hẹp danh sách các gen ứng viên và các cơ chế liên quan của chúng đến căn bệnh Những đóng góp này rất cần thiết để xác định các gen liên quan đến bệnh, đặc biệt là đối với các căn bệnh phức tạp
1.2.2 Các hướng tiếp cận giải quyết bài toán phân hạng gen
1.2.2.1 Các phương pháp dựa trên dữ liệu chú giải chức năng
Các phương pháp này tính điểm số phân hạng các gen ứng viên bằng cách xác định mức độ tương đồng của mỗi gen ứng viên so với một tập các gen liên quan đến bệnh đã biết đến dựa trên hồ sơ được xây dựng từ nhiều nguồn dữ liệu chú giải chức năng Hạn chế của các phương pháp dựa trên dữ liệu chú giải chức năng là các nguồn dữ liệu chưa bao phủ được toàn bộ hệ gen của con người
Trang 81.2.2.2 Các phương pháp dựa trên học máy
Vấn đề dự đoán gen được xem xét giống như một bài toán phân lớp nhị phân, trong đó tập huấn luyện gồm các gen liên quan đến bệnh đã biết và các gen không liên quan đến bệnh Các phương pháp học máy gặp hạn chế khi cần xây dựng tập dữ liệu huấn luyện là các gen thực sự không liên quan tới bệnh Mặt khác, chúng cũng không đạt được mục đích thu hẹp danh sách các gen ứng viên cần xem xét
1.2.2.3 Các phương pháp dựa trên mạng sinh học
Các phương pháp này sử dụng các mạng sinh học để thực hiện quá trình phân hạng Các mạng sinh học được xây dựng dựa trên các dữ liệu
y sinh học khác nhau, do đó không bị giới hạn bởi mức độ bao phủ như các nguồn dữ liệu chú giải chức năng Ngoài ra, các phương pháp này có thể được coi như kỹ thuật học bán giám sát sử dụng dữ liệu không gán nhãn và kết quả thu được là bảng xếp hạng các gen ứng viên được ước tính dựa trên sự liên quan của chúng với các gen bệnh đã biết
1.3 CÁC CƠ SỞ DỮ LIỆU VÀ MẠNG SINH HỌC
1.3.1 Các cơ sở dữ liệu sinh học
Trong lĩnh vực phân hạng và dự đoán gen liên quan đến bệnh, nguồn
dữ liệu sử dụng đóng vai trò quan trọng, có liên quan trực tiếp tới chất lượng và khả năng dự đoán Đã có nhiều nguồn dữ liệu khác nhau được khai thác thành công để dự đoán sự liên quan tới căn bệnh của các gen ứng viên Điển hình là: dữ liệu khai thác từ các y văn; chú giải chức năng gen; quan hệ kiểu hình; thuộc tính nội tại của gen; trình tự gen; tương tác protein; biểu hiện gen
1.3.2 Các mạng sinh học
Các mạng sinh học bao gồm mạng tương tác và mạng chức năng, được xây dựng, thử nghiệm và phát triển liên tục để mô tả các tương tác vật chất hoặc chức năng giữa các phân tử sinh học Các mạng này thường được biểu diễn bởi đồ thị vô hướng hoặc có hướng với các nút là các phân tử và các cạnh thể hiện liên kết vật chất hoặc chức năng giữa chúng Việc giải mã thuộc tính của các mạng sinh học sẽ cung cấp những hiểu biết sâu hơn về các mối quan hệ giữa kiểu gen và kiểu hình phức tạp
Trang 91.3.3 Mạng tương tác gen/protein
Mạng tương tác gen/protein là nguồn dữ liệu thường được sử dụng
để dự đoán các gen liên quan đến bệnh Mỗi tương tác vật chất giữa các gen/protein sẽ tạo ra một chức năng cơ bản Chính vì vậy, khi một tương tác có sự thay đổi sẽ dẫn đến một kiểu hình bệnh
Các tương tác gen/protein thường được thu thập bằng phương pháp thực nghiệm như: sử dụng hệ thống thông lượng cao Y2H để chọn lọc các tương tác nhị phân trực tiếp giữa các cặp protein ; phương pháp làm sạch đồng dạng hiệu năng cao bằng khối phổ và phương pháp thu thập
từ các y văn
1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC
1.4.1 Phương pháp dựa trên mức độ gần nhau của các gen/protein
Các phương pháp này sử dụng các chiến lược ghi điểm khác nhau nhưng về bản chất là đo khoảng cách giữa gen liên quan đến bệnh đã biết và gen ứng viên trên mạng tương tác gen/protein Các phép đo được chia thành ba loại chính là: khoảng cách cục bộ, khoảng cách tổng thể
và phương pháp phân hoạch đồ thị để tính toán mức độ gần nhau của từng cặp gen/protein trong mạng
1.4.2 Phương pháp dựa trên tích hợp các dữ liệu về gen qui mô lớn
Các phương pháp này dựa trên giả thuyết cho rằng các gen liên quan đến bệnh sẽ chia sẻ những đặc tính chung trong các dữ liệu về chú giải gen, ngữ nghĩa gen, biểu hiện gen, trình tự gen
Các phương pháp tích hợp thường được sử dụng là: tính toán xếp hạng tổng thể bằng cách kết hợp các xếp hạng của từng đặc tính; xây dựng mạng tích hợp từ các nguồn dữ liệu khác nhau
1.4.3 Phương pháp dựa trên tích hợp thông tin kiểu hình
Thực tế đã chứng minh rằng các bệnh với kiểu hình tương đồng thường chia sẻ một tập hợp các gen có nguy cơ tiềm ẩn hoặc có quan hệ chức năng Quan sát này đã được sử dụng để xây dựng các mạng bệnh, trong đó hai bệnh được kết nối với nhau nếu chúng chia sẻ ít nhất một gen chung Việc tích hợp mạng kiểu hình và mạng gen để phân hạng các
Trang 10gen và kiểu hình một cách đồng thời đã tăng cường đáng kể hiệu quả phân hạng gen ứng viên
1.4.4 Phương pháp xây dựng các mô đun bệnh
Khái niệm mô đun bệnh đã được sử dụng trong nghiên cứu nhiều bệnh khác nhau như bệnh ung thư, tiểu đường, thần kinh Cách tiếp cận mô đun bệnh, đặc biệt là đối với những bệnh chưa được nghiên cứu nhiều thường yêu cầu những nỗ lực thực nghiệm để xác định các tương tác cho việc xây dựng những mô đun bệnh căn bản Các thành phần mạng trong các mô đun topo được cho là có liên quan theo chức năng và
sự cố của một mô đun sẽ dẫn đến một bệnh cụ thể
Thông tin về các gen liên quan đến bệnh đã biết được thu thập để xây dựng các mô đun bệnh hoặc các mạng con, trong đó các thành viên
sẽ chia sẻ các chức năng tương đồng, mô hình biểu hiện hoặc các lộ trình chuyển hóa
1.5 PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG 1.5.1 Phương pháp kiểm tra chéo
Kiểm tra chéo (Cross Validation - CV) là một phương pháp được sử
dụng để đánh giá các mô hình học máy trên một tập dữ liệu cho trước
Có ba phương pháp kiểm tra chéo được sử dụng phổ biến là: Hold-out,
K-fold cross validation và Leave-one-out cross validation (LOOCV)
Kiểm tra chéo bỏ ra một (LOOCV) là phương pháp thường được sử dụng để đánh giá các thuật toán phân hạng gen
1.5.2 Xác định hiệu quả của các phương pháp phân hạng
Phương pháp vẽ đường cong ROC: thường được sử dụng kết hợp với
phương pháp LOOCV để so sánh hiệu quả của các thuật toán phân hạng gen khác nhau Hiệu quả của các thuật toán phân hạng được xác định bằng cách tính toán giá trị AUC (diện tích dưới đường cong ROC)
Phương pháp tính hệ số làm giàu: căn cứ vào thứ hạng của các gen
liên quan đến bệnh đã biết bị loại bỏ trong tất các trường hợp thử nghiệm để tính toán hệ số làm giàu
Phương pháp tính tỷ lệ trung vị hạng: một số nghiên cứu sử dụng
phương pháp đánh giá dựa vào tỷ số giữa giá trị trung vị của các gen liên quan đến bệnh được dự báo đúng trên tổng số các gen ứng viên
Trang 11Phương pháp tính độ lợi tích lũy giảm dần: là công cụ được sử dụng
trong đánh giá các xếp hạng trang Web và các hệ thống truy vấn thông tin, đôi khi cũng được sử dụng để đánh giá các phương pháp phân hạng gen
1.6 KẾT LUẬN CHƯƠNG 1
Phân hạng và dự đoán gen liên quan đến bệnh dựa trên mạng sinh học là phương pháp tiếp cận được sử dụng phổ biến Mặc dù tới thời điểm hiện tại, các phương pháp được đề xuất đã giải quyết khá tốt bài toán, tuy nhiên trên thực tế vẫn còn tồn tại các vấn đề như: mức độ bao phủ của các mạng sinh học còn hạn chế; hầu hết các phương pháp mới
sử dụng các tương tác vật lý, chưa kết hợp các tương tác chức năng, có trọng số; các phương pháp sử dụng mạng tích hợp chưa nhiều và chưa khai thác được các nguồn dữ liệu mới Chương 2 và chương 3 của luận án tập trung giải quyết một số vấn đề tồn tại nêu trên
Chương 2 - PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN 2.1 ĐẶT VẤN ĐỀ
Phân tích các mạng sinh học, đặc biệt là mạng tương tác gen/protein
là một yếu tố quan trọng để xác định các gen/protein không rõ chức năng Kết quả nghiên cứu về các tương tác trong mạng có thể dẫn đến những hiểu biết mới về các hệ thống sinh học, góp phần làm rõ cơ chế phân tử của kiểu hình và các quá trình sinh học bị gián đoạn trong căn bệnh có liên quan; tạo cơ hội để khám phá các căn bệnh di truyền dựa trên tính năng topo trong các mạng
Một số kỹ thuật phân tích mạng đã được đề xuất để tính toán độ trung tâm và xếp hạng các nút mạng theo một mức độ quan trọng nhất định Mặt khác, do các mạng sinh học trên thực tế có các đặc tính cấu trúc tương đồng với các mạng xã hội/mạng web như “kích thước tự do” (scale-free) và “thế giới nhỏ” (small-world) nên nhiều nghiên cứu đã áp dụng các thuật toán phân tích mạng xã hội/mạng web để phân hạng các gen/protein trong các mạng sinh học
Trang 122.1.1 Bài toán phân hạng nút trên đồ thị
Mạng tương tác protein trong các nghiên cứu liên quan được biểu
diễn bởi một đồ thị vô hướng G = (V, E), trong đó tập các nút V là các gen/protein và tập các cạnh E thể hiện tương tác giữa các gen/protein Giả sử cho trước S là tập các gen bệnh đã biết (còn gọi là tập hạt giống
hay tập nút gốc) Bài toán phân hạng gen được định nghĩa như sau: Cho
G và tập các nút gốc S (S ⊆ V) Hãy phân hạng tất cả các nút trong C (C
= V \S) theo độ liên quan với S Độ liên quan của một nút t C được định nghĩa là trung bình cộng độ liên quan của t với các nút trong S
( | ) =
2.1.2 Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm
Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm (PageRank with priors) là sự mở rộng của thuật toán phân hạng trạng web truyền thống PageRank để tạo ra thuật toán phân hạng tùy biến PageRank with priors cho phép phân hạng các nút trên đồ thị trong mối tương quan với một tập các nút gốc cho trước Thuật toán đã được Chen
và cộng sự ứng dụng cho bài toán phân hạng gen để dự đoán các gen liên quan đến bệnh và thu được các kết quả khả quan
Điểm phân hạng theo PageRank with priors được xác định theo công thức:
( )( )= (1 − ) ∑ ( ) ( | ) ( )( ) + (2.6)
trong đó: β là xác suất quay lui; p(v|u) là xác suất chuyển từ u tới v; p v là
xác suất tiên nghiệm của nút v; PR (i) (u) là điểm phân hạng của u tại bước thứ i; d in (v) là bậc vào của nút v
2.1.3 Thuật toán phân hạng bằng học tăng cường
Thuật toán phân hạng bằng học tăng cường (Reinforcement Learning Rank- RL_Rank) được đề xuất bởi Vali Derhami và cộng sự RL_Rank
sử dụng cấu trúc liên kết của các trang web và định nghĩa sự phân hạng theo hình thái của bài toán học tăng cường Trong giải thuật này, một thực thể được xem như một người dùng duyệt web ngẫu nhiên và mỗi trang web là một trạng thái
Điểm phân hạng theo RL_Rank được xác định theo công thức:
Trang 13( ) = ∑ ( )(( ( )⁄ ( ))× ( + ( ))) (2.8)
trong đó: R t+1 (v) là thứ hạng của trang v tại thời điểm t+1; R t (u) là thứ hạng của trang u tại thời điểm t; d in (v) bậc vào của trang v; prob(u) là xác suất về sự hiện diện của thực thể tại trang u; d out (u) là bậc ra của trang u; r uv là khoản thưởng dành cho việc chuyển từ trang u sang trang
v; γ là hệ số giảm trừ
2.1.4 Thuật toán bước ngẫu nhiên có quay lui
Bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR) là một biến thể của thuật toán bước ngẫu nhiên trên đồ thị Thuật toán đã được Kohler và cộng sự phát triển cho bài toán phân hạng gen dựa trên
đồ thị
Điểm phân hạng theo RWR được xác định theo công thức:
trong đó: p t+1 là vector xác suất của tập các nút |V| tại thời điểm t; Phần
tử thứ i biểu diễn xác suất của thực thể tại nút v i V; W’ là ma trận chuẩn hóa từ ma trận kề W, trong đó W’ i j (kí hiệu các phần tử (i, j) trong
W’) biểu diễn xác suất mà thực thể di chuyển từ vi tới v j nằm trong tập
V\{v i }; p 0 là vector xác suất khởi đầu trong đó các phần tử có giá trị
bằng 0 (nếu chúng không thuộc tập S) hoặc bằng 1/|S| (nếu chúng thuộc tập S)
2.2 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIỀN NGHIỆM
2.2.1 Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm
Thuật toán RL_Rank cho phép xếp hạng các nút trên mạng một cách toàn cục, tức là thuật toán này tính toán độ quan trọng nói chung hay độ quan trọng tuyệt đối của các nút Trong các bài toán tìm kiếm trên Web, cách xếp hạng này là phù hợp Tuy nhiên, mục tiêu của bài toán phân hạng gen không phải là tính độ quan trọng tuyệt đối của các nút mà là tính độ quan trọng tương đối của các nút so với các nút gốc (tức là các nút tương ứng với các gen liên quan đến bệnh đã biết) Để giải quyết vấn đề này, phương pháp phân hạng học tăng cường kết hợp với xác suất tiên nghiệm (RL_Rank with priors) sử dụng ý tưởng về “thứ hạng