Xác định công dụng mới của thuốc dựa vào mô hình cục bộ hai chiều

Bài viết Xác định công dụng mới của thuốc dựa vào mô hình cục bộ hai chiều thực hiện xác định công dụng thuốc mới như một bài toán dự đoán quan hệ thuốc-bệnh. Về mặt thuật toán, bài toán này tương tự với bài toán dự đoán tương tác thuốc-đích.

Trang 1

XÁC ĐỊNH CÔNG DỤNG MỚI CỦA THUỐC DỰA VÀO MÔ HÌNH CỤC BỘ HAI CHIỀU

Nguyễn Hằng Phương

Trường Đại học Thủy lợi, email: phuongnh@tlu.edu.vn

1 GIỚI THIỆU CHUNG

Trong thời gian gần đây, xác định công

dụng thuốc mới (drug repositioning - DR),

hay là việc tìm kiếm chỉ định mới cho các

thuốc đã và đang tồn tại hoặc cho c ác thuốc

đang trong giai đoạn phát triển, nổi lên như

một hướng tiếp cận tiết kiệm cả thời gian và

tiền bạc c ho nhiệm vụ thiết kế thuốc mới

Cùng với sự phát triển mạnh mẽ của dữ

liệu liên quan đến thuốc và bệnh, nhiều

phương pháp xác định c ông dụng thuốc mới

khác nhau đã được đề xuất Các phương pháp

này được phân loại thành hai nhóm chính: i)

dựa vào mạng và ii) dựa vào học máy

Phần lớn các phương pháp DR có chung ý

tưởng về việc sử dụng một mô hình toàn cục

duy nhất học từ toàn bộ mạng/ma trận liên

kết thuốc-bệnh để dự đoán cho mọi loại

thuốc/bệnh Tuy nhiên, việc sử dụng một mô

hình chung để dự đoán cho nhiều thuốc/bệnh

khác nhau được đặc trưng bởi các thông tin

dược lý/sinh học khác nhau có thể không

hiệu quả Cho tới nay, các mô hình cục bộ đã

được áp dụng thành công trong một số bài

toán y sinh khác như dự đoán cạnh liên kết

trong các mạng tương tác trao đổi chất và

protein [1] và các mạng tương tác gene [5]

Bên cạnh đó, phương pháp mô hình cục bộ

hai c hiều (BLM), một dạng khác của mô hình

cục bộ, đã được đề xuất để dự đoán tương tác

thuốc-đích mới trong mạng song phương

thuốc và đích [2]

Trong báo cáo này, chúng tôi thực hiện

xác định công dụng thuốc mới như một bài

toán dự đoán quan hệ thuốc-bệnh Về mặt

thuật toán, bài toán này tương tự với bài toán

dự đoán tương tác thuốc-đích Do đó, lấy

cảm hứng từ sự thành công của thuật toán

BLM trong dự đoán tương tác thuốc-đích [2], chúng tôi điều chỉnh thuật toán mô hình cục

bộ [1] để thực hiện xác định công dụng thuốc mới Cụ thể hơn, các quan hệ thuốc-bệnh đã biết được biểu diễn thành một mạng song phương với các đỉnh là thuốc hoặc bệnh, cạnh nối giữa một đỉnh thuốc và một đỉnh bệnh biểu thị mối liên hệ đã biết của chúng Sau đó, mô hình cục bộ được áp dụng để dự

đoán mối liên hệ giữa thuốc (dr) và bệnh (di) theo hai giai đoạn: i) cho trước thuốc (dr),

chúng tôi tính ra một điểm số thể hiện khả

năng sử dụng thuốc (dr) để điều trị bệnh (di)

nhờ sử dụng các mối liên hệ đã biết giữa

thuốc đó với các bệnh khác và độ tương đồng giữa các bệnh, ii) cho trước bệnh (di), tương

tự, một điểm số thể hiện khả năng bệnh đó có

thể được điều trị bằng thuốc (dr) được tính

toán dựa trên các mối liên hệ đã biết giữa bệnh đó với c ác thuốc khác và độ tương đồng giữa các thuốc Cuối c ùng, các điểm số cục

bộ này được tổng hợp thành một điểm số cuối cùng cho biết liệu có tồn tại mối liên hệ giữa thuốc và bệnh đang xét Trong báo cáo này, mô hình cục bộ trên mạng hai chiều dùng trong xác định công dụng thuốc mới (hay BLMDR - Bipartite Local Models for

phương pháp RLSDR [4], xác định công dụng thuốc mới dựa vào RLS (bình phương tối thiểu có điều chỉnh - Regularized Least Square) - một mô hình toàn cục điển hình Kết quả đánh giá hiệu quả dự đoán bằng kiểm chứng chéo 10-fold trên bộ dữ liệu chuẩn Fdataset [3] cho thấy phương pháp được đề xuất tốt hơn RLSDR (với giá trị AUC trung bình là 0.832 đối với BLMDR và 0.814 đối với RLSDR)

Trang 2

2 PHƯƠNG PHÁP NGHIÊN CỨU

2.1 Bộ dữ liệu chuẩn

Trong báo cáo này, bộ dữ liệu được sử

dụng là Fdataset [3] có chứa 593 loại thuốc

trong DrugBank, 313 bệnh trong cơ sở dữ liệu

OMIM và 1933 mối liên hệ đã biết giữa các

thuốc và bệnh này Bộ dữ liệu Fdataset gồm

có ba ma trận là: ma trận độ tương đồng c ủa

thuốc Sdr (m×m), ma trận độ tương đồng c ủa

bệnh S di (n×n) và ma trận liên hệ Y  {0,1} m×n

biểu diễn mạng hai chiều gồm các mối liên hệ

đã biết giữa bệnh và thuốc

2.2 Mô hình cục bộ hai chiều

Để tìm ra chỉ định thuốc mới, thay vì xây

dụng một mô hình duy nhất dựa trên tất cả

các mối liên hệ đã biết rồi sau đó sử dụng nó

để dự đoán cho mọi thuốc/bệnh, chúng tôi

xây dựng nhiều mô hình cục bộ sử dụng từng

phần thông tin đã biết về mối quan hệ thuốc

-bệnh Nói cách khác, chúng tôi xây dựng c ác

mô hình khác nhau cho từng thuốc/bệnh dựa

trên phần thông tin đã biết của từng

thuốc/bệnh đó Do đó, để dự đoán có hay

không có một cạnh nối e ij giữa thuốc dr i và

bệnh dij xác định, BLMDR áp dụng cùng một

thuật toán dự đoán hai lần cho cùng một cạnh

nhưng trên hai chiều ngược nhau, một dự

đoán từ phía bệnh và một từ phía thuốc Cụ

thể hơn, chiến lược dự đoán của BLMDR đối

với một cạnh e ij có thể được mô tả như sau:

 Mô hình dự đoán cho bệnh được xây

dựng dựa vào hiểu biết về mối quan hệ giữa

thuốc dri và tất cả các bệnh (trừ bệnh dij)

trong mạng quan hệ thuốc - bệnh Mô hình

này sau đó được sử dụng để dự đoán cạnh

giữa bệnh di j và thuốc dr i

 Mô hình dự đoán cho thuốc được xây

dựng dựa vào hiểu biết về mối quan hệ giữa

bệnh dij và tất cả các thuốc (trừ thuốc dri)

trong mạng quan hệ thuốc-bệnh Mô hình này

sau đó được sử dụng để dự đoán cạnh giữa

thuốc dr i và bệnh di j

Sau hai dự đoán này, ta thu được hai điểm

số độc lập cho cùng một cạnh Bằng cách lấy

giá trị lớn nhất giữa hai điểm số này, ta có

được một điểm số dự đoán cuối cùng cho

cạnh đó

Việc dự đoán mối liên hệ của mỗi loại thuốc/bệnh với các bệnh/thuốc khác có thể được triển khai như một bài toán phân loại nhị phân bởi các mối liên hệ đã biết có thể được biểu diễn như mẫu dương và các mối liên hệ còn lại (không có liên hệ hoặc mối liên hệ chưa được kiểm nghiệm) biểu diễn như mẫu âm Từ phía bệnh, mục tiêu của ta là

dự đoán xem một bệnh nhất định có quan hệ

với thuốc dr i hay không dựa vào thông tin

bệnh và các mối quan hệ đã biết giữa dr i và các bệnh Tương tự, từ phía thuốc, mục tiêu

là dự đoán xem một thuốc nhất định có quan

hệ với bệnh dij hay không dựa vào thông tin thuốc và các mối quan hệ đã biết giữa di j và các bệnh Trong báo cáo này, thông tin thuốc

và bệnh đã được biểu diễn trong ma trận độ

tương đồng thuốc Sdr và ma trận độ tương đồng bệnh S di Do đó, máy véc-tơ hỗ trợ SVM, một mô hình phân loại dựa vào kernel tiêu biểu, được lựa chọn làm bộ phân loại Để

có thể sử dụng các ma trận độ tương đồng sẵn có làm đầu vào huấn luyện các mô hình SVM, chúng cần được biến đổi thành ma trận

kernel, cụ thể là Sdr và Sdi lần lượt chuyển thành kernel Sau đó, đối với mỗi c ặp thuốc

và bệnh, hai mô hình dự đoán (một mô hình cho bệnh và một cho thuốc) được xây dựng Trong pha dự đoán, với một cặp thuốc

bệnh dri -dij chưa xác định mối liên hệ, bệnh

di j được dùng làm đầu vào của mô hình cho bệnh để rồi thu được điểm số yµ1 Tương tự,

thuốc dr i được dùng làm đầu vào của mô hình cho thuốc để thu được điểm số Điểm

số dự đoán cuối cùng của cặp thuốc-bệnh này được tích hợp thành $y  max y , y$ $1 2

3 KẾT QUẢ NGHIÊN CỨU Trong mục này, ta sẽ đánh giá hiệu suất của BLMDR trên bộ dữ liệu tiêu chuẩn đã trình bày trước đây Để việc đánh giá thuyết phục hơn, ta so sánh hiệu suất của phương pháp đề xuất này với một phương pháp xác định c ông dụng mới của thuốc khác là RLSDR [4] trong cùng điều kiện thử nghiệm RLSDR dựa vào phương pháp học bán giám sát bình phương

Trang 3

tối thiểu chuẩn hóa để xếp hạng các bệnh ứng

viên trong mạng không đồng nhất thuốc-bệnh

để tìm ra công dụng mới của thuốc Hiệu suất

dự đoán của BLMDR và RLSDR được đánh

giá bởi phương pháp kiểm chứng chéo

10-fold Tức là, các mối liên hệ đã biết và chưa

biết trong ma trận liên hệ trong bộ dữ liệu

Fdataset được chia ngẫu nhiên thành 10 phần

(fold) Trong mỗi lần thử nghiệm, một fold

được lấy ra làm tập kiểm tra và 9 fold c òn lại

làm tập huấn luyện AUC (area under the

ROC curve) là thông số đánh giá độ nhạy và

độ đặc hiệu của mô hình dự đoán được sử

dụng để đánh giá hiệu quả dự đoán Cụ thể,

giá trị AUC càng gần 1 thì mô hình dự đoán

càng hiệu quả Kết quả thử nghiệm cho thấy,

phương pháp BLMDR với giá trị AUC trung

bình 0.832 dự đoán tốt hơn RLSDR với giá trị

AUC trung bình 0.814 Các đường cong ROC

đối với fold có hiệu quả dự đoán tốt nhất của

cả hai phương pháp này được thể hiện trong

Hình 2 Các kết quả này cho thấy rằng phương

pháp được đề xuất dựa vào các mô hình cục

bộ cho mỗi thuốc/ bệnh vượt trội hơn phương

pháp dựa vào mô hình toàn cục trong việc dự

đoán mối quan hệ thuốc - bệnh

Hình 1 Đường cong ROC của BLMDR

và RLSDR đối với Fdataset

Các đường cong ROC này được vẽ

cho một fold xác định có giá trị AUC

cao nhất trong 10 fold thử nghiệm

4 KẾT LUẬN Trong báo cáo này, chúng tôi đề xuất một

mô hình cục bộ hai chiều dùng trong xác định công dụng thuốc mới (BLMDR) BLMDR sử dụng các thông tin về quan hệ thuốc-bệnh đã biết, độ tương đồng thuốc và độ tương đồng bệnh xây dựng nên các mô hình cục bộ để dự đoán các quan hệ thuốc-bệnh mới Kết quả so sánh hiệu quả dự đoán giữa phương pháp được đề xuất này với một phương pháp dựa trên mô hình toàn cục RLSDR chứng tỏ hiệu quả vượt trội của BLMDR Trong báo cáo này, điểm số dự đoán cuối cùng cho từng cặp thuốc-bệnh được tích hợp bằng cách lựa chọn giá trị lớn nhất trong hai điểm số độc lập Việc sử dụng các cách tích hợp khác có tính đến trọng số của thông tin thuốc và bệnh có thể cải thiện hiệu quả dự đoán

5 TÀI LIỆU THAM KHẢO [1] Bleakley et.al 2007 Supervised reconstruction of biological networks with local models Bioinformatics p i57-65 [2] Bleakley, K., Y Yamanishi 2009 Supervised prediction of drug-target interactions us ing bipartite local models Bioinformatics p 2397-403

[3] Gottlieb et.al 2011 PREDICT: a method for inferring novel drug indications with application to personalized medicine Mol Sys t Biol p 496

[4] Le, D.H., D Nguyen-Ngoc 2018 Drug Repositioning by Integrating Known Diseas e-Gene and Drug-Target Associations in a Semi-supervised Learning Model Acta Biotheor

[5] Mordelet, F và J.P Vert 2008 SIRENE: supervised inference of regulatory networks Bioinformatics p i76-82

Tiêu đề	Xác định công dụng mới của thuốc dựa vào mô hình cục bộ hai chiều
Tác giả	Nguyễn Hằng Phương
Trường học	Trường Đại học Thủy lợi
Chuyên ngành	Khoa học Máy tính và Công nghệ Thông tin
Thể loại	Báo cáo hội nghị
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	3
Dung lượng	160 KB