Bài viết Xác định công dụng mới của thuốc dựa vào mô hình cục bộ hai chiều thực hiện xác định công dụng thuốc mới như một bài toán dự đoán quan hệ thuốc-bệnh. Về mặt thuật toán, bài toán này tương tự với bài toán dự đoán tương tác thuốc-đích.
Trang 1XÁC ĐỊNH CÔNG DỤNG MỚI CỦA THUỐC DỰA VÀO MÔ HÌNH CỤC BỘ HAI CHIỀU
Nguyễn Hằng Phương
Trường Đại học Thủy lợi, email: phuongnh@tlu.edu.vn
1 GIỚI THIỆU CHUNG
Trong thời gian gần đây, xác định công
dụng thuốc mới (drug repositioning - DR),
hay là việc tìm kiếm chỉ định mới cho các
thuốc đã và đang tồn tại hoặc cho c ác thuốc
đang trong giai đoạn phát triển, nổi lên như
một hướng tiếp cận tiết kiệm cả thời gian và
tiền bạc c ho nhiệm vụ thiết kế thuốc mới
Cùng với sự phát triển mạnh mẽ của dữ
liệu liên quan đến thuốc và bệnh, nhiều
phương pháp xác định c ông dụng thuốc mới
khác nhau đã được đề xuất Các phương pháp
này được phân loại thành hai nhóm chính: i)
dựa vào mạng và ii) dựa vào học máy
Phần lớn các phương pháp DR có chung ý
tưởng về việc sử dụng một mô hình toàn cục
duy nhất học từ toàn bộ mạng/ma trận liên
kết thuốc-bệnh để dự đoán cho mọi loại
thuốc/bệnh Tuy nhiên, việc sử dụng một mô
hình chung để dự đoán cho nhiều thuốc/bệnh
khác nhau được đặc trưng bởi các thông tin
dược lý/sinh học khác nhau có thể không
hiệu quả Cho tới nay, các mô hình cục bộ đã
được áp dụng thành công trong một số bài
toán y sinh khác như dự đoán cạnh liên kết
trong các mạng tương tác trao đổi chất và
protein [1] và các mạng tương tác gene [5]
Bên cạnh đó, phương pháp mô hình cục bộ
hai c hiều (BLM), một dạng khác của mô hình
cục bộ, đã được đề xuất để dự đoán tương tác
thuốc-đích mới trong mạng song phương
thuốc và đích [2]
Trong báo cáo này, chúng tôi thực hiện
xác định công dụng thuốc mới như một bài
toán dự đoán quan hệ thuốc-bệnh Về mặt
thuật toán, bài toán này tương tự với bài toán
dự đoán tương tác thuốc-đích Do đó, lấy
cảm hứng từ sự thành công của thuật toán
BLM trong dự đoán tương tác thuốc-đích [2], chúng tôi điều chỉnh thuật toán mô hình cục
bộ [1] để thực hiện xác định công dụng thuốc mới Cụ thể hơn, các quan hệ thuốc-bệnh đã biết được biểu diễn thành một mạng song phương với các đỉnh là thuốc hoặc bệnh, cạnh nối giữa một đỉnh thuốc và một đỉnh bệnh biểu thị mối liên hệ đã biết của chúng Sau đó, mô hình cục bộ được áp dụng để dự
đoán mối liên hệ giữa thuốc (dr) và bệnh (di) theo hai giai đoạn: i) cho trước thuốc (dr),
chúng tôi tính ra một điểm số thể hiện khả
năng sử dụng thuốc (dr) để điều trị bệnh (di)
nhờ sử dụng các mối liên hệ đã biết giữa
thuốc đó với các bệnh khác và độ tương đồng giữa các bệnh, ii) cho trước bệnh (di), tương
tự, một điểm số thể hiện khả năng bệnh đó có
thể được điều trị bằng thuốc (dr) được tính
toán dựa trên các mối liên hệ đã biết giữa bệnh đó với c ác thuốc khác và độ tương đồng giữa các thuốc Cuối c ùng, các điểm số cục
bộ này được tổng hợp thành một điểm số cuối cùng cho biết liệu có tồn tại mối liên hệ giữa thuốc và bệnh đang xét Trong báo cáo này, mô hình cục bộ trên mạng hai chiều dùng trong xác định công dụng thuốc mới (hay BLMDR - Bipartite Local Models for
phương pháp RLSDR [4], xác định công dụng thuốc mới dựa vào RLS (bình phương tối thiểu có điều chỉnh - Regularized Least Square) - một mô hình toàn cục điển hình Kết quả đánh giá hiệu quả dự đoán bằng kiểm chứng chéo 10-fold trên bộ dữ liệu chuẩn Fdataset [3] cho thấy phương pháp được đề xuất tốt hơn RLSDR (với giá trị AUC trung bình là 0.832 đối với BLMDR và 0.814 đối với RLSDR)
Trang 22 PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Bộ dữ liệu chuẩn
Trong báo cáo này, bộ dữ liệu được sử
dụng là Fdataset [3] có chứa 593 loại thuốc
trong DrugBank, 313 bệnh trong cơ sở dữ liệu
OMIM và 1933 mối liên hệ đã biết giữa các
thuốc và bệnh này Bộ dữ liệu Fdataset gồm
có ba ma trận là: ma trận độ tương đồng c ủa
thuốc Sdr (m×m), ma trận độ tương đồng c ủa
bệnh S di (n×n) và ma trận liên hệ Y {0,1} m×n
biểu diễn mạng hai chiều gồm các mối liên hệ
đã biết giữa bệnh và thuốc
2.2 Mô hình cục bộ hai chiều
Để tìm ra chỉ định thuốc mới, thay vì xây
dụng một mô hình duy nhất dựa trên tất cả
các mối liên hệ đã biết rồi sau đó sử dụng nó
để dự đoán cho mọi thuốc/bệnh, chúng tôi
xây dựng nhiều mô hình cục bộ sử dụng từng
phần thông tin đã biết về mối quan hệ thuốc
-bệnh Nói cách khác, chúng tôi xây dựng c ác
mô hình khác nhau cho từng thuốc/bệnh dựa
trên phần thông tin đã biết của từng
thuốc/bệnh đó Do đó, để dự đoán có hay
không có một cạnh nối e ij giữa thuốc dr i và
bệnh dij xác định, BLMDR áp dụng cùng một
thuật toán dự đoán hai lần cho cùng một cạnh
nhưng trên hai chiều ngược nhau, một dự
đoán từ phía bệnh và một từ phía thuốc Cụ
thể hơn, chiến lược dự đoán của BLMDR đối
với một cạnh e ij có thể được mô tả như sau:
Mô hình dự đoán cho bệnh được xây
dựng dựa vào hiểu biết về mối quan hệ giữa
thuốc dri và tất cả các bệnh (trừ bệnh dij)
trong mạng quan hệ thuốc - bệnh Mô hình
này sau đó được sử dụng để dự đoán cạnh
giữa bệnh di j và thuốc dr i
Mô hình dự đoán cho thuốc được xây
dựng dựa vào hiểu biết về mối quan hệ giữa
bệnh dij và tất cả các thuốc (trừ thuốc dri)
trong mạng quan hệ thuốc-bệnh Mô hình này
sau đó được sử dụng để dự đoán cạnh giữa
thuốc dr i và bệnh di j
Sau hai dự đoán này, ta thu được hai điểm
số độc lập cho cùng một cạnh Bằng cách lấy
giá trị lớn nhất giữa hai điểm số này, ta có
được một điểm số dự đoán cuối cùng cho
cạnh đó
Việc dự đoán mối liên hệ của mỗi loại thuốc/bệnh với các bệnh/thuốc khác có thể được triển khai như một bài toán phân loại nhị phân bởi các mối liên hệ đã biết có thể được biểu diễn như mẫu dương và các mối liên hệ còn lại (không có liên hệ hoặc mối liên hệ chưa được kiểm nghiệm) biểu diễn như mẫu âm Từ phía bệnh, mục tiêu của ta là
dự đoán xem một bệnh nhất định có quan hệ
với thuốc dr i hay không dựa vào thông tin
bệnh và các mối quan hệ đã biết giữa dr i và các bệnh Tương tự, từ phía thuốc, mục tiêu
là dự đoán xem một thuốc nhất định có quan
hệ với bệnh dij hay không dựa vào thông tin thuốc và các mối quan hệ đã biết giữa di j và các bệnh Trong báo cáo này, thông tin thuốc
và bệnh đã được biểu diễn trong ma trận độ
tương đồng thuốc Sdr và ma trận độ tương đồng bệnh S di Do đó, máy véc-tơ hỗ trợ SVM, một mô hình phân loại dựa vào kernel tiêu biểu, được lựa chọn làm bộ phân loại Để
có thể sử dụng các ma trận độ tương đồng sẵn có làm đầu vào huấn luyện các mô hình SVM, chúng cần được biến đổi thành ma trận
kernel, cụ thể là Sdr và Sdi lần lượt chuyển thành kernel Sau đó, đối với mỗi c ặp thuốc
và bệnh, hai mô hình dự đoán (một mô hình cho bệnh và một cho thuốc) được xây dựng Trong pha dự đoán, với một cặp thuốc
bệnh dri -dij chưa xác định mối liên hệ, bệnh
di j được dùng làm đầu vào của mô hình cho bệnh để rồi thu được điểm số yµ1 Tương tự,
thuốc dr i được dùng làm đầu vào của mô hình cho thuốc để thu được điểm số Điểm
số dự đoán cuối cùng của cặp thuốc-bệnh này được tích hợp thành $y max y , y$ $1 2
3 KẾT QUẢ NGHIÊN CỨU Trong mục này, ta sẽ đánh giá hiệu suất của BLMDR trên bộ dữ liệu tiêu chuẩn đã trình bày trước đây Để việc đánh giá thuyết phục hơn, ta so sánh hiệu suất của phương pháp đề xuất này với một phương pháp xác định c ông dụng mới của thuốc khác là RLSDR [4] trong cùng điều kiện thử nghiệm RLSDR dựa vào phương pháp học bán giám sát bình phương
Trang 3tối thiểu chuẩn hóa để xếp hạng các bệnh ứng
viên trong mạng không đồng nhất thuốc-bệnh
để tìm ra công dụng mới của thuốc Hiệu suất
dự đoán của BLMDR và RLSDR được đánh
giá bởi phương pháp kiểm chứng chéo
10-fold Tức là, các mối liên hệ đã biết và chưa
biết trong ma trận liên hệ trong bộ dữ liệu
Fdataset được chia ngẫu nhiên thành 10 phần
(fold) Trong mỗi lần thử nghiệm, một fold
được lấy ra làm tập kiểm tra và 9 fold c òn lại
làm tập huấn luyện AUC (area under the
ROC curve) là thông số đánh giá độ nhạy và
độ đặc hiệu của mô hình dự đoán được sử
dụng để đánh giá hiệu quả dự đoán Cụ thể,
giá trị AUC càng gần 1 thì mô hình dự đoán
càng hiệu quả Kết quả thử nghiệm cho thấy,
phương pháp BLMDR với giá trị AUC trung
bình 0.832 dự đoán tốt hơn RLSDR với giá trị
AUC trung bình 0.814 Các đường cong ROC
đối với fold có hiệu quả dự đoán tốt nhất của
cả hai phương pháp này được thể hiện trong
Hình 2 Các kết quả này cho thấy rằng phương
pháp được đề xuất dựa vào các mô hình cục
bộ cho mỗi thuốc/ bệnh vượt trội hơn phương
pháp dựa vào mô hình toàn cục trong việc dự
đoán mối quan hệ thuốc - bệnh
Hình 1 Đường cong ROC của BLMDR
và RLSDR đối với Fdataset
Các đường cong ROC này được vẽ
cho một fold xác định có giá trị AUC
cao nhất trong 10 fold thử nghiệm
4 KẾT LUẬN Trong báo cáo này, chúng tôi đề xuất một
mô hình cục bộ hai chiều dùng trong xác định công dụng thuốc mới (BLMDR) BLMDR sử dụng các thông tin về quan hệ thuốc-bệnh đã biết, độ tương đồng thuốc và độ tương đồng bệnh xây dựng nên các mô hình cục bộ để dự đoán các quan hệ thuốc-bệnh mới Kết quả so sánh hiệu quả dự đoán giữa phương pháp được đề xuất này với một phương pháp dựa trên mô hình toàn cục RLSDR chứng tỏ hiệu quả vượt trội của BLMDR Trong báo cáo này, điểm số dự đoán cuối cùng cho từng cặp thuốc-bệnh được tích hợp bằng cách lựa chọn giá trị lớn nhất trong hai điểm số độc lập Việc sử dụng các cách tích hợp khác có tính đến trọng số của thông tin thuốc và bệnh có thể cải thiện hiệu quả dự đoán
5 TÀI LIỆU THAM KHẢO [1] Bleakley et.al 2007 Supervised reconstruction of biological networks with local models Bioinformatics p i57-65 [2] Bleakley, K., Y Yamanishi 2009 Supervised prediction of drug-target interactions us ing bipartite local models Bioinformatics p 2397-403
[3] Gottlieb et.al 2011 PREDICT: a method for inferring novel drug indications with application to personalized medicine Mol Sys t Biol p 496
[4] Le, D.H., D Nguyen-Ngoc 2018 Drug Repositioning by Integrating Known Diseas e-Gene and Drug-Target Associations in a Semi-supervised Learning Model Acta Biotheor
[5] Mordelet, F và J.P Vert 2008 SIRENE: supervised inference of regulatory networks Bioinformatics p i76-82