Nghiên cứu xây dựng mô hình in siloco dự đoán một số tính chất dược động học quan trọng của thuốc

Do đó chúng tôi tiến hành nghiên cứu đề tài “Xây dựng mô hình in silico dự đoán một số tính chất dược động học quan trọng của thuốc” với mục tiêu: Tạo ra các mô hình dự đoán một số thô

Trang 1

BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

NGUYỄN THỊ HẢI YẾN

NGHIÊN CỨU XÂY DỰNG MÔ HÌNH

IN SILICO DỰ ĐOÁN MỘT SỐ TÍNH CHẤT DƯỢC ĐỘNG HỌC QUAN

TRỌNG CỦA THUỐC

KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ

HÀ NỘI - 2020

Trang 2

BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

NGUYỄN THỊ HẢI YẾN

Trang 3

LỜI CẢM ƠN

Trong quá trình thực hiện khóa luận tốt nghiệp, tôi đã may mắn nhận được

sự hướng dẫn tận tình, sự giúp đỡ cùng những lời động viên đến từ những thầy

cô, những người bạn và gia đình của tôi Tôi xin được gửi lời cảm ơn chân thành đến những người có ý nghĩa lớn đối với tôi những năm tháng sinh viên

Trước tiên, tôi xin được thể hiện lòng biết ơn của mình đến với thầy TS

Phạm Thế Hải – người thầy đã dẫn dắt tôi những bước đầu đến với nghiên cứu

khoa học Thầy không chỉ chỉ dẫn tận tình từ những kiến thức cơ bản mà còn đưa ra các giải pháp, định hướng giúp vượt qua những khó khăn trong quá trình tôi thực hiện khóa luận tốt nghiệp và tạo cho tôi nhiều cơ hội được trau dồi và tăng cường các kĩ năng quan trọng khi làm nghiên cứu khoa học

Tôi cũng xin cảm ơn các thầy cô bộ môn Hóa dược trường Đại học Dược

đã nhiệt tình hỗ trợ, tạo điều kiện cho tôi được hoàn thành khóa luận tốt nghiệp Tôi xin được gửi lời cảm ơn đến tất cả các thầy cô giáo và Ban giám hiệu trường Đại học Dược Hà Nội đã truyền đạt và giảng dạy kiến thức cho tôi, tạo

cơ hội cho tôi được thực hiện nghiên cứu khoa học và khóa luận tốt nghiệp Cuối cùng, tôi xin cảm ơn gia đình và bạn bè tôi, những người đã luôn ở bên cạnh tôi, truyền động lực cho tôi và ủng hộ tôi với con đường mà tôi đã chọn

Hà Nội, ngày 8 tháng 6 năm 2020

Sinh viên

Nguyễn Thị Hải Yến

Trang 4

MỤC LỤC

DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT 6

DANH MỤC BẢNG BIỂU 7

DANH MỤC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ 8

ĐẶT VẤN ĐỀ 1

CHƯƠNG 1 TỔNG QUAN 2

1.1 Tổng quan về các thông số dược động học quan trọng của thuốc 2

1.2 Tổng quan về phương pháp Học máy 4

1.2.1 Định nghĩa Học máy 4

1.2.2 Quy trình cơ bản của Học máy 5

1.2.3 Phân loại 8

CHƯƠNG 2 NGUYÊN LIỆU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 13

2.1 Nguyên liệu và công cụ sử dụng 13

2.1.1 Nguyên liệu 13

2.1.2 Công cụ sử dụng 13

2.2 Nội dung nghiên cứu 15

2.3 Phương pháp nghiên cứu 17

2.3.1 Tính tham số phân tử bằng DRAGON 17

2.3.2 Tiền xử lý dữ liệu 19

2.3.3 Giảm chiều dữ liệu bằng kĩ thuật Phân tích sự khác biệt tuyến tính (LDA) 20

2.3.4 Xây dựng Mô hình bằng thuật toán XGBoost 21

2.3.5 Các thông số đánh giá mô hình 22

CHƯƠNG 3 KẾT QUẢ VÀ BÀN LUẬN 24

3.1 Kết quả các mô hình dự đoán 24

3.1.1 Mô hình dự đoán Sinh khả dụng một chất 24

3.1.2 Mô hình dự đoán Phần trăm hấp thu qua ruột ở người (HIA) 27

3.1.3 Mô hình dự đoán Khả năng ức chế men chuyển hóa thuốc CYP3A4

30 3.1.4 Mô hình dự đoán Khả năng ức chế bơm tống thuốc P-Glucoprotein (P-gp) 33

Trang 5

3.1.5 Mô hình dự đoán Độ tan của một chất 36

3.2 Bàn luận phương pháp nghiên cứu 38

3.2.1 Về ưu điểm của phương pháp 38

3.2.2 Về hạn chế của phương pháp 38

KẾT LUẬN VÀ KIẾN NGHỊ 40

TÀI LIỆU THAM KHẢO 1

Trang 6

DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT

Absorption, distribution, metabolism, excretion

Hấp thu, phân bố, chuyển hóa, thải trừ

2 HIA Human Intestinal Absorption

Hấp thu qua ruột ở người

3 LDA Linear Discriminant Analysis

Phân tích sự khác biệt tuyến tính

4 XGBoost Extreme Gradient Boosting

Tăng cường độ dốc hết sức

5 MLR Multiple Linear Regression

Hồi quy tuyến tính đa biến

Trang 7

DANH MỤC BẢNG BIỂU

Bảng 2-1 Cơ sở dữ liệu nghiên cứu 13

Bảng 2-2 Khối mô tả phân tử của phần mềm DRAGON 18

Bảng 2-3 Ma trận nhầm lẫn cơ bản 22

Bảng 3-1 Kết quả các mô hình dự đoán 24

Bảng 3-2 Ma trận nhầm lẫn của mô hình M1 với tập kiểm thử 27

Bảng 3-5.Ma trận nhầm lẫn của mô hình M4 với tập kiểm thử 36

Trang 8

DANH MỤC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ

Hình 1.1 Sơ đồ biểu diễn các quá trình xảy ra với thuốc trong cơ thể sau khi

uống 3

Hình 1.2 Quy trình học máy theo Tom Mitchell 5

Hình 1.3 Các bước thực hiện một bài toán học máy 6

Hình 1.4 Phương pháp 5-Fold Cross Validation 8

Hình 2.3 Các thông số của thuật toán XGBoost phân loại 22

Hình 2.4 Các thông số của thuật toán XGBoost hồi quy 22

Hình 3.1 Đồ thị biểu diễn tập huấn luyện mô hình M1 sau khi xử lý các giá trị bị thiếu 25

Hình 3.2 Đồ thị biểu diễn tập huấn luyện mô hình M1 sau chuẩn hóa dữ liệu 25 Hình 3.3.Đồ thị biểu diễn tập huấn luyện mô hình M1 sau giảm chiều dữ liệu với LDA 26

Hình 3.4 Đồ thị biểu diễn tập kiểm thử mô hình M1 sau giảm chiều dữ liệu với LDA 26

Hình 3.5 Ma trận nhầm lẫn của mô hình M1 với tập kiểm thử với thuật toán XGBoost 27

Hình 3.7 Đồ thị biểu diễn tập huấn luyện mô hình M2 sau chuẩn hóa dữ liệu 28 Hình 3.8 Đồ thị biểu diễn tập huấn luyện mô hình M2 sau giảm chiều dữ liệu với LDA 29

Hình 3.12 Đồ thị biểu diễn tập huấn luyện mô hình M3 sau chuẩn hóa dữ liệu 31

Hình 3.13 Đồ thị biểu diễn tập huấn luyện mô hình M3 sau giảm chiều dữ liệu với LDA 32

Trang 9

Hình 3.17 Đồ thị biểu diễn tập huấn luyện mô hình M4 sau chuẩn hóa dữ liệu

Trang 10

ĐẶT VẤN ĐỀ

Nghiên cứu và phát triển một thuốc mới là một quá trình khó khăn, tốn kém về thời gian và chi phí Quá trình này có thể kéo dài từ 10 đến 15 năm với chi phí lên tới hàng tỷ đô la Mỹ Không những vậy, đây là một quá trình đầy rủi

ro, với tỷ lệ thất bại lên tới hơn 90% [10]

Theo thống kê, hơn 10% các ứng viên ứng viên phải dừng bước trên con đường phát triển thành thuốc vì sở hữu các đặc tính dược động học không phù hợp, đặc biệt là các thông số liên quan đến hấp thu, phân bố, chuyển hóa và thải trừ (ADME) Vì vậy, việc dự đoán sớm các thông số ADME là một trong những yêu cầu cấp bách của ngành công nghiệp dược hiện nay

Mặt khác, các mô hình dự đoán bằng phương pháp Học máy đã trở thành một công cụ phổ biến được ứng dụng trong nghiên cứu và phát triển thuốc mới Các mô hình này, dựa trên thông tin cấu trúc hoá học, cho phép dự đoán các thông số ADME với chi phí rẻ và độ chính xác cao

Tuy nhiên, ở Việt Nam hướng nghiên cứu dự đoán các tính chất dược động học sử dụng mô hình bằng phương pháp Học máy còn chưa được quan tâm

cao Do đó chúng tôi tiến hành nghiên cứu đề tài “Xây dựng mô hình in silico

dự đoán một số tính chất dược động học quan trọng của thuốc” với mục

tiêu: Tạo ra các mô hình dự đoán một số thông số ADME quan trọng như sinh khả dụng, độ tan, phần trăm hấp thu qua ruột và các tương tác với các protein chuyển hoá bước I của thuốc (CYP3A4 và P-Glycoprotein)

Trang 11

CHƯƠNG 1 TỔNG QUAN

1.1 Tổng quan về các thông số dược động học quan trọng của thuốc

Theo Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ (Food and Drug

Administration) và Cơ quan Y tế châu Âu (European Medicine Agency), sinh

khả dụng của một thuốc là tỉ lệ và mức độ của hoạt chất được hấp thu và còn

hoạt tính tại vị trí tác dụng từ dạng bào chế ban đầu của nó

Sinh khả dụng (ký hiệu F) của một liều dùng bằng đường uống bằng tích

các tỉ lệ của thuốc vượt qua được những hàng rào khác nhau mà chúng gặp phải trong quá trình di chuyển qua lòng ruột và qua gan Công thức biểu diễn sinh khả dụng của một chất:

F = Fa x Fg x Fh Trong đó Fa là tỉ lệ thuốc hấp thu qua ruột, Fg là tỉ lệ thuốc qua ruột bước đầu, Fh là tỉ lệ thuốc qua gan

Hình 1.1 biểu diễn quá trình ADME của một thuốc bao gồm các giai đoạn

Hấp thu, Phân bố, Chuyển hóa, thải trừ

Trong cơ thể, dược chất muốn được hấp thu thì trước hết, chúng phải được hoà tan Độ hòa tan của một chất được định nghĩa là lượng chất bão hòa trong dung dịch ở nhiệt độ và áp suất nhất định Với dược chất ít tan thì chính độ tan là yếu tố hạn chế hấp thu Theo các nhà nghiên cứu thì các chế phẩm chứa dược chất ít tan (độ tan < 1%) thường có vấn đề về sinh khả dụng [3] Trong trường hợp này, muốn tăng sinh khả dụng của thuốc thì phải tìm biện pháp làm tăng độ tan của dược chất (dùng chất làm tăng độ tan, dùng hỗn hợp dung môi, chế hệ phân tán rắn…)

Trang 12

Hình 1.1 Sơ đồ biểu diễn các quá trình xảy ra với thuốc trong cơ thể sau khi

uống

Thuốc sau khi được hòa tan sẽ di chuyển đến ruột, tại đây diễn ra quá trình hấp thụ từ ruột vào máu của thuốc Quá trình này được đánh giá bằng thông số

Tỷ lệ hấp thu qua đường ruột (% HIA), HIA được định nghĩa là tỷ lệ phần trăm

của thuốc uống đến được đường tĩnh mạch gan ở dạng còn hoạt tính [7]

Có nhiều nghiên cứu đã được nỗ lực thực hiện để dự đoán sự hấp thu đường ruột của con người (HIA) trong quá trình nghiên cứu thuốc Các mô hình

in-vivo và in-vitro được sử dụng rất nhiều để ước tính HIA, nhưng các lựa chọn

thay thế này rất tốn kém và kết quả thường khó diễn giải Các phương pháp tính toán đã được phát triển để khắc phục những rào cản này, một trong số đó là phương pháp xây dựng mô hình dự đoán để xác định các hợp chất có phần trăm hấp thu qua ruột lớn

Thuốc dùng đường uống sau khi được hấp thụ qua ruột non được chuyển đến gan qua tĩnh mạch cửa, quá trình này cho phép gan cùng với nhóm enzym CYP450 tham gia vào chuyển hóa thuốc (ở pha I) nhằm giải độc các dược chất

có hại trước khi chúng được phân phối vào hệ thống tuần hoàn CYP450 là hệ thống gồm có 50 loại enzym thuộc nhóm monooxygenase có trong hầu hết các

Trang 13

cơ thể sống Hệ thống enzym mạnh mẽ này đóng vai trò quan trọng đối với sinh

lý người Ở động vật và người, enzym này có ở gan, tim, phổi, thận nhưng tập trung chủ yếu ở gan Những enzym chủ lực trong hệ thống CYP450 gồm có CYP1A2, CYP3A4, CYP2C9, CYP2C19, C2D6 Trong đó đó CYP3A4 là chịu trách nhiệm chuyển hóa phần lớn các thuốc Nồng độ CYP3A4 giảm dần từ phần đầu đến phần cuối ruột non [5]

Tại pha (I) dưới xúc tác của các enzym này sẽ thúc đẩy các phản ứng: oxy hóa, khử hóa và thủy giải chuyển hóa thuốc thành các dẫn xuất phân cực, các phản ứng liên hợp ở pha (II) sẽ tạo thành những chất có cực (không thể hấp thu qua ống thận) dễ tan trong nước và sẽ đào thải ra khỏi cơ thể

Trong quá trình hấp thu tại gan và thận, thuốc còn chịu sự ảnh hưởng của P-glycoprotein, một trong các protein vận chuyển có khả năng vận chuyển thuốc

ra khỏi lòng ruột và bài tiết ra ngoài cơ thể Quá trình vận chuyển thuốc này ảnh hướng đến nồng độ thuốc trong huyết tương và tại mô và cuối cùng ảnh hướng đến tác dụng của thuốc Một chất ức chế hoạt động của P-glycoprotein sẽ làm tăng sinh khả dụng của cơ chất được vận chyển bởi P-glycoprotein, trong khi đó

sự cảm ứng P-glycoprotein sẽ làm giảm sinh khả dụng của cơ chất là thuốc

Thuốc sau khi ra khỏi gan sẽ được chuyển đến hệ thống tuần hoàn chung, theo máu đi đến đích tác dụng mong muốn của thuốc

1.2 Tổng quan về phương pháp Học máy

1.2.1 Định nghĩa Học máy

Trong nghiên cứu này, mô hình dự đoán được xây dựng bằng phương pháp Học máy Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể

Học máy được phát biểu bởi Giáo sư Tom Mitchell tại Đại học Carnegie Mellon (CMU) [8], cho rằng: “Học máy có nghĩa là máy tính học từ kinh nghiệm (dữ liệu) E với tác vụ (dự đoán, phân lớp, gom nhóm) T và được đánh giá bởi độ đo (độ chính xác) P nếu máy tính khiến tác vụ T này cải thiện được

Trang 14

độ chính xác P thông qua dữ liệu E cho trước” Hình 1.2 mô tả cho định nghĩa

này

Hình 1.2 Quy trình học máy theo Tom Mitchell

1.2.2 Quy trình cơ bản của Học máy

Quy tình tổng quát xây dựng một hệ thống học máy gồm 3 bước: Tiền xử

lý dữ liệu, huấn luyện và lựa chọn mô hình, đánh giá và đưa ra dự đoán [1] Cụ

thể quá trình được mô tả qua hình 1.3

Trang 15

Hình 1.3 Các bước thực hiện một bài toán học máy

1.2.2.1 Tiền xử lý dữ liệu

Một hệ thống học máy muốn hoạt động phải có dữ liệu (data) Dữ liệu thu thập được là dữ liệu có đủ về số lượng và đặc trưng có thể thể hiện được dự đoán của bài toán Một điểm dữ liệu gồm nhiều đặc trưng (feature) đặc tả cho dữ liệu đó Dữ liệu ban đầu chưa tinh chỉnh, lựa chọn đặc trưng được gọi là dữ liệu thô (raw data) Đồng thời khi thu thập dữ liệu, ta cũng có thể gán nhãn (label) cho dữ liệu đó Nhãn có thể hiểu là giá trị thực tế của dữ liệu, là giá trị mà mô hình cần dự đoán

Hầu hết trong các hệ thống học máy chúng ta không cần tất cả tính chất của dữ liệu thô để giải quyết bài toán, mà chúng ta chỉ quan tâm đến các thuộc tính có ý nghĩa đối với bài toán được gọi là đặc trưng (feature)

Bước đầu tiên trong quy trình giải quyết một bài toán học máy là bước tiền

xử lý dữ liệu Đây là một trong những bước quan trọng Mục đích của bước này

là làm sạch dữ liệu (cleaning data), trích xuất đặc trưng (feature extraction) chuyển đổi dữ liệu sang các kiểu nào đó mà thuật toán có thể hiểu và thực thi

Trang 16

Nhiều thuật toán yêu cầu các đặc tính (feature) phải được rút gọn theo tỷ lệ (scale) để tối ưu hiệu suất bằng cách rút gọn các giá trị xuống khoảng [0, 1] hoặc

có phân phối chuẩn tắc (standard normal distribution, là phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1)

Một số đặc tính đôi khi sẽ có mối quan hệ tương quan khá lớn không cần thiết nên có thể cần áp dụng phương pháp hạ bậc không gian để giảm kích thước

dữ liệu và khiến thuật toán chạy nhanh hơn

Để kiểm tra hiệu quả của thuật toán, dữ liệu sẽ được chia thành hai nhóm một cách ngẫu nhiên là dữ liệu đào tạo (training data) và dữ liệu kiểm thử (test data) Dữ liệu đào tạo được dùng để huấn luyện và tối ưu thuật toán, trong khi

dữ liệu kiểm thử dùng để kiểm tra độ chính xác và độ khái quát của thuật toán cuối

1.2.2.2 Huấn luyện và lựa chọn mô hình

Dữ liệu đào tạo sau quá trình tiền xử lý dữ liệu sẽ được đẩy vào các thuật toán để huấn luyện tối ưu các tham số để tạo mô hình Các thuật toán học máy được phát triển để giải quyết những vấn đề khác nhau Dù một số thuật toán có thể giải quyết cùng một vấn đề nhưng chúng có ưu nhược điểm khác nhau Do

đó cần lựa chọn một số thuật toán phù hợp nhất để xây dựng mô hình học máy

và đánh giá hiệu quả giữa chúng

Một trong những thông số được sử dụng để đánh giá là độ chính xác phân loại (classification accuracy) được tính bằng tỷ lệ của số giá trị được thuật toán phân loại đúng so với tổng số giá trị

Trong quá trình huấn luyện chúng ta không sử dụng dữ liệu kiểm thử và dữ liệu thực tế để huấn luyện mô hình mà dùng nó để đánh giá mô hình Do đó một phương pháp ra đời để biết mô hình nào hoạt động hiệu quả là kiểm tra chéo (cross validation) [4] Phương pháp này tiếp tục chia nhỏ nhóm dữ liệu đào tạo

thành dữ liệu đào tạo và dữ liệu kiểm tra chéo Hình 1.4 dưới đây minh họa

phương pháp kiểm tra chéo bằng cách chia dữ liệu thành 5 nhóm nhỏ

Trang 17

Khi huấn luyện mô hình chúng ta không nên tin tưởng hoàn toàn vào tham số (parameter) mặc định của thuật toán mà cần phải tinh chỉnh cả các siêu tham số (hyper parameter) để mô hình hoạt động hiệu quả trên cả dữ liệu đầu vào và dữ liệu thực tế

Hình 1.4 Phương pháp 5-Fold Cross Validation

1.2.2.3 Đánh giá mô hình và đưa ra dự đoán

Sau khi lựa chọn các mô hình và huấn luyện chúng bằng nhóm dữ liệu huấn luyện, chúng ta sẽ dùng nhóm dữ liệu kiểm thử để đánh giá hiệu quả và độ khái quát của mô hình đối với dữ liệu mới Nếu thấy hài lòng với kết quả đạt được, chúng ta có thể đưa mô hình vào hoạt động thực tiễn

Tuy vậy, quá trình xây dựng mô hình chưa kết thúc Chúng ta phải đánh giá lại phản hồi của mô hình trong thực tế, cập nhật và hoàn thiện hơn Vì trong nhiều trường hợp, bộ dữ liệu đầu vào chưa phản ánh tốt các tính chất dữ liệu thực tế Do đó, một lưu ý khi huấn luyện mô hình là tập dữ liệu huấn luyện ban đầu phải thể hiện tốt đặc trưng của dữ liệu thực tế Giống như việc một học sinh chỉ giỏi toán đi thi văn vậy

1.2.3 Phân loại

Có 2 cách phổ biến phân nhóm các thuật toán học máy Một là dựa trên phương thức học (learning style), hai là dựa trên chức năng (function)

Trang 18

1.2.3.1 Phân nhóm dựa trên phương thức học

Học máy hiện tại có 4 nhóm chính: Học giám sát, học không giám sát, học bán giám sát và học tăng cường [6]

Học giám sát (Supervised learning)

Học giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Học giám sát là nhóm phổ biến

nhất trong các thuật toán học máy Error! Reference source not found.5 dưới đây

mô tả quy trình mô hình học giảm sát

Hình 1.5 Mô hình học giám sát

Thuật toán học giám sát còn được tiếp tục chia thành 2 loại chính Một thuật toán được gọi là phân loại (classification) nếu các nhãn (label) của dữ liệu đầu vào (input data) được chia thành một số hữu hạn nhóm Ví dụ: Gmail xác định xem có một email có phải spam hay không Một thuật toán được coi là hồi quy (regression) nếu nhãn (label) của dữ liệu ở dưới dạng giá trị liên tục (continuous values)

Học không giám sát (Unsupervised learning)

Khi sử dụng thuật toán, chúng ta không biết được đầu ra hay nhãn mà chỉ có dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân cụm (clustering) hoặc giảm số

Trang 19

chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán Một cách toán học, học không giám sát là khi chúng ta chỉ có dữ liệu đầu vào mà không biết nhãn tương ứng

Hình 1.6 Nén giữ liệu vẫn giữ thông tin quan trọng

Học bán giám sát (Semi-Supervised learning)

Các bài toán khi chúng ta có một lượng lớn dữ liệu nhưng chỉ một phần trong chúng được gán nhãn được gọi là học bán giám sát Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên

Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet Thực tế cho thấy rất nhiều các bài toán học máy thuộc vào nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet

Học tăng cường (Reinforcement learning)

Mục đích của mô hình tăng cường là phát triển một hệ thống (agent) có thể tự tiến bộ dựa trên các tương tác với môi trường Mô hình học tăng cường lấy thông tin/dữ liệu từ môi trường nhưng có thêm các tín hiệu phần thưởng (reward signal) và trả về kết quả dưới dạng hành động Hành động trả về sau đó được đo

Trang 20

lường hiệu quả thông qua một hàm đo lường tín hiệu phần thưởng Thông qua khả năng tương tác với môi trường, hệ thống học tăng cường sẽ học hỏi các chuỗi hành động nhằm tối đa phần thưởng thông qua phương pháp thử (trial and error) hoặc lên kế hoạch chi tiết trước khi thực hiện

Hình 1.7 Mô hình học tăng cường

1.2.3.2 Phân nhóm dựa trên chức năng

Cách phân nhóm thứ 2 dựa trên chức năng của các thuật toán Một số nhóm phổ biến gồm:

- Các thuật toán hồi quy (Regresstion algorithms) Thuật toán hồi quy chính

là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc

và một nhóm tập hợp các biến độc lập

- Các thuật toán phân loại (Classification algorithms) Các thuật toán này

giúp phân loại dữ liệu đầu vào với đầu ra là tập các dữ liệu rời rạc

- Các thuật toán dựa trên mẫu (Instance-based algorithms) Nhóm thuật toán

này thường xây dựng cơ sở dữ liệu về mẫu và so sánh dữ liệu mới với cơ sở dữ liệu để tìm kết quả phù hợp và đưa ra dự đoán

- Các thuật toán chuẩn hóa (Regularization algorithms) Các thuật toán

chuẩn hóa ra đời để mở rộng các thuật toán đã có (điển hình là các thuật toán hồi quy) với mục đích tạo ra mô hình đưa ra dự đoán phù hợp với dữ liệu thực tế

Trang 21

- Các thuật toán phân cụm (Clustering algorithms) Các thuật toán này sử

dụng cấu trúc ban đầu của dữ liệu để tập trung các nhóm dữ liệu có độ phổ biến tối đa dựa vào trung tâm (centroid) và thứ bậc (hierarchal)

- Các thuật toán mô hình mạng nơ-ron nhân tạo (Artficial neural network algorithms) Các thuật toán này mô phỏng hoạt động hệ thần kinh trong não bộ

con người Các thuật toán này là tiền đề để xây dựng các mô hình học sâu về sau

- Các thuật toán giảm chiều dữ liệu (Dimensionality reduction algorithms)

Các thuật toán này cũng lấy dữ liệu vốn có của dữ liệu để tóm tắt hay mô tả dữ liệu sử dụng ít thông tin hơn nhưng vẫn giữ được lượng thông tin quan trọng Việc này làm đơn giản hóa dữ liệu nhờ đó giảm độ phức tạp của thuật toán khác (điển hình là các thuật toán học giám sát) sau khi sử dụng dữ liệu này

- Các thuật toán tập hợp (Ensemble algorithms) Về cơ bản, các thuật toán

này là các mô hình bao gồm các mô hình yếu hơn Khi chúng được đào tạo thì sẽ kết hợp lại theo một cách nào đó để đưa ra dự đoán Đây là một kỹ thuật rất mạnh và phổ biến

Trang 22

CHƯƠNG 2 NGUYÊN LIỆU, NỘI DUNG VÀ PHƯƠNG

Bảng 2-1 Cơ sở dữ liệu nghiên cứu

Mô hình Tính chất dự đoán Số hợp chất Nội dung dự đoán

M1 Sinh khả dụng (F %) 1013 Cao (H), Trung bình

Trang 23

- Anaconda là một phân phối dạng mã nguồn mở và miễn phí của ngôn ngữ lập trình Python và R cho các ứng dụng liên quan đến khoa học dữ liệu và máy học (xử lý dữ liệu quy mô lớn, phân tích dự báo, máy tính khoa học) Các thư viện tôi đã sử dụng trong nghiên cứu và vai trò của chúng:

- Numpy/Scipy: thư viện tính toán số học cơ bản

- Matplotlib là thư viện dùng để vẽ đồ thị (graph) Nó cung cấp chức năng vẽ biểu đồ phân tán, đồ thị đường gấp khúc, đồ thị thanh, biểu đồ, biểu đồ hình tròn, v.v…

- Jupyter Notebook: Trình soạn thảo cho người dùng vừa có thể gõ các câu lệnh, chạy và nhìn thấy kết quả từng ô

- Pandas là thư viện xử lý dữ liệu quy mô lớn Khi sử dụng trong xử lýhọc máy, nó phát huy chủ yếu ở giai đoạn tiền xử lý dữ liệu Một số định dạng dữ liệu có thể được đọc, sau đó xử lý ở tốc độ cao

- Scikit-learn là một thư viện mã nguồn mở trong ngành học máy, rất mạnh mẽ

và thông dụng với cộng đồng Python Hỗ trợ hầu hết các thuật toán của học máy một cách đơn giản, hiệu quả mà chúng ta không cần phải mất công ngồi cài đặt lại., chỉ cần người dùng đưa dữ liệu đầu vào chờ nó tính toán rồi lấy

kết quả

Trang 24

Hình 2.1 Giao diện chương trình Visual Code viết bằng ngôn ngữ Python

2.2 Nội dung nghiên cứu

Các bước thực hiện xây dựng mô hình dự đoán được biểu diễn như hình 2.1 và được giải thích cụ thể như sau:

Trang 25

Hình 2.2 Quy trình xây dựng mô hình

Tính các đặc trưng của dữ liệu: Từ cơ sở dữ liệu ban đầu, tiến hành bổ sung

các đặc trưng của dữ liệu bằng cách tính các tham số phân tử bằng phần mềm DRAGON 6.0

Tách tập huấn luyện và tập kiểm thử: Tách dữ liệu ban đầu thành tập huấn

luyện và tập kiểm thử một cách ngẫu nhiên bằng các dòng lệnh trên Python, tỉ lệ

tách 80% dữ liệu trở thành tập huấn luyện và 20% dữ liệu thành tập kiểm thử Tiền xử lý dữ liệu: Chuẩn bị dữ liệu thường khi thực hiện các thuật toán trong

Học máy nhằm giúp thuật toán hiệu quả hơn

Xây dựng mô hình: Sử dụng thuật toán XgBoost để xây dựng mô hình Phân

loại hoặc Hồi quy Trong quá trình huấn luyện mô hình, chúng tôi thay đổi các tham số (parameter), siêu tham số (hyperparameter) của thuật toán để thu được

mô hình có kết quả tốt nhất

Định dạng
Số trang	50
Dung lượng	2,48 MB