Do đó chúng tôi tiến hành nghiên cứu đề tài “Xây dựng mô hình in silico dự đoán một số tính chất dược động học quan trọng của thuốc” với mục tiêu: Tạo ra các mô hình dự đoán một số thô
Trang 1BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
NGUYỄN THỊ HẢI YẾN
NGHIÊN CỨU XÂY DỰNG MÔ HÌNH
IN SILICO DỰ ĐOÁN MỘT SỐ TÍNH CHẤT DƯỢC ĐỘNG HỌC QUAN
TRỌNG CỦA THUỐC
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ
HÀ NỘI - 2020
Trang 2BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
NGUYỄN THỊ HẢI YẾN
Trang 3LỜI CẢM ƠN
Trong quá trình thực hiện khóa luận tốt nghiệp, tôi đã may mắn nhận được
sự hướng dẫn tận tình, sự giúp đỡ cùng những lời động viên đến từ những thầy
cô, những người bạn và gia đình của tôi Tôi xin được gửi lời cảm ơn chân thành đến những người có ý nghĩa lớn đối với tôi những năm tháng sinh viên
Trước tiên, tôi xin được thể hiện lòng biết ơn của mình đến với thầy TS
Phạm Thế Hải – người thầy đã dẫn dắt tôi những bước đầu đến với nghiên cứu
khoa học Thầy không chỉ chỉ dẫn tận tình từ những kiến thức cơ bản mà còn đưa ra các giải pháp, định hướng giúp vượt qua những khó khăn trong quá trình tôi thực hiện khóa luận tốt nghiệp và tạo cho tôi nhiều cơ hội được trau dồi và tăng cường các kĩ năng quan trọng khi làm nghiên cứu khoa học
Tôi cũng xin cảm ơn các thầy cô bộ môn Hóa dược trường Đại học Dược
đã nhiệt tình hỗ trợ, tạo điều kiện cho tôi được hoàn thành khóa luận tốt nghiệp Tôi xin được gửi lời cảm ơn đến tất cả các thầy cô giáo và Ban giám hiệu trường Đại học Dược Hà Nội đã truyền đạt và giảng dạy kiến thức cho tôi, tạo
cơ hội cho tôi được thực hiện nghiên cứu khoa học và khóa luận tốt nghiệp Cuối cùng, tôi xin cảm ơn gia đình và bạn bè tôi, những người đã luôn ở bên cạnh tôi, truyền động lực cho tôi và ủng hộ tôi với con đường mà tôi đã chọn
Hà Nội, ngày 8 tháng 6 năm 2020
Sinh viên
Nguyễn Thị Hải Yến
Trang 4MỤC LỤC
DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT 6
DANH MỤC BẢNG BIỂU 7
DANH MỤC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ 8
ĐẶT VẤN ĐỀ 1
CHƯƠNG 1 TỔNG QUAN 2
1.1 Tổng quan về các thông số dược động học quan trọng của thuốc 2
1.2 Tổng quan về phương pháp Học máy 4
1.2.1 Định nghĩa Học máy 4
1.2.2 Quy trình cơ bản của Học máy 5
1.2.3 Phân loại 8
CHƯƠNG 2 NGUYÊN LIỆU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 13
2.1 Nguyên liệu và công cụ sử dụng 13
2.1.1 Nguyên liệu 13
2.1.2 Công cụ sử dụng 13
2.2 Nội dung nghiên cứu 15
2.3 Phương pháp nghiên cứu 17
2.3.1 Tính tham số phân tử bằng DRAGON 17
2.3.2 Tiền xử lý dữ liệu 19
2.3.3 Giảm chiều dữ liệu bằng kĩ thuật Phân tích sự khác biệt tuyến tính (LDA) 20
2.3.4 Xây dựng Mô hình bằng thuật toán XGBoost 21
2.3.5 Các thông số đánh giá mô hình 22
CHƯƠNG 3 KẾT QUẢ VÀ BÀN LUẬN 24
3.1 Kết quả các mô hình dự đoán 24
3.1.1 Mô hình dự đoán Sinh khả dụng một chất 24
3.1.2 Mô hình dự đoán Phần trăm hấp thu qua ruột ở người (HIA) 27
3.1.3 Mô hình dự đoán Khả năng ức chế men chuyển hóa thuốc CYP3A4
30 3.1.4 Mô hình dự đoán Khả năng ức chế bơm tống thuốc P-Glucoprotein (P-gp) 33
Trang 53.1.5 Mô hình dự đoán Độ tan của một chất 36
3.2 Bàn luận phương pháp nghiên cứu 38
3.2.1 Về ưu điểm của phương pháp 38
3.2.2 Về hạn chế của phương pháp 38
KẾT LUẬN VÀ KIẾN NGHỊ 40
TÀI LIỆU THAM KHẢO 1
Trang 6DANH MỤC CÁC KÍ HIỆU, VIẾT TẮT
Absorption, distribution, metabolism, excretion
Hấp thu, phân bố, chuyển hóa, thải trừ
2 HIA Human Intestinal Absorption
Hấp thu qua ruột ở người
3 LDA Linear Discriminant Analysis
Phân tích sự khác biệt tuyến tính
4 XGBoost Extreme Gradient Boosting
Tăng cường độ dốc hết sức
5 MLR Multiple Linear Regression
Hồi quy tuyến tính đa biến
Trang 7DANH MỤC BẢNG BIỂU
Bảng 2-1 Cơ sở dữ liệu nghiên cứu 13
Bảng 2-2 Khối mô tả phân tử của phần mềm DRAGON 18
Bảng 2-3 Ma trận nhầm lẫn cơ bản 22
Bảng 3-1 Kết quả các mô hình dự đoán 24
Bảng 3-2 Ma trận nhầm lẫn của mô hình M1 với tập kiểm thử 27
Bảng 3-3 Ma trận nhầm lẫn của mô hình M2 với tập kiểm thử 30
Bảng 3-4 Ma trận nhầm lẫn của mô hình M3 với tập kiểm thử 33
Bảng 3-5.Ma trận nhầm lẫn của mô hình M4 với tập kiểm thử 36
Trang 8DANH MỤC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ
Hình 1.1 Sơ đồ biểu diễn các quá trình xảy ra với thuốc trong cơ thể sau khi
uống 3
Hình 1.2 Quy trình học máy theo Tom Mitchell 5
Hình 1.3 Các bước thực hiện một bài toán học máy 6
Hình 1.4 Phương pháp 5-Fold Cross Validation 8
Hình 2.3 Các thông số của thuật toán XGBoost phân loại 22
Hình 2.4 Các thông số của thuật toán XGBoost hồi quy 22
Hình 3.1 Đồ thị biểu diễn tập huấn luyện mô hình M1 sau khi xử lý các giá trị bị thiếu 25
Hình 3.2 Đồ thị biểu diễn tập huấn luyện mô hình M1 sau chuẩn hóa dữ liệu 25 Hình 3.3.Đồ thị biểu diễn tập huấn luyện mô hình M1 sau giảm chiều dữ liệu với LDA 26
Hình 3.4 Đồ thị biểu diễn tập kiểm thử mô hình M1 sau giảm chiều dữ liệu với LDA 26
Hình 3.5 Ma trận nhầm lẫn của mô hình M1 với tập kiểm thử với thuật toán XGBoost 27
Hình 3.6 Đồ thị biểu diễn tập huấn luyện mô hình M2 sau khi xử lý các giá trị bị thiếu 28
Hình 3.7 Đồ thị biểu diễn tập huấn luyện mô hình M2 sau chuẩn hóa dữ liệu 28 Hình 3.8 Đồ thị biểu diễn tập huấn luyện mô hình M2 sau giảm chiều dữ liệu với LDA 29
Hình 3.9 Đồ thị biểu diễn tập kiểm thử mô hình M2 sau giảm chiều dữ liệu với LDA 29
Hình 3.10 Ma trận nhầm lẫn của mô hình M2 với tập kiểm thử với thuật toán XGBoost 30
Hình 3.11 Đồ thị biểu diễn tập huấn luyện mô hình M3 sau khi xử lý các giá trị bị thiếu 31
Hình 3.12 Đồ thị biểu diễn tập huấn luyện mô hình M3 sau chuẩn hóa dữ liệu 31
Hình 3.13 Đồ thị biểu diễn tập huấn luyện mô hình M3 sau giảm chiều dữ liệu với LDA 32
Hình 3.14 Đồ thị biểu diễn tập kiểm thử mô hình M3 sau giảm chiều dữ liệu với LDA 32
Hình 3.15 Ma trận nhầm lẫn của mô hình M3 với tập kiểm thử với thuật toán XGBoost 33
Hình 3.16 Đồ thị biểu diễn tập huấn luyện mô hình M4 sau khi xử lý các giá trị bị thiếu 34
Trang 9Hình 3.17 Đồ thị biểu diễn tập huấn luyện mô hình M4 sau chuẩn hóa dữ liệu
Trang 10ĐẶT VẤN ĐỀ
Nghiên cứu và phát triển một thuốc mới là một quá trình khó khăn, tốn kém về thời gian và chi phí Quá trình này có thể kéo dài từ 10 đến 15 năm với chi phí lên tới hàng tỷ đô la Mỹ Không những vậy, đây là một quá trình đầy rủi
ro, với tỷ lệ thất bại lên tới hơn 90% [10]
Theo thống kê, hơn 10% các ứng viên ứng viên phải dừng bước trên con đường phát triển thành thuốc vì sở hữu các đặc tính dược động học không phù hợp, đặc biệt là các thông số liên quan đến hấp thu, phân bố, chuyển hóa và thải trừ (ADME) Vì vậy, việc dự đoán sớm các thông số ADME là một trong những yêu cầu cấp bách của ngành công nghiệp dược hiện nay
Mặt khác, các mô hình dự đoán bằng phương pháp Học máy đã trở thành một công cụ phổ biến được ứng dụng trong nghiên cứu và phát triển thuốc mới Các mô hình này, dựa trên thông tin cấu trúc hoá học, cho phép dự đoán các thông số ADME với chi phí rẻ và độ chính xác cao
Tuy nhiên, ở Việt Nam hướng nghiên cứu dự đoán các tính chất dược động học sử dụng mô hình bằng phương pháp Học máy còn chưa được quan tâm
cao Do đó chúng tôi tiến hành nghiên cứu đề tài “Xây dựng mô hình in silico
dự đoán một số tính chất dược động học quan trọng của thuốc” với mục
tiêu: Tạo ra các mô hình dự đoán một số thông số ADME quan trọng như sinh khả dụng, độ tan, phần trăm hấp thu qua ruột và các tương tác với các protein chuyển hoá bước I của thuốc (CYP3A4 và P-Glycoprotein)
Trang 11CHƯƠNG 1 TỔNG QUAN
1.1 Tổng quan về các thông số dược động học quan trọng của thuốc
Theo Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ (Food and Drug
Administration) và Cơ quan Y tế châu Âu (European Medicine Agency), sinh
khả dụng của một thuốc là tỉ lệ và mức độ của hoạt chất được hấp thu và còn
hoạt tính tại vị trí tác dụng từ dạng bào chế ban đầu của nó
Sinh khả dụng (ký hiệu F) của một liều dùng bằng đường uống bằng tích
các tỉ lệ của thuốc vượt qua được những hàng rào khác nhau mà chúng gặp phải trong quá trình di chuyển qua lòng ruột và qua gan Công thức biểu diễn sinh khả dụng của một chất:
F = Fa x Fg x Fh Trong đó Fa là tỉ lệ thuốc hấp thu qua ruột, Fg là tỉ lệ thuốc qua ruột bước đầu, Fh là tỉ lệ thuốc qua gan
Hình 1.1 biểu diễn quá trình ADME của một thuốc bao gồm các giai đoạn
Hấp thu, Phân bố, Chuyển hóa, thải trừ
Trong cơ thể, dược chất muốn được hấp thu thì trước hết, chúng phải được hoà tan Độ hòa tan của một chất được định nghĩa là lượng chất bão hòa trong dung dịch ở nhiệt độ và áp suất nhất định Với dược chất ít tan thì chính độ tan là yếu tố hạn chế hấp thu Theo các nhà nghiên cứu thì các chế phẩm chứa dược chất ít tan (độ tan < 1%) thường có vấn đề về sinh khả dụng [3] Trong trường hợp này, muốn tăng sinh khả dụng của thuốc thì phải tìm biện pháp làm tăng độ tan của dược chất (dùng chất làm tăng độ tan, dùng hỗn hợp dung môi, chế hệ phân tán rắn…)
Trang 12Hình 1.1 Sơ đồ biểu diễn các quá trình xảy ra với thuốc trong cơ thể sau khi
uống
Thuốc sau khi được hòa tan sẽ di chuyển đến ruột, tại đây diễn ra quá trình hấp thụ từ ruột vào máu của thuốc Quá trình này được đánh giá bằng thông số
Tỷ lệ hấp thu qua đường ruột (% HIA), HIA được định nghĩa là tỷ lệ phần trăm
của thuốc uống đến được đường tĩnh mạch gan ở dạng còn hoạt tính [7]
Có nhiều nghiên cứu đã được nỗ lực thực hiện để dự đoán sự hấp thu đường ruột của con người (HIA) trong quá trình nghiên cứu thuốc Các mô hình
in-vivo và in-vitro được sử dụng rất nhiều để ước tính HIA, nhưng các lựa chọn
thay thế này rất tốn kém và kết quả thường khó diễn giải Các phương pháp tính toán đã được phát triển để khắc phục những rào cản này, một trong số đó là phương pháp xây dựng mô hình dự đoán để xác định các hợp chất có phần trăm hấp thu qua ruột lớn
Thuốc dùng đường uống sau khi được hấp thụ qua ruột non được chuyển đến gan qua tĩnh mạch cửa, quá trình này cho phép gan cùng với nhóm enzym CYP450 tham gia vào chuyển hóa thuốc (ở pha I) nhằm giải độc các dược chất
có hại trước khi chúng được phân phối vào hệ thống tuần hoàn CYP450 là hệ thống gồm có 50 loại enzym thuộc nhóm monooxygenase có trong hầu hết các
Trang 13cơ thể sống Hệ thống enzym mạnh mẽ này đóng vai trò quan trọng đối với sinh
lý người Ở động vật và người, enzym này có ở gan, tim, phổi, thận nhưng tập trung chủ yếu ở gan Những enzym chủ lực trong hệ thống CYP450 gồm có CYP1A2, CYP3A4, CYP2C9, CYP2C19, C2D6 Trong đó đó CYP3A4 là chịu trách nhiệm chuyển hóa phần lớn các thuốc Nồng độ CYP3A4 giảm dần từ phần đầu đến phần cuối ruột non [5]
Tại pha (I) dưới xúc tác của các enzym này sẽ thúc đẩy các phản ứng: oxy hóa, khử hóa và thủy giải chuyển hóa thuốc thành các dẫn xuất phân cực, các phản ứng liên hợp ở pha (II) sẽ tạo thành những chất có cực (không thể hấp thu qua ống thận) dễ tan trong nước và sẽ đào thải ra khỏi cơ thể
Trong quá trình hấp thu tại gan và thận, thuốc còn chịu sự ảnh hưởng của P-glycoprotein, một trong các protein vận chuyển có khả năng vận chuyển thuốc
ra khỏi lòng ruột và bài tiết ra ngoài cơ thể Quá trình vận chuyển thuốc này ảnh hướng đến nồng độ thuốc trong huyết tương và tại mô và cuối cùng ảnh hướng đến tác dụng của thuốc Một chất ức chế hoạt động của P-glycoprotein sẽ làm tăng sinh khả dụng của cơ chất được vận chyển bởi P-glycoprotein, trong khi đó
sự cảm ứng P-glycoprotein sẽ làm giảm sinh khả dụng của cơ chất là thuốc
Thuốc sau khi ra khỏi gan sẽ được chuyển đến hệ thống tuần hoàn chung, theo máu đi đến đích tác dụng mong muốn của thuốc
1.2 Tổng quan về phương pháp Học máy
1.2.1 Định nghĩa Học máy
Trong nghiên cứu này, mô hình dự đoán được xây dựng bằng phương pháp Học máy Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể
Học máy được phát biểu bởi Giáo sư Tom Mitchell tại Đại học Carnegie Mellon (CMU) [8], cho rằng: “Học máy có nghĩa là máy tính học từ kinh nghiệm (dữ liệu) E với tác vụ (dự đoán, phân lớp, gom nhóm) T và được đánh giá bởi độ đo (độ chính xác) P nếu máy tính khiến tác vụ T này cải thiện được
Trang 14độ chính xác P thông qua dữ liệu E cho trước” Hình 1.2 mô tả cho định nghĩa
này
Hình 1.2 Quy trình học máy theo Tom Mitchell
1.2.2 Quy trình cơ bản của Học máy
Quy tình tổng quát xây dựng một hệ thống học máy gồm 3 bước: Tiền xử
lý dữ liệu, huấn luyện và lựa chọn mô hình, đánh giá và đưa ra dự đoán [1] Cụ
thể quá trình được mô tả qua hình 1.3
Trang 15Hình 1.3 Các bước thực hiện một bài toán học máy
1.2.2.1 Tiền xử lý dữ liệu
Một hệ thống học máy muốn hoạt động phải có dữ liệu (data) Dữ liệu thu thập được là dữ liệu có đủ về số lượng và đặc trưng có thể thể hiện được dự đoán của bài toán Một điểm dữ liệu gồm nhiều đặc trưng (feature) đặc tả cho dữ liệu đó Dữ liệu ban đầu chưa tinh chỉnh, lựa chọn đặc trưng được gọi là dữ liệu thô (raw data) Đồng thời khi thu thập dữ liệu, ta cũng có thể gán nhãn (label) cho dữ liệu đó Nhãn có thể hiểu là giá trị thực tế của dữ liệu, là giá trị mà mô hình cần dự đoán
Hầu hết trong các hệ thống học máy chúng ta không cần tất cả tính chất của dữ liệu thô để giải quyết bài toán, mà chúng ta chỉ quan tâm đến các thuộc tính có ý nghĩa đối với bài toán được gọi là đặc trưng (feature)
Bước đầu tiên trong quy trình giải quyết một bài toán học máy là bước tiền
xử lý dữ liệu Đây là một trong những bước quan trọng Mục đích của bước này
là làm sạch dữ liệu (cleaning data), trích xuất đặc trưng (feature extraction) chuyển đổi dữ liệu sang các kiểu nào đó mà thuật toán có thể hiểu và thực thi
Trang 16Nhiều thuật toán yêu cầu các đặc tính (feature) phải được rút gọn theo tỷ lệ (scale) để tối ưu hiệu suất bằng cách rút gọn các giá trị xuống khoảng [0, 1] hoặc
có phân phối chuẩn tắc (standard normal distribution, là phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1)
Một số đặc tính đôi khi sẽ có mối quan hệ tương quan khá lớn không cần thiết nên có thể cần áp dụng phương pháp hạ bậc không gian để giảm kích thước
dữ liệu và khiến thuật toán chạy nhanh hơn
Để kiểm tra hiệu quả của thuật toán, dữ liệu sẽ được chia thành hai nhóm một cách ngẫu nhiên là dữ liệu đào tạo (training data) và dữ liệu kiểm thử (test data) Dữ liệu đào tạo được dùng để huấn luyện và tối ưu thuật toán, trong khi
dữ liệu kiểm thử dùng để kiểm tra độ chính xác và độ khái quát của thuật toán cuối
1.2.2.2 Huấn luyện và lựa chọn mô hình
Dữ liệu đào tạo sau quá trình tiền xử lý dữ liệu sẽ được đẩy vào các thuật toán để huấn luyện tối ưu các tham số để tạo mô hình Các thuật toán học máy được phát triển để giải quyết những vấn đề khác nhau Dù một số thuật toán có thể giải quyết cùng một vấn đề nhưng chúng có ưu nhược điểm khác nhau Do
đó cần lựa chọn một số thuật toán phù hợp nhất để xây dựng mô hình học máy
và đánh giá hiệu quả giữa chúng
Một trong những thông số được sử dụng để đánh giá là độ chính xác phân loại (classification accuracy) được tính bằng tỷ lệ của số giá trị được thuật toán phân loại đúng so với tổng số giá trị
Trong quá trình huấn luyện chúng ta không sử dụng dữ liệu kiểm thử và dữ liệu thực tế để huấn luyện mô hình mà dùng nó để đánh giá mô hình Do đó một phương pháp ra đời để biết mô hình nào hoạt động hiệu quả là kiểm tra chéo (cross validation) [4] Phương pháp này tiếp tục chia nhỏ nhóm dữ liệu đào tạo
thành dữ liệu đào tạo và dữ liệu kiểm tra chéo Hình 1.4 dưới đây minh họa
phương pháp kiểm tra chéo bằng cách chia dữ liệu thành 5 nhóm nhỏ
Trang 17Khi huấn luyện mô hình chúng ta không nên tin tưởng hoàn toàn vào tham số (parameter) mặc định của thuật toán mà cần phải tinh chỉnh cả các siêu tham số (hyper parameter) để mô hình hoạt động hiệu quả trên cả dữ liệu đầu vào và dữ liệu thực tế
Hình 1.4 Phương pháp 5-Fold Cross Validation
1.2.2.3 Đánh giá mô hình và đưa ra dự đoán
Sau khi lựa chọn các mô hình và huấn luyện chúng bằng nhóm dữ liệu huấn luyện, chúng ta sẽ dùng nhóm dữ liệu kiểm thử để đánh giá hiệu quả và độ khái quát của mô hình đối với dữ liệu mới Nếu thấy hài lòng với kết quả đạt được, chúng ta có thể đưa mô hình vào hoạt động thực tiễn
Tuy vậy, quá trình xây dựng mô hình chưa kết thúc Chúng ta phải đánh giá lại phản hồi của mô hình trong thực tế, cập nhật và hoàn thiện hơn Vì trong nhiều trường hợp, bộ dữ liệu đầu vào chưa phản ánh tốt các tính chất dữ liệu thực tế Do đó, một lưu ý khi huấn luyện mô hình là tập dữ liệu huấn luyện ban đầu phải thể hiện tốt đặc trưng của dữ liệu thực tế Giống như việc một học sinh chỉ giỏi toán đi thi văn vậy
1.2.3 Phân loại
Có 2 cách phổ biến phân nhóm các thuật toán học máy Một là dựa trên phương thức học (learning style), hai là dựa trên chức năng (function)
Trang 181.2.3.1 Phân nhóm dựa trên phương thức học
Học máy hiện tại có 4 nhóm chính: Học giám sát, học không giám sát, học bán giám sát và học tăng cường [6]
Học giám sát (Supervised learning)
Học giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Học giám sát là nhóm phổ biến
nhất trong các thuật toán học máy Error! Reference source not found.5 dưới đây
mô tả quy trình mô hình học giảm sát
Hình 1.5 Mô hình học giám sát
Thuật toán học giám sát còn được tiếp tục chia thành 2 loại chính Một thuật toán được gọi là phân loại (classification) nếu các nhãn (label) của dữ liệu đầu vào (input data) được chia thành một số hữu hạn nhóm Ví dụ: Gmail xác định xem có một email có phải spam hay không Một thuật toán được coi là hồi quy (regression) nếu nhãn (label) của dữ liệu ở dưới dạng giá trị liên tục (continuous values)
Học không giám sát (Unsupervised learning)
Khi sử dụng thuật toán, chúng ta không biết được đầu ra hay nhãn mà chỉ có dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân cụm (clustering) hoặc giảm số
Trang 19chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán Một cách toán học, học không giám sát là khi chúng ta chỉ có dữ liệu đầu vào mà không biết nhãn tương ứng
Hình 1.6 Nén giữ liệu vẫn giữ thông tin quan trọng
Học bán giám sát (Semi-Supervised learning)
Các bài toán khi chúng ta có một lượng lớn dữ liệu nhưng chỉ một phần trong chúng được gán nhãn được gọi là học bán giám sát Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên
Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet Thực tế cho thấy rất nhiều các bài toán học máy thuộc vào nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet
Học tăng cường (Reinforcement learning)
Mục đích của mô hình tăng cường là phát triển một hệ thống (agent) có thể tự tiến bộ dựa trên các tương tác với môi trường Mô hình học tăng cường lấy thông tin/dữ liệu từ môi trường nhưng có thêm các tín hiệu phần thưởng (reward signal) và trả về kết quả dưới dạng hành động Hành động trả về sau đó được đo
Trang 20lường hiệu quả thông qua một hàm đo lường tín hiệu phần thưởng Thông qua khả năng tương tác với môi trường, hệ thống học tăng cường sẽ học hỏi các chuỗi hành động nhằm tối đa phần thưởng thông qua phương pháp thử (trial and error) hoặc lên kế hoạch chi tiết trước khi thực hiện
Hình 1.7 Mô hình học tăng cường
1.2.3.2 Phân nhóm dựa trên chức năng
Cách phân nhóm thứ 2 dựa trên chức năng của các thuật toán Một số nhóm phổ biến gồm:
- Các thuật toán hồi quy (Regresstion algorithms) Thuật toán hồi quy chính
là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc
và một nhóm tập hợp các biến độc lập
- Các thuật toán phân loại (Classification algorithms) Các thuật toán này
giúp phân loại dữ liệu đầu vào với đầu ra là tập các dữ liệu rời rạc
- Các thuật toán dựa trên mẫu (Instance-based algorithms) Nhóm thuật toán
này thường xây dựng cơ sở dữ liệu về mẫu và so sánh dữ liệu mới với cơ sở dữ liệu để tìm kết quả phù hợp và đưa ra dự đoán
- Các thuật toán chuẩn hóa (Regularization algorithms) Các thuật toán
chuẩn hóa ra đời để mở rộng các thuật toán đã có (điển hình là các thuật toán hồi quy) với mục đích tạo ra mô hình đưa ra dự đoán phù hợp với dữ liệu thực tế
Trang 21- Các thuật toán phân cụm (Clustering algorithms) Các thuật toán này sử
dụng cấu trúc ban đầu của dữ liệu để tập trung các nhóm dữ liệu có độ phổ biến tối đa dựa vào trung tâm (centroid) và thứ bậc (hierarchal)
- Các thuật toán mô hình mạng nơ-ron nhân tạo (Artficial neural network algorithms) Các thuật toán này mô phỏng hoạt động hệ thần kinh trong não bộ
con người Các thuật toán này là tiền đề để xây dựng các mô hình học sâu về sau
- Các thuật toán giảm chiều dữ liệu (Dimensionality reduction algorithms)
Các thuật toán này cũng lấy dữ liệu vốn có của dữ liệu để tóm tắt hay mô tả dữ liệu sử dụng ít thông tin hơn nhưng vẫn giữ được lượng thông tin quan trọng Việc này làm đơn giản hóa dữ liệu nhờ đó giảm độ phức tạp của thuật toán khác (điển hình là các thuật toán học giám sát) sau khi sử dụng dữ liệu này
- Các thuật toán tập hợp (Ensemble algorithms) Về cơ bản, các thuật toán
này là các mô hình bao gồm các mô hình yếu hơn Khi chúng được đào tạo thì sẽ kết hợp lại theo một cách nào đó để đưa ra dự đoán Đây là một kỹ thuật rất mạnh và phổ biến
Trang 22CHƯƠNG 2 NGUYÊN LIỆU, NỘI DUNG VÀ PHƯƠNG
Bảng 2-1 Cơ sở dữ liệu nghiên cứu
Mô hình Tính chất dự đoán Số hợp chất Nội dung dự đoán
M1 Sinh khả dụng (F %) 1013 Cao (H), Trung bình
Trang 23- Anaconda là một phân phối dạng mã nguồn mở và miễn phí của ngôn ngữ lập trình Python và R cho các ứng dụng liên quan đến khoa học dữ liệu và máy học (xử lý dữ liệu quy mô lớn, phân tích dự báo, máy tính khoa học) Các thư viện tôi đã sử dụng trong nghiên cứu và vai trò của chúng:
- Numpy/Scipy: thư viện tính toán số học cơ bản
- Matplotlib là thư viện dùng để vẽ đồ thị (graph) Nó cung cấp chức năng vẽ biểu đồ phân tán, đồ thị đường gấp khúc, đồ thị thanh, biểu đồ, biểu đồ hình tròn, v.v…
- Jupyter Notebook: Trình soạn thảo cho người dùng vừa có thể gõ các câu lệnh, chạy và nhìn thấy kết quả từng ô
- Pandas là thư viện xử lý dữ liệu quy mô lớn Khi sử dụng trong xử lýhọc máy, nó phát huy chủ yếu ở giai đoạn tiền xử lý dữ liệu Một số định dạng dữ liệu có thể được đọc, sau đó xử lý ở tốc độ cao
- Scikit-learn là một thư viện mã nguồn mở trong ngành học máy, rất mạnh mẽ
và thông dụng với cộng đồng Python Hỗ trợ hầu hết các thuật toán của học máy một cách đơn giản, hiệu quả mà chúng ta không cần phải mất công ngồi cài đặt lại., chỉ cần người dùng đưa dữ liệu đầu vào chờ nó tính toán rồi lấy
kết quả
Trang 24Hình 2.1 Giao diện chương trình Visual Code viết bằng ngôn ngữ Python
2.2 Nội dung nghiên cứu
Các bước thực hiện xây dựng mô hình dự đoán được biểu diễn như hình 2.1 và được giải thích cụ thể như sau:
Trang 25Hình 2.2 Quy trình xây dựng mô hình
Tính các đặc trưng của dữ liệu: Từ cơ sở dữ liệu ban đầu, tiến hành bổ sung
các đặc trưng của dữ liệu bằng cách tính các tham số phân tử bằng phần mềm DRAGON 6.0
Tách tập huấn luyện và tập kiểm thử: Tách dữ liệu ban đầu thành tập huấn
luyện và tập kiểm thử một cách ngẫu nhiên bằng các dòng lệnh trên Python, tỉ lệ
tách 80% dữ liệu trở thành tập huấn luyện và 20% dữ liệu thành tập kiểm thử Tiền xử lý dữ liệu: Chuẩn bị dữ liệu thường khi thực hiện các thuật toán trong
Học máy nhằm giúp thuật toán hiệu quả hơn
Xây dựng mô hình: Sử dụng thuật toán XgBoost để xây dựng mô hình Phân
loại hoặc Hồi quy Trong quá trình huấn luyện mô hình, chúng tôi thay đổi các tham số (parameter), siêu tham số (hyperparameter) của thuật toán để thu được
mô hình có kết quả tốt nhất