LV Biến ẩn Latent VariablesLogP Giá trị logarit hệ số phân tán MSE Sai số trung bình bình phương Mean Squared Error Nonlinear Phi tuyến tính OD Phương pháp đo mật độ quang Optical Densit
Trang 1LỜI CAM ĐOAN
Tôi cam đoan luận án này là kết quả nghiên cứu thực sự của cá nhân dưới sựhướng dẫn của PGS.TS Phạm Văn Tất, trường Đại học Hoa Sen và PGS TS TrầnDương, trường Đại học Sư Phạm – Đại học Huế
Luận án được thực hiện tại trường Đại học Khoa Học – Đại học Huế Chưa từng
có kết quả nghiên cứu tương tự được công bố dưới bất cứ hình thức nào trước khithực hiện luận án Một phần kết quả của công trình này đã được công bố trên: Tạpchí Hóa học và Ứng dụng, Tạp chí Hóa học, Tạp Chí Khoa học và Công nghệ -trường Đại học Khoa học – Đại học Huế, Tạp chí Đại học Huế, Tạp chíComputational Chemistry, Cogent Chemistry, Taylor Francis, Tạp chí Organic &Medicinal Chemistry International Journal (OMCIJ), Tạp chí Natural productsresearch
Ký tên
Bùi Thị Phương Thúy
i
Trang 2LỜI CẢM ƠN
Để hoàn thành luận án trước hết em xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS.Phạm Văn Tất, Trường Đại học Hoa Sen; PGS TS Trần Dương, Trường Đại học
Sư Phạm Huế đã giao đề tài, hướng dẫn trực tiếp và truyền đạt những kinh nghiệm
và kiến thức quý báu, tận tình chỉ dẫn, động viên và tạo mọi điều kiện thuận lợi giúp
đỡ em hoàn thành luận án này
Em xin gửi lời cảm ơn chân thành đến GS.TS Trần Thái Hòa, TS Trần XuânMậu, TS Nguyễn Thị Ái Nhung - Khoa Hóa, Trường Đại học Khoa Học Huế Cácthầy cô đã giúp đỡ, động viên và chỉ dạy nhiều kiến thức quý báu trong quá trình emhọc tập tại trường
Em xin gửi lời cảm ơn các Thầy Cô trong Khoa Hóa, các Thầy Cô trong KhoaSau đại học và toàn thể Ban Giám hiệu Trường Đại học Khoa Học Huế đã cho phép
và tạo mọi thuận lợi cho em hoàn thành luận án này
Em xin gửi lời cảm ơn đến TS Phùng Văn Trung, TS Hoàng Thị Kim DungViện Hoá học – Viện Hàn lâm Khoa học và Công nghệ Việt Nam TP Hồ Chí Minh
đã giúp đỡ em trong quá trình làm luận án
Em xin gửi lời cảm ơn đến PGS.TS Nguyễn Hùng Huy, Khoa Hoá, Trường Đạihọc Khoa học Tự Nhiên – ĐHQGHN đã giúp đỡ, tận tình chỉ dẫn em trong quá trìnhlàm luận án
Tôi xin gửi lời cảm ơn chân thành gia đình, bạn bè đã động viên, giúp đỡ cho tôihoàn thành luận án này
Ký tên
Bùi Thị Phương Thúy
ii
Trang 3DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
dd Mũi đôi của mũi đôi (duplet of duplet)
DEPT Phổ DEPT (Distortionless Enhancement by Polarisation Transfer)DMSO Dimethyl sulfoxide (CH3)2S=O
EtOAc Ethyl acetate (CH3COOC2H5)
E-State Trạng thái điện tử (electrotopological state)
GI50
Nồng độ thuốc ức chế 50% sự phát triển của tế bào gây ung thư(50% Growth Inhibition)
pGI50 pGI50= -log(GI50)
pGI50,exp Giá trị pGI50 thực nghiệm
pGI50,pr Giá trị pGI50 dự đoán
HMBC Phổ tương tác đa liên kết hai chiều dị hạt nhân (Heteronuclear
Multiple Bond Vorrelation)
HSQC Phổ tương tác hai chiều trực tiếp dị hạt nhân (heteronuclear single
quantum coherence)HPV Vi rút u nhú ở người (Human Papillomavirus)
IR Phổ hồng ngoại (Infrared Spectroscopy)
iii
Trang 4LV Biến ẩn (Latent Variables)
LogP Giá trị logarit hệ số phân tán
MSE Sai số trung bình bình phương (Mean Squared Error)
Nonlinear Phi tuyến tính
OD Phương pháp đo mật độ quang (Optical Density)
PCA Phân tích thành phần chính (Principal Components Analysis)PCR Hồi qui thành phần chính (Principal Components Regression)PLS Bình phương cực tiểu riêng phần (Partial Least Squares)
QSPR Quan hệ định lượng cấu trúc - tính chất
(Quantitative Structure - Property Relationship)
QSAR Quan hệ định lượng cấu trúc - hoạt tính
(Quantitative Structure - Activity Relationship)
QESAR Quan hệ định lượng giữa cấu trúc điện tử và hoạt tính sinh học
(Quantitative Electronic Structure - Activity Relationship)
QSDAR Quan hệ định lượng giữa cấu trúc phổ NMR và hoạt tính sinh học
(Quantitative Spectrum Data - Activity Relationship)
QSSR Quan hệ định lượng cấu trúc - cấu trúc
(Quantitative Structure - Structure Relationship)
Q2
Hệ số tương quan đánh giá chéo (Cross-validation correlationcoefficient)
R2tr Hệ số tương quan R2 luyện
R2pr Hệ số tương quan R2 dự đoán
iv
Trang 5R2ad R2hiệu chỉnh
Rf Hệ số lưu giữ (Retention Factor)
SAR Quan hệ cấu trúc hoạt tính (Structure - Activity Relationship)
QSARMLR
QSARMLR phương trình 3.17(3.17)
QSARMLR
QSARMLR phương trình 3.19(3.19)
v
Trang 6DANH MỤC CÁC BẢNG
Bảng 3.1 Năng lượng tối thiểu (kcal/mol) của phân tử isoflavone (isofla-30) 63
Bảng 3.2 Tham số moment lưỡng cực (µ) của các flavonone và isoflavone 65
Bảng 3.3 Ảnh hưởng của loại biến độc lập đến giá trị R2tr 67
Bảng 3.4 Ảnh hưởng của số biến độc lập đến giá trị R2tr, R2pr , SE 67
Bảng 3.5 Ảnh hưởng của số nơ ron ẩn đến giá trị R2tr 68
Bảng 3.6 Ảnh hưởng của cấu trúc mạng đến giá trị R2tr và R2pr 68
Bảng 3.7 Ảnh hưởng của hàm truyền đến giá trị R2tr và R2pr 69
Bảng 3.8 Ảnh hưởng của moment và sai số luyện đến R2tr 69
Bảng 3.9 Các mô hình tuyến tính QESAR MLR (k = 2 - 10) và giá trị thống kê 71
Bảng 3.10 Giá trị thống kê và các mô hình QESAR MLR (với k = 5 - 7) 72
Bảng 3.11 Giá trị thống kê và giá trị đóng góp GMP m x i,% của nguyên tử trong các mô hình QESAR MLR (với k = 5 – 7) 73
Bảng 3.12 pGI 50 của nhóm kiểm tra dự đoán từ mô hình QESAR MLR , QESAR ANN 75
Bảng 3.13 Các mô hình QSDAR MLR và các giá trị thống kê 76
Bảng 3.14 Giá trị thống kê, các hệ số và phần trăm đóng góp của các độ dịch chuyển hóa học i trong các mô hình QSDAR MLR 77
Bảng 3.15 Hoạt tính pGI 50,pr của các dẫn xuất kiểm tra và các giá trị ARE,% từ các mô hình QSDARMLR (với k = 7) và QSDARANN với kiến trúc I(7)-HL(2)-O(1) 79
Bảng 3.16 Mối tương quan của các hợp chất sử dụng mô tả điện tích nguyên tử 81
Bảng 3.17 Tính chất hóa lý và hoạt tính kháng ung thư pGI 50 của các hợp chất nghiên cứu bằng mô hình QSSR MLR và các chất dùng để dự đoán 82
Bảng 3.18 Các mô hình QSAR MLR (k từ 2 đến 10) với các giá trị R2, R2pred và MSE 86
Bảng 3.19 Các giá trị thống kê và giá trị phần trăm đóng góp MPmx i ,% và GMPmx i,% đối với các tham số mô tả phân tử 2D và 3D trong các mô hình QSAR MLR (với k là 8, 9 và 10) 87
Bảng 3.20 Hoạt tính sinh học pGI 50 của nhóm kiểm tra từ các mô hình QSAR MLR (3.16) và QSAR ANN(1) 90
Bảng 3.21 Các mô hình QSAR MLR (k từ 2 đến 10) với các giá trị R2, R2pred và MSE 91
Bảng 3.22 Các giá trị thống kê và phần trăm đóng góp MP m x i ,%, GMP m x i,% của các tham số mô tả phân tử 2D, 3D trong các mô hình QSAR MLR (với k bằng 5, 6, 7) 92
Bảng 3.23 Hoạt tính sinh học pGI 50 của nhóm kiểm tra từ các mô hình QSAR MLR (3.17), QSAR PCR và QSAR PCA-ANN 95
Bảng 3.24 Các mô hình QSAR MLR với các giá trị R2tr , SE và R2pr tương ứng 97
Bảng 3.25 Các giá trị thống kê và phần trăm đóng góp MP m x i ,%, GMP m x i,% của điện tích nguyên tử trong các mô hình QSAR MLR 99
Bảng 3.26 Hoạt tính pGI 50 trong nhóm kiểm tra dự đoán từ các mô hình QSAR MLR (3.19), QSAR PLS (3.20) và QSAR ANN(2) 100
Bảng 3.27 Phần trăm gây độc tế bào GI 50 (µg/ml) của các mẫu khảo sát trên dòng tế bào Hela ở các nồng độ khác nhau 112
vi
Trang 7Bảng 3.28 Giá trị GI 50 (µg/ml) và pGI 50 của các mẫu flavonoid khảo sát từ thực nghiệm in vitro 113
Bảng 3.29 Hoạt tính pGI 50 của các flavone và isoflavone mới được dự đoán từ mô hình QESAR MLR và QESAR ANN 114
Bảng 3.30 Hoạt tính pGI 50 của flavone và isoflavone mới được thiết kế và dự đoán từ mô hình QSDAR MLR
(M1) và QSDAR ANN (M2) 116
Bảng 3.31 Tính chất hóa lý và giá trị hoạt tính kháng ung thư pGI 50 của nhóm dẫn xuất flavone và isoflavone tương tự được nghiên cứu từ mô hình QSSR MLR 118
Bảng 3.32 Giá trị pGI 50,pr từ 3 mô hình QSSR MLR , QSEAR MLR và QSDAR MLR 119
Bảng 3.33 Nhiệt độ nóng chảy thực nghiệm và dự đoán từ mô hình QSSR MLR của các dẫn xuất flavonoid chiết xuất 120
Bảng 3.34 Hoạt tính sinh học pGI 50 của hai hợp chất phân lập ZZL1, ZZL2 từ các mô hình QSAR MLR (3.16)
và QSAR ANN (1) 121
Bảng 3.35 Hoạt tính GI 50 (µM) của 10 hợp chất mới nhận được từ mô hình QSAR ANN(1 122
Bảng 3.36 Hoạt tính sinh học pGI 50 của nhóm kiểm tra và hai hợp chất phân lập luteolin và daidzin từ các mô
hình QSAR MLR (3.18), QSAR PCR và QSAR PCA-ANN 123
Bảng 3.37 Hoạt tính kháng ung thư pGI 50 của 5 hợp chất mới được dự đoán từ mô hình QSAR PCA-ANN ) 124
Bảng 3.38 Hoạt tính pGI 50 trong nhóm kiểm tra dự đoán từ các mô hình QSAR MLR (3.19), QSAR PLS (3.20) và QSAR ANN (2) 125
Bảng 3.39 Hoạt tính kháng ung thư pGI 50 của 5 hợp chất mới thiết kế bằng cách gắn nhóm thế vào vị trí C 6 ,
C 3’ của quercetin, dự đoán từ mô hình QSAR ANN(2) 125
vii
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Mối liên quan định lượng cấu trúc, tính chất, độ phản ứng, hoạt tính 7
Hình 1.2 Giản đồ Venn mối liên quan định lượng cấu trúc và tác dụng [93] 7
Hình 1.3 Mô hình hồi quy tuyến tính với (p = 2) [51, 66] 15
Hình 1.4 Hồi quy đa biến thường với p = 2, N = 3 [51, 66] 18
Hình 1.5 Ý nghĩa của hệ số hồi quy [51, 66] 19
Hình 1.6 Giải thích F-test [51, 66] 20
Hình 1.7 Hồi quy thành phần chính với p = 2, N = 3 [52, 107] 24
Hình 1.8 Thành phần chính với p = 2 [51, 106] 27
Hình 1.9 Hồi quy PLS với p = 2, N = 3 [51, 106] 30
Hình 1.10 Sơ đồ giải thuật di truyền [10] 34
Hình 1.11 Chọn lựa thế hệ cha mẹ (Pk ) theo phương pháp bánh xe lăn [76] 36
Hình 1.12 Chọn lựa thế hệ cha mẹ (P k) theo phương pháp xếp hạng tuyến tính [76] 36
Hình 1.13 Toán tử chéo đơn điểm [76] 37
Hình 1.14 Toán tử chéo hai điểm [76] 37
Hình 1.15 Hệ thống thần kinh sinh học tự nhiên 40
Hình 1.16 Hoạt động mạng thần kinh nhân tạo [50] 41
Hình 1.17 Cấu trúc mạng nơ ron [101] 42
Hình 1.18 Quá trình học của mạng nơ ron [16] 43
Hình 1.19 Mô hình tính toán một nơ ron [69, 77] 44
Hình 1.20 Cấu khung flavonoid và quy ước đánh số [74] 47
Hình 1.21 Một số dẫn xuất flavonoid [20, 74] 47
Hình 2.1 Sơ đồ nghiên cứu tổng quát 51
Hình 2.2 Nguyên liệu sử dụng phân lập flavonoid [2] 54
Hình 2.3 Xây dựng các mô hình hồi quy đa biến 56
Hình 2.4 Quy trình phân lập các dẫn xuất flavonoid [3, 59] 57
Hình 3.1 Sự giảm năng lượng phân tử theo mức gradient 64
Hình 3.2 Ảnh hưởng của k đến R2 và SE 67
Hình 3.3 Giá trị đóng góp trung bình toàn cục GMP m x i 72
Hình 3.4 Mối tương quan giữa các hợp chất: a) sử dụng điện tích; b) sử dụng tính chất hóa lý 81
Hình 3.5 Quan hệ giữa tính chất hóa lý dự đoán và dữ liệu thực nghiệm 85
Hình 3.6 a) Hồi quy tuyến tính đa biến và b) giá trị pGI 50 và pGI 50,pred của flavonoid trong nhóm kiểm tra 88
Hình 3.7 Tính chất của các thành phần chính và tương quan giữa giá trị pGI 50 94
Hình 3.8 Cấu trúc phân tử CSL1, C 12 H 20 O 11 102
Hình 3.9 Cấu trúc phân tử AIL1, C 15 H 10 O 7 103
Hình 3.10 Cấu trúc POL1, C 15 H 10 O 6 104
Hình 3.11 Cấu trúc phân tử của GML1, C 21 H 20 O 9 106
Hình 3.12 Cấu trúc phân tử của daidzin dưới dạng elipxoit với xác xuất 50% 107
viii
Trang 9Hình 3.13 Cấu trúc phân tử của ZZL1, C 16 H 12 O 6 108
Hình 3.14 Cấu trúc phân tử của ZZL1 dưới dạng elipxoit với xác xuất 50% 109
Hình 3.15 Cấu trúc phân tử của ZZL2 (C 25 H 24 O 12 ) 110
Hình 3.16 Hoạt tính pGI 50,pr dự đoán từ mô hình tuyến tính QESAR MLR của các flavone, isoflavone mới và chất mẫu 113
Hình 3.17 Cấu trúc dược chất trong cây nghể (Polygonum hydropiper) [2] 117
Hình 3.18 Cấu trúc dược chất trong cây hoàng cầm (Scutellaria baicalensis) [2] 117
Hình 3.19 Các giá trị pGI 50 của hợp chất mới với hợp chất mẫu a) ZZL1, b) ZZL2 122
Hình 3.20 So sánh giữa các giá trị pGI 50 của năm flavonoid mới với chất mẫu a) POL1; b) GML1 123
Hình 3.21 So sánh giữa các giá trị pGI 50 của năm flavonoid mới với chất mẫu a) AIL1; b) CSL1 126
ix
Trang 10MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ viii
MỤC LỤC x
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN TÀI LIỆU 4
1.1 BỆNH UNG THƯ CỔ TỬ CUNG 4
1.1.1 Các nguyên nhân gây ung thư 4
1.1.2 Điều trị 5
1.1.3 Phòng ngừa 6
1.2 LIÊN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH 6
1.3 TÍNH TOÁN THÔNG TIN CẤU TRÚC 9
1.3.1 Cơ học phân tử 9
1.3.2 Cơ học lượng tử 9
1.3.3 Phương pháp bán thực nghiệm 11
1.4 CÁC MÔ HÌNH TOÁN HỌC 12
1.4.1 Hồi quy đa biến 12
1.4.2 Hồi quy thành phần chính 22
1.4.3 Bình phương tối thiểu riêng phần 25
1.4.4 Giải thuật di truyền 31
1.4.5 Mạng thần kinh nhân tạo (ANN) 39
1.4.5.1 Khái niệm 39
1.4.5.2 Cấu trúc mạng 40
1.4.6 Thống kê đánh giá mô hình 45
1.4.7 Tính toán đóng góp của các tham số 46
1.5 HỢP CHẤT FLAVONOID 46
1.5.1 Giới thiệu chung 46
1.5.2 Phân loại dẫn xuất flavonoid 47
x
Trang 111.5.3 Phân bố flavonoid trong tự nhiên 48
1.5.4 Hoạt tính sinh học của flavonoid 48
1.6 PHÂN LẬP VÀ XÁC ĐỊNH CẤU TRÚC FLAVONOID 50
1.6.1 Phân lập flavonoid 50
1.6.2 Xác định cấu trúc flavonoid 50
1.6.3 Thử hoạt tính in vitro của flavonoid tự nhiên 50
CHƯƠNG 2 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 51
2.1 SƠ ĐỒ NGHIÊN CỨU 51
2.2 CƠ SỞ DỮ LIỆU, NGUYÊN LIỆU VÀ PHƯƠNG PHÁP 52
2.2.1 Xây dựng cơ sở dữ liệu thông tin phân tử 52
2.2.2 Nguyên liệu và phương pháp 52
2.2.2.1 Phần mềm ứng dụng 52
2.2.2.2 Hóa chất, thiết bị 52
2.2.2.3 Nguyên liệu 53
2.3 NGHIÊN CỨU LÝ THUYẾT 54
2.3.1 Phương pháp tính toán thông tin cấu trúc 54
2.3.1.1 Cơ học phân tử 54
2.3.1.2 Hóa lượng tử 54
2.3.1.3 Các tham số cấu trúc 55
2.3.2 Xây dựng các mô hình QSAR 55
2.4 SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN 56
2.4.1 Phân lập các hợp chất flavonoid 56
2.4.2 Xác định cấu trúc hóa học các hợp chất flavonoid 58
2.4.2.1 Phương pháp phổ cộng hưởng từ hạt nhân 58
2.4.2.2 Đo nhiễu xạ tia X đơn tinh thể 59
2.4.3 Kỹ thuật thử hoạt tính in vitro 59
2.4.3.1 Nguyên tắc phương pháp Sulforhodamine B 59
2.4.3.2 Nuôi cấy tế bào 60
2.4.3.3 Nhuộm SRB 61
2.4.3.4 Xử lý kết quả 61
2.4.3.5 Xác định GI 50 61
2.5 THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CỦA FLAVONOID 62
CHƯƠNG 3 KẾT QUẢ & THẢO LUẬN 63
xi
Trang 123.1 NGHIÊN CỨU LÝ THUYẾT 63
3.1.1 Tính toán thông tin cấu trúc 63
3.1.1.1 Khảo sát phương pháp cơ học phân tử 63
3.1.1.2 Khảo sát phương pháp hóa lượng tử 64
3.1.2 Tham số cấu trúc và tính chất phân tử 65
3.1.2.1 Điện tích 65
3.1.2.2 Phổ 13C-NMR, 15O-NMR và độ dịch chuyển hóa học 66
3.1.2.3 Tham số hóa lý 66
3.1.2.4 Tham số hình học 2D, 3D 66
3.2 XÂY DỰNG MÔ HÌNH QSAR 66
3.2.1 Khảo sát các biến số mô hình 66
3.2.2 Xây dựng các mô hình QESAR 70
3.2.2.1 Mô hình tuyến tính QESAR MLR 70
3.2.2.2 Mô hình mạng thần kinh QESAR ANN 74
3.2.2.3 Kiểm tra khả năng dự đoán 75
3.2.3 Xây dựng các mô hình QSDAR 75
3.2.3.1 Mô hình tuyến tính QSDAR MLR 75
3.2.3.2 Mô hình mạng thần kinh QSDAR ANN 78
3.2.3.3 Kiểm tra khả năng dự đoán 78
3.2.4 Xây dựng mô hình QSSR MLR 79
3.2.4.1 Nguyên tắc xây dựng 79
3.2.4.2 Tính toán các tham số hóa lý 80
3.2.4.3 Xây dựng mô hình 80
3.2.4.4 Kiểm tra khả năng dự đoán 84
3.2.5 Xây dựng mô hình QSAR MLR (3.16) và QSAR ANN(1) 85
3.2.5.1 Dữ liệu 85
3.2.5.2 Xây dựng mô hình QSAR MLR (3.16) 85
3.2.5.3 Xây dựng mô hình QSAR ANN(1) 89
3.2.5.4 Khả năng dự đoán của mô hình QSAR MLR (3.16) và QSAR ANN(1) 90
3.2.6 Xây dựng mô hình QSAR MLR (3.17), QSAR PCR (3.18) và QSAR PCA-ANN 91
3.2.6.1 Dữ liệu 91
3.2.6.2 Xây dựng mô hình QSAR MLR (3.17), QSAR PCR (3.18) 91
3.2.6.3 Xây dựng mô hình QSAR PCA-ANN 94
3.2.6.4 Khả năng dự đoán của các mô hình 95
xii
Trang 133.2.7 Xây dựng mô hình QSAR MLR (3.19), QSAR PLS (3.20) và QSAR ANN(2) 96
3.2.7.1 Dữ liệu 96
3.2.7.2 Xây dựng mô hình QSAR MLR (3.19) và QSAR PLS (3.20) 96
3.2.7.3 Xây dựng mô hình QSAR ANN(2) 99
3.2.7.4 Dự đoán hoạt tính sinh học của các hợp chất mới 100
3.3 SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN 101
3.3.1 Phân lập cynaroside từ actiso 101
3.3.2 Phân lập quercetin từ xa kê 102
3.3.3 Phân lập luteolin từ tía tô 103
3.3.4 Phân lập daidzin từ đậu nành 105
3.3.4.1 Xác định cấu trúc daidzin bằng phương pháp NMR 105
3.3.4.2 Xác định cấu trúc phân tử daidzin bằng phương pháp đo nhiễu xạ tia X 106
3.3.5 Phân lập kaempferol-3-O-methylether từ gừng gió 107
3.3.5.1 Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp NMR 107
3.3.5.2 Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp đo nhiễu xạ tia X 109
3.3.6 Phân lập kaempferol-3-O-(2,4-O-diacetyl-alpha-L-rhamnopyranoside) từ gừng gió 110 3.3.7 Thử hoạt tính sinh học in vitro của các hợp chất flavonoid tự nhiên 111
3.4 THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CÁC FLAVONOID 113
3.4.1 Mô hình QESAR 113
3.4.2 Mô Hình QSDAR 115
3.4.3 Mô hình QSSR MLR 116
3.4.4 Mô hình QSAR MLR (3.16) và QSAR ANN (1) 121
3.4.5 Mô hình QSAR MLR (3.17), QSAR PCR và QSAR PCA-ANN 123
3.4.6 Mô hình QSAR MLR (3.19 ), QSAR PLS (3.20) và QSAR ANN(2) 124
KẾT LUẬN VÀ KIẾN NGHỊ 127
DANH MỤC CÔNG TRÌNH 129
TÀI LIỆU THAM KHẢO 131
PHỤ LỤC 144
xiii
Trang 14MỞ ĐẦU
Các phương pháp phòng và trị bệnh ung thư hiện nay như phẫu thuật, xạ trị,hóa trị Tuy nhiên các phương pháp này vẫn có những tác dụng phụ nhất định đốivới bệnh nhân Nhu cầu về dược chất kháng ung thư có khả năng phòng và trị bệnhđang rất lớn nhưng khả năng đáp ứng còn hạn chế [70, 71] Các nhà khoa học, dượchọc đã và đang quan tâm nghiên cứu, tìm kiếm các loại dược chất mới Trong đónhóm flavone, isoflavone nói riêng là nhóm dược chất có nhiều trong thực vật vớihoạt tính kháng oxi hóa, kháng ung thư, kháng viêm, … hiệu quả [45, 104] Cácnghiên cứu thực nghiệm trên thế giới và Việt Nam đã cung cấp một cơ sở dữ liệuquý giá về nguồn dược chất trong tự nhiên, nhưng các nghiên cứu thực nghiệmthuần túy còn nhiều hạn chế để tạo ra hợp chất có hoạt tính kháng ung thư hiệu quả,nhanh chóng, kinh tế [41, 42] Các nghiên cứu lý thuyết trên thế giới nói chung,trong nước nói riêng về nhóm flavone và isoflavone có hoạt tính kháng ung thư cổ
tử cung còn khá khiêm tốn [90, 103] Nghiên cứu mối quan hệ cấu trúc - hoạt tínhnhằm thiết kế các dẫn xuất flavone, isoflavone mới có hoạt tính được cải thiện; cácnghiên cứu lý thuyết là rất cần thiết để thúc đẩy và làm tiền đề cho các nghiên cứuthực nghiệm, nhằm tìm kiếm các dược chất kháng ung thư hiệu quả [80, 90]
Trong nghiên cứu này, chúng tôi sử dụng các thông tin mô tả cấu trúc điệntích nguyên tử, độ dịch chuyển hóa học, tính chất hóa lý, tham số 2D và 3D củaphân tử kết hợp các kỹ thuật phân tích hồi quy, mạng nơ ron, phân tích thành phầnchính, giải thuật di truyền, bình phương cực tiểu riêng phần để xây dựng các mốiquan hệ định lượng cấu trúc - hoạt tính (QSAR) [89] Các flavonoid được xây dựng
và tối ưu hóa bằng các phương pháp cơ học phân tử MM+ Các tham số mô tả phân
tử 2D, 3D được sử dụng để xây dựng các mô hình đa biến như hồi quy tuyến tính đabiến (MLR), phân tích thành phần chính (PCR), bình phương cực tiểu riêng phần(PLS) và mạng nơ ron nhân tạo (ANN) [80, 90] Xây dựng các mô hình QSARnhằm xác định những yếu tố tham số mô tả phân tử ảnh hưởng đến tác dụng khángung thư cổ tử cung từ đó xác định hướng thiết kế phân tử mang lại hoạt tính cao hơn[86, 90, 103] Trong nghiên này cũng đã tiến hành chiết tách và phân lập flavonoid
1
Trang 15từ gừng gió, đậu nành, tía tô, xa kê, actiso, một vài kỹ thuật phân tích hóa lý cũngđược sử dụng để xác định cấu trúc phân tử các dẫn xuất flavonoid Các phân tửflavonoid đã phân lập sẽ được dự báo hoạt tính, và sử dụng làm chất mẫu để thiết kếhợp chất mới có hoạt tính cao hơn Từ các cơ sở trên, chúng tôi nghiên cứu đề tài
“Thiết kế, sàng lọc một số dẫn xuất flavonoid và đánh giá hoạt tính gây độc lên dòng tế bào Hela dựa vào các tính toán hóa lượng tử”.
Mục tiêu của luận án
Tính toán, sàng lọc các tham số mô tả phân tử gồm: tham số điện tích, độdịch chuyển hóa học, tính chất hóa lý, tham số 2D, 3D của các dẫn xuất flavonoid.Xây dựng các mô hình quan hệ cấu trúc – hoạt tính có khả năng dự đoán hoạt tínhkháng ung thư của các dẫn xuất flavone và isoflavone có cấu trúc tương tự
Sàng lọc, phân lập, xác định cấu trúc và thử nghiệm in vitro hoạt tính kháng
ung thư 6 hợp chất flavonoid từ actiso, xa kê, đậu nành, tía tô, gừng gió
Thiết kế, sàng lọc các dẫn xuất flavone và isoflavone và đánh giá hoạt tínhkháng ung thư cổ tử cung cũng như các tính chất hóa lý của các dẫn xuất flavonoidmới thiết kế từ flavonoid mẫu
Ý nghĩa khoa học của luận án
Nghiên cứu này đã sử dụng các tính toán lý thuyết và xây dựng các mối quan
hệ định lượng cấu trúc - hoạt tính (QSAR) Các flavone và isoflavone được xâydựng và tối ưu hóa bằng các phương pháp cơ học phân tử MM+ Điện tích nguyên
tử, độ dịch chuyển hóa học, các tính chất hóa lý và các tham số mô tả phân tử 2D,3D từ các phương pháp lý thuyết được sử dụng để xây dựng các mô hình đa biếnnhư hồi quy tuyến tính đa biến (MLR), hồi quy thành phần chính (PCR), hồi quybình phương cực tiểu riêng phần (PLS) và mạng nơ ron nhân tạo (ANN) Các kỹthuật thực nghiệm chụp cộng hưởng từ hạt nhân, phổ khối lượng và kỹ thuật đonhiễu xạ tia X đơn tinh thể cũng được sử dụng để xác định cấu trúc phân tử các dẫnxuất flavonoid chiết xuất
Các mô hình QSAR được xây dựng nhằm xác định được những vị trí nguyên
tử ảnh hưởng đến tác dụng kháng ung thư cổ tử cung từ đó xác định vị trí tác dụngmạnh để xem xét gắn nhóm thế nhằm tạo ra hợp chất mới và chọn lựa được những
2
Trang 16hợp chất có hoạt tính cao Ngoài ra với kỹ thuật QSAR có thể xây dựng các mô hìnhkhác nhau để dự đoán các tính chất hóa lý khác của các hợp chất Từ công trình này,
có thể ứng dụng phương pháp, kết quả nghiên cứu trong các nghiên cứu thựcnghiệm, lý thuyết với sự hỗ trợ của công nghệ máy tính nhằm giảm thiểu đáng kểchi phí cho các nghiên cứu thực nghiệm Kết quả nghiên cứu của luận án mở rahướng nghiên cứu mới, phù hợp với định hướng nghiên cứu trên thế giới và ViệtNam Đây là cơ sở khoa học để áp dụng trong thiết kế, sàng lọc các hợp chất hữu cơ
có cấu trúc tương tự, đồng thời dự đoán hoạt tính sinh học và các tính chất hóa lýcủa hợp chất làm tiền đề cho các quá trình thực nghiệm một cách hiệu quả
Những đóng góp mới của luận án
Công trình này xác định được cấu trúc và thử hoạt tính pGI50 in vitro đối
với 6 hợp chất flavonoid phân lập từ lá tía tô, lá xa kê, lá actiso, hạt đậu nành và củgừng gió Đã tính toán và sàng lọc các tham số mô tả cấu trúc phân tử như tham sốđiện tích, tham số độ dịch chuyển hóa học, tham số 2D, 3D ảnh hưởng chính đếnhoạt tính kháng ung thư của các dẫn xuất flavonoid Đã xây dựng và đánh giá thànhcông khả năng dự báo của các mô hình QSAR Các mô hình QESAR, QSDAR,QSSR, QSARNMR, QSARANN, QSARPCA-ANN, QSARPCR, QSARPLS đã dự đoán đượchoạt tính kháng ung thư và tính chất hóa lý của các hợp chất mới được thiết kế từcác chất mẫu và hợp chất tự nhiên Hoạt tính kháng ung thư của các hợp chất mớitốt hơn hoạt tính kháng ung thư của chất mẫu, hợp chất phân lập từ gừng gió, đậunành, tía tô, xa kê, actiso Như vậy, việc tiến hành nghiên cứu xây dựng các mô hìnhQSAR trong nghiên cứu này là một định hướng hữu ích trong nghiên cứu tìm kiếm
và tổng hợp các flavonoid khác nhau từ tự nhiên
Cấu trúc của luận án gồm các phần sau
- Chương 1: Tổng quan tài liệu
- Chương 2: Nội dung và phương pháp nghiên cứu
- Chương 3: Kết quả và thảo luận
- Danh mục các công trình liên quan đến luận án
3
Trang 17CHƯƠNG 1 TỔNG QUAN TÀI LIỆU
1.1 BỆNH UNG THƯ CỔ TỬ CUNG
1.1.1 Các nguyên nhân gây ung thư
Ung thư là một tập hợp các bệnh liên quan đến sự phân chia tế bào một cáchmất kiểm soát, tiếp theo là quá trình các tế bào đó xâm lấn và di căn đến các môkhác qua hệ thống bạch huyết và máu [6] Giai đoạn di căn là nguyên nhân chínhgây tử vong của bệnh nhân ung thư Hiện nay có trên 100 bệnh ung thư có loại từbắp thịt và xương, có loại từ da hoặc lớp lót của các cơ quan, có loại xuất phát từmáu Ở nam giới thường gặp ung thư phổi, gan, đại trực tràng, dạ dày, vòm hầu,thanh quản, thực quản, tuyến tiền liệt, ung thư máu [58, 70] Ở nữ giới thường gặpung thư vú, cổ tử cung, đại trực tràng, phổi, tuyến giáp, buồng trứng, gan, dạ dày,thân tử cung, da [70] Ung thư làm cho cơ thể bệnh nhân tử vong bằng nhiều cách,nhưng đa số là làm cho cơ thể suy kiệt với các bệnh cơ hội Trong đó, bệnh ung thưcổ tử cung hình thành ở biểu mô cổ tử cung (cổ tử cung là cơ quan nối giữa âm đạovới buồng trứng) [57, 96]
Ung thư cổ tử cung bắt đầu ở niêm mạc cổ tử cung, tại đây các tế bào pháttriển bất bình thường và khó kiểm soát dẫn đến hình thành khối u Phụ nữ trong độtuổi từ 30 đến 59 thường dễ mắc bệnh hơn cả Đây là căn bệnh có thể điều trị vàphòng ngừa nếu phát hiện sớm [96, 112]
Triệu chứng biểu hiện bệnh: âm đạo xuất huyết bất thường, có mùi khó chịu,
cơ thể bệnh nhân gầy gò, da trắng bệch, cơ thể đau nhức [32]
Điều trị bệnh: tuỳ theo giai đoạn phát triển của bệnh mà được điều trị theophác đồ khác nhau: giai đoạn 1 ung thư khu trú tại cổ tử cung; giai đoạn 2 ung thưxâm lấn vùng lân cận; giai đoạn 3 ung thư xâm lấn xa hơn; giai đoạn 3 di căn sangcác bộ phận khác của cơ thể [96]
Giai đoạn 1 và 2: chỉ cần mổ và chiếu xạ thì khả năng khỏi bệnh sẽ rất cao, tỉ
lệ khỏi bệnh là 80 – 90% Giai đoạn 3 và 4 chủ yếu là xạ trị, tỉ lệ khỏi bệnh rất thấp
từ 3 – 25 %, tuỳ theo mức độ nặng hay nhẹ của bệnh [96]
4
Trang 18Các yếu tố bên ngoài gây bệnh ung thư bao gồm: các tia X, chất phóng xạ, tiacực tím, hóa chất gây hư hại cấu trúc gen di truyền Các sản phẩm công nghiệp như:amiăng gây ung thư phổi; polivinylclorua gây ung thư gan; nitrosamin gây ung thưbao tử; các phẩm màu trong bánh kẹo, hay một số sản phẩm trong thuốc nhuộm tóc,các hoá chất kích thích trong chăn nuôi nhiễm estrogen cũng gây ung thư; thuốcngừa thai và các chất kích thích nội tiết tố như DES (diethylstilbestrol) có khả nănggây ung thư; thuốc trừ sâu, rầy như DDT cũng có khả năng gây ung thư [23, 99] Ônhiễm không khí: các hoá chất gây ô nhiễm không khí như CO2, hidrocacbon,benzopiren, bụi amiăng, khói thuốc lá gây ung thư phổi [70] Ngoài ra còn có độc tốcủa nấm mốc chứa aflatoxin có trong nấm Aspergillus gây ung thư [26].
Các yếu tố do lối sống có thể là nguyên nhân gây bệnh ung thư như các hoáchất trong thuốc lá gây ung thư phổi, rượu gây ung thư thực quản; chế độ ăn gâyung thư: ăn nhiều mỡ động vật, bơ, ăn nhiều calo, ăn thiếu chất xơ, uống rượu, hay
sử dụng thực phẩm không an toàn là nguyên nhân gây ung thư [23, 62]
Yếu tố sinh học gây ung thư thể hiện ở một số ít căn bệnh ung thư ở ngườiđược cho là do vi rút như ung thư gan, ung thư vòm họng, ung thư cổ tử cung [26]
Yếu tố di truyền gây ung thư chiếm tỉ lệ thấp, một số loại như ung thư mắt,ung thư vú, có khuynh hướng dễ gặp trong cùng một gia đình Tuy nhiên, yếu tố ditruyền không có tầm quan trọng về mặt thực tiễn [62]
1.1.2 Điều trị
Một số liệu pháp chính trong điều trị ung thư: phẫu trị là dùng lưỡi dao mổ
để loại bỏ tận gốc khối u; xạ trị là phương pháp sử dụng dùng tia phóng xạ tàn tiêudiệt các tế bào ung thư; hoá trị là dùng hoá chất để tiêu diệt tế bào ung thư; liệupháp miễn dịch là liệu pháp tăng cường khả năng đề kháng tự nhiên của cơ thể đểkháng lại sự phát triển của tế bào ung thư [23, 58]
Phẫu thuật và xạ trị có ưu điểm là tấn công mạnh các loại ung thư thời kì cònkhu trú, nhưng phương pháp này không hiệu quả khi ung thư di căn trên cơ thểngười bệnh Đối với phương pháp hoá trị chỉ cho kết quả tạm thời và không hiệu
5
Trang 19quả Liệu pháp miễn dịch chưa được nghiên cứu chuyên sâu nên chỉ là phương phápbổ trợ trong điều trị bệnh [58, 96].
1.1.3 Phòng ngừa
Biện pháp phòng ngừa ung thư bao gồm một số biện pháp như: Giảm thiểuviệc tiếp xúc với thuốc lá, rượu, hoá chất công nghiệp; thực hiện các biện pháp bảo
vệ cơ thể chặt chẽ khi tiếp xúc với tia phóng xạ; ngừa ung thư qua việc chọn lựa chế
độ ăn uống an toàn như không nên ăn một số thức ăn được khuyến cáo có thể gâyung thư, thức ăn có chứa các hóa chất nguy hiểm và các hormon; khám sức khoẻđịnh kỳ, tầm soát ung thư sớm đều đặn; tiêm vacxin ngừa ung thư; lối sống lànhmạnh [47, 99]
1.2 LIÊN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH
Liên hệ giữa cấu trúc – hoạt tính là nguyên tắc cơ bản nhất để xây dựng các
mô hình quan hệ cấu trúc – hoạt tính (QSAR) hay mô hình quan hệ cấu trúc – tínhchất (QSPR), mô hình quan hệ cấu trúc - cấu trúc để dự đoán tính chất vì cấu trúc –tính chất - hoạt tính có mối quan hệ biện chứng với nhau, là các mối liên hệ nhân –quả có thể được tính toán một cách chính xác và thiết lập theo những mô hình toánhọc rõ ràng [17, 93] Theo Testa và Kier, quan hệ định lượng cấu trúc – tác dụng là
tổng hòa các mối quan hệ thể hiện trên Hình 1.1 Trên cơ sở này nhiều kiểu mô
hình được xây dựng với các thông tin về cấu trúc khác nhau Mô hình tổng quátdạng QSXR: X có thể là A – hoạt tính (Activity); tính chất – P (Property); cấu trúc– S (Structure) [17, 93]
Cấu trúc – tính chất không phải lúc nào cũng được phân định rõ ràng, nên
mối liên quan giữa chúng được biểu hiện bằng phần giao trên giản đồ Venn, Hình
1.2 [17, 93] Tính chất – tác dụng có thể là một trong một số trường hợp nên mối
liên quan giữa tính chất và tác dụng cũng được diễn tả bằng giản đồ Venn có phầngiao Cấu trúc – hoạt tính có sự phân định rõ ràng nên mối liên quan giữa cấu trúc
và tác dụng, điều này được mô tả bởi hai vòng tròn không có phần giao nhau màtiếp xúc tại một điểm
6
Trang 20Hình 1.1 Mối liên quan định lượng cấu trúc, tính chất, độ phản ứng, hoạt tính
Tính chất Cấu trúc
Tác dụng
Hình 1.2 Giản đồ Venn mối liên quan định lượng cấu trúc và tác dụng [93] Theo quan điểm hóa học, một phân tử có tác dụng sinh học mang hai nhómchức: nhóm tác dụng (thường có cấu tạo đặc biệt) và nhóm ảnh hưởng (thường làcác nhóm có khả năng thay đổi tính chất lý hóa của phân tử như hydroxyl, halogen,carboxyl, nitro, ) [17, 93]
Theo quan điểm sinh hóa, một phân tử có tác dụng sinh học có 2 thành phầnchính: Khung phân tử đặc trưng cho tính chất lý hóa, còn nhóm chức quyết địnhhoạt tính sinh học [17, 93]
Theo quan điểm hiện đại, phân tử hợp chất là một thể thống nhất (gồm cácnguyên tử tạo khung phân tử, nhóm chức ) Tác dụng sinh học không những do
7
Trang 21cấu trúc phân tử trực tiếp quyết định mà còn gián tiếp chịu ảnh hưởng bởi các quátrình như hấp thụ, vận chuyển, phân bố hay chuyển hóa của phân tử trong cơ thểsinh vật [17, 93] Do đó, khi nghiên cứu mô hình liên quan giữa cấu trúc với tácdụng, cấu trúc với hoạt tính người ta không những phải khảo sát cấu trúc mà cònxem xét những yếu tố ảnh hưởng.
Mô tả cấu trúc phân tử: cấu trúc hóa học là sự sắp xếp trong không gian củacác nguyên tử trong lượng mô tả hay thông tin cấu trúc [17, 93]
Mức hình học: cấu trúc phân tử có thể được trình bày dưới dạng 2 chiều(thông tin cấu trúc gồm độ liên kết nguyên tử, cấu hình Z/E) hay 3 chiều (thông tincấu trúc gồm cấu hình tương đối cũng như cấu hình tuyệt đối) Các thông tin củacấu trúc 2 chiều (2D) và 3 chiều (3D) hữu ích cho nghiên cứu mối liên quan địnhlượng cấu trúc và tác dụng [17, 93]
Mức lập thể điện tử: đó là vật thể có thể tích và hình thù nhất định như cấutrúc lập thể có tính chất cơ động hay là cấu trúc lập thể với sự phân bố mật độ điện
tử của các nguyên tử [17, 93] Các thông tin cấu trúc bao gồm thể tích, diện tích bềmặt, sự thay đổi cấu dạng, sự phân bố điện tử, thế tĩnh điện phân tử, Các thôngtin này có thể có từ tính toán trên máy tính, đặc biệt là sử dụng các phương pháphóa lượng tử
Mức tương tác với môi trường: cấu trúc phân tử thể hiện hoạt tính, độc tính,điểm chảy, điểm sôi, khả năng solvat hóa, tính chất sắc ký, hệ số phân bố, độ tan, ápsuất tới hạn, v.v, trong môi trường sinh học [17, 93]
Cấu trúc phân tử ảnh hưởng đặc biệt quan trọng đối với hoạt tính sinh học,
đó là chìa khóa quan trọng để thiết lập mối quan hệ giữa cấu trúc và hoạt tính Sựphát triển của mối liên hệ này làm nền tảng để xây dựng các mô hình có khả năng
dự đoán Với một chuỗi các hợp chất có cấu trúc tương tự, có thể xây dựng các môhình quan hệ giữa cấu trúc - hoạt tính (QSAR) [17, 93]
8
Trang 221.3 TÍNH TOÁN THÔNG TIN CẤU TRÚC
1.3.1 Cơ học phân tử
Trong các phương pháp lý thuyết liên quan đến việc tối ưu hóa hình học củacấu trúc thì phương pháp cơ học phân tử (Molecular Mechanic - MM) khá thôngdụng Phương pháp MM có thể tính toán chính xác về cấu trúc hình học và nănglượng tương đối của các phân tử lớn vượt quá khả năng đối với các phương pháphóa lượng tử [25]
Năng lượng của phân tử trong trường được tính theo phương trình 1.1 [25]:
Trong đó: Eb là năng lượng do sự biến dạng liên kết; Ea là năng lượng do sựkhép mở góc liên kết; Et là năng lượng do sự xoay quanh liên kết; Ev là năng lượngtương tác van der Waals; Eh là năng lượng do liên kết hydrogen; Ee là năng lượngtương tác tĩnh điện
Giữa cấu trúc và năng lượng có sự liên quan mật thiết với nhau, do đó tối ưuhóa hình học của cấu trúc sẽ dẫn đến tối thiểu hóa năng lượng của phân tử [102].Quá trình này tạo một cấu trúc ứng với trạng thái năng lượng tối thiểu (tối ưu vềhình học hay bền về năng lượng) để từ đó có thể xem xét tọa độ của các nguyên tử
của phân tử Cấu trúc tối ưu về hình học hay bền về năng lượng có thể sử dụng để
tính toán phương pháp lượng tử: phương pháp nguyên lý ban đầu (ab-initio) hayphương pháp bán thực nghiệm [60] [100]
1.3.2 Cơ học lượng tử
Cơ học lượng tử (Quantum Mechanic - QM) là mô tả toán học chính xác củatrạng thái điện tử và tính chất hóa học Về lý thuyết, QM có thể dự đoán chính xácbất kỳ tính chất nào của từng nguyên tử hoặc phân tử [60, 100] Trong thực tế,phương pháp QM chỉ được giải quyết chính xác cho một hệ thống điện tử [60,100] Vô số các phương pháp đã được phát triển cách giải gần đúng cho các hệthống đa điện tử Hai phương trình QM được phát triển bởi Schrödinger vàHeisenberg Phương trình Schrödinger là phương trình cơ bản cho hầu hết cácphương pháp hóa tính toán [60, 100]
9
Trang 23Ĥ = E (1.2)
Trong phương trình Schrödinger Ĥ là toán tử Hamiltoni, là hàm sóng, E là
năng lượng Phương trình này được gọi là phương trình riêng được gọi là hàm trị
riêng, E là trị riêng.
Hàm sóng là hàm xác định vị trí của electron và hạt nhân Electron được
mô tả như một hàm sóng Nó mô tả xác suất của trạng thái điện tử Như vậy, nó có
thể mô tả xác suất tìm thấy các electron ở các vị trí nhất định, nhưng nó không thể
đoán chính xác vị trí điện tử Hàm sóng cũng được gọi là mật độ xác suất bởi vì
bình phương của hàm sóng là hàm xác suất Đây là ý nghĩa chính xác của hàm sóng
Để có được một giải pháp vật lý thích hợp có liên quan của phương trình
Schrödinger, hàm sóng phải liên tục, đơn trị [60, 100]
Với i2 là toán tử Laplac đối với hạt (p) i, các hạt gồm cả điện tử và hạt nhân,
mi và qi là khối lượng và điện tích hạt i, p là tổng số hạt, rij là khoảng cách giữa các
hạt Số hạng đầu tiên biểu thị cho động năng của hạt trong một phương trình sóng
Các số hạng bổ sung có thể xuất hiện trong toán tử Hamiltonion tương tác với bức
xạ điện từ hoặc trường được tính đến Trong phần mềm QSARIS hiện có, toán tử
Hamiltonion ở trên là gần như chưa từng được sử dụng Vấn đề có thể được đơn
giản hóa bằng cách tách các chuyển động hạt nhân và electron Điều này được gọi là
xấp xỉ Born – Oppenheimer Toán tử Hamilton cho một phân tử với các hạt nhân
Trang 2410
Trang 25Ở đây chỉ xét động năng của electron và lực hút giữa electron và hạt nhân và
lực đẩy của các điện tử Sự chuyển động của hạt nhân có thể được mô tả bằng cách xem
xét toàn bộ tính toán thế năng khi các hạt nhân di chuyển [60, 100]
Khi hàm sóng đã được xác định, bất kỳ thuộc tính nào của phân tử đều có thể
được xác định Điều này được thực hiện bằng cách tính giá trị mong muốn của toán
tử cho tính chất đó, được biểu thị bằng dấu ngoặc vuông < > Ví dụ, năng lượng là
giá trị kỳ vọng của toán tử Hamilton được đưa ra bởi:
* ˆ
(1.6)
E H
Đối với một hàm sóng gần đúng, có thể tính xấp xỉ năng lượng, đó là cơ sở
cho nhiều kỹ thuật được mô tả trong các tính toán khác Bằng cách thay thế các toán
tử khác, có thể có được các tính chất quan sát rõ ràng, chẳng hạn như moment lưỡng
cực hoặc mật độ electron Một cách khác để có được tính chất phân tử là sử dụng
định lý Hellmann-Feynman Định lý này khẳng định rằng các thuộc tính năng lượng
với tính chất P mong muốn được cho bởi:
Mối quan hệ này thường được sử dụng để tính toán tính chất electron Không
phải tất cả phương pháp xấp xỉ tuân theo định lý Hellmann-Feynman Chỉ các
phương pháp biến thể tuân theo định lý Hellmann-Feynman [60, 100]
1.3.3 Phương pháp bán thực nghiệm
Các phương pháp bán thực nghiệm sử dụng trong luận án gồm phương pháp
CNDO, INDO, MNDO, AM1, PM3, TNDO (Phụ lục 60) [60, 100]
Phương pháp QM dùng để tính toán các thông tin cấu trúc phân tử như: điện
tích (Qi), cấu trúc phổ NMR (i), tham số hóa lý, … Phương pháp hóa lượng tử
được chọn phải phù hợp với đối tượng nghiên cứu, mức độ chính xác, thời gian tính
toán cũng như kích thước của hệ [60, 100] Các tham số cấu trúc phân tử được tính
toán được đưa ra ở Phụ lục 58
11
Trang 261.4 CÁC MÔ HÌNH TOÁN HỌC
1.4.1 Hồi quy đa biến
Trong hồi quy, các biến số độc lập x và biến phụ thuộc y là các giá trị quan
sát Tương ứng với một giá trị của x chỉ có 1 giá trị y duy nhất lúc này y là hàm của
trị x trong các thí nghiệm có thể có các giá trị y khác nhau do ảnh hưởng của các yếu
tố khác Khi đó sự phụ thuộc được gọi là xác suất và các giá trị y là một hàm với các
giá trị ngẫu nhiên Nếu chỉ có trường hợp Y là biến ngẫu nhiên rời rạc và X là giá trị
rời rạc, để xác định y bằng cách sử dụng phân phối như ma trận sau:
Trong đó x k (k = 1, 2, …, m) là các giá trị có thể có của X, y i (i = 1, 2, , N) là
các giá trị có thể có Y và p i (x k ) là xác suất xuất hiện của y i nếu X = x k , với k bất kỳ,
ta có đẳng thức sau:
N
i 1
Giả sử Y/(X = x k ) là biến ngẫu nhiên tương ứng với giá trị của x k Phân bố
nằm trong cột thứ k của ma trận Các giá trị trung bình (M) của biến Y được tính:
N
i1
Và các giá trị X khác nhau, được xem như hàm g( X) M [Y/X] Hàm g(X)
được gọi là hàm hồi quy của Y đối với X.
Như đề cập ở phần trên cho trường hợp phụ thuộc ngẫu nhiên của biến Y với
nhiều biến độc lập X1, X2, …, X p , sự phân bố của Y trong trường hợp này được mô tả
Trang 27, , x k p ) , với xk j là các giá trị khác nhau của các biến X1,X2,
x2, …, X p = x p các giá trị trung bình của Y có dạng:
Để xây dựng hàm hồi quy của các biến ngẫu nhiên Y phụ thuộc X1, X2, …, X p,
trên thực tế điều đó là không thể, vì xác suất p i (x k1 , x k2 , …, x kp) thường không xác
định Vấn đề đặt ra là xây dựng hàm toán từ hàm g(X1, X2, …, X p), như hàm gˆ( X1 ,
X 2,X p ) được gọi là mô hình hồi quy tương quan với hàm g cho bởi phương trình
1.12 [51, 66]:
g( X1 , X 2 , X p ) gˆ( X1 , X 2 , X p ) e( X1 , X 2 , X p ) (1.12)
Với e(X1, X2, …, X p) là sai số của mô hình
Mô hình hồi quy được xây dựng trên cơ sở dữ liệu thống kê giữa biến phụ
thuộc Y trên X1, X2, …, X p Các giá trị quan sát được trình bày theo ma trận sau:
Mỗi hàng trong ma trận đại diện cho mỗi quan sát cụ thể (thí nghiệm) được
gọi là mẫu hoặc trường hợp Các biến độc lập đóng vai trò là một phần của biến dự
đoán, phụ thuộc vào giá trị của chúng, giá trị quan sát Y là các giá trị ngẫu nhiên
khác nhau [51, 66] Vấn đề chọn dạng của hàm gˆ( X1,X2,X p) (hoặc thuật toán để
tính toán) để xây dựng mô hình hồi quy là khó khăn nhất Việc chọn mô hính hồi
quy phải thỏa mãn hai yếu tố sau:
Trang 2813
Trang 291 Hàm mô phỏng gˆ( X1,X2, X p) phải đại diện được cho hàm hồi quy.
2 Việc tính toán các giá trị của hàm phải dựa trên khả năng đáp ứng của nguồn
dữ liệu tính toán có sẵn
Nếu mô hình gˆ( X1,X2, X p ) được chọn, giá trị của nó trong trường hợp thứ
k bằng yˆ kgˆ(x k1,x k2 ,x kp) và được xem là giá trị dự đoán của y k Sự khác biệt giữa
y k và yˆ k là độ lệch (sai số): y kyˆ ke k
Các biến độc lập X1, X2, …, X p ở trên đã được xác định Khi nhiều thí nghiệm
được thực hiện, các biến độc lập có các giá trị khác nhau (cột trong ma trận) Vì
vậy, có thể xem các biến này là biến ngẫu nhiên và giá trị dự báo Y1, Y2, …, Y p là
dựa trên các biến ngẫu nhiên [51, 66] Theo quan điểm toán học, điều quan trọng
không phải các giá trị dự đoán là ngẫu nhiên hay không Trong tất các các tính toán,
các giá trị dự đoán có tính chất tổng quát Nó giải thích các số hạng cụ thể cho các
giá trị ngẫu nhiên được chuyển sang các giá trị dự đoán xác định Hơn nữa chúng ta
không chú ý đến các giá trị dự đoán sử dụng
Các giá trị dự đoán và giá trị quan sát ngẫu nhiên Y, các tham số của các mô
hình được tìm thấy là kết quả của kinh nghiệm lấy mẫu ngẫu nhiên Vì vậy các tham
số của mô hình gˆ( X1,X2,X p) cũng được coi là biến ngẫu nhiên [51, 66]
Dạng đơn giản và phổ biến nhất được sử dụng trong mô hình hồi quy tuyến
tính là:
yˆ b0 b1 1 ( X1 , X 2 , X p ) b2 2 ( X1 , X 2 , X p ) b q
Ở đây i(X1 ,X2 , X p ) là các hàm cơ bản và b ilà các hệ số (hoặc các yếu
tố) tính được sao cho mô hình được xây dựng tốt nhất
Trong thực tế, nếu có nhiều biến độc lập, mô hình tuyến tính của dạng:
yˆ b0 b1 X1 b2 X 2 b p X p, (1.14)Với b0 được gọi là hệ số tự do trong mô hình
14
Trang 30Hình 1.3 Mô hình hồi quy tuyến tính với (p = 2) [51, 66]
Việc lựa chọn các hệ số hồi quy b k đảm bảo tính thích hợp lớn nhất cho mô
hình tuyến tính được xây dựng Để giải quyết vấn đề này, phương pháp tốt sử dụng
phương pháp bình phương cực tiểu Lúc này hệ số b k được tìm kiếm từ một điều
kiện để giảm thiểu tổng bình phương độ chênh lệch giữa các giá trị quan sát được và
dự đoán của biến phụ thuộc:
Khi p = 2 minh họa hình học đơn giản của phương pháp bình phương cực
tiểu Hình 1.3 Ví dụ, hình ảnh trên cho thấy không gian tiếp cận sự phụ thuộc giữa
hai biến độc lập X1, X2 và biến phụ thuộc Y.
Hồi quy thường là phương pháp đơn giản nhất trong phân tích hồi quy Nó
được sử dụng để giải quyết các trường hợp với số lượng biến độc lập nhỏ, không
tương quan chặt chẽ [51, 66] Tuy nhiên, phương pháp này tạo cơ sở để hiểu các
phương pháp hồi quy khác phức tạp hơn Chúng ta hãy xem xét các ma trận sau đây
đại diện cho các kết quả quan sát:
Trang 31Với X j là cột thứ j được xem là vec tơ dự đoán và Y là vec tơ biến phụ thuộc.
Giá trị trung bình được tính cho mỗi biến X j theo phương trình:
Các hệ số tương quan này tạo thành một ma trận tương quan mẫu
Cột thứ nhất X0 được đưa vào trong ma trận nếu một hệ số trong (1.14) khác
không Giả sử bỏ qua cột X0 Có thể thu được bằng cách căn giữa các dữ liệu theo
cách sau: x ijx ijx j , với x j là giá trị trung bình của biến x j
Cách đơn giản nhất để hiểu được bản chất của hồi quy đa biến thường là xem
xét một ví dụ đơn giản với p = 2 và N = 3 với minh họa hình học cụ thể.
Xét ma trận X = (X1 X2) trong đó bao gồm các vec tơ trung tâm dự đoán và
vector Y là một vec tơ trung gian dự đoán Chúng ta có:
Chiều dài này là cực tiểu nếu véc tơ e trực giao với không gian P, nghĩa là
trực giao với vec tơ X1, X2 Điều kiện trực giao có dạng sau:
Trang 3216
Trang 33X j (Y yˆ) 0, ( j 1, 2) , hay X (Y XB) 0 (1.21)Với X j là vec tơ chuyển vị của X j (vec tơ hàng) và X là ma trận chuyển vị
Giá trị trung bình của ma trận C tỷ lệ thuận với ma trận hiệp phương sai của
ma trận vec tơ dự báo X j
Yếu tố c ij của ma trận C là các yếu tố trong của ma trận X i,X j Vì vậy c ii
bằng chiều dài của vec tơ X i Ta có:
Vì vậy, góc giữa hai vec tơ X i ,X j (Hình 1.4) nghĩa là c ij / c ii c jj gần 1 (tức
là có tương quan mạnh mẽ giữa các giá trị dự đoán) Ngược lại, nếu X i , X j không
tương quan, thì các vec tơ tương ứng trực giao Trường hợp này xảy ra khi các vec tơ X
1 , X 2 , , X l , (l N ) nằm trong không gian siêu phẳng (hiện tượng đa cộng tuyến), hiện tượng đa cộng tuyến dẫn đến sự suy biến của ma trận C và kết quả là khó khăn trong
thiết lập phương trình (1.23)
17
Trang 34tính theo phương trình sau:
(1.24)Công thức cho hệ số hồi quy (1.24) đúng trong trường hợp số lượng biến
trong mô hình bằng p Xác định hệ số b k được coi là ước lượng thống kê của các hệ
số ngẫu nhiên của hệ số b k trong mô hình tuyến tính (1.14) Một số trường hợp b k
ước tính với giá trị nhỏ ( b k 0 ) Điều đó chỉ ra rằng b k = 0 (biến không phụ thuộc
biến X k ) và giá trị b k khác không, được xác định từ dữ liệu nhiễu ban đầu Vì vậy,
cần kiểm tra mức độ ý nghĩa của biến X k (hoặc của hệ số B k) trong mô hình được
xem xét [51, 66] Theo quan điểm thống kê, có nghĩa là cần kiểm tra giả thuyết H0: [
b k = 0] Cách đơn giản nhất để minh họa cho nguyên tắc chung của việc kiểm tra
một giả thuyết như vậy là đưa ra một ví dụ về một mô hình một chiều Y b1 X 1 ,
với X1 và Y là các giá trị trung bình có ý nghĩa [51, 66] Về mặt hình học các giá trị
quan sát là ngẫu nhiên, các vectơ X1 và Y có thể không hoàn toàn trực giao, sẽ dẫn
đến một hệ số hồi quy khác không b1 (Hình 1.5).
Nếu giả thuyết H0 đúng, góc nhỏ Độ lớn của góc này có thể được ước
Trang 3518
Trang 36Hình 1.5 Ý nghĩa của hệ số hồi quy [51, 66]
Tuy nhiên, trong thống kê, xem xét bình phương trung bình sẽ thuận tiện
hơn, có nghĩa là tính tổng của bình phương theo bậc tự do được xem xét
Bậc tự do DF đặc trưng số lượng các tham số độc lập, ảnh hưởng đến độ lớn của tổng bình phương Với tổng bình phương hồi quy SS(hồi quy) độ tự do hồi quy
DF(hồi quy) bằng 1, vì tổng yˆN i2
N-2 Do đó, độ lệch của vector Y trực giao với vector X, (tức là giả thuyết H 0 :[B k
0] đúng),theo thống kê sau đây[51, 66]:
F SS ( hoiquy ) / DF ( hoiquy )
SS ( hoiquy)
(1.26)
SS ( du ) / DF ( du ) SS ( du ) / ( N 2)
Thống kê này được gọi là chuẩn F
Chúng ta hãy xem xét các giả định sau liên quan đến các biến ngẫu nhiên
e i y i yˆ i :
Vì vậy chuẩn F có phân bố F với (1, N-2) bậc tự do.
19
Trang 37Nếu giả định H0 với b1 bằng 0 là đúng F lớn với xác xuất bé Chúng ta có thể
chỉ định giới hạn DF(α), có thể vượt quá tiêu chí ), có thể vượt quá tiêu chí F chỉ với một xác suất nhỏ Nếu
giá trị của thống kê F, được tính theo công thức (1.26), lớn hơn DF(α), có thể vượt quá tiêu chí ), nó có nghĩa
là giả thuyết H0 sai, các hệ số hồi quy b1 có ý nghĩa [51, 66]
Kiểm tra ý nghĩa biến có thể được khái quát theo các cách khác nhau trong
trường hợp có nhiều biến Một trong những biến thể của khái quát này đang xem xét
một phần thử nghiệm F-test.
Hình 1.6 Giải thích F-test [51, 66]
Giả sử rằng phương trình hồi quy với hai biến thu được bằng phép chiếu
chính xác của vector Y trong không gian được kéo dài qua các vectơ X1 ,X2 (Hình
1.5) Phương trình hồi quy này như sau:
Trong trường hợp này, tổng bình phương các giá trị hồi quy bằng với bình
phương của vector được xác định bởi các hệ số b1(1),b2(1) :
b1(2)X1 , với yˆ( 2) thu được bằng phép chiếu của véc tơ Y đến vec tơ X1
(Hình 1.6) Khi đó, hệ số b1( 2) khác hệ số b1(1) Khi vec tơ X1 và X2 trực giao (tức là
X1 X2 0 ), điều đó là ngoại lệ, khi đó b1( 2)b1(1) Tổng bình phương do giá trị dự
20
Trang 38đoán từ hồi quy trong trường hợp thứ hai bằng với chiều dài bình phương của véc
tơ yˆ ( 2)được xác định bởi hệ số b1( 2).Tổng bình phương này có dạng sau:
SS(b(2) ) yˆ (2) 2 b(2) X
1
Số bình phương phần dư bằng hiệu giữa tổng bình phương trong trường hợp
thứ nhất và thứ hai (nó là hiệu bình phương yˆ (1)
yˆ ( 2) Hình 1.6) [51, 66] Giá trị
này gọi là ‘tổng bình phương b2 và b1’ theo phương trình:
Có nghĩa là SS(b2 | b1 ) mô tả tổng dư X2 trong mô hình hồi quy hoặc ý nghĩa
của hệ số hồi quy b2 Kiểm tra ý nghĩa thống kê của hệ số b2 (nghĩa là kiểm tra giả
thuyết H 0 :[B2 0] ) với kiểm định F-test trong trường hợp cụ thể này được gọi là
một phần F 2/1 -test và có dạng sau [51, 66]:
F SS (b2 | b1 ) / DF (b2 | b1 )
SS (b2 | b1 ) / (2 1)
(1.31)2/1
SS ( du ) / DF ( du ) SS ( du ) / ( N 2)
Nói chung, hai mô hình được xem xét tương ứng với các biến sau:
X1 , X 2 , , X p và X1 , X 2 , , X q (q<p) Tổng bình phương b q1, ,b p thu được từ
b1 , , b q bằng:
SS (b
q1
, , b p
Thống kê F (q1, , p) /(1, , q) có phân bố sau đây: F(p-q, N-p), để có thể kiểm tra giả
thuyết H 0:[B q1B p 0] tại α), có thể vượt quá tiêu chí Giá trị BF(α)) có thể được tính toán bởi một
hàm chuẩn trong Microsoft Excel FDISTINV( ; p-q; N-p) F được sử dụng trong
hồi quy từng bước để thăm dò các biến quan trọng [51, 66]
Một phương pháp ước lượng các hệ số hồi quy là tính các khoảng tin cậy
Lúc này kiểm định t tính đối với hệ số b k theo công thức:
Trang 3921
Trang 40Với a kk là một phần tử chéo của ma trận A Ma trận A là ma trận nghịch đảo
của ma trận CX X của đánh giá chéo độ lệch các biến [51, 66]
Hệ số b k là một giá trị mẫu của biến ngẫu nhiên B k Khoảng tin cậy cho biến
ngẫu nhiên B k có thể được tính theo biểu thức sau đây:
Với t là một phần tư của thứ tự (1
2 ) với t-distribution (phân phối Student) với độ tự do N-1.
Nếu khoảng tin cậy này chứa a điểm 0, khi đó hệ số b k có nghĩa Điều kiện 0[bk
t SE(b k );b k t SE(b k )] tương đương với : t(b k ) t Khi đó hệ số b k có thể
được coi là quan trọng ở một giá trị khá lớn t(b k), cụ thể là, khi chúng ta có các điều
Phương pháp tính toán phân tích hồi quy cho một biến phụ thuộc dựa trên
một tập hợp các thành phần chính được tính toán từ các biến độc lập Phương pháp
thành phần chính hữu ích khi các biến độc lập đa lớp hoặc tương quan cao với nhau
Điều này thường có thể được biết khi thực hiện một số chương trình hồi quy khác
Sự đa cộng tuyến giữa các biến độc lập cho thấy sự tương quan giữa chúng Sự
tương quan này được tính thông qua các điểm riêng của ma trận hiệp phương sai
hoặc ma trận chéo [52, 107]
22