Công trình này, chúng tôi đã xác định được cấu trúc và thử hoạt tính pGI50 in vitro đối với 6 hợp chất flavonoid phân lập từ lá tía tô, lá xa kê, lá actiso, hạt đậu nành và củ gừng gió. Chúng tôi đã tính toán và sàng lọc được các tham số mô tả cấu trúc phân tử như tham số điện tích, tham số độ dịch chuyển hóa học, tham số 2D, 3D ảnh hưởng chính đến hoạt tính kháng ung thư của các dẫn xuất flavonoid. Chúng tôi đã xây dựng thành công các mô hình QSAR.
Trang 1i
LỜI CAM ĐOAN
Tôi cam đoan luận án này là kết quả nghiên cứu thực sự của cá nhân dưới sự hướng dẫn của PGS.TS Phạm Văn Tất, trường Đại học Hoa Sen và PGS TS Trần Dương, trường Đại học Sư Phạm – Đại học Huế
Luận án được thực hiện tại trường Đại học Khoa Học – Đại học Huế Chưa từng
có kết quả nghiên cứu tương tự được công bố dưới bất cứ hình thức nào trước khi thực hiện luận án Một phần kết quả của công trình này đã được công bố trên: Tạp chí Hóa học và Ứng dụng, Tạp chí Hóa học, Tạp Chí Khoa học và Công nghệ - trường Đại học Khoa học – Đại học Huế, Tạp chí Đại học Huế, Tạp chí Computational Chemistry, Cogent Chemistry, Taylor Francis, Tạp chí Organic & Medicinal Chemistry International Journal (OMCIJ), Tạp chí Natural products research
Ký tên
Bùi Thị Phương Thúy
Trang 2ii
LỜI CẢM ƠN
Để hoàn thành luận án trước hết em xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Phạm Văn Tất, Trường Đại học Hoa Sen; PGS TS Trần Dương, Trường Đại học
Sư Phạm Huế đã giao đề tài, hướng dẫn trực tiếp và truyền đạt những kinh nghiệm
và kiến thức quý báu, tận tình chỉ dẫn, động viên và tạo mọi điều kiện thuận lợi giúp
đỡ em hoàn thành luận án này
Em xin gửi lời cảm ơn chân thành đến GS.TS Trần Thái Hòa, TS Trần Xuân Mậu, TS Nguyễn Thị Ái Nhung - Khoa Hóa, Trường Đại học Khoa Học Huế Các thầy cô đã giúp đỡ, động viên và chỉ dạy nhiều kiến thức quý báu trong quá trình
em học tập tại trường
Em xin gửi lời cảm ơn các Thầy Cô trong Khoa Hóa, các Thầy Cô trong Khoa Sau đại học và toàn thể Ban Giám hiệu Trường Đại học Khoa Học Huế đã cho phép
và tạo mọi thuận lợi cho em hoàn thành luận án này
Em xin gửi lời cảm ơn đến TS Phùng Văn Trung, TS Hoàng Thị Kim Dung Viện Hoá học – Viện Hàn lâm Khoa học và Công nghệ Việt Nam TP Hồ Chí Minh
đã giúp đỡ em trong quá trình làm luận án
Em xin gửi lời cảm ơn đến PGS.TS Nguyễn Hùng Huy, Khoa Hoá, Trường Đại học Khoa học Tự Nhiên – ĐHQGHN đã giúp đỡ, tận tình chỉ dẫn em trong quá trình làm luận án
Tôi xin gửi lời cảm ơn chân thành gia đình, bạn bè đã động viên, giúp đỡ cho tôi hoàn thành luận án này
Ký tên
Bùi Thị Phương Thúy
Trang 3iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
ANOVA Phân tích phương sai
dd Mũi đôi của mũi đôi (duplet of duplet)
DEPT Phổ DEPT (Distortionless Enhancement by Polarisation Transfer) DMSO Dimethyl sulfoxide (CH3)2S=O
Exp Thực nghiệm (Experiment)
EtOAc Ethyl acetate (CH3COOC2H5)
E-State Trạng thái điện tử (electrotopological state)
GI50 Nồng độ thuốc ức chế 50% sự phát triển của tế bào gây ung thư
(50% Growth Inhibition) pGI50 pGI50= -log(GI50)
pGI50,exp Giá trị pGI50 thực nghiệm
pGI50,pr Giá trị pGI50 dự đoán
HMBC Phổ tương tác đa liên kết hai chiều dị hạt nhân (Heteronuclear
Multiple Bond Vorrelation)
HSQC Phổ tương tác hai chiều trực tiếp dị hạt nhân (heteronuclear single
quantum coherence) HPV Vi rút u nhú ở người (Human Papillomavirus)
IR Phổ hồng ngoại (Infrared Spectroscopy)
Trang 4iv
LV Biến ẩn (Latent Variables)
LogP Giá trị logarit hệ số phân tán
Linear Tuyến tính
MM+ Phương pháp cơ học phân tử MM
MSE Sai số trung bình bình phương (Mean Squared Error)
MS Phổ khối (mass spectrometry)
MetOH methanol (CH3OH)
Nonlinear Phi tuyến tính
NMR Phổ cộng hưởng từ hạt nhân
OD Phương pháp đo mật độ quang (Optical Density)
PCA Phân tích thành phần chính (Principal Components Analysis) PCR Hồi qui thành phần chính (Principal Components Regression) PLS Bình phương cực tiểu riêng phần (Partial Least Squares)
QSPR Quan hệ định lượng cấu trúc - tính chất
(Quantitative Structure - Property Relationship)
QSAR Quan hệ định lượng cấu trúc - hoạt tính
(Quantitative Structure - Activity Relationship)
QESAR Quan hệ định lượng giữa cấu trúc điện tử và hoạt tính sinh học
(Quantitative Electronic Structure - Activity Relationship)
QSDAR Quan hệ định lượng giữa cấu trúc phổ NMR và hoạt tính sinh học
(Quantitative Spectrum Data - Activity Relationship)
QSSR Quan hệ định lượng cấu trúc - cấu trúc
(Quantitative Structure - Structure Relationship)
Q2 Hệ số tương quan đánh giá chéo (Cross-validation correlation
Trang 5v
R2 ad R2hiệu chỉnh
Rf Hệ số lưu giữ (Retention Factor)
SAR Quan hệ cấu trúc hoạt tính (Structure - Activity Relationship)
TCA Trichloroacetic acid
UV Phổ UV (Ultraviolet Spectroscopy)
Trang 6Bảng 3.10 Giá trị thống kê và các mô hình QESAR MLR (với k = 5 - 7) 72 Bảng 3.11 Giá trị thống kê và giá trị đóng góp GMP m x i,% của nguyên tử trong các mô hình QESAR MLR (với
k = 5 – 7) 73
Bảng 3.12 pGI 50 của nhóm kiểm tra dự đoán từ mô hình QESAR MLR , QESAR ANN 75 Bảng 3.13 Các mô hình QSDAR MLR và các giá trị thống kê 76 Bảng 3.14 Giá trị thống kê, các hệ số và phần trăm đóng góp của các độ dịch chuyển hóa học i trong các mô hình QSDAR MLR 77 Bảng 3.15 Hoạt tính pGI 50,pr của các dẫn xuất kiểm tra và các giá trị ARE,% từ các mô hình QSDARMLR (với
k = 7) và QSDARANN với kiến trúc I(7)-HL(2)-O(1) 79 Bảng 3.16 Mối tương quan của các hợp chất sử dụng mô tả điện tích nguyên tử 81 Bảng 3.17 Tính chất hóa lý và hoạt tính kháng ung thư pGI 50 của các hợp chất nghiên cứu bằng mô hình QSSR MLR và các chất dùng để dự đoán 82 Bảng 3.18 Các mô hình QSAR MLR (k từ 2 đến 10) với các giá trị R2, R2
pred và MSE 86
Bảng 3.19 Các giá trị thống kê và giá trị phần trăm đóng góp MPmx i ,% và GMPmx i,% đối với các tham số mô
tả phân tử 2D và 3D trong các mô hình QSAR MLR (với k là 8, 9 và 10) 87 Bảng 3.20 Hoạt tính sinh học pGI 50 của nhóm kiểm tra từ các mô hình QSAR MLR (3.16) và QSAR ANN(1) 90 Bảng 3.21 Các mô hình QSAR MLR (k từ 2 đến 10) với các giá trị R2, R2
pred và MSE 91
Bảng 3.22 Các giá trị thống kê và phần trăm đóng góp MP m x i ,%, GMP m x i,% của các tham số mô tả phân tử 2D, 3D trong các mô hình QSAR MLR (với k bằng 5, 6, 7) 92 Bảng 3.23 Hoạt tính sinh học pGI50 của nhóm kiểm tra từ các mô hình QSAR MLR (3.17), QSAR PCR và QSAR PCA-ANN 95 Bảng 3.24 Các mô hình QSAR MLR với các giá trị R2
tr, SE và R2
pr tương ứng 97
Bảng 3.25 Các giá trị thống kê và phần trăm đóng góp MP m x i ,%, GMP m x i,% của điện tích nguyên tử trong các mô hình QSAR MLR 99 Bảng 3.26 Hoạt tính pGI 50 trong nhóm kiểm tra dự đoán từ các mô hình QSAR MLR (3.19), QSAR PLS (3.20) và QSAR ANN(2) 100 Bảng 3.27 Phần trăm gây độc tế bào GI 50 (µg/ml) của các mẫu khảo sát trên dòng tế bào Hela ở các nồng độ
khác nhau 112
Trang 7vii
Bảng 3.28 Giá trị GI 50 (µg/ml) và pGI 50 của các mẫu flavonoid khảo sát từ thực nghiệm in vitro 113
Bảng 3.29 Hoạt tính pGI 50 của các flavone và isoflavone mới được dự đoán từ mô hình QESAR MLR và QESAR ANN 114 Bảng 3.30 Hoạt tính pGI 50 của flavone và isoflavone mới được thiết kế và dự đoán từ mô hình QSDAR MLR
(M1) và QSDAR ANN (M2) 116 Bảng 3.31 Tính chất hóa lý và giá trị hoạt tính kháng ung thư pGI 50 của nhóm dẫn xuất flavone và isoflavone tương tự được nghiên cứu từ mô hình QSSR MLR 118 Bảng 3.32 Giá trị pGI 50,pr từ 3 mô hình QSSR MLR , QSEAR MLR và QSDAR MLR 119
Bảng 3.33 Nhiệt độ nóng chảy thực nghiệm và dự đoán từ mô hình QSSR MLR của các dẫn xuất flavonoid chiết xuất 120 Bảng 3.34 Hoạt tính sinh học pGI 50 của hai hợp chất phân lập ZZL1, ZZL2 từ các mô hình QSAR MLR (3.16)
và QSAR ANN (1) 121 Bảng 3.35 Hoạt tính GI 50 (µM) của 10 hợp chất mới nhận được từ mô hình QSAR ANN(1 122
Bảng 3.36 Hoạt tính sinh học pGI50 của nhóm kiểm tra và hai hợp chất phân lập luteolin và daidzin từ các mô
hình QSAR MLR (3.18), QSAR PCR và QSAR PCA-ANN 123
Bảng 3.37 Hoạt tính kháng ung thư pGI50 của 5 hợp chất mới được dự đoán từ mô hình QSAR PCA-ANN ) 124 Bảng 3.38 Hoạt tính pGI 50 trong nhóm kiểm tra dự đoán từ các mô hình QSAR MLR (3.19), QSAR PLS (3.20) và QSAR ANN (2) 125 Bảng 3.39 Hoạt tính kháng ung thư pGI 50 của 5 hợp chất mới thiết kế bằng cách gắn nhóm thế vào vị trí C 6 ,
C 3’ của quercetin, dự đoán từ mô hình QSAR ANN(2) 125
Trang 8viii
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Mối liên quan định lượng cấu trúc, tính chất, độ phản ứng, hoạt tính 7
Hình 1.2 Giản đồ Venn mối liên quan định lượng cấu trúc và tác dụng [93] 7
Hình 1.3 Mô hình hồi quy tuyến tính với (p = 2) [51, 66] 15
Hình 1.4 Hồi quy đa biến thường với p = 2, N = 3 [51, 66] 18
Hình 1.5 Ý nghĩa của hệ số hồi quy [51, 66] 19
Hình 1.6 Giải thích F-test [51, 66] 20
Hình 1.7 Hồi quy thành phần chính với p = 2, N = 3 [52, 107] 24
Hình 1.8 Thành phần chính với p = 2 [51, 106] 27
Hình 1.9 Hồi quy PLS với p = 2, N = 3 [51, 106] 30
Hình 1.10 Sơ đồ giải thuật di truyền [10] 34
Hình 1.11 Chọn lựa thế hệ cha mẹ (Pk ) theo phương pháp bánh xe lăn [76] 36
Hình 1.12 Chọn lựa thế hệ cha mẹ (P k) theo phương pháp xếp hạng tuyến tính [76] 36
Hình 1.13 Toán tử chéo đơn điểm [76] 37
Hình 1.14 Toán tử chéo hai điểm [76] 37
Hình 1.15 Hệ thống thần kinh sinh học tự nhiên 40
Hình 1.16 Hoạt động mạng thần kinh nhân tạo [50] 41
Hình 1.17 Cấu trúc mạng nơ ron [101] 42
Hình 1.18 Quá trình học của mạng nơ ron [16] 43
Hình 1.19 Mô hình tính toán một nơ ron [69, 77] 44
Hình 1.20 Cấu khung flavonoid và quy ước đánh số [74] 47
Hình 1.21 Một số dẫn xuất flavonoid [20, 74] 47
Hình 2.1 Sơ đồ nghiên cứu tổng quát 51
Hình 2.2 Nguyên liệu sử dụng phân lập flavonoid [2] 54
Hình 2.3 Xây dựng các mô hình hồi quy đa biến 56
Hình 2.4 Quy trình phân lập các dẫn xuất flavonoid [3, 59] 57
Hình 3.1 Sự giảm năng lượng phân tử theo mức gradient 64
Hình 3.2 Ảnh hưởng của k đến R2 và SE 67
Hình 3.3 Giá trị đóng góp trung bình toàn cục GMP m x i 72
Hình 3.4 Mối tương quan giữa các hợp chất: a) sử dụng điện tích; b) sử dụng tính chất hóa lý 81
Hình 3.5 Quan hệ giữa tính chất hóa lý dự đoán và dữ liệu thực nghiệm 85
Hình 3.6 a) Hồi quy tuyến tính đa biến và b) giá trị pGI 50 và pGI 50,pred của flavonoid trong nhóm kiểm tra 88
Hình 3.7 Tính chất của các thành phần chính và tương quan giữa giá trị pGI 50 94
Hình 3.8 Cấu trúc phân tử CSL1, C12 H 20 O 11 102
Hình 3.9 Cấu trúc phân tử AIL1, C 15 H 10 O 7 103
Hình 3.10 Cấu trúc POL1, C 15 H 10 O 6 104
Hình 3.11 Cấu trúc phân tử của GML1, C 21 H 20 O 9 106
Hình 3.12 Cấu trúc phân tử của daidzin dưới dạng elipxoit với xác xuất 50% 107
Trang 9ix
Hình 3.13 Cấu trúc phân tử của ZZL1, C 16 H 12 O 6 108
Hình 3.14 Cấu trúc phân tử của ZZL1 dưới dạng elipxoit với xác xuất 50% 109
Hình 3.15 Cấu trúc phân tử của ZZL2 (C 25 H 24 O 12 ) 110
Hình 3.16 Hoạt tính pGI50,pr dự đoán từ mô hình tuyến tính QESAR MLR của các flavone, isoflavone mới và chất mẫu 113
Hình 3.17 Cấu trúc dược chất trong cây nghể (Polygonum hydropiper) [2] 117
Hình 3.18 Cấu trúc dược chất trong cây hoàng cầm (Scutellaria baicalensis) [2] 117
Hình 3.19 Các giá trị pGI50 của hợp chất mới với hợp chất mẫu a) ZZL1, b) ZZL2 122
Hình 3.20 So sánh giữa các giá trị pGI 50 của năm flavonoid mới với chất mẫu a) POL1; b) GML1 123
Hình 3.21 So sánh giữa các giá trị pGI 50 của năm flavonoid mới với chất mẫu a) AIL1; b) CSL1 126
Trang 10x
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ viii
MỤC LỤC x
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN TÀI LIỆU 4
1.1 BỆNH UNG THƯ CỔ TỬ CUNG 4
1.1.1 Các nguyên nhân gây ung thư 4
1.1.2 Điều trị 5
1.1.3 Phòng ngừa 6
1.2 LIÊN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH 6
1.3 TÍNH TOÁN THÔNG TIN CẤU TRÚC 9
1.3.1 Cơ học phân tử 9
1.3.2 Cơ học lượng tử 9
1.3.3 Phương pháp bán thực nghiệm 11
1.4 CÁC MÔ HÌNH TOÁN HỌC 12
1.4.1 Hồi quy đa biến 12
1.4.2 Hồi quy thành phần chính 22
1.4.3 Bình phương tối thiểu riêng phần 25
1.4.4 Giải thuật di truyền 31
1.4.5 Mạng thần kinh nhân tạo (ANN) 39
1.4.5.1 Khái niệm 39
1.4.5.2 Cấu trúc mạng 40
1.4.6 Thống kê đánh giá mô hình 45
1.4.7 Tính toán đóng góp của các tham số 46
1.5 HỢP CHẤT FLAVONOID 46
1.5.1 Giới thiệu chung 46
1.5.2 Phân loại dẫn xuất flavonoid 47
Trang 11xi
1.5.3 Phân bố flavonoid trong tự nhiên 48
1.5.4 Hoạt tính sinh học của flavonoid 48
1.6 PHÂN LẬP VÀ XÁC ĐỊNH CẤU TRÚC FLAVONOID 50
1.6.1 Phân lập flavonoid 50
1.6.2 Xác định cấu trúc flavonoid 50
1.6.3 Thử hoạt tính in vitro của flavonoid tự nhiên 50
CHƯƠNG 2 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 51
2.1 SƠ ĐỒ NGHIÊN CỨU 51
2.2 CƠ SỞ DỮ LIỆU, NGUYÊN LIỆU VÀ PHƯƠNG PHÁP 52
2.2.1 Xây dựng cơ sở dữ liệu thông tin phân tử 52
2.2.2 Nguyên liệu và phương pháp 52
2.2.2.1 Phần mềm ứng dụng 52
2.2.2.2 Hóa chất, thiết bị 52
2.2.2.3 Nguyên liệu 53
2.3 NGHIÊN CỨU LÝ THUYẾT 54
2.3.1 Phương pháp tính toán thông tin cấu trúc 54
2.3.1.1 Cơ học phân tử 54
2.3.1.2 Hóa lượng tử 54
2.3.1.3 Các tham số cấu trúc 55
2.3.2 Xây dựng các mô hình QSAR 55
2.4 SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN 56
2.4.1 Phân lập các hợp chất flavonoid 56
2.4.2 Xác định cấu trúc hóa học các hợp chất flavonoid 58
2.4.2.1 Phương pháp phổ cộng hưởng từ hạt nhân 58
2.4.2.2 Đo nhiễu xạ tia X đơn tinh thể 59
2.4.3 Kỹ thuật thử hoạt tính in vitro 59
2.4.3.1 Nguyên tắc phương pháp Sulforhodamine B 59
2.4.3.2 Nuôi cấy tế bào 60
2.4.3.3 Nhuộm SRB 61
2.4.3.4 Xử lý kết quả 61
2.4.3.5 Xác định GI 50 61
2.5 THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CỦA FLAVONOID 62
CHƯƠNG 3 KẾT QUẢ & THẢO LUẬN 63
Trang 12xii
3.1 NGHIÊN CỨU LÝ THUYẾT 63
3.1.1 Tính toán thông tin cấu trúc 63
3.1.1.1 Khảo sát phương pháp cơ học phân tử 63
3.1.1.2 Khảo sát phương pháp hóa lượng tử 64
3.1.2 Tham số cấu trúc và tính chất phân tử 65
3.1.2.1 Điện tích 65
3.1.2.2 Phổ 13 C-NMR, 15 O-NMR và độ dịch chuyển hóa học 66
3.1.2.3 Tham số hóa lý 66
3.1.2.4 Tham số hình học 2D, 3D 66
3.2 XÂY DỰNG MÔ HÌNH QSAR 66
3.2.1 Khảo sát các biến số mô hình 66
3.2.2 Xây dựng các mô hình QESAR 70
3.2.2.1 Mô hình tuyến tính QESAR MLR 70
3.2.2.2 Mô hình mạng thần kinh QESAR ANN 74
3.2.2.3 Kiểm tra khả năng dự đoán 75
3.2.3 Xây dựng các mô hình QSDAR 75
3.2.3.1 Mô hình tuyến tính QSDAR MLR 75
3.2.3.2 Mô hình mạng thần kinh QSDAR ANN 78
3.2.3.3 Kiểm tra khả năng dự đoán 78
3.2.4 Xây dựng mô hình QSSR MLR 79
3.2.4.1 Nguyên tắc xây dựng 79
3.2.4.2 Tính toán các tham số hóa lý 80
3.2.4.3 Xây dựng mô hình 80
3.2.4.4 Kiểm tra khả năng dự đoán 84
3.2.5 Xây dựng mô hình QSAR MLR (3.16) và QSAR ANN(1) 85
3.2.5.1 Dữ liệu 85
3.2.5.2 Xây dựng mô hình QSAR MLR (3.16) 85
3.2.5.3 Xây dựng mô hình QSAR ANN(1) 89
3.2.5.4 Khả năng dự đoán của mô hình QSAR MLR (3.16) và QSAR ANN(1) 90
3.2.6 Xây dựng mô hình QSAR MLR (3.17), QSAR PCR (3.18) và QSAR PCA-ANN 91
3.2.6.1 Dữ liệu 91
3.2.6.2 Xây dựng mô hình QSAR MLR (3.17), QSAR PCR (3.18) 91
3.2.6.3 Xây dựng mô hình QSAR PCA-ANN 94
3.2.6.4 Khả năng dự đoán của các mô hình 95
Trang 13xiii
3.2.7 Xây dựng mô hình QSAR MLR (3.19), QSAR PLS (3.20) và QSAR ANN(2) 96
3.2.7.1 Dữ liệu 96
3.2.7.2 Xây dựng mô hình QSAR MLR (3.19) và QSAR PLS (3.20) 96
3.2.7.3 Xây dựng mô hình QSAR ANN(2) 99
3.2.7.4 Dự đoán hoạt tính sinh học của các hợp chất mới 100
3.3 SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN 101
3.3.1 Phân lập cynaroside từ actiso 101
3.3.2 Phân lập quercetin từ xa kê 102
3.3.3 Phân lập luteolin từ tía tô 103
3.3.4 Phân lập daidzin từ đậu nành 105
3.3.4.1 Xác định cấu trúc daidzin bằng phương pháp NMR 105
3.3.4.2 Xác định cấu trúc phân tử daidzin bằng phương pháp đo nhiễu xạ tia X 106
3.3.5 Phân lập kaempferol-3-O-methylether từ gừng gió 107
3.3.5.1 Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp NMR 107
3.3.5.2 Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp đo nhiễu xạ tia X 109
3.3.6 Phân lập kaempferol-3-O-(2,4-O-diacetyl-alpha-L-rhamnopyranoside) từ gừng gió 110 3.3.7 Thử hoạt tính sinh học in vitro của các hợp chất flavonoid tự nhiên 111
3.4 THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CÁC FLAVONOID 113
3.4.1 Mô hình QESAR 113
3.4.2 Mô Hình QSDAR 115
3.4.3 Mô hình QSSR MLR 116
3.4.4 Mô hình QSAR MLR (3.16) và QSAR ANN (1) 121
3.4.5 Mô hình QSAR MLR (3.17), QSAR PCR và QSAR PCA-ANN 123
3.4.6 Mô hình QSAR MLR (3.19 ), QSAR PLS (3.20) và QSAR ANN(2) 124
KẾT LUẬN VÀ KIẾN NGHỊ 127
DANH MỤC CÔNG TRÌNH 129
TÀI LIỆU THAM KHẢO 131
PHỤ LỤC 144
Trang 141
MỞ ĐẦU
Các phương pháp phòng và trị bệnh ung thư hiện nay như phẫu thuật, xạ trị, hóa trị Tuy nhiên các phương pháp này vẫn có những tác dụng phụ nhất định đối với bệnh nhân Nhu cầu về dược chất kháng ung thư có khả năng phòng và trị bệnh đang rất lớn nhưng khả năng đáp ứng còn hạn chế [70, 71] Các nhà khoa học, dược học đã và đang quan tâm nghiên cứu, tìm kiếm các loại dược chất mới Trong đó nhóm flavone, isoflavone nói riêng là nhóm dược chất có nhiều trong thực vật với hoạt tính kháng oxi hóa, kháng ung thư, kháng viêm, … hiệu quả [45, 104] Các nghiên cứu thực nghiệm trên thế giới và Việt Nam đã cung cấp một cơ sở dữ liệu quý giá về nguồn dược chất trong tự nhiên, nhưng các nghiên cứu thực nghiệm thuần túy còn nhiều hạn chế để tạo ra hợp chất có hoạt tính kháng ung thư hiệu quả, nhanh chóng, kinh tế [41, 42] Các nghiên cứu lý thuyết trên thế giới nói chung, trong nước nói riêng về nhóm flavone và isoflavone có hoạt tính kháng ung thư cổ
tử cung còn khá khiêm tốn [90, 103] Nghiên cứu mối quan hệ cấu trúc - hoạt tính nhằm thiết kế các dẫn xuất flavone, isoflavone mới có hoạt tính được cải thiện; các nghiên cứu lý thuyết là rất cần thiết để thúc đẩy và làm tiền đề cho các nghiên cứu thực nghiệm, nhằm tìm kiếm các dược chất kháng ung thư hiệu quả [80, 90]
Trong nghiên cứu này, chúng tôi sử dụng các thông tin mô tả cấu trúc điện tích nguyên tử, độ dịch chuyển hóa học, tính chất hóa lý, tham số 2D và 3D của phân tử kết hợp các kỹ thuật phân tích hồi quy, mạng nơ ron, phân tích thành phần chính, giải thuật di truyền, bình phương cực tiểu riêng phần để xây dựng các mối quan hệ định lượng cấu trúc - hoạt tính (QSAR) [89] Các flavonoid được xây dựng
và tối ưu hóa bằng các phương pháp cơ học phân tử MM+ Các tham số mô tả phân
tử 2D, 3D được sử dụng để xây dựng các mô hình đa biến như hồi quy tuyến tính đa biến (MLR), phân tích thành phần chính (PCR), bình phương cực tiểu riêng phần (PLS) và mạng nơ ron nhân tạo (ANN) [80, 90] Xây dựng các mô hình QSAR nhằm xác định những yếu tố tham số mô tả phân tử ảnh hưởng đến tác dụng kháng ung thư cổ tử cung từ đó xác định hướng thiết kế phân tử mang lại hoạt tính cao hơn [86, 90, 103] Trong nghiên này cũng đã tiến hành chiết tách và phân lập flavonoid
Trang 152
từ gừng gió, đậu nành, tía tô, xa kê, actiso, một vài kỹ thuật phân tích hóa lý cũng được sử dụng để xác định cấu trúc phân tử các dẫn xuất flavonoid Các phân tử flavonoid đã phân lập sẽ được dự báo hoạt tính, và sử dụng làm chất mẫu để thiết kế hợp chất mới có hoạt tính cao hơn Từ các cơ sở trên, chúng tôi nghiên cứu đề tài
“Thiết kế, sàng lọc một số dẫn xuất flavonoid và đánh giá hoạt tính gây độc lên dòng tế bào Hela dựa vào các tính toán hóa lượng tử”
Mục tiêu của luận án
Tính toán, sàng lọc các tham số mô tả phân tử gồm: tham số điện tích, độ dịch chuyển hóa học, tính chất hóa lý, tham số 2D, 3D của các dẫn xuất flavonoid Xây dựng các mô hình quan hệ cấu trúc – hoạt tính có khả năng dự đoán hoạt tính kháng ung thư của các dẫn xuất flavone và isoflavone có cấu trúc tương tự
Sàng lọc, phân lập, xác định cấu trúc và thử nghiệm in vitro hoạt tính kháng
ung thư 6 hợp chất flavonoid từ actiso, xa kê, đậu nành, tía tô, gừng gió
Thiết kế, sàng lọc các dẫn xuất flavone và isoflavone và đánh giá hoạt tính kháng ung thư cổ tử cung cũng như các tính chất hóa lý của các dẫn xuất flavonoid mới thiết kế từ flavonoid mẫu
Ý nghĩa khoa học của luận án
Nghiên cứu này đã sử dụng các tính toán lý thuyết và xây dựng các mối quan
hệ định lượng cấu trúc - hoạt tính (QSAR) Các flavone và isoflavone được xây dựng và tối ưu hóa bằng các phương pháp cơ học phân tử MM+ Điện tích nguyên
tử, độ dịch chuyển hóa học, các tính chất hóa lý và các tham số mô tả phân tử 2D, 3D từ các phương pháp lý thuyết được sử dụng để xây dựng các mô hình đa biến như hồi quy tuyến tính đa biến (MLR), hồi quy thành phần chính (PCR), hồi quy bình phương cực tiểu riêng phần (PLS) và mạng nơ ron nhân tạo (ANN) Các kỹ thuật thực nghiệm chụp cộng hưởng từ hạt nhân, phổ khối lượng và kỹ thuật đo nhiễu xạ tia X đơn tinh thể cũng được sử dụng để xác định cấu trúc phân tử các dẫn xuất flavonoid chiết xuất
Các mô hình QSAR được xây dựng nhằm xác định được những vị trí nguyên
tử ảnh hưởng đến tác dụng kháng ung thư cổ tử cung từ đó xác định vị trí tác dụng mạnh để xem xét gắn nhóm thế nhằm tạo ra hợp chất mới và chọn lựa được những
Trang 16có cấu trúc tương tự, đồng thời dự đoán hoạt tính sinh học và các tính chất hóa lý của hợp chất làm tiền đề cho các quá trình thực nghiệm một cách hiệu quả
Những đóng góp mới của luận án
Công trình này xác định được cấu trúc và thử hoạt tính pGI50 in vitro đối với 6 hợp chất flavonoid phân lập từ lá tía tô, lá xa kê, lá actiso, hạt đậu nành và
củ gừng gió Đã tính toán và sàng lọc các tham số mô tả cấu trúc phân tử như tham
số điện tích, tham số độ dịch chuyển hóa học, tham số 2D, 3D ảnh hưởng chính đến hoạt tính kháng ung thư của các dẫn xuất flavonoid Đã xây dựng và đánh giá thành công khả năng dự báo của các mô hình QSAR Các mô hình QESAR, QSDAR, QSSR, QSARNMR, QSARANN, QSARPCA-ANN, QSARPCR, QSARPLS đã dự đoán được hoạt tính kháng ung thư và tính chất hóa lý của các hợp chất mới được thiết kế từ các chất mẫu và hợp chất tự nhiên Hoạt tính kháng ung thư của các hợp chất mới tốt hơn hoạt tính kháng ung thư của chất mẫu, hợp chất phân lập từ gừng gió, đậu nành, tía tô, xa kê, actiso Như vậy, việc tiến hành nghiên cứu xây dựng các mô hình QSAR trong nghiên cứu này là một định hướng hữu ích trong nghiên cứu tìm kiếm và tổng hợp các flavonoid khác nhau từ tự nhiên
Cấu trúc của luận án gồm các phần sau
- Mở đầu
- Chương 1: Tổng quan tài liệu
- Chương 2: Nội dung và phương pháp nghiên cứu
- Chương 3: Kết quả và thảo luận
- Kết luận và kiến nghị
- Danh mục các công trình liên quan đến luận án
- Tài liệu tham khảo
Trang 174
CHƯƠNG 1 TỔNG QUAN TÀI LIỆU 1.1 BỆNH UNG THƯ CỔ TỬ CUNG
1.1.1 Các nguyên nhân gây ung thư
Ung thư là một tập hợp các bệnh liên quan đến sự phân chia tế bào một cách mất kiểm soát, tiếp theo là quá trình các tế bào đó xâm lấn và di căn đến các mô khác qua hệ thống bạch huyết và máu [6] Giai đoạn di căn là nguyên nhân chính gây tử vong của bệnh nhân ung thư Hiện nay có trên 100 bệnh ung thư có loại từ bắp thịt và xương, có loại từ da hoặc lớp lót của các cơ quan, có loại xuất phát từ máu Ở nam giới thường gặp ung thư phổi, gan, đại trực tràng, dạ dày, vòm hầu, thanh quản, thực quản, tuyến tiền liệt, ung thư máu [58, 70] Ở nữ giới thường gặp ung thư vú, cổ tử cung, đại trực tràng, phổi, tuyến giáp, buồng trứng, gan, dạ dày, thân tử cung, da [70] Ung thư làm cho cơ thể bệnh nhân tử vong bằng nhiều cách, nhưng đa số là làm cho cơ thể suy kiệt với các bệnh cơ hội Trong đó, bệnh ung thư cổ tử cung hình thành ở biểu mô cổ tử cung (cổ tử cung là cơ quan nối giữa âm đạo với buồng trứng) [57, 96]
Ung thư cổ tử cung bắt đầu ở niêm mạc cổ tử cung, tại đây các tế bào phát triển bất bình thường và khó kiểm soát dẫn đến hình thành khối u Phụ nữ trong độ tuổi từ 30 đến 59 thường dễ mắc bệnh hơn cả Đây là căn bệnh có thể điều trị và phòng ngừa nếu phát hiện sớm [96, 112]
Triệu chứng biểu hiện bệnh: âm đạo xuất huyết bất thường, có mùi khó chịu,
cơ thể bệnh nhân gầy gò, da trắng bệch, cơ thể đau nhức [32]
Điều trị bệnh: tuỳ theo giai đoạn phát triển của bệnh mà được điều trị theo phác đồ khác nhau: giai đoạn 1 ung thư khu trú tại cổ tử cung; giai đoạn 2 ung thư xâm lấn vùng lân cận; giai đoạn 3 ung thư xâm lấn xa hơn; giai đoạn 3 di căn sang các bộ phận khác của cơ thể [96]
Giai đoạn 1 và 2: chỉ cần mổ và chiếu xạ thì khả năng khỏi bệnh sẽ rất cao, tỉ
lệ khỏi bệnh là 80 – 90% Giai đoạn 3 và 4 chủ yếu là xạ trị, tỉ lệ khỏi bệnh rất thấp
từ 3 – 25 %, tuỳ theo mức độ nặng hay nhẹ của bệnh [96]
Trang 185
Các yếu tố bên ngoài gây bệnh ung thư bao gồm: các tia X, chất phóng xạ, tia cực tím, hóa chất gây hư hại cấu trúc gen di truyền Các sản phẩm công nghiệp như: amiăng gây ung thư phổi; polivinylclorua gây ung thư gan; nitrosamin gây ung thư bao tử; các phẩm màu trong bánh kẹo, hay một số sản phẩm trong thuốc nhuộm tóc, các hoá chất kích thích trong chăn nuôi nhiễm estrogen cũng gây ung thư; thuốc ngừa thai và các chất kích thích nội tiết tố như DES (diethylstilbestrol) có khả năng gây ung thư; thuốc trừ sâu, rầy như DDT cũng có khả năng gây ung thư [23, 99] Ô nhiễm không khí: các hoá chất gây ô nhiễm không khí như CO2, hidrocacbon, benzopiren, bụi amiăng, khói thuốc lá gây ung thư phổi [70] Ngoài ra còn có độc
tố của nấm mốc chứa aflatoxin có trong nấm Aspergillus gây ung thư [26]
Các yếu tố do lối sống có thể là nguyên nhân gây bệnh ung thư như các hoá chất trong thuốc lá gây ung thư phổi, rượu gây ung thư thực quản; chế độ ăn gây ung thư: ăn nhiều mỡ động vật, bơ, ăn nhiều calo, ăn thiếu chất xơ, uống rượu, hay
sử dụng thực phẩm không an toàn là nguyên nhân gây ung thư [23, 62]
Yếu tố sinh học gây ung thư thể hiện ở một số ít căn bệnh ung thư ở người
được cho là do vi rút như ung thư gan, ung thư vòm họng, ung thư cổ tử cung [26]
Yếu tố di truyền gây ung thư chiếm tỉ lệ thấp, một số loại như ung thư mắt, ung thư vú, có khuynh hướng dễ gặp trong cùng một gia đình Tuy nhiên, yếu tố di truyền không có tầm quan trọng về mặt thực tiễn [62]
1.1.2 Điều trị
Một số liệu pháp chính trong điều trị ung thư: phẫu trị là dùng lưỡi dao mổ
để loại bỏ tận gốc khối u; xạ trị là phương pháp sử dụng dùng tia phóng xạ tàn tiêu diệt các tế bào ung thư; hoá trị là dùng hoá chất để tiêu diệt tế bào ung thư; liệu pháp miễn dịch là liệu pháp tăng cường khả năng đề kháng tự nhiên của cơ thể để kháng lại sự phát triển của tế bào ung thư [23, 58]
Phẫu thuật và xạ trị có ưu điểm là tấn công mạnh các loại ung thư thời kì còn khu trú, nhưng phương pháp này không hiệu quả khi ung thư di căn trên cơ thể người bệnh Đối với phương pháp hoá trị chỉ cho kết quả tạm thời và không hiệu
Trang 19vệ cơ thể chặt chẽ khi tiếp xúc với tia phóng xạ; ngừa ung thư qua việc chọn lựa chế
độ ăn uống an toàn như không nên ăn một số thức ăn được khuyến cáo có thể gây ung thư, thức ăn có chứa các hóa chất nguy hiểm và các hormon; khám sức khoẻ định kỳ, tầm soát ung thư sớm đều đặn; tiêm vacxin ngừa ung thư; lối sống lành mạnh [47, 99]
1.2 LIÊN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH
Liên hệ giữa cấu trúc – hoạt tính là nguyên tắc cơ bản nhất để xây dựng các
mô hình quan hệ cấu trúc – hoạt tính (QSAR) hay mô hình quan hệ cấu trúc – tính chất (QSPR), mô hình quan hệ cấu trúc - cấu trúc để dự đoán tính chất vì cấu trúc – tính chất - hoạt tính có mối quan hệ biện chứng với nhau, là các mối liên hệ nhân – quả có thể được tính toán một cách chính xác và thiết lập theo những mô hình toán học rõ ràng [17, 93] Theo Testa và Kier, quan hệ định lượng cấu trúc – tác dụng là
tổng hòa các mối quan hệ thể hiện trên Hình 1.1 Trên cơ sở này nhiều kiểu mô
hình được xây dựng với các thông tin về cấu trúc khác nhau Mô hình tổng quát dạng QSXR: X có thể là A – hoạt tính (Activity); tính chất – P (Property); cấu trúc – S (Structure) [17, 93]
Cấu trúc – tính chất không phải lúc nào cũng được phân định rõ ràng, nên
mối liên quan giữa chúng được biểu hiện bằng phần giao trên giản đồ Venn, Hình 1.2 [17, 93] Tính chất – tác dụng có thể là một trong một số trường hợp nên mối liên quan giữa tính chất và tác dụng cũng được diễn tả bằng giản đồ Venn có phần giao Cấu trúc – hoạt tính có sự phân định rõ ràng nên mối liên quan giữa cấu trúc
và tác dụng, điều này được mô tả bởi hai vòng tròn không có phần giao nhau mà tiếp xúc tại một điểm
Trang 207
Dữ liệu cấu trúc
Hoạt tính Tính chất
Mô hình phân tử
Sàng lọc dữ liệu
QSXR
X=aixi+ b0
Hình 1.1 Mối liên quan định lượng cấu trúc, tính chất, độ phản ứng, hoạt tính
Hình 1.2 Giản đồ Venn mối liên quan định lượng cấu trúc và tác dụng [93]
Theo quan điểm hóa học, một phân tử có tác dụng sinh học mang hai nhóm chức: nhóm tác dụng (thường có cấu tạo đặc biệt) và nhóm ảnh hưởng (thường là các nhóm có khả năng thay đổi tính chất lý hóa của phân tử như hydroxyl, halogen, carboxyl, nitro, ) [17, 93]
Theo quan điểm sinh hóa, một phân tử có tác dụng sinh học có 2 thành phần chính: Khung phân tử đặc trưng cho tính chất lý hóa, còn nhóm chức quyết định hoạt tính sinh học [17, 93]
Theo quan điểm hiện đại, phân tử hợp chất là một thể thống nhất (gồm các
nguyên tử tạo khung phân tử, nhóm chức ) Tác dụng sinh học không những do
Tác dụng Tính chất Cấu trúc
Trang 218
cấu trúc phân tử trực tiếp quyết định mà còn gián tiếp chịu ảnh hưởng bởi các quá trình như hấp thụ, vận chuyển, phân bố hay chuyển hóa của phân tử trong cơ thể sinh vật [17, 93] Do đó, khi nghiên cứu mô hình liên quan giữa cấu trúc với tác dụng, cấu trúc với hoạt tính người ta không những phải khảo sát cấu trúc mà còn xem xét những yếu tố ảnh hưởng
Mô tả cấu trúc phân tử: cấu trúc hóa học là sự sắp xếp trong không gian của các nguyên tử trong lượng mô tả hay thông tin cấu trúc [17, 93]
Mức hình học: cấu trúc phân tử có thể được trình bày dưới dạng 2 chiều (thông tin cấu trúc gồm độ liên kết nguyên tử, cấu hình Z/E) hay 3 chiều (thông tin cấu trúc gồm cấu hình tương đối cũng như cấu hình tuyệt đối) Các thông tin của cấu trúc 2 chiều (2D) và 3 chiều (3D) hữu ích cho nghiên cứu mối liên quan định lượng cấu trúc và tác dụng [17, 93]
Mức lập thể điện tử: đó là vật thể có thể tích và hình thù nhất định như cấu trúc lập thể có tính chất cơ động hay là cấu trúc lập thể với sự phân bố mật độ điện
tử của các nguyên tử [17, 93] Các thông tin cấu trúc bao gồm thể tích, diện tích bề mặt, sự thay đổi cấu dạng, sự phân bố điện tử, thế tĩnh điện phân tử, Các thông tin này có thể có từ tính toán trên máy tính, đặc biệt là sử dụng các phương pháp hóa lượng tử
Mức tương tác với môi trường: cấu trúc phân tử thể hiện hoạt tính, độc tính, điểm chảy, điểm sôi, khả năng solvat hóa, tính chất sắc ký, hệ số phân bố, độ tan, áp suất tới hạn, v.v, trong môi trường sinh học [17, 93]
Cấu trúc phân tử ảnh hưởng đặc biệt quan trọng đối với hoạt tính sinh học,
đó là chìa khóa quan trọng để thiết lập mối quan hệ giữa cấu trúc và hoạt tính Sự phát triển của mối liên hệ này làm nền tảng để xây dựng các mô hình có khả năng
dự đoán Với một chuỗi các hợp chất có cấu trúc tương tự, có thể xây dựng các mô hình quan hệ giữa cấu trúc - hoạt tính (QSAR) [17, 93]
Trang 22Năng lượng của phân tử trong trường được tính theo phương trình 1.1 [25]:
Trong đó: Eb là năng lượng do sự biến dạng liên kết; Ea là năng lượng do sự khép mở góc liên kết; Et là năng lượng do sự xoay quanh liên kết; Ev là năng lượng tương tác van der Waals; Eh là năng lượng do liên kết hydrogen; Ee là năng lượng tương tác tĩnh điện
Giữa cấu trúc và năng lượng có sự liên quan mật thiết với nhau, do đó tối ưu hóa hình học của cấu trúc sẽ dẫn đến tối thiểu hóa năng lượng của phân tử [102] Quá trình này tạo một cấu trúc ứng với trạng thái năng lượng tối thiểu (tối ưu về hình học hay bền về năng lượng) để từ đó có thể xem xét tọa độ của các nguyên tử
của phân tử Cấu trúc tối ưu về hình học hay bền về năng lượng có thể sử dụng để
tính toán phương pháp lượng tử: phương pháp nguyên lý ban đầu (ab-initio) hay phương pháp bán thực nghiệm [60] [100]
1.3.2 Cơ học lượng tử
Cơ học lượng tử (Quantum Mechanic - QM) là mô tả toán học chính xác của trạng thái điện tử và tính chất hóa học Về lý thuyết, QM có thể dự đoán chính xác bất kỳ tính chất nào của từng nguyên tử hoặc phân tử [60, 100] Trong thực tế, phương pháp QM chỉ được giải quyết chính xác cho một hệ thống điện tử [60, 100] Vô số các phương pháp đã được phát triển cách giải gần đúng cho các hệ thống đa điện tử Hai phương trình QM được phát triển bởi Schrödinger và Heisenberg Phương trình Schrödinger là phương trình cơ bản cho hầu hết các phương pháp hóa tính toán [60, 100]
Trang 23Hàm sóng là hàm xác định vị trí của electron và hạt nhân Electron được
mô tả như một hàm sóng Nó mô tả xác suất của trạng thái điện tử Như vậy, nó có thể mô tả xác suất tìm thấy các electron ở các vị trí nhất định, nhưng nó không thể đoán chính xác vị trí điện tử Hàm sóng cũng được gọi là mật độ xác suất bởi vì bình phương của hàm sóng là hàm xác suất Đây là ý nghĩa chính xác của hàm sóng
Để có được một giải pháp vật lý thích hợp có liên quan của phương trình Schrödinger, hàm sóng phải liên tục, đơn trị [60, 100]
i i i j
q q H
tác với bức xạ điện từ hoặc trường được tính đến Trong phần mềm QSARIS hiện
có, toán tử Hamiltonion ở trên là gần như chưa từng được sử dụng Vấn đề có thể được đơn giản hóa bằng cách tách các chuyển động hạt nhân và electron Điều này được gọi là xấp xỉ Born – Oppenheimer Toán tử Hamilton cho một phân tử với các hạt nhân tĩnh là:
2
1 ˆ
Trang 2411
Ở đây chỉ xét động năng của electron và lực hút giữa electron và hạt nhân và lực đẩy của các điện tử Sự chuyển động của hạt nhân có thể được mô tả bằng cách xem xét toàn bộ tính toán thế năng khi các hạt nhân di chuyển [60, 100]
Khi hàm sóng đã được xác định, bất kỳ thuộc tính nào của phân tử đều có thể được xác định Điều này được thực hiện bằng cách tính giá trị mong muốn của toán
tử cho tính chất đó, được biểu thị bằng dấu ngoặc vuông < > Ví dụ, năng lượng là giá trị kỳ vọng của toán tử Hamilton được đưa ra bởi:
Trang 2512
1.4 CÁC MÔ HÌNH TOÁN HỌC
1.4.1 Hồi quy đa biến
Trong hồi quy, các biến số độc lập x và biến phụ thuộc y là các giá trị quan sát Tương ứng với một giá trị của x chỉ có 1 giá trị y duy nhất lúc này y là hàm của
trị x trong các thí nghiệm có thể có các giá trị y khác nhau do ảnh hưởng của các yếu tố khác Khi đó sự phụ thuộc được gọi là xác suất và các giá trị y là một hàm với các giá trị ngẫu nhiên Nếu chỉ có trường hợp Y là biến ngẫu nhiên rời rạc và X
là giá trị rời rạc, để xác định y bằng cách sử dụng phân phối như ma trận sau:
Trong đó x k (k = 1, 2, …, m) là các giá trị có thể có của X, y i (i = 1, 2, , N)
là các giá trị có thể có Y và p i (x k ) là xác suất xuất hiện của y i nếu X = x k , với k bất
kỳ, ta có đẳng thức sau:
1 ) (
Giả sử Y/(X = x k ) là biến ngẫu nhiên tương ứng với giá trị của x k Phân bố
nằm trong cột thứ k của ma trận Các giá trị trung bình (M) của biến Y được tính:
x X Y
M
1
) ( )]
Trang 26p , vớix k j là các giá trị khác nhau của các biến X1, X2,
…, X p Khi X1 = x1, X2 = x2, …, Xp = x p các giá trị trung bình của Y có dạng:
i p
X x
X x X Y
M
1
2 1 2
2 1
(X1 X2 X p M Y X1 X2 X p
Hàm g(X1, X2, …, Xp ) là hàm hồi quy đa biến của Y với các biến độc lập X1, X2,
…, X p
Để xây dựng hàm hồi quy của các biến ngẫu nhiên Y phụ thuộc X1, X2, …, Xp,
trên thực tế điều đó là không thể, vì xác suất p i (x k1 , x k2 , …, x kp) thường không xác
định Vấn đề đặt ra là xây dựng hàm toán từ hàm g(X1, X2, …, X p), như hàmgˆ(X1,X2,X p)được gọi là mô hình hồi quy tương quan với hàm g cho bởi
phương trình 1.12 [51, 66]:
) , , ( ) , , ( ˆ ) , ,
(X1 X2 X p g X1 X2 X p e X1 X2 X p
Với e(X1, X2, …, Xp) là sai số của mô hình
Mô hình hồi quy được xây dựng trên cơ sở dữ liệu thống kê giữa biến phụ
thuộc Y trên X1, X2, …, Xp Các giá trị quan sát được trình bày theo ma trận sau:
đoán, phụ thuộc vào giá trị của chúng, giá trị quan sát Y là các giá trị ngẫu nhiên
khác nhau [51, 66] Vấn đề chọn dạng của hàmgˆ(X1,X2,X p) (hoặc thuật toán để tính toán) để xây dựng mô hình hồi quy là khó khăn nhất Việc chọn mô hính hồi quy phải thỏa mãn hai yếu tố sau:
Trang 2714
1 Hàm mô phỏng gˆ(X1,X2,X p) phải đại diện được cho hàm hồi quy
2 Việc tính toán các giá trị của hàm phải dựa trên khả năng đáp ứng của nguồn
dữ liệu tính toán có sẵn
Nếu mô hìnhgˆ(X1,X2,X p)được chọn, giá trị của nó trong trường hợp thứ
k bằng yˆk gˆ (x k1,x k2, x kp)và được xem là giá trị dự đoán của y k Sự khác biệt giữa
không chú ý đến các giá trị dự đoán sử dụng
Các giá trị dự đoán và giá trị quan sát ngẫu nhiên Y, các tham số của các mô
hình được tìm thấy là kết quả của kinh nghiệm lấy mẫu ngẫu nhiên Vì vậy các tham
số của mô hìnhgˆ(X1,X2,X p) cũng được coi là biến ngẫu nhiên [51, 66]
Dạng đơn giản và phổ biến nhất được sử dụng trong mô hình hồi quy tuyến tính là:
) , , ( )
, , ( )
, , (
b X b b
Vớib0 được gọi là hệ số tự do trong mô hình
Trang 2815
Hình 1.3 Mô hình hồi quy tuyến tính với (p = 2) [51, 66]
Việc lựa chọn các hệ số hồi quy b k đảm bảo tính thích hợp lớn nhất cho mô hình tuyến tính được xây dựng Để giải quyết vấn đề này, phương pháp tốt sử dụng
phương pháp bình phương cực tiểu Lúc này hệ số b k được tìm kiếm từ một điều kiện để giảm thiểu tổng bình phương độ chênh lệch giữa các giá trị quan sát được
và dự đoán của biến phụ thuộc:
Vớiyˆi b0 b1x i1 b2x i2 b p x ip (1.16)
Khi p = 2 minh họa hình học đơn giản của phương pháp bình phương cực
tiểu Hình 1.3 Ví dụ, hình ảnh trên cho thấy không gian tiếp cận sự phụ thuộc giữa
hai biến độc lập X1, X2 và biến phụ thuộc Y
Hồi quy thường là phương pháp đơn giản nhất trong phân tích hồi quy Nó được sử dụng để giải quyết các trường hợp với số lượng biến độc lập nhỏ, không tương quan chặt chẽ [51, 66] Tuy nhiên, phương pháp này tạo cơ sở để hiểu các phương pháp hồi quy khác phức tạp hơn Chúng ta hãy xem xét các ma trận sau đây đại diện cho các kết quả quan sát:
) ( 0 1
1 0
2 2 21 20
1 1 11 10
Y X
N Np N
N
p p
y x x
x
y x x
x
y x x x
Trang 29) (
i
s Ns
c
1
) )(
(
1
(1.19) Các hệ số tương quan này tạo thành một ma trận tương quan mẫu
Cột thứ nhất X0 được đưa vào trong ma trận nếu một hệ số trong (1.14) khác không Giả sử bỏ qua cột X0 Có thể thu được bằng cách căn giữa các dữ liệu theo
cách sau:x ij x ij x j, với x j là giá trị trung bình của biếnx j
Cách đơn giản nhất để hiểu được bản chất của hồi quy đa biến thường là xem
xét một ví dụ đơn giản với p = 2 và N = 3 với minh họa hình học cụ thể
Xét ma trận X = (X1 X2) trong đó bao gồm các vec tơ trung tâm dự đoán và
vector Y là một vec tơ trung gian dự đoán Chúng ta có:
32 31
22 21
12 11
,
y y y
x x
x x
x x
Y X
Mô hình hồi quy có dạngyˆ b1X1b2X2 Xb, với b (b1 b2) Vì vậy, vec
tơ yˆ trong không gian P được biểu thị qua các vec tơ X1, X2 (Hình 1.4) Véc tơ độ
lệch: eY yˆ Chiều dài của vec tơ này là:
Chiều dài này là cực tiểu nếu véc tơ e trực giao với không gian P, nghĩa là trực giao với vec tơ X1, X2 Điều kiện trực giao có dạng sau:
Trang 3017
) 2 , 1 ( )
Với ma trận C XX gồm các yếu tố:
) 2 , 1 , ( ,
N
k
kj ki
Giá trị trung bình của ma trận C tỷ lệ thuận với ma trận hiệp phương sai của
ma trận vec tơ dự báoX j
Yếu tố c ij của ma trận C là các yếu tố trong của ma trận X , i X j Vì vậy c ii
bằng chiều dài của vec tơ X i Ta có:
ij
ij jj
os
ii
c
c
c c với φij là góc giữa hai vec tơ Xi, Xj
Vì vậy, góc giữa hai vec tơX , i X j (Hình 1.4) nghĩa là c / ij c ii c jj gần 1 (tức
là có tương quan mạnh mẽ giữa các giá trị dự đoán) Ngược lại, nếuX , i X j không tương quan, thì các vec tơ tương ứng trực giao Trường hợp này xảy ra khi các vec
tơX 1,X 2,,X l,(l N) nằm trong không gian siêu phẳng (hiện tượng đa cộng
tuyến), hiện tượng đa cộng tuyến dẫn đến sự suy biến của ma trận C và kết quả là khó khăn trong thiết lập phương trình (1.23)
Trang 31yb b
Hình 1.4 Hồi quy đa biến thường với p = 2, N = 3 [51, 66]
Nếu ma trận C không suy biến, vec tơ b được tính theo phương trình sau:
Y X C
Công thức cho hệ số hồi quy (1.24) đúng trong trường hợp số lượng biến
trong mô hình bằng p Xác định hệ số b k được coi là ước lượng thống kê của các hệ
số ngẫu nhiên của hệ số b k trong mô hình tuyến tính (1.14) Một số trường hợp b k
ước tính với giá trị nhỏ (b k 0) Điều đó chỉ ra rằng b k = 0 (biến không phụ thuộc
biến X k ) và giá trị b k khác không, được xác định từ dữ liệu nhiễu ban đầu Vì vậy,
cần kiểm tra mức độ ý nghĩa của biến X k (hoặc của hệ số B k) trong mô hình được xem xét [51, 66] Theo quan điểm thống kê, có nghĩa là cần kiểm tra giả thuyết H0:
[ b k = 0] Cách đơn giản nhất để minh họa cho nguyên tắc chung của việc kiểm tra một giả thuyết như vậy là đưa ra một ví dụ về một mô hình một chiều Y b1X1, với
X1 và Y là các giá trị trung bình có ý nghĩa [51, 66] Về mặt hình học các giá trị X1
và Y không tương quan có nghĩa là các vectơ X1 và Y trực giao Tuy nhiên, vì quan sát là ngẫu nhiên, các vectơ X1 và Y có thể không hoàn toàn trực giao, sẽ dẫn đến
một hệ số hồi quy khác không b1 (Hình 1.5)
Nếu giả thuyết H0 đúng, góc nhỏ Độ lớn của góc này có thể được ước lượng:
) (
) (
) ˆ (
ˆ ˆ
tan
1
2 1 2 2
2 2
residual SS
regression SS
y y
y
N
i
i i
(1.25)
Trang 3219
Hình 1.5 Ý nghĩa của hệ số hồi quy [51, 66]
Tuy nhiên, trong thống kê, xem xét bình phương trung bình sẽ thuận tiện hơn, có nghĩa là tính tổng của bình phương theo bậc tự do được xem xét
Bậc tự do DF đặc trưng số lượng các tham số độc lập, ảnh hưởng đến độ lớn của tổng bình phương Với tổng bình phương hồi quy SS(hồi quy) độ tự do hồi quy
i i N
2
) (
ˆ được xác định bởi giá trị của tham số
đơn b1 Vì vậy SS(quan sát), bằng
N
i i
y
1
0 Nghĩa là N-1 biến độc lập Ta có liên hệ sau: SS(quan sát = SS(hồi quy) + SS(dư) Từ đó ta có:
DF(quan sát) = DF(hồi quy) + DF(dư) Vì vậy, SS(dư) có bậc tự do DF(dư) bằng
N-2 Do đó, độ lệch của vector Y trực giao với vector X, (tức là giả thuyết
Thống kê này được gọi là chuẩn F
Chúng ta hãy xem xét các giả định sau liên quan đến các biến ngẫu nhiên
2 e i có phân phối chuẩn giống nhau N( 0 ; 2)
Vì vậy chuẩn F có phân bố F với (1, N-2) bậc tự do
Trang 3320
Nếu giả định H0 với b1 bằng 0 là đúng F lớn với xác xuất bé Chúng ta có thể chỉ định giới hạn DF(α), có thể vượt quá tiêu chí F chỉ với một xác suất nhỏ Nếu
giá trị của thống kê F, được tính theo công thức (1.26), lớn hơn DF(α), nó có nghĩa
là giả thuyết H0 sai, các hệ số hồi quy b1 có ý nghĩa [51, 66]
Kiểm tra ý nghĩa biến có thể được khái quát theo các cách khác nhau trong trường hợp có nhiều biến Một trong những biến thể của khái quát này đang xem xét
một phần thử nghiệm F-test
Hình 1.6 Giải thích F-test [51, 66]
Giả sử rằng phương trình hồi quy với hai biến thu được bằng phép chiếu
chính xác của vector Y trong không gian được kéo dài qua các vectơ X1, X2 (Hình 1.5) Phương trình hồi quy này như sau:
2 ) 1 ( 2 1 ) 1 ( 1 )
1 , b
2 2 ) 1 ( 2 1 ) 1 ( 1
2 ) 1 ( ) 1 ( 2 ) 1
b Khi vec tơ X1 và X2 trực giao (tức
làX1X2 0), điều đó là ngoại lệ, khi đó ( 1 )
1 ) 2 (
b Tổng bình phương do giá trị dự
Trang 342 ) 2 ( ) 2
1 ( 2 ) 1 ( 1 1
| , , (b q 1 b p b1 b q SS b1(1) b(p1) SS b1(2) b q(2)
Thống kê F(q1,,p)/(1,,q) có phân bố sau đây: F(p-q, N-p), để có thể kiểm tra
giả thuyếtH0 : [B q1 B p 0 ] tại α Giá trị BF(α) có thể được tính toán bởi một
hàm chuẩn trong Microsoft Excel FDISTINV(; p-q; N-p) F được sử dụng trong
hồi quy từng bước để thăm dò các biến quan trọng [51, 66]
Một phương pháp ước lượng các hệ số hồi quy là tính các khoảng tin cậy
Lúc này kiểm định t tính đối với hệ số b k theo công thức:
Trang 3522
)()
(
k
k k
b SE
b b
Với SE(b k ) là độ lệch chuẩn của hệ số b k, tính toán theo công thức:
( )k kk ( ) / ( )
Với a kk là một phần tử chéo của ma trận A Ma trận A là ma trận nghịch đảo
của ma trậnC XX của đánh giá chéo độ lệch các biến [51, 66]
Hệ số b k là một giá trị mẫu của biến ngẫu nhiên B k Khoảng tin cậy cho biến
ngẫu nhiên B k có thể được tính theo biểu thức sau đây:
Với t là một phần tư của thứ tự ( 1 2) với t-distribution (phân phối Student) với độ tự do N-1
Nếu khoảng tin cậy này chứa a điểm 0, khi đó hệ số b k có nghĩa Điều kiện0[b k tSE(b k);b k tSE(b k)] tương đương với : t(b k) t Khi đó hệ số b k
có thể được coi là quan trọng ở một giá trị khá lớn t(b k), cụ thể là, khi chúng ta có các điều kiện sau:
t b
Điều kiện (1.36) được gọi là hai phía phân bố t Quan hệ giữa phân bố t và phân bố F theo (1.37)
) , 1 , 1 (
Sự đa cộng tuyến giữa các biến độc lập cho thấy sự tương quan giữa chúng Sự tương quan này được tính thông qua các điểm riêng của ma trận hiệp phương sai hoặc ma trận chéo [52, 107]
Trang 3623
Giả sử X = (X1 X2 … X p) là ma trận với cột là các vec
tơX k (x1k x2k x Nk) Ma trận chéo C XX đối xứng và không xác định được
Vì vậy, có các cặp vec tơ song song z1,z2,,z p , với p là số biến số z Các vec tơ
riêng tương ứng với các giá trị dương 1, 2, , p
k l
p k
l k k
k
p k
k k
1
, , 1 , 0 , 1 2
z z z
z
z z
l k k l k l k k k k k k k k k
k 2 ww zXX z zz , ww zXX z zz 0 ,
Nếu các thành phần chính được xem như là các vector của một biến độc lập
mới W k, các mối quan hệ đã đề cập có nghĩa là các biến này là cặp không tương quan và chúng có chênh lệch bằng k [52, 107]
Tương quan giữa các biến độc lập gốc X k (dự báo) và các thành phần chính
W k có thể được biểu diễn dưới dạng sau:
và các điểm thành phần chính có giá trị:
Trang 37Ý nghĩa hình học của các thành phần chính của một quan sát khi p = 2 và N
= 3 Các thành phần chính w1 và w2 nằm trong cùng mặt phẳng với các vec tơ của biến độc lập X1 và X2 Góc giữa X1 và X2 nhỏ Điều đó có nghĩa là các vec tơ này
tương quan chặt chẽ Đồng thời, các thành phần chính w1 và w2 trực giao với nhau
(không tương quan) và bình phương của chiều dài của chúng bằng với các giá trị
riêng tương ứng của ma trận C, Hình 1.7 [52, 107] Hồi quy riêng phần tương quan với w1 theo phương trình: yˆ( 1 ) 1w1 và tương quan với w2 theo phương trìnhyˆ( 2 ) 2w2 Vec tơ dự đoán có dạng:
2 2 1 1 ) 2 ( ) 1 ( ˆ
ˆ
Bình phương độ dài của vec tơ yˆ ảnh hưởng đến giá trị R2 và trực giao của w1 và w2
được tính toán theo phương trình:
2 2 2 2 2 1 2 1 2 2 2 2 2
Hình 1.7 Hồi quy thành phần chính với p = 2, N = 3 [52, 107]
Vì vậy, mô hình hồi quy được xây dựng với các biến tương ứng có giá trị riêng lớn hơn Các biến khác được đưa vào mô hình có tổng tích lũy của các giá trị riêng gần với tổng của tất cả các giá trị riêng Rõ ràng không nên xem xét các thành phần chính tương ứng với các giá trị riêng bằng không Các điều kiện cần có: các
Trang 3825
thành phần chính có giá trị riêng thấp thì không đạt yêu cầu Hệ số hồi quy thành
phần chính được tính toán cho biến Y:
k k
k
1
1 , 1
2
1 1
1
C z XY
z w
Y w
k k
Với C là ma trận chéo mở rộng và C p+1 là cột thứ (p+1) của ma trận mục tiêu
của biến phụ thuộc Tương quan giữa thành phần chính w k với biến phụ thuộc Y =
X p+1 được tính:
Y
k k k
Vớis Y là sai số của Y
Ý nghĩa của các thành phần chính trong mô hình được đánh giá thông qua
giá trị F Nó được thể hiện thông qua giá trị RSS
1
2 2
Tổng bình phương độ lệch của mô hình với k thành phần chính được tính:
p k
RSS RSS k k1 k2k, 1,, (1.48)
Với tổng giá trị hồi quy F với k thành phần chính được tính:
)1/(
)( 0
RSS RSS
RSS RSS
F
k
k k
1.4.3 Bình phương tối thiểu riêng phần
Giống như PCR, bình phương tối thiểu riêng phần (PLS) tạo ra một chuỗi các mô hình và ước tính nào là tốt nhất với các biến ẩn Tuy nhiên, tập hợp các mô hình tạo thành trình tự có trật tự, khác với các mô hình được xây dựng bởi PCR Giả
sử X = (X1 X2 … X p) là một ma trận có các cột là vectơ của quan sát trung tâm và quan sát hiệu chỉnh sai lệchX k (x1k x2k x Nk) C XX là một ma trận chéo
Trang 39p k
l k k
k
p k
k k
1
, , 1 ,
0 , 1 2
p p p
p
p p
X
(1.51) Vec tơ
p k
p
(t1t2 t )
T bao gồm các thành phần chính và ma trận T (t1t2t p)Np gồm các vec tơ riêng P (p1 p2 p p)pp, khi đó (1.39) có dạng
XP
Ma trận P là ma trận trực giao, tức là P1 P Vì vậy
P T
1 2 1
1
p t
Từ (1.56) là cột của ma trận X (vec tơ X j) có thể được trình bày dưới dạng kết hợp
tuyến tính của các thành phần chính trực giao song song t k theo:
Trang 40Được gọi là “phần thừa thứ m của x” Vec tơ E m trực giao với vec tơ t1, t2, …,t m-1
Để minh họa cho t k và p k , một trường hợp cho hai biến X1 và X2, trong không gian hai chiều P được mở rộng từ hai vec tơ này, chỉ ra trong Hình 1.8 Ma trận tương quan cho vec tơ chuẩn hóa X1 và X2 là ma trận [51, 106]:
2 / 1
) (
, 2 / (
2 / ) ( 1 2 2 1 2