Tên đề tài: "KHẢO SÁT MỐI LIÊN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC HỢP CHẤT N-ACYLPIPERIDINE". Mục đích đề tài: Sử dụng chương trình Hóa lượng tử thích hợp để tính toán tham số cấu trúc của các chất dẫn xuất N-acylpiperidine. Các số liệu này kết hợp với dữ liệu về thời gian đuổi muỗi của các hợp chất N-acylpiperidine tạo thành bộ dữ liệu cấu trúc – hoạt tính sử dụng cho việc nghiên cứu QSAR. Dùng phương pháp tính toán thống kê kinh điển (phương pháp hồi qui đa biến tuyến tính) và phương pháp sinh – tin hiện đại (mạng nơron nhân tạo) để tìm mô hình QSAR có tính tổng quát hóa cao. Từ các kết quả nhận được trong luận văn và các kết quả nghiên cứu QSAR tương tự, rút ra nhận xét về phương pháp luận nghiên cứu QSAR.
Trang 1LUẬN VĂN THẠC SĨ HÓA HỌC
Chuyên ngành: Hóa lý thuyết và Hóa lý
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
LUẬN VĂN THẠC SĨ HÓA HỌC
Chuyên ngành: Hóa lý thuyết và Hóa lý
Mã Số: 60 44 31
Người hướng dẫn khoa học:
PGS.TS BÙI THỌ THANH
Trang 3CẦN THƠ – 01/2010
Trang 5 PGS – TS Bùi Thọ Thanh đã dành nhiều thời gian và công sức
hướng dẫn cho tôi trong suốt thời gian nghiên cứu.
Hóa của Trường Đại học Khoa Học Tự Nhiên – ĐHQG TPHCM
đã nhiệt tình giúp đỡ trong quá trình thực hiện luận văn.
học đã truyền đạt những kiến thức quí báu trong thời gian học tập
Sở GD & ĐT tỉnh An Giang và Ban chủ nhiệm khoa Khoa học
Trường Đại học Cần Thơ đã tạo điều kiện thuận lợi trong suốt thời gian học tập.
Gia đình và bạn bè đã luôn giúp đỡ và động viên tôi trong khoảng
thời gian học tập và làm việc.
đã góp nhiều ý kiến để tôi hoàn thiện luận văn này hơn.
Một lần nữa xin chân thành cảm ơn!
Cần Thơ, tháng 01 năm 2010
Trần Diễm Ái
Trang 86.2 KẾT QUẢ VÀ BÀN LUẬN 43
6.2.1 Phương pháp hồi qui đa biến tuyến tính 43
6.2.1.1 Tính toán với hoạt tính PT 25 44
6.2.1.2 Tính toán với hoạt tính PT 2.5 46
6.2.2 Phương pháp mạng nơron 48
6.3 ĐÁNH GIÁ MỨC ĐỘ TÁC ĐỘNG CỦA CÁC THAM SỐ CẤU TRÚC LÊN HOẠT TÍNH 54
E – KẾT LUẬN 59 TÀI LIỆU THAM KHẢO
PHỤ LỤC
Trang 10ANN : Artificial Neural Network
HF : Hartree-Fock
MLR : Multiple Linear Regression
MNDO : Modified Neglect of Diatomic Overlap
Trang 11Bảng 6.1 – Cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine 41
Bảng 6.2 – Kết quả phân tích hồi qui đa biến tuyến tính với 20 biến độc lập. 43 Bảng 6.3 – Một số mô hình tốt nhất trong 16.278 mô hình khảo sát của PT 2544 Bảng 6.4 – Kết quả phân tích hồi qui cho mô hình 1.6, 1.7, 1.8 45
Bảng 6.5 – Giá trị dự đoán của tập dữ liệu kiểm tra với PT 25 45
Bảng 6.6 – Giá trị dự đoán của 7 bộ dữ liệu còn lại 47
Bảng 6.7 – Kết quả phân tích hồi qui cho mô hình 2.3, 2.4, 2.5 47
Bảng 6.8 – Giá trị dự đoán cho tập kiểm tra với PT 2.5 47
Bảng 6.9 – Hệ số R2, Q2 và R2 test ứng với số nơ ron trên lớp ẩn 48
Bảng 6.10 –Giá trị dự đoán của 7 bộ dữ liệu còn lại 49
Bảng 6.11 – Kết quả tính và dự đoán hoạt tính theo mô hình (9 – 8 – 2) 51
Bảng 6.12 – Kết quả dự đoán hoạt tính cho tập dữ liệu mới 52
Bảng 6.13 – Bảng so sánh kết quả các mô hình tốt nhất của 2 phương pháp 53
Bảng 6.14 – Giá trị trọng số và độ nhạy của các biến độc lập 55
Trang 12Hình 1 – Mô hình chung dùng trong khảo sát QSAR 8
Hình 3.1 – Biểu đồ các mối liên hệ thường gặp của x và y 16
Hình 3.2 – Cấu tạo một nơron sinh học 22
Hình 3.3 – Cấu tạo một nơron nhân tạo 23
Hình 3.4 – Sơ đồ cấu tạo mạng nơron nhân tạo có 3 lớp 24
Hình 3.5 – Sơ đồ kỹ thuật lan truyền ngược 26
Hình 4 – Thí nghiệm hoạt tính sinh học 34
Hình 5.1 – Các loại hàm truyền trong NeuroBuilder 39
Hình 5.2 – Bảng NeuralBuilder Supervised Learning 39
Hình 6.1 – Đồ thị giá trị dự đoán cho bộ dữ liệu kiểm tra với PT 25 46
Hình 6.2 – Đồ thị giá trị dự đoán cho bộ dữ liệu kiểm tra với PT 2.5 47
Hình 6.3 – Đồ thị R2, Q2 và R2 test ứng với số nơron trên lớp ẩn ở 2 nồng độ 49 Hình 6.4 – Đồ thị R2, Q2 và R2 test ứng với số nơron trên lớp ẩn ở 2 nồng độ. 50 Hình 6.5 – Đồ thị giá trị tính toán và dự đoán theo hoạt tính thực nghiệm của hai nồng độ 52
Hình 6.6 – Đồ thị giá trị dự đoán và thực nghiệm của tập dữ liệu kiểm tra ở hai nồng độ 54
Hình 6.7 – Biểu đồ giá trị trọng số 55
Hình 6.8 – Biểu đồ độ nhạy của hai hoạt tính 56
Hình 6.9 – Đồ thị biểu diễn giá trị của 9 tham số cấu trúc và hai hoạt tính 57
Trang 13Phụ lục 2 – Bảng số liệu các tham số cấu trúc và hoạt tính của dẫn xuất
N-acylpiperidine
Phụ lục 3 – Kết quả phân tích hồi qui cho 20 biến độc lập
Phụ lục 4 – Ma trận hệ số tương quan Pearson của các tham số cấu trúc và
Trang 181.2 CÁC THAM SỐ CẤU TRÚC [11], [16], [25], [29]
Một vấn đề chung trong QSAR là cách mô tả phân tử và tính chất củacác chất Và các đại lượng được dùng để mô tả những nét cấu trúc phân tử làmột phần không thể thiếu trong nghiên cứu QSAR, còn được gọi là tham sốcấu trúc
Đến nay đã có hàng ngàn tham số khác nhau được ứng dụng trong cáclĩnh vực nghiên cứu các mô hình liên quan định lượng giữa cấu trúc với tácdụng Các tham số cấu trúc của hoá chất có thể thu được bằng thực nghiệmhay tính toán bằng lý thuyết bởi các phần mềm tính toán như ADAPT,CODESSA, DRAGON, HYPERCHEM, MOE,… Các tham số thông dụng cóthể kể đến như tham số điện tử, các tham số lập thể, các tham số hoá lí,…
Các tham số điện tử (electronic parameters): hằng số Hammett (,
+, -,…), moment lưỡng cực, độ phân cực phân tử, điện tích nguyên tử (q+,q-), mật độ điện tử, thế tĩnh điện phân tử và trường tĩnh điện phân tử, nănglượng các vân đạo biên (EHOMO và ELUMO),…
Các tham số lập thể (steric parameters): hằng số lập thể Tafl (Es), thểtích phân tử (V), diện tích bề mặt phân tử (S), chỉ số khúc xạ (MR), tham sốSTERIMOL, độ dài liên kết, góc xoắn…
Các tham số hoá lí (physicochemical parameters): hệ số phân bố giữaoctanol và nước của hoá chất (P) , hằng số kỵ nước …
Vào năm 1868, Crum-Brown và Fraser đã nhận xét rằng tác dụng sinhhọc là hàm số của cấu trúc hóa học:
Đến năm 1893, Richet đã cho rằng sự khác nhau về tác dụng sinh học
là do sự thay đổi về tính chất hóa học hay lí hóa
Trang 19phương trình đầu tiên biểu diễn mối quan hệ giữa hoạt tính và cấu trúc:
Đối với axit benzoic, phương trình Hammett có dạng như sau:
Mô hình Hansch
QSAR thực sự bắt đầu được nghiên cứu bởi Corwin Hansch và cácđồng sự từ những năm 60 của thế kỷ XX Trong mô hình QSAR của mình,Hansch thường dùng các hằng số thực nghiệm như: Es, , , logP… làm cáctham số cấu trúc
Một số phương trình ông thu được như sau:
2
1 log )
/ 1
4 3
2 2
) / 1 log( C k Pk P k k (1.7)
4 3
2 2 1
) / 1 log( C k k k k (1.8)Trong đó C là nồng độ mol của hoá chất, ở nồng độ này hoá chất có một tác dụng cụ thể nào đó, chẳng hạn nồng độ cần thiết của hoá chất để có tác dụng ức chế 50% độc chất
Trong các mô hình Hansch, ông ta thường dùng phương pháp hồi quituyến tính (1.6) hoặc hồi qui đa thức (1.7, 1.8) để phân tích, xử lý dữ liệu
Mô hình Free – Wilson
Trang 20Mô hình QSAR Free – Wilson được Fujita và Ban cải tiến lại có dạngtổng quát sau:
Trong đó a ij: sự cộng hợp của các nhóm thế xi tại vị trí j trên phân tử
: vai trò của khung chính
Thực tế thì mô hình Hansch và mô hình Free-Wilson có liên quan vớinhau, vì thế một số tác giả đã thành lập mô hình kết hợp Free-Wilson &Hansch, cả hai dạng tuyến tính lẫn phi tuyến:
Hiện nay, các kỹ thuật máy tính phát triển cực kỳ nhanh chóng và nó đã
có những đóng góp quan trọng trong các lĩnh vực nghiên cứu khoa học nhưkhoa học vũ trụ, sinh học, toán học, lý học, hoá học… Trong hoá học, đã cónhiều chương trình máy tính có thể thiết kế cấu trúc không gian của phân tửhoá chất; chúng kết hợp với hoá lượng tử có thể tối ưu hoá hình dạng của hoá
Trang 21chất và cung cấp cho chúng ta rất nhiều tham số cấu trúc liên quan đến hoạttính Chúng ta đã có các phần mềm tin học ứng dụng trong hoá học hiện naynhư: HyperChem, Gaussian, CS ChemOffice, Mopac …
Ngoài ra, về mặt xử lý số liệu, chúng ta không còn đơn thuần dùng cácphương pháp xử lý thống kê cổ điển để phân tích số liệu mà có các lý thuyếtmới có thể áp dụng vào việc xử lý số liệu, tín hiệu… và ta có thể dùng vàokhảo sát QSAR Các lý thuyết mới có thể dùng trong các trường hợp mối quan
hệ QSAR phức tạp như: Mạng nơron nhân tạo (ANN – Artificial NeuralNetwork), Logic mờ (FL – Fuzzy Logic), Thuật giải di truyền (GA – GeneticAlgorithm)…
Việc sử dụng các phương pháp xử lý số liệu mới này đồng thời kết hợpvới dùng các thông số tính toán tỏ ra khá thành công trong việc mô tả cácQSAR Hiện nay, đã có rất nhiều nhóm nghiên cứu QSAR trên thế giới Họnghiên cứu rất nhiều hợp chất khác nhau và ứng dụng các phương pháp thống
kê mới vào khảo sát QSAR
Hình 1 – Mô hình chung dùng trong khảo sát QSAR
Chuẩn bị bộ dữ liệu hoạt tính
Xây dựng mô hình phân tử, dùng hoá lượng tử tối ưu hoá hình dạng
Từ mô hình tối ưu, tính các tham số hoá lý đặc trưng cho cấu trúc
Phân tích dữ liệu, tìm mô hình QSAR phù hợp nhất
Dự đoán hoạt tính của hợp chất mới
Trang 22cố gắng giải phương trình sóng Schrödinger:
Trong đó: E : năng lượng tổng cộng của hệ thống
: phương trình sóng tổng cộng đã được chuẩn hoá
H : toán tử Hamilton tổng cộng
Toán tử Hamilton tổng cộng (H) tương ứng với năng lượng tổng cộng
của phân tử bao gồm các động năng (T) và thế năng (V) của tất cả các hạt (cáchạt nhân và các điện tử):
Phép gần đúng Born-Oppenheimer
Phép gần đúng này dựa trên cơ sở: khối lượng của hạt nhân lớn hơnkhối lượng điện tử nhiều lần nên vận tốc của hạt nhân phải nhỏ hơn vận tốccủa điện tử Vì thế phương trình Schrödinger được chia thành hai phần:
Phần một bao gồm toán tử Hamilton điện tử đối với hạt nhân cốđịnh (He)
Phần hai bao gồm toán tử động năng hạt nhân trong đó năng lượng
từ hàm sóng điện tử đóng vai trò thế năng (Tn)
He = Te + Vne + Vee + Vnn (2.4)
Trang 23Trong đó:
A
A A n
r R
Z V
N i
ee
r r
R R
Z Z V
2 2
2 2
A
A A
x
A, B: hạt nhân ZA : điện tích hạt nhân A
i, j : các electron RA : vector chỉ vị trí hạt nhân A
MA : Khối lượng hạt nhân A ri : vector chỉ vị trí electron i
Các toán tử có thể được tập hợp lại theo chỉ số điện tử
i
r R
Z h
|
| 2
r r
N i
N i j
nn ij i
Theo phép gần đúng này, hàm sóng điện tử chỉ phụ thuộc vào vị trí củahạt nhân, không phụ thuộc vào động lượng của hạt nhân; và các hạt nhân di
chuyển trên các mặt đẳng thế (Potential Energy Surfaces – PES), là nghiệm
của các phương trình Schrödinger điện tử Do vậy khi ta giải được phươngtrình Schrödinger điện tử thì ta có thể dùng PES để giải phương trìnhSchrödinger đối với hạt nhân
Việc xây dựng hàm sóng nhiều điện tử dựa trên tính gần đúng là các hạt
Trang 24ở trạng thái riêng rẽ Trong vân đạo spin một điện tử gồm hai phần: vân đạokhông gian và hàm spin Phương trình Hartree – Fock (HF) được viết như sau:
N j j ij i
core i
Ji và Kj là toán tử Coulomb và toán tử trao đổi
2.2.1 Giới thiệu
Đòi hỏi của việc thực hiện chuỗi tính HF thường là các hàm mũ 4 Điềunày phát sinh bởi số các tích phân hai điện tử cần thiết cho việc xây dựng matrận Fock Phương pháp bán thực nghiệm giảm đòi hỏi của việc tính toán bằngcách giảm số tích phân hai điện tử Điều này chỉ là một tác động giới hạn bộ
cơ sở rộng, và phương pháp ab initio sẽ vẫn đòi hỏi một nỗ lực tính toán lớnhơn phương pháp bán thực nghiệm
Bước đầu tiên trong việc giảm khó khăn tính toán là xem như chỉ cócác điện tử hoá trị hiện diện Tâm điện tử được giải thích bằng cách giảm điệntích hạt nhân hoặc các hàm đưa vào mô hình lực đẩy hoá hợp do các hạt nhân
và các tâm điện tử Hơn nữa, chỉ có bộ cơ sở nhỏ nhất được dùng đối với cácđiện tử hoá trị Vì thế hydro chỉ có một hàm cơ sở, toàn bộ các nguyên tửtrong hàng thứ hai và thứ ba của hệ thống tuần hoàn có bốn hàm cơ sở (một s
và ba p) Cho đến bây giờ, phần lớn các phương pháp chỉ dùng các hàm s và p,
và các hàm cơ sở là các vân đạo kiểu Slater ngĩa là các hàm mũ
Giả định trung tâm của các phương pháp bán thực nghiệm là phép gầnđúng ZDO (Zero Differential Overlap) Phương pháp này bỏ qua tất cả cáctích của hàm cơ sở phụ thuộc vào cùng toạ độ điện tử khi định vị trên cácnguyên tử khác Ký hiệu vân đạo nguyên tử trên tâm A là A, phép gần đúngZDO tương ứng với A(i).B(i) = 0 Chú ý rằng tích của các hàm trên các
Trang 25nguyên tử khác nhau bằng không, không có tích phân trên một tích như vậy.
Nó có các hệ quả sau:
1 Ma trận S giảm thành ma trận đơn vị
2 Tích phân một điện tử ba tâm được gán về không
3 Tất cả các tích phân 3 và 4 tâm 2 điện tử được bỏ qua
Để bù cho các phép gần đúng này, các tích phân còn lại được chuyểnthành các tham số, và giá trị của các tích phân này có được dựa trên cơ sở tínhtoán hoặc dữ liệu thực nghiệm Có chính xác bao nhiêu tích phân bị bỏ qua, đãthực hiện bao nhiêu tham số hoá, điều này khác nhau trong các phương phápbán thực nghiệm khác nhau Viết biểu thức sau đối với yếu tố ma trận Fock,trong đó tích phân hai điện tử được viết tắt là ):
đồ trên là không có lợi Để sửa chữa nhược điểm của các phép gần đúng trên,các tham số được đưa vào vị trí của một vài hay toàn bộ các tích phân
Có ba phương pháp có thể dùng để chuyển các phép gần đúngNDDO/INDO/CNDO vào mô hình tính bằng máy tính
Các tích phân còn lại có thể được tính từ dạng hàm vân đạo nguyên tử
Các tích phân còn lại được chuyển thành tham số mà các giá trị được
ấn định được dựa trên một vài dữ liệu thực nghiệm
Các tích phân còn lại có thể được chuyển thành các tham số mà giá trịđược ấn định dựa trên việc làm cho phù hợp với dữ liệu thực nghiệm
Phương pháp 2 bắt nguồn từ tính chất đặc biệt của nguyên tử, như làthế ion hoá và năng lượng kích thích, trong biểu thức của các thông số, và sự
Trang 26ấn định các giá trị của chúng dựa trên nguyên tắc bình phương cực tiểu phùhợp với bộ dữ liệu thực nghiệm lớn, tương tự với việc làm thích hợp của cácthông số trường lực.
Sau đây là một số phương pháp tính toán bán kinh nghiệm :
Phương pháp NĐO (Neglect of Diatomic Diferential OverlapApproximation)
Phương pháp INDO (Intermediate Neglect of Diferential OverlapApproximation)
Phương pháp CNDO (Complete Neglect of Diferential OverlapApproximation)
Phương pháp MINDO (Modified Intermediate Neglect of DiferentialOverlap Approximation)
Phương pháp MNĐO(Modified NĐO Models)
Phương pháp MNDO (Modified Neglect of Diatomic Overlap)
Phương pháp AM1 (Austin Model 1)
Phương pháp PM3 ( Parametric Method Number 3)
Phương pháp MNDO/d (The MNDO/d method)
Phương pháp SAM1 (Semi-Ab initio Method 1)
Dưới đây xin trình bày phương pháp PM3
2.2.2 Phương pháp PM3 (Parametric Method Number 3)
Phương pháp PM3 là một phương pháp bán kinh nghiệm sử dụng thuậttoán tự hợp Nó có bản chất là phương pháp AM1 với tất cả các tham số đãđược tối ưu đầy đủ
Lực đẩy core – core của mô hình MNDO có dạng:
)1
()
,
B A B A B A
Trong đó được dùng như là các tham số điều chỉnh
Tương tác gồm liên kiết O–H và N–H được xử lý khác nhau:
A
R AH
R H
A H A H A
R
e s
s s s Z Z H A
1)
,
Thêm vào, MNDO dùng phương pháp gần đúng, s = p đối với một vài
Trang 27nguyên tố sáng hơn MNDO được tham số hoá đối với các nguyên tố H, B, C,
N, O, F, Al, Si, P, S, Cl, Zn, Ge, Br, Sn, I, Hg, và Pb Các tham số G ss , G sp ,
G pp , G p2 , H sp được lấy từ phổ nguyên tử
Một hạn chế của MNDO là lực đẩy core – core quá lớn Để khắc phụcđiều này, hàm core – core được sửa đổi bằng cách cộng các hàm Gaussian vàtoàn bộ mô hình đã được tham số hóa lại Phương pháp này được gọi làphương pháp AM1
Sự tham số hoá của MNDO và AM1 đã được làm bằng tay, dùng các
tham số G ss , G sp , G pp , G p2 , H sp từ các dữ liệu nguyên tử khác nhau và thay đổi
các phần còn lại cho đến khi đạt được sự thích hợp tốt Bởi vì sự tối ưu hoáđược làm bằng tay nên chỉ bao gồm một vài hợp chất tương đối Stewart thựchiện quá trình tối ưu tự động bằng cách bổ sung và bắt nguồn từ các công thứcđối với các đạo hàm của hàm lỗi thích hợp tương ứng đối với các tham số.Sau đó toàn bộ tham số được tối ưu hoá đồng thời kể cả các số hạn hai điện tử
và một bộ luyện lớn hơn đáng kể với dữ liệu khoảng vài trăm được sử dụng.Trong việc tham số hoá lại này, các biểu thức trong AM1 đối với lực đẩy core
– core được giữ lại ngoại trừ việc chỉ có 2 phương trình Gaussian được gáncho mỗi nguyên tử, các tham số Gaussian này bao gồm phần tích phân trong
mô hình Phương pháp còn được ký hiệu là PM3, nhưng thực chất là AM1 vớitất cả các tham số được tối ưu đầy đủ
Cơ học lượng tử với các tiền đề và công cụ chính xác của nó đã giảiquyết được những vấn đề cơ bản nhất của cấu tạo của các hạt cơ bản Riêngtrong hóa học, cơ học lượng tử là một cơ sở nền tảng để nghiên cứu, giải thíchcác hiện tượng hóa học, tiên đoán, chỉ đường cho nghiên cứu thực nghiệm,giúp cho hóa học ngày càng phát huy được thế mạnh và khẳng định được vị trícủa nó
Trang 292 1 2 2 2 1 1 0
b x b b
yˆ 2
2 1
3.1.2 Phân tích hồi qui đa biến tuyến tính
Các mô hình hồi qui đa biến tuyến tính có thể được thiết lập một cách
tự động bởi các chương trình phân tích thống kê như SPSS, SAS, BMDP,MINITAB, Stagraphics-Plus, Microsoft EXEL, Stagraphics Centurion XV…
1.2.1 Các thủ tục chọn biến
Nhiều mô hình hồi qui có thể được xây dựng từ cùng một tập biến.Muốn sàn lọc các biến độc lập xi có liên quan tuyến tính với biến phụ thuộctrong một nhóm dữ liệu có N trường hợp quan sát, người ta có thể dùng nhiềuphương pháp Ba thủ tục phổ biến mà ta sẽ nghiên cứu là: đưa dần vào(forward selection), loại trừ dần (backward elimination), và hồi qui từng bước.Sau đây là các thủ tục chọn biến được thực hiện trong phần mềm StagraphicsCenturion XV
Phương pháp đưa dần vào: biến đầu tiên được xem xét để đưa vàophương trình là biến có tương quan thuận hay nghịch lớn nhất với biến phụthuộc Có 2 tiêu chuẩn để đưa biến vào:
F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phảiđạt được để được đưa vào
F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập
đó phải đạt được để ở lại trong phương trình
Phương pháp loại trừ dần: khởi đầu với tất cả các biến đều ở trongphương trình, sau đó loại trừ dần bằng tiêu chuẩn loại trừ Có hai tiêu chuẩnloại trừ:
F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phảiđạt được để được đưa vào
F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập
đó phải đạt được để ở lại trong phương trình
Trang 30 Phương pháp chọn từng bước: là sự kết hợp của thủ tục đưa dần vào
và thủ tục loại trừ dần, đây là phương pháp phổ biến nhất Biến thứ nhất đượcchọn giống như cách chọn dần từng bước Sau khi biến thứ nhất được đưa vào,thủ tục chọn từng bước khác với đưa dần vào ở chỗ biến thứ nhất được xemxét xem có nên loại bỏ nó ra khỏi phương trình căn cứ theo tiêu chuẩn ragiống như thủ tục loại trừ dần Các bước như thế được tiếp tục cho đến khikhông còn biến nào thỏa điều kiện ra nữa
Để đánh giá mức độ phù hợp của mô hình với bộ dữ liệu thực nghiệm,người ta dùng các đại lượng sau:
Hệ số xác định (R 2 ): bình phương hệ số tương quan giữa các giá trị
y i tính tính theo mô hình hồi qui và các giá trị yi thực nghiệm
N i
tính i i
y y
y y R
1
2 1
2 2
)(
)(
Trong đó: y là giá trị trung bình của các giá trị y i
Ý nghĩa: R 2 cho biết sự phù hợp của mô hình với bộ dữ liệu thực
nghiệm Nếu giá trị R 2 càng gần 1 thì mô hình mô tả tốt các số liệu thực
nghiệm, các giá trị y i tính tính toán rất gần các giá trị y i thực nghiệm
R k R
Tính tổng quát của mô hình (Q2): Việc xác định tính tổng quát dựa
trên phương pháp tham chiếu chéo (cross validation) Phương pháp này đượcthực hiện gồm các bước sau:
Chia ngẫu nhiên tập dữ liệu thành k tập con phân biệt
Lặp lại k lần, mỗi lần chừa ra một tập con để kiểm tra, phần còn
Trang 31N i
tính i i
y y
y y Q
1
2 1
2 2
)(
)(
Giá trị Q2 càng gần 1 thì khả năng đoán nhận càng chính xác hay nóicách khác mô hình có khả năng tổng quát hóa
hiện như sau: chia bộ dữ liệu thành 2 nhóm nhỏ, dùng một nhóm luyện(training set) có N trường hợp để thiết lập mô hình hồi qui và sau đó dùng môhình ấy để dự đoán tác dụng của một nhóm thử (test set) có M trường hợp
Nếu mô hình tìm được có sự tuyến tính cao giữa các biến phụ thuộc vàcác biến độc lập thì phương pháp phân tích MLR có ưu điểm sau:
Những mối quan hệ dữ liệu quan sát được mô tả rõ ràng
Là phương pháp đơn giản cho việc đoán nhận mẫu mới
Tuy nhiên phương pháp này sẽ không phù hợp trong những trường hợp
mà giữa các biến độc lập có liên hệ chặt chẽ với nhau hoặc số biến lớn hơn sốmẫu quan sát
Nếu mô hình không tuyến tính với các biến độc lập, khi đó ta có hồi quiphi tuyến
3.2 PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ANN (Artificial
Trong thực tế, mối quan hệ giữa biến phụ thuộc và các biến độc lậpthường là không tuyến tính, chẳng những như thế mà có đôi lúc mối quan hệnày rất phức tạp Việc áp dụng phương pháp phân tích hồi qui đa biến phituyến hay phi tham số vào việc khảo sát QSAR để mô tả được các quan hệnày là điều khó khăn và hết sức cần thiết Một trong những phương pháp xử lý
số liệu mới được ứng dụng mạnh trong khảo sát QSAR là mạng nơron nhântạo (ANN)
Trang 32Lý thuyết ANN được hai nhà bác học người Mỹ là McCulloch và Pitts
đề xuất vào năm 1943, đến khoảng giữa thập niên 80 của thế kỷ XX thì nó bắtđầu thật sự được tìm hiểu và ứng dụng mạnh vào rất nhiều lĩnh vực khoa học –
kỹ thuật khác nhau trong đó có hoá học Dựa trên cơ sở hệ thần kinh của sinhvật, hai nhà bác học người Mỹ đã mô phỏng lại và xây dựng ANN tạo nhằm
mô phỏng các mối quan hệ phức tạp giữa biến phụ thuộc và biến độc lập
ANN gồm những nơron là những đơn vị xử lý nhị phân mà cấu trúc vàcách xử lý của nó được mô phỏng và đơn giản hóa từ cấu trúc và quá trình tiếpnhận – xử lý thông tin phức tạp của bộ não con người
Để có khái niệm tổng quát về mạng nơron, phần này sẽ giới thiệu sơlược về cấu tạo và hoạt động của nơron sinh học, các thành phần cơ bản củanơron nhân tạo, cách truyền thông tin, mạng lan truyền đa lớp và trạng tháihoạt động của mạng
3.2.1 Nơron sinh học và nơron nhân tạo
3.2.1.1 Nơron sinh học
Hình 3.1 – Cấu tạo một nơron sinh học
Hệ thần kinh con người bao gồm khoảng 1010 tế bào thần kinh hay còngọi là nơron Một nơron sinh học tiêu biểu gồm một thân tế bào (soma hay cellbody) với một nhân (nucleus) bên trong Thân tế bào bao gồm nhiều sợi nhánh(dendrites) và sợi trục (axon) Có dạng như hình trên
Những sợi nhánh có nhiệm vụ nhận tín hiệu được tích lũy, sợi trục tiếp
Trang 331
-1
0
1
0 1
Threshold
nhận tín hiệu và truyền sang một nơron khác ở vị trí khớp nối (synapse)
Nhưng không phải lúc nào tín hiệu đưa vào cũng được truyền đi vàtruyền nguyên vẹn mà chỉ khi tín hiệu đó đạt đến một giới hạn nào đó và khitruyền qua synapse nó được biến đổi tùy thuộc vào lực synapse
Một tín hiệu có cường độ xi khi qua synapse I sẽ có cường độ là si ứngvới lực synapse wi :
si = xi wi (3.15)
3.2.1.2 Nơron nhân tạo
Cấu tạo của một nơron nhân tạo đơn (hay còn gọi là một đơn vị) được
mô tả bởi hình sau:
Hình 3.2 – Cấu tạo một nơron nhân tạo
Đầu vào của một nơron gồm các dữ liệu nhập hoặc từ đầu ra của cácnơron khác Người ta thường tổ hợp đầu vào bằng cách tính tổng trọng số dữliệu nhập pi:
n i i
i p w I
1
(3.16)Với wi là trọng số đặc trưng cho liên kết giữa nơi truyền dữ liệu (tínhiệu) đến và nơi nhận dữ liệu (tín hiệu) Giá trị đầu ra được tạo bằng cáchdùng các hàm truyền (transfer function) f trên I: V = f(I)
Trong ANN thường dùng các hàm truyền sau:
n i
i
i p w I
1
Trang 343.2.2 Cấu trúc mạng nơron đa lớp
Một mạng lan truyền tổng quát là một mạng có n (n > 2) lớp: lớp thứnhất gọi là lớp nhập (input layer), lớp thứ n gọi là lớp xuất (output layer), và (n– 2) lớp ẩn (hidden layer) Số nút của lớp nhập và lớp xuất do bài toán quiđịnh, còn số nút của lớp ẩn do người thiết kế mạng quyết định Trong mạnglan truyền, mỗi nút của lớp thứ i (0 < i < n) liên kết với mọi nút ở lớp thứ (i+1), và các nút trong cùng lớp không liên kết với nhau Lớp nhập nhận dữ liệuvào và truyền lại cho tất cả các nơron cho lớp ẩn thứ nhất Các nơron trong lớp
ẩn thứ nhất tổ hợp các giá trị đầu vào và tạo lại đầu ra rồi truyền đi cho tất cảcác nơron ẩn lớp kế tiếp… Lớp cuối cùng, lớp xuất, là lớp cho kết quả thật
(giá trị biến phụ thuộc)
Hình 3.3 – Sơ đồ cấu tạo mạng nơron nhân tạo có 3 lớp
Mạng lan truyền chỉ có thể ở một trong hai trạng thái: trạng thái ánh xạ
Dữ liệu ra
.
.
.
Lớp ẩn
Trang 35các nơron nhập nhận các giá trị biến độc lập được đưa vào, mỗi nơron nhậpchuyển giá trị nó nhận được cho tất cả các nơron ẩn của lớp ẩn kế cận Mỗinơron ẩn tính tổng trọng hóa của tất cả các dữ liệu nhập Sau đó một hàmtruyền được áp dụng lên tổng trọng để nén chúng vào một miền giới hạn củahàm truyền (tùy mỗi loại hàm truyền mà ta sử dụng sẽ có miền giới hạn khácnhau) Mỗi nơron ẩn này lại chuyển kết quả của mình đến các nơ ron ở lớp kếtiếp… cho đến các nơron lớp xuất Mỗi nút xuất thực hiện các thao tác tương
tự như đã thực hiện trong nút ẩn để cho ra giá trị kết xuất của nút xuất – là giátrị của các biến phụ thuộc cần xác định
Trạng thái học: bản chất ánh xạ do mạng thực hiện tùy thuộc vào giátrị các trọng số trong mạng Lan truyền ngược là một phương pháp cho phépxác định tập trọng tốt nhất của mạng để giải một bài toán được cho Việc ápdụng phương pháp lan truyền ngược là một quá trình lặp đi lặp lại nhiều lầnhai tiến trình chính: ánh xạ và lan truyền ngược sai số Hai tiến trình này được
áp dụng trên một tập mẫu xác định Ta gọi chung tiến trình này là học hayluyện mạng
Một lợi ích của mạng lan truyền là có thể xây dựng mô hình nhiều kếtxuất Có thể nó đòi hỏi ít công việc hơn và ít tính toán máy hơn Ngoài ra một
mô hình duy nhất sẽ có tính nhất quán mà những mô hình phát triển riêng biệtkhông thể có
3.2.3 Luyện mạng: Kỹ thuật lan truyền ngược
Quá trình luyện mạng được bắt đầu với các giá trị trọng số tùy ý, và
tiến hành lặp đi lặp lại Mỗi lần lặp được gọi là một thế hệ (epoch) Trong mỗi
thế hệ, mạng hiệu chỉnh các trọng số sao cho sai số (độ lệch giữa các kết xuất
và giá trị đích) giảm dần Tiến trình điều chỉnh nhiều lần giúp cho trọng dầndần đạt được tập giá trị tối ưu
Để cập nhật trọng số trong mỗi thế hệ luyện, mạng phải xử lý tất cả cácmẫu trong tập mẫu Đầu tiên mạng thực hiện phép toán lan truyền tiến, nghĩa
là mạng thực hiện ánh xạ các biến nhập của mẫu hiện hành thành các giá trịxuất Sau đó, xác xuất được tính dựa trên sai số của kết xuất và giá trị đích
Trang 36Trên cơ sở sai số tính toán, mạng sẽ cập nhật lại bộ trọng số theo nguyên tắc
lan truyền ngược sai số - gọi là giai đoạn lan truyền ngược (back propagation).
Kỹ thuật cơ bản trong lan truyền ngược là cập nhật bộ trọng số theohướng giảm gradient Ví dụ khi áp dụng trong QSAR, trước hết mạng tính cáckết xuất hoạt tính ai theo các dữ liệu nhập (các thông số cấu trúc) từ các trọng
số đã khởi tạo ban đầu Sau đó tính gradient g i:
Gradient lớp xuất: g i a i( 1 a i)(t i a i) với t i là giá trị hoạt tínhthực nghiệm
i k i i
Trang 37đó, mạng sẽ học để mô hình hóa nhiễu, khi đó mạng sẽ trả lời chính xác những
gì nó được học, còn đối với các dữ liệu mới thì mạng cho kết quả hoàn toànsai Hiện tượng này được gọi là hiện tượng quá luyện hay quá khớp(overfitting) Nếu ta có thể xác định được thời điểm mạng đạt đến điểm đó, ta
có thể ngừng luyện trước khi xảy ra quá khớp và có thể sử dụng cấu hìnhmạng tổng quát hóa tốt nhất này
Thường tiêu chuẩn ngừng luyện là dựa trên gradient lỗi, mạng sẽ luyệnđến khi không còn lỗi hoặc lỗi nhỏ hơn một giá trị nào đó do ta cho trước.Nhưng khi mạng được luyện đến không còn lỗi thì mạng không còn tính tổngquát hoá nghĩa là lúc đó mạng bị quá luyện
Ta có thể ngăn ngừa hiện tượng quá luyện bằng cách tìm giá trịgradient lỗi và số nút ẩn phù hợp Điều này đòi hỏi nhiều thời gian
Nếu không bị giới về khả năng tính toán (phần cứng) thì ta có thể chomạng một lượng nút ẩn thừa để luyện và dùng phương pháp dừng luyện bằng
bộ kiểm tra Phương pháp này được thực hiện như sau: chia bộ mẫu ra thành
ba tập, tập số một dùng để luyện mạng, tập số hai dùng để kiểm tra hiện tượngquá khớp, bộ số ba dùng để kiểm tra tính tổng quát hoá của mạng Luyệnmạng với tập mẫu luyện nhưng định kì ngừng luyện để đánh giá sai số trên tậpmẫu kiểm tra (khi đánh giá sai số trên tập mẫu kiểm tra, ta chỉ cần thực hiệnánh xạ cho từng mẫu mà không phải trải qua giai đoạn lan truyền ngược) Khisai số trong mẫu kiểm tra đi lên, thì quá khớp đã bắt đầu Khi đó, ta ngừngluyện, trở về các trọng sinh ra lỗi thấp nhất trên mẫu kiểm tra, và dùng cáctrọng đó cho mô hình của ta Như vậy, song song với tiến trình luyện ta phảitính sai số trên tập mẫu kiểm tra
3.2.5 Các yếu tố ảnh hưởng đến tính tổng quát hoá của mạng nơron
Mạng có tính tổng quát hoá khi nó có thể dự đoán tốt các dữ liệu mới.Các yếu tố ảnh hưởng nhiều đến tính tổng quát hoá của mạng là:
Kích thước tập mẫu: mạng học để mô hình hóa dữ liệu và có thể môhình hóa cả nhiễu, có thể ngăn nó quá khớp bằng cách tạo mẫu luyện đủ lớn để
bù cho mức nhiễu trong dữ liệu Nhưng việc tăng mẫu thường gặp phải khó
Trang 38khăn trong thực hành vì thực tế mẫu hiếm khi đủ lớn để ngăn được nhiễu
Số nút ẩn: mỗi trọng số trong mạng là một tham số làm tăng khảnăng của mạng, số trọng số trong mạng là một hàm theo số nút của mạng, nóquyết định mức độ tự do mà mạng có thể khớp với dữ liệu Do đó, mạng chỉđạt được trạng thái tối ưu khi tìm được số nút ẩn phù hợp Để tìm số nút ẩn tối
ưu thì phải luyện nhiều mạng với số nút ẩn khác nhau Hơn nữa, phải luyệncho đến khi mạng hội tụ Phương pháp này cũng tạm ổn nhưng đòi hỏi thờigian máy tính khá nhiều Quá trình tìm mạng tối ưu chủ yếu tập trung vào việctìm số nút ẩn, nhưng số nút nhập cũng quan trọng Khi dùng nhiều nút nhập ta
sẽ cho mạng nhiều mức tự do hơn – nhiều khả năng để mô hình hóa một cáchchính xác các hàm phức tạp, hay nhiều khả năng để quá khớp
Thời gian luyện mạng cũng quan trọng không kém Trong thực tế,việc luyện mạng đến hội tụ là một bài toán không dễ Giai đoạn luyện có thểrất dài khi phải luyện đến giá trị gradient lỗi rất nhỏ cho đến khi một nút ẩnnào đó tìm được giá trị tối ưu Vì vậy, mạng cần đủ thời gian để luyện và dừngluyện đúng lúc
Mạng chỉ có giá trị sử dụng khi có tính tổng quát hoá cao
Trang 39C PHƯƠNG PHÁP
Trang 40Chương 5
PHẦN MỀM SỬ DỤNG VÀ CÁC BƯỚC THỰC HIỆN
5.1.2 Statgraphics Centurion XV
Statgraphics Centurion XV là phần mềm phân tích dữ liệu thống kêchuyên dụng Nó có hơn 160 chương trình thống kê, bao gồm từ phân tíchthống kê cơ bản đến phức tạp Người dùng không nhất thiết phải là mộtchuyên gia về thống kê bởi vì chương trình này đã có các công cụ nhưStatWizard và StatAdvisor giúp người dùng sử dụng nó một cách hiệu quảnhất Statgraphics Centurion XV được sử dụng trong phân tích MLR
5.1.3 NeuroSolution 5.07
NeuroSolutionTM 5.07 là phần mềm mô phỏng ANN NeuroSolution forExcel là một sản phẩm đột phá của phần mềm NeuroSolutionTM 5.07 Nó đượctích hợp trong Microsoft Excel giúp cho người dùng dễ dàng sử dụng với giaodiện quen thuộc trong bảng tính của Microsoft Excel Nó không chỉ dành chongười mới bắt đầu học về ANN mà còn là công cụ mô hình hóa mạnh mẽ đểgiải quyết bài toán hồi qui phi tuyến
5.1.4 Microsoft Excel
Microsoft Excel được dùng để nhập dữ liệu ban đầu, vẽ các đồ thị biểudiễn các mối quan hệ của hoạt tính và các tham số cấu trúc, truy xuất dữ liệu