Phần 1 Cơ sở lí thuyết ứng dụng hóa lượng tử và tin học khảo sát các ức chế
Trang 1Phan |
Trang 2
MỐI LIÊN HỆ ĐỊNH LƯỢNG GIỮA HOẠT
TÍNH VÀ CÂU TRÚC
{, Giới thiệu
Mối liên hệ định lượng giữa hoạt tính và cấu trúc thường viết tắt là
QSAR (Quantitative Structure Activity Relationships) va da trd thanh mét
thuật ngữ thông dụng trong lãnh vực nghiên cứu hóa học nói chung và trong
ngành hóa được thiết kế thuốc nói riêng
Nghiên cứu sự lên hệ giữa hoạt tính và cấu trúc mang lại nhiều thông
tin cho người nghiên cứu trong việc xác định yếu tố nào trong phân tử có ảnh
hưởng tốt đến hoạt tính và giúp họ có định hướng trong việc thay đổi cấu trúc
phân tử có khả năng cho hoạt tính cao
Thường hoạt tính A (có thể là hoạt tính hóa học hay sinh học ) và các
tham số cấu trúc p liên hệ với nhau qua một hàm toán học có đạng tổng quát
nhu sau:
A=f@)
Hoạt tính của của một chất có thể được quan sát từ thực nghiệm dưới
nhiều hình thức [2]:
- In vitro: quan sdt trong ống nghiệm hay hộp petri cố nuôi cấy vi
sinh vật hay các bộ phận sinh vật được phân lập (cơ quan, mô, tế bào)
- Ăn vivo: quan sắt trên cơ thể sinh vật (chuột, thỏ, khỉ, người )
- In situ: quan sát tại chỗ, ví dụ trên một khúc ruột (chưa cắt rời khỏi
cơ thể)
Các đại lượng về sinh học thông dụng của A là:
- MIC (Minimum Inhipitory Concentration): nông độ ức chế tối thiểu
(nói chung) hay nồng độ kiểm khuẩn tối thiểu (đùng trong vi sinh)
- MBC (Minimum Bactericidal Concentration): néng d6 diệt khuẩn
tối thiểu (dùng trong vi sinh).
Trang 3- ICsg inhibitory Concentration) hay hang sé van téc Michaelis-
Menten k;: néng dé ức chế 50% đối tượng thứ
- ECso (Effective Concentration): nồng độ cho 50% tác dụng tối đa
- EDso (Effective Dose): liều tác dụng tối đa trên 50% đối tượng thử,
- SDso (Supression Dose): liéu tiéu diét 90% đối tượng thứ
- LDso (Lethal Dose): liéu gay chét 50% tha tht
- TI (Therapeutic Index) = LDsof EDso: chi s6 tri liệu (giá trị cầng lớn sẽ cang an toan cho việc sử dụng)
Những tham số có lên quan đến đặc tính của cấu trúc có thể là những tham số thực nghiệm bay tính toán, như:
- Tham số điện tử (electronic parameters): hang s6 Hammet ơ,
moment lưỡng cực h (đipole momenÐ), điện tích nguyên tử, mật độ điện tử,
năng lượng vân đạo biên (Egomo, energies of highest occupied molecular
orbitals và ELuwo, energies of lowest unoccupied molecular orbitals)
- Tham sé lap thé (steric parameters): hang sO lap thé Taft E,, thé tích phân tử, điện tích bễ mặt phân tử, chỉ số khúc xạ của phân tử
- Tham số hóa lý (physicochemical parameters): hệ số phân bố giữa
octanol và nước, logp, đo khả năng thấm thấu của phân tử qua màng tế bào
Ul Mô hình Hansch trong nghiên cứu QSAR
Khi nói đến QSAR không thể không nhắc đến Hansch và đồng sự,
những người đã nghiên cứu QSAR rất sớm (1964) và đã rất thành công trong
việc đưa ra nhiều mô hình QSAR và giải thích được nhiều vấn để về mối liên
hệ giữa hoạt tính và cấu trúc nhất là trong lãnh vực nông-hóa-được học
Phương pháp mà Hansch đã sử dụng thường được gọi là phương pháp Hansch Những tham số hóa lý thường được sử dụng trong phương pháp Hansch là
những tharn số thực nghiệm như hằng số Taft (E,), hằng số Hammet (ơ), hằng
số T1, logp
Một số phương trình về QSAR theo Hansch:
log(1/C) = k,logp - k,(logp)’ + ko + ky log(1/C) = k TT - kT’ + kyo + ky
Đữ liệu được phân tích hầu như bằng phương pháp hồi qui tuyến tính
Trang 4Zh in Gn Heo Gỗ
1H Ung dụng hóa lượng tử và một số kỹ thuật phân tích thống kê mới trong khao sat QSAR
Trước đây, khi dùng phương pháp Hansch thì khó khăn thường gặp là:
e_ Các tham số sử dụng trong mô hình QSAR chỉ có thể tìm được đối với một số hợp chất, do đó chỉ có thể khảo sát QSAR của một số ít hợp
chất có các tham số cấu trúc và hoạt tính đã được xác định,
e M6 hinh QSAR theo Hansch chi 4p dụng được khi các tham số cấu trúc
và hoại tính có liên hệ tuyến tính với nhau Trong thực tế, mối liên hệ
này thường rất phức tạp và ít khi là tuyến tính
Vì vậy việc nghiên cứu thêm những tham số (để sử dụng cho mô hình QSAR) và những kỹ thuật phân tích đữ liệu mới (để dùng cho những trường
hợp mà mối quan hệ giữa các biến là phức tạp) là điều cần thiết để phái triển
việc khảo sát QSAR
Ngày nay, những kỹ thuật tính toán trên máy vi tính đang được ứng dụng rộng rãi vào nghiên cứu thực nghiệm và lý thuyết Hóa học tính toán và
thiết kế phân tử đã và đang góp phần tích cực vào việc nghiên cứu hóa học
nói chung và khảo sát QSAR nói riêng,
Với những chương trình thiết kế phân tử bằng vi tính, người nghiên cứu
có thể nhìn thấy nhiều đạng cấu trúc rất sinh động của các chất đang nghiên cứu và đặc biệt có thể cung cấp cho mô hình QSAR nhiều tham số liên quan
đến đặc tính cấu trúc và hoạt tính của chất như: moment lưỡng cực, điện tích
nguyên tử, năng lượng vân đạo biên (Lumo, Homo), thể tích, điện tích phân
tử .Có thể đễ dàng tính toán các tham số này cho bất kỳ phân tử nào
Về kỹ thuật xứ lý đữ liệu, không còn đơn thuần giải quyết bài toán bằng phương pháp hỗồi qui tuyến tính hay hổi qui bội tuyến tinh (MLR:
Multiple Linear Regression), mà còn nhiều phương pháp khác như phương pháp bình phương tối thiểu riêng phần (PLS: Partial Least Squares), phuong pháp phi tham số như ACE (AlHternating Conditional Expectations), PPS (Projection Pursuit Regression) [32] va đặc biệt là phương pháp mạng nơ ron nhân tạo (ANN: Arificial Neural Networks) Trong luận văn này, chúng tôi
sẽ thực hiện việc tính toán theo phudng phap MLR, PLS va ANN
Việc khảo sát QSAR thudng theo So dé |
Trang 6LY THUYET VE VAN DAO PHAN TU
F Giới thiệu,
Cơ sở của cơ học lượng tử là những tiên để của cơ học lượng tử Trong
các tính toán cơ học lượng tử thường phân biệt hai phương pháp: phương pháp
liên kết hoá trị và phương pháp vân đạo phân tử
Trong luận văn này, chúng tôi đã dùng phương pháp vân đạo phân tử, với cả hai cách tính: bán thuc nghiém (semi-empirical calculations) và không
thực nghiệm (non-empirical calculaUtons, còn được gọi là cách tính ab imino)
để giải quyết bài toán ở 2 khía cạnh khác nhau Để hiểu rõ 2 cách tính trên xin bất đầu từ một số khái niệm cơ bản của thuyết vân đạo phân tử
\Ÿ là hàm sóng tổng cộng chuẩn hóa của phân tử,
H là toán tử hamilton tổng cộng của phân tứ, tương ứng với năng lượng tổng cộng, có đạng:
Trang 7A, B là nhân I,¡ là điện tử, r là khoảng cách
Mạ là khối lượng của nhân A, Z là bậc số nguyên tử
Theo giả thuyết gần đúng của Born-Oppenheimer thì hạt nhân có khối
lượng nặng hơn nhiều so với khối lượng của điện tử nên chuyển động của nó
rất chậm so với chuyển động của điện tử do đó có thể tách V ra thanh hai
phần riêng rẽ để tính toán Phương trình (11.3) viết lại như sau cho hệ thống điện tử (không bao gồm các số hạng liên quan đến động năng của nhân):
<j Tụ
2ï A i đại HẺ”” thường được ký hiệu là H là toán tử Hamilton của 1 điện tử
1.2 Phương trình Hartree - Fock
1.2.1 Mô hình điện tử độc lập
Việc xây dựng hàm sống nhiều điện tử dựa trên tính gần đúng là các
hạt ở trạng thái riêng rẽ Trong vân đạo spin 1 điện tử gồm 2 phần: vân đạo không gian và hàm spin
Hàm sóng ứng với hệ thống 2n điện tử có lớp vỏ kin (closed shell)
được biểu điễn dưới dạng định thức Slater:
œÓ), BQ) là hàm spim của điện tử thứ J
Toán tử Hannlton được viết lại dưới dạng tổng của những toán tử Fock đơn điện tử, F¡, như sau:
i<j
Ji và Kị là toán tử Coulomb và toán tử trao đổi.
Trang 8c„ là các hệ số khai triển vân đạo phân tử Giá trị sẽ thay đổi trong quá trình tối thiểu hĩa năng lượng Giá trị tối ưu khi gradien (ơE /ơcụ) tiến đến khơng
I3 Tối ưu hĩa năng lượng tổng cộng bằng phương pháp trường tự hợp
(Self-Consistent Field, SCF )
Việc tối thiểu hĩa năng lượng tổng cộng được thực hiện bằng cách thay
đổi giá trị của hệ số cịụ, Quá trình được thực hiện như sau:
Đầu tiên hệ số cị, được được gán 1 giá tri nào đĩ để tính ma trận E đầu
tiên của năng lượng tổng cộng Ma trận E được định nghĩa như sau:
( uvÌ^ø ) va (uv| Ac) 1a tich phân hai điện tử được cho bởi biểu thức
như sau: (uv|Aø) = [fo 0).9,0).— ©; 2), 2dr de, (11.9)
12
(uÃ|vø)= Í@y (1.42 (1).——.v@).É2@) dxị dị GHI)
12
Ma trận của tốn tử Fock cũng được tính từ bộ giá trị C ước lượng ban
đầu như sau:
Trang 9Lain Cn Siac
Spv =<, |) > là ma trận tích phân xen phủ
F,C, E lần lượt là ma trận Fock, ma trận hệ số và ma trận trị riêng
Phương trình trên không thể giải trực tiếp được Năng lượng tổng cộng
được tính lại theo (I8) lần nữa ứng với giá trị gần đúng của ma trận C lần
thứ 2 và cứ lặp lại như vậy cho đến khi hệ thống thôa một số điều kiện đừng
nào đó, thường một trong những điều kiện đó là năng lượng tổng cộng của hệ thống không thay đổi nữa trong một giới hạn cho phép, khoảng 10 hartree
Cách tính này được gọi là cách tính "trường tự hợp" Xem Sơ đề 2)
1,4, Phương pháp hậu trường tự hợp (Posit-SCEF Methods) [11]
Lý thuyết Hartree-Fock thường được chọn làm cơ sở cho việc tính toán
cấu trúc bền của phân tử Tuy nhiên đối với một số mục đích khác, như để tính năng lượng của phần ứng hay năng lượng của nối, thì lý thuyết Hartree-
Fock chưa đạt độ chính xác cao do bỏ qua sự tương tác giữa các chuyển động của các nguyên tử trong phân tử, nhất là khi chúng có spm đối nghịch
Nhiều phương pháp khác đã được áp dụng để khắc phục hạn chế đó
Các phương pháp này gọi là phương pháp hậu trường tự hợp Một trong
những phương pháp hậu trường tự hợp khá phổ biến là phương pháp nhiễu
loạn Møiler-Plesset
Trong phương pháp nhiễu loạn Møller-Plesset toán tử Hamilton được
chia làm 2 đại lượng
H=H,+aV
H, là đại lượng được giải chính xác
V là toán tử nhiễu loạn, À là tham số
Hầm sóng nhiễu loạn được điễn tả đưới đạng 1 chuỗi lũy thừa như sau:
= On A A OP
và do đó phương trình sóng SchrÓdinger có dang:
(Hy + UV) + P+) = (EO + AB Ct AN)
Trong đó H, là tổng của các toán tử Fock đơn điện tử:
Hạ= 3F
Trang 101.5 Hệ hàm cơ sở [21, 7]
Để thực hiện các tính toán lượng tử, việc cần làm trước tiên là chọn
một hệ ham cơ sở Việc chọn hệ hàm cơ sở cần đầy đủ và thích hợp để mô tÃ
dang cla vân đạo nguyên tử sao cho vừa càng sát với sự phần bố của điện tử
và vừa đơn giản ở mức cần thiết để việc tính các tích phân có thể thực hiện được Vì vậy, chất lượng của kết quả tính phụ thuộc rất nhiều vào cách chọn
hệ hàm cơ sở Dưới đây sẽ trình bày một số hệ hàm cơ sở thường
e Hé ham co sd STO (Slater-Type Orbital)
Hệ hàm cơ sở này dựa trên hầm sóng của nguyên tử giống hydro và
gồm các hàm có đạng như sau:
¿T9 =N.r”® expŒ.p.Y.„(6,4) (11.13)
€ là hệ số mũ vân đạo Slater,Y là phần góc của hàm sóng
N là hằng số chuẩn hóa r, 8, @ là tọa độ cầu
n, Ì,m là số lượng tử chính, lượng tử phụ và lượng tử từ
e Hé ham co sé GTO (Gaussian-Type Orbital)
Hệ hàm GỚTO gồm các hàm cơ sở có dạng:
60° =N exp -ar’).[¥im (8,0) xyz" (11.14)
œ là hệ số mũ vân dao Gauss x, y, z 1A toa dé dé-cat
l,m, n không phải là số lượng tử, chỉ là số mũ trong tọa độ để-cát
?2=xX” + ÿ” + Zz”, là những số nguyên dương hoặc bằng không Giá trị của nó xác định loại của hàm
Loại s ứng với Ì=m =n= 0 Loại p ứng với l+m+n= 1 Loại d ứng với Ì + m + ñ = 2 Loại ƒ ứng với Ì + m +n= 3 GTO thích hợp và được sử dụng rộng rãi hơn do tích phân ở đạng này
đơn giản và vì vậy tính toán được đễ dàng hơn
Có thể thay hầm STO bằng tổ hợp của một số hàm GTO với số mũ và
hệ số khác nhau
Trang 11Liin On Shao GE
e Hé bàm cơ sở SfO-nG:
STO-nG là hệ hàm cơ sở tối thiểu phổ biến nhất, trong đó n chỉ số hàm
Gauss tham gia t6 hop thanh mét ham Slater
e Hé ham co sé tach héa tri (‘split valence") n-ijG hodc n-ijkG:
Sự bình thành nối liên quan đến vân đạo hóa trị nhiều hơn là những vân đạo bên trong, do đó để mô tả tính quan trọng của vân đạo hóa trị trong việc tham gia hình thành nối, hệ hàm cơ sở được mở rộng thêm gọi là hàm cơ
sở "tách hóa trị", thường được ký hiệu là n-iJg hay n- ijkG
n là số hàm Gauss dùng để tổ hợp cho lớp bên trong
ij hay ijk là số hàm Gauss dùng để tổ hợp cho lớp hóa trị
Một số hầm thông dụng như: 3-21G, 4-31G, 6-31G Sự khác nhau cơ bản của những bàm này là chất lượng của việc mô tả dạng vân đạo của điện
tử bên trong
se Hệ hàm cơ sở phân cực (polarization basis set)
Để diễn tả có sự địch chuyển điện tích ra xa nhân ở một số cấu trúc
phân tử, thường người ta thêm vào hệ hàm cơ sở một số hàm có số lượng tử
từ lớn (thêm hàm loại d vào nguyên tử năng, loại p cho nguyên tử hydro)
Hệ hàm này gọi là hệ hàm cơ sở phân cực (PolarizaHion basis seÙ và được ký hiệu là:
n-ijG* hay n-ykG* cho trugng hdp thém | ham auss loại s và p vào
hệ hàm cơ sở của nguyên tử nặng
n-JG** hay n-JkG* * cho trường hợp thêm 1 ham Gauss loại s và p vào nguyên tử nặng và một hàm loại s cho nguyên tử hydro
Một số hệ hàm thông dụng là 6-31G”,6-31G””,6-311G””
Hệ hàm cơ sở càng lớn kết quả tính toán càng tốt, tuy nhiên về mặt
tỉnh toán sẽ gặp khó khăn vì hệ hầm càng lớn thì thời gian tính toán cảng nhiều Do đó điều quan trọng là phải lựa chọn được hệ hàm thích hợp, đủ lớn
và đáp ứng được yêu cầu về độ chính xác của từng bài toán cụ thể
Trang 12LƯU DO THEO CACH TINH SCF
Ước lượng ban đầu P„y
Tao ma tran Fock
F,, =H’ + LDL Pre l(uv|^o) - -((0A|v) — - ((uol⁄2)l
ft HH, TỰ NHIÊN
Trang 13Liin Bn Shae EL
1Í Cách tính ab inido hay cách tính không thực nghiệm [20]
Các tính toán trong phương pháp này chỉ dựa trên các tiên để của cơ
học lượng tử và một số hằng số vật lý như vận tốc ánh sáng, hằng số Plank
hoàn toàn không dùng các tham số thực nghiệm
Các tính toán ab iniuio và bán thực nghiệm khác nhau ở giá tién tinh
toán và độ chính xác của kết quả
Các phương pháp ab initio không gặp các hạn chế do loại cấu trúc hay loại đại lượng cần tính đặt ra và các bộ chương trình mới cũng từng bước
khắc phục trở ngại về thời gian tính quá đài
Các tính toán ab initio thudng gém những bước sau:
®_ Xác định toán tử Hamilton gần đúng cho hệ thống
e Chọn lựa hàm sóng ban đầu
se Tối thiểu hóa năng lượng
Trong phần tính toán năng lượng proton hóa nguyên tử nợ trong vòng triazin, vì cần phải tính chính xác năng lượng nên cách tính ab inidio với hệ
hàm cơ sở tương đối lớn (6-31G) đã được dùng để tối ưu hóa cấu trúc Lưu
để chung để tối ưu bóa cấu trúc được trình bày trong Sơ đỗ 3
HH Cách tính bán thực nghiệm ( Semi-empirical calculation) [19, 22]
Cách tính này sử dụng một số tham số thực nghiệm để giản lược các
phép giải gần đúng của phương trình sóng SchrÓdinger Do vậy, các phương
pháp này ít cần thời gian tính toán hơn và có thể dùng cho các phân tử lớn hay rất lớn Có nhiều phương pháp bán thực nghiệm, mỗi phương pháp sử
dụng một bệ tham số khác nhau
Đặc điểm của phương pháp bán thực nghiệm là [5]:
e Dang cho các hệ phân tử lớn, là các hệ không thể dùng các phương
pháp đắt tiền
e® Dùng cho các phân tử ở trạng thái cơ bản, là các phân tử mà dựa vào đó các phương pháp bán thực nghiệm đã được tham số hóa
Trang 14Qin He Shee ý
se Dùng để tính sơ bộ đối với các hệ phân tử lớn, Thí dụ có thể tối ưu
hóa bằng phương pháp bán thực nghiệm trên một hệ phân tử lớn để
có được một cấu trúc dùng làm cấu trúc bắt đầu cho phép tính tối ưu
Hartree-Fock hay DFT
e Để nhận được những thông tin định tính về một phân tử, như các
van đạo, điện tích, tân số dao động Trong nhiều trường hợp, các
phương pháp bán thực nghiệm có thể dùng rất thành công trong việc
dự đoán năng lượng cấu trạng, hiệu ứng nhóm thế một cách định
tính hay bán định lượng Tuy nhiên cần thận trọng trong các công VIỆC này
Phần này sẽ lần lượt điểm qua một vài phương pháp bán thực nghiệm thông dụng theo thứ tự phát triển của nó
HH.1 Phương pháp CNDO (Compiete Neglect Differemiial Qverlap)
Đây là phương pháp đầu tiên trong các phương pháp bán thực nghiệm phát triển sau này do Pople, Santry va Segal dua ra vao 1965 [26] Phương
pháp dựa trên giả định gần đúng như sau:
Tích phân 2 tâm 2 điện tử (up| A) VGi p va A trén bai nguyên tử khác ohau A va B
Trang 15V6i Paa= SPL, Pap = > P,,, 1a tong mat d6 dién tich trén A, B
Uụ, là năng lượng của vân đạo ¿„ trong từ trường của chính nhân A và
các điện tử bên trong
Vag la năng lượng của điện tử trong từ trường của một nhân khác
Hs, «(adv A | I B vi =Ùv— lụ B iv] ( ˆ
„ = Rall J peak |y-Rgis % Py Ir “Ral )
Vì ¿„ và $, trên cùng một nguyên tử nên U„ = Ö và với giả thuyết ban đầu sự xen phủ khác nhau là bằng không (zero-differential overlap) nên:
Vậy để thực hiện tính toán CNDO cần tính: Su, Van,YAn YAAVà Bas’
Hệ hàm cơ sở sử dụng cho phương pháp CNDO bao gồm vân dao dang Slater cho lớp hóa trị với số mũ được chọn theo nguyên tắc Slater Vì vậy hệ
hầm cơ sở bao gồm 1s cho hydro và 2s, 2p„, 2py, 2p; cho các nguyên tố thuộc
hàng thứ nhất của Bảng Phân Loại Tuần Hoàn
Tích phân xen phú của hai hàm cơ sở trên cùng một nguyên tử bằng Ô
Trang 16Nhược điểm của phiên bản đầu tiên của CNDO (CNDO/1) là tính ra 2 nguyên tử không mang điện tích vẫn có tương tác với nhau mặc dù ở cách
nhau nhiéu angstroms và dự đoán khoảng cách của phân tử đa nguyên tử ở
trạng thái cân bằng thì quá nhỏ trong khi đó năng lượng phân ly thì quá lớn
Đo đó trong phiên bản thif 2 cla CNDO (CNDO/2) d& thay Vag = Zg-Yan Va
Uy được xác định bao gồm năng lượng lon hóa và ái lực điện tử
Ua = "` i + Ay )-{ Za 7 S7AA)
HI.2 Phương phap INDO (Complete Neglect Diffrential Overlap)
Nếu như trong phương pháp CNDO đã bỏ qua trạng thái spin của điện
tử khi chúng tương tác thì nó được chú ý trong phương pháp INDO tiép đến
đo Pople và đồng nghiệp đưa ra 1967 [25]
Trong INDO bao gồm cả sự xen phủ của nguyên tử trên cùng một tam
dẫn đến tương tác giữa 2 điện tử trên cùng Ì nguyên tử với spin song song có
năng lượng thấp hơn so với tương tác của những điện tử có spim ngược chiều
nhau Ma tran Fock được viết lại với spin (œ bay B) như sau:
Fe Ru = Uy + Ầ, 21 Pais (uviAc) -P'is (HÀ, Iv@)] + 2(Pap- 23 )-) YAB (IL.25)
AGAGEA
Fey =Uy + 2 ZL Pae (¡v]ÀAơ) ~P”¿„(HÀjvợơ)] ,V HveA (11.26)
Fo, = 2 (BA +tPs°)Su —P›sðyag ,Vụe A,veB (11.27)
Trong hé théng "Idp kin", Pew = Pry =l/2Py
Nếu hệ hàm cơ sở gồm các vân đạo s, p thì nhiều tích phân một tâm
trong INDO sé bing không, ngoại trừ các tích phân của 1 tâm 2 điện tứ như
(Hulu), (uplvy) va (uviv) không bằng không,
Trang 17Ma tran Fock được viết lại như sau:
Buy = Uy ee [ Pw (HHjvv) ~Pyy (uxvịuv)] + x (Pap— Zp )-Yas (I.28)
Khác với CNDO/2 một vài tích phân 1 tam 2 điện tử trong INDO là những thơng số bán thực nghiệm cĩ được từ đữ liệu phổ nguyên tử và tích
phan U,, cĩ để ý đến cấu hình điện tử
Ưu điểm của INDO so với CNDO ở chỗ cĩ thể phân biệt được sự khác nhau giữa các trạng thái khác nhau của nguyên tử trong phân tử
Ví dụ trong CNDO cấu hình của carbon ở trạng thái singlet hay triplet đều cĩ cùng năng lượng như nhau trong khi đĩ nếu tính bằng INDO thì năng
lượng sẽ khơng bằng nhau
(11.3 Phuong phap NDDO (Neglect Diatomic Differential Overlap)
Phương pháp này cũng được Pople và đồng nghiệp đưa ra Trong đĩ NDDO chỉ bỏ qua sự khác biệt xen phủ giữa các vân đạo nguyên tử trên các
nguyên tử khác nhau vì thế tất cả các tích phân 2 tâm 2 điện tử (uvÍAø) với H
và v ở trên cùng một nguyên tử và À, ơ cũng cùng trên một nguyên tử được gif lai trong ma tran Fock Do d6 ma tran Fock cĩ dang:
Nếu hàm cơ sở được sử dụng là s, p thì phương trình (H.30) và (1.31)
được viết gọn lại như sau:
Trang 18%2, hac Hh
111.4 Phuong phap MINDO/3
Phương pháp MINDO/3 được Bingham, Dewar và Lo giới thiệu vào năm 1975[8] Phương pháp MINDO/3 không có sự thay đổi lớn về mặt lý
thuyết: cũng dựa trên cơ sở của phương pháp INDO nhưng có cải tiến cách tham số hóa và sử dụng nhiều dữ liệu thực nghiệm hơn
MINDO/3 sử dụng hệ hàm cơ sở là s và p Ma trận Fock có dạng:
l
Fup = Uy +2 [ Pvy (HH|vv) "5 Pw (uv|uv)]+> (Pps-Ze)-Yas (IL35)
Fuy = Hy - + Pao(hvlny) =H yy - 2P YAs ,Vụue A,veB (IL37)
Tích phân đẩy 2 tâm yag trong MINDO được tính theo phương trình:
ga, gb la trung binh cua tich phan g(( 2 tam 2 điện tử trên nguyên tử A
và B, ( guv= (H|vV))
Tích phân 2 tâm 2 điện tử H”,„„ trong MINDO/3 có dạng:
I, , 1) 1a thế ion hóa, Bas tuỳ thuộc vào bản chất của A và B
Tương tác giữa các cặp hạt nhân cũng được thay đổi trong MINDO/3
Tích phân đẩy điện tử-điện tử có dạng:
2
e Eap = 22a) von (Yan c9Í" san Bạn) (H40)
AB œAp phụ thuộc vào bản chất của A và B
Trang 19i015 Phuong phap MNDO (Modified Neglect Diatemic Overlap)
Phuong phap MINDO/3 đã tỏ ra khá thành công khi đưa vào ấp dung
Tuy nhiên nó vẫn còn một số hạn chế ví dụ như: nhiệt hình thành của phân tử
bất bão hoà được quá dương, các gốc nối tính được thường khá lớn (so với giá
trị thực nghiệm) và nhiệt hình thành của phân tử gồm các nguyên tử kể cận
có mang các cặp điện tử tự do tính được quá âm Các điểm hạn chế trên sinh
ra do các phép gần đúng đã dùng trong phương pháp HINDO (đà cơ sở của phương pháp MINDO/3)
Đewar và Thiel [12] đã để nghị phương pháp MNDO dựa trên sự cải tiến phương pháp NDDO
Trong phương pháp MNDĐO, ma trận Fock có dạng:
Fy = Hoyt 3 Pravin) ~ 2 Palani y]+ 22427 Po(uvido) , Vin eB (11.42)
trong dé: Hju=- 3, Vụug
Bea
Puy = Hy ; ST, Pre(uclva), V wed, veB (11.43)
trong đó: Hy = 5 Siw (By +B.)
với MP: = —Z zl Halal Sp Sp} va V vB = —Zg( HẠ Vị Sposa)
Tích phân đẩy điện tử-điện tử có dạng:
EAn = 2AZ2g.( SA SAI Sa Sg){ Ì + expCdA.Ras) + expCœsg.Rag)} đI44)
Phương pháp MNDO uyển chuyển hơn phương pháp MINDO/ MNDO có thể sử dụng cho nhiều nguyên tố như: nhôm, silic, thiếc, brom, chì
Tuy nhiên việc sử dụng ham cơ sở s, p trong MNDO ở phiên bản đầu không
thể áp dung cho các kim loại chuyển tiếp cũng như không thích hợp với những nguyên tế siêu hóa trị (hypervalence) như lưu huỳnh, phospho
Trong những phiên bản gần đây của phương pháp MNDO (Thiel và Voityuk, 1994), vân đạo d được đưa thêm vào cho các nguyên tố nặng
Trang 20Điểm hạn chế chính trong MNDO là không có khả năng tính toán
chính xác khi hệ thống có tương tác nội phân tử liên quan đến nối hydrogen,
ví dụ nhiệt hình thành của nước dimer quá thấp nếu tính theo phương pháp MNDO MNDO cũng không cho kết quả tốt đối với hệ thống tiếp cách
Nhược điểm trên chính là do khuynh hướng ước lượng quá cao sự đẩy giữa các nguyên tử khi chúng ở cách nhau mội khoảng cách gần bằng tổng bán kính Van der Waals của chúng Ngoài ra, năng lượng tính bằng phương pháp MNDO sẽ quá dương đối với các phân tứ có nhiều chướng ngại lập thể và
quá âm đối với các phân tử mang các vòng bốn
EH.6 Phương pháp AMI (Austin Model 1)
Phương pháp AMI do nhóm của Dewar đưa ra vào năm 1985 [13],
nhằm khác phục các hạn chế của phương pháp MNDO Biểu thức đẩy điện
tử - điện tử bên trong có dạng:
Ean = Ewuwno + ZAZa / Ras{ÖKại exp[-LA(Raas - Mụj'] (H.45)
+ 3 Kpiexp[-La(Rap - Msj)”]}
M, K,L là những thông số được tối ưu cho mỗi nguyên tử,
HĨ.7 Phương phap PM3 (Third Parametrisation of MNDO)
PM3 cũng dựa trên nền tầng của phương pháp MNDO do Stewart đưa
ra vào năm 1989 [29, 30] AMI là phương pháp tham số hóa lại lần thứ nhì
của phương pháp MNĐO, còn PM3 là lần ba
Điểm khác nhau cơ ban cha phương pháp PM3 so với AMI là tham số
sử dụng trong phương pháp PM3 được tham số hóa tự động theo chương trình
của Stewart trong khi đó tham số sử dụng trong AM] dựa trên kiến thức hóa
học và mang tính trực giác Hệ quả là giá trị của một số tham số khác nhau nhiều mặc dù cả hai phương pháp cùng dùng một dạng hầm va sự đoán nhận
về nhiệt động và đặc tính của cấu trúc ở mức độ chính xác gần như nhau, 11.8 Phương pháp SAMI1 ( Semi-Ab initio - Model 1)
Gan day, Dewar (1993) dé nghi phuong phap SAM1 [11], phuong phap
này sử dụng hệ hàm cơ sở STO-3G để tính các tích phân đẩy điện tử Số
tham số sử dụng trong phương pháp SAMI ít hơn trong phương pháp PM3
Trang 22Luin Chi Shao
IG 3 MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH
&
THONG KE
1 Phương pháp hãi qui tuyến tính đa biến{3]:
Hỗi qui tuyến tính là một trong những phương pháp phân tích thống kê lâu đời và được sử dụng rộng rãi trong nhiều ngành kỹ thuật, nhất là phương pháp hồi qui tuyến tính đa biến
Hồi qui tuyến tính đa biến là tổ hợp tuyến tính giữa biến phụ thuộc với
nhiều biến độc lập
Nếu có n tập quan sát trong đó mỗi tập gồm có p biến độc lập, xị, x,
Xp và biến phụ thuộc, y¡ (1 < ¡< n) Mô hình ứng với biến phụ thuộc và độc lập ở tập k trong n tập quan sát là:
P
Y= dạ+ GiX(ij + F0 Xụp+ tŒpXụp +EV =Œạ +3 0X +ếy — đHÍ)
j=
€, thường được gọi là sai số, là chênh lệch giữa giá trị quan sát được
yy và trung bình của tập con các giá trị của biến y tại điểm Xụ
sự được xem là biến ngẫu nhiên, độc lập có phân phối chuẩn, có trung bình bằng zero và phương sai là ơ”
Các hệ số trong phương trình (HI.1) được ước lượng theo nguyên tắc
bình phương tối thiểu nghĩa là làm sao cho tổng bình phương của phần dư sau
Trang 23Lin bn Shao GE
y, 1a gid tri dự đoán hay giá trị lý thuyét ciia y, từ đường thẳng phù hợp
RỶ = 1 cho tất cả các quan sát đều nằm trên đường thẳng
2 n 242K A a 2 oe, at ^ n ` a
Rˆ =0 không có liên hệ tuyến tính giữa 2 biến độc lập và phụ thuộc
* Độ lệch chuẩn S là thước đo lạc quan sự phù hợp của mô hình
* Giá trị F được dùng để kiểm định mức độ phù hợp của mô hình hổi
quy với các đữ kiện quan sát,
Nếu mô hình tìm được có sự tuyến tính cao giữa các biến phụ thuộc và
các biến độc lập thì phương pháp này có ưu điểm sau:
* Những mối quan hệ của dữ liệu quan sát được mô tả rõ rằng
* Là phương pháp đơn giản cho việc đoán nhận mẫu quan sát mới
Tuy nhiên phương pháp này sẽ không phù bợp trong những trường hợp
mà giữa các biến có bên hệ chặt chế với nhau hoặc số biến lớn hơn số mẫu
quan sat
Hai phương pháp được sử dụng rộng rãi trong trường hợp nay là phương pháp hồi qui thành phần chính (PCR: Principle Component Regression) và phương pháp bình phương cực tiểu riêng phần (PLS: Partal Least Squares)
mà chúng tôi sẽ trình bày sau đây
Trang 24Liin Gln Chao Gk
Ti Phuong phap héi qui thanh phan chinh [22]
Nếu tất cả các phương sai trong một bộ đữ liệu mà giữa các biến có
liên hệ chặt chế với nhau, có thể giải thích được bằng cách dùng một biến
mới z = x + y thì biến z này được gọi là thành phần chính
Một thành phần chính là tổ hợp tuyến tính của các biến: P;=5 c¡.X;
jel — Trong đó p¡ là thành phần chính thứ ¡, c¡ là hệ số của biến x;
Thành phần chính thứ nhất biểu diễn tốt nhất sự thay đổi phương sai
của dữ liệu Mỗi một thành phần chính tương ứng với một trục trong không
gian v chiều và thì trực giao với các thành phần chính còn lại
Thành phần chính được tính dựa trên kỹ thuật ma trận chuẩn Đầu tiên,
tính ma trận phương sai - đồng phương saiZ: — Z=DÏD
Ð là ma trận s cột, v đòng s là số mẫu quan sắt và v số biến trong Ì mẫu
Vector trị riêng của Z là hệ số của các thành phần chính được tính theo phương trình: |Z — All =O
Thứ tự của thành phần chính tương ứng với sự tăng dẫn của trị riêng Sau đó thực hiện phân tích hồi qui với một số thành phần chính đầu tiên
HH, Phương pháp bình phương cực tiểu riêng phần
(PLS: Partial Least Square)[22,32 ]
Phương pháp PLS làm giảm kích thước của biến bằng cách đưa biến phụ thuộc y về tổ hợp tuyến tính của các biến độc lập ban đầu x như sau:
y= bit; + bot + bạt + Batm +6 ạM.2)
Trong đó: ty = CypXy + Cl2X: + CpXo
tạ = CaiXc + C¿¿2X¿ + PP CapẤp
fin = CmiX1 Cm2X¿ + CupẤp
tạ, tạ, được gọi là biến Ẩn hay biến thành phần, được xây dựng theo
cách hình thành một bộ trực giao sau đó được tính tương tự như việc phân íích
các thành phần chính
Trang 25Fain Cn Mae CE
IV Phuong phap mang nd ron
IV.1 Gidi thiéu
Do kha năng tự xây dựng được các ánh xạ từ các đữ liệu mẫu, cùng với các thuật toán học được sử dụng, mạng nơ ron đã trở thành một công cụ
hữu hiệu hỗ trợ cho công tác phân tích và dự đoán, đặc biệt trong các trường
hợp các đữ liệu và ánh xạ cần xác định có độ phức tạp
Trong những năm gần đây việc ứng dụng mạng nơ ron vào hóa học đặc biệt là trong lãnh vực nghiên cứu QSAR đã tăng một số đáng kể Ví dụ nếu
từ 1988 chỉ có 3 bài báo thì đến 1991 đã có hơn 110 bài báo công bố về ứng
dung no ron trong hóa học [33]
Thật ra những tính toán về mạng nơ ron đã được hai nhà khoa học Mỹ giới thiệu từ 1943, từ đó khái niệm về mạng nơ ron nhân tạo được hình thành
và phát triển cho đến ngày nay
Mạng nơ ron nhân tạo ANN (Artificial Neural Networks) gồm những
nơ ron là những đơn vị xử lý nhị phân, nốt với nhau bằng những bộ trọng số,
mà cấu trúc và cách xử lý của nó được mô phỏng và đơn giấn hóa từ cấu trúc
và quá trình tiếp nhận - xử lý thông tin phức tạp của bộ não con người,
Để có khái niệm tổng quát về mạng nơ ron, phần này sẽ giới thiệu sơ
lược về cấu tạo và cách truyền thông tin của nơ ron sinh học vA mang nd ron
nhân tạo ở các khía cạnh: mạng lan truyền đa lớp, các thành phần cơ bản và
trạng thái hoạt động của mạng
FV.2 No ron sinh hoc va nd ron nhan tao [9, 31]:
FY.2.1.Ne ron sinh hoe:
Hệ thần kinh của con người bao gồm khoảng 10”! tế bào thần kinh bay
còn gọi là nơ ron, Một nơ ron sinh học tiêu biểu gồm một thân tế bào (soma) với một nhân bên trong Thân tế bào bao gồm nhiều sợi nhánh và sợi trục
Trang 26Hình]: Cấu tạo cia nd ron sinh hoc
Nhưng không phải lúc nào tín hiệu đưa vào cũng được truyền đi va
truyền nguyên vẹn mà chỉ khi tín hiệu đó đạt đến một giới hạn nào đó và khi
truyền qua synapse nó được biến đổi tuỳ thuộc vào lực synapse
Một tín hiệu có cường độ x; khi qua synapse 1 sẽ có cường độ là s¡; ứng
VỚI lực synapse W¡: §¡ = Xj Wi
IV.2.2 Nơ ron nhân tạo:
Để mô phỏng lại hoạt động này của nơ ron sinh học, Mccullogh và Pitts đã đưa ra mô hình của mạng nhân tạo gồm những nơ ron nhân tạo là
những đơn vị xử lý nhị phân, trong đó nơ ron có n giá trị nhập ở dạng nhị
phân 0, 1 và một giá trị xuất cũng ở dạng nhị phân 0, 1 Một ứng với trạng thái "bật" (tương ứng với tín hiệu được truyền đi do lớn hơn ngưỡng qui định), zero cho trường hợp ngược lại