Phần 2 tính toán ứng dụng hóa lượng tử và tin học khảo sát các ức chế
Trang 2Lada On Sige SE
GIGI THIEU
Nhóm chất ức chế 4,6-diamino- 1 ,2-dihydro-2,2-dimethyl-1-pheny] triazin có dạng tổng quái như sau:
Giá trị k, ở các enzym DHER cô lập từ các nguồn khác nhau thì khác nhau
với cùng mội chất ức chế
Trong phần này, chất ức chế được khảo sát lý thuyết, bằng các tính toán lượng tử kết hợp với các phương pháp xử lý dữ liệu, ở 2 khía cạnh:
* Tìm hiểu vị trí tương tác của chất ức chế với enzym thông qua việc
xác định vị trí proton hóa các nguyên tử nitơ trên chất ức chế (với X = H), đẳng thời khảo sát một số tham số cấu trúc như độ đài nối, gốc nối và điện
tích của chất ức chế trước và sau khi được proton hóa
* Khảo sát QSAR của chất ức chế trên 3 loại enzym để tìm mối liên hệ
có thể có giữa hoạt tính ức chế với những tham số cấu trúc của chúng bằng 3 phương pháp: phương pháp hồi qui tuyến tính da biến (MLR), phương pháp
bình phương cực tiểu riêng phần (PLS) và phương pháp mạng nơ ron (ANN) Việc so sánh các kết quả nhận được từ các phương pháp trên cho phép rúi ra
những nhận xét cân thiết về khả năng áp dụng của từng phương pháp trong
việc khảo sát QSAR.
Trang 3Năm cấu trúc Ó, 1, 2, 3, 4 lần lượt tương ứng với dạng không proton hóa
va proton hóa tại nitơ ở vị trí |, 2, 3, 4 có đạng như sau:
3 `: JO Sự Ô) Aw? lot |
Năng lượng proton hóa chính là hiệu số giữa 2 năng lượng của 2 cấu
trúc không và có proton hóa
Để xác định năng lượng proton hóa cần tính chính xác năng lượng, do
đó phải chọn phương pháp tính toán thích hợp Ở đây, năng lượng được tính
bằng phương pháp ab-inido với hệ hàm cơ sở tương đối lớn, 6-31G, có để ý
_ đến năng lượng ở điểm zero với phdn mém GAUSSIAN 94 [34] (co sd cha
cách tính đã được trình bày trong Chương II, Phần lý thuyết) Cách tính được thực hiện qua các giai đoạn sau:
53
Trang 4ign Cbn Shao
Giai đoạn 1: Các cấu trúc được xây dựng và tối ưu hóa theo cách tính
bán thực nghiệm PM3 bằng phần mềm HYPERCHEM 4.536], nhằm xác
định cấu trúc ban đầu tương đối đúng làm điểm bắt đầu cho giai đoạn 2
Giai đoạn 2: Cấu trúc sau khi tối ưu hóa ở giai đoạn 1 được chuyển
sang bộ chương trình GAUSSIAN 94 [34] để tối ưu hóa theo cách tính ab-
initio với hệ hàm cơ sở 6-31G Kết quả thu được là năng lượng Eur của cấu trúc tối ưu
Giai đoạn 3: Cấu trúc sau khi tối ưu hóa ở giai đoạn 2 được sử dụng để tính năng lượng ở điểm zero bằng cách tính tần số dao động cũng ở hệ hàm
6-31G Năng lượng điểm zero Ezpg được hiệu chỉnh bằng cách nhân thêm với
0.8929 trước khi được thêm vào năng lượng của Ekz
Giai đoạn 4: Tính năng lượng proton hóa của các cấu trúc được proton
hóa để tìm vị trí có ái lực proton lớn nhất
Các kết quả tính toán được trình bày sau đây:
* Năng lượng tổng cộng (hartree), năng lượng điểm zero (hartree) và
năng lượng proton hóa (Kcal/mol) được trình bày ở Bảng 2
Bảng 2
Cấu Eur Ezpg x 0.8929 E Năng lượng proton hóa
trúc (hartree) (hartree) (hartree) (Kcal/mol)
Kết quả cho thấy năng lượng proton hóa lớn nhất ứng với cấu trúc 1
(proton héa tai N1) va nhỏ nhất ứng với cấu trúc 4 (proton hóa tại N4) Điều này chứng tỏ sự proton hóa NI xảy ra dễ dàng nhất và khó xảy ra ở N4
54
Trang 5Két qua cho thay:
* Về đô dài nối, chỉ có độ dài nối NạC; ở cấu trúc 2 ( proton héa tai N2) và N¿C¿ ở cấu trúc 4 (proton hóa tại N4) là thay đối đáng kề nhất (tăng khoảng 10%)
* Về góc nối, góc nối thay đổi không đáng kể và chỉ có góc xoắn ở cấu
trúc 1 tăng lên gần 10 độ khi đi từ cấu trúc không proton đến cấu trúc được
proton hóa Giá trị góc xoắn trong cấu trúc 4 bằng không cho biết vòng
Trang 6Padi bn Shao
B KHAO SAT MOI LIEN HE ĐỊNH LƯỢNG GIỮA
CUA CHAT UC CHE ENZYM DIHYDROFOLATE REDUCTASE
Phần này sẽ khảo sát QSAR của các dẫn xuất chất ức chế chế 4,6-
diamino-1,2 dihydro-2,2 dimethyl-1-phenyl triazin vdi_ 3 nguén enzym kh4c
nhau: từ gan gà, khuẩn L-casei và người,
1 Các bước thực hiện và phần mềm sử dụng
Qui trình được thực hiện như trong sơ đồ ở chương QSAR
øe Xây dựng và tối u hóa cấu trúc của hợp chất,
Tất cả các cấu trúc phân tử được xây dựng và tối ưu hóa bằng chương
trình HYPERCHEM 4.5136] với cách tính bán thực nghiệm PM, là một trong những phương pháp thông dụng và đáng tia cậy nhất của cách tính bán thực
nghiệm với chuẩn hội tụ là 107
e Tính toán những thông số đặc trưng cho cấu trúc
Từ những cấu trúc đã tối du ở trên một số những đặc trưng về cấu trúc
như: điện tích, thể tích, điện tích, độ phân cực v.v được tính từ chương trình CHEMPLUS 3.0 [35] Những thông số này đóng vai trò là các biến độc lập xây đựng nên mô hình
Ngoài ra để mô hình có thể áp dụng tổng quát hơn, ở đây có sử dụng
thêm 2 biến chỉ định l;, l¿ đặc trưng cho nhóm thể ở vị trí 3 và 4
1; =1, ứng với nhóm thế tại vị trí 3 có đạng CH:ZCuHu,Y và ZCH;C;H¿Y
với Z = O, NH, S, Se 1; = 0 cho trường hợp ngược lại Tương tự cho L, khi
nhóm thế gắn tại vị trí 4
Chất ức chế ở dạng tổng quát được qui ước đánh số như sau:
Trang 7Lida bn Ghee Che
Energy Năng lượng tổng cộng của phân tử (đơn vị hartree)
Homo Nẵng lượng homo (vân đạo đầy thấp nhất,đơn vị hartree) Lumo Năng lượng lumo (vân đạo trống cao nhất đơn vị hartree) Logp Hệ số octanol/ nước
Area Điện tích phân tử
Hydra Năng lượng hydrat hóa( đơn vi kcal/mol)
Polar Độ phân cực
Charl-Charl4 Điện tích trên nguyên tử số 1 đến nguyên tử số 14
I, Nhóm thé tai vị trí số 3 trên vòng benzen
L, Nhóm thế tại vị trí số 4 trên vòng benzen
e Phân tích đữ liệu
Tất cả các biến độc lập ở trên không phải được đưa hết vào mô hình
Mặc dù việc thêm biến độc lập vào làm tăng hệ số tương quan R”, nhưng nó không hẳn phần ánh mô hình hồi qui càng phù hợp hơn với tổng thể Việc đưa nhiều biến độc lập vào mô hình hếi qui nói chung không phải lúc nào
cũng tốt, trừ phi chúng có liên hệ mạnh với biến phụ thuộc
Đưa vào các biến không thích đáng sẽ làm tăng các sai số chuẩn của tất cả ước lượng mà không cải thiện được khả năng dự đoán Và mô hình
càng có nhiều biến thì càng khó giải thích Vì vậy trong phần so sánh đánh
giá mô hình ở phần sau Mô hình được chọn ứng với mô hình có giá trị %,
đặc trưng cho khả năng tổng quất của mô hình cao nhất, kế đó là số biến độc
lập nhỏ nhất và cuối cùng là R”(đo khả năng phù hợp của mô hình)
Trước khi xây dựng mô hình cần tiến hành lựa chọn số biến tối wu cho
mô hình
* Phương pháp hồi qui tuyến tính đa biến được thực hiện với phần mềm
STATGRAPHICS 7.0 [38] Trong đó chúng tôi dùng thủ tục hồi qui từng
bước với phương pháp loại trừ dan (Backward elimination) dé lua chon biến
và xây dựng mô hình Thủ tục này được thực hiện như sau:
57
Trang 8Fun Cn Kee oF
Đầu tiên các biến được đưa vào phương trình sau đó loại trừ dẫn chúng theo tiêu chuẩn loại trừ Có 2 tiêu chuẩn loại trừ Tiêu chuẩn thứ nhất là giá trị F tối thiểu biến phải đạt được để ở lại trong phương trình gọi là F ra (F-to- remove) Các biến có giá trị F nhỏ hơn F ra sẽ bị loại ra khỏi phương trình Tiêu chuẩn thứ 2 là xác suất tối đa của F ra (probability of F-to-remove) ma một biến phải nhỏ hơn Nếu vượt quá xác suất tối đa cho phép này thì biến sẽ
bị loại
* Phương pháp bình phương tối thiểu riêng phần được thực hiện trong
phân mềm SPLUS{38) Số biến ẩn được chọn sao cho mô hình có tính tổng quất lớn nhất
* Phương pháp mạng nơ ron được thực hiện theo chương trình của Venables và Ripley chạy trên SPLUS Mô hình nơ ron quy định trong chương
trình này có dạng feed-forward bao gồm 3 lớp: lớp nhập, lớp ẩn và lớp xuất
Mỗi một nút trên lớp nhập tương ứng với một biến độc lập ngoại trừ nit bias Trong bài ở lớp xuất chỉ có một nút ứng với hoạt tính sinh học là logl/k, Mô
hình có đạng tổng quát như sau:
HL QSAR của chất ức chế với nguôn enzym DHFR từ gan gà
11.1 Dữ liệu
Dữ liệu được ding trong phần này gồm 113 chất (bảng 6) 25 biến độc
lập và 1 biến hoạt tính làm biến phụ thuộc Giá trị cho trong phụ lục I
38
Trang 9iin G9 Gạo GUẼ
2 _| 3-8SO,NH, 40 | 3-CH) O-c-C, Hy, 78 | 4-CN
3 | 3-CONH, 4i | 3-CH,NHC,H33",5'-CONH)), 19 _| 4-OCH,CO-c-N(CH,CH,),0
4 | 3-COCH, 42 | 3-CH.NHC.H, -4°-SO,NH, 80] 4-O(CHj);OC,H.-4 NH, 3_ | 3-COOCH,CH;¿ 43 | 3-CH,OC,H, 81 | 4-CHy
ii | 34 49 | 3-CH, OCH, ~3'-CoHy 87 | 4.O(CHj);,CH¡
12 13-NO, 50 | 3-CH;OC,H,~3'-CH(CHạ); 88 | 4-O(CH)),CH,
13 | 3-CN 5ì | 3-CH) OCH, -3°-C(CH)s 89 | 4O(CH Dio CH,
14_| 3-CH|N(CH "Cr $2 _| 3-CH, OCsH, -3"-CoHs 90 Ì 4-O(CHL) CH,
15 | 3-CH; 33 | 3-CH, OCH, -3’-NHCOCH, 91 | 4-OCH,CeHs
l6 | 3-CH.CH, 34 | 3-CH, OCH, -3'-NHCSNH, 92 | 4-OCH, CsHy-3".4-Ch
2%6 | 3-O(CH))<CH 64 | 4-SO,NH, 102 | 4C = CSi(CH3)3
27 | 3-O(CH;)CH¡ 65 | 4-SO:CHì 103 | 3-CL4-OCH, CcHJON(CH,)
28 3-O(CH;),2CH¡ 66 | 4-CONH, 104 | 3-CL4(CH)), CoHy-2 -CL4
SO,F
29 Ì3-0(CH¡),.CH, 67 | 4.CQCH: 105 | 3-SO,NH, , 4-Cl
30 3-O(CHj);CH: 68 | 4-COOCH, 166 | 3-OCH;,4-OQCH;
31 | 3-O(CH) CH; 69_| 4-COOOHs 167_| SNE, GES
Trang 10idan O8n hac Er
MI.2 Hải qui tuyến tính đa biến
* Tìm hiểu mối quan hệ giữa các biến bằng biểu đổ phân tán (scatter plot) va ma tran hé số tương quan
Biểu dé phần tán và ma trận hệ số tương quan của chất ức chế enzym
DHER từ gan gà được cho trong phụ lục từ hình (39-43) và báảng(24)
Nhận thấy giữa các biến độc lập và biến phụ thuộc không có tương quan mạnh với nhau nhưng giữa các biến độc lập với nhau có một số biến lại tương quan rất chặt chế với nhau Ví đụ như giữa biến energy với biến volum, area, refra, polar Giữa biến homo với biến char3, giữa biến volum với biến area
* Kết quá tính hồi qui đa biến cho mô hình gồm tất cả 25 biến độc lập
Kết quả cho thấy, mặc dò mô hình (1.1) có Rˆ cao hơn so với mô hình
thứ 2 nhưng khả năng đoán nhận lại rất thấp Do đó, nếu phải chọn theo
phương pháp hồi qui đa biến ta chọn mô hình (1.2)
Bảng 7 Những biến số cho mô hình 1,2
Biến phụ thuộc Hệ số Sai số chuẩn
Trang 113⁄⁄ 0, (Ø/⁄%c Qð
Bảng 8
Kết quả tính và dự đoán hoạt tính sinh học (act) theo mô hình (1.2)
Hợp Act Act | Phần | Act | Phần | Hợp Act Act | Phan Act Phần
Chất | Thực tế | Tính Dư Đoán dư Chất | Thực tế | Tính dư Đoán Dư
Trang 13Studia Cn Oho
Tuy mô hình (1.2) tốt hơn mô hình , nhưng mô hình thường chỉ có giá
trị thực tế nếu giá trị R” > 0.81 Chúng tôi thử tim bing các phương pháp
khác nhằm cải thiện R” và Q,
HH.3 Bình phương cực tiểu riêng phan (PLS)
Phương pháp PLS được thực hiện với phần mềm SPUS, kết quả cho thấy mô hình tốt nhất trong phương pháp này ứng với 5 biến Ẩn,
Giá trị R” và Q” ứng với mô hình này (gợi là mô hình 1.3) là: R? = 0.597, 0’ = 0.373
Mô hình (1.3) tốt hơn mô hình (1.1) nhưng không cải thiện gì hon so
với mô hình (1.2) ở cả 2 giá trị về sự tương thích và khả năng đoán nhận
Hinh 14
Biểu thị trên cùng đề thị giá trị tính và giá trị dự đoán theo
giá trị thực nghiệm của hoạt tính theo mô hình 1.3
Trang 14trong bộ dữ liệu, ngược lại nếu có quá nhiễu nút sẽ xảy ra hiện tượng
"overfitting" như đã trình bày trong phần lý thuyết, tức mạng chỉ nhớ giỏi những gì đã được học mà không có khả năng dự đoán chất mới và vì thế sẽ
không có giá trị thực tế
Chúng tôi chọn mạng thích hợp bằng cách thay đổi số nút trên lớp
ẩn Và dựa vào hệ số tương quan R, tương quan dự đoán Q để đánh giá mạng
Bảng 9
So sánh phương sai dư, hệ số tương quan và hệ số tương quan
dự đoán với số nút trên lớp ẩn
Trang 15
Studn Q9 Ohkac C#
Từ bang 9 chon mé hinh 10-3-1 tinh toán kết quả cho bởi phương pháp
mạng nơ ron
Bảng 10: Kết quả tính toán hoạt tính sinh học của 98 hợp chất
trong tập mẫu theo mô hình mạng nơ ron 10-3-1
Trang 16
cuc O42, Sas CO
Hinh 16: Đồ thị biểu điễn hoạt tính theo thực nghiệm & tính toán
Hoạt tính theo tính toán
Hình 17: Đồ thị giữa giá trị hoạt tính tính toán và giá trị dự đoán
Trang 17tutes Sn Chige OF
Hinh 18
Biểu thị trên cùng đồ thị giá trị tính và giá trị dự đoán theo
giá trị thực nghiệm của hoạt tính
cho15 hợp chất mới không tham gia trong quá trình luyện mạng
67
Trang 18~#⁄%juv Gn Ghae CE
Kết quả dự đoán hoại tính cho tập đữ liệu mới không được học
Đỗ thị biểu điễn hoạt tính thực nghiệm & hoạt tính dự đoán
của các hợp chất trong mẫu kiểm tra theo phương pháp nơ-ron
Trang 19Pain Bn, Shue eH
HH, QSAR của chất ức chế với enzym DHFER từ khuẩn L.-Casei
HH.1 Dữ liệu
Đữ liệu được đùng trong phần này gồm 72 chất (bảng 12) 25 biến độc
lập và 1 biến hoạt tính làm biến phụ thuộc Giá trị cho trong phụ lục 2
“Tại |3.CH;OC,H,-3-C(CH» 3; CHOC He 3 NHCOCH, 68 69 4-QCH;C;H-4 -CONH; 4-OCH:CeHs_ —
—~ 3 — Ïà.CH;OC4l-3:CN 70 4-OCH; CyHy-3" 4 -Ch
Trang 20Giga in, C@n Sho OF
Trong dé chia ngau nhiên làm 2 tập riêng biệt, Tập để xây dựng mô hình gồm 6§ chất, tập để kiểm tra tính đự đoán của mô hình gồm 7 chất
IH.2 Hồi gui tuyến tính đa biến,
* Ma trận hệ số tương quan của chất ức chế enzym DHER từ khuẩn I- casei được trình bày trong phần phụ lục 6 bang 25
* Kết quả tính hồi qui đa biến cho mô hình gồm tất cả 25 biến độc lập
Kết quả cho thấy: Mô hình (2.1) khong thể sử dụng được vì không có
khả năng đoán nhận ( giá trị Q âm) Mô hình (2.2) là kết quả ứng với 11 biến
độc lập được chọn từ 25 biến ban đầu bằng phương pháp loại trừ dân Mô hình (2.2) có giá trị QÝ khá hơn nhiễu so với mô hình (2.1) mặc dù giá trị hệ
số tương quan Rˆ nhỏ hơn Một số kết quả tính từ mô bình ( 2.2)
Bang 13 Những biến số của mô bình 2.2
Biến Phụ thuộc Hệ số Sai số chuẩn
Constant 28.11 22.19 Homo 7.65 1.12
Char9 13,76 4.96 Hydra 0.08 0.02
Trang 21Luin Bn Shae Ge
Bang 14
Kết quả tính và dự đoán hoạt tính sinh học (act) theo mô hình 2.2