Bộ YTẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI LÊ ĐĂNG HUY PHÁT HIỆN HỢP CHẤT ức CHÉ ENZYM PROTEASE (MPRO VÀ PLPRO) CỦA VIRUS SARS COV 2 sử DỤNG MÔ PHỎNG ĐỘNG Lực HỌC PHAN TỬ • • • KHÓA LUẬN TỐT NGHIỆP DƯỢC sĩ HÀ[.]
Trang 1Bộ YTẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
LÊ ĐĂNG HUY
PHÁT HIỆN HỢP CHẤT ức CHÉ ENZYM PROTEASE (MPRO VÀ PLPRO) CỦA VIRUS SARS-COV-2 sử DỤNG MÔ
KHÓA LUẬN TỐT NGHIỆP DƯỢC sĩ
HÀ NỘI - 2022
Trang 2Bộ YTẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI
LÊ ĐĂNG HUY
Mã sinh viên: 1701256
PHÁT HIỆN HỢP CHẮT ức CHẾ ENZYM PROTEASE (MPRO VÀ PLPRO) CỦA VIRUS SARS-COV-2 sử DỤNG MÔ
PHỎNG ĐỘNG Lực HỌC PHAN TỬ
KHÓA LUẬN TỐT NGHIỆP DƯỢC sĩ
Người hưởng dân:
PGS TS Phạm Thế Hải
Nơi thực hiện:
Bộ môn Hóa Dược
HÀ NỘI - 2022
Trang 3LỜI CẢM ƠN
Đầu tiên, tôi xỉn bày tỏ lòng biết ơn sâu sắc và gửi lời cảm ơn chân thành tới
người thầy của tôi - PGS TS Phạm Thế Hải, giảng viên Bộ môn Hóa Dược, Đại học Dược Hà Nội - người thầy đã tận tâm hướng dẫn, chỉ bảo tôi từ những bước đi chập
những đầu tiên trên con đường nghiên cứu khoa học và trong suốt quãng thời gian tôi thực hiện khóa luận Thầy không những là người truyền cảm hứng khoa học cho tôi, mà
thầy còn dạy cho tôi những kiến thức sâu rộng và phương pháp làm việc đầy hiệu quả, đưa ra những lời khuyên rất hữu ích với tôi trong định hướng phát triển bản thân khi
làm nghiên cứu khoa học.
Tỏi củng vô cùng biết ơn và xỉn chân thành cảm ơn các thầy cô Bộ môn Hóa
Dược đã luôn tạo điều kiện thuận lợi cho tôi được nghiên cứu, học tập và hoàn thành khóa luận này.
Tôi xin cảm ơn gia đình và bạn bè, những người đã luôn ủng hộ tôi trên mọi con đường tôi đã chọn, cũng là nhừng người đã luôn sát cảnh và cho tôi những góp ý chân thành trong quá trình hoàn thiện khóa luận.
Tôi củng xin gửi lời cảm ơn tới ssc - Sci-students' Companion đã tổ chức những
buổi workshop ỷ nghĩa và có những lời khuyên thật bổ ích giúp tôi hoàn thiện được khóa
luận này.
Cuối cùng, tôi xin cảm ơn tới Ban giám hiệu cùng toàn thể các thầy cô giáo Trường Đại học Dược Hà Nội đã dạy dỗ và tạo điều kiện giúp tôi hoàn thành quá trình học tập củng như hoàn thiện quá trình bảo vệ khóa luận.
Hà Nội, ngày 25 tháng 06 năm 2022
Sinh viên
Lê Đăng Huy
Trang 4MỤC LỤC
DANH MỤC CÃC KÝ HIỆU VIẾT TẮT
ĐẶT VÁN ĐỀ 1
CHƯƠNG 1: TỐNG QUAN 2
1.1 Tổng quan về protease của SARS-CoV-2 2
1.1.1 Cấu trúc và bước đầu quá trình dịch mã của virus SARS-CoV-2 2
1.1.2 Protease của virus SARS-CoV-2 3
1.1.2.1 Sự tương đồng giữa các chủng coronavirus 3
1.1.2.2 Cấu trúc của Mpro và PLpro 5
1.2 Tổng quan về mô phỏng động lực học phân tử 9
1.2.1 Đại cương về mô phỏng động lực học phân tử 9
1.2.2 Nguyên lý 10
1.2.3 Năng lượng tự do liên kêt 11
CHƯƠNG 2: NGUYÊN LIỆU, THIẾT BỊ, NỘI DUNG VÀ PHƯƠNG PHÁP 14
2.1 Nguyên liệu và thiết bị 14
2.2 Nội dung nghiên cứu 14
2.3 Phương pháp nghiên cún 14
2.3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ 15
2.3.2 Mô phỏng docking 19
2.3.3 Mô phỏng động lực học phân tử 21
2.3.3.1 Kiểm tra tính ổn định của phức hợp 21
2.3.3.2 Tính toán năng lượng tự do liên kêt 22
CHƯƠNG 3: KẾT QUẢ VÀ BÀN LUẬN 23
3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ 23
3.2 Mô phỏng docking 27
3.3 Mô phỏng động lực học phân tử 29
3.4 Bàn luận 34
Trang 53.4.1 ưu đỉêm của phương pháp 34
3.4.2 Nhược đỉểm của phương pháp 35
KẾT LUẬN VÀ KIẾN NGHỊ 37
TÃI LIỆU THAM KHẲO
PHỤ LỤC
Trang 6DANH MỤC CÁC KÝ HIỆU VIẾT TẮT
Angstrom (Đơn vị đo khoảng cách, chiều dài liên kết)
Application domain (Miền ứng dụng)Alanin
ArgininAsparagin
Acid asparticBệnh do coronavirus gây ra năm 2019Cryogenic electron microscopy (Kính hiên vi điện tử lạnh )Cystein
Donor - Acceptor (Nguyên tử cho - nhận liên kết hydro)
Electron paramagnetic resonance (Cộng hưởng thuận từ điện tử)
Fast Fourier transforms (Phép biến đổi Fourier nhanh)Forster resonance energy transfer (Cộng hưởng Forster truyền năng
lượng)Genetic algorithm (Thuật toán di truyền)
GlutaminAcid glutamicGlycin
HistidinThe half maximal inhibitory concentration (Nồng độ ức chế 50%,
thường dùng đối với chất ức chế protein, chất đối vận thụ thể, )Eeucin
Einear interaction energy (Năng lượng tự do tuyến tính)Eeave-one-out cross-validation (Kiểm chứng chéo leave-one-out)Eysin
Molecular dynamics (Động lực học phân tử)
Trang 7Middle East respiratory syndrome coronavirus (Virus gây hội
chứng hô hấp cấp tính Trung Đông)
MethioninMolecular mechanics Poisson-Boltzmann (generalized Born) surface area
Main protease I 3-chymotrypsin-like protease (protease chính /protease giống 3-chymotrypsin)
Multiple sequence alignments (Bắt cặp nhiều trình tự)
Nuclear magnetic resonance (Cộng hưởng từ hạt nhân)Non-structural protein (Protein phi cấu trúc)
Open reading frame (Khung đọc mở)
PhenylalaninPapain-like protease (protease giống papain)Particle-Mesh Ewald
Prolin
Quantitative Structure - Activity Relationship (Tương quan định
lượng cấu trúc - tác dụng)
Root-mean-square deviation (Độ lệch bình phương gốc)
Root mean square fluctuation (Dao động bình phương gốc)
Severe acute respiratory syndrome coronavirus (Virus gây hội
chứng hô hấp cấp tính nghiêm trọng coronavirus)
Severe acute respiratory syndrome coronavirus 2 (Virus gây hội
chứng hô hấp cấp tính nghiêm trọng coronavirus 2)
SerinThreonin
Tryptophan
TyrosinValin
Trang 8DANH MỤC CÃC BẢNG
Bảng 3.1. Kết quả thống kê của 2 mô hình 2D QSAR 25
Bảng 3.2 Điếm số docking và pICso dự đoán của các cấu trúc ức chế tiềm năng trên đồng thời Mpro và PLpro 28
Bảng 3.3. Giá trị RMSD của các phối tử trong 40ns mô phỏng MD cuối 30
Bảng 3.4. Tương tác cùa phối tử trong trung tâm hoạt động tại thời điểm cuối 32
Bảng 3.5 Năng lượng tự do liên kết MM/GBSA của các phức họp 34
Trang 9DANH MỤC CÁC HÌNH VỄ Hình 1.1. Bộ gen và bước đầu quá trình dịch mã của virus SARS-CoV-2 2
Hình 1.2. Sự bắt cặp nhiều trình tự trên Mpro (A) và PLpro (B) ở ba chủng coronavirus
ở người (SARS-CoV-2, SARS-CoV, MERS-CoV) 4
Hình 1.3 xếp chồng các cấu trúc monomer của Mpro (A) and PLpro (B) trên CoV-2 (hồng), SARS-CoV (xanh ngọc), và MERS-CoV (xanh lá) 5
SARS-Hình 1.4. Chu trình xúc tác của Mpro với bộ đôi xúc tác (Cysl45-His41) 7
Hình 1.5. Chu trình xúc tác của PLpro với bộ ba xúc tác (Cysl 11-His272-Asp286) .8
Hình 2.1. Quy trình thực hiện nghiên cứu 15
Hình 3.1. Biểu đồ phân tán của mô hình LMO (A - Mpro, B - PLpro) và mô hình ngẫu nhiên Y (C - Mpro, D - PLpro) so với mô hình QSAR gốc 23
Hình 3.2 Biểu đồ phân tán MLR (A - Mpro, B- PLpro) và biểu đồ William đại diện chomiền ứng dụng (C- Mpro, D- PLpro) 26
Hình 3.3 Sự xếp chồng phối tử redock (xanh lá cây) và phối tử đồng kết tinh (xanh ngọc) ở Mpro (A) và PLpro (B) tại trung tâm hoạt động 27
Hình 3.4 Cấu tạo các hợp chất tiềm năng ức chế đồng thời cả Mpro và PLpro 28
Hình 3.5 Biểu đồ RMSF của các acid amin trong các phức họp của Mpro (A) và PLpro
(B) .29
Hình 3.6. Biểu đồ RMSD các phối tử của Mpro (A) và PLpro (B) theo thời gian (ns)
30
Hình 3.7 Biến thiên độ dài liên kết hydro theo thời gian 31
Hình 3.8 Cấu dạng tại thời điểm cuối của các phối tử trong trung tâm hoạt động 33
Trang 10ĐẶT VẨN ĐÈ
Dịch bệnh coronavirus toàn cầu 2019 (COVID-19) là một mối đe dọa lớn đối vớisức khỏe cộng đồng trên toàn thế giới COVID-19 là kết quả của việc nhiễm coronavirus
2 gây hội chứng hô hấp cấp tính nghiêm trọng (SARS-CoV-2), lần đầu tiên được phân
lập và xác định ở những bệnh nhân tiếp xúc tại một chợ hải sản ở thành phố Vũ Hán, tỉnh Hồ Bắc, Trung Quốc vào tháng 12 năm 2019 [70] Bệnh ảnh hưởng đến nhiều cơ quan và hệ thống khác nhau và biểu hiện các triệu chứng từ nhẹ đến nặng, có thể gây ra hội chứng suy hô hấp cấp tính và tổn thương phổi cấp tính, cũng như tổn thương các hệ
thống cơ quan khác [11] Tính đến ngày 12 tháng 6 năm 2022, hơn 533 triệu trường hợp
được xác nhận và hơn 6,3 triệu trường hợp tử vong đã được báo cáo trên toàn cầu [64]
Đã có nhiều hướng điều trị được nghiên cứu, trong đó phát triển phác đồ điều trị bằng thuốc cũng là một hướng đi tiềm năng trong cuộc chiến chống lại COVID-19 Việc tìm
ra và ứng dụng các giải pháp điều trị mới là một quá trình tốn kém và mất nhiều thời gian Người ta ước tính rằng một chu kỳ khám phá thuốc điển hình, từ xác định hợp chất
có thể thành thuốc cho đến thử nghiệm lâm sàng, có thể mất 14 năm [40] với chi phí
800 triệu đô la Mỹ [12] Nhằm tiết kiệm tiền bạc, tài nguyên cũng như đấy nhanh quá trình tìm kiếm hợp chất tiềm năng mới, các phương pháp thiết kế thuốc áp dụng công nghệ thông tin (Computer-Aided Drug Design) ngày càng được áp dụng rộng rãi [54].Đặc biệt trong thời kì bùng phát dịch bệnh như ngày nay, việc tối ưu thời gian để tìm ra hoạt chất có thể làm thuốc là một việc vô cùng cấp thiết Từ những ưu điểm của phương pháp này chúng tôi tiến hành thực hiện nghiên cứu “Phát hiện hợp chất ức chế enzymprotease (Mpro và PLpro) của virus SARS-CoV-2 sử dụng mô phỏng động lực học phân
tử” với các mục tiêu chính là:
1 Đề xuất được phương pháp sàng lọc nhiều lớp có thể áp dụng trên số lượng lớn
các chất để tìm ra chất có hoạt tính ức chế đồng thời Mpro và PLpro của virus SARS-CoV-2
2 Đánh giá được hoạt tính các chất tiềm năng bằng phương pháp mô phỏng động
lực học phân tử
Trang 11CHƯƠNG 1: TỐNG QUAN
1.1 Tổng quan về protease của SARS-CoV-2
1.1.1 Cấu trúc và bước đầu quá trình dịch mã của virus SARS-CoV-2
Coronavirus 2 (SARS-CoV-2) gây ra hội chứng hô hấp cấp tính nghiêm trọng,
biểu hiện trên lâm sàng bao gồm sốt, ho khan và mệt mỏi và thường có liên quan đếnphổi SARS-CoV-2 dễ lây lan, có vật chủ là động vật hoang dã hoặc người [51] Có bốn phân nhóm chính của coronavirus là a, p, Ỵ và ô, trong đó SARS-CoV-2 là một loại p coronavirus [69] Nhìn chung cấu trúc của SARS-CoV-2 mang đặc trưng của các chủngcoronavirus, chứa sợi đơn ARN dương tính với đầu 5’ và đuôi 3’ poly-A, mã hóa bổn
protein cấu trúc chính (S: gai; E: vỏ; M: màng; N: nucleocapsid) và nhiều protein phi
cấu trúc (nsp) Hạt virion coronavirus thường có hình tròn hoặc nhiều hình dạng, có
đường kính 120-160 nm Protein s làm trung gian cho sự gắn kết của virus và hợp nhất màng trong quá trình lây nhiễm Protein M có 218-263 acid amin, có đầu tận cùng N
được biến đối bởi một O- hoặc N-glycan và một đầu tận cùng c ưa nước Protein E, 74-
109 acid amin, có thể tham gia vào việc thúc đấy độc lực của virus; thường có khoảng
20 bản sao của protein này trên môi virion Protein N của coronavirus, 349-470 acid amin, là một protein được phosphoryl hóa liên kết với ARN, tạo điều kiện thuận lợi cho
việc gấp bộ gen ARN vào nucleocapsid một cách thích họp [29]
Chu kỳ xâm nhập và sao chép tế bào bắt đầu khi virus xâm nhập vào tế bào chủ,
dẫn đến sự dung hợp màng tế bào - virus Sau quá trình nhập bào và thoát vở, hai phần
ba bộ gen tính từ đầu 5 ’ bao gồm hai khung đọc mở (ORF 1 a và ORF 1 b) được dịch mã
thành hai polyprotein (ppla và pplab) thông qua cơ chế chuyển dịch khung ribosome.Hai polyprotein được phân cắt để tạo ra 16 protein phi cấu trúc, trong đó bao gồm hai
cystein protease là Mpro (main protease hay 3-chymotrypsin-like protease, được mã hóa
bởi nsp5) và PLpro (papain-like protease, được mã hóa trong nsp3) [22] Những protease
này là yếu tố chính cho sự phân cắt protein, đóng vai trò quan trọng trong vòng đời của
virus Bên cạnh việc phân cắt các cơ chất của virus, chúng cũng có thế sửa đối hoặc vô hiệu hóa hoạt động của các protein tế bào, do đó làm tăng khả năng tương thích đối với
virus [36] Bước đầu quá trình dịch mã được thể hiện ở Hình 1.1.
nspll Ệ Ệ Ệ Ệ
nsp3 nsp3
Ribosomal frameshift
Ậ PL proteinase 3CL protease
Hình 1.1 Bộ gen và bước đâu quá trình dịch mã của virus SARS-CoV-2
Trang 121.1.2 Protease của virus SARS-CoV-2
1.1.2.1 Sự tương đồng giữa các chủng coronavirus
Tương tự như những phát hiện liên quan đến SARS-CoV [13] và coronavirus gây
hội chứng hô hấp Trung Đông (MERS-CoV) [67], SARS-CoV-2 được cho là lai giữacác loài để khởi phát các bệnh nhiễm trùng sơ cấp ở người; hiện nay nó lây lan chú yếu
qua đường lây truyền từ người sang người Trình tự bộ gen của SARS-CoV-2 có sựđồng nhất đến 80% với SARS-CoV và 50% với MERS-CoV [33] Mặc dù giữa cácchủng có những đột biến khác nhau, các protein quan trọng của các coronavirus được
bảo tồn rất cao vì hầu hết các đột biến trong các protein này đều gây chết virus, trong
đó có Mpro và PLpro [68]
A
MproISARS-CoV-2
MproISARS-CoV-2 MproISARS-CoV MproIMERS-CoV
FRgjAF GPLGS^FR^IAF
a2
60
rk [ s
RK SM
nhsfHvq
_ NraLgWA SggjsfjLPBA
t EE s B s H ỉ ÍK H I GAP
GN|VQ GNVQ AN
*
TT -8 0
i EE s EH n CVHK0K laasBwNc
MproISARS—CoV—2
MproISARS-CoV-2 MproISARS-CoV MproIMERS-CoV
P9
► TT 120
pio
-► TT 130
TT 170
SVLACYNGgP0G svlacyng S p SVLACYNG0P
sras RQT
SgVYQC
YQC FT
JMRP n FS t I KG s F L
gMRPNgTIKGSFL
S mrpn W tikgsfl
GSCGSVG GSCGSVG GSCGSVG
FNIDYDCVS FNID YDC|VS YTKEGSV IN
FCYMHglMEL FCYMHgMEL FCYMHMMEL
p p AN
SSjH
H
Tgv T0V
T
D D A
N
N c
H
H
Q
G G
MproISARS-CoV-2
MproISARS-CoV—2 MproISARS-CoV MproIMERS—CoV
pl3
—► TT
a3 P_Q_Q_Q_O_Q_P_Q_CLQ_Q_Q_Q TT
a4 P_Q_Q_Q_Q_Q.
2 3 0
MproISARS—CoV—2
MproISARS-CoV-2 MproISARS-CoV MproIMERS-CoV
♦ s
A T T
MproISARS-CoV-2
MproISARS-CoV-2 MproISARS-CoV MproIMERS—CoV
a8
3 0 0
PrjDVggQ^GVmQ
pP0D V^QrjjGVnjQSdvss®Egv33®
Trang 13PLproISARS—CoV—2
PLproISARS-CoV-2 PLproISARS-CoV PLproIMERS-CoV
pi
evr W k H ft
evk W kwft gpql ÊB eblv
TY
TY TY
V l Ị n NKN
G G R
T igvrmT vDggNgưiT
T IgV^TVD^NgflT
NIgjL NW GV0F
a2
£_Q_Q_QJL -QJLQSEQJL
a3 ÍLQJLQJBLQJL2JL2_2.
H0F
FLgR flBr FL0R
sg
Sh sp
LNHTKK LNHTKK KAAVHG
SSWK YPQVNGLTglgWA
FPQVGGLTgigWA mvvcdkvr B l S ls
M M
T0QQÍI I el
A0QQ
T
L EVI DLLKDI
NP NA VI
DMYY
EgY H0F
KFRgPALQraA KF^P ALQgA KFrajPALQ0A
ARA ARA
hk I g
AANrac AANrac std H"
L WJCgKnVgE L Grav ret L^sraKg vme l g R v r e t | mít H|L|L QI
180 • •••••190 200 210 220 230
D
E cc
c I k I r H ln V v H k t
akr H lnvv H kh
QQQTT0K QKTTTgT MBWREWSNVHsJl KDVV0Q
ICG cggcG
PLproISARS—CoV—2
PLproISARS-CoV-2 PLproISARS-CoV PLproIMERS-CoV
P13 250
► TT
TT
QESPFVMMgAPraAQYElLlKHG QESSFVM m H ap H a E YKLQQG
Kg I T0I
GHYfflH ghyHh ghyHh VQjAjRLOGG L[I LKF
GAL GAH SGTVS
LT LT
L L
b
2 4 0
V V
A A A
N N E
s p
s p
T T
F F
G G G
K K K
D D D
PLpro I SARS-CoV-2
PLproISARS-CoV-2 PLproISARS-CoV PLproIMERS-CoV
Hình 1.2. Sự bắt cặp nhiều trình tự trên Mpro (A) và PLpro (B) ở ba chủng
coronavirus ở người (SARS-CoV-2, SARS-CoV, MERS-CoV).
Các cấu trúc thứ cấp được thể hiện ở dòng đầu tiên mỗi hàng Xoắn a được biểu thị
bằng chuỗi xoắn và nếp gấp p được biểu thị bằng mũi tên Các acid amin bảo tồn tuyệt đối được đảnh dấu bằng màu đỏ và acid amin bảo tồn tương đối được đánh dấu bằng màu vàng Acid amỉn xúc tác được đánh dấu bằng hình tam giác màu xanh Sự bắt cặp
được thực hiện bằng ClustalW và hiển thị bằng ESpript 3.0.
Bắt cặp nhiều trình tự giữa các các chủng coronavirus trên Mpro và PLpro được
thể hiện trong Hình 1.2 Trình tự của Mpro trên SARS-CoV-2 giống 96% so với
SARS-CoV Mpro và 50% so với MERS-CoV, trong khi trình tự của PLpro trên SARS-CoV-2
giống 83% và 31% so với SARS-CoV và MERS-CoV tương ứng Hầu hết các đặc điểm trong cấu trúc di truyền được bảo tồn giữa các chủng coronavirus khác nhau Ngoài ra,
Mpro và PLpro cho thấy sự bảo tồn mạnh mẽ trong cấu trúc ba chiều (Hình 1.3) Những
Trang 14điều này làm cho Mpro và PLpro trở thành mục tiêu tiềm năng đế phát triến các tác nhân điều trị kháng virus phố rộng và giảm nguy cơ kháng thuốc qua trung gian đột biến ởcác chủng virus nguy hiếm trong tương lai.
Hình 1.3. xếp chồng các cấu trúc monomer của Mpro (A) and PLpro (B) trên SARS-
CoV-2 (hồng), SARS-CoV (xanh ngọc), và MERS-CoV (xanh lá).
1.1.2.2 Cấu trúc của Mpro và PLpro
Mpro
Mpro (main protease, hay protease giống 3-chymotrypsin) được mã hóa bởi nsp5
và chỉ hoạt động ở dạng dimer (các monomer riêng lẻ không hoạt động về mặt enzym)[26] Trong SARS-CoV-2 và SARS-CoV, tất cả các acid amin tham gia vào hoạt động
Trang 15xúc tác, liên kết cơ chất và dimer hóa đều được bảo toàn 100% Ngoài ra các trình tự polyprotein pplab giống nhau là 86% và các vị trí phân cắt Mpro hầu như không thay đổi [7] Mpro bước đầu sẽ tự trưởng thành từ các polyprotein thông qua quá trình tự
động phân cắt và sau đó phân cắt ppla và pplab tại 11 vị trí (được biểu thị qua các mũitên màu xanh ngọc trong Hình 1.1) để giải phóng các nsp từ 4 đến 16 Sự phân cắt cơchất tuân theo mô hình chung: X- (Leu/Phe/Met)-Glnị(Gly/Ala/Ser)-X (X là bất kỳ acid
amin nào; ị là vị trí phân cắt) Hiện tại không có protease nào ở tế bào chủ có đặc tính
phân cắt tương tự như Mpro được báo cáo, do đó các chất ức chế Mpro có thể hạn chế được tác dụng không mong muốn đối với cơ thể [24]
Mỗi đơn vị cấu trúc của Mpro được chia thành ba miền (Hình 1.3 A) Mien I và
miền II là các thùng p (P-barrels) cấu tạo bởi 6 dải đối song Miền III là một cụm hình
cầu (globular cluster) tạo bởi 5 vòng xoắn a và được nối với miền II bằng một vùng
mạch loop dài Bộ đôi xúc tác (Cysl45-His41) nằm trong khe giữa mien I và mien II
Miền III được coi là rất quan trọng đối với quá trình dimer hóa [20] Do đó, sự phát triểncủa các chất ức chế chống lại enzyme này đã được thực hiện theo hai hướng: (i) nhắm
vào túi liên kết cơ chất đế ngăn chặn hoạt động xúc tác và (ii) ức chế phản ứng dimer hóa Bộ đôi xúc tác được bảo tồn tuyệt đối giữa các chủng coronavirus khác nhau, thuận lợi để trở thành chất ức chế phổ rộng (Hình 1.2).
Quá trình xúc tác của Mpro nhằm phân cat protein được minh họa trong Hình
1.4, bao gồm 5 bước chính: Deprotonate nhóm thiol của Cysl45 bằng His41 (hay nói
cách khác, proton hóa His41) (I) để tạo thành tác nhân nucleophile tấn công cơ chất có
cấu trúc carbonyl carbon (II), giải phóng một peptid có đầu cuối amin và khôi phục trạng
thái deproton hóa của His41 (III) Sau đó, thioester tạo thành được thủy phân (IV) đểgiải phóng acid carboxylic, tái tạo lại enzym tự do (V) Có hai cách tiếp cận chính đếtìm ra các chất ức chế nhắm tới mục tiêu là túi liên kết cơ chất: peptidomimetic (chất có
cấu trúc giống peptid) và các phân tử nhỏ Hầu hết các chất ức chế peptidomimetic đều
có vị trí thực hiện phản ứng Michael (Michael acceptor) đế hình thành liên kết cộng hóa
trị với Cysl45 cạnh tranh với cơ chất peptid Các phân tử nhỏ được chia làm hai nhóm
là chất ức chế không cộng hóa trị và chất ức chế cộng hóa trị thuận nghịch [45] Nhiều
hợp chất có hoạt tính đã được phát hiện, trong đó baicalein là chất ức chế không cộng hóa trị, không phải peptidomimetic đầu tiên của SARS-CoV-2 Mpro với cơ chế hoạt
động như một “lá chắn” phía trước bộ đôi xúc tác để ngăn cơ chất peptid tiếp cận trung
tâm hoạt động Hợp chất này có hoạt tính kháng virus in vitro tốt nên có thể giả địnhrằng các chất theo cơ chế hoạt động này có tiềm năng phát triển thuốc [65]
Trang 16PLpro (papain-like protease) được mã hóa là một trong nhiều miền khác nhau
của nsp3 Các coronavirus có thể mã hóa hai PLpro, tuy nhiên trong SARS-CoV-2,
SARS-CoV và MERS-CoV thì PLpro là một monomer [141 Ngoài chức năng phân cắt polyprotein của virus, SARS-CoV-2 PLpro có 2 hoạt động phân giải protein khác: loại
bỏ ubiquitin (Ưb) và gen kích thích interferon 15 (ISG15, protein giống ubiquitin) của
tế bào chủ để ngăn chặn các phản ứng miễn dịch bẩm sinh, trong đó ISG15 được ưu tiên
hơn [52] PLpro có thể thực hiện các chức năng đó là bởi khả năng nhặn ra mô tip tetrapeptid Leu-X-Gly-GlyịX (X là bất kỳ acid amin nào; ị là vị trí phân cắt) Mô tip
này được tìm thấy ở giữa nspl/nsp2, nsp2/nsp3 và nsp3/nsp4 (được hiên thị trong mũitên màu hồng trong Hình 1.1) và được PLpro phân cắt để tạo ra 3 nsp trưởng thành Bên cạnh đó, PLpro cũng thực hiện chức năng loại bỏ ubiquitin và ISG15 bằng cách phân cắt ở đầu cuối c của các protein có dạng Leu-Arg-Gly-GlyịX (hoàn toàn phù họp với
mô-típ nhận dạng của PLpro) [48]
về cấu trúc, PLpro ở SARS-CoV- 2 chứa bốn miền: miền giống ubiquitin (Ưbl,
pl-3), miền ngón cái (thumb, a2-7), miền ngón tay (finger, p4-7) và miền lòng bàn tay
(palm, p8-13) (Hình 1.3 B). Trong miền ngón tay, bốn cystein (Cysl89, Cysl92,Cys224 và Cys226) được bảo tồn, tạo thành một ngón tay kẽm (zinc finger) cần thiếtcho hoạt động phân giải protein và loại bỏ ubiquitin [14] cấu trúc không gian của trung tâm hoạt động của PLpro ở SARS-CoV-2 và SARS-CoV là tương đồng nhau Tắt cả cácacid amin cần thiết cho quá trình xúc tác đều được bảo tồn [14] Bộ ba xúc tác (Cysl 11-
His272-Asp286) nằm trong một rãnh nằm giữa miền ngón tay cái và miền lòng bàn tay
Cysl 11 và His272 tương ứng được tìm thấy ở gốc của miền ngón tay cái và miền lòng
bàn tay, trong khi His272 cho liên kết hydro cho Asp286 Một hố oxyanion có chứa TrplOó là điều cần thiết để ổn định sự hình thành điện tích âm trong quá trình thủy phân
Trang 17peptid Liên kết hydro giữa Asp108 và Trp93 là rất quan trọng để ngăn hố oxy anion sụp
đố, duy trì trung tâm hoạt động để cơ chất có thể tiếp cận được [46] Có một số mục tiêu
chiến lược cho sự phát triển của chất ức chế PLpro, chẳng hạn như bộ ba xúc tác, vị tríliên kết ISG15 hoặc miền ngón tay kẽm [30] Mặc dù có sự khác biệt về acid amin giữacác coronavirus, bộ ba xúc tác được bảo tồn tuyệt đối (Hình 1.2), cho thấy đây là mục
tiêu lý tưởng để tìm kiếm các chất ức chế phổ rộng
'/Asp286
H ^N-H
N-H HÍS272X
Hình 1.5 Chu trình xúc tác của PLpro với bộ ba xúc tác ( Cysl 11 -His272-Asp286).
Chu trình xúc tác được đề xuất của PLpro bao gồm 5 bước chính, tương tự như
Mpro ngoại trừ một số đặc điểm (Hình 1.5) [2] Cysl 11 là một nucleophile, His272 là
một acid-bazơ và Asp286 được ghép nối với His272 đế định vị vị trí và thúc đấy quá trình deprotonation của Cyslll Oxyanion của chất trung gian được ốn định bởi lỗ
oxyanion chứa TrplOó Giống như Mpro, PLpro có 2 nhóm chất ức chế chính: liên kết
cộng hóa trị và không cộng hóa trị Chất ức chế cộng hóa trị tạo ra liên kết cộng hóa trị
với Cysl 11, cạnh tranh với cơ chất, trong khi chất không cộng hóa trị ngăn cản cơ chất tiếp cận vị trí xúc tác bằng liên kết không cộng hóa trị mạnh [56]
Nhìn chung, Mpro và PLpro cho thấy sự tương đồng lớn về cơ chế xúc tác và sựbảo tồn tuyệt đối vị trí xúc tác Bên cạnh đó, peptidomimetic và các chất ức chế cộng hóa trị có nhiều nhược điểm là gây ra tác dụng phụ và có độc tính cao hơn so với nhómchất không cộng hóa trị Do đó, nghiên cứu này tập trung vào các chất ức chế không
phải peptid, không cộng hóa trị của quá trình phân giải protein của Mpro và PLpro, có
Trang 18tiềm năng trong điều trị nhiều loại coronavirus khác nhau ngay cả với chủng virus đột biến trong tuơng lai.
1.2 Tống quan về mô phỏng động lực học phân tử
1,2,1, Đại cương về mô phỏng động lực học phân tử
Mô phỏng động lực học phân tử (MD) ngày càng có sức ảnh hưởng lớn đối vớisinh học phân tử và khám phá thuốc Những mô phỏng này ghi lại hành vi của protein
và các phân tử sinh học khác với đầy đủ thông tin ở mức độ nguyên tử với độ phân giải
rất tốt Các mô phỏng đã được chứng minh có giá trị trong việc giải mã các cơ chế chức
năng của protein và các phân tử sinh học khác, trong việc khám phá cơ sở cấu trúc của
bệnh, và trong việc thiết kế và tối ưu hóa các phân tử nhỏ, peptid và protein
Mô phỏng MD dự đoán chuyển động của mọi nguyên tử trong protein hoặc hệ
thống phân tử khác theo thời gian, dựa trên mô hình vật lý chi phối các tương tác giữacác nguyên tử [28] Những mô phỏng này có thể mang lại thông tin về nhiều quá trình
phân tử sinh học quan trọng, bao gồm sự thay đối cấu trúc, liên kết phối tử và cuộn gập
protein, xác định vị trí của tất cả các nguyên tử ở độ phân giải thời gian femto giây Điều quan trọng là những mô phong như vậy cũng có thể dự đoán cách các phân tử sinh học
sẽ phản ứng - ở cấp độ nguyên tử - đối với các nhiễu như đột biến, phosphoryl hóa,proton hóa, khi thêm hoặc bớt phối tử Mô phỏng MD thường được sử dụng kết hợp với
nhiều kỹ thuật sinh học thực nghiệm, bao gồm tinh thế học tia X, kính hiến vi điện tử lạnh (cryo-EM), cộng hưởng từ hạt nhân (NMR), cộng hưởng thuận từ điện tử (EPR) và
cộng hưởng Forster truyền năng lượng (FRET) hoặc ứng dụng trong khám phá và thiết
kế thuốc mới
Những mô phỏng này rất hiệu quả vì một số lý do Đầu tiên, ta có thể nắm bắt
được vị trí và chuyển động của mọi nguyên tử tại mọi thời điếm, điều này rất khó thực
hiện với bất kỳ kỹ thuật thực nghiệm nào Thứ hai, các điều kiện mô phỏng được xácđịnh chính xác và có thể được kiểm soát cẩn thận, như là cấu trúc ban đầu của mộtprotein, những phối tử liên kết, những phân tử khác trong môi trường, trạng thái proton
hóa, nhiệt độ, điện áp trên màng Bằng cách so sánh các mô phỏng được thực hiện
trong các điều kiện khác nhau, người ta có thế xác định ảnh hưởng của nhiều loại nhiễu
loạn phân tử
Khám phá thuốc là một ứng dụng điển hình của mô phỏng MD, đặc biệt với
những tiến bộ gần đây trong sinh học cấu trúc đã tái lập lại cấu trúc của nhiều đích quan trọng (như GPCR, kênh ion, chất vặn chuyến ) Mô phỏng MD đặc biệt có giá trị trong việc tối ưu hóa hoạt chất, khi đó phối tử được sửa đổi để cải thiện hiệu quả hoặc các đặctính khác Ở cấp độ định tính, mô phỏng có thể cung cấp nhiều thông tin khác nhau đểhướng dẫn quá trình tối ưu hóa phối tử Mô phỏng có thể được sử dụng để xác định các
Trang 19tương tác chính mà phối tử tạo ra với túi liên kết đế dự đoán sự sắp xếp lại của túi liênkết do phối tử gây ra hoặc để kiểm tra và tinh chỉnh các cấu dạng của các phối tử tiềmnăng [55] Trong một số trường hợp, mô phỏng đầy đủ quá trình liên kết của phối tử cóthể cho phép xác định vị trí liên kết và tư thế liên kết của phối tử [27] Ờ cấp độ định
lượng, các phương pháp dựa trên mô phỏng cung cấp các ước tính chính xác hơn đáng
kề về ái lực liên kết của phối tử (năng lượng tự do) so với các phương pháp tính toán
khác như docking [43]
Mô phỏng MD cung cấp khả năng thăm dò các đặc tính phân tử khó hoặc khôngthể tiếp cận thông qua thực nghiệm Trong thiết kế phối tử và protein, các mô phỏng cóthể được sử dụng như một bộ lọc tốn ít chi phí, dựa trên năng lượng liên kết hoặc độ ổn
định để đề xuất các ứng cử viên để đưa vào thực nghiệm [8] Thường xuyên hơn, các
mô phong được sử dụng để tạo ra sự hiểu biết định tính về cách thức hoạt động của một
phân tử sinh học hoặc thuốc Thông thường thử nghiệm khó có thể cung cấp đầy đủ thông tin giống như mô phỏng Tuy nhiên, các thử nghiệm có thể được thiết kế để kiểmtra các dự đoán các mô phỏng này Do đó mô phỏng có thế tạo ra các giả thuyết dẫn đếncác thử nghiệm mới
1.2.2 Nguyên lý
Ý tưởng đằng sau một mô phỏng MD có thể giải thích theo một cách đon giản:
với vị trí đà biết trước của tất cả các nguyên tử trong một hệ phân tử sinh học, ta có thể
tính toán lực tác dụng lên mồi nguyên tử gây ra bởi tất cả các nguyên tử còn lại dựa trên
định luật chuyền động của Newton, từ đó dự đoán vị trí không gian của mỗi nguyên tử
như một hàm cùa thời gian Đặc biệt, cứ sau một bước, các tính toán lực trên mỗi nguyên
tử được lặp lại và được sử dụng để cập nhật vị trí và vận tốc của mỗi nguyên tử về bản
chất, quỹ đạo thu được là một đoạn phim ba chiều mô tả cấu hình cấp nguyên tử của hệthống tại mọi điểm trong khoảng thời gian mô phỏng [25]
Mô phỏng động lực học phân tử dựa trên 2 thành phần thiết yếu, đó là trường lực
và thuật toán tích phân [39]
Trường lực chứa tất cả thông tin được cho là cần thiết về các đặc tính lý hóa của
các tương tác nguyên tử mà ảnh hưởng đến cấu trúc phân tử và động lực học về cơ bản
phương trình của trường lực có dạng:
Trang 20trong đó thế năng ư là một hàm vị trí của mỗi nguyên tử i Phương trình gồm 2 thành
phần chính, thể hiện cho 2 loại tương tác: 3 số hạng đầu thể hiện cho tương tác giữa 2nguyên tử khi có hình thành liên kết (thế năng liên kết) và 2 số hạng cuối thể hiện cho
tương tác giữa 2 nguyên tử không liên kết với nhau (thế năng không liên kết) Thế năng
liên kết liên quan biến dạng của liên kết (bonds), biến dạng góc (angles) và chuyển động
quay của các góc nhị diện (torsions) Thế năng không liên kết mô tả các tương tác tĩnh điện (Coulomb) và tương tác van der Waals giữa các nguyên tử [391 Bằng cách mô tả tất cả đặc điểm này, trường lực có thể cung cấp thông tin giúp thuật toán tích phân xácđịnh được cụ thể vị trí của từng nguyên tử trong hệ
Thuật toán là cốt lõi của bất kỳ mô phong MD nào Bản chất thuật toán là với vịtrí và vận tốc của các nguyên tử tại thời điểm t đà biết, tính toán lực tác dụng trên mồi
nguyên tử bằng trường lực (lực tại bất kỳ vị trí nào cũng có thể nhận được bằng cách lấyđạo hàm của thế năng) Theo cơ học cổ điển, các lực này sinh ra gia tốc cho mỗi nguyên
tử (F = mã) để sử dụng cho việc tích phân các phương trình chuyển động và cập nhật
tọa độ và vận tốc mới tại thời điếm t 4- ôt Khi này, quỹ đạo từ t đến t + ôt sẽ được hìnhthành (thông thường ôt ~ 1 fs)
Trong khám phá thuốc, mục tiêu của mô phỏng MD là mô phỏng lại quá trình diễn biễn của phân tử sinh học trong điều kiện của cơ thể Do đó, tổ họp điều kiện mô
phỏng (ensemble) đã được áp dụng, trong đó điều kiện đẳng nhiệt - đẳng áp (NPT) là
phổ biến nhất Áp suất và nhiệt độ không đổi được thực thi trong các mô phỏng bằng
cách lần lượt kiểm soát các dao động động năng của các tiểu phân và thể tích của hệ Cónhiều cách khác nhau để thực hiện điều này, trong đó thuật toán tốt nhất (xét về khả
năng tạo điều kiện NPT một cách chặt chẽ) dựa trên phương pháp tiếp cận "hệ thống mở
rộng" [34] Khi đó các biến động lực học được bổ sung, ví dụ như hệ số ma sát phụ thuộcthời gian ("bộ điều nhiệt") để kiểm soát nhiệt độ và một pít-tông để kiểm soát áp suất
1.2.3 Năng lượng tự do liên kết
Thách thức lớn trong thiết kế thuốc dựa trên cấu trúc là đạt được dự đoán chính xác về năng lượng tự do liên kết Mô phỏng động lực học phân tử cho phép mô hình hóacác thay đổi cấu trúc quan trọng đối với quá trình liên kết, dẫn đến việc tính toán các đại
lượng nhiệt động lực học liên quan đến ước tính các ái lực liên kết Với những tiến bộ gần đây về khả năng tính toán và độ chính xác, sàng lọc ảo dựa trên MD đã phát triển
từ lĩnh vực lý thuyết sang ứng dụng thực tế trong phát triển thuốc Các phương pháp tiếpcận bao gồm MM/PB(GB)SA, năng lượng tương tác tuyến tính (LIE), và các phương
pháp giả kim đà được áp dụng rộng rãi trong khám phá thuốc và tối ưu hóa hoạt chất
Trang 21Phương pháp MM/PB(GB)SA được áp dụng cho phân tử liên kết là phân tử nhỏ,
là phương pháp điếm cuối ước tính sự chênh lệch năng lượng tự do liên kết giữa phứchợp protein-phối tử và các thành phần không liên kết riêng biệt: phối tử và protein đơn
lẻ [61] MM/PB(GB)SA cung cấp một giải pháp cân bằng được đặc trưng bởi tính chặt
chè và độ chính xác tốt hơn so với docking và ít yêu cầu về xử lý, tính toán hơn so với
các phương pháp theo lộ trình như các phép biến đổi giả kim (phương pháp này yêu cầu
thiết lập các thử nghiệm liên quan để lấy mẫu các trạng thái trung gian thông qua việc tách các tương tác phối tử) [53] Ngoài việc chỉ yêu cầu dừ liệu điểm cuối, MM/PB(GB)SA cho phép tính toán năng lượng tự do hiệu quả bằng cách sử dụng dungmôi đặc biệt: thay vì dùng một dung mỗi rõ ràng như nước hay dầu, phương pháp này
sử dụng dung môi hạt thô liên tục với hằng số điện môi đồng nhất Khi đó việc xử lý cáctương tác dung môi được đơn giản hóa rất nhiều Tuy nhiên, điều này có thể dẫn đếnkhó khăn trong việc mô hình hóa các phối tử tích điện cao và các công trình gần đây đãtập trung vào việc giảm thiểu những sai số này [61] Có hai cách tiếp cận chính được sửdụng để tạo dữ liệu cho các dự đoán năng lượng liên kết MM/PB(GB)SA, đều bắt đầu
từ mô phỏng MD trong dung môi rõ ràng: dùng nhiều quỹ đạo với ba thành phần là phức
hợp, thụ thế và phối tử riêng biệt hoặc chỉ một quỹ đạo duy nhất với phức hợp phối tử và sẽ được chia thành ba thành phần sau đó [60] Đe tối ưu độ chính xác, cácquỹ đạo từ mô phỏng MD được xử lý bằng cách loại bỏ các phân tử dung môi và ion
protein-Phuong pháp chỉ dùng một quỹ đạo được ưa dùng vì dễ dàng được thực hiện và loại bỏ được các sai số năng lượng cộng hóa trị Tuy nhiên, phương pháp này có thế không tối
ưu do phụ thuộc vào giả định: liên kết phối tử không liên quan đến những thay đối cấu trúc quy mô lớn [60] Cách tiếp cận nhiều quỹ đạo phù họp hơn với các liên kết liên
quan đến các thay đổi lớn trong cấu trúc, nhưng sẽ tạo ra các ước tính có nhiều nhiễu
hơn và yêu cầu thời gian mô phỏng lâu hơn [66] Trong thực tế, phương pháp một quỳđạo thường cho kết quả chính xác hơn phương pháp dùng ba quỹ đạo [32]
Phương pháp năng lượng tương tác tuyến tính (LIE) là một phương pháp điếm
cuối khác dự đoán năng lượng tự do liên kết tuyệt đối dựa trên sự thay đối năng lượng
tự do từ việc chuyển phối tử từ trạng thái liên kết thụ thể solvat hóa sang trạng thái tự
do trong nước [19] Quá trình này xem xét liên kết về mặt năng lượng van der Waals từ việc tạo khoang trong môi trường đích cho phối tử và năng lượng tĩnh điện giữa phân tử
và môi trường Với mục tiêu đó, LIE ước tính năng lượng tự do liên kết bằng cách tổnghợp hai mô phỏng MD được thực hiện, với phối tử được liên kết với protein đã được solvat hóa và phối tử tự do trong dung môi Sự khác biệt trong năng lượng van der Waals
và trong tương tác tĩnh điện giữa phối tử và môi trường trong mỗi trường hợp được tính toán [1, 21]
Trang 22Các phương pháp dự đoán năng lượng tự do điểm cuối thường không tính đếncác ảnh hưởng của entropi và dung môi - những yếu tố đóng vai trò quan trọng trong
tương tác protein-phối tử [37] Việc nắm bắt những thay đổi về cấu trúc thụ thể được điều khiển bởi liên kết phối tử, liên kết hydro qua trung gian nước hoặc trao đồi dung
môi xảy ra khi phối tử lấp đầy túi liên kết là rất quan trọng để ước tính sự khác biệt năng
lượng tự do giữa trạng thái liên kết và không liên kết của phối tử [38] Tỉ lệ giữa trạngthái liên kết và không liên kết được biểu thị bằng hệ số cân bằng K Trong thực tế, hệ số
K không thể được tính toán do sự liên kết và không liên kết rất hiếm khi xảy ra trong
khoảng thời gian mô phong, dẫn đến thiếu mẫu Việc thiếu mẫu này có thể được khắc
phục bằng phương pháp giả kim: dần dần tách các tương tác van der Waals và tương tác
tĩnh điện giữa phối tử và thụ thể để có thể mồ phỏng sự chuyển đổi giữa trạng thái liênkết mà không liên kết mà không cần nắm bắt cả quá trình [71] Cơ sở của phép tính này
là chu trình nhiệt động lực học mô tả sự loại bỏ phối tử khỏi phức hợp và lọai bỏ phối
tử khỏi dung môi [5] Phương pháp giả kim thường đưa ra các ước tính chính xác nhất
về năng lượng liên kết [9], tuy nhiên lại tốn kém về mặt tính toán và thường chỉ đáng
tin cậy khi tính năng lượng liên kết tương đối giữa các phối tử có chung một khung cấu trúc [63]
Trang 23CHƯƠNG 2: NGUYÊN LIỆU, THIẾT BỊ, NỘI DUNG VÀ PHƯƠNG PHÁP
2.1 Nguyên liệu và thiết bị
Nguyên liệu:
Dữ liệu IC50 của các chất ức chế Mpro và PLpro trên SARS-CoV-2 đã được công
bố trong các bài báo
Cấu trúc tinh thể tia X của Mpro (7LMD) và PLpro (7LBR) trến SARS-CoV-2 được tải từ ngân hàng dữ liệu protein (Protein Data Bank)
Thiết bi:
Sử dụng các phần mềm trên máy tính Asus X556UF - hệ điều hành Windows 10
và máy chủ ảo của Google
Phần mềm: Danh sách các phần mềm sử dụng bao gồm:
ClustalW MOE 2009.10Espript 3.0 CHARMM-GƯIChemDraw Ultra 12.0 NAMD
2.2 Nội dung nghiên cứu
Chúng tôi đề xuất một mô hình sàng lọc đa lớp dựa trên đồng thời dữ liệu thực
nghiệm IC50 và mô phỏng cấu trúc phức hợp trên máy tính:
1 Xây dựng 2 mô hình 2D QSAR tương ứng với Mpro và PLpro từ dữ liệu IC50
thực nghiệm để sàng lọc sơ bộ 7,3 triệu hợp chất từ cơ sở dữ liệu ZINC
2 Docking chéo đích các chất đã có dữ liệu thực nghiệm và docking vào cả 2 đích
các chất có hoạt tính dự đoán tốt trên cả Mpro và PLpro từ mô hình 2D QSAR
3 Mô phỏng động lực học phân tử các phức hợp có điểm số docking tốt nhất và
tính toán năng lượng tự do liên kết
2.3 Phương pháp nghiên cún
Tiến trình thực hiện khóa luận được thể hiện ở Hình 2.1.
Trang 24Thu thập dừ liệu chất
ức chế Mpro và PLpro
ở SARS-CoV-2
Thu thập câu trúc 7,3 triệu hợp chất từ cơ sở
’ dừ liệu ZINC
Xây dựng mô hình 2D QSAR chơ Mpro
Hình 2.1. Quỵ trình thực hiện nghiên cứu
2.3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ
Thu thập dữ liệu thực nghiệm
Thu thập dữ liệu của các hợp chất không peptidomimetic, không cộng hóa trị đã
được thử nghiệm ức chế SARS-CoV-2 trên 2 protease mục tiêu là Mpro và PLpro Hoạt
tính thử nghiệm của các chất ức chế này được biểu thị bằng giá trị IC50 Với mục đích phát triển mô hình, các giá trị IC50 đã được chuyển đổi thành các giá trị pICso (pICso = -
logic.50) Các hợp chất được thêm hydro, chuyển thành cấu trúc 2D ở dạng SDF bằng
phần mem Open Babel [42] Cuối cùng, chúng tôi thu được 100 chất ức chế Mpro và 91
chất ức chế PLpro (Phụ lục 1).
Tính toán tham so phân tử và xử lý dữ liệu
Tính toán các tham số phân tử 2D bằng phần mềm AlvaDesc phiên bản 2.0.2[35] Sau khi thu được 4179 tham số phân tử, chúng tôi tiến hành loại bở các tham số
Trang 25phân tử có ít nhất một giá trị bị thiếu hoặc có giá trị gần như không đổi giữa các chất hoặc có tương quan theo cặp lớn hơn hoặc bằng 0,95 Các tham số phân tử cũng bị xóanếu tỷ lệ phần trăm của các hợp chất có cùng giá trị tham số phân tử đó cao hơn hoặcbằng 80% Tất cả tham số phân tử được chuẩn hóa trên phạm vi giá trị của tất cả cáchợp chất hóa học đang xét Các bước này và các quy trình sau được thực hiện với phần
mềm QSARINS phiên bản 2.2.4 [18]
Chia tập dữ liệu
Chia toàn bộ tập dừ liệu thành các tập huấn luyện (training set) và tập kiểm tra
(test set) theo tỷ lệ 80:20 (Mpro) và 74:17 (PLpro) dựa trên việc sắp xếp thứ tự theo cấutrúc Mô hình 2D QSAR đã được phát triển dựa trên một tập huấn luyện và được thẩmđịnh với một tập kiểm tra để đánh giá khả năng dự đoán của mô hình
Phương pháp xây dụng mô hĩnh
Mô hình 2D QSAR được xây dựng dựa trên phương pháp hồi quy tuyến tính đa biến (MLR), có thể được viết dưới dạng ma trận:
y = Xb + e
trong đó y là vectơ phản hoi (response vector), b là vectơ hệ số và e là vectơ sai so X là
ma trận của mô hình, trong đó các cột là tham số phân tử
Thuật toán di truyền (genetic algorithm - GA) được sử dụng để lựa chọn tập contốt nhất của các tham số phân tử mà không cần phải khám phá tất cả các tố hợp [23]
Trong GA, quy tắc QƯIK được áp dụng để giảm số lượng mô hình bằng cách đặt một
ngưỡng tối thiểu [57] Một mô hình bị loại trừ nếu K xy - Kxx < ỔK, trong đó Kxx là
tổng tương quan giữa các tham số phân tử, K xy là mối tương quan giữa các tham số phân tử và các phản hồi, ỔK là giá trị ngưỡng do người dùng xác định (giá trị giới hạn 0,05) Khi đó các mô hình sẽ có đa cộng tuyến thấp và tương quan tốt với các phản hồi
Kiếm chứng sự phù họp
Sự phù họp của mô hình được đánh giá bằng hệ số xác định R2 cho biết khả năng
của mô hình QSAR trong việc tái tạo dữ liệu trong tập huấn luyện [47] R2 được thể hiện
dưới dạng công thức:
trong đó ỹị là giá trị dự đoán của biến phụ thuộc, yi là giá trị thực của biến phụ thuộc,
ỹ là giá trị trung bình thực của biến phụ thuộc (các giá trị đều tính toán trên tập huấn
luyện)
Trang 26Điều quan trọng cần lưu ý là càng thêm nhiều tham số phân tử, R2 càng cao, dẫn
đến sự quá khớp (overfitting) Do đó, R2 hiệu chỉnh (R2adj) đã được sử dụng đế chọn
các mô hình có độ phù họp cao với số lượng tham số phân tử tối thiều, với công thức có
dạng:
X ỉ n ~ 1 \ R2 adj = 1 - (1 - /?2) X _ _
trong đó n là số lượng quan sát (số hợp chất trong tập huấn luyện), p là số lượng biến
độc lặp (số lượng tham so phân tử) của mô hình
Kiểm chứng nội
Tuy nhiên, R2adj không cung cấp thông tin về khả năng dự đoán của mô hình
Trong trường hợp này, kiểm chứng chéo leave-one-out (LOO CV) được sử dụng [17].Kết quả thu được là hệ số tương quan kiểm chứng chéo Q2LOO, được biểu diễn dưới
dạng công thức:
Q2LOO = 1
-x(y t - ýị/í) 2
Z(yí - ỹ)2
trong đó là giá trị phản hồi thực của hợp chất i, ỹi/i là giá trị dự đoán của hợp chất i
từ mô hình xây dựng từ n-1 hợp chất còn lại (không chứa hợp chất i)
Mặc dù vậy, chỉ LOO cv là không đủ vì nó có thể đánh giá cao quá mức khả năng dự đoán của mô hình Do đó, sử dụng quy trình leave-many-out (LMO) sẽ giúpkhắc phục nhược điểm này [17] 30% các hợp chất trong tập huấn luyện ban đầu được
loại trừ ngẫu nhiên, các họp chất còn lại được sử dụng để xây dựng mô hình và dự đoán hoạt tính các hợp chất bị loại trừ Quy trình được lặp đi lặp lại 2000 Giá trị Q2 được
tính trong mọi lần lặp và phải gần với Q2LOO cũng như giá trị trung bình của chúng(Q2LMO)
Ngẫu nhiên hóa Y (Y-randomization) được áp dụng đế đảm bảo rằng mô hình
không phải là kết quả của tương quan ngẫu nhiên [17].Các giá trị phản hồi được xáo trộn một cách ngẫu nhiên, khi đó không nên có mối tương quan giữa chúng và các tham
số phân tử và hiệu suất của mô hình bị giảm đáng kế Thực hiện 2000 lần lặp, khi đó giátrị R2 và Q2 trong mỗi lần lặp và giá trị trung bình của chúng (R2Y và Q2Y) phải càng
xa giá trị mô hình ban đầu càng tốt
Trang 27cũng được tính toán cho tập kiểm tra để khắc phục nhược điểm khi chỉ dùng từng chỉ sốriêng lẻ Các công thức có dạng:
số quan sát trong tập huấn luyện
Nhìn chung, nếu giá trị R2 > 0,6 và Q2 > 0,5 thì mô hình được coi là đạt yêu cầu.Các giá trị R2, Q2 của các mô hình càng gần với 1 thì càng tốt [47]
Miền ứng dụng
Mô hình MLR không thể áp dụng cho tất cả các họp chất Chỉ những dự đoán nằm trong miền ứng dụng (AD) mới có thể được coi là đáng tin cậy và không phải là ngoại suy mô hình AD là vùng không gian lý thuyết được xác định bởi các tham sốphân tử và giá trị phản hồi của tập huấn luyện Đe xác định một chất có nằm ngoài AD hay không, chúng ta dựa vào các giá trị đòn bẩy (h) của các hợp chất, được tính theo
công thức:
hi = xỊ{X T X)~1x i
trong đó hi là giá trị đòn bẩy của hợp chất i, Xi là vector tham số phân tử của hợp chất,
X là ma trận tham số phân tử gồm của n hợp chất (hàng) và k biến (cột)
AD được giới hạn bởi một đường biểu diễn giá trị giới hạn h* = 3p7n, trong đó p' là số biến mô hình cộng 1, n là số hợp chất trong tập huấn luyện Neu hi > h* thì giátrị dự đoán của hợp chất đó được coi là không đáng tin cậy [41]
Sàng lọc sư bộ thư viện họp chất chưa biết
Chúng tôi thu thập cấu trúc phối tử từ cơ sở dữ liệu ZINC, chỉ lựa chọn nhừng cấu trúc thỏa mãn quy tắc 5 điểm Lipinski Kết quả chúng tôi thu được 7,3 triệu hợp
chất và tiến hành dự đoán hoạt tính bằng cách sử dụng 2 mô hình 2D QSAR (Mpro và
PLpro) đà được xây dựng Vì mô hình 2D QSAR đã xây dựng có thể có sai số khi dự
đoán, nên chúng tôi chỉ những hợp chất ở trong AD (có hi < h*) và có hoạt tính dự đoán
Trang 28cao hơn ngưỡng (ngưỡng chúng tôi quy ước để thu được một số lượng hợp lý các chất)
trên cả 2 mô hình mới được lựa chọn Những họp chất này cùng với các họp chất đã
được công bố là đối tượng hướng đến của các mô phỏng docking phía sau
2.3.2 Mô phỏng docking
Chuẩn bi protein
Cấu trúc tinh thế của Mpro và PLpro ở SARS-CoV-2 được tải từ ngân hàng dừ
liệu protein, có nguồn gốc từ tế bào biểu hiện Escherichia coli BL21 (PDB ID: 7LMD
(Mpro) và 7LBR (PLpro)) [20, 50] Tiến hành loại nước, các cấu tử đồng kết tinh rakhỏi cấu trúc của protein và cuối cùng thêm hydro, gắn trường lực AmberlO:EHT Tất
cả các bước này đều được tiến hành trên phần mềm MOE 2009.10 [6]
Chuẩn bị phối tủ ’
Thu lấy dừ liệu của 30 hợp chất có hoạt tính dự đoán tốt nhất trên cả 2 mô hình2D QSAR và các hợp chất có hoạt tính ức chế thực nghiệm đà được công bố cấu trúc
3D của các hợp chất được xây dựng nhờ phần mem open Babel Sử dụng phần mềm
MOE 2009.10 để thêm nguyên tử hydro, tối ưu hóa năng lượng cấu trúc
Quy trình docking
Phan mem docking MOE 2009.10 sử dụng thuật toán Triangle Matcher, trong đó cấu dạng phối tử được tạo ra bằng cách sắp xếp các bộ ba nguyên tử của phối tử trên các
bộ ba của hình cầu alpha theo cách có hệ thống hơn so với phương pháp Tam giác Alpha
Các tùy chọn cho phương pháp này bao gồm thời gian tìm kiếm (khoảng thời gian được
phép tìm kiếm cho mỗi phối tử) và số cấu dạng đạt được (số cấu dạng tối đa đạt được
cho mỗi quá trình tìm kiếm cấu dạng của phối tử) được cài đặt mặc định là 300 giây và
1000 cấu dạng
Quá trình docking được chia thành 2 phần Đầu tiên, các hợp chất từ các bài báo
đã được công bố có giá trị IC50 thực nghiệm trên một protease sẽ được docking chéo vàoprotease còn lại, đề tìm ra các hợp chất có thể ức chế nhiều hơn một đích Thứ hai, cáchợp chất có hoạt tính dự đoán tốt nhất trên cả 2 mô hình 2D QSAR được tiến hành docking vào đồng thời Mpro và PLpro Các vị trí hoạt động là vùng xung quanh acid
amin xúc tác (Cysl45-His41 với Mpro và Cysl 11-His272-Asp286 với PLpro) và xungquanh phối tử đồng kết tinh, được xác định bằng phần mềm MOE
Khả năng liên kết của phối tử được đánh giá bằng cách sử dụng hàm tính điểmLondon dG Với mỗi phối tử, 30 cấu dạng có điểm London dG cao nhất sẽ được sắp xếplại theo thứ tự bằng hàm tính điểm Affinity dG và chọn ra 10 cấu dạng có điểm Affinity
Trang 29dG tốt nhất Hàm tính điểm London dG ước tính năng lượng tự do liên kết của phối tử
tại một tư thế nhất định, có dạng:
AG c T Eflex
m-lig atom i
ADị
trong đó c đại diện cho mức tăng/giảm trung bình của entropy quay và tịnh tiến; Efiex
là năng lượng do phối tử mất tính linh hoạt (chỉ được tính từ topology của phối tử); fHB
đo sự không hoàn hảo hình học của liên kết hydro và lấy giá trị bằng [0,1]; CHB là năng lượng của một liên kết hydro lý tưởng; f M đo sự không hoàn hảo hình học của các mối
nối kim loại và lấy giá trị bằng [0,1]; C M là năng lượng của mối nối kim loại lý tưởng;
và Dị là năng lượng desolvat hóa của nguyên tử i Sự chênh lệch về năng lượng desolvat
hóa được tính theo công thức:
ADị = Ci RỈ
trong đó A và B là thê tích protein và/hoặc phôi tử có nguyên tử i thuộc thê tích B; Rí là bán kính solvat hóa cùa nguyên tử i (được lấy làm tham số sigma OPLS-AA van der
Waals cộng với 0,5 Ả); và Cị là hệ số desolvat hóa của nguyên tử i Các hệ số
C,CHB,C M , Cị được lấy từ khoảng 400 cấu trúc tinh thể tia X của phức chất protein-phối
tử với dừ liệu pKi thực nghiệm có sẵn Nguyên tử được phân loại thành khoảng chụcloại nguyên tử để gán các hệ số Cị Tích phân bội ba được tính gần đúng bằng cách sửdụng công thức tích phân Born khái quát hóa
Hàm tính điểm Affinity dG ước tính sự đóng góp entanpi vào năng lượng tự do
của liên kết bằng cách sử dụng một hàm tuyến tính:
AG Chbfhb + Cionfion + Cmligfmlig + Chhfhh + Cfipfhp + Caafaa
trong đó f đếm số tiếp điểm nguyên tử của các loại cụ thể và c là hệ số có biểu thị sựđóng góp của f vào ước tính ái lực; hb: tương tác giữa các cặp chất cho-nhận liên kếthydro; ion: tương tác ion; mlig: tương tác giữa Nitrogens/Sunfur và các kim loại chuyến tiếp (mối nối kim loại); hh: tương tác kỵ nước; hp: tương tác giữa các nguyên tử kỵnước và nguyên tử phân cực; aa: tương tác giữa hai nguyên tử bất kỳ
Với mỗi chất, lấy điểm docking là giá trị Affinity dG âm nhất trong 10 cấu dạng
Ớ bước này, các chất được cho là tiềm năng nhất trên cả 2 đích được đánh giá thông qua
“điểm số đánh giá” Cách tính với từng trường hợp như sau: với docking chéo đích, các
chất sẽ được đánh giá dựa trên điếm docking và pICso thực nghiệm Hai giá trị này được chuẩn hóa bằng công thức:
Trang 30— min (|x|)
xi max(|x|) — min (|%|)
trong đó x'i là giá trị điếm docking I pICso thực nghiệm đã chuấn hóa cần chú ý là vìđiểm docking có giá trị âm, càng âm thì ái lực liên kết càng tốt nên khi chuẩn hóa chúng
tôi sẽ lấy giá trị tuyệt đối Khi đó, giá trị chuẩn hóa của điểm docking và pICso thực
nghiệm càng dương chứng tở hoạt tính tiềm năng càng tốt Sau khi chuẩn hóa 2 giá trịnày, điếm số đánh giá được tính bằng trung bình của chúng Còn với các chất từ sànglọc 2D QSAR, do giá trị pICso dự đoán của chúng đã tương đối tốt và không chênh lệch quá nhiều, chưa kể còn có sai số khi dự đoán từ mô hình nên chúng tôi sẽ chỉ đánh giákhả năng ức chế đồng thời 2 protease dựa trên điểm docking Khi này, điểm số đánh giá
sẽ bằng trung bình điểm docking trên Mpro và PLpro Với cả 2 trường hợp, giá trị tuyệt
đối của điếm số đánh giá càng cao thì khả năng ức chế đồng thời cả 2 đích càng tốt
2.3.3 Mô phỏng động lực học phân tử
2.3.3.1 Kiểm tra tính ồn định của phức họp
Dựa trên điềm docking, các phức hợp chứa phối tử được đánh giá là tốt nhất trên
đồng thời cả hai protease được chọn để thực hiện mô phỏng MD nhằm nghiên cứu độ
ốn định của phức chất và tính toán năng lượng tự do liên kết (gồm phối tử từ dữ liệuthực nghiệm và từ sàng lọc ảo) Tuy nhiên vì điều kiện máy móc và thời gian hạn chế,
chúng tôi chỉ tiến hành thực hiện mô phỏng với một vài chất có điếm số đánh giá tốt
nhất Tất cả các mô phỏng được thực hiện bằng cách sử dụng NAMD 2.13 [44] và trường lực CHARMM36 [4] Các thông số mô phỏng được tạo bằng CHARMM-GƯI [31] Một
hình hộp chữ nhật chứa các phân tử nước được tạo ra phù hợp với kích thước của protein với khoảng cách đến các cạnh là 20 Ả Hệ được trung hòa bằng cách thêm các ion NaCl
theo phương pháp Monte-Carlo Các điều kiện biên định kỳ được đặt tự động bằng
phương pháp Particle-Mesh Ewald (PME) cho các tương tác tĩnh điện tầm xa có tham
số lưới cho các phép biến đổi Fourier nhanh (FFTs) Điều kiện đẳng nhiệt-đẳng áp (NPT)
và nhiệt độ 298,15K đã được chọn Quy trình tương tự được áp dụng cho tất cả các mô phong MD Mô phỏng được thực hiện trong 100ns với 1000 khung hình (frame), chogiá trị độ lệch bình phương gốc (RMSD) đánh giá mức độ ốn định của phối tử trong điều kiện mô phỏng RMSD là một thước đo tiêu chuẩn về khoảng cách cấu trúc giữacác tọa độ của phân tử Công thức tính RMSD:
RMSD =
n
i=l
Trang 31trong đó ỏi là khoảng cách giữa nguyên tử i của cấu trúc đang xét và nguyên tử i củacấu trúc đối chứng, n là số nguyên tử trong phân tử.
Ngoài ra, dao động bình phương gốc (RMSF) được dùng để khảo sát sự linh độngcủa các acid amin trong protein RMSF đo độ lệch trung bình của một acid amin theo thời gian so với vị trí đối chứng (thường là vị trí trung bình theo thời gian) RMSF > 0,2
Ả cho thấy phối tử linh động Giá trị RMSF được tính toán bằng biểu thức:
trong đó là vị trí của nguyên tử i, tj là khung hình đang xét, ref là cấu trúc đối chứng,
T là tổng số khung hình thu được
2.3.3.2 Tính toán năng lượng tự do liên kêt
Chúng tôi đà tính toán năng lượng tự do liên kết tương đổi cùa phối tử với thụ
thể bằng cách sử dụng phương pháp MM/GBSA [15, 62] Phương pháp này chỉ xét đếntrạng thái đầu và trạng thái cuối, sử dụng cơ học phân tử, mồ hình Born khái quát hóa
và khả năng tiếp cận dung môi để tính năng lượng tự do từ các thông tin cấu trúc Việctính toán được thực hiện bằng công cụ MolAICal [3], được biểu thị qua phương trình:
AGbịnd — ĂG rl — AGR — AGL
trong đó R là thụ thể, L là phối tử, RL là phức hợp
MolAICal sè tính toán dựa trên cách thức: sử dụng mô phỏng của phức hợp để
tách thành các mô phỏng riêng biệt của thụ thể và phối tử Năng lượng liên kết của từngthành phần trong công thức trên được tính toán dựa trên sự đóng góp của các loại tương
tác khác nhau:
Z1G = AH — T AS = AEeie + AEvdffl + AEịnt + AG SO 1 — TAS
trong đó AH sự thay đổi của entanpy; AS là sự thay đối của entropy; T là nhiệt độ; AEeie,
AEvdw AEint lần lượt là sự thay đổi của năng lượng tĩnh điện, năng lượng Van der Waals
và nội năng (các tương tác liên kết); AGsoi là năng lượng solvat hóa Gibbs (bao gồm
solvat hóa phân cực và không phân cực) Thông thường entropy sẽ được bở qua vì cácphân tử sinh học dao động khá nhiều và việc tính toán entropy sẽ mất rất nhiều tài nguyên
và thời gian, trong khi kết quả thu được không chênh lệch đáng kể [59]
Trang 32CHƯƠNG 3: KÉT QUẢ VÀ BÀN LUẬN
3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ
Các mô hình MLR tốt nhất được đưa ra trong 2 phương trình ((1) cho Mpro và(2) cho PLpro) Thông tin của các tham số phân tử trong các phương trình được đề cập trong Phụ lục 2.
pICso = - 0,9350* VE lsign_H2 + l,6334*VElsign_Dz(p) + 1,3504WAT57/W
-0,9554*GATS4tn - ì,3334*P_VSA_v_3 + 3,884*P_VSA_ppp_cyc - l,6052*S«aCH +
4,0988 (1)
0,2019*SpMax2_Bh(s) - 1,5828* Eta_D_epsiA - 0,3047 *SpMax_EA(bo) +
0 -0.2 -0.4
Hình 3.1 Biêu đô phân tán của mô hình LMO (A - Mpro, B - PLpro) và mô hình ngẫu
nhiên Y (C - Mpro, D - PLpro) so với mô hình QSAR gốc.
Trục y là Q 2 và/hoặc R2 ở mỗi lần lặp; trục X là mối tương quan giữa các tham số phân
tử và phản hồi của mô hình (K xy ) Q2 LOO và R 2 của mô hình gốc (Mod.Q2 và Mod.R2)
Trang 33lần lượt được biểu thị dưới dạng các điểm màu xanh ngọc và hồng Q2 trong kiểm chứng chéo LMO có màu cam, trong khỉ Q2 và R2 trong ngâu nhiên hóa Y lần lượt có màu vàng
và xanh lam.
Với kiểm chứng sự phù họp và kiếm chứng nội, cả 2 mô hình 2D QSAR của
Mpro và PLpro đều cho thấy R2, R2adj và Q2LOO của tập huẩn luyện có giá trị tốt (gần
1) (Mpro: R2 = 0,8944, R2adj = 0,8841, Q2LOO = 0,8711; PLpro: R2 = 0,9165, R2adj =
0,9076, Q2LOO = 0,8965) (Bảng 3.1), Với LMO cv, giá trị Q2 ở mỗi lần lặp đều daođộng xung quanh giá trị Q2LOO và không quá phân tán trong cả 2 mô hình của Mpro
và PLpro (Hình 3.1 A, B). Giá trị Q2 trung bình của 2000 lần lặp đồng thời cũng xấp xỉgiá trị Q2LOO của mô hình gốc (Mpro: Q2LMO = 0,8643 « Q2LOO = 0,8711; PLpro:Q2LMO = 0,8901 « Q2LOO = 0,8965) (Bảng 3.1). Điều này cho thấy LOO cv không
có hiện tượng đánh giá quá mức tính khả thi của mô hình và chứng minh được sự mạnh
mẽ của mô hình gốc Bên cạnh đó, nhìn vào kết quá của quy trình ngẫu nhiên hóa Y, ta
có thề thấy khả năng mô hình dự đoán đúng chỉ xảy ra một cách tình cờ cũng bị loại bở
(Hình 3.1 c, D). Trong quy trình này, sự tương quan giữa tham số phân tử và giá trịphản hồi giảm một cách đáng kể (giá trị K xy của ngẫu nhiên hóa Y nhỏ hơn rất nhiều
giá trị K xy của mô hình gốc) Đồng thời khi đó khả năng dự đoán cùa mô hình cũng
giảm một cách mạnh mẽ, các giá trị R2 và Q2 mỗi lần lặp và giá trị trung bình của 2000lần lặp đều nhỏ hơn rất nhiều so với mô hình gốc (Mpro: R2Y = 0,0893, Q2Y = -0,1292; PLpro: R2Y = 0,0952, Q2Y = -0,1441) (Bảng 3.1). Điều này là hoàn toàn phù hợp bởi trong quy trình này các giá trị phản hồi đã được hoán đối một cách ngẫu nhiên Neu như
có một yếu tố nào đó giúp cho mô hình tình cờ dự đoán chính xác hoạt tính (ví dụ như
một tham số phân tử có trọng số lớn và là nhân tố chính quyết định giá trị phản hồi) thì
khi thực hiện ngẫu nhiên hóa Y sẽ có xuất hiện ít nhất một lần lặp cho giá trị K xy , R2 vàQ2 xấp xỉ mô hình gốc Điều này đã không xảy ra chứng tỏ mô hình không phải là kết
quả của tương quan ngẫu nhiên, các biến độc lập (tham số phân tử) đều đóng góp bình
đẳng vào tính khả thi của mô hình
Với kiểm chứng ngoại, cả 2 mô hình đều có các giá trị Q2F1, Q2F2, Q2F3 gần với
1 (Mpro: Q2F1 = 0,7441, Q2F2 = 0,7423, Q2F3 = 0,7617; PLpro: Q2F1 = 0,8039, Q2F2
= 0,8039, Q2F3 = 0,8518) Điều này đã cho thấy rằng với bất kì chỉ tiêu kiểm chứng ngoại nào, cả 2 mô hình đều cho kết quả tốt và chứng minh được khả năng dự đoán tốtcủa mô hình với các chất chưa biết
Ngoài các chỉ tiêu trên, mô hình 2D QSAR còn được lựa chọn dựa trên độ ốn
định (hiệu R2-Q2LOO thấp nhất) (Mpro: R2-Q2LOO = 0,0233; PLpro: R2-Q2LOO =
0,0200), tương quan giữa các biến độc lập thấp nhất và tương quan giữa biến độc lập và
biến phụ thuộc cao nhất (Kxx thấp và ỔK cao) (Mpro: Kxx = 0,3754 and ỔK = 0,0505;
Trang 34PLpro: Kxx = 0,3674 and ỔK = 0,0643) Tất cả kết quả thống kê được ghi lại tại Bảng 3.1.
Bảng 3.1 Kết quả thống kê của 2 mô hình 2D QSAR.
Như vậy, 2 mô hình được lựa chọn đáp ứng các tiêu chí đánh giá độ chính xác,
ổn định cũng như khả năng dự đoán tốt Tất cả các thông số đều đủ tốt để cho thấy rằngcác mô hình này có thể được sử dụng để sàng lọc Hình 3.2 A, B mô tả mối tương quan giữa tập huấn luyện và tập kiếm tra của Mpro và PLpro tương ứng
AD được thể hiện bằng biểu đồ Williams - biểu đồ của phần dư chuẩn hóa(standardized residuals) so với giá trị đòn bấy Các ngoại lệ Y là những họp chất có phần
dư chuấn hóa nằm ngoài khoảng + 3, trong khi các ngoại lệ X là những họp chất có giátrị đòn bấy cao hơn giá trị ngưỡng (hi > h*) Các ngoại lệ Y đại diện cho các chất có khảnăng dự đoán kém và các ngoại lệ X đại diện cho các chất nằm ngoài miền cấu trúc huấn luyện của mô hình Theo công thức h* = 3p7n nêu trên, Mpro có h* = 0,300 và PLpro
có h* = 0,324 Có thể thấy rằng hầu hết tất cả các chất trong tập huấn luyện và tập kiểm
tra của cả 2 mô hình đều nằm trong AD và không có họp chất nào có giá trị dự đoán quákhác với giá trị thực nghiệm (khồng có ngoại lệ X và ngoại lệ Y) Điều này cho thấy
rằng cả 2 mô hình đều đưa ra các giá trị dự đoán đáng tin cậy đối với các chất nằm trong
AD Có một lưu ý thêm rằng, trong mô hình PLpro, có một họp chất nằm ngoài AD
Trang 35(PL84, chấm đỏ, hi = 0,3287 > h* = 0,324), khi đó phần dư chuẩn hóa cũng tiến tới giới
hạn -3 Điều đó cho thấy một cảnh báo rằng với những chất nằm ngoài AD, khả năng
dự đoán sẽ kém tin cậy hơn Do đó, khi dự đoán hoạt động của các hợp chất chưa biết
từ cơ sở dừ liệu của ZINC, chúng tôi chỉ chọn các hợp chất trong AD và có pICso dự
Hình 3.2 Biểu đồ phân tán MLR (A - Mpro, B- PLpro) và biểu đồ William đại diện
Các hợp chất trong tập huấn luyện và tập kiểm tra lần lượt được biểu thị bằng màu xanh
lả cây và màu đỏ.
Điều quan trọng cần lưu ý là, các giá trị phản hồi dự đoán không hoàn toàn chính xác và thực tế các chất được dự đoán tốt nhất thì có pICso dự đoán khá gần nhau, do đó chúng tôi đã chọn 30 hợp chất được dự đoán tốt nhất trên đồng thời cả 2 mô hình đểthực hiện sàng lọc bước 2 - docking Chất được coi là ức chế tốt cả Mpro và PLpro khi
có pic.50 dự đoán không nhở hơn 6,2 (6,2 là giá trị quy ước nhằm thu lấy số lượng hợpchất phù họp để thực hiện docking) Các chất này cũng phải đồng thời nằm trong AD