[Kl-Hup] Phát Hiện Hợp Chất Ức Chế Enzym Protease (Mpro Và Plpro) Của Virus Sars-Cov-2 Sử Dụng Mô Phỏng Động Lực Học Phân Tử.pdf

Bộ YTẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI LÊ ĐĂNG HUY PHÁT HIỆN HỢP CHẤT ức CHÉ ENZYM PROTEASE (MPRO VÀ PLPRO) CỦA VIRUS SARS COV 2 sử DỤNG MÔ PHỎNG ĐỘNG Lực HỌC PHAN TỬ • • • KHÓA LUẬN TỐT NGHIỆP DƯỢC sĩ HÀ[.]

Trang 1

Bộ YTẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

LÊ ĐĂNG HUY

PHÁT HIỆN HỢP CHẤT ức CHÉ ENZYM PROTEASE (MPRO VÀ PLPRO) CỦA VIRUS SARS-COV-2 sử DỤNG MÔ

KHÓA LUẬN TỐT NGHIỆP DƯỢC sĩ

HÀ NỘI - 2022

Trang 2

Bộ YTẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

LÊ ĐĂNG HUY

Mã sinh viên: 1701256

PHÁT HIỆN HỢP CHẮT ức CHẾ ENZYM PROTEASE (MPRO VÀ PLPRO) CỦA VIRUS SARS-COV-2 sử DỤNG MÔ

PHỎNG ĐỘNG Lực HỌC PHAN TỬ

KHÓA LUẬN TỐT NGHIỆP DƯỢC sĩ

Người hưởng dân:

PGS TS Phạm Thế Hải

Nơi thực hiện:

Bộ môn Hóa Dược

HÀ NỘI - 2022

Trang 3

LỜI CẢM ƠN

Đầu tiên, tôi xỉn bày tỏ lòng biết ơn sâu sắc và gửi lời cảm ơn chân thành tới

người thầy của tôi - PGS TS Phạm Thế Hải, giảng viên Bộ môn Hóa Dược, Đại học Dược Hà Nội - người thầy đã tận tâm hướng dẫn, chỉ bảo tôi từ những bước đi chập

những đầu tiên trên con đường nghiên cứu khoa học và trong suốt quãng thời gian tôi thực hiện khóa luận Thầy không những là người truyền cảm hứng khoa học cho tôi, mà

thầy còn dạy cho tôi những kiến thức sâu rộng và phương pháp làm việc đầy hiệu quả, đưa ra những lời khuyên rất hữu ích với tôi trong định hướng phát triển bản thân khi

làm nghiên cứu khoa học.

Tỏi củng vô cùng biết ơn và xỉn chân thành cảm ơn các thầy cô Bộ môn Hóa

Dược đã luôn tạo điều kiện thuận lợi cho tôi được nghiên cứu, học tập và hoàn thành khóa luận này.

Tôi xin cảm ơn gia đình và bạn bè, những người đã luôn ủng hộ tôi trên mọi con đường tôi đã chọn, cũng là nhừng người đã luôn sát cảnh và cho tôi những góp ý chân thành trong quá trình hoàn thiện khóa luận.

Tôi củng xin gửi lời cảm ơn tới ssc - Sci-students' Companion đã tổ chức những

buổi workshop ỷ nghĩa và có những lời khuyên thật bổ ích giúp tôi hoàn thiện được khóa

luận này.

Cuối cùng, tôi xin cảm ơn tới Ban giám hiệu cùng toàn thể các thầy cô giáo Trường Đại học Dược Hà Nội đã dạy dỗ và tạo điều kiện giúp tôi hoàn thành quá trình học tập củng như hoàn thiện quá trình bảo vệ khóa luận.

Hà Nội, ngày 25 tháng 06 năm 2022

Sinh viên

Lê Đăng Huy

Trang 4

MỤC LỤC

DANH MỤC CÃC KÝ HIỆU VIẾT TẮT

ĐẶT VÁN ĐỀ 1

CHƯƠNG 1: TỐNG QUAN 2

1.1 Tổng quan về protease của SARS-CoV-2 2

1.1.1 Cấu trúc và bước đầu quá trình dịch mã của virus SARS-CoV-2 2

1.1.2 Protease của virus SARS-CoV-2 3

1.1.2.1 Sự tương đồng giữa các chủng coronavirus 3

1.1.2.2 Cấu trúc của Mpro và PLpro 5

1.2 Tổng quan về mô phỏng động lực học phân tử 9

1.2.1 Đại cương về mô phỏng động lực học phân tử 9

1.2.2 Nguyên lý 10

1.2.3 Năng lượng tự do liên kêt 11

CHƯƠNG 2: NGUYÊN LIỆU, THIẾT BỊ, NỘI DUNG VÀ PHƯƠNG PHÁP 14

2.1 Nguyên liệu và thiết bị 14

2.2 Nội dung nghiên cứu 14

2.3 Phương pháp nghiên cún 14

2.3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ 15

2.3.2 Mô phỏng docking 19

2.3.3 Mô phỏng động lực học phân tử 21

2.3.3.1 Kiểm tra tính ổn định của phức hợp 21

2.3.3.2 Tính toán năng lượng tự do liên kêt 22

CHƯƠNG 3: KẾT QUẢ VÀ BÀN LUẬN 23

3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ 23

3.2 Mô phỏng docking 27

3.3 Mô phỏng động lực học phân tử 29

3.4 Bàn luận 34

Trang 5

3.4.1 ưu đỉêm của phương pháp 34

3.4.2 Nhược đỉểm của phương pháp 35

KẾT LUẬN VÀ KIẾN NGHỊ 37

TÃI LIỆU THAM KHẲO

PHỤ LỤC

Trang 6

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT

Angstrom (Đơn vị đo khoảng cách, chiều dài liên kết)

Application domain (Miền ứng dụng)Alanin

ArgininAsparagin

Acid asparticBệnh do coronavirus gây ra năm 2019Cryogenic electron microscopy (Kính hiên vi điện tử lạnh )Cystein

Donor - Acceptor (Nguyên tử cho - nhận liên kết hydro)

Electron paramagnetic resonance (Cộng hưởng thuận từ điện tử)

Fast Fourier transforms (Phép biến đổi Fourier nhanh)Forster resonance energy transfer (Cộng hưởng Forster truyền năng

lượng)Genetic algorithm (Thuật toán di truyền)

GlutaminAcid glutamicGlycin

HistidinThe half maximal inhibitory concentration (Nồng độ ức chế 50%,

thường dùng đối với chất ức chế protein, chất đối vận thụ thể, )Eeucin

Einear interaction energy (Năng lượng tự do tuyến tính)Eeave-one-out cross-validation (Kiểm chứng chéo leave-one-out)Eysin

Molecular dynamics (Động lực học phân tử)

Trang 7

Middle East respiratory syndrome coronavirus (Virus gây hội

chứng hô hấp cấp tính Trung Đông)

MethioninMolecular mechanics Poisson-Boltzmann (generalized Born) surface area

Main protease I 3-chymotrypsin-like protease (protease chính /protease giống 3-chymotrypsin)

Multiple sequence alignments (Bắt cặp nhiều trình tự)

Nuclear magnetic resonance (Cộng hưởng từ hạt nhân)Non-structural protein (Protein phi cấu trúc)

Open reading frame (Khung đọc mở)

PhenylalaninPapain-like protease (protease giống papain)Particle-Mesh Ewald

Prolin

Quantitative Structure - Activity Relationship (Tương quan định

lượng cấu trúc - tác dụng)

Root-mean-square deviation (Độ lệch bình phương gốc)

Root mean square fluctuation (Dao động bình phương gốc)

Severe acute respiratory syndrome coronavirus (Virus gây hội

chứng hô hấp cấp tính nghiêm trọng coronavirus)

Severe acute respiratory syndrome coronavirus 2 (Virus gây hội

chứng hô hấp cấp tính nghiêm trọng coronavirus 2)

SerinThreonin

Tryptophan

TyrosinValin

Trang 8

DANH MỤC CÃC BẢNG

Bảng 3.1. Kết quả thống kê của 2 mô hình 2D QSAR 25

Bảng 3.2 Điếm số docking và pICso dự đoán của các cấu trúc ức chế tiềm năng trên đồng thời Mpro và PLpro 28

Bảng 3.3. Giá trị RMSD của các phối tử trong 40ns mô phỏng MD cuối 30

Bảng 3.4. Tương tác cùa phối tử trong trung tâm hoạt động tại thời điểm cuối 32

Bảng 3.5 Năng lượng tự do liên kết MM/GBSA của các phức họp 34

Trang 9

DANH MỤC CÁC HÌNH VỄ Hình 1.1. Bộ gen và bước đầu quá trình dịch mã của virus SARS-CoV-2 2

Hình 1.2. Sự bắt cặp nhiều trình tự trên Mpro (A) và PLpro (B) ở ba chủng coronavirus

ở người (SARS-CoV-2, SARS-CoV, MERS-CoV) 4

Hình 1.3 xếp chồng các cấu trúc monomer của Mpro (A) and PLpro (B) trên CoV-2 (hồng), SARS-CoV (xanh ngọc), và MERS-CoV (xanh lá) 5

SARS-Hình 1.4. Chu trình xúc tác của Mpro với bộ đôi xúc tác (Cysl45-His41) 7

Hình 1.5. Chu trình xúc tác của PLpro với bộ ba xúc tác (Cysl 11-His272-Asp286) .8

Hình 2.1. Quy trình thực hiện nghiên cứu 15

Hình 3.1. Biểu đồ phân tán của mô hình LMO (A - Mpro, B - PLpro) và mô hình ngẫu nhiên Y (C - Mpro, D - PLpro) so với mô hình QSAR gốc 23

Hình 3.2 Biểu đồ phân tán MLR (A - Mpro, B- PLpro) và biểu đồ William đại diện chomiền ứng dụng (C- Mpro, D- PLpro) 26

Hình 3.3 Sự xếp chồng phối tử redock (xanh lá cây) và phối tử đồng kết tinh (xanh ngọc) ở Mpro (A) và PLpro (B) tại trung tâm hoạt động 27

Hình 3.4 Cấu tạo các hợp chất tiềm năng ức chế đồng thời cả Mpro và PLpro 28

Hình 3.5 Biểu đồ RMSF của các acid amin trong các phức họp của Mpro (A) và PLpro

(B) .29

Hình 3.6. Biểu đồ RMSD các phối tử của Mpro (A) và PLpro (B) theo thời gian (ns)

30

Hình 3.7 Biến thiên độ dài liên kết hydro theo thời gian 31

Hình 3.8 Cấu dạng tại thời điểm cuối của các phối tử trong trung tâm hoạt động 33

Trang 10

ĐẶT VẨN ĐÈ

Dịch bệnh coronavirus toàn cầu 2019 (COVID-19) là một mối đe dọa lớn đối vớisức khỏe cộng đồng trên toàn thế giới COVID-19 là kết quả của việc nhiễm coronavirus

2 gây hội chứng hô hấp cấp tính nghiêm trọng (SARS-CoV-2), lần đầu tiên được phân

lập và xác định ở những bệnh nhân tiếp xúc tại một chợ hải sản ở thành phố Vũ Hán, tỉnh Hồ Bắc, Trung Quốc vào tháng 12 năm 2019 [70] Bệnh ảnh hưởng đến nhiều cơ quan và hệ thống khác nhau và biểu hiện các triệu chứng từ nhẹ đến nặng, có thể gây ra hội chứng suy hô hấp cấp tính và tổn thương phổi cấp tính, cũng như tổn thương các hệ

thống cơ quan khác [11] Tính đến ngày 12 tháng 6 năm 2022, hơn 533 triệu trường hợp

được xác nhận và hơn 6,3 triệu trường hợp tử vong đã được báo cáo trên toàn cầu [64]

Đã có nhiều hướng điều trị được nghiên cứu, trong đó phát triển phác đồ điều trị bằng thuốc cũng là một hướng đi tiềm năng trong cuộc chiến chống lại COVID-19 Việc tìm

ra và ứng dụng các giải pháp điều trị mới là một quá trình tốn kém và mất nhiều thời gian Người ta ước tính rằng một chu kỳ khám phá thuốc điển hình, từ xác định hợp chất

có thể thành thuốc cho đến thử nghiệm lâm sàng, có thể mất 14 năm [40] với chi phí

800 triệu đô la Mỹ [12] Nhằm tiết kiệm tiền bạc, tài nguyên cũng như đấy nhanh quá trình tìm kiếm hợp chất tiềm năng mới, các phương pháp thiết kế thuốc áp dụng công nghệ thông tin (Computer-Aided Drug Design) ngày càng được áp dụng rộng rãi [54].Đặc biệt trong thời kì bùng phát dịch bệnh như ngày nay, việc tối ưu thời gian để tìm ra hoạt chất có thể làm thuốc là một việc vô cùng cấp thiết Từ những ưu điểm của phương pháp này chúng tôi tiến hành thực hiện nghiên cứu “Phát hiện hợp chất ức chế enzymprotease (Mpro và PLpro) của virus SARS-CoV-2 sử dụng mô phỏng động lực học phân

tử” với các mục tiêu chính là:

1 Đề xuất được phương pháp sàng lọc nhiều lớp có thể áp dụng trên số lượng lớn

các chất để tìm ra chất có hoạt tính ức chế đồng thời Mpro và PLpro của virus SARS-CoV-2

2 Đánh giá được hoạt tính các chất tiềm năng bằng phương pháp mô phỏng động

lực học phân tử

Trang 11

CHƯƠNG 1: TỐNG QUAN

1.1 Tổng quan về protease của SARS-CoV-2

1.1.1 Cấu trúc và bước đầu quá trình dịch mã của virus SARS-CoV-2

Coronavirus 2 (SARS-CoV-2) gây ra hội chứng hô hấp cấp tính nghiêm trọng,

biểu hiện trên lâm sàng bao gồm sốt, ho khan và mệt mỏi và thường có liên quan đếnphổi SARS-CoV-2 dễ lây lan, có vật chủ là động vật hoang dã hoặc người [51] Có bốn phân nhóm chính của coronavirus là a, p, Ỵ và ô, trong đó SARS-CoV-2 là một loại p coronavirus [69] Nhìn chung cấu trúc của SARS-CoV-2 mang đặc trưng của các chủngcoronavirus, chứa sợi đơn ARN dương tính với đầu 5’ và đuôi 3’ poly-A, mã hóa bổn

protein cấu trúc chính (S: gai; E: vỏ; M: màng; N: nucleocapsid) và nhiều protein phi

cấu trúc (nsp) Hạt virion coronavirus thường có hình tròn hoặc nhiều hình dạng, có

đường kính 120-160 nm Protein s làm trung gian cho sự gắn kết của virus và hợp nhất màng trong quá trình lây nhiễm Protein M có 218-263 acid amin, có đầu tận cùng N

được biến đối bởi một O- hoặc N-glycan và một đầu tận cùng c ưa nước Protein E, 74-

109 acid amin, có thể tham gia vào việc thúc đấy độc lực của virus; thường có khoảng

20 bản sao của protein này trên môi virion Protein N của coronavirus, 349-470 acid amin, là một protein được phosphoryl hóa liên kết với ARN, tạo điều kiện thuận lợi cho

việc gấp bộ gen ARN vào nucleocapsid một cách thích họp [29]

Chu kỳ xâm nhập và sao chép tế bào bắt đầu khi virus xâm nhập vào tế bào chủ,

dẫn đến sự dung hợp màng tế bào - virus Sau quá trình nhập bào và thoát vở, hai phần

ba bộ gen tính từ đầu 5 ’ bao gồm hai khung đọc mở (ORF 1 a và ORF 1 b) được dịch mã

thành hai polyprotein (ppla và pplab) thông qua cơ chế chuyển dịch khung ribosome.Hai polyprotein được phân cắt để tạo ra 16 protein phi cấu trúc, trong đó bao gồm hai

cystein protease là Mpro (main protease hay 3-chymotrypsin-like protease, được mã hóa

bởi nsp5) và PLpro (papain-like protease, được mã hóa trong nsp3) [22] Những protease

này là yếu tố chính cho sự phân cắt protein, đóng vai trò quan trọng trong vòng đời của

virus Bên cạnh việc phân cắt các cơ chất của virus, chúng cũng có thế sửa đối hoặc vô hiệu hóa hoạt động của các protein tế bào, do đó làm tăng khả năng tương thích đối với

virus [36] Bước đầu quá trình dịch mã được thể hiện ở Hình 1.1.

nspll Ệ Ệ Ệ Ệ

nsp3 nsp3

Ribosomal frameshift

Ậ PL proteinase 3CL protease

Hình 1.1 Bộ gen và bước đâu quá trình dịch mã của virus SARS-CoV-2

Trang 12

1.1.2 Protease của virus SARS-CoV-2

1.1.2.1 Sự tương đồng giữa các chủng coronavirus

Tương tự như những phát hiện liên quan đến SARS-CoV [13] và coronavirus gây

hội chứng hô hấp Trung Đông (MERS-CoV) [67], SARS-CoV-2 được cho là lai giữacác loài để khởi phát các bệnh nhiễm trùng sơ cấp ở người; hiện nay nó lây lan chú yếu

qua đường lây truyền từ người sang người Trình tự bộ gen của SARS-CoV-2 có sựđồng nhất đến 80% với SARS-CoV và 50% với MERS-CoV [33] Mặc dù giữa cácchủng có những đột biến khác nhau, các protein quan trọng của các coronavirus được

bảo tồn rất cao vì hầu hết các đột biến trong các protein này đều gây chết virus, trong

đó có Mpro và PLpro [68]

A

MproISARS-CoV-2

MproISARS-CoV-2 MproISARS-CoV MproIMERS-CoV

FRgjAF GPLGS^FR^IAF

a2

60

rk [ s

RK SM

nhsfHvq

_ NraLgWA SggjsfjLPBA

t EE s B s H ỉ ÍK H I GAP

GN|VQ GNVQ AN

*

TT -8 0

i EE s EH n CVHK0K laasBwNc

MproISARS—CoV—2

P9

► TT 120

pio

-► TT 130

TT 170

SVLACYNGgP0G svlacyng S p SVLACYNG0P

sras RQT

SgVYQC

YQC FT

JMRP n FS t I KG s F L

gMRPNgTIKGSFL

S mrpn W tikgsfl

GSCGSVG GSCGSVG GSCGSVG

FNIDYDCVS FNID YDC|VS YTKEGSV IN

FCYMHglMEL FCYMHgMEL FCYMHMMEL

p p AN

SSjH

H

Tgv T0V

T

D D A

N

N c

H

Q

G G

MproISARS-CoV-2

MproISARS-CoV—2 MproISARS-CoV MproIMERS—CoV

pl3

—► TT

a3 P_Q_Q_Q_O_Q_P_Q_CLQ_Q_Q_Q TT

a4 P_Q_Q_Q_Q_Q.

2 3 0

MproISARS—CoV—2

♦ s

A T T

MproISARS-CoV-2

MproISARS-CoV-2 MproISARS-CoV MproIMERS—CoV

a8

3 0 0

PrjDVggQ^GVmQ

pP0D V^QrjjGVnjQSdvss®Egv33®

Trang 13

PLproISARS—CoV—2

PLproISARS-CoV-2 PLproISARS-CoV PLproIMERS-CoV

pi

evr W k H ft

evk W kwft gpql ÊB eblv

TY

TY TY

V l Ị n NKN

G G R

T igvrmT vDggNgưiT

T IgV^TVD^NgflT

NIgjL NW GV0F

a2

£_Q_Q_QJL -QJLQSEQJL

a3 ÍLQJLQJBLQJL2JL2_2.

H0F

FLgR flBr FL0R

sg

Sh sp

LNHTKK LNHTKK KAAVHG

SSWK YPQVNGLTglgWA

FPQVGGLTgigWA mvvcdkvr B l S ls

M M

T0QQÍI I el

A0QQ

T

L EVI DLLKDI

NP NA VI

DMYY

EgY H0F

KFRgPALQraA KF^P ALQgA KFrajPALQ0A

ARA ARA

hk I g

AANrac AANrac std H"

L WJCgKnVgE L Grav ret L^sraKg vme l g R v r e t | mít H|L|L QI

180 • •••••190 200 210 220 230

D

E cc

c I k I r H ln V v H k t

akr H lnvv H kh

QQQTT0K QKTTTgT MBWREWSNVHsJl KDVV0Q

ICG cggcG

PLproISARS—CoV—2

P13 250

► TT

TT

QESPFVMMgAPraAQYElLlKHG QESSFVM m H ap H a E YKLQQG

Kg I T0I

GHYfflH ghyHh ghyHh VQjAjRLOGG L[I LKF

GAL GAH SGTVS

LT LT

L L

b

2 4 0

V V

A A A

N N E

s p

T T

F F

G G G

K K K

D D D

PLpro I SARS-CoV-2

Hình 1.2. Sự bắt cặp nhiều trình tự trên Mpro (A) và PLpro (B) ở ba chủng

coronavirus ở người (SARS-CoV-2, SARS-CoV, MERS-CoV).

Các cấu trúc thứ cấp được thể hiện ở dòng đầu tiên mỗi hàng Xoắn a được biểu thị

bằng chuỗi xoắn và nếp gấp p được biểu thị bằng mũi tên Các acid amin bảo tồn tuyệt đối được đảnh dấu bằng màu đỏ và acid amin bảo tồn tương đối được đánh dấu bằng màu vàng Acid amỉn xúc tác được đánh dấu bằng hình tam giác màu xanh Sự bắt cặp

được thực hiện bằng ClustalW và hiển thị bằng ESpript 3.0.

Bắt cặp nhiều trình tự giữa các các chủng coronavirus trên Mpro và PLpro được

thể hiện trong Hình 1.2 Trình tự của Mpro trên SARS-CoV-2 giống 96% so với

SARS-CoV Mpro và 50% so với MERS-CoV, trong khi trình tự của PLpro trên SARS-CoV-2

giống 83% và 31% so với SARS-CoV và MERS-CoV tương ứng Hầu hết các đặc điểm trong cấu trúc di truyền được bảo tồn giữa các chủng coronavirus khác nhau Ngoài ra,

Mpro và PLpro cho thấy sự bảo tồn mạnh mẽ trong cấu trúc ba chiều (Hình 1.3) Những

Trang 14

điều này làm cho Mpro và PLpro trở thành mục tiêu tiềm năng đế phát triến các tác nhân điều trị kháng virus phố rộng và giảm nguy cơ kháng thuốc qua trung gian đột biến ởcác chủng virus nguy hiếm trong tương lai.

Hình 1.3. xếp chồng các cấu trúc monomer của Mpro (A) and PLpro (B) trên SARS-

CoV-2 (hồng), SARS-CoV (xanh ngọc), và MERS-CoV (xanh lá).

1.1.2.2 Cấu trúc của Mpro và PLpro

Mpro

Mpro (main protease, hay protease giống 3-chymotrypsin) được mã hóa bởi nsp5

và chỉ hoạt động ở dạng dimer (các monomer riêng lẻ không hoạt động về mặt enzym)[26] Trong SARS-CoV-2 và SARS-CoV, tất cả các acid amin tham gia vào hoạt động

Trang 15

xúc tác, liên kết cơ chất và dimer hóa đều được bảo toàn 100% Ngoài ra các trình tự polyprotein pplab giống nhau là 86% và các vị trí phân cắt Mpro hầu như không thay đổi [7] Mpro bước đầu sẽ tự trưởng thành từ các polyprotein thông qua quá trình tự

động phân cắt và sau đó phân cắt ppla và pplab tại 11 vị trí (được biểu thị qua các mũitên màu xanh ngọc trong Hình 1.1) để giải phóng các nsp từ 4 đến 16 Sự phân cắt cơchất tuân theo mô hình chung: X- (Leu/Phe/Met)-Glnị(Gly/Ala/Ser)-X (X là bất kỳ acid

amin nào; ị là vị trí phân cắt) Hiện tại không có protease nào ở tế bào chủ có đặc tính

phân cắt tương tự như Mpro được báo cáo, do đó các chất ức chế Mpro có thể hạn chế được tác dụng không mong muốn đối với cơ thể [24]

Mỗi đơn vị cấu trúc của Mpro được chia thành ba miền (Hình 1.3 A) Mien I và

miền II là các thùng p (P-barrels) cấu tạo bởi 6 dải đối song Miền III là một cụm hình

cầu (globular cluster) tạo bởi 5 vòng xoắn a và được nối với miền II bằng một vùng

mạch loop dài Bộ đôi xúc tác (Cysl45-His41) nằm trong khe giữa mien I và mien II

Miền III được coi là rất quan trọng đối với quá trình dimer hóa [20] Do đó, sự phát triểncủa các chất ức chế chống lại enzyme này đã được thực hiện theo hai hướng: (i) nhắm

vào túi liên kết cơ chất đế ngăn chặn hoạt động xúc tác và (ii) ức chế phản ứng dimer hóa Bộ đôi xúc tác được bảo tồn tuyệt đối giữa các chủng coronavirus khác nhau, thuận lợi để trở thành chất ức chế phổ rộng (Hình 1.2).

Quá trình xúc tác của Mpro nhằm phân cat protein được minh họa trong Hình

1.4, bao gồm 5 bước chính: Deprotonate nhóm thiol của Cysl45 bằng His41 (hay nói

cách khác, proton hóa His41) (I) để tạo thành tác nhân nucleophile tấn công cơ chất có

cấu trúc carbonyl carbon (II), giải phóng một peptid có đầu cuối amin và khôi phục trạng

thái deproton hóa của His41 (III) Sau đó, thioester tạo thành được thủy phân (IV) đểgiải phóng acid carboxylic, tái tạo lại enzym tự do (V) Có hai cách tiếp cận chính đếtìm ra các chất ức chế nhắm tới mục tiêu là túi liên kết cơ chất: peptidomimetic (chất có

cấu trúc giống peptid) và các phân tử nhỏ Hầu hết các chất ức chế peptidomimetic đều

có vị trí thực hiện phản ứng Michael (Michael acceptor) đế hình thành liên kết cộng hóa

trị với Cysl45 cạnh tranh với cơ chất peptid Các phân tử nhỏ được chia làm hai nhóm

là chất ức chế không cộng hóa trị và chất ức chế cộng hóa trị thuận nghịch [45] Nhiều

hợp chất có hoạt tính đã được phát hiện, trong đó baicalein là chất ức chế không cộng hóa trị, không phải peptidomimetic đầu tiên của SARS-CoV-2 Mpro với cơ chế hoạt

động như một “lá chắn” phía trước bộ đôi xúc tác để ngăn cơ chất peptid tiếp cận trung

tâm hoạt động Hợp chất này có hoạt tính kháng virus in vitro tốt nên có thể giả địnhrằng các chất theo cơ chế hoạt động này có tiềm năng phát triển thuốc [65]

Trang 16

PLpro (papain-like protease) được mã hóa là một trong nhiều miền khác nhau

của nsp3 Các coronavirus có thể mã hóa hai PLpro, tuy nhiên trong SARS-CoV-2,

SARS-CoV và MERS-CoV thì PLpro là một monomer [141 Ngoài chức năng phân cắt polyprotein của virus, SARS-CoV-2 PLpro có 2 hoạt động phân giải protein khác: loại

bỏ ubiquitin (Ưb) và gen kích thích interferon 15 (ISG15, protein giống ubiquitin) của

tế bào chủ để ngăn chặn các phản ứng miễn dịch bẩm sinh, trong đó ISG15 được ưu tiên

hơn [52] PLpro có thể thực hiện các chức năng đó là bởi khả năng nhặn ra mô tip tetrapeptid Leu-X-Gly-GlyịX (X là bất kỳ acid amin nào; ị là vị trí phân cắt) Mô tip

này được tìm thấy ở giữa nspl/nsp2, nsp2/nsp3 và nsp3/nsp4 (được hiên thị trong mũitên màu hồng trong Hình 1.1) và được PLpro phân cắt để tạo ra 3 nsp trưởng thành Bên cạnh đó, PLpro cũng thực hiện chức năng loại bỏ ubiquitin và ISG15 bằng cách phân cắt ở đầu cuối c của các protein có dạng Leu-Arg-Gly-GlyịX (hoàn toàn phù họp với

mô-típ nhận dạng của PLpro) [48]

về cấu trúc, PLpro ở SARS-CoV- 2 chứa bốn miền: miền giống ubiquitin (Ưbl,

pl-3), miền ngón cái (thumb, a2-7), miền ngón tay (finger, p4-7) và miền lòng bàn tay

(palm, p8-13) (Hình 1.3 B). Trong miền ngón tay, bốn cystein (Cysl89, Cysl92,Cys224 và Cys226) được bảo tồn, tạo thành một ngón tay kẽm (zinc finger) cần thiếtcho hoạt động phân giải protein và loại bỏ ubiquitin [14] cấu trúc không gian của trung tâm hoạt động của PLpro ở SARS-CoV-2 và SARS-CoV là tương đồng nhau Tắt cả cácacid amin cần thiết cho quá trình xúc tác đều được bảo tồn [14] Bộ ba xúc tác (Cysl 11-

His272-Asp286) nằm trong một rãnh nằm giữa miền ngón tay cái và miền lòng bàn tay

Cysl 11 và His272 tương ứng được tìm thấy ở gốc của miền ngón tay cái và miền lòng

bàn tay, trong khi His272 cho liên kết hydro cho Asp286 Một hố oxyanion có chứa TrplOó là điều cần thiết để ổn định sự hình thành điện tích âm trong quá trình thủy phân

Trang 17

peptid Liên kết hydro giữa Asp108 và Trp93 là rất quan trọng để ngăn hố oxy anion sụp

đố, duy trì trung tâm hoạt động để cơ chất có thể tiếp cận được [46] Có một số mục tiêu

chiến lược cho sự phát triển của chất ức chế PLpro, chẳng hạn như bộ ba xúc tác, vị tríliên kết ISG15 hoặc miền ngón tay kẽm [30] Mặc dù có sự khác biệt về acid amin giữacác coronavirus, bộ ba xúc tác được bảo tồn tuyệt đối (Hình 1.2), cho thấy đây là mục

tiêu lý tưởng để tìm kiếm các chất ức chế phổ rộng

'/Asp286

H ^N-H

N-H HÍS272X

Hình 1.5 Chu trình xúc tác của PLpro với bộ ba xúc tác ( Cysl 11 -His272-Asp286).

Chu trình xúc tác được đề xuất của PLpro bao gồm 5 bước chính, tương tự như

Mpro ngoại trừ một số đặc điểm (Hình 1.5) [2] Cysl 11 là một nucleophile, His272 là

một acid-bazơ và Asp286 được ghép nối với His272 đế định vị vị trí và thúc đấy quá trình deprotonation của Cyslll Oxyanion của chất trung gian được ốn định bởi lỗ

oxyanion chứa TrplOó Giống như Mpro, PLpro có 2 nhóm chất ức chế chính: liên kết

cộng hóa trị và không cộng hóa trị Chất ức chế cộng hóa trị tạo ra liên kết cộng hóa trị

với Cysl 11, cạnh tranh với cơ chất, trong khi chất không cộng hóa trị ngăn cản cơ chất tiếp cận vị trí xúc tác bằng liên kết không cộng hóa trị mạnh [56]

Nhìn chung, Mpro và PLpro cho thấy sự tương đồng lớn về cơ chế xúc tác và sựbảo tồn tuyệt đối vị trí xúc tác Bên cạnh đó, peptidomimetic và các chất ức chế cộng hóa trị có nhiều nhược điểm là gây ra tác dụng phụ và có độc tính cao hơn so với nhómchất không cộng hóa trị Do đó, nghiên cứu này tập trung vào các chất ức chế không

phải peptid, không cộng hóa trị của quá trình phân giải protein của Mpro và PLpro, có

Trang 18

tiềm năng trong điều trị nhiều loại coronavirus khác nhau ngay cả với chủng virus đột biến trong tuơng lai.

1.2 Tống quan về mô phỏng động lực học phân tử

1,2,1, Đại cương về mô phỏng động lực học phân tử

Mô phỏng động lực học phân tử (MD) ngày càng có sức ảnh hưởng lớn đối vớisinh học phân tử và khám phá thuốc Những mô phỏng này ghi lại hành vi của protein

và các phân tử sinh học khác với đầy đủ thông tin ở mức độ nguyên tử với độ phân giải

rất tốt Các mô phỏng đã được chứng minh có giá trị trong việc giải mã các cơ chế chức

năng của protein và các phân tử sinh học khác, trong việc khám phá cơ sở cấu trúc của

bệnh, và trong việc thiết kế và tối ưu hóa các phân tử nhỏ, peptid và protein

Mô phỏng MD dự đoán chuyển động của mọi nguyên tử trong protein hoặc hệ

thống phân tử khác theo thời gian, dựa trên mô hình vật lý chi phối các tương tác giữacác nguyên tử [28] Những mô phỏng này có thể mang lại thông tin về nhiều quá trình

phân tử sinh học quan trọng, bao gồm sự thay đối cấu trúc, liên kết phối tử và cuộn gập

protein, xác định vị trí của tất cả các nguyên tử ở độ phân giải thời gian femto giây Điều quan trọng là những mô phong như vậy cũng có thể dự đoán cách các phân tử sinh học

sẽ phản ứng - ở cấp độ nguyên tử - đối với các nhiễu như đột biến, phosphoryl hóa,proton hóa, khi thêm hoặc bớt phối tử Mô phỏng MD thường được sử dụng kết hợp với

nhiều kỹ thuật sinh học thực nghiệm, bao gồm tinh thế học tia X, kính hiến vi điện tử lạnh (cryo-EM), cộng hưởng từ hạt nhân (NMR), cộng hưởng thuận từ điện tử (EPR) và

cộng hưởng Forster truyền năng lượng (FRET) hoặc ứng dụng trong khám phá và thiết

kế thuốc mới

Những mô phỏng này rất hiệu quả vì một số lý do Đầu tiên, ta có thể nắm bắt

được vị trí và chuyển động của mọi nguyên tử tại mọi thời điếm, điều này rất khó thực

hiện với bất kỳ kỹ thuật thực nghiệm nào Thứ hai, các điều kiện mô phỏng được xácđịnh chính xác và có thể được kiểm soát cẩn thận, như là cấu trúc ban đầu của mộtprotein, những phối tử liên kết, những phân tử khác trong môi trường, trạng thái proton

hóa, nhiệt độ, điện áp trên màng Bằng cách so sánh các mô phỏng được thực hiện

trong các điều kiện khác nhau, người ta có thế xác định ảnh hưởng của nhiều loại nhiễu

loạn phân tử

Khám phá thuốc là một ứng dụng điển hình của mô phỏng MD, đặc biệt với

những tiến bộ gần đây trong sinh học cấu trúc đã tái lập lại cấu trúc của nhiều đích quan trọng (như GPCR, kênh ion, chất vặn chuyến ) Mô phỏng MD đặc biệt có giá trị trong việc tối ưu hóa hoạt chất, khi đó phối tử được sửa đổi để cải thiện hiệu quả hoặc các đặctính khác Ở cấp độ định tính, mô phỏng có thể cung cấp nhiều thông tin khác nhau đểhướng dẫn quá trình tối ưu hóa phối tử Mô phỏng có thể được sử dụng để xác định các

Trang 19

tương tác chính mà phối tử tạo ra với túi liên kết đế dự đoán sự sắp xếp lại của túi liênkết do phối tử gây ra hoặc để kiểm tra và tinh chỉnh các cấu dạng của các phối tử tiềmnăng [55] Trong một số trường hợp, mô phỏng đầy đủ quá trình liên kết của phối tử cóthể cho phép xác định vị trí liên kết và tư thế liên kết của phối tử [27] Ờ cấp độ định

lượng, các phương pháp dựa trên mô phỏng cung cấp các ước tính chính xác hơn đáng

kề về ái lực liên kết của phối tử (năng lượng tự do) so với các phương pháp tính toán

khác như docking [43]

Mô phỏng MD cung cấp khả năng thăm dò các đặc tính phân tử khó hoặc khôngthể tiếp cận thông qua thực nghiệm Trong thiết kế phối tử và protein, các mô phỏng cóthể được sử dụng như một bộ lọc tốn ít chi phí, dựa trên năng lượng liên kết hoặc độ ổn

định để đề xuất các ứng cử viên để đưa vào thực nghiệm [8] Thường xuyên hơn, các

mô phong được sử dụng để tạo ra sự hiểu biết định tính về cách thức hoạt động của một

phân tử sinh học hoặc thuốc Thông thường thử nghiệm khó có thể cung cấp đầy đủ thông tin giống như mô phỏng Tuy nhiên, các thử nghiệm có thể được thiết kế để kiểmtra các dự đoán các mô phỏng này Do đó mô phỏng có thế tạo ra các giả thuyết dẫn đếncác thử nghiệm mới

1.2.2 Nguyên lý

Ý tưởng đằng sau một mô phỏng MD có thể giải thích theo một cách đon giản:

với vị trí đà biết trước của tất cả các nguyên tử trong một hệ phân tử sinh học, ta có thể

tính toán lực tác dụng lên mồi nguyên tử gây ra bởi tất cả các nguyên tử còn lại dựa trên

định luật chuyền động của Newton, từ đó dự đoán vị trí không gian của mỗi nguyên tử

như một hàm cùa thời gian Đặc biệt, cứ sau một bước, các tính toán lực trên mỗi nguyên

tử được lặp lại và được sử dụng để cập nhật vị trí và vận tốc của mỗi nguyên tử về bản

chất, quỹ đạo thu được là một đoạn phim ba chiều mô tả cấu hình cấp nguyên tử của hệthống tại mọi điểm trong khoảng thời gian mô phỏng [25]

Mô phỏng động lực học phân tử dựa trên 2 thành phần thiết yếu, đó là trường lực

và thuật toán tích phân [39]

Trường lực chứa tất cả thông tin được cho là cần thiết về các đặc tính lý hóa của

các tương tác nguyên tử mà ảnh hưởng đến cấu trúc phân tử và động lực học về cơ bản

phương trình của trường lực có dạng:

Trang 20

trong đó thế năng ư là một hàm vị trí của mỗi nguyên tử i Phương trình gồm 2 thành

phần chính, thể hiện cho 2 loại tương tác: 3 số hạng đầu thể hiện cho tương tác giữa 2nguyên tử khi có hình thành liên kết (thế năng liên kết) và 2 số hạng cuối thể hiện cho

tương tác giữa 2 nguyên tử không liên kết với nhau (thế năng không liên kết) Thế năng

liên kết liên quan biến dạng của liên kết (bonds), biến dạng góc (angles) và chuyển động

quay của các góc nhị diện (torsions) Thế năng không liên kết mô tả các tương tác tĩnh điện (Coulomb) và tương tác van der Waals giữa các nguyên tử [391 Bằng cách mô tả tất cả đặc điểm này, trường lực có thể cung cấp thông tin giúp thuật toán tích phân xácđịnh được cụ thể vị trí của từng nguyên tử trong hệ

Thuật toán là cốt lõi của bất kỳ mô phong MD nào Bản chất thuật toán là với vịtrí và vận tốc của các nguyên tử tại thời điểm t đà biết, tính toán lực tác dụng trên mồi

nguyên tử bằng trường lực (lực tại bất kỳ vị trí nào cũng có thể nhận được bằng cách lấyđạo hàm của thế năng) Theo cơ học cổ điển, các lực này sinh ra gia tốc cho mỗi nguyên

tử (F = mã) để sử dụng cho việc tích phân các phương trình chuyển động và cập nhật

tọa độ và vận tốc mới tại thời điếm t 4- ôt Khi này, quỹ đạo từ t đến t + ôt sẽ được hìnhthành (thông thường ôt ~ 1 fs)

Trong khám phá thuốc, mục tiêu của mô phỏng MD là mô phỏng lại quá trình diễn biễn của phân tử sinh học trong điều kiện của cơ thể Do đó, tổ họp điều kiện mô

phỏng (ensemble) đã được áp dụng, trong đó điều kiện đẳng nhiệt - đẳng áp (NPT) là

phổ biến nhất Áp suất và nhiệt độ không đổi được thực thi trong các mô phỏng bằng

cách lần lượt kiểm soát các dao động động năng của các tiểu phân và thể tích của hệ Cónhiều cách khác nhau để thực hiện điều này, trong đó thuật toán tốt nhất (xét về khả

năng tạo điều kiện NPT một cách chặt chẽ) dựa trên phương pháp tiếp cận "hệ thống mở

rộng" [34] Khi đó các biến động lực học được bổ sung, ví dụ như hệ số ma sát phụ thuộcthời gian ("bộ điều nhiệt") để kiểm soát nhiệt độ và một pít-tông để kiểm soát áp suất

1.2.3 Năng lượng tự do liên kết

Thách thức lớn trong thiết kế thuốc dựa trên cấu trúc là đạt được dự đoán chính xác về năng lượng tự do liên kết Mô phỏng động lực học phân tử cho phép mô hình hóacác thay đổi cấu trúc quan trọng đối với quá trình liên kết, dẫn đến việc tính toán các đại

lượng nhiệt động lực học liên quan đến ước tính các ái lực liên kết Với những tiến bộ gần đây về khả năng tính toán và độ chính xác, sàng lọc ảo dựa trên MD đã phát triển

từ lĩnh vực lý thuyết sang ứng dụng thực tế trong phát triển thuốc Các phương pháp tiếpcận bao gồm MM/PB(GB)SA, năng lượng tương tác tuyến tính (LIE), và các phương

pháp giả kim đà được áp dụng rộng rãi trong khám phá thuốc và tối ưu hóa hoạt chất

Trang 21

Phương pháp MM/PB(GB)SA được áp dụng cho phân tử liên kết là phân tử nhỏ,

là phương pháp điếm cuối ước tính sự chênh lệch năng lượng tự do liên kết giữa phứchợp protein-phối tử và các thành phần không liên kết riêng biệt: phối tử và protein đơn

lẻ [61] MM/PB(GB)SA cung cấp một giải pháp cân bằng được đặc trưng bởi tính chặt

chè và độ chính xác tốt hơn so với docking và ít yêu cầu về xử lý, tính toán hơn so với

các phương pháp theo lộ trình như các phép biến đổi giả kim (phương pháp này yêu cầu

thiết lập các thử nghiệm liên quan để lấy mẫu các trạng thái trung gian thông qua việc tách các tương tác phối tử) [53] Ngoài việc chỉ yêu cầu dừ liệu điểm cuối, MM/PB(GB)SA cho phép tính toán năng lượng tự do hiệu quả bằng cách sử dụng dungmôi đặc biệt: thay vì dùng một dung mỗi rõ ràng như nước hay dầu, phương pháp này

sử dụng dung môi hạt thô liên tục với hằng số điện môi đồng nhất Khi đó việc xử lý cáctương tác dung môi được đơn giản hóa rất nhiều Tuy nhiên, điều này có thể dẫn đếnkhó khăn trong việc mô hình hóa các phối tử tích điện cao và các công trình gần đây đãtập trung vào việc giảm thiểu những sai số này [61] Có hai cách tiếp cận chính được sửdụng để tạo dữ liệu cho các dự đoán năng lượng liên kết MM/PB(GB)SA, đều bắt đầu

từ mô phỏng MD trong dung môi rõ ràng: dùng nhiều quỹ đạo với ba thành phần là phức

hợp, thụ thế và phối tử riêng biệt hoặc chỉ một quỹ đạo duy nhất với phức hợp phối tử và sẽ được chia thành ba thành phần sau đó [60] Đe tối ưu độ chính xác, cácquỹ đạo từ mô phỏng MD được xử lý bằng cách loại bỏ các phân tử dung môi và ion

protein-Phuong pháp chỉ dùng một quỹ đạo được ưa dùng vì dễ dàng được thực hiện và loại bỏ được các sai số năng lượng cộng hóa trị Tuy nhiên, phương pháp này có thế không tối

ưu do phụ thuộc vào giả định: liên kết phối tử không liên quan đến những thay đối cấu trúc quy mô lớn [60] Cách tiếp cận nhiều quỹ đạo phù họp hơn với các liên kết liên

quan đến các thay đổi lớn trong cấu trúc, nhưng sẽ tạo ra các ước tính có nhiều nhiễu

hơn và yêu cầu thời gian mô phỏng lâu hơn [66] Trong thực tế, phương pháp một quỳđạo thường cho kết quả chính xác hơn phương pháp dùng ba quỹ đạo [32]

Phương pháp năng lượng tương tác tuyến tính (LIE) là một phương pháp điếm

cuối khác dự đoán năng lượng tự do liên kết tuyệt đối dựa trên sự thay đối năng lượng

tự do từ việc chuyển phối tử từ trạng thái liên kết thụ thể solvat hóa sang trạng thái tự

do trong nước [19] Quá trình này xem xét liên kết về mặt năng lượng van der Waals từ việc tạo khoang trong môi trường đích cho phối tử và năng lượng tĩnh điện giữa phân tử

và môi trường Với mục tiêu đó, LIE ước tính năng lượng tự do liên kết bằng cách tổnghợp hai mô phỏng MD được thực hiện, với phối tử được liên kết với protein đã được solvat hóa và phối tử tự do trong dung môi Sự khác biệt trong năng lượng van der Waals

và trong tương tác tĩnh điện giữa phối tử và môi trường trong mỗi trường hợp được tính toán [1, 21]

Trang 22

Các phương pháp dự đoán năng lượng tự do điểm cuối thường không tính đếncác ảnh hưởng của entropi và dung môi - những yếu tố đóng vai trò quan trọng trong

tương tác protein-phối tử [37] Việc nắm bắt những thay đổi về cấu trúc thụ thể được điều khiển bởi liên kết phối tử, liên kết hydro qua trung gian nước hoặc trao đồi dung

môi xảy ra khi phối tử lấp đầy túi liên kết là rất quan trọng để ước tính sự khác biệt năng

lượng tự do giữa trạng thái liên kết và không liên kết của phối tử [38] Tỉ lệ giữa trạngthái liên kết và không liên kết được biểu thị bằng hệ số cân bằng K Trong thực tế, hệ số

K không thể được tính toán do sự liên kết và không liên kết rất hiếm khi xảy ra trong

khoảng thời gian mô phong, dẫn đến thiếu mẫu Việc thiếu mẫu này có thể được khắc

phục bằng phương pháp giả kim: dần dần tách các tương tác van der Waals và tương tác

tĩnh điện giữa phối tử và thụ thể để có thể mồ phỏng sự chuyển đổi giữa trạng thái liênkết mà không liên kết mà không cần nắm bắt cả quá trình [71] Cơ sở của phép tính này

là chu trình nhiệt động lực học mô tả sự loại bỏ phối tử khỏi phức hợp và lọai bỏ phối

tử khỏi dung môi [5] Phương pháp giả kim thường đưa ra các ước tính chính xác nhất

về năng lượng liên kết [9], tuy nhiên lại tốn kém về mặt tính toán và thường chỉ đáng

tin cậy khi tính năng lượng liên kết tương đối giữa các phối tử có chung một khung cấu trúc [63]

Trang 23

CHƯƠNG 2: NGUYÊN LIỆU, THIẾT BỊ, NỘI DUNG VÀ PHƯƠNG PHÁP

2.1 Nguyên liệu và thiết bị

Nguyên liệu:

Dữ liệu IC50 của các chất ức chế Mpro và PLpro trên SARS-CoV-2 đã được công

bố trong các bài báo

Cấu trúc tinh thể tia X của Mpro (7LMD) và PLpro (7LBR) trến SARS-CoV-2 được tải từ ngân hàng dữ liệu protein (Protein Data Bank)

Thiết bi:

Sử dụng các phần mềm trên máy tính Asus X556UF - hệ điều hành Windows 10

và máy chủ ảo của Google

Phần mềm: Danh sách các phần mềm sử dụng bao gồm:

ClustalW MOE 2009.10Espript 3.0 CHARMM-GƯIChemDraw Ultra 12.0 NAMD

2.2 Nội dung nghiên cứu

Chúng tôi đề xuất một mô hình sàng lọc đa lớp dựa trên đồng thời dữ liệu thực

nghiệm IC50 và mô phỏng cấu trúc phức hợp trên máy tính:

1 Xây dựng 2 mô hình 2D QSAR tương ứng với Mpro và PLpro từ dữ liệu IC50

thực nghiệm để sàng lọc sơ bộ 7,3 triệu hợp chất từ cơ sở dữ liệu ZINC

2 Docking chéo đích các chất đã có dữ liệu thực nghiệm và docking vào cả 2 đích

các chất có hoạt tính dự đoán tốt trên cả Mpro và PLpro từ mô hình 2D QSAR

3 Mô phỏng động lực học phân tử các phức hợp có điểm số docking tốt nhất và

tính toán năng lượng tự do liên kết

2.3 Phương pháp nghiên cún

Tiến trình thực hiện khóa luận được thể hiện ở Hình 2.1.

Trang 24

Thu thập dừ liệu chất

ức chế Mpro và PLpro

ở SARS-CoV-2

Thu thập câu trúc 7,3 triệu hợp chất từ cơ sở

’ dừ liệu ZINC

Xây dựng mô hình 2D QSAR chơ Mpro

Hình 2.1. Quỵ trình thực hiện nghiên cứu

2.3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ

Thu thập dữ liệu thực nghiệm

Thu thập dữ liệu của các hợp chất không peptidomimetic, không cộng hóa trị đã

được thử nghiệm ức chế SARS-CoV-2 trên 2 protease mục tiêu là Mpro và PLpro Hoạt

tính thử nghiệm của các chất ức chế này được biểu thị bằng giá trị IC50 Với mục đích phát triển mô hình, các giá trị IC50 đã được chuyển đổi thành các giá trị pICso (pICso = -

logic.50) Các hợp chất được thêm hydro, chuyển thành cấu trúc 2D ở dạng SDF bằng

phần mem Open Babel [42] Cuối cùng, chúng tôi thu được 100 chất ức chế Mpro và 91

chất ức chế PLpro (Phụ lục 1).

Tính toán tham so phân tử và xử lý dữ liệu

Tính toán các tham số phân tử 2D bằng phần mềm AlvaDesc phiên bản 2.0.2[35] Sau khi thu được 4179 tham số phân tử, chúng tôi tiến hành loại bở các tham số

Trang 25

phân tử có ít nhất một giá trị bị thiếu hoặc có giá trị gần như không đổi giữa các chất hoặc có tương quan theo cặp lớn hơn hoặc bằng 0,95 Các tham số phân tử cũng bị xóanếu tỷ lệ phần trăm của các hợp chất có cùng giá trị tham số phân tử đó cao hơn hoặcbằng 80% Tất cả tham số phân tử được chuẩn hóa trên phạm vi giá trị của tất cả cáchợp chất hóa học đang xét Các bước này và các quy trình sau được thực hiện với phần

mềm QSARINS phiên bản 2.2.4 [18]

Chia tập dữ liệu

Chia toàn bộ tập dừ liệu thành các tập huấn luyện (training set) và tập kiểm tra

(test set) theo tỷ lệ 80:20 (Mpro) và 74:17 (PLpro) dựa trên việc sắp xếp thứ tự theo cấutrúc Mô hình 2D QSAR đã được phát triển dựa trên một tập huấn luyện và được thẩmđịnh với một tập kiểm tra để đánh giá khả năng dự đoán của mô hình

Phương pháp xây dụng mô hĩnh

Mô hình 2D QSAR được xây dựng dựa trên phương pháp hồi quy tuyến tính đa biến (MLR), có thể được viết dưới dạng ma trận:

y = Xb + e

trong đó y là vectơ phản hoi (response vector), b là vectơ hệ số và e là vectơ sai so X là

ma trận của mô hình, trong đó các cột là tham số phân tử

Thuật toán di truyền (genetic algorithm - GA) được sử dụng để lựa chọn tập contốt nhất của các tham số phân tử mà không cần phải khám phá tất cả các tố hợp [23]

Trong GA, quy tắc QƯIK được áp dụng để giảm số lượng mô hình bằng cách đặt một

ngưỡng tối thiểu [57] Một mô hình bị loại trừ nếu K xy - Kxx < ỔK, trong đó Kxx là

tổng tương quan giữa các tham số phân tử, K xy là mối tương quan giữa các tham số phân tử và các phản hồi, ỔK là giá trị ngưỡng do người dùng xác định (giá trị giới hạn 0,05) Khi đó các mô hình sẽ có đa cộng tuyến thấp và tương quan tốt với các phản hồi

Kiếm chứng sự phù họp

Sự phù họp của mô hình được đánh giá bằng hệ số xác định R2 cho biết khả năng

của mô hình QSAR trong việc tái tạo dữ liệu trong tập huấn luyện [47] R2 được thể hiện

dưới dạng công thức:

trong đó ỹị là giá trị dự đoán của biến phụ thuộc, yi là giá trị thực của biến phụ thuộc,

ỹ là giá trị trung bình thực của biến phụ thuộc (các giá trị đều tính toán trên tập huấn

luyện)

Trang 26

Điều quan trọng cần lưu ý là càng thêm nhiều tham số phân tử, R2 càng cao, dẫn

đến sự quá khớp (overfitting) Do đó, R2 hiệu chỉnh (R2adj) đã được sử dụng đế chọn

các mô hình có độ phù họp cao với số lượng tham số phân tử tối thiều, với công thức có

dạng:

X ỉ n ~ 1 \ R2 adj = 1 - (1 - /?2) X _ _

trong đó n là số lượng quan sát (số hợp chất trong tập huấn luyện), p là số lượng biến

độc lặp (số lượng tham so phân tử) của mô hình

Kiểm chứng nội

Tuy nhiên, R2adj không cung cấp thông tin về khả năng dự đoán của mô hình

Trong trường hợp này, kiểm chứng chéo leave-one-out (LOO CV) được sử dụng [17].Kết quả thu được là hệ số tương quan kiểm chứng chéo Q2LOO, được biểu diễn dưới

dạng công thức:

Q2LOO = 1

-x(y t - ýị/í) 2

Z(yí - ỹ)2

trong đó là giá trị phản hồi thực của hợp chất i, ỹi/i là giá trị dự đoán của hợp chất i

từ mô hình xây dựng từ n-1 hợp chất còn lại (không chứa hợp chất i)

Mặc dù vậy, chỉ LOO cv là không đủ vì nó có thể đánh giá cao quá mức khả năng dự đoán của mô hình Do đó, sử dụng quy trình leave-many-out (LMO) sẽ giúpkhắc phục nhược điểm này [17] 30% các hợp chất trong tập huấn luyện ban đầu được

loại trừ ngẫu nhiên, các họp chất còn lại được sử dụng để xây dựng mô hình và dự đoán hoạt tính các hợp chất bị loại trừ Quy trình được lặp đi lặp lại 2000 Giá trị Q2 được

tính trong mọi lần lặp và phải gần với Q2LOO cũng như giá trị trung bình của chúng(Q2LMO)

Ngẫu nhiên hóa Y (Y-randomization) được áp dụng đế đảm bảo rằng mô hình

không phải là kết quả của tương quan ngẫu nhiên [17].Các giá trị phản hồi được xáo trộn một cách ngẫu nhiên, khi đó không nên có mối tương quan giữa chúng và các tham

số phân tử và hiệu suất của mô hình bị giảm đáng kế Thực hiện 2000 lần lặp, khi đó giátrị R2 và Q2 trong mỗi lần lặp và giá trị trung bình của chúng (R2Y và Q2Y) phải càng

xa giá trị mô hình ban đầu càng tốt

Trang 27

cũng được tính toán cho tập kiểm tra để khắc phục nhược điểm khi chỉ dùng từng chỉ sốriêng lẻ Các công thức có dạng:

số quan sát trong tập huấn luyện

Nhìn chung, nếu giá trị R2 > 0,6 và Q2 > 0,5 thì mô hình được coi là đạt yêu cầu.Các giá trị R2, Q2 của các mô hình càng gần với 1 thì càng tốt [47]

Miền ứng dụng

Mô hình MLR không thể áp dụng cho tất cả các họp chất Chỉ những dự đoán nằm trong miền ứng dụng (AD) mới có thể được coi là đáng tin cậy và không phải là ngoại suy mô hình AD là vùng không gian lý thuyết được xác định bởi các tham sốphân tử và giá trị phản hồi của tập huấn luyện Đe xác định một chất có nằm ngoài AD hay không, chúng ta dựa vào các giá trị đòn bẩy (h) của các hợp chất, được tính theo

công thức:

hi = xỊ{X T X)~1x i

trong đó hi là giá trị đòn bẩy của hợp chất i, Xi là vector tham số phân tử của hợp chất,

X là ma trận tham số phân tử gồm của n hợp chất (hàng) và k biến (cột)

AD được giới hạn bởi một đường biểu diễn giá trị giới hạn h* = 3p7n, trong đó p' là số biến mô hình cộng 1, n là số hợp chất trong tập huấn luyện Neu hi > h* thì giátrị dự đoán của hợp chất đó được coi là không đáng tin cậy [41]

Sàng lọc sư bộ thư viện họp chất chưa biết

Chúng tôi thu thập cấu trúc phối tử từ cơ sở dữ liệu ZINC, chỉ lựa chọn nhừng cấu trúc thỏa mãn quy tắc 5 điểm Lipinski Kết quả chúng tôi thu được 7,3 triệu hợp

chất và tiến hành dự đoán hoạt tính bằng cách sử dụng 2 mô hình 2D QSAR (Mpro và

PLpro) đà được xây dựng Vì mô hình 2D QSAR đã xây dựng có thể có sai số khi dự

đoán, nên chúng tôi chỉ những hợp chất ở trong AD (có hi < h*) và có hoạt tính dự đoán

Trang 28

cao hơn ngưỡng (ngưỡng chúng tôi quy ước để thu được một số lượng hợp lý các chất)

trên cả 2 mô hình mới được lựa chọn Những họp chất này cùng với các họp chất đã

được công bố là đối tượng hướng đến của các mô phỏng docking phía sau

2.3.2 Mô phỏng docking

Chuẩn bi protein

Cấu trúc tinh thế của Mpro và PLpro ở SARS-CoV-2 được tải từ ngân hàng dừ

liệu protein, có nguồn gốc từ tế bào biểu hiện Escherichia coli BL21 (PDB ID: 7LMD

(Mpro) và 7LBR (PLpro)) [20, 50] Tiến hành loại nước, các cấu tử đồng kết tinh rakhỏi cấu trúc của protein và cuối cùng thêm hydro, gắn trường lực AmberlO:EHT Tất

cả các bước này đều được tiến hành trên phần mềm MOE 2009.10 [6]

Chuẩn bị phối tủ ’

Thu lấy dừ liệu của 30 hợp chất có hoạt tính dự đoán tốt nhất trên cả 2 mô hình2D QSAR và các hợp chất có hoạt tính ức chế thực nghiệm đà được công bố cấu trúc

3D của các hợp chất được xây dựng nhờ phần mem open Babel Sử dụng phần mềm

MOE 2009.10 để thêm nguyên tử hydro, tối ưu hóa năng lượng cấu trúc

Quy trình docking

Phan mem docking MOE 2009.10 sử dụng thuật toán Triangle Matcher, trong đó cấu dạng phối tử được tạo ra bằng cách sắp xếp các bộ ba nguyên tử của phối tử trên các

bộ ba của hình cầu alpha theo cách có hệ thống hơn so với phương pháp Tam giác Alpha

Các tùy chọn cho phương pháp này bao gồm thời gian tìm kiếm (khoảng thời gian được

phép tìm kiếm cho mỗi phối tử) và số cấu dạng đạt được (số cấu dạng tối đa đạt được

cho mỗi quá trình tìm kiếm cấu dạng của phối tử) được cài đặt mặc định là 300 giây và

1000 cấu dạng

Quá trình docking được chia thành 2 phần Đầu tiên, các hợp chất từ các bài báo

đã được công bố có giá trị IC50 thực nghiệm trên một protease sẽ được docking chéo vàoprotease còn lại, đề tìm ra các hợp chất có thể ức chế nhiều hơn một đích Thứ hai, cáchợp chất có hoạt tính dự đoán tốt nhất trên cả 2 mô hình 2D QSAR được tiến hành docking vào đồng thời Mpro và PLpro Các vị trí hoạt động là vùng xung quanh acid

amin xúc tác (Cysl45-His41 với Mpro và Cysl 11-His272-Asp286 với PLpro) và xungquanh phối tử đồng kết tinh, được xác định bằng phần mềm MOE

Khả năng liên kết của phối tử được đánh giá bằng cách sử dụng hàm tính điểmLondon dG Với mỗi phối tử, 30 cấu dạng có điểm London dG cao nhất sẽ được sắp xếplại theo thứ tự bằng hàm tính điểm Affinity dG và chọn ra 10 cấu dạng có điểm Affinity

Trang 29

dG tốt nhất Hàm tính điểm London dG ước tính năng lượng tự do liên kết của phối tử

tại một tư thế nhất định, có dạng:

AG c T Eflex

m-lig atom i

ADị

trong đó c đại diện cho mức tăng/giảm trung bình của entropy quay và tịnh tiến; Efiex

là năng lượng do phối tử mất tính linh hoạt (chỉ được tính từ topology của phối tử); fHB

đo sự không hoàn hảo hình học của liên kết hydro và lấy giá trị bằng [0,1]; CHB là năng lượng của một liên kết hydro lý tưởng; f M đo sự không hoàn hảo hình học của các mối

nối kim loại và lấy giá trị bằng [0,1]; C M là năng lượng của mối nối kim loại lý tưởng;

và Dị là năng lượng desolvat hóa của nguyên tử i Sự chênh lệch về năng lượng desolvat

hóa được tính theo công thức:

ADị = Ci RỈ

trong đó A và B là thê tích protein và/hoặc phôi tử có nguyên tử i thuộc thê tích B; Rí là bán kính solvat hóa cùa nguyên tử i (được lấy làm tham số sigma OPLS-AA van der

Waals cộng với 0,5 Ả); và Cị là hệ số desolvat hóa của nguyên tử i Các hệ số

C,CHB,C M , Cị được lấy từ khoảng 400 cấu trúc tinh thể tia X của phức chất protein-phối

tử với dừ liệu pKi thực nghiệm có sẵn Nguyên tử được phân loại thành khoảng chụcloại nguyên tử để gán các hệ số Cị Tích phân bội ba được tính gần đúng bằng cách sửdụng công thức tích phân Born khái quát hóa

Hàm tính điểm Affinity dG ước tính sự đóng góp entanpi vào năng lượng tự do

của liên kết bằng cách sử dụng một hàm tuyến tính:

AG Chbfhb + Cionfion + Cmligfmlig + Chhfhh + Cfipfhp + Caafaa

trong đó f đếm số tiếp điểm nguyên tử của các loại cụ thể và c là hệ số có biểu thị sựđóng góp của f vào ước tính ái lực; hb: tương tác giữa các cặp chất cho-nhận liên kếthydro; ion: tương tác ion; mlig: tương tác giữa Nitrogens/Sunfur và các kim loại chuyến tiếp (mối nối kim loại); hh: tương tác kỵ nước; hp: tương tác giữa các nguyên tử kỵnước và nguyên tử phân cực; aa: tương tác giữa hai nguyên tử bất kỳ

Với mỗi chất, lấy điểm docking là giá trị Affinity dG âm nhất trong 10 cấu dạng

Ớ bước này, các chất được cho là tiềm năng nhất trên cả 2 đích được đánh giá thông qua

“điểm số đánh giá” Cách tính với từng trường hợp như sau: với docking chéo đích, các

chất sẽ được đánh giá dựa trên điếm docking và pICso thực nghiệm Hai giá trị này được chuẩn hóa bằng công thức:

Trang 30

— min (|x|)

xi max(|x|) — min (|%|)

trong đó x'i là giá trị điếm docking I pICso thực nghiệm đã chuấn hóa cần chú ý là vìđiểm docking có giá trị âm, càng âm thì ái lực liên kết càng tốt nên khi chuẩn hóa chúng

tôi sẽ lấy giá trị tuyệt đối Khi đó, giá trị chuẩn hóa của điểm docking và pICso thực

nghiệm càng dương chứng tở hoạt tính tiềm năng càng tốt Sau khi chuẩn hóa 2 giá trịnày, điếm số đánh giá được tính bằng trung bình của chúng Còn với các chất từ sànglọc 2D QSAR, do giá trị pICso dự đoán của chúng đã tương đối tốt và không chênh lệch quá nhiều, chưa kể còn có sai số khi dự đoán từ mô hình nên chúng tôi sẽ chỉ đánh giákhả năng ức chế đồng thời 2 protease dựa trên điểm docking Khi này, điểm số đánh giá

sẽ bằng trung bình điểm docking trên Mpro và PLpro Với cả 2 trường hợp, giá trị tuyệt

đối của điếm số đánh giá càng cao thì khả năng ức chế đồng thời cả 2 đích càng tốt

2.3.3 Mô phỏng động lực học phân tử

2.3.3.1 Kiểm tra tính ồn định của phức họp

Dựa trên điềm docking, các phức hợp chứa phối tử được đánh giá là tốt nhất trên

đồng thời cả hai protease được chọn để thực hiện mô phỏng MD nhằm nghiên cứu độ

ốn định của phức chất và tính toán năng lượng tự do liên kết (gồm phối tử từ dữ liệuthực nghiệm và từ sàng lọc ảo) Tuy nhiên vì điều kiện máy móc và thời gian hạn chế,

chúng tôi chỉ tiến hành thực hiện mô phỏng với một vài chất có điếm số đánh giá tốt

nhất Tất cả các mô phỏng được thực hiện bằng cách sử dụng NAMD 2.13 [44] và trường lực CHARMM36 [4] Các thông số mô phỏng được tạo bằng CHARMM-GƯI [31] Một

hình hộp chữ nhật chứa các phân tử nước được tạo ra phù hợp với kích thước của protein với khoảng cách đến các cạnh là 20 Ả Hệ được trung hòa bằng cách thêm các ion NaCl

theo phương pháp Monte-Carlo Các điều kiện biên định kỳ được đặt tự động bằng

phương pháp Particle-Mesh Ewald (PME) cho các tương tác tĩnh điện tầm xa có tham

số lưới cho các phép biến đổi Fourier nhanh (FFTs) Điều kiện đẳng nhiệt-đẳng áp (NPT)

và nhiệt độ 298,15K đã được chọn Quy trình tương tự được áp dụng cho tất cả các mô phong MD Mô phỏng được thực hiện trong 100ns với 1000 khung hình (frame), chogiá trị độ lệch bình phương gốc (RMSD) đánh giá mức độ ốn định của phối tử trong điều kiện mô phỏng RMSD là một thước đo tiêu chuẩn về khoảng cách cấu trúc giữacác tọa độ của phân tử Công thức tính RMSD:

RMSD =

n

i=l

Trang 31

trong đó ỏi là khoảng cách giữa nguyên tử i của cấu trúc đang xét và nguyên tử i củacấu trúc đối chứng, n là số nguyên tử trong phân tử.

Ngoài ra, dao động bình phương gốc (RMSF) được dùng để khảo sát sự linh độngcủa các acid amin trong protein RMSF đo độ lệch trung bình của một acid amin theo thời gian so với vị trí đối chứng (thường là vị trí trung bình theo thời gian) RMSF > 0,2

Ả cho thấy phối tử linh động Giá trị RMSF được tính toán bằng biểu thức:

trong đó là vị trí của nguyên tử i, tj là khung hình đang xét, ref là cấu trúc đối chứng,

T là tổng số khung hình thu được

2.3.3.2 Tính toán năng lượng tự do liên kêt

Chúng tôi đà tính toán năng lượng tự do liên kết tương đổi cùa phối tử với thụ

thể bằng cách sử dụng phương pháp MM/GBSA [15, 62] Phương pháp này chỉ xét đếntrạng thái đầu và trạng thái cuối, sử dụng cơ học phân tử, mồ hình Born khái quát hóa

và khả năng tiếp cận dung môi để tính năng lượng tự do từ các thông tin cấu trúc Việctính toán được thực hiện bằng công cụ MolAICal [3], được biểu thị qua phương trình:

AGbịnd — ĂG rl — AGR — AGL

trong đó R là thụ thể, L là phối tử, RL là phức hợp

MolAICal sè tính toán dựa trên cách thức: sử dụng mô phỏng của phức hợp để

tách thành các mô phỏng riêng biệt của thụ thể và phối tử Năng lượng liên kết của từngthành phần trong công thức trên được tính toán dựa trên sự đóng góp của các loại tương

tác khác nhau:

Z1G = AH — T AS = AEeie + AEvdffl + AEịnt + AG SO 1 — TAS

trong đó AH sự thay đổi của entanpy; AS là sự thay đối của entropy; T là nhiệt độ; AEeie,

AEvdw AEint lần lượt là sự thay đổi của năng lượng tĩnh điện, năng lượng Van der Waals

và nội năng (các tương tác liên kết); AGsoi là năng lượng solvat hóa Gibbs (bao gồm

solvat hóa phân cực và không phân cực) Thông thường entropy sẽ được bở qua vì cácphân tử sinh học dao động khá nhiều và việc tính toán entropy sẽ mất rất nhiều tài nguyên

và thời gian, trong khi kết quả thu được không chênh lệch đáng kể [59]

Trang 32

CHƯƠNG 3: KÉT QUẢ VÀ BÀN LUẬN

3.1 Xây dựng mô hình 2D QSAR và sàng lọc sơ bộ

Các mô hình MLR tốt nhất được đưa ra trong 2 phương trình ((1) cho Mpro và(2) cho PLpro) Thông tin của các tham số phân tử trong các phương trình được đề cập trong Phụ lục 2.

pICso = - 0,9350* VE lsign_H2 + l,6334*VElsign_Dz(p) + 1,3504WAT57/W

-0,9554*GATS4tn - ì,3334*P_VSA_v_3 + 3,884*P_VSA_ppp_cyc - l,6052*S«aCH +

4,0988 (1)

0,2019*SpMax2_Bh(s) - 1,5828* Eta_D_epsiA - 0,3047 *SpMax_EA(bo) +

0 -0.2 -0.4

Hình 3.1 Biêu đô phân tán của mô hình LMO (A - Mpro, B - PLpro) và mô hình ngẫu

nhiên Y (C - Mpro, D - PLpro) so với mô hình QSAR gốc.

Trục y là Q 2 và/hoặc R2 ở mỗi lần lặp; trục X là mối tương quan giữa các tham số phân

tử và phản hồi của mô hình (K xy ) Q2 LOO và R 2 của mô hình gốc (Mod.Q2 và Mod.R2)

Trang 33

lần lượt được biểu thị dưới dạng các điểm màu xanh ngọc và hồng Q2 trong kiểm chứng chéo LMO có màu cam, trong khỉ Q2 và R2 trong ngâu nhiên hóa Y lần lượt có màu vàng

và xanh lam.

Với kiểm chứng sự phù họp và kiếm chứng nội, cả 2 mô hình 2D QSAR của

Mpro và PLpro đều cho thấy R2, R2adj và Q2LOO của tập huẩn luyện có giá trị tốt (gần

1) (Mpro: R2 = 0,8944, R2adj = 0,8841, Q2LOO = 0,8711; PLpro: R2 = 0,9165, R2adj =

0,9076, Q2LOO = 0,8965) (Bảng 3.1), Với LMO cv, giá trị Q2 ở mỗi lần lặp đều daođộng xung quanh giá trị Q2LOO và không quá phân tán trong cả 2 mô hình của Mpro

và PLpro (Hình 3.1 A, B). Giá trị Q2 trung bình của 2000 lần lặp đồng thời cũng xấp xỉgiá trị Q2LOO của mô hình gốc (Mpro: Q2LMO = 0,8643 « Q2LOO = 0,8711; PLpro:Q2LMO = 0,8901 « Q2LOO = 0,8965) (Bảng 3.1). Điều này cho thấy LOO cv không

có hiện tượng đánh giá quá mức tính khả thi của mô hình và chứng minh được sự mạnh

mẽ của mô hình gốc Bên cạnh đó, nhìn vào kết quá của quy trình ngẫu nhiên hóa Y, ta

có thề thấy khả năng mô hình dự đoán đúng chỉ xảy ra một cách tình cờ cũng bị loại bở

(Hình 3.1 c, D). Trong quy trình này, sự tương quan giữa tham số phân tử và giá trịphản hồi giảm một cách đáng kể (giá trị K xy của ngẫu nhiên hóa Y nhỏ hơn rất nhiều

giá trị K xy của mô hình gốc) Đồng thời khi đó khả năng dự đoán cùa mô hình cũng

giảm một cách mạnh mẽ, các giá trị R2 và Q2 mỗi lần lặp và giá trị trung bình của 2000lần lặp đều nhỏ hơn rất nhiều so với mô hình gốc (Mpro: R2Y = 0,0893, Q2Y = -0,1292; PLpro: R2Y = 0,0952, Q2Y = -0,1441) (Bảng 3.1). Điều này là hoàn toàn phù hợp bởi trong quy trình này các giá trị phản hồi đã được hoán đối một cách ngẫu nhiên Neu như

có một yếu tố nào đó giúp cho mô hình tình cờ dự đoán chính xác hoạt tính (ví dụ như

một tham số phân tử có trọng số lớn và là nhân tố chính quyết định giá trị phản hồi) thì

khi thực hiện ngẫu nhiên hóa Y sẽ có xuất hiện ít nhất một lần lặp cho giá trị K xy , R2 vàQ2 xấp xỉ mô hình gốc Điều này đã không xảy ra chứng tỏ mô hình không phải là kết

quả của tương quan ngẫu nhiên, các biến độc lập (tham số phân tử) đều đóng góp bình

đẳng vào tính khả thi của mô hình

Với kiểm chứng ngoại, cả 2 mô hình đều có các giá trị Q2F1, Q2F2, Q2F3 gần với

1 (Mpro: Q2F1 = 0,7441, Q2F2 = 0,7423, Q2F3 = 0,7617; PLpro: Q2F1 = 0,8039, Q2F2

= 0,8039, Q2F3 = 0,8518) Điều này đã cho thấy rằng với bất kì chỉ tiêu kiểm chứng ngoại nào, cả 2 mô hình đều cho kết quả tốt và chứng minh được khả năng dự đoán tốtcủa mô hình với các chất chưa biết

Ngoài các chỉ tiêu trên, mô hình 2D QSAR còn được lựa chọn dựa trên độ ốn

định (hiệu R2-Q2LOO thấp nhất) (Mpro: R2-Q2LOO = 0,0233; PLpro: R2-Q2LOO =

0,0200), tương quan giữa các biến độc lập thấp nhất và tương quan giữa biến độc lập và

biến phụ thuộc cao nhất (Kxx thấp và ỔK cao) (Mpro: Kxx = 0,3754 and ỔK = 0,0505;

Trang 34

PLpro: Kxx = 0,3674 and ỔK = 0,0643) Tất cả kết quả thống kê được ghi lại tại Bảng 3.1.

Bảng 3.1 Kết quả thống kê của 2 mô hình 2D QSAR.

Như vậy, 2 mô hình được lựa chọn đáp ứng các tiêu chí đánh giá độ chính xác,

ổn định cũng như khả năng dự đoán tốt Tất cả các thông số đều đủ tốt để cho thấy rằngcác mô hình này có thể được sử dụng để sàng lọc Hình 3.2 A, B mô tả mối tương quan giữa tập huấn luyện và tập kiếm tra của Mpro và PLpro tương ứng

AD được thể hiện bằng biểu đồ Williams - biểu đồ của phần dư chuẩn hóa(standardized residuals) so với giá trị đòn bấy Các ngoại lệ Y là những họp chất có phần

dư chuấn hóa nằm ngoài khoảng + 3, trong khi các ngoại lệ X là những họp chất có giátrị đòn bấy cao hơn giá trị ngưỡng (hi > h*) Các ngoại lệ Y đại diện cho các chất có khảnăng dự đoán kém và các ngoại lệ X đại diện cho các chất nằm ngoài miền cấu trúc huấn luyện của mô hình Theo công thức h* = 3p7n nêu trên, Mpro có h* = 0,300 và PLpro

có h* = 0,324 Có thể thấy rằng hầu hết tất cả các chất trong tập huấn luyện và tập kiểm

tra của cả 2 mô hình đều nằm trong AD và không có họp chất nào có giá trị dự đoán quákhác với giá trị thực nghiệm (khồng có ngoại lệ X và ngoại lệ Y) Điều này cho thấy

rằng cả 2 mô hình đều đưa ra các giá trị dự đoán đáng tin cậy đối với các chất nằm trong

AD Có một lưu ý thêm rằng, trong mô hình PLpro, có một họp chất nằm ngoài AD

Trang 35

(PL84, chấm đỏ, hi = 0,3287 > h* = 0,324), khi đó phần dư chuẩn hóa cũng tiến tới giới

hạn -3 Điều đó cho thấy một cảnh báo rằng với những chất nằm ngoài AD, khả năng

dự đoán sẽ kém tin cậy hơn Do đó, khi dự đoán hoạt động của các hợp chất chưa biết

từ cơ sở dừ liệu của ZINC, chúng tôi chỉ chọn các hợp chất trong AD và có pICso dự

Hình 3.2 Biểu đồ phân tán MLR (A - Mpro, B- PLpro) và biểu đồ William đại diện

Các hợp chất trong tập huấn luyện và tập kiểm tra lần lượt được biểu thị bằng màu xanh

lả cây và màu đỏ.

Điều quan trọng cần lưu ý là, các giá trị phản hồi dự đoán không hoàn toàn chính xác và thực tế các chất được dự đoán tốt nhất thì có pICso dự đoán khá gần nhau, do đó chúng tôi đã chọn 30 hợp chất được dự đoán tốt nhất trên đồng thời cả 2 mô hình đểthực hiện sàng lọc bước 2 - docking Chất được coi là ức chế tốt cả Mpro và PLpro khi

có pic.50 dự đoán không nhở hơn 6,2 (6,2 là giá trị quy ước nhằm thu lấy số lượng hợpchất phù họp để thực hiện docking) Các chất này cũng phải đồng thời nằm trong AD

Tiêu đề	Phát Hiện Hợp Chất Ức Chế Enzym Protease (Mpro Và Plpro) Của Virus Sars-Cov-2 Sử Dụng Mô Phỏng Động Lực Học Phân Tử
Tác giả	Lê Đăng Huy
Người hướng dẫn	PGS. TS. Phạm Thế Hải
Trường học	Trường Đại Học Dược Hà Nội
Chuyên ngành	Dược học
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	70
Dung lượng	23,78 MB