Bài viết Nghiên cứu dẫn xuất Plumbagin mới có hoạt tính kháng ung thư gan (HEPG2) bằng mô hình hóa QSAR trình bày việc phát triển các dẫn xuất mới có hoạt tính kháng ung thư gan xuất phát từ dẫn xuất của Plumbagin sử dụng mô hình hóa QSAR.
Trang 1NGHIÊN CỨU DẪN XUẤT PLUMBAGIN MỚI CÓ HOẠT TÍNH KHÁNG UNG THƯ GAN (HEPG2) BẰNG MÔ HÌNH HÓA QSAR
Ngô Võ Bảo Trân
Khoa Dược, Trường Đại học Công nghệ TP Hồ Chí Minh
GVHD: GS.TS Phạm Văn Tất PGS.TS Võ Phùng Nguyên
TS Nguyễn Minh Quang
TÓM TẮT
Mục tiêu: Phát triển các dẫn xuất mới có hoạt tính kháng ung thư gan xuất phát từ dẫn xuất của Plumbagin
sử dụng mô hình hóa QSAR
Phương pháp: Xây dựng các mô hình QSAR dựa trên các kỹ thuật hồi quy tuyến tính đa biến (QSARMLR)
và mạng thần kinh nhân tạo (QSARANN) trên bộ dữ liệu bao gồm 50 dẫn xuất của Plumbagin với giá trị IC50
được khai thác từ thực nghiệm Các mô hình QSAR này, sau đó được sử dụng để dự đoán giá trị IC50 của các dẫn xuất Plumbagin thiết kế mới
Kết quả: Mô hình QSARMLR đã được xây dựng thành công bao gồm bảy mô tả đáp ứng các yêu cầu thống kê: R2
train = 0,923; R2
adj = 0,910; R2
LOO = 0,888 và SE = 4,678 Mô hình mạng thần kinh QSARANN với kiến trúc I(7)-HL(3)-O(1) cũng đã được phát triển dựa trên các biến mô tả của mô hình QSARMLR với các giá trị thống kê: R2
train = 0,954; R2
cross-validation = 0,958; R2
test = 0,986 Sử dụng hai mô hình này sàng lọc và dự đoán được 13 dẫn xuất mới được có hoạt tính tốt dựa trên giá trị IC50
Kết luận: Nghiên cứu đã xây dựng thành công mô hình QSARMLR và QSARANN để dự đoán hoạt tính kháng ung thư của 13 dẫn xuất Plumbagin mới có hoạt tính tốt
Từ khóa: ANN, HepG2, MLR, Plumbagin, QSAR
ĐẶT VẤN ĐỀ
Ung thư gan là loại ung thư phổ biến nhất ở Việt Nam [1] và là gánh nặng bệnh tật xếp thứ ba ở Việt Nam [2] Vì vậy, nghiên cứu các dược chất mới có hoạt tính kháng ung thư gan là hết sức cần thiết Nhiều nghiên cứu hiện nay đang quan tâm đến các dẫn xuất tự nhiên có nguồn gốc thảo dược Trong đó, Plumbagin
(5-hydroxy-2-methyl-1,4-naphthoquinone), một dẫn xuất chính từ rễ cây Bạch hoa xà (Plumbago zeylanica
Linn) đã được nghiên cứu có khả năng kháng ung thư gan HepG2 Nhận thấy được điều đó, các dẫn xuất
mới của Plumbagin được nghiên cứu sử dụng mô hình hóa QSAR Mục tiêu của nghiên cứu là phát triển dẫn xuất mới trên cơ sở cấu trúc của Plumbagin có hoạt tính kháng ung thư gan
1 TỔNG QUAN
Trang 2Plumbagin được nhiều nghiên cứu chứng minh có tác động kháng ung thư gan HepG2 chủ yếu trên quá trình apoptosis và tăng sinh tế bào [3] [4] Tuy nhiên, có nghiên cứu chỉ ra rằng: Plumbagin trong điều trị ung thư gặp nhiều cản trở do các tính chất lý hóa và khả năng thâm nhập kém [5] Vì vậy, nghiên cứu các dẫn xuất mới của plumbagin được thực hiện Các nghiên cứu thực nghiệm tốn thời gian và chi phí vì vậy
nghiên cứu in silico giúp tiết kiệm thời gian, chi phí và sàng lọc, dự báo được hàng trăm chất trong thời
gian ngắn
2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Đối tượng nghiên cứu
Hình 1: Plumbagin (5-hydroxy-2-methylnaphthalene-1,4-dione; A)[3] và dẫn xuất (B)
2.2 Phương pháp nghiên cứu
2.2.1 Chuẩn bị dữ liệu, tối ưu hóa cấu trúc, tính toán bộ mô tả
Thu thập các dữ liệu thực nghiệm của các dẫn xuất có khung cấu trúc Plumbagin trên các bài báo nghiên cứu uy tín (Sciencedirect, Pubmed) các giá trị hoạt tính IC50 được thử nghiệm trên tế bào HepG2 [5-15] Tối ưu hóa cấu trúc bằng phương pháp cơ học phân tử MM+ trên Hyperchem [16] thu được các giá trị về năng lượng, gradient và sau đó sử dụng phương pháp bán thực nghiệm PM7 trên MOPAC [17] thu được các tham số lượng tử như HOMO, LOMO, độ âm điện Tính toán mô tả 2D, 3D được tham số cấu trúc bằng phần mềm TEST [18], kết hợp các dữ liệu, loại bỏ các tham số không có ý nghĩa
2.2.2 Mô hình QSAR MLR
Phương pháp hồi quy tuyến tính đa biến (MLR) là kỹ thuật xây dựng mô hình tuyến tính, được sử dụng khi
dự đoán giá trị của một biến phụ thuộc Y dựa trên giá trị của biến hoặc nhiều biến độc lập X [20] Mô hình hồi quy tuyến tính đa biến có dạng
Trong đó, Y là biến phụ thuộc; β0, β1,β2,…, βk là tham số hồi quy của mô hình, Xi tương ứng với biến độc lập thứ i (với i = 1 đến k, k là số lượng biến trong mô hình) và là sai số ngẫu nhiên Trong nghiên cứu này, biến phụ thuộc là giá trị IC50, biến độc lập là bộ mô tả các tính chất hóa lý của cấu trúc nghiên cứu
2.2.3 Mạng thần kinh nhân tạo ANN
ANN là một tập hợp nút được kết nối gọi là tế bào thần kinh nhân tạo, là mô hình hóa đơn giản có nguồn gốc từ tế bào thần kinh sinh học ANN bắt chước phần nào quá trình học tập của não người [21] ANN dự
0 1 1 2 2 k k
Trang 3báo các biến phụ thuộc bằng cách sử dụng một hàm kích hoạt cho các biến đầu vào Cấu trúc một mạng thần kinh nhân tạo I(k)-HL(m)-O(n) gồm 3 lớp: Neuron lớp đầu vào là các tham số mô tả của mô hình QSARMLR, neuron lớp đầu ra là giá trị IC50 và neuron ở lớp ẩn được khảo sát để đạt mô hình QSARANN phù hợp nhất Hàm kích hoạt được sử dụng trong nghiên cứu là hàm logsig và hàm tansig và mô hình được luyện bằng giải thuật lan truyền ngược kết hợp thuật toán Levenberg-Marquest
2.2.4 Đánh giá mô hình
Đánh giá mô hình là bước quan trọng trong việc xác định tính đúng đắn của mô hình đã xây dựng Trong nghiên cứa này, sử dụng phương pháp đánh giá nội với kỹ thuật đánh giá chéo loại bỏ dần từng trường hợp LOO (Leave-one-out) Đánh giá nội được thực hiện trên tập dữ liệu xây dựng mô hình với 50 giá trị thực nghiệm Giá trị thống kê để đánh giá mô hình gồm có: R2
train, R2 adj, R2 LOO, SE [20] [22] Đối với mô hình QSARANN, các đại lượng thống kê R2
train, R2 test và R2
validation được sử dụng để đánh giá
Bảng 1: Thông số thống kê đánh giá mô hình
R2 Chỉ số tương quan giữa dữ liệu dự đoán và
thực nghiệm R2 càng lớn tương quan càng
cao R2 được tính cho tập luyện (R2
train), tập kiểm tra (R2
test), tập đánh giá (R2
LOO, R2 validation) R²adj Chỉ số tương quan giữa dữ liệu dự đoán và
thực nghiệm Đại lượng này sử dụng để điều
chỉnh R2 khi đưa nhiều biến số vào mô hình k là số biến sử dụng trong mô hình
SE Sai số chuẩn là chỉ số sai lệch giữa giá trị dự
đoán và giá trị thực nghiệm Đối với một mô
hình tốt, sai số chuẩn của ước lượng phải thấp
Yi, Ŷi, Ȳ là giá trị thực nghiệm, dự đoán
và trung bình, N là số dữ liệu tập luyện
2.2.5 Thiết kế dẫn xuất mới
Các dẫn xuất mới của Plumbagin được thiết kế dựa trên các bài báo nghiên cứu thực nghiệm tại các vị trí
có sự gắn các nhóm thế nhiều Kết quả, sự gắn kết nhóm thế phần lớn ở các vị trí R3, R12, R7, R14 Các nhóm thế được gắn vào là những chất có hoạt tính và những nhóm thế này đã được tổng hợp trong thực tế để nâng cao tính khả thi trong nghiên cứu thực nghiệm tương lai
3 KẾT QUẢ VÀ BÀN LUẬN
3.1 Kết quả
2
2 1
ˆ
1
n
i n i i
Y Y R
Y Y
=
=
−
= −
−
( )
1 1
adj
k
N
−
= − −
−
2
i i 1
ˆ (Y Y ) 1
N
i
SE
N k
=
−
=
− −
Trang 43.1.1 Mô hình QSAR MLR
QSARMLR được xây dựng trên bộ dữ liệu gồm 50 dẫn xuất của Plumbagin với các mô tả 2D và 3D và tham
số lượng tử trên công cụ Regression [23] với dự liệu được chia thành 80% cho nhóm luyện và 20% cho nhóm đánh giá Mô hình QSARMLR được xây dựng bằng phương pháp Forward và kỹ thuật đánh giá chéo Chất lượng mô hình đánh giá qua các thông số thống kê R2
train, R2 adj, R2 LOO, SE Bộ mô tả phân tử gồm 378 tham số mô tả phân tử khác nhau Kết quả, 7 tham số mô tả đã được chọn khi cho ảnh hưởng lớn đến giá trị hoạt tính là numHBa, 11O, xvp3, 3C, Molecular weight, Cosmo volume, 2C (bảng 1) Mô hình QSAR với
7 tham số mô tả (k = 7) có R2
train= 0,923; R2
adj = 0,910; SE = 4,678; R2
LOO = 0,888:
IC50,µM = 113,694 − 4,588*numHBa + 346,282*11O + 4,633*xvp3 − 121,033*3C +
0,383*Molecular_Weight − 0,286*Cosmo_Volume −114,550*2C Các tham số thống kê của bộ mô tả trong mô hình QSARMLR với k = 7 thể hiện ở bảng 2
Bảng 2 Giá trị thống kê bộ mô tả mô hình QSARMLR
Error
% đóng góp
b1 numHBA (Số lượng liên kết Hydro nhận) -4,588 4,246E-07 0,767 6,893
b2 11O (Vị trí O số 11) 346,282 1,651E-17 24,587 23,943
b3 xvp3 (Chi đường hóa trị 3) 4,633 9,801E-05 1,076 5,320
b4 3C (Vị trí C số 3) -121,033 9,518E-08 18,810 5,309
b5 Molecular Weight (Khối lượng phân tử) 0,383 6,660E-12 0,040 32,389
b6 Cosmo Volume (Thể tích cosmo) -0,286 2,360E-09 0,038 26,839
b7 2C (Vị trí C số 2) -114,550 0,005 38,717 1,307
Trang 53.1.2 Mô hình mạng thần kinh nhân tạo QSAR ANN
Phương pháp mạng thần kinh nhân tạo ANN cũng được sử dụng để tạo ra mô hình có khả năng dự đoán cao hơn trên phần mềm Matlab 2019a [24] Các dự đoán xvp3, numHBA, Molecular Weight, Cosmo Volume, 2C, 3C, 11O được sử dụng làm biến đầu vào trong xây dựng mô hình QSARANN Mô hình QSARANN
sử dụng giải thuật lan truyền ngược kết hợp thuật toán Levenberg-Marquest Kiến trúc của mạng nơron bao gồm ba lớp là I(7)-HL(3)-O(1) như sau: lớp đầu vào I(7) bao gồm 7 tế bào thần kinh (xvp3, numHBA, Molecular-Weight, Cosmo-Volume, 2C, 3C, 11O); lớp đầu ra O(1) bao gồm 1 nơron là giá trị IC50; lớp ẩn gồm 3 tế bào thần kinh Hàm truyền sử dụng là hàm tansig Mô hình QSARANN nhận được các giá trị thống
kê R2
train = 0,954; R2
cross-validation = 0,958; R2
test = 0,986
Cả hai mô hình QSARMLR và QSARANN được dùng để dự đoán giá trị IC50 của tổ hợp 140 chất mới Giá trị
IC50 được tính từ hai mô hình MLR và ANN Sau đó, được sàng lọc và loại bỏ chất có giá trị IC50 lớn hoặc
âm Kết quả, 13 hợp chất được chọn với giá trị IC50 dự báo như bảng 3
Bảng 3 Giá trị IC50pred mô hình QSARMLR và QSARANN
Cấu trúc
IC 50 pred (µM)
Cấu trúc
IC 50 pred (µM)
plba3 3-III, 14-VI 18,480 16,029 plba91 3-I, 12-IV, 14-VI 11,305 11,014
plba7 3-I 20,289 21,289 plba99 3-I, 12-IV, 14-VII 11,528 11,767
plba10 12-IV,14-VI 18,184 20,675 plba109 12-IV, 7-V, 14-VI 13,770 11,135
plba14 3-I, 12-IV 11,317 12,749 plba114 3-I, 14-VII 21,310 24,097
plba45 12-IV, 7-V, 14-VII 14,224 11,810 plba119 12-IV, 7V 17,972 16,330
Trang 6plba69 3-V, 12-IV, 7-V 2,636 3,407 plba139 3-II, 12-IV, 7-V,
14-VIII
22,947 22,754
plba75 3-II, 14-VI 9,598 7,237
3.2 Bàn luận
3.2.1 Mô hình QSAR MLR
Kết quả đánh giá trên mô hình QSAR hoàn chỉnh từ toàn tập dữ liệu cho thấy phương trình đạt mức độ tương quan cao (R2
train = 0,923 > 0,6 [22] ) Giá trị R2
train= 0,923 với k = 7 thể hiện mô hình mã hóa 92,3% biến về giá trị hoạt tính trong tập dữ liệu, R2
adj = 0,910 mã hóa 91% biến về giá trị hoạt tính Sai số chuẩn trong mô hình= 4,678 R2
LOO = 0,888 (> 0,5 [22] ) và khác biệt giữa R2 và R2
LOO ≤ 0,3 [22] cho thấy mô hình có chất lượng dự đoán tốt
Giá trị P-value < 0,05 (cao nhất trên các mô tả là b7= 0,005), mô tả trong mô hình thể hiện độ tin cậy đáng
kể ở mức 95%
Các mô tả đóng góp ở mức độ khác nhau trong đó, b5, b6, b2 có phần trăm đóng góp nhiều nhất lần lượt là 32,389; 26,839; 23,943 % và các mô tả còn lại cũng có đóng góp vào mô hình QSAR theo thứ tự Molecular Weight > Cosmo Volume > 11O > numHBA > xvp3 > 3C > 2C
Mô tả 11O, xvp3, Molecular Weight có tham số hồi quy dương, các mô tả này có tương quan thuận đến giá trị IC50 Ngược lại, các mô tả numHBA, 3C, Cosmo Volume có tham số hồi quy âm, các mô tả này có tương quan nghịch đến giá trị IC50
3.2.2 Mô hình mạng thần kinh nhân tạo QSAR ANN
Mô hình QSARANN I(7)-HL(3)-O(1) cho các giá trị thống kê R2
train = 0,954; R2
cross-validation = 0,958; R2
test = 0,986 Các kết quả này chỉ ra rằng mô hình QSARANN I(7)-HL(3)-O(1) tốt hơn mô hình QSARMLR Mô hình QSARANN có thể giải thích được 95,4% biến trong tập dữ liệu, trong khi đó mô hình QSARMLR giải thích tương ứng được 92,3% biến R2
cross-validation = 0,958 (> 0,5 [22] ) và khác biệt giữa giá trị R2 và R2
cross-validation
không lớn hơn 0,3 [22] Mô hình có chất lượng dự đoán tốt
4 KẾT LUẬN
Nghiên cứu này đã phát triển thành công mô hình QSARMLR và QSARANN để dự đoán hoạt tính IC50 của các dẫn xuất Plumbagin Mô hình QSARMLR được xây dựng đáp ứng các yêu cầu thống kê Mô hình QSARANN tốt nhất có kiến trúc mạng là I(7)-HL(3)-O(1) 13 dẫn xuất mới của Plumbagin được sàng lọc có hoạt tính dự báo tốt trên tế bào ung thư HepG2, đặc biệt là plba69 và plba75 có IC50 dự báo lần lượt là 2,636 và 9,598 với MLR và 3,407 và 7,237 với ANN
Trang 7TÀI LIỆU THAM KHẢO
[1] Hyuna S, Jacques F, Rebecca LS et al (2021) Global Cancer Statistics 2020: GLOBOCAN Estimates
of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries CA: A Cancer Journal for Clinicians, 71(3), 209–249 https://doi.org/10.3322/caac.21660
[2] Tung P, Linh B, Giang K et al (2019) Cancers in Vietnam—Burden and Control Efforts: A Narrative Scoping Review Cancer Control, 26(1), 107327481986380
https://doi.org/10.1177/1073274819863802
[3] Geun HH, Yu JJ, Joonhyeok C et al (2015) The role of thioredoxin reductase and glutathione
reductase in plumbagin-induced, reactive oxygen species-mediated apoptosis in cancer cell lines European Journal of Pharmacology, 765, 384–393 https://doi.org/10.1016/j.ejphar.2015.08.058 [4] Tingting L, Mengjiao LV, Xiaohua C et al (2019) Plumbagin inhibits proliferation and induces apoptosis of hepatocellular carcinoma by downregulating the expression of SIVA Drug Design, Development and Therapy, Volume 13, 1289–1300 https://doi.org/10.2147/DDDT.S200610
[5] Na B, Jinfeng O, Manyi X et al (2017) Novel NO-releasing plumbagin derivatives: Design, synthesis and evaluation of antiproliferative activity European Journal of Medicinal Chemistry, 137, 88–95 https://doi.org/10.1016/j.ejmech.2017.05.046
[6] Shahla KB, Li YL, Han YQ et al (2014) Synthesis and biological evaluation of novel shikonin ester derivatives as potential anti-cancer agents RSC Advances, 4(67), 35588
https://doi.org/10.1039/C4RA05610H
[7] Shahla KB, Lin M et al (2015) Design, synthesis and mechanism of novel shikonin derivatives as potent anticancer agents RSC Advances, 5(40), 31759–31767 https://doi.org/10.1039/C5RA01872B [8] Jing G, Xiao FC, Jing L et al (2014) Novel Shikonin Derivatives Targeting Tubulin as Anticancer Agents Chemical Biology & Drug Design, 84(5), 603–615 https://doi.org/10.1111/cbdd.12353 [9] Ri ZH, Le J, Gui YY et al (2017) Synthesis and molecular docking study of novel alizarin derivatives containing phosphoryl amino acid moiety as potential antitumor agents Medicinal Chemistry
Research, 26(10), 2363–2374 https://doi.org/10.1007/s00044-017-1938-2
[10] Hong YL, Zi KL, Li FB et al (2015) Synthesis of aryl dihydrothiazol acyl shikonin ester derivatives
as anticancer agents through microtubule stabilization Biochemical Pharmacology, 96(2), 93–106 https://doi.org/10.1016/j.bcp.2015.04.021
[11] Xiao MW, Hong YL, Wen YK et al (2014) Synthesis and Biological Evaluation of Heterocyclic Carboxylic Acyl Shikonin Derivatives Chemical Biology & Drug Design, 83(3), 334–343
https://doi.org/10.1111/cbdd.12247
Trang 8[12] Kun Y, Ming JJ, Zhe SQ, Hu RP (2019) Design and Synthesis of Novel Anti-Proliferative Emodin Derivatives and Studies on their Cell Cycle Arrest, Apoptosis Pathway and Migration Molecules, 24(5), 884 https://doi.org/10.3390/molecules24050884
[13] Gui YY, Man YY, Ri ZH et al (2014) Synthesis and antitumor activities of novel rhein
α-aminophosphonates conjugates Bioorganic & Medicinal Chemistry Letters, 24(2), 501–507
https://doi.org/10.1016/j.bmcl.2013.12.030
[14] Li MZ, Li MZ, Jin JL et al (2012) Synthesis and antitumor activity of conjugates of 5-Fluorouracil and emodin European Journal of Medicinal Chemistry, 47, 255–260
https://doi.org/10.1016/j.ejmech.2011.10.050
[15] Jian TZ, Uwe R, Lixia Z et al (2005) Cytotoxic Activities of New Jadomycin Derivatives The Journal of Antibiotics, 58(6), 405–408 https://doi.org/10.1038/ja.2005.51
[16] HyperChem 8.0.6 (1995-2008), Hypercube Inc, USA
[17] Stewart J.J.P (2016), MOPAC2016, version: 17.240W, Stewart Computational Chemistry, USA [18] Todd M Martin (2008), TEST, Version 1.0.2, Environmental Protection Agency, USA
[19] PerkimElmer (2012), ChemBioDraw Ultra 13, CambridgeSoft, England
[20] Kunal R, Supratik K, Rudra ND (2015) A Primer on QSAR/QSPR Modeling Springer, Switzerland [21] Soteris A Kalogirou (2000) Applications of artificial neural-networks for energy systems Applied Systems (tr 17–35) Elsevier https://doi.org/10.1016/B978-0-08-043877-1.50005-X
[22] Alexander Tropsha (2010) Best Practices for QSAR Model Development, Validation, and
Exploitation Molecular Informatics, 29(6–7), 476–488 https://doi.org/10.1002/minf.201000061 [23] Steppan DD, Werner J, Yeater PR (1998), Essential Regression and Experimental Design for Chemists and Engineers
[24] Matlab R2019a (2019), MathWorks, USA