TỔNG QUAN
HISTON DEACETYLASE
1.1.1 Đại cương về Histon deacetylase
Trong tế bào người, nucleosom là đơn vị cơ bản của nhiễm sắc thể responsible cho việc đóng gói DNA Mỗi nucleosom gồm 146 cặp base của chuỗi DNA quấn quanh một lõi gồm 8 phân tử protein histon, bao gồm cấu trúc H3/H4 tetrame và hai cấu trúc H2A/H2B dime Khi tế bào ở trạng thái nghỉ, DNA quấn chặt quanh histon do tương tác tĩnh điện giữa phần đuôi N tận của histon mang điện tích dương với các cặp base mang điện tích âm của DNA, giúp giữ cấu trúc ổn định Để biểu hiện gen, DNA được nới lỏng khỏi cấu trúc histon octame nhờ các enzym biến đổi histon, trong đó phần đuôi histon thường trải qua 7 loại biến đổi chính là acetyl hóa, methyl hóa, phosphoryl hóa, ADP-ribosyl hóa, glycosyl hóa, sumoyl hóa và ubiquityl hóa, góp phần điều chỉnh phiên mã và chức năng gen.
Hình 1.1.1.Cấu trúc nucleosom trong điều hòa hoạt động phiên mã.
Cấu trúc của nucleosom gồm DNA quấn xung quanh histon octame và phần đuôi của histon trong trạng thái acetyl hóa, ảnh hưởng đến hoạt động của gene Quá trình điều hòa hoạt động phiên mã tăng cường nhờ hoạt động của HAT và giảm nhờ hoạt động của HDAC, thể hiện rõ qua cân bằng hoạt động của enzyme Histon Acetyltransferase (HAT) và Histon Deacetylase (HDAC) Sự acetyl hóa của histon xảy ra tại nhóm ε-amino của gốc lysin ở đuôi N tận của histon, giúp trung hòa điện tích dương của lysin, làm giảm khả năng tương tác của histon với DNA và thúc đẩy quá trình phiên mã biểu hiện gene.
Acetyl hóa histon chủ yếu diễn ra tại các vị trí quan trọng như Lys 9, Lys 14 của H3 và Lys 5, Lys 8, Lys 12, Lys 16 của H4, góp phần điều chỉnh hoạt động phiên mã Enzyme HAT thúc đẩy quá trình acetyl hóa, trong khi HDAC loại bỏ nhóm acetyl lysin, phục hồi điện tích dương của histon, tăng cường tương tác histon-ADN và ngăn cản yếu tố phiên mã tiếp cận DNA Mức độ acetyl hóa histon tăng sẽ thúc đẩy hoạt động phiên mã, còn giảm acetyl hóa sẽ gây ức chế quá trình này.
1.1.2 Phân loại các Histon deacetylase
Hiện nay đã phát hiện 18 loại HDAC khác nhau ở người, được chia thành 4 nhóm dựa trên sự tương đồng cấu trúc với HDAC của nấm men Saccharomyces cerevisiae Nhóm I gồm HDAC1, 2, 3 và 8, tương ứng với RPD3 deacetylase của nấm men, có cấu trúc trung tâm hoạt động rất giống nhau Nhóm II bao gồm HDAC4, 5, 6, 7, 9 và 10, được chia thành nhóm IIa gồm HDAC4, 5, 7, 9 và nhóm IIb gồm HDAC6, 10, mỗi nhóm có các trung tâm hoạt động riêng biệt Nhóm IV, đại diện bởi HDAC11, có cấu trúc trung tâm hoạt động tương đồng với cả nhóm I và II, thể hiện sự liên quan về cấu trúc giữa các nhóm Các HDAC nhóm I, II và IV được coi là các HDAC "kinh điển", là enzyme phụ thuộc vào ion Zn2+ Trong khi đó, HDAC nhóm III, hay sirtuin, cần NAD+ cho hoạt động và không bị ảnh hưởng bởi các chất ức chế của HDAC "kinh điển" Các đặc điểm chung về kích thước, vị trí phân bố trong tế bào của các HDAC nhóm I, II và IV đã được trình bày trong Bảng 1.1.1, giúp hiểu rõ hơn về đặc tính sinh lý của từng loại enzyme này.
Bảng 1.1.1 Tóm tắt về kích thước, vị trí phân bố trong tế bào của các HDAC nhóm
Nhóm HDAC Số lượng acid amin
Vị trí phân bố trong tế bào
HDAC4 1084 Nhân tế bào/ Tế bào chất
HDAC5 1122 Nhân tế bào/ Tế bào chất
HDAC7 912 Nhân tế bào/ Tế bào chất
IIb HDAC6 1215 Nhân tế bào/ Tế bào chất
HDAc10 669 Nhân tế bào/ Tế bào chất
IV HDAC11 347 Nhân tế bào/ Tế bào chất
1.1.3 Cấu trúc trung tâm hoạt động của Histon Deacetylase
Miền xúc tác (catalytic domain) của HDAC được tạo bởi một chuỗi gồm khoảng
HDAC gồm 390 amino acid, trong đó nhiều amino acid được bảo tồn trong hơn 200 cấu trúc HDAC cùng các protein tương tự HDAC xuất hiện trong các loài người, động vật, thực vật và vi khuẩn, cho thấy tính bảo tồn cao của các protein này trong các hệ sinh thái đa dạng [9].
Cấu trúc cuộn gấp của miền bao gồm một nếp gấp β bao quanh bởi các vòng xoắn α và các mạch loop giữa chúng, tạo thành cấu trúc không gian phức tạp Một số mạch loop này hợp thành phần trung tâm hoạt động của enzyme dạng túi chứa ion Zn²⁺ là coenzym, giúp liên kết với nhóm acetat Cấu trúc túi enzyme này tương tự nhau giữa các HDAC, với phần đáy chứa ion Zn²⁺ liên kết với nhóm acetat, cùng với phần thân kênh enzym, và có thể có các túi phụ, túi bên đặc trưng hoặc vùng trung tâm hoạt động khác nhau tùy thuộc vào loại HDAC (Hình 1.1.2).
Hình 1.1.2.Cấu trúc trung tâm hoạt động của HDAC và cấu trúc cơ bản của các chất ức chế HDAC nhóm dẫn xuất acid hydroxamic
Vùng màu đỏ biểu thị đáy túi chứa ion Zn²⁺, trong khi vùng màu xanh lá cây nằm tại phần kênh của túi enzym, giúp xác định vị trí hoạt động của enzyme Vùng màu xanh dương tượng trưng cho miệng của túi enzym, đóng vai trò quan trọng trong quá trình hoạt hóa enzym Các vùng màu xanh nhạt (B), tím (C), vàng (D) đại diện cho các túi phụ đặc trưng ở từng HDAC, là cơ sở để thiết kế các hợp chất có tính chọn lọc cao Những phát hiện này góp phần quan trọng trong việc phát triển các phương pháp điều trị mục tiêu dựa trên đặc điểm cấu trúc của HDACs.
Quá trình xúc tác loại bỏ nhóm acetyl lysin diễn ra nhờ hệ chuyển điện tích gồm hai gốc histidin liền kề, hai gốc aspartic cách nhau khoảng 6 amino acid và cách histidin khoảng 30 amino acid, cùng với một gốc tyrosin cách aspartic khoảng 123 amino acid, bao quanh trung tâm là ion Zn²⁺ Hệ chuyển điện tích này đóng vai trò quan trọng trong quá trình xúc tác, giúp loại bỏ nhóm acetyl lysin hiệu quả Từ khóa liên quan như “xúc tác loại bỏ nhóm acetyl lysin,” “hệ chuyển điện tích,” và “ion Zn²⁺” giúp tối ưu hóa cho các công cụ tìm kiếm, nâng cao khả năng tiếp cận thông tin.
HDAC1 và HDAC2 thuộc nhóm I của các HDAC có mức độ đồng nhất về trình tự lên tới 82%, đặc biệt là miền xúc tác ở đầu N chiếm vai trò chính trong cấu trúc protein của chúng Trong khi đó, HDAC3 chỉ có mức độ tương đồng khoảng 68% với HDAC1 và HDAC2, cho thấy sự khác biệt nhất định giữa các thành viên trong nhóm Ngoài ra, HDAC8 cũng có mức độ tương đồng nhất định với các HDAC nhóm I, góp phần mở rộng hiểu biết về cấu trúc và chức năng của các enzyme này.
Trong nhóm HDAC, HDAC3 chiếm tỷ lệ lớn nhất với 34% HDAC4 và HDAC5 có mức độ đồng nhất trình tự cao nhất trong nhóm II, đạt khoảng 70%, đồng thời cũng có mức độ tương đồng cao với HDAC7, lần lượt là khoảng 58% và 57% HDAC6 là một enzym đặc biệt trong nhóm HDAC “kinh điển” với hai miền hoạt động enzym riêng biệt; một miền có cấu trúc tương đồng với miền xúc tác của HDAC9 và miền còn lại nằm ở đầu C tận của protein Ngoài ra, HDAC9 có cấu trúc miền xúc tác ở đầu N tận, có mức độ tương đồng khoảng 50% với HDAC4, cho thấy mối liên hệ cấu trúc đáng chú ý trong các thành viên của nhóm HDAC.
5 HDAC10 có sự tương đồng về trình tự nhiều nhất với HDAC6, với 37% đồng nhất HDAC11 của nhóm IV cho thấy có sự tương đồng nhiều hơn với HDAC3 và HDAC8 của nhóm I so với các HDAC nhóm II [9]
1.1.4 Vai trò của Histon deacetylase trong ung thư
Hoạt động quá mức của HDAC gây ra sự giảm acetyl hóa của histon H3 và H4, dẫn đến ức chế biểu hiện của p21, một chất điều hòa chu trình tế bào ở các pha G1 và S HDAC1 biểu hiện quá mức trong các tế bào ung thư tuyến tiền liệt nam giới, trong khi HDAC2 có biểu hiện quá mức trong ung thư dạ dày, đại trực tràng, và nội mạc tử cung Ngoài ra, HDAC3 cũng được phát hiện biểu hiện quá mức trong ung thư đại tràng, còn HDAC6 gây ức chế vùng promoter của gene p21 trong các tế bào ung thư xương, cho thấy vai trò quan trọng của các HDAC trong quá trình phát triển và tiến triển của các loại ung thư khác nhau.
Quá trình acetyl hóa và deacetyl hóa ảnh hưởng mạnh mẽ đến sự phát triển của khối u bằng cách điều hòa biểu hiện gen liên quan đến sự sinh trưởng và di căn của tế bào ung thư Sự quá mức của HDAC1 làm ức chế các protein ức chế khối u như p53 và VHL, đồng thời thúc đẩy biểu hiện của các gen phản ứng với thiếu oxy, tăng cường sự hình thành mạch máu quanh khối u và tạo điều kiện thuận lợi cho sự phát triển, nhân lên của khối u Ngoài ra, HDAC1 còn ức chế cystatin, một chất ngăn cản xâm lấn khối u, và giảm biểu hiện của E-cadherin, một gen quan trọng trong việc duy trì sự gắn kết tế bào, do đó làm tăng khả năng xâm lấn biểu mô và di căn của tế bào ung thư.
Các protein không phải histon, đặc biệt là các yếu tố phiên mã, cũng chịu sự kiểm soát của HAT và HDAC, ảnh hưởng đến quá trình biểu hiện gen Acetyl hóa của protein p53, bị ức chế bởi các tác nhân gây hại tế bào, có thể kích hoạt p53, dẫn đến việc ngừng chu trình tế bào và khởi phát quá trình tự tiêu diệt tế bào theo chương trình Sự giảm hoặc mất chức năng của p53 trong nhiều loại tế bào và mô ung thư đã được chứng minh liên quan đến hoạt động quá mức của HDAC, điều này góp phần vào quá trình phát triển ung thư như u lymphoma thể nang.
Bào B6 đặc trưng bởi sự biểu hiện quá mức của gen chống apoptosis (antiapoptotic), góp phần vào quá trình phát triển của tế bào Ngoài ra, protein Bcl-2 còn liên quan đến tăng hoạt động của enzym HDAC2, ảnh hưởng đến quá trình điều chỉnh gene và sinh lý tế bào, góp phần vào cơ chế bệnh lý của các bệnh lý liên quan.
1.1.5 Các chất ức chế Histon deacetylase
PHƯƠNG PHÁP PROTEOCHEMOMETRICS
1.2.1 Đại cương về phương pháp proteochemometrics
Mô hình proteochemometrics (PCM) lần đầu tiên được giới thiệu vào năm 2001 bởi Prusis và cộng sự cùng Lapinsh và cộng sự, nhằm mô tả các tương tác giữa melanocortin và các thụ thể GPCR adrenergic cùng với cơ chất của chúng Kể từ đó, phương pháp PCM đã được ứng dụng rộng rãi cho nhiều đích phân tử khác nhau như GPCR aminergic, HIV protease, và cytochrome P450, góp phần nâng cao hiệu quả dự đoán và phân tích các tương tác phân tử trong lĩnh vực dược lý.
Phương pháp proteochemometrics (PCM) là một phiên bản mở rộng của mô hình định lượng tương quan cấu trúc - tác dụng cổ điển, hay mô hình định lượng tương quan đa cấu trúc - tác dụng (QMSPR modeling), nhằm đánh giá tương tác giữa protein và phối tử dựa trên các tham số của cả hai Trong mô hình PCM, dữ liệu đầu vào không chỉ gồm các đặc trưng phân tử của hợp chất hóa học mà còn bao gồm các tham số mô tả đặc điểm của protein, giúp nâng cao độ chính xác trong dự đoán hoạt tính sinh học và khám phá các mối liên hệ phức tạp giữa cấu trúc và tác dụng của các hợp chất.
Mỗi dòng trong ma trận mô tả là sự kết hợp giữa tham số của protein và phối tử, đi kèm với giá trị hoạt tính sinh học tương ứng, giúp mô tả chính xác các đặc tính sinh học của hợp chất Ngoài ra, thành phần chéo (cross term) có thể được thêm vào mô hình để thể hiện các tương tác giữa protein và hợp chất phân tử nhỏ, từ đó nâng cao độ chính xác của mô hình Phương pháp PCM sử dụng sự kết hợp này để mô hình hóa toàn diện các tương tác giữa protein và hợp chất, đồng thời cho phép định lượng độ tương đồng giữa các hợp chất hoặc protein với nhau, góp phần tối ưu trong nghiên cứu sinh học phân tử.
Mô hình QSAR truyền thống có nhược điểm là chỉ mô tả tương tác giữa một protein với một nhóm hợp chất, do đó khả năng dự đoán đối với các đích phân tử khác còn hạn chế Ngoài ra, mô hình này yêu cầu một lượng dữ liệu lớn để xây dựng, điều này khó thực hiện với các đích mới Trong khi đó, mô hình PCM mô tả đồng thời tương tác giữa nhiều protein và nhiều hợp chất, vẫn giữ được thông tin về từng cặp protein - hợp chất cụ thể PCM có khả năng liên kết nhiều bộ dữ liệu QSAR dựa trên sự tương đồng giữa các protein, giúp dự đoán các hợp chất hoặc protein mới một cách chính xác hơn (Hình 1.2.1) Mô hình PCM còn hữu ích trong việc phát hiện hợp chất tiềm năng cho các đích phân tử “mồ côi” hoặc mô hình hóa đồng thời trung tâm hoạt động và trung tâm dị lập thể của protein [24, 41].
Hình 1.2.1 minh họa phương pháp tiếp cận tương tác protein – phối tử dựa trên phương pháp PCM Các tương tác giữa protein và phối tử được biểu diễn dưới dạng ma trận, trong đó các hàng thể hiện các đích protein, còn các cột đại diện các hợp chất phân tử nhỏ Mỗi ô trong ma trận cho thấy giá trị của một cặp tương tác giữa protein đích và hợp chất phối tử, giúp phân tích và hiểu rõ các mối quan hệ này một cách rõ ràng và trực quan.
Mô hình QSAR định lượng mô tả tương tác giữa một nhóm phối tử và một đích protein duy nhất, giúp dự đoán khả năng liên kết của các hợp chất mới Trong khi đó, mô hình PCM tiếp cận toàn diện các tương tác giữa protein và hợp chất, cho phép ngoại suy hiệu quả về khả năng tương tác của các protein và hợp chất mới Áp dụng các mô hình này trong nghiên cứu giúp tối ưu hóa quá trình thiết kế thuốc và nâng cao độ chính xác trong dự đoán hoạt tính sinh học của các hợp chất mới.
Quy trình cơ bản để xây dựng một mô hình PCM cơ bản gồm các bước [1]:
1) Thu thập dữ liệu và xây dựng cơ sở dữ liệu;
2) Tính toán các tham số mô tả đặc trưng của phân tử hợp chất và protein;
3) Xây dựng mô hình PCM: dựa trên các thuật toán sử dụng trí tuệ nhân tạo và các kĩ thuật học máy để phân tích cơ sở dữ liệu và xây dựng mô hình;
5) Diễn giải và ứng dụng mô hình
Mô hình PCM có thể được xây dựng từ bất kỳ bộ dữ liệu nào chứa thông tin về các cặp tương tác protein - phối tử, giúp tính toán các tham số mô tả protein và hợp chất cũng như đo lường hoạt tính sinh học của từng cặp tương tác Thông thường, dữ liệu này được thu thập từ các bài báo công bố kết quả thực nghiệm về tương tác protein - hợp chất Tuy nhiên, việc trích xuất dữ liệu từ các bài báo khoa học tốn nhiều thời gian, công sức và có nguy cơ nhầm lẫn cao Do đó, các cơ sở dữ liệu tự động khai thác dữ liệu (text-mining) đã được phát triển để đáp ứng nhu cầu thu thập thông tin nhanh chóng và chính xác hơn [1].
Các cơ sở dữ liệu nổi bật như PubChem, DrugBank, ZINC, RCSB Protein Data Bank, UniProt, BindingDB và ChEMBL là các nguồn dữ liệu mở dễ tiếp cận, chứa lượng lớn thông tin về cấu trúc của hợp chất phân tử nhỏ, cấu trúc protein và hoạt tính sinh học thực nghiệm Ngoài ra, các nền tảng này đều cung cấp các công cụ và phương pháp trích xuất dữ liệu đầy đủ, thuận tiện cho người dùng nghiên cứu và phân tích.
1.2.3 Tham số mô tả hợp chất hóa học và protein
1.2.3.1 Tham số mô tả cấu trúc hợp chất hóa học
Tham số mô tả là dạng mã hóa chuyển đổi thông tin về đặc trưng của các phân tử hợp chất thành một trình tự logic giúp mô hình dự đoán phân biệt các phân tử hiệu quả hơn Đối với các hợp chất phân tử nhỏ, nhiều loại tham số mô tả đã được phát triển, tuy nhiên chưa có loại nào được chứng minh là tối ưu hoặc cho kết quả mô hình tốt nhất Do đó, việc kết hợp nhiều loại tham số khác nhau trong quá trình xây dựng mô hình là cần thiết để nâng cao hiệu quả dự đoán Một số tham số mô tả hợp chất phổ biến như đã được đề cập trong tài liệu [41].
Các tham số lý hóa 1 chiều (1D physicochemical compound descriptors) được tính toán dựa trên công thức phân tử của phối tử, như khối lượng phân tử và số lượng nguyên tử mỗi loại Những tham số này tính toán nhanh chóng, giúp đơn giản hóa quá trình phân tích mô hình dự đoán Tuy nhiên, vì không chứa nhiều thông tin về cấu trúc hóa học của hợp chất, chúng làm giảm độ chính xác của mô hình, do đó thường được sử dụng kết hợp với các tham số khác để cải thiện hiệu quả dự đoán.
Các mô tả cấu trúc 2 chiều (2D topological compound descriptors) thể hiện các thông số liên quan đến kích thước, hình dạng và phân bố điện tích trên phân tử, giúp việc tính toán nhanh chóng và hiệu quả Tuy nhiên, nhược điểm của các mô tả này là thiếu khả năng phản ánh rõ ràng cấu trúc 3 chiều của phân tử, giới hạn trong việc hiểu rõ các đặc tính phức tạp của phân tử trong không gian ba chiều.
Dấu vân tay phân tử, hay còn gọi là 2D Morgan circular fingerprints, được tính toán dựa trên việc mã hóa các phần của cấu trúc phân tử thành chuỗi nhị phân Mỗi phần của phân tử (substructure) được giới hạn trong một bán kính xung quanh nguyên tử hoặc liên kết, giúp mô tả chính xác cấu trúc phân tử Loại tham số này cho phép lưu trữ và phân tích một lượng lớn thông tin cấu trúc phân tử một cách hiệu quả, góp phần nâng cao khả năng phân tích và dự đoán hoạt tính của các hợp chất.
Mô tả cấu trúc 3 chiều dựa trên đặc trưng hợp chất 3D (alignment-based 3D compound descriptors) cung cấp thông tin chi tiết về cấu trúc không của phân tử trong trạng thái tương tác với protein, giúp cải thiện độ chính xác của mô hình dự đoán Tuy nhiên, việc tính toán các tham số này đòi hỏi nhiều thời gian và tài nguyên máy tính, nên thường không phù hợp để áp dụng trên quy mô lớn các cấu trúc phân tử.
1.2.3.2 Tham số mô tả protein
Trái với lượng lớn tham số mô tả các hợp chất phân tử nhỏ, chỉ có một vài loại tham số mô tả cho protein [1, 41]:
Mô tả phụ thuộc vào căn chỉnh protein (alignment-dependent descriptors) dựa trên việc căn chỉnh trình tự hoặc cấu trúc 3D của các phân tử protein, trong đó sự có mặt của một đoạn trình tự hoặc cấu trúc tại mỗi vị trí được mã hóa thành chuỗi logic Một phương pháp mô tả phổ biến khác là sử dụng các Z-scale, được xác định thông qua phân tích thành phần chính (PCA) từ ma trận dữ liệu các tham số lí hóa của amino acid trong trình tự protein Các Z-scale phản ánh các đặc trưng về tính thân nước/sơ nước (Z1), khả năng phân cực hóa và mức độ chiếm chỗ trong không gian (Z2), mức độ phân cực (Z3), cùng các tương tác tĩnh điện (Z4 và Z5) Mặc dù các tham số Z-scale cho thấy khả năng mô tả tốt các đặc trưng của protein, nhưng chúng phù hợp nhất với các protein có trình tự hoặc cấu trúc tương tự nhau.
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
ĐỐI TƯỢNG NGHIÊN CỨU
Dữ liệu xây dựng mô hình bao gồm cấu trúc tinh thể của protein, cấu trúc 2D của các hợp chất phân tử nhỏ và giá trị hoạt tính sinh học của chúng trên các protein đã chọn Các protein HDAC có cấu trúc tinh thể đã được xác định từ ngân hàng dữ liệu cấu trúc protein PDB databank, trong đó HDAC1, 2, 3 và 8 thuộc nhóm I, HDAC4 và 7 thuộc nhóm IIa, và HDAC6 thuộc nhóm IIb Những dữ liệu này là cơ sở quan trọng để phát triển mô hình dự đoán hoạt tính và tương tác của các hợp chất trên các phân nhóm HDAC khác nhau.
Dữ liệu cấu trúc protein sử dụng từ Ngân hàng dữ liệu Protein (PDB) với trình tự và cấu trúc tinh thể đã được xác định chính xác cao Các tệp cấu trúc định dạng PDB có thể dễ dàng xem và phân tích bằng nhiều phần mềm và công cụ khác nhau, giúp bảo toàn thông tin mà không gây mất mát hoặc sai lệch dữ liệu.
Bảng 2.1.1 Trình tự và cấu trúc 3D của 7 HDAC thu được từ PDB và số lượng dữ liệu hoạt tính sinh học thu được từ ChEMBL
Số lượng dữ liệu hoạt tính
Dữ liệu về giá trị hoạt tính sinh học của các hợp chất phân tử nhỏ với HDAC được thu thập từ cơ sở dữ liệu ChEMBL, chứa hơn 2,4 triệu hợp chất hóa học và 1,6 triệu phản ứng định lượng từ hơn 88 nghìn bài báo nghiên cứu Thông tin này có thể dễ dàng lọc và phân tích theo nhiều tiêu chí khác nhau nhằm phục vụ các yêu cầu nghiên cứu đa dạng.
Dựa trên 7 cấu trúc protein HDAC trong cơ sở dữ liệu ChEMBL, dữ liệu hoạt tính sinh học của các hợp chất phân tử nhỏ trên các protein này đã được lựa chọn dựa trên các tiêu chí nghiêm ngặt Việc đánh giá hoạt tính sinh học giúp xác định các hợp chất tiềm năng có khả năng điều chỉnh hoạt động của HDAC, góp phần vào phát triển thuốc điều trị các bệnh liên quan đến quá trình biểu hiện gene Các dữ liệu này đóng vai trò quan trọng trong việc nghiên cứu cấu trúc và chức năng của các protein HDAC, từ đó thúc đẩy quá trình tìm kiếm các hợp chất mới có hoạt tính ức chế hoặc kích thích phù hợp Các tiêu chí lựa chọn được dựa trên độ hoạt tính, độ đặc hiệu và khả năng tương tác với các cấu trúc protein HDAC cụ thể, nhằm tối ưu hoá hiệu quả điều trị và phát triển thuốc mới.
(i) Loại hoạt tính sinh học chuẩn là IC50,
(ii) Loại đích tác dụng chuẩn là protein đơn độc
(iii) Phá vỡ quy tắc RO5 = 0
(iv) Đơn vị tính tiêu chuẩn của hoạt tính sinh học là nM
(v) Mối tương quan tác dụng chuẩn là “=”
(vi) Loại phải ứng định lượng là B (Binding)
(vii) Có sự lặp lại kết quả = 0
(viii) Chú thích tính hợp lệ của dữ liệu = N/A
Tổng cộng thu được tất cả 9060 giá trị dữ liệu hoạt tính sinh học, số lượng cụ thể cho từng HDAC ở bảng 2.1.1
Các tiêu chí này được áp dụng để đảm bảo dữ liệu thu được có độ chính xác cao và độ tin cậy phù hợp với nghiên cứu tương tác của các hợp chất phân tử nhỏ với từng đích protein HDAC Việc tuân thủ các tiêu chí này giúp nâng cao tính chính xác của kết quả, hỗ trợ xây dựng các phân tích đáng tin cậy trong lĩnh vực nghiên cứu enzyme HDAC và thuốc gây ức chế Điều này đặc biệt quan trọng trong việc phát triển các liệu pháp điều trị dựa trên tương tác phân tử nhỏ với protein HDAC.
Các giá trị hoạt tính sinh học được quy đổi về pIC50 để sử dụng trong quá trình mô hình hóa
Dữ liệu về các hợp chất phân tử nhỏ được lọc và tổng hợp trực tiếp từ bộ dữ liệu hoạt tính sinh học, giúp loại bỏ sai lệch và đảm bảo độ chính xác cao Việc tự động hóa quá trình này giúp tránh các sai lệch khi tổng hợp thông tin thủ công, nâng cao độ tin cậy của dữ liệu nghiên cứu Bằng cách sử dụng bộ dữ liệu hoạt tính sinh học có hệ thống, thông tin về các hợp chất phân tử nhỏ được cập nhật và chính xác hơn, hỗ trợ các nghiên cứu và ứng dụng trong lĩnh vực dược phẩm và sinh học.
Các phần mềm và công cụ sử dụng để tính toán các tham số mô tả, xây dựng mô hình bao gồm:
5 Ngôn ngữ lập trình R, python
Ngôn ngữ lập trình R, được sử dụng trên nền tảng RStudio trong nghiên cứu này, nổi bật với khả năng phân tích dữ liệu mạnh mẽ và phù hợp cho lĩnh vực tin sinh học R cung cấp nhiều kỹ thuật thống kê và phương pháp phân tích dữ liệu đa dạng, giúp xử lý dữ liệu hiệu quả Thao tác và cú pháp trong R đơn giản, dễ học, đồng thời có nhiều gói (package) và hàm (function) tích hợp hỗ trợ các chức năng chuyên biệt như tính toán tham số mô tả cho protein, phân tích phối tử, căn chỉnh và phù hợp trình tự gen, protein, cũng như xây dựng các mô hình học máy Ngoài ra, R còn dễ dàng liên kết với các ngôn ngữ lập trình khác, tăng tính linh hoạt và ứng dụng trong nghiên cứu sinh học dữ liệu.
Ngôn ngữ lập trình R thường gặp phải một số lỗi hệ thống trong quá trình sử dụng, gây ảnh hưởng đến hiệu suất và độ ổn định của công việc phân tích dữ liệu Chính vì vậy, để đảm bảo tính linh hoạt và hiệu quả, người dùng thường cần kết hợp R với các ngôn ngữ lập trình khác như Python hoặc sử dụng các phần mềm chuyên biệt để xử lý các vấn đề phức tạp hơn Việc đa dạng hóa công cụ giúp nâng cao khả năng phân tích và tối ưu hóa quá trình làm việc với dữ liệu phức tạp.
PHƯƠNG PHÁP NGHIÊN CỨU
2.2.1 Tính toán các tham số mô tả hợp chất phân tử nhỏ
Trong tập dữ liệu 9060 hợp chất phân tử nhỏ đã được ghi nhận, tất cả các hoạt tính đều được chuyển đổi từ ChEMBL ID sang dạng biểu diễn cấu trúc đơn giản hóa SMILES (Simplified Molecular Input Line Entry System) để tăng cường khả năng phân tích và tích hợp dữ liệu Quá trình này được thực hiện bằng công cụ PubChem Identifier Exchange Service, giúp chuẩn hóa dữ liệu phân tử một cách hiệu quả, đồng thời nâng cao khả năng truy xuất và ứng dụng trong các nghiên cứu hóa học và dược phẩm.
Tất cả các cấu trúc hóa học được chuẩn hóa bằng hàm StandardiseMolecules trong gói camb [24] của R với các lựa chọn:
(i) Loại bỏ các phân tử vô cơ
(ii) Không giới hạn số lượng nguyên tử flo, chlor, brom, iod trong cấu trúc
(iii) Không giới hạn khối lượng phân tử tối đa hay tối thiểu
Dấu vân tay Morgan được tính toán bằng phần mềm RDkit trên nền tảng Google Colaboratory, giúp phân tích cấu trúc phân tử một cách hiệu quả Quá trình này sử dụng bán kính 2 liên kết liền kề mỗi nguyên tử để mã hóa các phần cấu trúc nhỏ, sau đó chuyển đổi thành chuỗi ký tự băm dài 512-bit Phương pháp này tối ưu hóa việc trích xuất đặc trưng phân tử, hỗ trợ các ứng dụng trong lĩnh vực hóa học và khoa học dữ liệu.
Các tham số phân tử mô tả tính chất lý hóa của phân tử theo chiều dài 1D và 2D (PaDEL) [45] được tính toán bằng hàm GeneratePadelDescriptors trong gói camb, dựa trên cấu trúc của các hợp chất đã được chuẩn hóa, giúp tăng độ chính xác và độ tin cậy của phân tích.
2.2.2 Tính toán các tham số của protein
Trình tự amino acid của 7 HDAC được sắp xếp và căn chỉnh sử dụng công cụ căn chỉnh trình tự của UniProt với 7 cấu trúc protein tương ứng
Các amino acid trong trung tâm hoạt động được chọn bằng cách tải cấu trúc tinh thể của protein vào Pymol và lựa chọn tất cả các gốc amino acid nằm trong bán kính 8Å quanh phối tử Bán kính 8Å được chọn để cân đối giữa kích thước của protein và khả năng phát hiện các tương tác quan trọng, tránh đưa vào những vùng không ảnh hưởng đến tương tác protein-phối tử và giảm độ phức tạp trong phân tích Việc mở rộng bán kính trung tâm hoạt động giúp tìm kiếm các tương tác tiềm năng với phối tử, từ đó nâng cao khả năng chọn lọc của các hợp chất với từng protein mục tiêu.
Các tham số mô tả 5 z-scales của các amino acid này được tính toán sử dụng hàm
AADescs của gói camb Các Z-scale thể hiện các đặc trưng về tính thân nước/sơ nước
(Z1), khả năng phân cực hóa và mức độ chiếm chỗ trong không gian (Z2), mức độ phân cực (Z3), và các tương tác tĩnh điện (Z4 và Z5)
2.2.3.1 Tiền xử lý dữ liệu
Tất cả các tham số mô tả của protein, phối tử và hoạt tính sinh học được tổng hợp thành một ma trận dữ liệu chung, phục vụ cho quá trình mô hình hóa Việc hợp nhất các dữ liệu này giúp nâng cao độ chính xác và hiệu quả của mô hình dự đoán Đây là bước quan trọng để phân tích các đặc điểm sinh học của protein và các tương tác của phối tử trong hệ thống sinh học.
Dữ liệu thu thập từ nhiều nghiên cứu khác nhau có nguy cơ bị trùng lặp, do đó cần thực hiện làm sạch để loại bỏ các giá trị trùng lặp khỏi bộ dữ liệu Sau khi xử lý, các dữ liệu này được tính trung bình và chỉ cho phép xuất hiện một lần trong ma trận dữ liệu, đảm bảo tính chính xác và độ tin cậy của phân tích.
Mức độ tương đồng giữa các protein có thể được xác định bằng các công cụ căn chỉnh protein, giúp so sánh trình tự hoặc cấu trúc của nhiều protein Căn chỉnh trình tự theo cặp có thể là căn chỉnh tổng thể hoặc căn chỉnh cục bộ, phù hợp với các trường hợp khác nhau Trong đó, căn chỉnh cục bộ thường dùng khi hai trình tự ít có sự tương đồng, nhưng dễ bị sai lệch nếu xuất hiện các vùng giống nhau cao Ngược lại, căn chỉnh tổng thể dựa trên toàn bộ trình tự protein, mang lại ước lượng chính xác hơn về mức độ giống nhau giữa các protein và thường áp dụng cho các bộ dữ liệu lớn.
Hệ số Tanimoto (hoặc hệ số Jaccard) được sử dụng để đánh giá mức độ giống nhau giữa các phân tử nhỏ Chỉ số này phản ánh mức độ hai phân tử có các phần cấu trúc chung hay không Thường thì, hệ số Tanimoto được tính dựa trên dấu vân tay 2D của phân tử, giúp xác định độ tương đồng chính xác và hiệu quả trong phân tích cấu trúc phân tử.
Trong quá trình xây dựng mô hình, dữ liệu có phương sai gần 0 và các dữ liệu có độ hiệp phương sai lớn có thể gây ra hiện tượng quá khớp (overfitting), dẫn đến hiệu suất kém khi dự đoán trên dữ liệu mới Ngoài ra, những đặc trưng này còn làm gia tăng số lượng biến đầu vào và độ phức tạp của mô hình một cách không cần thiết Vì vậy, việc loại bỏ các đặc trưng có phương sai gần 0 và các đặc trưng có độ hiệp phương sai lớn trước khi xây dựng mô hình là rất quan trọng để đảm bảo độ chính xác và tối ưu hóa hiệu suất của mô hình [41].
Các mô tả có phương sai gần 0 được loại bỏ bằng hàm
RemoveNearZeroVarianceFeatures với giới hạn cut-off là 30/1
Các mô tả có độ hiệp hương sai lớn được loại bỏ bằng hàm
RemoveHighlyCorrelatedFeatures với giới hạn cut-off là 0,95
Một vấn đề quan trọng trong bộ dữ liệu là sự khác biệt lớn về khoảng giá trị các thành phần, có thể xuất phát từ phương pháp đo lường khác nhau hoặc đặc tính tự nhiên của từng thành phần, gây ra tình trạng thành phần có phạm vi giá trị lớn chiếm ưu thế trong mô hình và làm mất tác dụng của các thành phần nhỏ hơn Để khắc phục, cần chuẩn hóa dữ liệu với giá trị trung bình về 0 và độ lệch chuẩn về 1 nhằm giảm thiểu thiên lệch và nâng cao độ chính xác của mô hình dự báo.
(đơn vị) cho mỗi thành phần của bộ dữ liệu tùy theo số lượng tham số mô tả mà thành phần đó có [41]
Sau khi loại bỏ các dữ liệu không cần thiết, phần còn lại của bộ dữ liệu được chuẩn hóa giá trị trung bình và phương sai bằng hàm PreProcess của gói camb, đảm bảo dữ liệu thống nhất và sẵn sàng cho quá trình phân tích.
2.2.3.2 Chia tập huấn luyện/tập kiểm tra
Ma trận dữ liệu được chia ngẫu nhiên thành tập huấn luyện chiếm 70% tổng số dữ liệu và tập kiểm tra chiếm 30%, sử dụng hàm SplitSet của gói Camb Dữ liệu trong tập kiểm tra hoàn toàn không được biết đến trong quá trình huấn luyện mô hình, giúp đảm bảo tính khách quan trong việc đánh giá hiệu quả của mô hình thông qua phương pháp ngoại thẩm định.
2.2.3.3 Xây dựng mô hình và tối ưu hóa các tham số của mô hình
Tiến hành xây dựng hai mô hình Random Forest (RF) [5] và Gradient Boosting Machines (GBM) [16]
Cả hai loại mô hình này đều dựa trên thuật toán cây quyết định hồi quy (decision regression trees), trong đó nguyên tắc cơ bản là tìm kiếm các tập hợp điều kiện của biến đầu vào để xác định biến đầu ra một cách tối ưu Thuật toán cây quyết định có thể là cây phân loại hoặc cây hồi quy, trong đó cây phân loại phân nhóm các biến đầu ra thành các lớp riêng biệt, còn cây hồi quy sử dụng các hàm tính toán giá trị thực của biến đầu ra dựa trên dữ liệu đầu vào, có thể là hàm tuyến tính hoặc phi tuyến tính.
Random Forest xây dựng nhiều cây quyết định độc lập và kết hợp kết quả của chúng để tạo thành dự đoán cuối cùng, giúp giảm thiểu sai số do quá khớp và nâng cao độ chính xác Ngược lại, Gradient Boosting Machine xây dựng các cây quyết định một cách tuần tự, từng cây mới được tối ưu hóa để sửa lỗi của các cây trước đó, kiểm soát mạnh mẽ hơn về khả năng phù hợp, giúp cải thiện hiệu suất mô hình qua từng bước Sự khác biệt chính giữa hai thuật toán nằm ở cách thức hợp nhất kết quả: Random Forest tổng hợp kết quả của nhiều cây độc lập, còn Gradient Boosting tối ưu hóa mô hình theo từng bước một để giảm thiểu hàm mất mát.
Các mô hình được xây dựng bằng hàm train của gói caret, sử dụng dữ liệu từ tập kiểm tra để đảm bảo tính khách quan và chính xác của mô hình Các thuật toán được áp dụng bao gồm "rf" (Random Forest) và "gbm" (Gradient Boosting Machine), với các tham số được tối ưu hóa tùy theo từng mô hình nhằm nâng cao hiệu suất dự đoán Quá trình tối ưu hóa này được thực hiện qua phương pháp thẩm định chéo 10 lần (10-fold cross-validation), giúp giảm thiểu các sai số do dữ liệu huấn luyện và kiểm tra không đồng đều.
KẾT QUẢ VÀ BÀN LUẬN
KẾT QUẢ NGHIÊN CỨU
3.1.1 Dữ liệu dùng để mô tả mô hình
Các đích protein thuộc họ enzym HDAC chia sẻ nhiều điểm tương đồng về trình tự và cấu trúc, do đó, trong nghiên cứu này, chúng tôi không sử dụng tham số toàn bộ trình tự protein để đơn giản hóa quá trình tính toán Thay vào đó, chúng tôi tập trung vào vùng trung tâm hoạt động của protein để đánh giá khả năng chọn lọc giữa các enzyme HDAC, nhằm nâng cao độ chính xác và hiệu quả của phân tích.
Vùng trung tâm hoạt động của protein được xác định dựa trên khoảng không gian trong bán kính 8Å xung quanh phối tử trong cấu trúc tinh thể đồng kết tinh protein-phối tử, nhằm bao phủ toàn bộ các amino acid quan trọng tham gia liên kết với nhóm acetyl lysin và các amino acid khác có tiềm năng tạo tương tác Việc chọn vùng trung tâm hoạt động dựa trên cấu trúc 3 chiều của protein thay vì trình tự amino acid, giúp không bỏ sót những amino acid nằm cách xa nhau trong trình tự nhưng lại gần nhau trong không gian Trong đó, khoảng 40 amino acid tiêu biểu cho mỗi HDAC đã được liệt kê trong Bảng PL-1, góp phần hiểu rõ cơ chế hoạt động của enzyme này.
Có sự khác biệt đáng kể về số lượng và loại amino acid xung quanh trung tâm hoạt động của các HDAC, phản ánh sự đa dạng trong cấu trúc phân tử Mặc dù các HDAC có mức độ bảo tồn cao các amino acid quan trọng đóng vai trò chính trong hoạt tính enzym, vẫn tồn tại những vùng cấu trúc phụ đặc trưng để tạo các tương tác chọn lọc với phối tử Điều này giúp các HDAC có khả năng nhận diện và liên kết với các đối tượng khác nhau, từ đó mở rộng phạm vi chức năng sinh học của chúng.
Dựa trên 5 tham số Z-scale tính toán cho mỗi amino acid, tổng cộng có 280 tham số mô tả đặc điểm của protein Phân tích thành phần chính (PCA) dựa trên các Z-scale này cho thấy PC1, thể hiện đặc tính sơ nước/thân nước, và PC2, thể hiện thể tích/khả năng phân cực hóa, có thể giải thích đến 80% phương sai trong dữ liệu Đồ thị tương quan giữa PC1 và PC2 của 7 protein HDAC cho thấy các protein này có trình tự amino acid xung quanh trung tâm hoạt động tương đối giống nhau, như thể hiện ở Hình 3.1.1 Tuy nhiên, HDAC1 có vị trí cách xa các HDAC khác, điều này có thể do số lượng amino acid được lựa chọn cho HDAC1 lớn hơn, cụ thể là 56 amino acid so với khoảng 30-40 amino acid của các HDAC còn lại, theo bảng đã trình bày.
PL-1)), tuy nhiên khác biệt này là không đáng kể [32]
Hình 3.1.1.PC1 và PC2 (Z-scale) trong phân tích thành phần chính của các amino acid xung quanh trung tâm hoạt động của các HDAC.
Các mã số ChEMBL lần lượt từ trái sang phải, từ trên xuống dưới tương ứng với HDAC3, HDAC7, HDAC4, HDAC6, HDAC8, HDAC2, HDAC1
Các protein HDAC cho thấy mức độ tương đồng đáng kể về trình tự amino acid toàn bộ protein, được đánh giá bằng công cụ căn chỉnh protein theo UniProt Đặc biệt, vùng trung tâm hoạt động của các protein này giữ được sự bảo toàn cao về trình tự và cấu trúc, thể hiện khả năng chức năng quan trọng của các khu vực này trong quá trình hoạt động sinh học.
Hình 3.1.2 trình bày ma trận độ đồng nhất thể hiện sự đồng nhất trình tự giữa các HDAC, sử dụng dữ liệu trình tự protein và công cụ bắt cặp trình tự của UniProt Việc phân tích này giúp xác định các đặc điểm cấu trúc chung của các HDAC, hỗ trợ nghiên cứu chức năng và sự tương tác của chúng Độ đồng nhất cao trong trình tự protein của HDAC thể hiện tiềm năng bảo tồn chức năng sinh học, góp phần nâng cao hiểu biết về vai trò của nhóm enzyme này trong các quá trình sinh học.
Ma trận đồng nhất trình tự thể hiện sự tương đồng trình tự amino acid giữa hai cấu trúc càng lớn thì màu sắc càng đậm và ngược lại
Trong nghiên cứu này, chúng tôi sử dụng 730 tham số PaDEL mô tả tính chất lý hoá 1D và 2D của các hợp chất phân tử nhỏ, giúp xác định các thành phần cấu tạo như khối lượng phân tử, nguyên tố, số lượng nguyên tử của từng loại, cùng với mô tả cấu trúc phân tử dưới dạng hình học phẳng, bao gồm số lượng nhóm liên kết hydro, nhân thơm và nhóm carboxylic Việc không sử dụng các tham số phân tử 3D nhằm giảm thiểu độ phức tạp của quá trình tính toán và yêu cầu về tài nguyên máy móc, giúp tối ưu hiệu quả nghiên cứu.
Dấu vân tay cấu trúc (Morgan fingerprints) thể hiện mỗi phân tử dưới dạng chuỗi mã băm 512-bit, trong đó từng bit phản ánh sự có mặt hoặc vắng mặt của các mảnh cấu trúc trong phân tử hợp chất Việc chọn độ dài chuỗi mã hóa là 512-bit thay vì các kích thước lớn hơn như 1024 hoặc 2048 bit giúp tiết kiệm thời gian tính toán mà không làm giảm chất lượng mô tả cấu trúc phân tử Điều này đảm bảo quá trình xử lý dữ liệu hiệu quả và nhanh chóng trong các ứng dụng hoá học và sinh học.
Hình 3.1.3.Đồ thị biểu diễn mật độ xác suất của hệ số Jaccard của các hợp chất trong cơ sở dữ liệu.
Trục hoành thể hiện các giá trị của hệ số Jaccard, nằm trong khoảng từ 0 đến 1, giúp người dùng dễ dàng theo dõi phân bố của dữ liệu Trục tung thể hiện hàm mật độ xác suất của các giá trị hệ số Jaccard này, phản ánh tần suất xuất hiện của từng giá trị trong tập dữ liệu Các giá trị trên trục tung có thể vượt quá 1 do phạm vi của hệ số Jaccard là từ 0 đến 1, nhưng vẫn đảm bảo tổng diện tích dưới đường cong của hàm mật độ xác suất bằng 1, thể hiện tính hợp lệ của phân phối xác suất.
Hệ số Jaccard (hay hệ số Tanimoto) được sử dụng để đánh giá mức độ tương đồng về cấu trúc giữa các hợp chất trong cơ sở dữ liệu Nó đo lường tỷ lệ phần trăm chia sẻ một mảnh cấu trúc chung giữa hai phân tử, với giá trị nằm trong khoảng từ 0 đến 1 Đồ thị biểu diễn mật độ xác suất của hệ số Jaccard, như hình 3.1.3, cho thấy phần lớn các hợp chất có mức độ tương đồng trong khoảng từ 0,7 đến 0,8 Điều này phản ánh mức độ cấu trúc chung khá cao giữa các hợp chất trong dữ liệu.
Mức độ tương đồng giữa các protein hoặc hợp chất hóa học trong bộ dữ liệu ảnh hưởng lớn đến hiệu quả dự đoán của các mô hình phân tích Mô hình có khả năng dự đoán chính xác hơn đối với các dữ liệu mới có mức độ giống nhau cao với dữ liệu trong tập huấn luyện Điều này nghĩa là, các hợp chất hoặc protein có cấu trúc tương tự với dữ liệu trong mô hình sẽ được dự đoán chính xác hơn Ngược lại, khả năng dự đoán giảm khi áp dụng cho các cấu trúc mới có sự khác biệt lớn so với dữ liệu đã có trong mô hình.
Dữ liệu hoạt tính sinh học thực nghiệm được tổng hợp từ cơ sở dữ liệu ChEMBL, với số lượng lớn và chất lượng khác nhau Các dạng ghi nhận hoạt tính sinh học như IC50, pIC50, Ki, Kd, và % ức chế đều sử dụng nhiều đơn vị như mM, nM, μM, %, gây ra sai lệch lớn nếu không được chuẩn hóa Để đảm bảo tính chính xác của mô hình, dữ liệu hoạt tính sinh học được lọc theo dạng biểu diễn và đơn vị chuẩn là IC50 và nM, với mối quan hệ chuẩn là "=".
Nghiên cứu này tập trung vào các đích protein HDAC cụ thể và các hợp chất phân tử nhỏ có tiềm năng làm thuốc, trong đó chỉ giới hạn các tương tác protein-phối tử theo các điều kiện nghiêm ngặt Các đích tác dụng là các protein đơn lẻ, không xem xét các dòng tế bào hay họ protein chung chung Các hợp chất hóa học phải tuân thủ 5 quy tắc Lipinski về đặc tính lí-hóa phù hợp với thuốc, như không quá 5 liên kết hydro, không quá 10 nhóm nhận liên kết hydro, khối lượng phân tử dưới 500 Dalton và hệ số phân bố octanol/nước không vượt quá 5 Mô hình tương tác chỉ xem xét các gắn trực tiếp, loại bỏ các dữ liệu đáng ngờ như dữ liệu trích dẫn thay vì thực nghiệm, kết quả ngoại giới hạn hoặc báo cáo mơ hồ, nhằm làm sạch dữ liệu và giảm thiểu sai số trong phân tích Tuy nhiên, vẫn tồn tại những sai số thực nghiệm phát sinh từ các điều kiện nghiên cứu khác nhau, ảnh hưởng đến độ chính xác của dữ liệu và mô hình dự đoán.
3.1.1 Xây dựng mô hình và tối ưu hóa các thông số
Dữ liệu thu thập sau khi được tổng hợp thành ma trận gồm 9.060 quan sát, tương ứng với cặp protein – phối tử hoặc dữ liệu hoạt tính sinh học, phản ánh mối liên hệ giữa 1.280 biến số chính liên quan đến các thông số của protein và phối tử.
Ma trận dữ liệu sau khi tiến hành tiền xử lý dữ liệu thu được 8013 quan sát ứng với 1195 biến
Hai loại mô hình Random Forest và Gradient Boosting Machine đã được xây dựng với các tham số tối ưu hóa, cho kết quả nổi bật như trình bày trong Bảng 3.1.1 và Bảng 3.1.2 Các mô hình này đạt hiệu suất cao nhờ việc tinh chỉnh các tham số phù hợp, giúp nâng cao độ chính xác trong dự đoán Kết quả cho thấy mô hình Gradient Boosting Machine thể hiện khả năng vượt trội hơn so với Random Forest trong một số tiêu chí đánh giá Việc tối ưu các thông số đã góp phần quan trọng vào việc cải thiện hiệu quả tổng thể của các mô hình dự báo này. -Tối ưu hiệu suất dự báo với mô hình AI mạnh mẽ, khám phá thêm tại [Learn more](https://pollinations.ai/redirect/397623)
BÀN LUẬN
3.2.1 Khả năng ứng dụng của mô hình Để đánh giá khả năng áp dụng thực tế của một mô hình dự đoán, một cách lý tưởng là mô hình đó được đánh giá khả năng ứng dụng và phân tích miền ứng dụng (applicability domain) Tuy nhiên, các phương pháp để đánh giá miền ứng dụng của mô hình hiện nay còn chưa cụ thể mà mới chỉ thực hiện trong một vài nghiên cứu Trong khả năng của nghiên cứu này, việc phân tích miền ứng dụng của mô hình còn gặp nhiều khó khăn và chưa thể thực hiện được Tuy nhiên, dựa trên bộ dữ liệu được sử dụng để mô hình hóa và đánh giá khả năng ứng dụng của mô hình có thể ước lượng tương đối về khả năng ứng dụng mô hình đã xây dựng vào việc dự đoán hoạt tính giữa các protein và hợp chất mới
Mô hình PCM trong nghiên cứu này tập trung vào phân tích tương tác giữa các protein HDAC và các hợp chất phân tử nhỏ, giúp dự đoán tác dụng của các chất ức chế HDAC mới và khả năng chọn lọc của chúng, đặc biệt là nhóm dẫn xuất acid hydroxamic Khả năng dự đoán của mô hình Random Forest đối với dữ liệu mới được đánh giá là đáng tin cậy trong thực tế, cho phép ứng dụng trong việc thiết kế và phát triển các chất ức chế HDAC mới Ngoài ra, mô hình có thể được sử dụng để dự đoán hoạt tính ức chế chọn lọc của các hợp chất mới trên các protein mục tiêu khác nhau, từ đó chọn ra các hợp chất tiềm năng để tổng hợp và thử nghiệm sinh học Một phương pháp khác là phân tích diễn giải các tham số của mô hình để xác định các mảnh cấu trúc phân tử có khả năng tăng tác dụng ức chế chọn lọc, hỗ trợ quá trình sàng lọc và thiết kế các hợp chất mới dựa trên các yếu tố cấu trúc đã xác định, cuối cùng tiến hành tổng hợp và thử nghiệm hoạt tính thực nghiệm để thẩm định mô hình.
Các protein khác trong họ HDAC như HDAC5, 9, 10, 11 có cấu trúc hoặc trình tự amino acid chưa được xác định rõ, khiến khả năng ngoại suy của mô hình đối với các protein này còn hạn chế Tuy nhiên, khi đã xác định được trình tự amino acid hoặc cấu trúc tinh thể của các HDAC này, mô hình dự đoán tác dụng chọn lọc của hợp chất mới đối với các protein này sẽ trở nên chính xác hơn, mang lại độ tin cậy cao trong ứng dụng.
Các protein không thuộc họ HDAC vẫn cần được đánh giá thêm về khả năng ứng dụng của mô hình trong các miền khác nhau Tuy nhiên, nghiên cứu tập trung chính vào các protein HDAC, do đó các protein không phải HDAC nằm ngoài phạm vi mục tiêu của dự án này và không được xem xét trong phạm vi nghiên cứu hiện tại.
3.2.2 Ưu điểm của phương pháp nghiên cứu Ưu điểm lớn nhất của mô hình PCM là có thể đồng thời mô tả tương tác giữa nhiều protein với nhiều phối tử trong khi vẫn mô tả cụ thể tương tác giữa từng cặp protein - phối tử Mô hình có khả năng so sánh mức độ tương tác giữa các hợp chất khác nhau với một protein đích cùng lúc so sánh mức độ tương tác của các cặp protein-phối tử khác nhau, từ đó đưa ra đánh giá về khả năng tương tác chọn lọc giữa protein và phối tử Do
Phương pháp này có thể áp dụng để dự đoán khả năng ức chế chọn lọc của các hợp chất phân tử nhỏ đối với từng đích protein cụ thể Việc sử dụng kỹ thuật này giúp nâng cao hiệu quả trong quá trình nghiên cứu và phát triển thuốc, từ đó tối ưu hóa khả năng thiết kế các hợp chất có hoạt tính cao và độ đặc hiệu cao trên các mục tiêu sinh học.
Mô hình PCM khác biệt so với mô hình QSAR truyền thống khi không chỉ tập trung vào cấu trúc hợp chất hóa học mà còn dựa trên các thông số mô tả của cả protein và phối tử Nó phân tích các tương tác giữa chúng tại trung tâm hoạt động, giúp dự đoán các tương tác tiềm năng mới Nhờ đó, mô hình PCM có khả năng xác định các cấu trúc phân tử mới có tác dụng chọn lọc hoặc phát hiện các nhóm cấu trúc mới có thể tác động lên đích protein nghiên cứu.
Mô hình PCM kết hợp phương pháp dựa trên cấu trúc của protein và cấu trúc của ligand, tận dụng ưu điểm của cả hai để nâng cao khả năng dự đoán Mô hình này có thể dự đoán tác dụng của các hợp chất mới đối với đích protein giống như QSAR, đồng thời vượt trội hơn QSAR về khả năng dự đoán đối với các đích protein mới Ngoài ra, PCM còn có khả năng ngoại suy để dự đoán các cặp protein – ligand mới hoàn toàn, mở rộng phạm vi ứng dụng trong nghiên cứu thuốc và phân tích khả năng tương tác sinh học.
Mô hình PCM tận dụng nguồn dữ liệu phong phú về cấu trúc protein và các hợp chất phân tử nhỏ, cũng như dữ liệu về hoạt tính sinh học và năng lượng liên kết giữa protein và phối tử, được xây dựng từ nhiều nghiên cứu đã thực hiện Nhờ các kỹ thuật tiên tiến trong công nghệ thông tin, như thuật toán học máy và khai phá dữ liệu, mô hình PCM có khả năng bao quát rộng lớn các protein và hợp chất trong một phạm vi toàn diện Do đó, mô hình này thể hiện tiềm năng lớn trong việc nghiên cứu các tính chất dược động học, dược lực học và độc tính của thuốc, mở ra nhiều khả năng ứng dụng trong lĩnh vực dược phẩm.
3.2.3 Hạn chế của phương pháp nghiên cứu
Phương pháp PCM mặc dù có nhiều ưu điểm vượt trội so với QSAR trong việc xây dựng và diễn giải mô hình, nhưng vẫn còn tồn tại những hạn chế nhất định Các hạn chế này ảnh hưởng đến độ chính xác và khả năng ứng dụng của mô hình trong lĩnh vực phân tích hóa học Do đó, việc cải thiện phương pháp PCM là cần thiết để nâng cao hiệu quả và độ tin cậy của các mô hình dự đoán.
Việc sử dụng lượng lớn dữ liệu hoạt tính sinh học tổng hợp từ nhiều nguồn công khai gây ra sai số thực nghiệm đáng kể giữa các dữ liệu, ảnh hưởng lớn đến chất lượng của mô hình xây dựng Để nâng cao hiệu quả và độ chính xác của mô hình, cần thiết phải áp dụng các biện pháp giảm thiểu tác động của sai số này trong quá trình mô hình hóa Điều này giúp cải thiện độ tin cậy và khả năng dự đoán của mô hình, đảm bảo kết quả chính xác hơn trong các ứng dụng thực tế.
Chất lượng của mô hình phụ thuộc rất lớn vào các tham số mô tả protein và phối tử, ảnh hưởng đến độ chính xác và tính chính xác của mô hình Nhiều loại tham số mô tả khác nhau đã được nghiên cứu để tối ưu hóa quá trình xây dựng mô hình, giúp nâng cao hiệu quả dự đoán và phân tích cấu trúc protein thực nghiệm Việc lựa chọn các tham số phù hợp đóng vai trò quan trọng trong việc cải thiện độ tin cậy của mô hình mô tả protein và phối tử, từ đó hỗ trợ nghiên cứu và ứng dụng trong lĩnh vực sinh học cấu trúc.
Các phương pháp mô hình hóa protein và hợp chất phân tử nhỏ đóng vai trò quan trọng trong nghiên cứu sinh học cấu trúc Tuy nhiên, không có mô tả nào là tối ưu cho mọi trường hợp, đòi hỏi quá trình xây dựng mô hình phải thử nghiệm nhiều sự kết hợp tham số khác nhau Quá trình này tiêu tốn nhiều thời gian và tài nguyên máy tính do khối lượng dữ liệu lớn trong ma trận dữ liệu của mô hình.
Cross term vẫn chưa được xác định rõ vai trò và phương pháp tính toán, gây ra kết quả không thống nhất trong các nghiên cứu khác nhau Trong một số trường hợp, cross term cần thiết để xây dựng mô hình, đặc biệt khi sử dụng các thuật toán học máy tuyến tính để mô hình hóa dữ liệu phi tuyến tính Tuy nhiên, việc sử dụng cross term đôi khi làm phức tạp dữ liệu và tốn nhiều thời gian xử lý mà không cải thiện chất lượng mô hình Do đó, cần thiết phải có các nghiên cứu kỹ lưỡng hơn về vai trò, phương pháp tính toán và cách sử dụng của thành phần cross term trong mô hình học máy và phân tích dữ liệu.
Số lượng các thuật toán học máy để xây dựng mô hình rất đa dạng, mỗi loại có ưu nhược điểm riêng và không phù hợp cho mọi bộ dữ liệu Do đó, trong nghiên cứu, cần phát triển nhiều mô hình dựa trên các thuật toán khác nhau và tối ưu hóa các tham số của chúng qua quá trình so sánh Đồng thời, việc kết hợp các mô hình từ nhiều thuật toán khác nhau thành mô hình tổng hợp giúp tận dụng các điểm mạnh của từng phương pháp, nâng cao hiệu quả dự đoán và phân tích dữ liệu.