Ngoài ra, một trong nhiều lý thuyết cố gắng giải thích nguyên nhân sự lão hóa là tác dụng của những gốc tự do vào các phân tử trong cơ thể.. Do đó, gốc tự do này không cân bằng, không ổn
Trang 1CHƯƠNG 1: ĐẶT VẤN ĐỀ
Trang 2Trong cơ thể con người, có nhiều quá trình hình thành hoặc huỷ hoại tế bào thường xuyên diễn ra Có những chất tưởng như là nguồn cung cấp dưỡng chất chính của tế bào nhưng đồng thời cũng có thể làm hại tế bào, có những chất gây ra những tác hại thì cũng có những chất đề kháng lại hoạt động này Trong đó, gốc tự
do, oxy và chất chống oxy hóa là một thí dụ Những phân tử này có liên hệ với nhau
và ảnh hưởng tới hoạt động sống của cơ thể con người rất nhiều, nhất là ở giai đoạn cuối của cuộc đời
Ngoài ra, một trong nhiều lý thuyết cố gắng giải thích nguyên nhân sự lão hóa là tác dụng của những gốc tự do vào các phân tử trong cơ thể Và để trì hoãn tiến trình này, các chất chống oxy hóa đã được nghiên cứu và rất nhiều người cao tuổi hiện nay đang dùng
Trong quá trình hoá học, một điện tử bị tách rời thì lập tức phân tử đó trở thành một gốc tự do Do đó, gốc tự do này không cân bằng, không ổn định về điện
tử nên dễ tạo ra phản ứng và luôn luôn tìm kiếm điện tử từ các phân tử khác, và lần lượt tạo ra một chuỗi những gốc tự do mới, gây rối loạn cho sinh hoạt bình thường của tế bào Trong cuộc đời của một người sống tới 70 tuổi, thì có chừng 17 tấn gốc
tự do được tạo ra như vậy
Năm 1954, bác sĩ Denham Harman thuộc Đại học Berkeley, California, là nhà khoa học đầu tiên nhận ra sự hiện hữu của gốc tự do trong cơ thể với nguy cơ gây ra những tổn thương cho tế bào.Trước đó, người ta cho là gốc này chỉ có ở ngoài cơ thể
Gốc tự do có tác dụng không tốt cho cơ thể ngay từ lúc con người mới sinh
ra và mỗi tế bào chịu sự tấn công của hàng chục ngàn gốc tự do mỗi ngày Ở tuổi trung niên, cơ thể khoẻ mạnh, có thể đề kháng tác hại của chúng, nhưng khi lớn tuổi, gốc tự do hoạt động mạnh mẽ hơn vì sức đề kháng của cơ thể giảm sút, nên gây ảnh hưởng gấp mười lần so với tuổi trung niên
Gốc tự do phá rách màng tế bào khiến cho chất dinh dưỡng bị mất, tế bào không tăng trưởng, tu bổ, rồi chết Gốc tự do còn tạo ra chất lipofuscin tích tụ dưới
da tạo ra những vết đồi mồi trên cơ thể, và tiêu hủy hoặc ngăn cản sự tổng hợp các
Trang 3phân tử chất đạm, đường bột, mỡ, enzyme trong tế bào Ngoài ra, còn gây đột biến
ở gene, ở nhiễm thể, ở DNA, RNA, và làm chất collagen, elastin mất đàn tính khiến da nhăn nheo, cơ khớp cứng nhắc
Nhờ quan sát thực nghiệm, gốc tự do có ít ở các sinh vật còn nhỏ và có nhiều hơn ở sinh vật sống lâu Một người có nhiều gốc tự hơn khi cao tuổi và ít hơn khi người đó còn trẻ
Theo các nhà khoa học thì gốc tự do có thể là thủ phạm gây ra tới trên 60 bệnh, đáng kể nhất gồm có: bệnh vữa xơ động mạch, ung thư, Alzheimer, Parkinson, đục thuỷ tinh thể, bệnh tiểu đường, cao huyết áp không nguyên nhân, xơ gan…
Gốc tự do được tạo ra bằng nhiều cách, có thể là sản phẩm của những căng thẳng thần kinh, thể xác bệnh hay mệt mỏi, ô nhiễm môi trường, thuốc lá, dược phẩm, tia phóng xạ mặt trời, thực phẩm có chất mầu tổng hợp, nước có nhiều clo và ngay cả oxy
Trong lĩnh vực y khoa hiện nay, vấn đề được đề cập nhiều nhất hiện nay là tác hại của chất oxy hoá, phản ứng oxy hoá và nhấn mạnh sự cần thiết sử dụng các chất chống oxy hoá để bảo vệ, duy trì sức khoẻ cho con người
Tuy nhiên, việc nghiên cứu và tổng hợp ra một loại chất chống oxy hoá có thông số chống oxy hoá xác định và được sử dụng cho con người gồm nhiều giai đoạn rất phức tạp và khó khăn, đòi hỏi chúng ta phải tốn nhiều công sức và kinh phí Nhưng với sự hỗ trợ của máy tính, cụ thể là hoá tin học, công việc đã thực sự
đỡ nặng nề hơn, rút ngắn thời gian và ít tốn kém hơn Chính điều này đang mở ra một hướng đi mới cho việc tìm ra chất chống oxy hoá nói riêng và trong lĩnh vực nghiên cứu và tổng hợp thuốc, chất hữu cơ nói chung Với phương pháp này, trong tương lai có thể thấy rõ được hình dạng cấu trúc của chất chống oxy hoá nhằm phục
vụ cho quá trình nghiên cứu sau này
Trên thế giới đã có nhiều chất chống oxy hoá được tìm ra và xác định được chỉ số chống oxy hoá, tuy nhiên ở đề tài này, hướng nghiên cứu chính là hợp chất flavonoid Vì hợp chất này có sự hiện diện rộng rãi trong nhiều loại thực vật xung
Trang 4quanh đời sống của ta, tiêu biểu là họ cam đồng thời trên thế giới đã có 4000 loại flavonoid được xác định cấu trúc hoá học Đây là cơ sở để tạo dữ liệu cho việc thực hiện đề tài:
“Nghiên cứu xây dựng mối quan hệ giữa cấu trúc hóa học các dẫn chất flavonoid
và hoạt tính chống oxy hóa”
Nhiêm vụ chính là:
- Tập hợp các cấu trúc hóa học của dẫn chất flavonoid có hoạt tính chống oxy hóa
từ các tài liệu tham khảo trong và ngoài nước
- Nghiên cứu xây dựng mối quan hệ giữa cấu trúc hóa học các dẫn chất flavonoid và hoạt tính chống oxy hóa bằng các phần mềm hóa tin học thích hợp
Trang 5CHƯƠNG 2: TỔNG QUAN
Trang 6Các chất chống oxy hóa là những chất mà khi hiện diện ở nồng độ thấp hơn
so với dược chất mà nó bảo vệ có khả năng làm trì hoãn hay làm giảm quá trình oxy hóa của dược chất đó
Trong cơ thể có nhiều hệ thống chống oxy hóa nội sinh có khả năng bảo vệ những chất hóa học từ những phản ứng oxy hóa có hại bằng cách phản ứng với các gốc tự do hay những dạng oxy hoạt động khác, vì vậy ngăn cản tiến trình oxy hóa Tuy nhiên sự cung cấp các chất chống oxy hóa nội sinh này có giới hạn vì thế cần
có nguồn bổ sung chất chống oxy hóa từ bên ngoài vào
2.1.2 Cơ chế tác động của các chất chống oxy hóa
Các chất chống oxy hóa đóng vai trò là chất cho hydro đến các gốc tự do để tạo thành các gốc tự do mới bền vững hơn
Cơ chế phản ứng được thu gọn như sau:
Ngoài cơ chế như trên các chất chống oxy hóa còncó thể tạo phức chelat với ion kim loại (như Fe3+, Cu2+, Ni2+, Mn2+), các ion này thường khơi mào cho phản ứng oxy hóa
Trang 7
2.1.3 Phương pháp xác định hoạt tính chống oxy hóa
Trong các phương pháp xác định hoạt tính chống oxy hóa, các phương pháp đánh bắt gốc tự do 1,1-diphenyl-2-picrylhydrazyl (DPPH) và mô hình beta-caroten - acid linoleic dùng để đánh giá rất phù hợp để khảo sát hoạt tính chống oxy hóa của các flavonoid, do các flavonoid khảo sát không hấp thu trong vùng hấp thu của DPPH và beta-caroten Hơn nữa sử dụng 2 phương pháp này rất thuận lợi để nghiên cứu đánh giá mang tính sàng lọc và hàng loạt trên đối tượng mẫu khá lớn Phương pháp đánh bắt gốc tự do DPPH và mô hình beta-caroten - acid linoleic cũng được rất nhiều tác giả áp dụng để nghiên cứu hoạt tính chống oxy hóa của các flavonoid
2.1.3.1 Phương pháp đánh bắt gốc tự do DPPH
Dựa vào khả năng bắt giữ gốc tự do DPPH của chất có tác dụng chống oxy hóa
Nguyên tắc:
Các chất nghiên cứu có tác dụng chống oxy hóa theo cơ chế dập tắt gốc tự do
sẽ làm giảm màu của dung dịch DPPH Xác định khả năng này bằng cách đo độ hấp thu ở bước sóng có hấp thu cực đại tại 517 nm
Mô tả:
Dùng 1 ml dung dịch flavonoid (nồng độ 10-4M pha trong methanol) cho vào
2 ml dung dịch DPPH ( nồng độ 10 mg/L pha trong methanol) Hỗn hợp được lắc đều và để ở nhiệt độ phòng Đo độ hấp thu sau 5 phút và 30 phút ở bước sóng 517
nm, mỗi lần đo 3 lần lấy giá trị trung bình Mẫu đối chiếu được tiến hành trong cùng điều kiện nhưng không sử dụng flavonoid
Khả năng đánh bắt gốc tự do được tính theo công thức sau:
Khả năng đánh bắt gốc tự do (S%) được tính như sau:
𝑆(%) = 100 × (1 −𝐴𝑠𝑡
𝐴𝑐𝑡)
Ast : Độ hấp thu của mẫu thử ở thời điểm t = 5 phút, 30 phút
Act : Độ hấp thu của mẫu đối chiếu ở thời điểm t = 5 phút, 30 phút
Trang 82.1.3.2 Phương pháp mô hình beta-caroten - acid linoleic
Dùng 1 ml beta-caroten (0,2 mg/ml) hòa tan trong cloroform cho vào erlen
có chứa 0,02 ml acid linoleic và 0,2 ml tween 20 Bay hơi hết cloroform dưới áp suất giảm Cho vào hỗn hợp 0,2 ml dung dịch flavonoid thử trong methanol ở nồng
độ 10-3M Cho vào tiếp 50 ml nước cất (đã bão hòa với oxygen trong vòng 15 phút) Hỗn hợp được lắc đều và để ở 50 oC trong vòng 120 phút Đo độ hấp thu UV của mẫu thử ở bước sóng 470 nm tại thời điểm 0 phút, 60 phút và 120 phút Mẫu đối
chiếu được tiến hành trong cùng điều kiện nhưng không sử dụng flavonoid
Hoạt tính chống oxy hóa được tính theo công thức sau:
Hoạt tính chống oxy hóa (T%) được tính như sau:
𝑇(%) = 100 × (1 −𝐴𝑠0−𝐴𝑠𝑡
𝐴𝑐0−𝐴𝑐𝑡) Type equation here
As0 : Độ hấp thu của mẫu thử ở thời điểm 0 phút
Ast : Độ hấp thu của mẫu thử ở thời điểm t = 60 phút, 120 phút
Ac : Độ hấp thu của mẫu đối chiếu ở thời điểm 0 phút
Act : Độ hấp thu của mẫu đối chiếu ở thời điểm t = 60 phút, 120 phút
2.2 Tồng quan về flavonoid và hoạt tính chống oxy hoá
2.2.1.2.Nguồn gốc của flavonoid
Cũng như vitamin C, các flavonoid được khám phá bởi một trong những nhà sinh hoá nổi tiếng nhất thế kỉ 20: Albert Szent – Gyorgyi (1893 – 1986) Ông nhận
Trang 9giải Nobel năm 1937 với những khám phá quan trọng về đặc tính của vitamin C và flavonoid
2.2.1.3.Cấu trúc và phân loại
Flavonoid là một nhóm hợp chất lớn thường gặp trong thực vật Cho đến nay
có khoảng 4000 chất đã được phân lập và xác định cấu trúc Chỉ riêng hai nhóm hợp chất flavon và flavonol mang nhóm thế là -OH và/hoặc -OCH3 thì theo lý thuyết số chất tổng hợp được có thể lên tới 38.627 chất
Các flavonoid là những chất có cấu tạo khung theo kiểu diphenyl propan C3-C6] hay nói cách khác chúng có cấu tạo khung cơ bản gồm hai vòng benzen A và
[C6-B nối với nhau qua mạch 3 carbon (Hình 1) Trong đa số các trường hợp mạch 3 carbon đóng vòng với vòng A và tạo nên dị vòng C có oxy (Hình 2)
Hình 1 Khung cơ bản diphenyl propan (C6-C3-C6)
Sự phân loại các flavonoid dựa vào vị trí của gốc aryl (vòng B) và các mức
độ oxy hóa của mạch 3C [3] gồm các nhóm chính như sau:
Eu-flavonoid là những chất có gốc aryl ở vị trí 2, gồm có: flavon, flavonol,
flavanon, antocyanidin, chalcon…
Isoflavonoid là những hợp chất có gốc aryl ở vị trí 3, gồm có: isoflavon,
Flavonoid có thể tồn tại ở dạng aglycon (chỉ gồm khung cơ bản), hoặc dạng glycosid (gồm khung cơ bản gắn với chất đường ở các vị trí khác nhau)
A
B
Trang 10Hình 2 Cấu trúc khung cơ bản của các flavonoid
O
O Flavon
O
O Flavonol
OH
O
O Flavanon
O
O Isoflavon
O
O OH
Isoflavonol
O
O Isoflavanon
O OH Antocyanidin
O Chalcon
O OH
Dihydrochalcon
Trang 112.2.2.Hoạt tính sinh học của flavonoid
Đã có nhiều nghiên cứu tổng hợp và khảo sát hoạt tính sinh học các dẫn chất flavonoid và chalcon cho thấy các dẫn chất này có tác dụng sinh học đáng kể trên cả
in vitro và in vivo Các tác dụng sinh học đã được chứng minh bằng thực nghiệm
bao gồm tác dụng kháng khuẩn kháng nấm, tác dụng kháng viêm, tác dụng bảo vệ
tim mạch, kháng ung thư…
Nhiều nghiên cứu gần đây đã cho thấy các bệnh như ung thư, xơ vữa động mạch, viêm mạn tính có liên quan đến sự stress oxy hóa (oxydative stress) do các tác nhân oxy hóa có hoạt tính (reactive oxygen species) trong cơ thể Các polyphenol mà đặc biệt là flavonoid đã được chứng minh là những chất có khả năng chống oxy hóa mạnh do có khả năng trung hòa các gốc tự do bằng cách đóng vai trò
là chất cho electron hay nguyên tử hydro (hình 3) Hệ thống liên hợp trong phân tử flavonoid và một vài nhóm hydroxyl như nhóm –OH ở vị trí 3 trên dị vòng C và vị trí 3’,4’ trên vòng B có vai trò quan trọng trong việc tạo thành các gốc tự do bền sau khi đã cho electron hay nguyên tử hydro cho các gốc tự do không bền trong cơ thể
Hình 3 Sự chuyển hóa của các gốc tự do flavonoid sau khi cho một nguyên tử
hydro
Trang 12Ngoài khả năng thu dọn hay trung hòa các gốc tự do, khả năng chống oxy hóa của flavonoid còn được biết đến nhờ tính chất có thể tạo phức chelat với ion kim loại như ion Fe2+ ức chế phản ứng Fenton, làm giảm tốc độ phản ứng oxy hóa của các gốc tự do trong cơ thể
Cụ thể đã có nhiều bằng chứng về khả năng chống oxy hóa (khả năng thu dọn các gốc tự do) của các nhóm phụ flavonoid khác nhau như flavon (luteolin, chrysin, apigenin…), flavonol (quercetin, rutin, isoquercitrin…), flavanon (taxifolin, hesperetin,…), flavan-3-ol (catechin, epicatechin,…), anthocyanidin( cyanidin chlorid, malvin,…), chalcon (xanthohumol và các dẫn chất của xanthohumol), isoflavon (daidzein, genistein,…)… Các công trình chủ yếu nghiên cứu về các nhóm hợp chất quen thuộc như flavon, flavonol, flavanol vì có nhiều trong rau quả con người ăn hàng ngày, còn ít nghiên cứu về khả năng chống oxy hóa trên nhóm chalcon
2.3 Tổng quan về QSAR
2.3.1.Giới thiệu chung
Khả năng tạo ra những chất hữu cơ mới là khổng lồ, dù là trong ngành dược hay những ứng dụng cho nông nghiệp, hương liệu, nước hoa và thực phẩm Vào năm 1994, chemical abstracts liệt kê hơn 13 triệu chất nhưng chỉ một phần rất nhỏ chúng có thể được tổng hợp Nếu việc tìm kiếm những sản phẩm mới chỉ bằng cách tổng hợp và thử những hợp chất mới mà không có một hướng dẫn nào thì đó thực
sự là một công việc lâu dài và tốn kém
Việc những tính chất hóa học khác nhau có tác dụng sinh học khác nhau đã được biết hàng triệu năm trước Khả năng xác định cấu trúc đã sớm cho phép người
ta thành lập những mối lien hệ cấu trúc – tác dụng (SAR – Structure activity Relationship), là những quan sát đơn giản mà một thay đổi xác định trong cấu trúc hóa học có ảnh hưởng xác định lên hoạt tính sinh học Khi mà cấu trúc hóa học (hay rộng hơn là tính chất hóa lý hoặc các trường) được mô tả bằng những thông số mô
tả định lượng được thì ta có thể xây dựng mối tương quan cấu trúc – tác động sinh học một cách định lượng (QSAR – Quantitative Structure activity Relationship) Sự
Trang 13định lượng ở đây không liên quan đến việc tác dụng sinh học có định lượng được hay không, mặc dù đó là một nhầm lẫn thường gặp Mục tiêu của nghiên cứu QSAR
là tìm ra mô hình có khả năng dự đoán đáng tin cậy cho dẫn chất, nhờ đó định hướng thiết kế và tổng hợp những chất phù hợp với mục đích nghiên cứu trong vô vàn hợp chất hữu cơ đề cập ở trên
QSAR cổ điển chỉ quan tâm 2D – QSAR (2 Dimensions – QSAR) là những tính toán chỉ dựa trên những thông số công thức hoá học hai chiều Một cách tổng quát, còn có:
-3D – QSAR (3 Dimensions – QSAR): tính toán dựa trên các thông số mô tả công thức hoá học trong không gian 3 chiều
-HQSAR (Hologram – QSAR): phân tích hình ảnh phân tử, thông số mô tả là các phân nhánh cấu trúc
Một cách phân chia khác QSAR bao gồm:
-Hồi quy (Regression): kết quả thu được là tác dụng sinh học định lượng (như IC50), bao gồm hồi quy tuyến tính, hồi quy phi tuyến
-Phân loại (Classification) hay BQSAR (Binary – QSAR): cho kết luận có hay không (chẳng hạn có hoạt tính kháng sốt rét hay không)
2.3.2.Phương pháp xây dựng mô hình dự đoán – Bình phương tối thiểu từng phần (PLS – Partial Least Squares)
Nghiên cứu 2D – QSAR hồi quy tuyến tính đầu tiên áp dụng phương pháp hồi quy đa tuyến (MLR – MultiLinear Regression) Phương pháp này có nhược điểm là không loại bỏ được các mối liên hệ có sự tương quan lớn giữa các thông số nên ít được dùng hoặc khắc phục bằng cách kết hợp với kĩ thuật phân tích thành phần cơ bản (PCA – Principal Component Analysis), có tên gọi là hồi quy dựa trên thành phần cơ bản (PCR - Principal Component Regression) Với cách thứ hai ta sẽ tiến hành tính các thành phần cơ bản trước (PC - Principal Component) rồi mới xây dựng phương trình hồi quy bằng MLR Một kĩ thuật khác là PLS cũng dung những lượng, giống như PC, tạo ra từ các biến độc lập, gọi là các biến ẩn (LV – Latent
Trang 14Variable) Các PC hay LV đều là sự kết hợp tuyến tính của tập hợp các biến độc lập
PC1 = a11v1 + a12v2 + …a1 NvN PC2 = a21v1 + a22v2 + …a2 NvN PCq = aq1v1 + aq2v2 + …aq NvN LV1 = b11v1 + b12v2 + …b1 NvN LV2 = b11v1 + b12v2 + …b1 NvN LVq = bq1v1 + bq2v2 + …bq NvN Nhưng khác biệt là PLS tính LV và các hệ số tương quan cùng một lúc Đây
là quy trình lặp nhằm kết hợp bước PCA trong PCR với bước hồi quy LV cũng như
PC được tính để giải thích phương sai trong tập các giá trị x trong khi vẫn giữ sự trực giao với một LV khác Vì vậy, LV đầu tiên sẽ giải thích phần lớn phương sai trong tập độc lập, LV thứ hai giải thích phần lớn thứ hai và cứ tiếp như vậy Điểm khác nhau quan trọng giữa PLS và PCR là LV được tạo thành để mà tối đa hoá sự tương quan với biến phụ thuộc Không như phương trình PCr nơi mà các PC không tham gia vào bất kì một thứ tự riêng nào thì LC sẽ tham gia vào phương trình PLS theo thứ tự một, hai, ba… Một điểm mạnh cần đề cập của PLS là có thể tiến hành trên lượng lớn thông số mô tả
Cụ thể, việc xây dựng tiến hành theo thuật toán sau:
Giả sử, ta có m phân tử, mỗi phân tử được mô tả bởi một vector n hướng (hay n phần tử, n vector) gồm các số thực xi=(xi1…xin), gồm các thông số mô tả cho phân tử I (ví dụ, hoạt tính sinh học, logP hay tính khúc xạ) Giả sử mỗi phân tử có một trọng số (con số thể hiện mức độ quan trọng) kèm theo, Wi là một số không âm Những trọng số này được coi như là xác suất tương đối bắt gặp phân tử kèm theo và thường là tất cà đều bằng 1 Tuy nhiên, trong vài ứng dụng, những trọng số không cân bằng thường đợc dung Đặt W là tổng các trọng số
Trang 15Một mô hình tuyến tính y có dạng a0+aTx với a0 là một con số (scalar – vô hướng) và a là một vector n hướng Những thông số này được lựa chọn sao cho sai
số bình phương trung bình (MSE – mean square error) là nhỏ nhất
𝑀𝑆𝐸(𝑎0, 𝑎) = 1
𝑊∑ 𝑤𝑖[𝑦𝑖 − (𝑎0+ 𝑎𝑇𝑥𝑖)]2
𝑚
𝑖=1Bằng cách lấy vi phân MSE theo những thông số này, ta thấy chúng phải thoả mãn những phương trình sau, được gọi là những phương trình bình thường (normal equations)
D sao cho 𝑆 = 𝑄𝑇 𝐷𝑄 và các thành phần của ma trận D được xếp theo thứ tự giảm dần Ta lấy p giá trị riêng đầu tiên sao cho tất cả đều dương và điều kiện (giná trị lớn nhất của p giá trị riêng được chia cho giá trị nhỏ nhất của p giá trị riêng) nhỏ hơn ngưỡng nào đó được cài đặt trước Ma trận chéo đảo ngược giả D* sau đó được tạo thành với sự nghịch đảo p giá trị riêng đã chọn nằm trên đường chéo và bất cứ chỗ nào bằng 0 Cuối cùng, ta xác định vector thông số a với 𝑎 = 𝑄𝑇𝐷∗𝑄𝑏 Phương pháp này gọi là hồi quy thành phần cơ bản (PCR)
Một biến đổi của PCR là bình phương tối thiểu từng phần (PLS) được dung
để xác định các thông số mô hình tuyến tính Phương pháp này sẽ tạo những ước lượng hơi khác mà có lẽ thô hơn Cũng lập những phương trình bình thường như trên, ta lại tìm một ước lượng cùa a khi S có thể ở trong tình trạng xấu Một cách để đạt được là xây dựng một ma trận trọng số VA = (v1,v2,…,vA), với vi là vector cột có
Trang 16n hướng, và A, mức độ phù hợp của PLS, số nguyên nhỏ hơn hay bằng n Trước tiên ta có các cột của ma trận VA khi tính chéo hoá Gram-Schmidt các vector được tạo bằng chuỗi Krylov {b, Sb,S2b,…, SA-1b} Sau đó, để có vector hệ số tương quan PLS Ath, ta giải phương trình a =VA(VT ASVA) -1 VT A Một thuật toán xác định được
sự phù hợp của PLS đạt được tại bước Ath khi ‖𝑉𝐴+1‖ = 0 Tuy nhiên, có thể ta muốn dung vector hồi quy PLS bậc thấp hơn để phù hợp với mô hình tuyến tính
Chú ý rằng nếu thuật toán tiếp tục cho tới khi A=n, ma trận trọng số sẽ vuông và được xếp đầy (full rank) Vector hồi quy kết quả là lời giải của những bình phương tối thiểu thông thường tương đương với việc giải a=S1b
Hình 4: Mô phỏng mô hình gồm 2 thông số, tìm phương trình tuyến tính của x mà
tối thiểu hoá phần dư y
Trang 172.3.3.Phương pháp lựa chọn thông số mô tả trong xây dựng mô hình QSAR
Có hai lý do mà ta không dùng tất cả thông số mô tả tính toán được để xây dựng mô hình dự đoán Đó là:
Độ đúng của dự đoán Hệ số tương quan phụ thuộc vào cả độ lệch và
phương sai Càng nhiều thông số mô tả thì độ lệch càng nhỏ nhưng độ phương sai càng lớn Vì vậy để cải thiện độ đúng của dự đoán bằng cách giảm phương sai của những giá trị dự đoán, nên người ta giảm thông số mô tả
Việc diễn giải ý nghĩa của mô hình Với lượng lớn biến độc lập, ta thường
muốn tìm tập nhỏ hơn nhưng ảnh hưởng mạnh nhất
Để lựa chọ thông số mô tả xây dựng mô hình tốt nhất (có khả năng dự đoán tốt nhất) ta nhờ vào công cụ phân tích ngẫu nhiên (QSAR – Contingency) trong phần mềm MOE 2008.10 và phương pháp lựa chọn phản hồi (wrapper) với chiến thuật tìm kiếm lấy thêm (Forward Selection) trong phần mềm WEKA 3.7.0
Phân tích ngẫu nhiên
Đây là một ứng dụng thống kê được thiết kế hỗ trợ lựa chọn thông số mô tả cho QSAR Về cơ bản nó phân tích tính ngẫu nhiên đồng biến của mỗi thông số mô
tả với giá trị hoạt tính Nó cho ra một bảng hệ số mà ta có thể dựa vào đó để chọn những thông số quan trọng
Đặt X là thông số mô tả phân tử ngẫu nhiên và Y là giá trị hoạt tính ngẫu nhiên Ta muốn tính được mức độ các biến ngẫu nhiên Y và X liên quan với nhau (hay phụ thuộc nhau), gọi là mẫu ngẫu nhiên gồm m cặp (yi,xi)
Phân tích tương quan Tính đồng biến của hai biến X và Y ngẫu nhiên được
xác định bởi Cov(X,Y) = E(XY) - E(X) E(Y) Hệ số tương quan tuyến tính thể hiện tính đồng biến và mức độ hai biến tương quan tuyến tính, được xác định:
𝑅2 = [𝐸(𝑋𝑌) − 𝐸(𝑋)𝐸(𝑌)]2
𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟 (𝑌)Luôn nằm trong khoảng [0,1], bằng 1 nghĩa là sự tương quan tuyến tính hoàn toàn và bằng 0 là hoàn toàn không có tương quan Nếu khác 0 thì X và Y phụ
Trang 18thuộc
Phân tích ngẫu nhiên Là nỗ lực để xác định mức độ hai biến ngẫu nhiên
phụ thuộc Phân tích này được biểu diễn bởi một bảng đếm mij là kết quả từ việc tính biểu đồ tần suất hai chiều trên cặp số của mẫu (yi,xi) Trong trường hợp các biến ngẫu nhiên rời rạc, i và j trải trên các giá trị dương của biến ngẫu nhiên rời rạc Với các biến ngẫu nhiên liên tục, i và j trải trên tập hợp các hộp hoặc khoảng trong đó các mẫu được cho vào Ta thấy rằng thống kê:
𝐵 = ∑(𝑚𝑖𝑗 − 𝑛𝑖𝑗)
2
𝑛𝑖𝑗 , 𝑛𝑖𝑗 =
∑ 𝑚𝑘 𝑖𝑘∑ 𝑚𝑘 𝑘𝑗𝑚𝑖𝑗
Có phân phối chi thích hợp Hai hệ số kết hợp thường được dùng: hệ số ngẫu nhiên C và cramer‟s V được xác định như sau:
𝐶 = √𝐵/(𝐵 + 𝑚) 𝑉 = √𝐵/𝑚𝑚𝑎𝑥(𝐼 − 1, 𝐽 − 1)
Với I và J là số hộp i và j tương ứng Cà hai đều nằm trong khoảng [0,1], với 1 nghĩa là phụ thuộc và 0 là không phụ thuộc Tuy nhiên, trong thực tế, không
có giá trị nào đạt được 1
Hệ số không chắc chắn Ta có thể xác định một hệ số dựa trên entropy của những phân phối Pr(X,Y), Pr(Y|X) and Pr(X|Y) Hệ số không chắc chắn entropy, U, được định nghĩa:
𝑈 = 2𝐻𝑋 −𝐻𝑌−𝐻𝑋𝑌
𝐻𝑋+𝐻𝑌
Với HXY, HX và HY theo thứ tự là entropy của các phân phối Pr(X,Y), Pr(X)
và Pr(Y) Hệ số U luôn nằm trong khoảng [0,1], với 1 là phụ thuộc hoàn toàn và 0
là không phụ thuộc Các thông số mô tả phù hợp với phương trình QSAR khi: C > 0,6; V > 0,2; U > 0.2; R2 > 0,2