1. Trang chủ
  2. » Luận Văn - Báo Cáo

LÊ VIẾT HOÀNG dự đoán tác DỤNG ức CHẾ XANTHIN OXIDASE của CAO CHIẾT từ QUẢ cần tây THÔNG QUA PHỔ hấp THỤ UV VIS KHÓA LUẬN tốt NGHIỆP dược sĩ hà nội 2020

69 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 1,88 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhiều nghiên cứu đã xây dựng thành công mô hình biểu thị mối tương quan này và ứng dụng vào dự đoán tác dụng cũng như kiểm soát chất lượng của dịch chiết/cao chiết dược liệu [84], [86]..

Trang 1

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

LÊ VIẾT HOÀNG

Trang 2

BỘ Y TẾ

TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

LÊ VIẾT HOÀNG

Mã sinh viên: 1501184

DỰ ĐOÁN TÁC DỤNG

ỨC CHẾ XANTHIN OXIDASE CỦA CAO CHIẾT TỪ QUẢ CẦN TÂY THÔNG QUA PHỔ HẤP THỤ UV-VIS

KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ

Trang 3

Với lòng kính trọng và biết ơn sâu sắc, em xin chân thành gửi lời cảm ơn tới

PGS.TS Nguyễn Thu Hằng (Bộ môn Dược liệu - Trường Đại học Dược Hà Nội), người

đã dìu dắt em vào con đường nghiên cứu khoa học; đã tận tình chỉ bảo, hướng dẫn cho

em từ những bước đi đầu tiên; đã giành nhiều thời gian vàng ngọc để hướng dẫn em viết

và chỉnh sửa bài từ những điều nhỏ nhất Những buổi hướng dẫn của cô không chỉ cho

em nhiều kiến thức, kỹ năng và kinh nghiệm nghiên cứu khoa học, mà còn dạy em kinh nghiệm sống, đạo đức nghề nghiệp, giúp em trưởng thành hơn trong học tập, công việc

và cuộc sống

Em xin gửi lời cảm ơn chân thành sâu sắc tới ThS Nguyễn Văn Phương (Bộ môn

Dược liệu - Trường Đại học Dược Hà Nội), người thầy đã trực tiếp hướng dẫn em trong suốt quá trình nghiên cứu và hoàn thành khóa luận tốt nghiệp; một người anh thân thương hết lòng vì các em; đã không quản ngại những khó khăn, vất vả tận tình chỉ dạy, rèn giũa cho em nhiều kỹ năng, kinh nghiệm nghiên cứu; người đã tận tình dẫn dắt em đến với kiến thức về mô hình toán học và các thuật toán học máy, là nền tảng xuyên suốt khóa luận này

Em cũng xin được cảm ơn các thầy cô Bộ môn Dược liệu đã tạo điều kiện thuận lợi, giúp đỡ em trong quá trình thực hiện đề tài Mình xin gửi lời cảm ơn đến các bạn, các em

sinh viên trong nhóm nghiên cứu, đặc biệt là hai bạn Ngô Minh Khoa và Lê Thị Trang

đã giúp đỡ mình nhiều trong giai đoạn chuẩn bị nguyên liệu, giúp mình hoàn thành đề tài đúng tiến độ

Cuối cùng, con xin cảm ơn bố mẹ đã sinh thành, nuôi dạy con nên người; cảm ơn cảm ơn chị gái, em trai; cảm ơn các anh chị em, bạn bè đã luôn động viên, khích lệ, theo dõi em trong suốt quá trình học tập và thực hiện khóa luận này

Em xin chân thành cảm ơn!

Hà Nội, ngày 2 tháng 6 năm 2020

Sinh viên

Lê Viết Hoàng

Trang 4

MỤC LỤC DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ

ĐẶT VẤN ĐỀ 1

CHƯƠNG 1 TỔNG QUAN 3

1.1 Tổng quan về cây cần tây và quả cần tây 3

1.1.1 Đặc điểm thực vật và phân bố loài Apium graveolens L 3

1.1.2 Thành phần hóa học 3

1.1.3 Tác dụng sinh học 7

1.2 Tổng quan mối quan hệ dữ liệu phổ-tác dụng 9

1.2.1 Khái niệm và nguyên lý chung 9

1.2.2 Các bước xây dựng và đánh giá mô hình 10

1.2.3 Tổng quan về phương pháp học máy 12

1.2.4 Tình hình nghiên cứu ứng dụng mô hình dữ liệu phổ-tác dụng để dự đoán tác dụng của các dịch chiết/cao chiết dược liệu 14

CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 16

2.1 Nguyên liệu, thiết bị 16

2.1.1 Nguyên liệu 16

2.1.2 Hóa chất, thiết bị và phần mềm 16

2.2 Nội dung nghiên cứu 17

2.3 Phương pháp nghiên cứu 17

2.3.1 Chuẩn bị cơ sở dữ liệu 17

2.3.2 Xây dựng mô hình 20

2.3.3 Phương pháp đánh giá mô hình 26

2.3.4 Phương pháp kiểm định mô hình bằng thực nghiệm 27

CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ NGHIÊN CỨU 28

3.1 Chuẩn bị cơ sở dữ liệu và xử lý số liệu 28

3.2 Xây dựng mô hình 31

3.2.1 Thiết kế tập huấn luyện và tập kiểm nghiệm 31

Trang 5

3.2.2 Kết quả xây dựng mô hình 31

3.3 Lựa chọn mô hình có chất lượng tốt nhất và kiểm định lại bằng thực nghiệm 38

CHƯƠNG 4 BÀN LUẬN 40

4.1 Về sự phát triển của mô hình dữ liệu phổ-tác dụng 40

4.2 Tính mới của nghiên cứu 43

4.3 Về kết quả xây dựng mô hình 44

KẾT LUẬN VÀ KIẾN NGHỊ 47 TÀI LIỆU THAM KHẢO

PHỤ LỤC

Trang 6

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt

CART Classification & Regression Tree cây phân loại và hồi quy

DMSO Dimethyl sulfoxide dimethyl sulfoxide

GC/MS Gas Chromatography-Mass

HPLC High Performance Liquid

NSAIDs Non-steroidal anti-inflammatory

Trang 7

RMSE Root Mean Squared Error sai số trung bình bình phương

Quốc

UPLC Ultra Performacnce Liquid

Trang 8

DANH MỤC CÁC BẢNG

3.2 Độ hấp thụ tại 6 bước sóng và giá trị IC50 của 17 mẫu cao quả

3.6 Kết quả khảo sát ảnh hưởng của các thông số C, ε và γ lên

3.10 Kết quả kiểm định mô hình bằng thực nghiệm in vitro 39

Trang 9

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ, ĐỒ THỊ

1.2 Sơ đồ tóm tắt các bước xây dựng mô hình mối quan hệ dữ liệu

2.2 Sơ đồ quy trình đánh giá tác dụng ức chế XO của cao quả cần

3.3

Đồ thị biểu diễn thay đổi của các thông số chất lượng mô hình

3.4

Đồ thị biểu diễn tương quan giá trị LogIC50 dự đoán và

Trang 10

ĐẶT VẤN ĐỀ

Trong quá trình chuyển hóa purin trong cơ thể, xanthin oxidase (XO) là enzym chìa khóa xúc tác cho các phản ứng oxy hóa hypoxanthin thành xanthin và xanthin thành acid uric Hoạt động quá mức của enzym này dẫn đến tăng sinh tổng hợp acid uric, là nguyên nhân dẫn đến nhiều bệnh lý trong đó có bệnh gút [65], [69] Các chất ức chế XO làm giảm nồng độ acid uric trong máu, do đó được sử dụng trên lâm sàng để điều trị bệnh gút Rất nhiều hợp chất đã được chứng minh hoạt tính ức chế XO, trong đó đáng chú ý là các hợp chất nhóm flavonoid [62]

Hiện nay, cao chiết từ quả cần tây (Apium graveolens L.) với thành phần chính là

flavonoid được chiết xuất theo quy trình của tác giả Nguyễn Thu Hằng và cộng sự đã được chứng minh có tác dụng hạ acid uric thông qua con đường ức chế XO trên thực nghiệm [4], [5], [63] Các nghiên cứu cũng chỉ ra rằng flavonoid là nhóm hoạt chất chính của cao chiết từ quả cần tây [13] và tác dụng ức chế XO của cao quả cần tây là do sự kết hợp của nhiều flavonoid [87]

Sản xuất thuốc thảo dược là một quá trình phức tạp từ nguyên liệu ban đầu thường thông qua quá trình chiết xuất thu được bán thành phẩm là cao chiết Cao chiết được chuẩn hóa sẽ tiếp tục được bào chế thành sản phẩm cuối cùng là dược phẩm Do đó, chất lượng của cao bán thành phẩm đóng vai trò quyết định đến chất lượng và hiệu quả điều trị của thuốc thảo dược Với cao chiết từ quả cây cần tây, hàm lượng flavonoid toàn phần là một chỉ tiêu chất lượng quan trọng, được xác định bằng phương pháp quang phổ hấp thụ UV-Vis dựa trên độ hấp thụ của dung dịch mẫu thử ở bước sóng cực đại (λmax) Tuy nhiên, hiệu quả điều trị của cao quả cần tây là do tác dụng hiệp đồng tổng hợp của nhiều thành phần trong cao mang lại [34], [84], [89], trong khi giá trị hàm lượng flavonoid toàn phần chỉ được tính toán từ độ hấp thụ UV-Vis tại một bước sóng (λmax)

và kết quả được tính theo một flavonoid chính (apigenin) nên giá trị này chưa thực sự phản ánh đầy đủ thông tin về thành phần flavonoid cũng như chất lượng của cao quả cần tây Vì vậy, cần thiết phải tìm kiếm một công cụ khác phản ánh đầy đủ hơn thành phần flavonoid trong cao quả cần tây, từ đó có thể ứng dụng công cụ này trong việc tiêu chuẩn hóa và kiểm nghiệm, giúp đảm bảo chất lượng và tác dụng của cao quả cần tây Một hướng tiếp cận mới để kiểm soát chất lượng thuốc thảo dược hiện nay được

đề xuất bởi các nhà nghiên cứu Trung Quốc là mối quan hệ định lượng dữ liệu phổ-tác

dụng (Spectrum-Effect Relationship) với mục tiêu xây dựng mối tương quan giữa dữ

Trang 11

liệu phổ và tác dụng sinh học của dịch chiết/cao chiết dược liệu [86] Nhiều nghiên cứu

đã xây dựng thành công mô hình biểu thị mối tương quan này và ứng dụng vào dự đoán tác dụng cũng như kiểm soát chất lượng của dịch chiết/cao chiết dược liệu [84], [86]

Do đó, đề tài “Dự đoán tác dụng ức chế xanthin oxidase của cao chiết từ quả cần tây thông qua phổ hấp thụ UV-Vis” được thực hiện với hai mục tiêu:

1 Xây dựng mô hình định lượng biểu thị mối quan hệ giữa độ hấp thụ UV-Vis và tác dụng ức chế XO của các mẫu cao quả cần tây

2 Đánh giá mô hình, kiểm định mô hình có chất lượng tốt nhất bằng thực nghiệm

Trang 12

CHƯƠNG 1 TỔNG QUAN 1.1 Tổng quan về cây cần tây và quả cần tây

1.1.1 Đặc điểm thực vật và phân bố loài Apium graveolens L

Tên khoa học: Apium graveolens L họ Cần (Apiaceae) [9]

Tên nước ngoài: Celery (tiếng Anh), céleri (tiếng Pháp) [9]

1.1.1.1 Đặc điểm thực vật

Cây thảo, có mùi thơm, sống 1-2 năm, thân mọc đứng, có rãnh dọc, cao khoảng

15 - 150 cm Lá thuôn dài hoặc hình trứng, dài 7-18 cm, rộng 3,5 - 8 cm, xẻ 3 thùy hình tam giác Thuỳ cuối có răng cưa hoặc khía, dài 1,2 - 2,5 cm, rộng 0,8 - 2,5 cm Lá phía trên có cuống ngắn, phiến hình tam gác, xẻ sâu 2 thùy, thùy cuối hình trứng Lá ở gốc

có cuống, bẹ to rộng, hình tam giác, xẻ 3-5 thùy hình tam giác, đầu tù, mép khía răng

to, không lông Cụm hoa dạng tán, rộng 1,5 - 4 cm, mọc đối diện với lá, gồm nhiều tán dài, ngắn không đều, các tán ở đầu có cuống dài hơn các tán bên trong và có kích thước

4 -15 mm Tán kép mang 8 - 12 tán, tán hoa có 7 - 25 hoa, kích thước 6 - 9 mm theo chiều ngang Hoa phía ngoài có 3 - 8 (-16) cánh hoa mành, kích thước 0,5 - 2,5 cm, cống dài 1 - 1,5 mm Quả (thường gọi là hạt [20]) có hình trứng, hơi dẹt, tròn hai đầu, nhẵn,

có 5 cánh lồi chạy dọc thân, đường kính 1,3 - 1,5 mm, chiều dài 1-2 mm Mùa ra hoa và quả vào tháng 4 - 6 [2], [57]

1.1.1.2 Phân bố

Cây có nguồn gốc ở khu vực bờ biển Đại Tây Dương và Địa Trung Hải, thuộc vùng ôn đới ấm ở Châu Âu và Châu Á [9] Ở Việt Nam, cần tây đã được di nhập vào nước ta và được trồng ở nhiều nơi để làm rau ăn [2], [9]

1.1.2 Thành phần hóa học

Quả cần tây có chứa flavonoid, tinh dầu, saponin, coumarin, tanin, đường khử, lipid, caroten Trong đó, thành phần hóa học chính là flavonoid, tinh dầu và coumarin [4], [62]

1.1.2.1 Flavonoid

Theo các tài liệu thu thập được, cho đến nay đã phát hiện được 19 hợp chất flavonoid trong quả cần tây chủ yếu là dẫn xuất của apigenin hoặc luteolin Khung cấu trúc chung của các flavonoid này được thể hiện ở hình 1.1 [48], [90], [95]

Trang 13

Hình 1.1 Khung cấu trúc flavonoid trong quả cần tây

Các hợp chất flavonoid trong quả cần tây được trình bày tóm tắt ở bảng 1.1

Bảng 1.1 Các hợp chất flavonoid trong quả cần tây

Trang 16

Theo kết quả nghiên cứu của tác giả Nguyễn Thu Hằng và cộng sự [4], [7], hàm lượng flavonoid toàn phần trong cao chiết từ quả cần tây có thể được xác định bằng phương pháp quang phổ hấp thụ tử ngoại khả kiến UV-Vis Cụ thể, cao đặc quả cần tây được chiết siêu âm bằng dung môi methanol, ly tâm loại tạp không tan Sau đó, dung dịch thử được tiến hành phản ứng với triethylamin 1% và được đo độ hấp thụ UV-Vis ở bước sóng 380,5 nm Hàm lượng % flavonoid toàn phần trong cao chiết được tính toán theo đường chuẩn đã xây dựng với chất chuẩn là apigenin [7]

1.1.2.2 Tinh dầu

Hàm lượng tinh dầu của quả cần tây là 2,52% Phân tích tinh dầu quả cần tây bằng phương pháp sắc ký khí kết hợp với khối phổ (GC/MS), kết quả phát hiện 28 thành phần được chia thành 3 nhóm: 7 hợp chất dẫn xuất phthalid, 17 hợp chất là dẫn chất terpen

với thành phần chính là β-selinen (48,22%), limonen (24,32%) và 4 hợp chất còn lại có

cấu trúc khác [30], [48] Trong đó, đáng chú ý là các hợp chất thuộc nhóm dẫn xuất phathalid (như 3-n-butyl phathlid [16], sedanolid [59], sedanenolid [75]), là những thành phần đem lại mùi thơm và nhiều tác dụng sinh học đáng quý cho quả cần tây [9]

1.1.2.3 Coumarin

Các kết quả nghiên cứu về cần tây cho thấy có 20 hợp chất furanocoumarin đã được phát hiện [9], [10] Một số hợp chất điển hình như: umbelliferon [56], psoralen [9], bergapten [22], xanthotoxin [9], [22]

1.1.3 Tác dụng sinh học

1.1.3.1 Tác dụng hạ acid uric và ức chế xanthin oxidase

Tác dụng ức chế enzym xanthin oxidase của dịch chiết ethanol toàn phần và các

phân đoạn dịch chiết từ quả cần tây đã được đánh giá trên thực nghiệm in vitro Kết quả

cho thấy phân đoạn cloroform và phân đoạn ethyl acetat từ quả cây cần tây đều thể hiện

Trang 17

ngày Kết quả cho thấy nồng độ acid uric huyết thanh trên các lô thử tương ứng 3 mức liều giảm lần lượt so với lô chứng là 59,3%; 52,6% và 43,8% Mặt khác, cao quả cần tây liều 250 mg/kg, 500 mg/kg còn làm giảm hoạt độ enzym xanthin oxidase (XO) tại gan chuột thí nghiệm tương ứng là 12,1% và 10,5% [63]

Một nghiên cứu khác được thực hiện trên chuột cống bởi Mohamed và các cộng

sự, kết quả cho thấy lô chuột được cho uống dịch chiết ether dầu hỏa và dịch chiết methanol từ quả cần tây liều 500 mg/kg có nồng độ acid uric máu giảm lần lượt 41% và 38% tại thời điểm 3 giờ; 44% và 31% tại thời điểm 6 giờ, so với lô chứng [27]

Ngoài việc đánh giá tác dụng ức chế XO chung của mẫu dịch chiết quả cần tây, nhiều nghiên cứu khác cũng đã phân lập và đánh giá tác dụng ức chế XO của một số flavonoid chính có trong đó như apigenin, apiin, kaempferol, luteolin [28] Lin và các

cộng sự [47] đã đánh giá tác dụng ức chế XO in vitro của apigenin so sánh với

allopurinol, kết quả cho thấy apigenin có tác dụng ức chế XO tương đương allopurinol thông qua cơ chế tương tác với trung tâm hoạt động của enzym này; De Souza và các cộng sự cũng tiến hành đánh giá tác dụng ức chế XO của apigenin trên đối tượng chuột nhắt trắng tăng acid uric máu, kết quả cho thấy apigenin liều 25 mg/kg giúp làm giảm

đáng kể nồng độ acid uric huyết thanh và ức chế 38,4% hoạt tính của XO trong gan in vivo [25] Luteolin - một thành phần flavonoid khác của quả cần tây, cũng ức chế cạnh

tranh XO qua việc tương tác với các acid amin chính nằm trong trung tâm hoạt động của enzym này [88] Ngoài ra, kaempferol cũng thể hiện tác dụng hiệp đồng ức chế XO khi

sử dụng kết hợp với luteolin [81]

1.1.3.2 Tác dụng chống viêm

Trên mô hình gây phù bàn chân chuột bằng carrageenan, dịch chiết ethanol từ quả cây cần tây ở các mức liều 250 mg/kg và 500 mg/kg đều có tác dụng ức chế phù bàn chân chuột so với lô chứng tại thời điểm 1 giờ sau khi gây viêm (p < 0,05); tỷ lệ ức chế phù của lô thử so với lô chứng lần lượt là 37,6% và 60,6% [3] Trên mô hình gây viêm màng hoạt dịch khớp gối bằng tinh thể natri urat, kết quả cũng cho thấy khả năng làm giảm đáng kể triệu chứng viêm khi dùng cao ethanol chiết từ quả cần tây ở cả hai mức liều 250 mg/kg và 500 mg/kg [3]

Ngoài ra, dịch chiết quả cần tây cũng đồng thời thể hiện tác dụng chống viêm trên nhiều mô hình thí nghiệm khác như mô hình gây phù bàn chân chuột và so sánh với aspirin; mô hình gây phù tai bằng xylen so sánh với dexamethason [68]; hay so sánh tác

Trang 18

dụng chống viêm của hỗn hợp kết hợp NSAIDs và dịch chiết cần tây so với khi dùng NSAIDs đơn độc trên mô hình gây phù bàn chân chuột [67]

1.1.3.3 Tác dụng giảm đau

Tác dụng giám đau của dịch chiết quả cần tây đã được đánh giá với nhiều mức liều khác nhau trên những mô hình khác nhau Trên mô hình Radall-selitto, dịch chiết ethanol từ quả cần tây liều 250 mg/kg và 500 mg/kg có tác dụng tăng ngưỡng phản ứng đau của chuột so với lô chứng tại các thời điểm 1 giờ và 2 giờ sau khi tiêm carrageenan (p < 0,05) [3] Cũng trên mô hình này, nhưng sử dụng dịch chiết ethanol của quả cần tây

ở mức liều 70 mg/kg cho thấy tác dụng giảm đau tương đương ibuprofen liều 200 mg/kg thể trọng chuột [67] Một nghiên cứu khác của tác giả Nguyễn Thùy Dương và cộng sự thực hiện trên mô hình gây đau quặn bằng acid acetic (phương pháp Koster), kết quả cũng cho thấy khả năng giảm đáng kể số cơn đau quặn khi dùng cao ethanol chiết từ quả cần tây ở mức liều 250 mg/kg [3] Một nghiên cứu gần đây được thực hiện bởi Battaglia

và cộng sự, nhằm đánh giá tác dụng giảm đau, chống viêm của bột chiết xuất quả cần tây trên đối tượng ngựa bị viêm khớp mãn tính, kết quả cho thấy dịch chiết quả cần tây

ở mức liều 100 mg/kg cải thiện rõ rệt tình trạng viêm đau so với lô chứng [15]

1.1.3.4 Các tác dụng khác

Ngoài các tác dụng kể trên, quả cần tây còn thể hiện một số tác dụng khác như: chống ngưng tập tiểu cầu và kéo dài thời gian đông máu [6], hạ huyết áp [73], chống ung thư [32], hạ đường huyết [76], hạ lipid máu [52], cải thiện trí nhớ [18], chống dị ứng, kháng khuẩn [14], kháng nấm [54], chống oxi hóa [12]…

1.2 Tổng quan mối quan hệ dữ liệu phổ-tác dụng

1.2.1 Khái niệm và nguyên lý chung

Mối quan hệ dữ liệu phổ-tác dụng (Spectrum-Effect Relationship) là một khái

niệm mới được để xuất bởi các nhà nghiên cứu Trung Quốc với mục tiêu xây dựng mối tương quan giữa dữ liệu phổ và tác dụng sinh học của dịch chiết/cao chiết dược liệu nhằm ứng dụng vào kiểm soát chất lượng của thuốc thảo dược [86]

Nhiều tác giả khi nghiên cứu về dược liệu đã chỉ ra hiệu quả điều trị của thuốc thảo dược là do tác dụng hiệp đồng tổng hợp của tất cả các thành phần mang lại [34], [84], [89] Nói cách khác, tác dụng sinh học của cao chiết dược liệu phụ thuộc trực tiếp vào nhiều thành phần hóa học (định tính và định lượng) có trong cao chiết đó Do vậy,

Trang 19

việc xác định hàm lượng của chỉ một hay một số thành phần chính chưa đủ để phản ánh hiệu quả điều trị của cao chiết

Mặt khác, dữ liệu phổ của của các mẫu dịch chiết/cao chiết dược liệu lại có thể phản ánh đầy đủ hơn các thông tin đặc trưng của thành phần hóa học có trong dịch chiết

Theo quan điểm của các tác giả đề xuất khái niệm Spectrum-Effect Relationships, dữ

liệu phổ có thể hiểu theo nghĩa rộng bao gồm các sắc ký đồ trong các kỹ thuật sắc ký [86] Khi các thành phần trong dịch chiết/cao chiết thay đổi tương ứng với sự thay đổi của dữ liệu phổ, hoạt tính sinh học của dịch chiết/cao chiết cũng thay đổi theo Như vậy,

dữ liệu phổ và tác dụng sinh học của dịch chiết/cao chiết dược liệu có mối quan hệ định lượng với nhau [86] Nói cách khác, tác dụng sinh học của dịch chiết/cao chiết dược liệu được thể hiện dưới dạng hàm số của dữ liệu phổ:

Tác dụng sinh học = f(dữ liệu phổ) Như vậy, mục tiêu của mô hình mối quan hệ dữ liệu phổ-tác dụng là thiết lập một hàm số biểu thị mối quan hệ định lượng giữa các biến đầu vào và biến đầu ra có dạng tổng quát như sau [34]:

Y = f1(x1) + f2(x2) + + fn(xn) Trong đó, Y là biến đáp ứng sinh học thường thu được từ thực nghiệm và thể hiện bằng các giá trị như nồng độ ức chế 50% hoạt tính enzym (IC50), giá trị phần trăm ức chế (I%)…

Các biến x1, x2,…,xn là các biến đầu vào mô tả dữ liệu phổ thể hiện các thành phần hóa học của mẫu thử

1.2.2 Các bước xây dựng và đánh giá mô hình

Các bước xây dựng mô hình biểu thị mối quan hệ dữ liệu phổ-tác dụng của dịch chiết/cao chiết dược liệu được tóm tắt ở sơ đồ hình 1.2

Trang 20

Hình 1.2 Sơ đồ tóm tắt các bước xây dựng mô hình biểu thị mối quan hệ

dữ liệu phổ-tác dụng [60]

Bước 1: Chuẩn bị cơ sở dữ liệu

Cơ sở dữ liệu (CSDL) để xây dựng các mô hình mối quan hệ dữ liệu phổ-tác dụng bao gồm hoạt tính sinh học và thông tin dữ liệu phổ được xác định trên thực nghiệm của dịch chiết/cao chiết dược liệu

Bước 2: Xử lí số liệu

Để xây dựng được mô hình một cách chính xác và đảm bảo tính tin cậy, dữ liệu

ban đầu cần phải được tiền xử lí (preprocessing) Công việc này có thể bao gồm loại bỏ các giá trị ngoại lai (outlier), chuẩn hóa đơn vị, chuyển đổi biến sử dụng các hàm logarit

hóa, lũy thừa, nghịch đảo Những công việc này giúp loại bỏ các thông tin gây nhiễu khi xây dựng mô hình [60], [70]

Bước 3: Thiết kế tập huấn luyện và tập kiểm nghiệm

CSDL ban đầu được chia thành tập huấn luyện (training set) và tập kiểm nghiệm (test set) Tập huấn luyện chiếm khoảng 70-90% CSDL ban đầu và được sử dụng để xây

dựng mô hình Tập kiểm nghiệm được sử dụng để đánh giá mô hình [55], [77]

Bước 4: Xây dựng mô hình

Ngày nay, nhiều phương pháp xây dựng mô hình được phát triển và ứng dụng phổ biến Tuy nhiên, không có phương pháp nào được coi là hiệu quả nhất Một phương pháp có thể phù hợp để xây dựng mô hình này nhưng có thể sẽ không hiệu quả khi xây dựng các mô hình khác vì mỗi CSDL khác nhau sẽ có sự phụ thuộc khác nhau giữa biến

Trang 21

đầu vào và biến đầu ra Do vậy, cách tiếp cận phổ biến đó là sử dụng nhiều phương pháp khác nhau để xây dựng các mô hình, sau đó tiến hành so sánh lựa chọn ra mô hình tối

ưu nhất

Bước 5: Đánh giá mô hình

Sự thành công của một mô hình phụ thuộc vào rất nhiều yếu tố như chất lượng của dữ liệu đầu vào, sự chọn lọc các biến mô tả, phương pháp xây dựng mô hình…[80], [91] Chất lượng mô hình thường được đánh giá trên tập huấn luyện (đánh giá nội) và tập kiểm nghiệm (đánh giá ngoại) dựa vào 2 tiêu chí: thông số thống kê và độ chính xác

dự đoán [17], [33], [51]

Các thông số đánh giá nội bao gồm hệ số tương quan R 2, độ chính xác dự đoán

nội %P, độ lệch tuyệt đối trung bình (Mean Absolute Deviation - MAD) và sai số trung bình bình phương (Root Mean Squared Error - RMSE) Đánh giá ngoại được tiến hành

dựa trên độ chính xác dự đoán trên tập kiểm nghiệm %P test

1.2.3 Tổng quan về phương pháp học máy

Trước đây, để đưa ra mô hình biểu thị các mối quan hệ giữa biến đầu ra và biến đầu vào, người ta thường sử dụng các phương pháp thống kê cổ điển Tuy nhiên, những phương pháp này có một số hạn chế như yêu cầu một nền tảng vững chắc về toán học,

cơ sở dữ liệu phải thỏa mãn một số giả thiết thống kê, quá trình tính toán phức tạp… Để giải quyết những khó khăn trên, cùng với sự phát triển của khoa học máy tính, các

phương pháp học máy (Machine Learning) đã được xây dựng và ứng dụng ngày càng

rộng rãi trên nhiều lĩnh vực [21] Thuật ngữ học máy lần đầu tiên được giới thiệu vào năm 1959 bởi nhà khoa học Arthur Samuel - người tiên phong đầu tiên trong lĩnh vực trí tuệ nhân tạo, với định nghĩa là một lĩnh vực nghiên cứu mang lại cho máy tính có khả năng học tập mà không cần được lập trình trước đó [49] Sau đó, Tom Mitchell đã đưa

ra một định nghĩa chính thức hơn mô tả học máy là một ngành khoa học mà máy tính

có khả năng học hỏi để cải thiện kết quả ở một số bài toán nhất định, trong đó, kết quả được cải thiện dựa trên sự tích lũy kinh nghiệm học tập của máy tính [49]

Từ đó, những mô hình toán học xây dựng bởi các thuật toán học máy dần phát triển và được ứng dụng rộng rãi Mô hình đầu tiên được xây dựng dựa trên việc thiết kế một loạt các chương trình sơ khai nhằm mô phỏng mạng thần kinh của con người Tuy nhiên, do hạn chế về công nghệ máy tính thời điểm đó, hầu hết các nghiên cứu theo mô hình này đều không đem lại kết quả chính xác Mô hình thứ hai bắt đầu xuất hiện vào

Trang 22

đầu những năm 60 của thế kỷ trước, xuất phát từ nhu cầu của các nhà tâm lý học và các nhà nghiên cứu trí tuệ nhân tạo, với việc thay thế các phương pháp thống kê toán học bằng sử dụng logic hoặc cấu trúc đồ thị Mô hình thứ ba đại diện cho giai đoạn nghiên cứu gần đây, bắt đầu từ những năm 70 cùng với sự phát triển mạnh mẽ của các phương

pháp học sâu (deep learning) [21]

Về phân loại, có nhiều loại thuật toán học máy khác nhau, nhưng nhìn chung chúng có thể được chia thành ba loại chính như sau [36], [49], [26]:

Học có giám sát (supervised learning): Máy tính được “xem” thông tin của một

số mẫu bao gồm đầu vào (input) và đầu ra (output) tương ứng trước Sau khi học xong

các mẫu này, máy tính quan sát một đầu vào mới và cho ra kết quả Tùy theo mục đích

dự đoán là phân loại hay định lượng, học máy có giám sát được chia thành 2 nhóm: phân

loại (classification) và hồi quy (regression) Các phương pháp phổ biến của nhóm phân loại có thể kể đến như: Phương pháp máy vector hỗ trợ (Support Vector Machine -

SVM), hồi quy logistic (logistic regression), k hàng xóm gần nhất (k-nearest neighbors algorithm - kNN) Nhóm hồi quy có 2 phương pháp phổ biến là hồi quy tuyến tính (linear regression) và hồi quy LASSO (Least absolute shrinkage and selection operator

- LASSO) - một dạng hồi quy tuyến tính đa biến có hiệu chỉnh mô hình Ngoài ra, cả 2

nhóm phân loại hay hồi quy đều có thể xây dựng mô hình thông qua phương pháp chung

là cây quyết định (Classification & Regression Tree - CART) Đây là thuật toán được

sử dụng rộng rãi nhất để đưa ra các mô hình biểu diễn sự phụ thuộc của 2 hay nhiều đại lượng

Học không giám sát (unsupervised learning): Máy tính chỉ được “xem” thông tin

của các mẫu không có đầu ra, sau đó máy tính phải tự tìm cách phân loại các mẫu này

và các mẫu mới Thuật toán không giám sát sẽ dựa vào cấu trúc của dữ liệu để phân

nhóm (clustering) hoặc giảm số chiều dữ liệu (dimension reduction) với mục đích thuận

tiện trong việc lưu trữ và tính toán Học máy không giám sát được chia thành 2 nhóm:

Phân tích cụm (Cluster Analysis) với phương pháp k-trung bình (K-means) và giảm chiều dữ liệu (Dimensionality reduction) với 2 phương pháp phân tích thành phần chính

(Principal Component Analysis - PCA) và phân tích thành phần độc lập (Independent Component Analysis - ICA)

Trang 23

Học tăng cường (reinforcement learning): Máy tính đưa ra quyết định hành động (action) và nhận kết quả phản hồi (response/reward) từ môi trường (environment) Sau

đó máy tính tìm cách điều chỉnh và tự ra quyết định cho hành động của mình

Ngoài ra người ta còn định nghĩa thêm một dạng trung gian giữa hai nhóm học có giám sát và không giám sát được gọi là học nửa giám sát Mỗi loại lại có phương pháp học tập khác nhau, việc lựa chọn phương pháp học sẽ tùy thuộc vào mục đích nghiên cứu, vào bản chất mối quan hệ hay bản chất của cơ sở dữ liệu

1.2.4 Tình hình nghiên cứu ứng dụng mô hình dữ liệu phổ-tác dụng để dự đoán tác dụng của các dịch chiết/cao chiết dược liệu

Ngày nay, dưới sự phát triển của khoa học công nghệ, rất nhiều nghiên cứu đã tận dụng sự hỗ trợ của máy tính để dự đoán nhanh tác dụng sinh học của các dịch chiết/cao chiết dược liệu thông qua dữ liệu hóa học mà không phải thực nghiệm đánh giá tác dụng trực tiếp Một trong số những ví dụ điển hình là mô hình dữ liệu phổ-tác dụng [35], [86] Nghiên cứu đầu tiên về mối quan hệ dữ liệu phổ-tác dụng bắt đầu xuất hiện vào những năm 2000 Đến năm 2002, Li và các cộng sự đã đề xuất khái niệm mối quan hệ dữ liệu phổ-tác dụng [42] Từ đó, các thành tựu đạt được liên tục tăng trong hai thập kỷ vừa qua Cùng lúc đó, các phương pháp toán học thể hiện mối tương quan đã được xây dựng

và phát triển một cách mạnh mẽ, tạo cơ sở để kiểm soát chất lượng và đánh giá tác dụng của thuốc thảo dược [46] Thực tế từ các kết quả nghiên cứu của mình, nhiều nhà khoa học cũng đã đề xuất ứng dụng mô hình dữ liệu phổ-tác dụng để trở thành công cụ đánh giá chất lượng và phát triển thuốc thảo dược [31], [89] Đối tượng nghiên cứu của mô hình mối quan hệ dữ liệu phổ-tác dụng ngày càng đa dạng, đó có thể là một dược liệu, một công thức thuốc là hỗn hợp nhiều dược liệu hay thậm chí là cả những chế phẩm, sản phẩm nguồn gốc thảo dược Trong đó, phổ biến nhất vẫn thực hiện trên đối tượng dược liệu Tuy nhiên, hiện tại các chế phẩm có nguồn gốc thảo dược cũng đang được các nhà nghiên cứu quan tâm đặc biệt [86]

Các phương pháp thu thập dữ liệu phổ hiện này cũng liên tục được mở rộng, gồm các phương pháp như TLC, HPLC, GC, NMR, CE, IR Bên cạnh đó, xu hướng tương lai là liên kết các dữ liệu phổ từ các phương pháp khác nhau nhằm mô tả tối đa thông tin về các thành phần hóa học của đối tượng nghiên cứu [44], [86]

Phương pháp đánh giá tác dụng cũng ngày càng phong phú hơn trên nhiều đích

tác dụng khác nhau Những thử nghiệm in vitro, in vivo được thiết kế xây dựng, với xu

Trang 24

hướng sử dụng kết hợp cùng lúc nhiều chỉ số đánh giá tác dụng nhằm thể hiện một cách chính xác nhất hiệu quả điều trị của mẫu thử [86]

Về các phương pháp xử lý dữ liệu và xây dựng mô hình, cùng với sự phát triển ngày càng mạnh mẽ của khoa học công nghệ, các phương pháp mới hay cải tiến từ những phương pháp truyền thống liên tục được mở rộng Nếu như các mô hình trước kia chủ yếu xây dựng bằng phương pháp hồi quy đa biến thì đến nay hàng loạt các phương pháp học máy mới được ứng dụng và nhiều ưu điểm rõ rệt Trong đó, xu hướng tương lai là ứng dụng nhiều phương pháp xử lý dữ liệu hay xây dựng mô hình khác nhau, bổ sung cho nhau nhằm đảm bảo sử dụng tối đa thông tin thu được và cải thiện độ chính xác của

mô hình [84], [86] Tất cả đều hướng tới mục tiêu cuối cùng là thể hiện chính xác nhất

sự tương quan giữa dữ liệu phổ và tác dụng của đối tượng nghiên cứu, từ đó giúp nâng cao hiệu quả kiểm soát chất lượng thuốc thảo dược [84], [86], [89]

Trang 25

CHƯƠNG 2 ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.1 Nguyên liệu, thiết bị

2.1.1 Nguyên liệu

Quả cần tây được thu hái tháng 06 năm 2018 tại Hải Hậu, Nam Định Dược liệu sau khi thu hoạch được đem phơi khô, bảo quản trong túi nilon kín, để nơi khô ráo, thoáng mát

Mẫu cây cần tây có hoa được ép tiêu bản, lưu trữ tại Phòng Tiêu bản - Bộ môn Thực vật - Trường Đại học Dược Hà Nội với số hiệu tiêu bản HNIP/18542/19

Căn cứ vào đặc điểm hình thái của mẫu nghiên cứu, sử dụng khóa phân loại chí

Apium và đối chiếu với bản mô tả loài theo tài liệu Thực vật chí Trung Quốc, mẫu cần tây nghiên cứu đã được xác định tên khoa học là Apium graveolens L., họ Cần

(Apiaceae) [7]

2.1.2 Hóa chất, thiết bị và phần mềm

2.1.2.1 Hóa chất

Hóa chất dùng cho nghiên cứu đạt tiêu chuẩn phân tích bao gồm:

 Các dung môi/hóa chất hữu cơ: Ethanol, methanol, parafin, triethylamin

 Cơ chất xanthin, ≥ 99% (Sigma Aldrich)

 Enzym xanthin oxidase từ sữa bò (0,8 U/mg protein, Sigma Aldrich)

 Hóa chất pha đệm Na2HPO4.2H2O, KH2PO4, HCl, NaOH (Sigma Aldrich)

2.1.2.2 Thiết bị

 Cân phân tích Precisa (Thụy Sỹ), độ chính xác 0,1 mg

 Cân kỹ thuật Sartorius TE 3102S, độ chính xác 0,01 g

 Máy cất quay Buchi Rotavapor R-200 (Đức)

 Máy đo hàm ẩm Precisa XM60

 Máy cô cách thủy Memmert (Đức)

 Tủ sấy Menmert (Đức)

 Máy siêu âm Sonic vibra cell

 Máy ly tâm Unversad 320 (Đức)

 Máy quang phổ UV-Vis Hitachi U-1900

 Đĩa UV 96 giếng đáy phẳng Costar 3655 (Corning)

Trang 26

 Hệ thống ELISA gồm máy đọc khay (Biotek) và máy ủ lắc khay (Awareness)

 Máy đo pH (EUTECH)

 Tủ ấm điều nhiệt Memmert

 Các dụng cụ sử dụng lấy mẫu và thí nghiệm: Dụng cụ thủy tinh, bình định mức, quả bóp cao su, pipet, ống nghiệm các loại

2.1.2.3 Phần mềm

 Phần mềm xử lý dữ liệu: SPSS 22.0, Excel 2013, Graphpad Prism 8.0

 Phần mềm xây dựng mô hình: SPSS 22.0, Weka 3.8

2.2 Nội dung nghiên cứu

Để thực hiện được mục tiêu đề ra, đề tài được tiến hành với các nội dung sau:

 Nội dung 1 Chuẩn bị cơ sở dữ liệu: Đánh giá tác dụng ức chế xanthin oxidase

và xác định phổ hấp thụ UV-Vis của các mẫu cao quả cần tây đã được chiết xuất

 Nội dung 2 Xây dựng mô hình thể hiện mối quan hệ giữa phổ hấp thụ UV-Vis

và tác dụng ức chế XO của cao quả cần tây, sử dụng 4 phương pháp: Hồi quy tuyến tính

đa biến (Multiple linear regression - MLR), mạng neuron nhân tạo (Artificial neural network - ANN), vector hỗ trợ (Support vector regresion - SVR) và k láng giềng gần nhất (k-nearest neighbor - kNN) Ứng với mỗi phương pháp, tiến hành khảo sát các

thông số ảnh hưởng đến chất lượng mô hình, đánh giá và lựa chọn mô hình chất lượng tốt nhất của từng phương pháp

 Nội dung 3: Lựa chọn mô hình chất lượng tốt nhất và kiểm định mô hình này

bằng thực nghiệm in vitro

2.3 Phương pháp nghiên cứu

2.3.1 Chuẩn bị cơ sở dữ liệu

Cơ sở dữ liệu (CSDL) bao gồm độ hấp thụ tại dải bước sóng 190 - 500 nm và nồng độ ức chế 50% hoạt độ xanthin oxidase (IC50) của các mẫu cao quả cần tây được chuẩn bị theo các bước sau đây:

2.3.1.1 Chuẩn bị các mẫu cao quả cần tây

17 mẫu cao quả cần tây khác nhau đã được chuẩn bị bằng cách chiết xuất trong điều kiện khác nhau theo quy trình được mô tả trong nghiên cứu tối ưu hóa chiết xuất flavonoid từ quả cần tây của tác giả Nguyễn Văn Phương và cộng sự [7] Trong nghiên cứu trên, 17 thí nghiệm chiết xuất cao quả cần tây khác nhau về điều kiện chiết xuất

Trang 27

(nồng độ ethanol, nhiệt độ, tỷ lệ dung môi/dược liệu) được thiết kế theo mô hình phức hợp trung tâm (hướng mặt) sử dụng phần mềm Design Expert 9.0.6 [7] Quy trình chiết xuất cụ thể như sau:

Cân chính xác khoảng 15,00 g quả cần tây đã xay nhỏ, chuyển vào bình cầu Thêm dung môi và chiết trong 1h, lọc lấy dịch chiết Bã dược liệu được tiếp tục chiết trong 1h, lọc lấy dịch chiết Gộp dịch chiết 2 lần rồi thêm parafin rắn, đun nóng và khuấy đều trong 10 phút Để nguội, tách riêng parafin rồi cô cách thủy đến khi thu được sản phẩm cao đặc có độ ẩm khoảng 16 - 18% [7]

Sơ đồ tóm tắt quy trình chiết xuất cao quả cần tây được trình bày ở hình 2.1 [7]

Hình 2.1 Sơ đồ tóm tắt quy trình chiết xuất cao quả cần tây

2.3.1.2 Phương pháp xác định phổ UV-Vis

Cân chính xác khoảng 0,1500 g cao quả cần tây vào cốc có mỏ, thêm 20 ml methanol, chiết siêu âm trong 10 phút, dịch chiết được đem lý tâm 10 phút, tốc độ quay

3000 vòng/phút thu được phần dịch trong suốt và phần cắn Phần cắn được chiết siêu

âm rồi ly tâm tiếp với các thông số như trên 3 lần nữa Gộp tất cả phần dịch sau ly tâm vào bình định mức 100 ml, bổ sung methanol tới vạch, lắc đều thu được dung dịch thử Lấy chính xác 0,5 ml dung dịch thử vào bình định mức 10 ml, thêm 5 ml triethylamin 1% trong methanol tới vạch, quét phổ hấp thụ ở vùng bước sóng 190-500 nm [7] Cứ 5

nm ghi lại một giá trị độ hấp thụ Như vậy, mỗi mẫu cao quả cần tây sẽ được mô tả bởi

63 độ hấp thụ tương ứng với 63 bước sóng trên dải sóng từ 190-500 nm

Quả cần tây xay nhỏ, rây

Thấm ẩm

Dịch chiết

Dịch chiết đã loại tạp

Cao quả cần tây

Chiết xuất (nồng độ ethanol, nhiệt độ, tỷ lệ dung môi/dược liệu)

Cô loại bớt dung môi

Thấm ẩm (nồng độ ethanol)

Loại tạp (parafin rắn)

Trang 28

Các giá trị độ hấp thụ trên dải bước sóng được hiệu chuẩn theo khối lượng cân thực tế (m) và giá trị hàm ẩm (H%) của cao quả cần tây theo công thức:

A = Athực tế 0,1500

m.(1−H) Trong đó, hàm ẩm của cao được xác định bằng phương pháp mất khối lượng do làm khô [1]

2.3.1.3 Phương pháp đánh giá hoạt tính ức chế XO in vitro và xác định IC 50

Mẫu thử: Các mẫu cao quả cần tây khác nhau đã được chiết xuất theo các bước

mô tả ở mục 2.3.1.1

Tác dụng ức chế xanthin oxidase được đánh giá trên đĩa UV 96 giếng Costar 3635 theo phương pháp của Noro T [64] và Nguyễn Thị Thanh Mai [61], với một số thay đổi cho phù hợp với điều kiện thí nghiệm Quy trình cụ thể như sau:

Chuẩn bị dung dịch thử: Cân chính xác khoảng 0,1000 g cao quả cần tây, hòa tan trong dung môi DMSO thu được dung dịch gốc có nồng độ 10000 µg/ml Pha loãng dung dịch gốc bằng dung dịch đệm phosphat 70 mM, pH=7,5 để thu được 6 dung dịch thử có nồng độ lần lượt là 3, 10, 30, 50, 100 và 300 µg/ml

Trên mỗi đĩa UV 96 giếng Costar 3635 gồm có: giếng chứng và các giếng thử Trong các giếng chứng/thử được cho tương ứng gồm: 50 µl dung dịch đệm/dung dịch thử; 35 µl dung dịch đệm phosphat 70 mM, pH=7,5; 30 µl dung dịch enzym (0,01U/ml trong dung dịch đệm phoshat 70 mM, pH=7,5) được chuẩn bị ngay trước khi sử dụng Sau khi ủ ở 25oC trong 15 phút, thêm 60 µl xanthin 150 µM, tiếp tục ủ ở 25oC trong 30 phút Ngừng phản ứng bằng cách cho thêm 25 µl HCl 1N, đo độ hấp thụ (A) ở bước sóng 290 nm Song song với mỗi mẫu chứng, mẫu thử có một mẫu trắng của chứng, mẫu trắng của thử được tiến hành tương tự nhưng thay đổi trình tự cho enzym vào giếng (enzym được cho vào sau HCl 1N) Thí nghiệm được lặp lại 3 lần cho mỗi nồng độ

Sơ đồ tóm tắt quy trình đánh giá hoạt tính ức chế XO in vitro được trình bày ở

hình 2.2

Trang 29

Hình 2.2 Sơ đồ quy trình đánh giá tác dụng ức chế XO của

cao quả cần tây Giá trị phần trăm ức chế (I%) của mẫu thử tại một nồng độ nhất định được tính

theo công thức:

I% = ∆𝐴𝑐ℎứ𝑛𝑔−∆𝐴𝑡ℎử

∆𝐴𝑐ℎứ𝑛𝑔 × 100%

Trong đó:

∆Achứng = Achứng - Atrắng chứng

∆Athử = Athử - Atrắng thử

A: độ hấp thụ ở bước sóng 290 nm

Nồng độ ức chế 50% hoạt độ xanthin oxidase (IC50) của mẫu thử được xác định dựa trên giá trị phần trăm ức chế (I%) tại các nồng độ khác nhau, sử dụng phương pháp hồi quy phi tuyến trên phần mềm Graphpad Prism 8.0

2.3.2 Xây dựng mô hình

2.3.2.1 Xử lý số liệu

Logarit hóa giá trị IC50 để thu được biến đáp ứng là logIC50

Từ dữ liệu độ hấp thụ tại từng bước sóng của 17 mẫu cao quả cần tây, sàng lọc các giá trị có ảnh hưởng lớn nhất đến logIC50 bằng phương pháp đánh giá tập thuộc tính

con (Wrapper Subset Evaluator) sử dụng phần mềm Weka 3.8 [38]

Giếng thử(dung dịch thử/đệm)

Trang 30

Ngoài ra, các giá trị độ hấp thụ đầu vào sau khi sàng lọc được kiểm tra mức độ tương quan chéo Nếu hệ số tương quan r2 > 0,9, các biến này sẽ được loại bỏ nhằm hạn chế hiện tượng đa cộng tuyến Hệ số tương quan chéo giữa các biến được xác định sử dụng phần mềm SPSS 22.0 [78]

2.3.2.2 Thiết kế tập huấn luyện và tập kiểm nghiệm

CSDL ban đầu được chia ngẫu nhiên sử dụng phần mềm SPSS 22.0 thành tập huấn luyện gồm 15 mẫu cao (88,2%) để xây dựng mô hình và tập kiểm nghiệm gồm 2 mẫu cao (11,8%) để đánh giá mô hình

2.3.2.3 Xây dựng mô hình

Các mô hình lần lượt được xây dựng bằng bốn phương pháp: Hồi quy tuyến tính

đa biến (Multiple linear regression - MLR), mạng neuron nhân tạo (Artificial neural network - ANN), vector hỗ trợ (Support vector regresion - SVR) và k láng giềng gần nhất (k-nearest neighbor - kNN), sử dụng phần mềm SPSS 22.0 và Weka 3.8

a Phương pháp hồi quy tuyến tính đa biến

Mô hình MLR là một thuật toán được sử dụng rộng rãi, trong đó mối quan hệ giữa biến đầu vào và biến đầu ra được mô tả bởi một hàm tuyến tính Mô hình MLR được

cho dưới dạng sau đây [8], [19]:

Y= 𝛽0 + 𝛽1x1 + 𝛽2x2 +…… + 𝛽m xm Trong đó, biến phụ thuộc Y là logIC50, các biến độc lập xi là độ hấp thụ tại các bước sóng lựa chọn, m là số lượng các giá trị độ hấp thụ mô tả cho một mẫu cao, 𝛽0 là

hệ số chặn (intercept) và các 𝛽i là độ dốc (slope)

Việc xác định mô hình tương đương việc xác định các hệ số 𝛽= [0,1,…m ] sao

cho mô hình có độ sai lệch là nhỏ nhất Độ sai lệch của mô hình khi tính toán dữ liệu

thứ i được cho như sau:

e i = Y i tính toán - Y i thực tế

Trong đó e i là độ sai lệch tại dữ liệu thứ i, Y i thực tế và Y i tính toán lần lượt là giá trị của biến ngẫu nhiên quan sát được (thu thập từ thực nghiệm) và giá trị của biến ngẫu nhiên được tính toán từ mô hình

Dễ thấy rằng e i =Y i tính toán - Y i thực tế có thể là một số âm Để đảm bảo có thể tìm sai số là nhỏ nhất, chúng ta có thể lấy giá trị tuyệt đối |𝑒𝑖|=|𝑌𝑖 𝑡í𝑛ℎ 𝑡𝑜á𝑛− 𝑌𝑖 𝑡ℎự𝑐 𝑡ế| Tuy

nhiên, cách này ít được sử dụng vì hàm trị tuyệt đối không khả vi tại mọi điểm, không

Trang 31

thuận tiện cho việc tối ưu sau này Do vậy, phương pháp bình phương tối thiểu (Least Square Method) được sử dụng để cực tiểu hóa sai số mô hình Mục tiêu của phương

pháp là tìm các hệ số 𝛽 sao cho tổng bình phương phần dư (Residual Sum of Squares –

RSS) là nhỏ nhất Giá trị này được tính toán như sau:

Trong đề tài này, mô hình MLR được xây dựng trên phần mềm SPSS phiên bản

22.0

b Phương pháp mạng neuron nhân tạo (Artificial neural network - ANN)

Mạng neuron nhân tạo ANN mô phỏng quá trình học tập và tính toán của bộ não

con người Một neuron nhân tạo gồm nhiều đầu vào (input) và một đầu ra (output) Mỗi

neuron nhân tạo mô phỏng một neuron sinh học, được đặc trưng bởi ngưỡng kích hoạt

(bius), hàm kích hoạt (activation function) và hàm truyền (transfer function) Cấu trúc

và quy trình xử lý thông tin của một neuron nhân tạo được trình bày ở hình 2.3 [19] Các neuron nhân tạo được liên kết với nhau bằng các kết nối, mỗi kết nối có trọng số kết nối

(weight), thể hiện cho khả năng nhớ của mạng neuron Quá trình huấn luyện của mạng neuron là quá trình điều chỉnh các ngưỡng kích hoạt (threshold) và các trọng số kết nối

dựa trên dữ liệu học [8], [19]

Hình 2.3 Cấu trúc và quy trình học của một neuron nhân tạo (ANN)

𝛽

Trang 32

Trong nghiên cứu này, hàm kích hoạt được lựa chọn là hàm sigmoid Quá trình huấn luyện mạng dựa trên sai số giữa giá trị dự đoán và giá trị quan sát được của biến phụ thuộc Căn cứ vào sự chênh lệch này, phương pháp sẽ điều chỉnh các trọng số của mạng neuron nhằm cực tiểu hóa sai số trên các mẫu huấn luyện Sau khi mạng được huấn luyện thành công, các thông tin tích lũy được trong quá trình huấn luyện mạng (các

ma trận trọng số, các tham số tự do…) sẽ được sử dụng để dự đoán

Nghiên cứu đã khảo sát các thông số quan trọng bao gồm: Số neuron trong lớp ẩn

(hidden layers), tốc độ học (learning rate) và momentum Vai trò cụ thể của các thông

số như sau:

 Momentum: Mục tiêu của ANN là tìm ra các trọng số kết nối để giá trị sai số đạt giá trị nhỏ nhất Để làm được điều này, ANN giải phương trình đạo hàm của hàm sai số theo các giá trị trọng số cho bằng 0 Tuy nhiên, nghiệm của phương trình này có thể là các điểm cực đại hoặc cực tiểu chứ chưa phải giá trị nhỏ nhất, thông số momentum phù hợp sẽ đảm bảo sai số rơi đúng điểm đạt giá trị nhỏ nhất [8]

Hình 2.4 Vai trò của momentum trong mạng neuron nhân tạo

Cụ thể, giả sử sai số đạt giá trị nhỏ nhất khi nghiệm tại điểm C (điểm global minimum) (hình 2.4) Momentum đóng vai trò như “lực đà”, một giá trị phù hợp của momentum giúp nghiệm không dừng lại ở vị trí A (một điểm cực tiểu local minimum)

mà có thể vượt qua được đỉnh B để đến được điểm cực tiểu C; mặt khác, cũng không vượt qua được đỉnh D mà trở về điểm cực tiểu C mong muốn

 Tốc độ học (learning rate): Việc lựa chọn thông số này rất quan trọng, nó ảnh

hưởng đến tốc độ thực hiện thuật toán và khả năng tìm điểm cực tiểu của ANN Nếu tốc

độ học quá bé, tốc độ tìm ra điểm cực tiểu rất chậm, thậm chí trong một số trường hợp khi số vòng lặp không đủ lớn so với tốc độ học, nhiều khả năng sẽ không tìm được điểm

Trang 33

cực tiểu (điểm C) (hình 2.5) Mặt khác, nếu tốc độ học quá lớn, thuật toán tiến rất nhanh tới “gần đích” chỉ sau vài vòng lặp, tuy nhiên thuật toán sẽ không hội tụ được vì sự thay đổi vị trí của nghiệm sau mỗi vòng lặp quá lớn, khiến nó cứ “quẩn quanh” ở đích mà không tới được đích [8]

Hình 2.5 Vai trò của tốc độ học trong mạng neuron nhân tạo

 Số neuron trong lớp ẩn (hidden layers): Nếu thông số này quá nhỏ, mạng ít có

sự tư duy mà chỉ đơn giản là ghi nhớ dữ liệu Ngược lại nếu thông số này quá lớn, khả

năng dự đoán của mô hình giảm đi rõ rệt [8], [23]

Trên thực tế không có một giá trị tối ưu được cố định nào cho cả 3 thông số trên Mỗi một bài toán, các thông số lại có những giá trị tối ưu khác nhau Thông thường việc xác định các giá trị tối ưu này đều qua việc thử và khảo sát Nghiên cứu này đã lựa chọn khoảng khảo sát cho từng thông số như sau: số neuron trong lớp ẩn (trên khoảng 1 - 7), tốc độ học (trên khoảng 0,2 - 0,8) và momentum (trên khoảng 0,2 - 0,8) [23]

c Phương pháp vector hỗ trợ (Support vector regresion - SVR)

Nhằm giải quyết bài toán hồi quy, lý thuyết cơ bản của SVR có thể tóm tắt như sau: Cho một tập dữ liệu huấn luyện {(X1,Y1),…(Xn,Yn)}, trong đó X = [x1, x2,…,xm] là các tham số đầu vào, Y là giá trị biến đầu ra Mục tiêu của phương pháp là tìm một hàm

Y = f(x) phẳng nhất có thể sao cho sai số giữa giá trị Yi dự đoán bởi mô hình và giá trị quan sát được không lớn hơn giá trị ε cho trước, hàm f(x) có dạng [8]:

f(x) = wT Φ(x) + b Trong đó, w ⊂ Rn, Φ(x) biểu thị có một hàm phi tuyến được chuyển từ không gian

Rn vào không gian nhiều chiều Mục đích ở đây là cần tìm w và b để giá trị dự đoán gần giá trị thực tế trên tập huấn luyện nhất, sai số này được quy định bằng điều kiện của hệ

số chặn ε

Trang 34

Trong nghiên cứu này, một số thông số quan trọng ảnh hưởng đến chất lượng mô hình được khảo sát, bao gồm:

 Hằng số C: Hằng số cân bằng của biên độ lỗi giữa độ phẳng của mô hình và lượng sai lệch vượt quá ε được chấp nhận Nếu C quá nhỏ thì mô hình sẽ không phù hợp với dữ liệu đã xây dựng, nhưng nếu C quá lớn thì mô hình quá khớp với dữ liệu Do vậy,

sẽ không có khả năng dự đoán Tuy nhiên, Wang và các cộng sự [83] trong một nghiên cứu đã chỉ ra rằng sai số dự đoán hiếm khi bị ảnh hưởng bởi C Mặt khác, để giúp cho quá trình xây dựng mô hình được ổn định đòi hỏi một giá trị tương đối lớn cho C [23]

 Sai số ε: Là hệ số chặn, là điều kiện biên của tập huấn luyện Nói cách khác sai số giữa Yi dự đoán bởi mô hình và giá trị quan sát được không lớn hơn giá trị ε này Giá trị tối ưu của ε phụ thuộc vào nhiễu trong tập huấn luyện và thường khó xác định [23]

 Hệ số γ của hàm kernel: Ảnh hưởng lớn đến số lượng vectơ hỗ trợ, thông số này có mối quan hệ chặt chẽ với chất lượng của mô hình SVR và thời gian huấn

luyện Khi quá nhiều vectơ hỗ trợ có thể gây ra hiện tượng “học” quá mức cũng như kéo

dài thời gian xây dựng mô hình; do đó, ảnh hưởng khả năng dự đoán của SVR [23] Trong đề tài này, các thông số được khảo sát và lựa chọn ra các giá trị tối ưu: hằng

số cân bằng C (trong khoảng từ 1 đến 500), sai số ε (trong khoảng từ 0,0001 đến 0,1),

hệ số γ (trong khoảng từ 0 đến 5) [23]

d Phương pháp k láng giềng gần nhất (k-nearest neighbor - kNN)

Phương pháp kNN dựa trên nguyên tắc các mẫu cao quả cần tây có phổ hấp thụ

gần giống nhau sẽ có giá trị logIC50 tương tự nhau Trên cơ sở đó, phương pháp này sẽ

tính khoảng cách từ mẫu thử đến các mẫu còn lại, từ đó lựa chọn ra k mẫu gần nhất

Biến đầu ra của mẫu thử sẽ được xác định là trung bình cộng các giá trị yi của k mẫu gần nhất đó [8] Cụ thể mô hình kNN thực hiện trải qua 5 bước:

Bước 1: Xác định tham số k = số láng giềng gần nhất

Bước 2: Tính toán khoảng cách giữa mẫu thử và những mẫu xây dựng mô hình

Có nhiều cách tính khoảng các giữa 2 mẫu dịch chiết a và b, thông dụng nhất là khoảng cách Euclidean, được xác định theo biểu thức dưới đây:

d(xa,xb) = √∑n (xaj− xbj)2

j=0Trong đó xa và xb là 2 mẫu độc lập, n là số biến đầu vào mô tả cho các mẫu

Ngày đăng: 07/01/2021, 09:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm