1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHÂN cụm dữ LIỆU và LUẬT kết hợp ỨNG DỤNG TRONG PHÂN TÍCH dữ LIỆU CÔNG THỨC dược PHẨM

134 130 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 134
Dung lượng 14,21 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

3 1.4 Đề tài nghiên cứu “Phân cụm dữ liệu và luật kết hợp ứng dụng trong phân tích công thức dữ liệu dược phẩm” ..... Kỹ thuật thông minh cho phương pháp xử lí mối quan hệ phi tuyến phức

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Mã số: 60.48.01.01

TP HỒ CHÍ MINH – NĂM 2017

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS TS ĐỖ QUANG DƯƠNG

TP HỒ CHÍ MINH – NĂM 2017

Trang 3

Tôi xin cam đoan luận văn thạc sĩ này là công trình nghiên cứu của riêng tôi Các

số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Riêng phần lý thuyết và phần dữ liệu thực nghiệm, tôi có tham khảo từ các công trình khác và tôi có liệt kê trong phần trích dẫn và phần tài liệu tham khảo của luận văn này

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc

Thành phố Hồ Chí Minh, ngày 20 tháng 03 năm 2017

Học viên thực hiện luận văn

Hà Siu

Trang 4

Trước tiên, tôi xin chân thành cảm ơn PGS TS Đỗ Quang Dương đã tận tình hướng dẫn khoa học, giúp đỡ tôi về tài liệu nghiên cứu, dữ liệu thực nghiệm, đọc và chỉnh sửa bản thảo luận văn và các đóng góp khoa học quan trọng để tôi có thể hoàn thành luận văn tốt nghiệp này

Tôi cũng xin gửi lời cảm ơn tới các thầy, cô giáo Trường Đại học Công nghệ Thông tin (Đại học Quốc gia Thành phố Hồ Chí Minh) đã dạy dỗ và truyền đạt kiến thức cho tôi trong suốt quá trình học tập và nghiên cứu của mình

Tôi xin gửi lời cảm ơn chân thành đến ThS Nguyễn Thành Tân, một người bạn, một người đồng nghiệp đã có những góp ý chân thành và hữu ích, người đã giúp đỡ tôi rất nhiều về tài liệu nghiên cứu có liên quan đến lĩnh vực Dược phẩm

Tôi cũng xin gửi lời cảm ơn đến gia đình đã động viên và khích lệ tôi trong suốt thời gian học tập và nghiên cứu vừa qua

Cuối cùng, tôi xin chân thành cảm ơn quý thầy cô đồng nghiệp Trường Đại học

Y Dược Thành phố Hồ Chí Minh đã tạo điều kiện cho tôi sắp xếp thời gian đi học

và gánh vác một phần công việc thay tôi trong bộ môn

Thành phố Hồ Chí Minh, ngày 20 tháng 03 năm 2017

Hà Siu

Trang 5

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ix

DANH MỤC CÁC BẢNG x

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ xii

Chương 1: MỞ ĐẦU 1

1.1 Giới thiệu bài toán phân tích công thức dữ liệu dược phẩm 1

1.2 Các thách thức của bài toán phân tích công thức dữ liệu dược phẩm 2

1.3 Tình hình nghiên cứu 2

1.3.1 Tình hình nghiên cứu ngoài nước 2

1.3.2 Tình hình nghiên cứu trong nước 3

1.4 Đề tài nghiên cứu “Phân cụm dữ liệu và luật kết hợp ứng dụng trong phân tích công thức dữ liệu dược phẩm” 5

1.4.1 Lý do lựa chọn đề tài 5

1.4.2 Mục tiêu của đề tài 5

1.5 Đối tượng và phạm vi nghiên cứu 5

1.5.1 Bài toán phân cụm dữ liệu 6

1.5.2 Bài toán rút luật kết hợp 6

1.5.3 So sánh điểm mạnh và điểm yếu của các phương pháp 7

1.6 Nội dung luận văn 7

1.7 Ý nghĩa khoa học và thực tiễn của đề tài 8

1.8 Kết luận chương 1 9

Chương 2: TỔNG QUAN VỀ CÔNG THỨC DƯỢC PHẨM 10

2.1 Tổng quan về công thức dược phẩm 10

2.1.1 Thuốc 11

2.1.2 Ngành công nghiệp dược phẩm 12

2.1.3 Phát minh thuốc 12

2.1.4 Phát triển thuốc 12

2.1.5 Thiết lập công thức dược phẩm 13

2.1.6 Bào chế học 15

2.1.7 Tối ưu hóa 16

2.1.7.1 Vấn đề tối ưu hóa trong thực tiễn 16

Trang 6

2.1.7.3 Phương pháp tối ưu hóa truyền thống 22

2.1.7.4 Phương pháp tối ưu hóa thông minh 27

2.2 Trí tuệ nhân tạo 30

2.3 Ứng dụng trí tuệ nhân tạo trong nghiên cứu phát triển dược phẩm 31

2.3.1 Liên quan nhân-quả 31

2.3.2 Lập mô hình thực nghiệm 31

2.3.3 Phân tích liên quan 32

2.3.4 Ứng dụng của máy tính 33

2.3.4.1 Phân cụm dữ liệu 33

2.3.4.2 Luật kết hợp 34

2.4 Kết luận chương 2 34

Chương 3: TỔNG QUAN CƠ SỞ LÝ THUYẾT 35

3.1 Phân cụm dữ liệu 35

3.1.1 Khái niệm 35

3.1.2 Độ đo khoảng cách 36

3.1.2.1 Khoảng cách Minkowski 36

3.1.2.2 Khoảng cách Manhattan 36

3.1.2.3 Khoảng cách Euclide 37

3.1.2.4 Tính chất của độ đo khoảng cách 37

3.1.3 Các phương pháp phân cụm dữ liệu 37

3.1.4 Thuật toán k-means 38

3.1.4.1 Xác định bài toán 39

3.1.4.2 Giải thuật k-means 40

3.1.4.3 Ưu điểm của thuật toán k-means 41

3.1.4.4 Nhược điểm của thuật toán k-means 41

3.2 Logic mờ 41

3.2.1 Khái niệm 41

3.2.2 Các dạng hàm thành viên (Membership Function) thường gặp 42

3.2.2.1 Hàm Triangular 42

3.2.2.2 Hàm Trapezoid 43

Trang 7

3.2.2.4 Hàm Bell 44

3.2.2.5 Hàm Sigmoid 45

3.2.2.6 Hàm Left-Right 45

3.2.3 Các hệ thống suy diễn mờ (Fuzzy Inference Systems) 46

3.2.3.1 Mô hình Mamdani 46

3.2.3.2 Mô hình Sugeno (mô hình TSK) 49

3.2.3.3 Mô hình Tsukamoto 50

3.2.4 Ưu điểm 51

3.2.5 Hạn chế 51

3.3 Luật kết hợp 51

3.3.1 Định nghĩa 51

3.3.2 Ý nghĩa của luật kết hợp 52

3.3.3 Một số tính chất 53

3.3.4 Phân loại luật kết hợp 53

3.3.4.1 Luật kết hợp nhị phân (Boolean association rule) 53

3.3.4.2 Luật kết hợp định lượng và hạng mục (quantitative and categorical association rule) 53

3.3.4.3 Luật kết hợp theo hướng tập thô (mining association rule based on rough set) 54

3.3.4.4 Luật kết hợp đa mức (multi-level association rule) 54

3.3.4.5 Luật kết hợp mờ (fuzzy association rule) 54

3.3.4.6 Luật kết hợp có trọng số (association rule with weighted items) 54

3.3.4.7 Luật kết hợp song song (parallel mining of association rule) 54

3.4 Thuật toán Apriori khai phá luật kết hợp 54

3.4.1 Giới thiệu 54

3.4.2 Thuật toán Apriori 55

3.4.3 Sơ đồ thuật giải 56

3.5 Giới thiệu các công cụ phần mềm 56

3.5.1 Phần mềm mã nguồn mở Weka 56

3.5.1.1 Giới thiệu 56

3.5.1.2 Các chức năng chính 56

Trang 8

3.5.2 Phần mềm chuyên nghiệp dành cho ngành Dược FormRules 57

3.5.2.1 Giới thiệu 57

3.5.2.2 Các chức năng chính 58

3.5.2.3 Giao diện 58

3.6 Kết luận chương 3 59

Chương 4: CHƯƠNG TRÌNH ỨNG DỤNG 60

4.1 Giới thiệu chương trình ứng dụng 60

4.1.1 Hệ thống 60

4.1.2 Cấu trúc chương trình 60

4.1.2.1 Module 1: Dữ liệu 61

4.1.2.2 Module 2: Phân cụm dữ liệu với thuật toán k-means 61

4.1.2.3 Module 3: Sinh luật kết hợp với thuật toán C4.5 62

4.1.2.4 Module 4: Sinh luật kết hợp với thuật toán Apriori 63

4.2 Kiến trúc của chương trình ứng dụng 64

4.3 Kết quả cần đạt được 65

4.4 Bài toán “Phân cụm dữ liệu và luật kết hợp ứng dụng trong phân tích dữ liệu công thức dược phẩm” 65

4.4.1 Đặt vấn đề 65

4.4.2 Mô tả bài toán 66

4.4.3 Ứng dụng hệ điều khiển mờ 66

4.4.4 Minh họa với dữ liệu thực nghiệm công thức viên nén matrix 67

4.4.5 Thử nghiệm và đánh giá phần mềm bằng dữ liệu thực nghiệm ở quy mô phòng thí nghiệm và so sánh với phần mềm hiện có 71

4.5 Kết luận chương 4 72

Chương 5: KẾT QUẢ VÀ BÀN LUẬN 73

5.1 Công thức dữ liệu: Công thức viên nén matrix 73

5.2 Thống kê 73

5.3 Kết quả phân cụm dữ liệu 74

5.3.1 Kết quả phân cụm dữ liệu bằng phần mềm Weka 74

5.3.2 Kết quả phân cụm dữ liệu bằng phần mềm ứng dụng 74

5.3.2.1 Phân cụm dữ liệu đối với biến phụ thuộc y 74

Trang 9

5.3.2.3 Phân cụm dữ liệu đối với biến phụ thuộc y3 75

5.4 Kết quả rút luật kết hợp 76

5.4.1 Kết quả rút luật kết hợp bằng phần mềm Weka 76

5.4.2 Kết quả rút luật kết hợp bằng phần mềm FormRules 77

5.4.2.1 Rút luật kết hợp đối với biến phụ thuộc y1 77

5.4.2.2 Rút luật kết hợp đối với biến phụ thuộc y2 79

5.4.2.3 Rút luật kết hợp đối với biến phụ thuộc y3 80

5.4.3 Kết quả rút luật kết hợp bằng phần mềm ứng dụng với thuật toán Apriori kết hợp với logic mờ 82

5.4.3.1 Rút luật kết hợp đối với biến phụ thuộc y1 82

5.4.3.2 Rút luật kết hợp đối với biến phụ thuộc y2 82

5.4.3.3 Rút luật kết hợp đối với biến phụ thuộc y3 83

5.4.4 Kết quả rút luật kết hợp bằng phần mềm ứng dụng kết hợp giữa phân cụm dữ liệu, logic mờ và thuật toán cây quyết định C4.5 84

5.4.4.1 Rút luật kết hợp đối với biến phụ thuộc y1 84

5.4.4.2 Rút luật kết hợp đối với biến phụ thuộc y2 84

5.5 Phân tích mối quan hệ nhân-quả 85

5.5.1 Ảnh hưởng của x1 và x2 lên biến phụ thuộc y1 85

5.5.2 Ảnh hưởng của x2 và x3 lên biến phụ thuộc y2 85

5.5.3 Ảnh hưởng của x2 và x3 lên biến phụ thuộc y3 85

5.6 Kết luận chương 5 86

Chương 6: KẾT LUẬN VÀ KHUYẾN NGHỊ 87

6.1 Nhận xét và kết luận 87

6.1.1 Nhận xét 1: Về thuật toán cài đặt 87

6.1.2 Nhận xét 2: Về tính hiệu quả của phần mềm 88

6.2 Đánh giá 88

6.3 Những tồn tại cần giải quyết 88

6.4 Hướng phát triển 88

6.5 Kết luận chương 6 89

TÀI LIỆU THAM KHẢO 90

PHỤ LỤC 1 93

Trang 10

B Kết quả 94

C Nhận xét 97

PHỤ LỤC 2 98

A Công thức dữ liệu số 3: Cỡ hạt trong nhũ tương nano 98

B Kết quả 100

C Nhận xét 101

PHỤ LỤC 3 102

A Công thức dữ liệu số 4: Viên nang acyclovir tác dụng kéo dài 102

B Kết quả 103

C Nhận xét 105

PHỤ LỤC 4 106

A Công thức dữ liệu số 5: Công thức kem Placebo 106

B Kết quả 107

C Nhận xét 108

PHỤ LỤC 5 109

A Công thức dữ liệu số 6: Công thức kem Vitamin E – Nghệ 109

B Kết quả 110

C Nhận xét 112

PHỤ LỤC 6 113

A Công thức dữ liệu số 7: Viên nén rã nhanh chứa Loratadin 10 mg 113

B Kết quả 114

C Nhận xét 114

PHỤ LỤC 7 115

A Công thức dữ liệu số 8: Viên Salbutamol 4 mg phóng thích kéo dài 115

B Kết quả 116

C Nhận xét 118

Trang 11

Ký hiệu viết tắt Từ nguyên gốc

ANGNES Anglomerative nesting

BIRCH Balanced iterative reducing clustering using hierarchies CLARA Clustering large applications

CLARANS Clustering large applications based on randomized search CLIQUE Clustering in quest

CURE Clustering using representatives

DBSCAN Density-based spatial clustering of application with noise DENCLUDE Density-based clustering

DIANA Divisive analysis clustering

EM Expectation–maximization

FCMP Fuzzy C-mixed prototype

OPTICS Ordering points to identify the clustering structure

PAM Partitioning around medoids

ROCK Robust clustering using links

STING Statistical information grid-based method

Trang 12

Bảng 2.1: Quá trình phát triển sản phẩm và quy trình 13

Bảng 2.2: Công nghệ thông minh cho nghiên cứu và phát triển R&D 28

Bảng 2.3: So sánh trí tuệ con người với trí tuệ nhân tạo 31

Bảng 4.1: Dữ liệu thực nghiệm của viên nén matrix 67

Bảng 4.2: Dữ liệu thực nghiệm công thức dược phẩm được sử dụng để đánh giá phần mềm 71

Bảng 5.1: Kết quả thống kê các thông số của các biến độc lập x và các biến phụ thuộc y 73

Bảng 5.2: Kết quả phân cụm dữ liệu bằng phần mềm Weka 74

Bảng 5.3: Phân cụm dữ liệu đối với biến phụ thuộc y1 74

Bảng 5.4: Phân cụm dữ liệu đối với biến phụ thuộc y2 75

Bảng 5.5: Phân cụm dữ liệu đối với biến phụ thuộc y3 75

Bảng 5.6: Kết quả rút luật kết hợp bằng phần mềm Weka 76

Bảng 5.7: Ảnh hưởng của x1 và x2 lên biến phụ thuộc y1 85

Bảng 5.8: Ảnh hưởng của x2 và x3 lên biến phụ thuộc y2 85

Bảng 5.9: Ảnh hưởng của x2 và x3 lên biến phụ thuộc y3 85

Bảng phụ lục 1.1: Dữ liệu thực nghiệm của công thức Diclofenac sodium microspheres 93

Bảng phụ lục 1.2: Kết quả rút luật kết hợp 94

Bảng phụ lục 2.1: Dữ liệu thực nghiệm của cỡ hạt trong nhũ tương nano 98

Bảng phụ lục 2.2: Kết quả rút luật kết hợp 100

Bảng phụ lục 3.1: Dữ liệu thực nghiệm của công thức Acyclovir 102

Bảng phụ lục 3.2: Kết quả rút luật kết hợp 103

Bảng phụ lục 4.1: Dữ liệu thực nghiệm của kem Placebo 106

Bảng phụ lục 4.2: Kết quả rút luật kết hợp 107

Bảng phụ lục 5.1: Dữ liệu thực nghiệm của kem Vitamin E - Nghệ 109

Bảng phụ lục 5.2: Kết quả rút luật kết hợp 110

Bảng phụ lục 6.1: Dữ liệu thực nghiệm của viên Loratadin 113

Bảng phụ lục 6.2: Kết quả rút luật kết hợp 114

Trang 13

Bảng phụ lục 7.2: Kết quả rút luật kết hợp 116

Trang 14

Hình 2.1: Minh họa đồ thị biểu diễn độ hấp thu tối đa 16

Hình 2.2: Minh họa đồ thị biểu diễn CV hàm lượng tối thiểu 17

Hình 2.3: Phương pháp bề mặt đáp ứng 24

Hình 2.4: Phương pháp thay biến 25

Hình 2.5: Phương pháp dốc nhất 26

Hình 2.6: Phương pháp đơn hình 27

Hình 2.7: Phần mềm thông minh trong nghiên cứu – phát triển thuốc 27

Hình 2.8: Phần mềm thiết kế Design-Expert 6.0.6 Stat-Ease Inc., Minneapolis (2002) 28

Hình 2.9: Phần mềm thiết kế FormData v2 Intelligensys Ltd., UK (2003) 28

Hình 2.10: Phần mềm FormRules 29

Hình 2.11: Nghiên cứu liên quan giữa nhân và quả 29

Hình 2.12: Phần mềm INForm 30

Hình 2.13: Tối ưu hóa và dự đoán 30

Hình 3.1: Lưu đồ thuật toán k-means 40

Hình 3.2: Giải thuật k-means 40

Hình 3.3: Minh họa khái niệm logic cổ điển (a) và logic mờ (b) 42

Hình 3.4: Minh họa quá trình xử lí của logic mờ 42

Hình 3.5: Hàm Triangular 43

Hình 3.6: Hàm Trapezoid 44

Hình 3.7: Hàm Gaussian 44

Hình 3.8: Hàm Bell 44

Hình 3.9: Hàm Sigmoid 45

Hình 3.10: Hàm Left-Right 45

Hình 3.11: Minh họa quá trình xử lí các luật 46

Hình 3.12: Quá trình làm mờ trong mô hình Mamdani 47

Hình 3.13: Minh họa Centroid of area (trong đó BO = OC) 47

Hình 3.14: Minh họa Bisector of area (trong đó SA1 = SA2) 48

Hình 3.15: Minh họa Mean of maximum (trong đó BO = OC) 48

Trang 15

Hình 3.17: Minh họa Largest of maximum 48

Hình 3.18: Quá trình làm mờ trong mô hình Sugeno 49

Hình 3.19: Quá trình làm mờ trong mô hình Tsukamono 50

Hình 3.20: Giải thuật Apriori 55

Hình 3.21: Sơ đồ thuật giải Apriori 56

Hình 3.22: Giao diện khởi đầu của Weka 57

Hình 3.23: Giao diện khởi đầu của FormRules 58

Hình 4.1: Giao diện module 1 – Dữ liệu 61

Hình 4.2: Giao diện module 2 – Phân cụm dữ liệu với thuật toán k-means 62

Hình 4.3: Giao diện module 3 – Sinh luật kết hợp với thuật toán C4.5 63

Hình 4.4: Giao diện module 4 – Sinh luật kết hợp với thuật toán Apriori 64

Hình 4.5: Kiến trúc chương trình minh họa quá trình giải quyết bài toán rút luật kết hợp và tối ưu hóa trong phân tích công thức dược phẩm 64

Hình 5.1: Mô hình nhân-quả giữa biến độc lập x1, x2 với biến phụ thuộc y1 78

Hình 5.2: Đồ thị nhân-quả ba chiều giữa biến độc lập x1, x2 với biến phụ thuộc y1 78 Hình 5.3: Mô hình nhân-quả giữa biến độc lập x2, x3 với biến phụ thuộc y2 79

Hình 5.4: Đồ thị nhân-quả ba chiều giữa biến độc lập x2, x3 với biến phụ thuộc y2 80 Hình 5.5: Mô hình nhân-quả giữa biến độc lập x2, x3 với biến phụ thuộc y3 81 Hình 5.6: Đồ thị nhân-quả ba chiều giữa biến độc lập x2, x3 với biến phụ thuộc y3 81

Trang 16

Chương 1: MỞ ĐẦU

Trong chương này sẽ trình bày các nội dung sau:

- Giới thiệu bài toán phân tích công thức dữ liệu dược phẩm

- Các thách thức của bài toán

- Tình hình nghiên cứu trong và ngoài nước

- Giới thiệu đề tài nghiên cứu trong luận văn này

- Đối tượng và phạm vi nghiên cứu của đề tài

- Giới thiệu khái quát nội dung luận văn

- Ý nghĩa khoa học và thực tiễn của đề tài

- Kết luận chương

1.1 Giới thiệu bài toán phân tích công thức dữ liệu dược phẩm

Quá trình thành lập công thức dược phẩm là quá trình bắt đầu bằng một vài thành phần ban đầu đã được biết trước và kết thúc bằng một hoặc vài công thức dược phẩm thỏa mãn yêu cầu đặt ra ban đầu Công thức dược phẩm bao gồm một dãy các mối quan hệ với nhau như thành phần, liều lượng, tỉ trọng và kinh nghiệm của người bào chế giữa các chất, do đó kết quả có thể tạo ra công thức dược phẩm chứa đựng những mâu thuẫn trong công thức được thiết lập Do đó rất cần kiểm tra và phân tích lại mối quan hệ giữa các thành phần đó trong công thức dược phẩm

Mặc dù mạng nơron ra đời vào những năm 1940 nhưng mãi đến những năm 1990 mới xuất hiện trong các bài báo khoa học nghiên cứu ứng dụng trong lĩnh vực công thức dược phẩm

Các kỹ thuật khai phá dữ liệu ứng dụng trong lĩnh vực công thức dược phẩm tập trung chủ yếu vào mạng nơron Kỹ thuật mạng nơron có những ưu điểm và là một

sự kết hợp tốt với các phương pháp thống kê cổ điển nhằm phân tích các mô hình công thức dữ liệu dược phẩm khác nhau Kỹ thuật thông minh cho phương pháp xử

lí mối quan hệ phi tuyến phức tạp liên quan đến các điều kiện, các thành phần, các phản ứng và thuộc tính dược phẩm trong phân tích công thức dược phẩm và kết hợp linh hoạt với các phương pháp thống kê cổ điển

Trang 17

1.2 Các thách thức của bài toán phân tích công thức dữ liệu dược phẩm

Đầu tiên phải kể đến thành công của việc ứng dụng hệ chuyên gia trong phân tích công thức dược phẩm Tuy nhiên hệ chuyên gia chỉ thật sự hoạt động tốt khi được cung cấp các tri thức đúng đắn và biết trước Trên thực tế, không phải tri thức nào cũng được biết trước và có sẵn, tình trạng này gọi là trạng thái “thắt cổ chai”

Khó khăn sẽ lớn hơn nếu chúng ta không biết toàn bộ các tri thức hoặc một phần của tri thức mà chỉ được cung cấp một tập hợp các bản ghi (record) Dựa vào các bản ghi này, chúng ta cần rút ra các luật mà các thuộc tính có liên quan với nhau Trường hợp này thường xảy ra đối với các dược phẩm mới, thông thường chứa các công thức mới

Độ phức tạp và cơ sở dữ liệu lớn làm cho nhiệm vụ phân tích công thức thêm khó khăn Nhiệm vụ của chúng ta là cần tìm ra các tri thức ẩn dưới các lớp dữ liệu Trường hợp này chúng ta hay gọi là “giàu dữ liệu nhưng nghèo tri thức” (“data rich but knowledge poor”)

Về nguyên tắc, khai phá dữ liệu có thể dùng mô hình và luật Chúng ta có thể xây dựng mô hình khai phá dữ liệu dựa trên tập số liệu thực nghiệm và từ đó tiên đoán công thức mới Tuy nhiên nếu sử dụng mô hình tiên đoán sẽ gặp khó khăn nếu thay đổi thành phần và điều kiện cho trước của bài toán

1.3 Tình hình nghiên cứu

1.3.1 Tình hình nghiên cứu ngoài nước

Đa số các công trình có liên quan đến phân tích công thức dược phẩm được viết dưới dạng luận văn thạc sĩ và luận án tiến sĩ Các công trình này tập trung chủ yếu trong phân tích các công thức dược phẩm ở dạng đường uống và một số ít là các dược phẩm dùng ngoài da Cụ thể các công trình đó nghiên cứu về:

- Công thức viên nén phóng thích có kiểm soát

- Công thức viên nén phóng thích tức thời

- Công thức dược phẩm dạng bột

- Công thức dược phẩm dùng ngoài da

- Lớp phủ bao phim của dược phẩm

Các công trình sử dụng chủ yếu là thuật giải di truyền kết hợp mạng nơron và logic mờ giúp tiên đoán các pha, các trạng thái, các điều kiện và tối ưu các thuộc

Trang 18

tính của dược phẩm [13], [21], [22], [23], [24] Các công trình về công thức dược phẩm vẫn còn ít ỏi và khá mới mẻ, nhóm tác giả Q Shao, R C Rowe, P York là một trong những nhóm tác giả tiên phong và đi đầu trong việc nghiên cứu các kỹ thuật khai phá dữ liệu ứng dụng trong phân tích công thức dược phẩm

Các nghiên cứu trên thế giới:

- Luận án tiến sĩ của Qun Shao (2004), Đánh giá các kỹ thuật mạng nơron, hệ

thống suy diễn mờ có bổ sung chức năng học của mạng nơron, cây quyết định và cây mô hình trong việc khai phá dữ liệu công thức dược phẩm, Khoa Dược, Đại học

Bradford

- Q Shao, R C Rowe và P York (2006), So sánh Nơron mờ (Neuro Fuzzy) và

mạng nơron trong mô hình hóa công thức sản xuất thuốc viên từ dữ liệu thực nghiệm

- Elizabeth A Colbourn, Raymond C Rowe (2006), Khai phá dữ liệu trong quy

trình sản xuất và công thức thuốc

- Hiện tại khuynh hướng sử dụng trí tuệ nhân tạo trong các xí nghiệp dược lớn trên thế giới đang tăng lên, việc nghiên cứu ứng dụng tại các xí nghiệp này cho thấy trí tuệ nhân tạo kết hợp với thống kê cho kết quả tốt hơn là chỉ áp dụng thống kê đơn thuần [20], [21]

- Hiện tại các công ty Dược ở nước ngoài (Anh, Mỹ) áp dụng khai phá dữ liệu trong phân tích dữ liệu công thức thuốc

1.3.2 Tình hình nghiên cứu trong nước

Tại Việt Nam, Đại học Y Dược Thành phố Hồ Chí Minh là trường đại học đi đầu trong việc nghiên cứu các ứng dụng công nghệ thông tin trong ngành Dược Đại học

Y Dược Thành phố Hồ Chí Minh đã công bố nhiều bài báo khoa học trong nước và quốc tế về các ứng dụng cụ thể của công nghệ thông tin trong ngành Dược Đặc biệt nhóm nghiên cứu của PGS.TS Đỗ Quang Dương là một trong những nhóm đầu tiên nghiên cứu về phân tích công thức dược phẩm tại Việt Nam Hiện nay, nhóm tập trung vào việc nghiên cứu mối quan hệ nhân quả của các công thức dược phẩm [1], [3], [5] từ đó so sánh, đánh giá các kỹ thuật ứng dụng khác nhau cho công thức dược phẩm [2], [6] sau đó tối ưu hóa cho từng giai đoạn của quá trình phân tích công thức dược phẩm [4], [7], [12], [13], [17], [18] Tình hình nghiên cứu công

Trang 19

nghệ thông tin trong nước trong lĩnh vực dược phẩm nói chung và phân tích công thức dược phẩm nói riêng là rất mới mẻ và mang nhiều thách thức rất lớn

Các nghiên cứu ở Việt Nam:

- Từ năm 2002, GS TSKH Hoàng Kiếm đã đề nghị ứng dụng triển khai khai phá

dữ liệu tại Đại học Y Dược, Thành phố Hồ Chí Minh

- Hoàng Kiếm, Lê Hoài Bắc, Đỗ Quang Dương, Ứng dụng mạng nơron, logic mờ

và thuật toán di truyền giải quyết bài toán tối ưu hóa công thức và quy trình sản xuất dược phẩm, Tạp chí Phát triển khoa học công nghệ, Đại học Quốc gia Thành

phố Hồ Chí Minh, Tập 6, 5 & 6/2003, 5 – 12

- Các nghiên cứu ứng dụng FormRules cho nghiên cứu và phát triển thuốc tại Khoa Dược – Đại Học Y Dược Thành phố Hồ Chí Minh

- Hoàng Kiếm, Lê Hoài Bắc, Đỗ Quang Dương (2003), Kết hợp các kỹ thuật trí

tuệ nhân tạo (AI Technics) tối ưu công thức dược phẩm, Hội nghị thế giới lần thứ 7

về cơ thể học, người máy và công nghệ thông tin

- Phan Ngọc Nhiên Thảo, Chung Khang Kiệt, Đỗ Quang Dương, Đặng Văn Giáp

(2014), Nghiên cứu quá trình tối ưu hóa công thức bào chế bằng phần mềm thông

minh Phasolpro IO, Tạp chí Y học Thành phố Hồ Chí Minh, Tập 18 Số 2, 32 – 37

- Nguyễn Thành Phát, Trần Văn Thành, Chung Khang Kiệt, Đỗ Quang Dương

(2015), Thiết kế và tối ưu hóa công thức viên nén chứa GLICLAZID 80 mg cải thiện

độ hòa tan, Hội nghị Khoa học Kỹ thuật Dược, Khoa Dược – Đại học Y Dược

Thành phố Hồ Chí Minh, Lần thứ 32

- Chung Khang Kiệt, Lê Công Thức, Nguyễn Ngọc Vinh, Đỗ Quang Dương

(2015), Tối ưu hóa quy trình tổng hợp Metformin Hydroclorid, Hội nghị Khoa học

Kỹ thuật Dược, Khoa Dược – Đại học Y Dược Thành phố Hồ Chí Minh, Lần thứ 32

- Hiện nay các xí nghiệp dược tại Việt Nam và Khoa Dược (Đại học Y Dược Thành phố Hồ Chí Minh) cũng muốn tiếp cận và đẩy mạnh khai thác ứng dụng trí tuệ nhân tạo trong nghiên cứu thuốc Đây là yêu cầu thực tế tại nơi tác giả đang công tác

- Hiện tại Khoa Dược (Đại học Y Dược Thành phố Hồ Chí Minh) là đơn vị nghiên cứu ứng dụng khai phá dữ liệu cho công thức Dược phẩm khá hiệu quả Khoa đã hợp tác và chuyển giao công nghệ cho các đơn vị như Khoa Sinh học (Đại học

Trang 20

Khoa học Tự nhiên – Đại học Quốc gia Thành phố Hồ Chí Minh), Khu Nông nghiệp Công nghệ cao để phân tích dữ liệu công thức nuôi trồng nấm đông trùng hạ thảo, sinh phẩm…

1.4 Đề tài nghiên cứu “Phân cụm dữ liệu và luật kết hợp ứng dụng trong phân tích công thức dữ liệu dược phẩm”

1.4.1 Lý do lựa chọn đề tài

Bài toán khai phá dữ liệu ứng dụng trong phân tích dữ liệu công thức dược phẩm hiện vẫn còn khá mới mẻ tại Việt Nam Bằng các kiến thức trong lĩnh vực khoa học máy tính và công nghệ thông tin, chúng ta có thể giúp cho các dược sĩ Việt Nam có thể giảm thiểu các sai sót đáng tiếc trong quá trình bào chế dược phẩm

Khai phá dữ liệu là một đề tài rộng, do đó luận văn tập trung chủ yếu trong hai vấn đề chính đó là phân cụm dữ liệu và luật kết hợp ứng dụng trong phân tích dữ liệu công thức dược phẩm để tìm ra mối liên quan nhân-quả giữa các thành phần dược chất khác nhau trong công thức

Luận văn sẽ tập trung vào bài toán phân cụm dữ liệu và bài toán rút luật kết hợp ứng dụng cho việc phân tích các công thức dược phẩm trong cơ sở dữ liệu động, các cơ sở dữ liệu này được lấy từ các tạp chí khoa học chuyên ngành Y Dược và thực nghiệm Sau đó luận văn sẽ tiến hành so sánh các ưu điểm và nhược điểm của các kỹ thuật phân cụm dữ liệu và rút luật kết hợp đó để tìm ra giải pháp tối ưu cho việc tìm mối quan hệ nhân-quả trong phân tích công thức dược phẩm

1.4.2 Mục tiêu của đề tài

Luận văn tập trung giải quyết hai bài toán chính như sau:

- Bài toán 1: Phân cụm dữ liệu ứng dụng trong phân tích công thức dữ liệu

dược phẩm

- Bài toán 2: Rút luật kết hợp ứng dụng trong phân tích công thức dữ liệu

dược phẩm

1.5 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu là công thức dược phẩm cho dữ liệu động sử dụng công cụ phân cụm dữ liệu và rút luật kết hợp cho các dạng dữ liệu công thức dược phẩm khác nhau

Trang 21

Phạm vi nghiên cứu là bộ cơ sở dữ liệu động, các cơ sở dữ liệu này được lấy từ các tạp chí khoa học chuyên ngành Y Dược và thực nghiệm

1.5.1 Bài toán phân cụm dữ liệu

Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn

để từ đó cung cấp thông tin, tri thức cho việc ra quyết định

Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm dữ liệu trong đó các đối tượng tương tự như nhau Trong mỗi nhóm, một số chi tiết có thể không quan tâm đến để đổi lấy dữ liệu đơn giản hóa

Phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm

Phương pháp tiến hành trong luận văn sẽ là lấy các số liệu, dữ liệu trên các tạp chí khoa học chuyên ngành Y Dược và thực nghiệm để tiến hành phân cụm dữ liệu Sau khi có kết quả chúng ta tiến hành so sánh ưu và nhược điểm của các phương pháp, từ đó đề nghị cải tiến các phương pháp để tìm ra phương pháp phân cụm thay thế có hiệu quả tương đương hoặc tốt hơn cho việc phân tích công thức dược phẩm Học viên sẽ sử dụng các công cụ (tools) có sẵn để tiến hành phân cụm dữ liệu Sau

đó, học viên sẽ viết một phần mềm thử nghiệm nhỏ để kiểm tra các kết quả sau khi

đã cài đặt các cải tiến cần thiết nêu trên

1.5.2 Bài toán rút luật kết hợp

Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, tài chính và đầu tư, dược phẩm Ứng dụng luật kết hợp phải chỉ rõ các đặc điểm về: nguồn gốc, điều kiện áp dụng, phạm vi ứng dụng, mục đích ứng dụng Phương pháp tiến hành trong luận văn sẽ là lấy các kết quả phân cụm dữ liệu trong bài toán phân cụm dữ liệu nêu trên để tiến hành rút luật kết hợp Luận văn sẽ tiến hành so sánh, đối chiếu với kết quả khác khi áp dụng các kỹ thuật khác nhau và kết hợp thêm logic mờ để tối ưu hóa cho việc phân tích công thức dược phẩm Học

Trang 22

viên sẽ sử dụng các công cụ (tools) có sẵn để tiến hành rút luật kết hợp Sau đó, học viên sẽ viết một phần mềm thử nghiệm nhỏ để kiểm tra các kết quả sau khi đã cài đặt các cải tiến cần thiết nêu trên

1.5.3 So sánh điểm mạnh và điểm yếu của các phương pháp

Từ việc so sánh các điểm mạnh và điểm yếu của các phương pháp trong từng giai đoạn phân cụm dữ liệu và rút luật kết hợp giúp chúng ta nâng cao hiệu suất và tính chính xác trong việc phân tích mối quan hệ nhân-quả trong công thức dữ liệu dược phẩm

1.6 Nội dung luận văn

Nội dung của luận văn tập trung chủ yếu trong việc:

- Nghiên cứu các lý thuyết về kỹ thuật phân cụm dữ liệu và luật kết hợp

- Nghiên cứu lựa chọn và thăm dò dữ liệu thực nghiệm cho các dạng bào chế khác nhau (viên nén, thuốc mỡ,…) Các công thức thực nghiệm sẽ được đề nghị có số lượng các biến và công thức khác nhau Ngoài ra, các công thức thực nghiệm sẽ được nghiên cứu kỹ nhằm đạt được mục tiêu: công thức không phức tạp về mặt bào chế và đánh giá chỉ tiêu kiểm nghiệm nhưng dữ liệu thực nghiệm mang đầy đủ các đặc trưng của dạng bào chế nhằm kiểm chứng phần mềm một cách hiệu quả nhất

- Đánh giá lại phần mềm một lần nữa với dữ liệu thực nghiệm

Bố cục luận văn gồm 6 chương:

Chương 1: Mở đầu

Chương 2: Tổng quan về công thức dược phẩm

Chương 3: Tổng quan cơ sở lý thuyết

Chương 4: Chương trình ứng dụng

Chương 5: Kết quả và bàn luận

Chương 6: Kết luận và khuyến nghị

Nội dung chương 1 nêu khái quát về nội dung đề tài

Nội dung chương 2 khảo sát tổng quan về bài toán phân tích công thức dữ liệu dược phẩm, các phương pháp, các kỹ thuật hiện nay được sử dụng cho bài toán này Nội dung chương 3 tìm hiểu tổng quan cơ sở lý thuyết về phân cụm dữ liệu, luật kết hợp, logic mờ Để chuẩn bị cho việc so sánh các kết quả ở các chương sau,

Trang 23

chương này cũng giới thiệu các phần mềm hỗ trợ các thuật toán khai phá dữ liệu là phần mềm mã nguồn mở Weka và phần mềm chuyên nghiệp trong ngành Dược FormRules

Nội dung chương 4 giới thiệu chương trình ứng dụng minh họa và cách thức hoạt động và vận hành của phần mềm này

Nội dung chương 5 trình bày các kết quả chính thu được, từ đó so sánh, đối chiếu và đánh giá kết quả so với các phần mềm, các công cụ khác

Nội dung chương 6 đưa ra kết luận và khuyến nghị Kết luận các kết quả chính

mà luận văn này thu được và hoạch định phương hướng cho các đề xuất mở rộng và cải thiện của đề tài này nhằm cải thiện độ chính xác, tốc độ xử lí và tối ưu hóa trong quá trình phân tích dữ liệu công thức dược phẩm

1.7 Ý nghĩa khoa học và thực tiễn của đề tài

Đề tài không có tính mới trong việc nghiên cứu một công nghệ hay kỹ thuật mới, tuy nhiên do nhu cầu thực tế từ các nhà bào chế mong muốn có một phần mềm

hỗ trợ phân tích mối liên quan nhân-quả trong công thức thuốc, từ đó nhà bào chế

có thể điều chỉnh công thức thuốc phù hợp với yêu cầu

Đề tài đưa ra một hướng tiếp cận ứng dụng công cụ máy tính giúp cho nhà bào chế có thể phân tích dữ liệu một cách chính xác, điều mà trước đây nhà bào chế phải dựa vào kinh nghiệm mà không có công cụ hỗ trợ Vì hiện tại việc tiếp cận và

sử dụng phần mềm chuyên ngành Dược FormRules là khá khó khăn, vì bản quyền trên 1 máy tính của phần mềm này là khoảng 7.000 bảng Anh (khoảng 200 triệu đồng) nên gần như các đơn vị tại Việt Nam không có kinh phí đầu tư Ở Việt Nam hiện tại chỉ có 1 bản quyền FormRules sử dụng trên 1 máy tính

Đề tài có ý nghĩa thực tiễn trong việc hỗ trợ phân tích mối liên quan nhân-quả trong công thức thuốc, từ đó nhà bào chế có thể điều chỉnh công thức thuốc phù hợp với yêu cầu

Có một số bài báo quốc tế đã ứng dụng C4.5 và k-means vào việc phân tích dữ liệu dược phẩm, đề tài này muốn so sánh các kỹ thuật này và cũng như muốn có nhiều công cụ cho nhà bào chế lựa chọn và so sánh

Trang 24

1.8 Kết luận chương 1

Chương này đã giới thiệu khái quát bài toán khai phá dữ liệu công thức dược phẩm, các thách thức của bài toán này cùng các công trình nghiên cứu ở trong và ngoài nước Vì đây là một đề tài còn khá mới mẻ tại Việt Nam, nên tác giả quyết định chọn đề tài này để nghiên cứu cho luận văn tốt nghiệp của mình Luận văn tập trung chủ yếu vào hai bài toán là bài toán phân cụm dữ liệu và bài toán rút luật kết hợp đối với các dữ liệu công thức dược phẩm khác nhau Qua đó đánh giá ưu điểm

và nhược điểm của các phương pháp khác nhau Do khả năng của tác giả có hạn nên chương này cũng nêu giới hạn lại mục tiêu của đề tài, đối tượng và phạm vi nghiên cứu của luận văn, nhưng luận văn vẫn đảm bảo một ý nghĩa khoa học và thực tiễn

Trang 25

Chương 2: TỔNG QUAN VỀ CÔNG THỨC DƯỢC PHẨM

Trong chương này sẽ trình bày các nội dung sau:

- Giới thiệu tổng quan về công thức dược phẩm

- Giới thiệu trí tuệ nhân tạo

- Ứng dụng trí tuệ nhân tạo trong nghiên cứu chế tạo Dược phẩm

- Kết luận chương

2.1 Tổng quan về công thức dược phẩm

Việc thành lập công thức (dược phẩm, mỹ phẩm và thực phẩm) và quy trình sản xuất (chiết xuất, bào chế, kiểm nghiệm hay tổng hợp) là các bước cơ bản trong giai đoạn nghiên cứu và phát triển sản phẩm Mỗi sản phẩm đều có một vòng đời và sản phẩm cũ cần phải được cải tiến hay thay thế bằng sản phẩm mới Do đó, việc thành lập và phân tích công thức và quy trình là nhu cầu thường xuyên

Theo truyền thống công thức hay quy trình được thành lập dựa trên kinh nghiệm hay theo con đường dò dẫm Tuy có nhiều thành công, các phương pháp truyền thống đòi hỏi nhiều thời gian và công sức Trong thực tế, công thức hay quy trình chịu sự ảnh hưởng bởi nhiều yếu tố như nguyên liệu, phương pháp hay điều kiện thực nghiệm Nếu các yếu tố nêu trên không được xem xét một cách hệ thống và khoa học thì việc thành lập công thức hay quy trình khó mà đạt được kết quả như mong đợi

Tính chất của sản phẩm không những phụ thuộc vào tính chất và tỉ lệ của các nguyên liệu mà còn bị ảnh hưởng bởi điều kiện pha chế (nhiệt độ, độ ẩm, thời gian, tốc độ…) Vì vậy, việc thành lập công thức không phải là một vấn đề đơn giản, mà thực ra là một sự thử thách Theo kinh nghiệm, công thức thường được thành lập qua bốn giai đoạn: xây dựng tiêu chuẩn, thành lập công thức, kiểm tra chất lượng sản phẩm và sửa đổi hoàn thiện, tối ưu hóa công thức

Để đạt được mục tiêu trên, cần phải có các phương pháp nhằm xác định mối liên quan giữa các yếu tố nghiên cứu với tính chất sản phẩm, từ đó đưa ra các công thức, quy trình tối ưu để sản xuất trên quy mô nhỏ và quy mô công nghiệp Một số phương pháp tối ưu hóa đã được áp dụng tại Việt Nam cũng như trên thế giới:

Trang 26

phương pháp thống kê, phương pháp bề mặt đáp ứng, phương pháp tối ưu hóa thông minh… Trong đó, tối ưu hóa bằng phần mềm thông minh giúp chúng ta giảm thiểu thời gian cần thiết nhưng đem lại hiệu quả cao so với phương pháp truyền thống

Hiện nay, việc ứng dụng công nghệ thông tin đặc biệt là các ứng dụng của kỹ thuật Trí tuệ nhân tạo (Artificial Intelligence) hỗ trợ cho việc nâng cao chất lượng sản phẩm được quan tâm khá nhiều Có khá nhiều đề tài nghiên cứu bào chế dược phẩm có ứng dụng công nghệ thông tin tại khoa Dược, Đại học Y Dược Thành phố

Hồ Chí Minh Một số công ty/xí nghiệp Dược như Domesco, Hậu Giang, Pharmedic đã đầu tư phần mềm cho việc nghiên cứu và phát triển thuốc Mặc dù vậy số lượng nhà nghiên cứu và công ty/xí nghiệp Dược tiếp cận được với hướng nghiên cứu và ứng dụng mới này vẫn còn hạn chế do các kỹ thuật trí tuệ nhân tạo còn khá mới đối với người sử dụng không chuyên Phần mềm ứng dụng chuyên nghiệp như INForm, FormRules đã không còn trên thị trường

2.1.1 Thuốc

Theo định nghĩa của Tổ chức Y tế Thế giới:

Thuốc là sản phẩm có nguồn gốc động vật, thực vật, khoáng vật hay sinh học, được bào chế để dùng cho người nhằm mục đích phòng bệnh, chữa bệnh, chẩn đoán bệnh, phục hồi điều chỉnh chức năng của cơ thể, làm giảm cảm giác một bộ phận hay toàn thân, làm ảnh hưởng quá trình sinh đẻ, làm thay đổi hình dáng cơ thể Thuốc đạt chất lượng là thuốc:

• Chứa đúng lượng dược chất ghi trên nhãn

• Đảm bảo hàm lượng đến từng đơn vị sản phẩm

Trang 27

• Một thuốc chỉ thể hiện một hoạt tính trị liệu có ích khi được đưa vào cơ thể trong những điều kiện thật xác định nhưng cũng có những tác dụng không mong muốn

• Khi đến tay người sử dụng, thuốc phải bao gồm đầy đủ: dạng bào chế, bao

bì, tờ hướng dẫn sử dụng thuốc và nhãn thuốc (được dán hay in trên bao bì)

2.1.2 Ngành công nghiệp dược phẩm

Từ thế kỷ XIX trở đi, ngành Dược nói chung và môn bào chế nói riêng đã có những bước phát triển mạnh mẽ chưa từng thấy so với các thời kỳ trước nhờ sự phát triển những tiến bộ của các ngành có liên quan

Người ta đã bắt đầu thử tác dụng chữa bệnh của các hợp chất tự nhiên, đi sâu nghiên cứu tìm hiểu xem trạng thái vật lí và tính chất hóa học của dược chất và các chất phụ gia

Nhiều dạng thuốc mới đã ra đời như dạng thuốc có tác dụng kéo dài, thuốc viên nhiều lớp giải phóng các dược chất ở những thời điểm khác nhau… Từ đó ngành công nghiệp dược phẩm ra đời

2.1.4 Phát triển thuốc

Phát triển thuốc là hoạt động được thực hiện sau khi một hợp chất được xác định

là có tiềm năng để đáp ứng đủ các tiêu chuẩn thiết kế thành dược phẩm Mục đích phát triển thuốc là xác định công thức, liều lượng phù hợp, và an toàn Nghiên cứu trong phát triển thuốc bao gồm các nghiên cứu in vitro, các nghiên cứu in vivo, và thử nghiệm lâm sàng

Trang 28

Thông thường, các tập đoàn đa quốc gia lớn hoạt động trên tất cả các lĩnh vực trong công nghiệp dược phẩm bao gồm phát minh, phát triển, sản xuất, kiểm nghiệm, tiếp thị, bán hàng, phân phối dược phẩm Các công ty bé hơn thường chỉ tập trung vào một số lĩnh vực khám phá chất tiềm năng, xây dựng công thức Một

số tổ chức nghiên cứu phối hợp với các công ty dược phẩm lớn

Bảng 2.1: Quá trình phát triển sản phẩm và quy trình

4 Tối ưu hóa sản phẩm (product optimization) Cỡ lô x 10

5 Thiết kế quy trình (process design) Cỡ lô x 10

6 Mô tả quy trình (process characterization) Cỡ lô x 10

7 Tối ưu hóa quy trình (process optimization) Cỡ lô x 10

8 Thử vận hành quy trình (process demonstration) Cỡ lô x 100

9 Thẩm định quy trình (process validation) Cỡ lô x 100

10 Chứng nhận quy trình (process certification) Cỡ lô x 100

Cỡ lô quy mô labô, pilot và sản xuất thử:

• Cỡ lô labô: Thông thường là 3 – 5 kg dạng rắn hay mềm; 3 – 5 L dạng lỏng; 3.000 – 5.000 viên nén hay viên nang

• Cỡ lô pilot: Thông thường là 30 – 50 kg dạng rắn hay mềm; 30 - 50 L dạng lỏng; 30.000 – 50.000 viên nén hay viên nang (x 10 lần so với cỡ lô labô)

• Cỡ lô sản xuất thử: Thông thường là 300 – 500 kg dạng rắn hay mềm; 300 – 500 L dạng lỏng; 300.000 – 500.000 viên nén hay viên nang (x 10 lần hơn cỡ lô pilot) Nếu tăng cỡ lô lên x 200 hay x 500 lần cũng phải thẩm định thêm

2.1.5 Thiết lập công thức dược phẩm

Thiết lập công thức dược phẩm là thiết lập các dạng công thức có liều lượng khác nhau Thiết lập công thức dược phẩm có thể được định nghĩa là một tập hợp

Trang 29

việc duy trì các đặc điểm hiệu quả và an toàn của thuốc Mục tiêu chính của thiết lập công thức dược phẩm là làm cho thuốc có thể vận chuyển dễ dàng trong cơ thể

và tương thích với bệnh nhân Hiện nay mục tiêu mới được quan tâm trong thiết lập công thức dược phẩm là sinh khả dụng của thuốc

Quá trình thiết lập công thức dược phẩm cần xem xét các yếu tố trong từng thành phần dược chất như:

• Công thức (công thức phân tử, công thức cấu tạo)

• Các phương pháp định lượng dược chất

Quá trình thiết lập công thức theo truyền thống bao gồm:

• Xây dựng tiêu chuẩn:

o Phân tích tiêu chuẩn

o Xây dựng tiêu chuẩn

Trang 30

• Hoàn thiện công thức:

o Thay đổi nguyên liệu

Mục tiêu của Bào chế học:

• Tìm cho mỗi hoạt chất một dạng thuốc thích hợp nhất cho việc điều trị một bệnh xác định

• Nghiên cứu hoạt tính trị liệu, độc tính và độ ổn định của thuốc

• Nghiên cứu kỹ thuật bào chế thuốc gồm:

o Quy trình chế biến, bào chế các dạng thuốc

o Sử dụng tá dược phù hợp cần thiết cho các dạng thuốc

o Sử dụng và đổi mới trang thiết bị phục vụ chế biến, bào chế,… Bào chế là môn học kỹ thuật, ứng dụng thành tựu của nhiều môn học cơ bản, cơ

sở và nghiệp vụ của ngành

• Toán: tính toán, trong tối ưu hóa công thức

• Vật lý, hóa học, hóa lý: lựa chọn dược chất, tá dược, bao bì, kỹ thuật bào chế…

• Hóa dược, dược lý: phối hợp các dược chất

• Sinh dược học, dược động học: biến đổi thuốc trên cơ thể

• Quy chế dược: pha chế, bảo quản, thiết kế bao bì

• Dược liệu: nghiên cứu chế phẩm thuốc từ dược liệu

• Phân tích, kiểm nghiệm thuốc: kiểm tra chất lượng

Thử thách đối với nhà bào chế:

• Các thử thách:

o Yếu tố nào ảnh hưởng trên tính chất sản phẩm

o Sự ảnh hưởng tuân theo những quy luật nào

o Làm sao tối ưu hóa công thức theo yêu cầu

Trang 31

o Dự đoán tính chất ra sao nếu thay đổi công thức

• Những sai sót:

o Khảo sát yếu tố không cần thiết mà bỏ sót yếu tố cần thiết

o Dùng nguyên liệu ít ảnh hưởng tính chất sản phẩm

o Mất nhiều thời gian và công sức mà không như ý

2.1.7 Tối ưu hóa

2.1.7.1 Vấn đề tối ưu hóa trong thực tiễn

a Giá trị tối đa

Hình 2.1: Minh họa đồ thị biểu diễn độ hấp thu tối đa

Xét ví dụ trong phương pháp UV-VIS cho kết quả định lượng chính xác người ta cần tìm bước sóng cho độ hấp thu tối đa Đây là trường hợp tối ưu hóa với 1 biến độc lập (x) và 1 biến phụ thuộc hay đáp ứng (y), có thể thực hiện được bởi phương pháp toán học hay toán thống kê

Trang 32

b Giá trị tối thiểu

Hình 2.2: Minh họa đồ thị biểu diễn CV hàm lượng tối thiểu

Xét ví dụ trong giai đoạn trộn sau cùng (của phương pháp xát hạt ướt), người ta cần xác định thời gian cho CV% tối thiểu Đây là trường hợp tối ưu hóa với 1 biến độc lập (x) và 1 biến phụ thuộc hay đáp ứng (y), có thể thực hiện được bởi phương pháp toán học hay toán thống kê

c Giá trị tối ưu

Xét ví dụ về công thức nước mắt nhân tạo:

Hydroxypropyl methylcellulose (HPMC) 5 - 15 g

Trong công thức nước mắt nhân tạo nêu trên, HPMC vừa làm tăng độ nhớt (mong muốn) vừa làm tăng chỉ số khúc xạ (không cần)

Do đó, nhà bào chế phải tính lượng HPMC sao cho dung dịch có độ nhớt càng cao càng tốt (giúp dung dịch bám được trên giác mạc) đồng thời có chỉ số khúc xạ càng thấp càng tốt (không làm mờ mắt sau khi nhỏ thuốc)

d Tối ưu hóa đa biến

Xét ví dụ sau:

Trang 33

Điều kiện không đổi:

− Độ mịn dược liệu: 2 mm

− Dung môi: cồn 800C

Điều kiện thay đổi:

− x1 = Tỷ lệ dung môi/dược liệu

− x2 = Thời gian chiết

Kết quả mong muốn:

− y = Hiệu suất chiết (tối đa)

Đây là trường hợp tối ưu hóa với 2 biến độc lập (x) và 1 biến phụ thuộc (y) Tối

ưu hóa với nhiều biến độc lập ( 2) nhưng 1 biến phụ thuộc gọi là tối ưu hóa đa biến (multivariate optimization), có thể thực hiện được bởi phương pháp toán học hay toán thống kê

e Tối ưu hóa đa đáp ứng

Điều kiện thay đổi:

− x = Lượng HPMC (g)

Kết quả mong muốn:

− y1 = Độ nhớt (tối đa)

− y2 = Chỉ số khúc xạ (tối thiểu)

Đây là trường hợp tối ưu hóa với 1 biến độc lập (x) và 2 biến phụ thuộc (y) Tối

ưu hóa nhiều biến phụ thuộc ( 2) cùng lúc gọi là tối ưu hóa đa đáp ứng (multiple response optimization), không thực hiện được bởi phương pháp toán học hay toán thống kê mà chỉ thực hiện được bởi phương pháp thông minh

f Tối ưu hóa đa biến, đa đáp ứng

Trang 34

− y4 = Áp suất thẩm thấu (298-304 mOsm/ L)

Đây là trường hợp tối ưu hóa với 3 biến độc lập (x) và 4 biến phụ thuộc (y), gọi

là sự tối ưu hóa đa biến và đa đáp ứng

Theo xu hướng hiện nay, vấn đề này có thể thực hiện được một cách nhanh chóng và hiệu quả bởi phương pháp thông minh

2.1.7.2 Khái niệm và định nghĩa tối ưu hóa

a Các loại biến số

Biến số

Biến số (variable), gọi tắt là biến, là bất kỳ thuộc tính, tính chất, giá trị đo lường… mà có thể biến thiên qua các kết quả quan sát khác nhau

Biến rời rạc và biến liên tục

Biến rời rạc (discrete variable): Định tính, hạng mục, tên gọi… Thí dụ: phái tính (nam, nữ), loại tá dược rã (lactose, DI-TAB)…

Biến liên tục (continuous variable): Cũng định tính nhưng không đứt đoạn Thí dụ: nồng độ glucose/ máu…

Biến độc lập và biến phụ thuộc

Trang 35

Biến độc lập (independent variable) hay đầu vào (predictor), ký hiệu là x, giá trị

là xi Thí dụ: nồng độ (dung dịch chuẩn), chi phí quảng cáo

Biến phụ thuộc (dependent variable) hay đáp ứng (response), ký hiệu là y, giá trị

là yj Thí dụ: độ hấp thu (dung dịch chuẩn), doanh thu…

b Biến số với công thức/quy trình

Biến độc lập

Thành phần công thức:

− Loại nguyên liệu

− Lượng nguyên liệu

Điều kiện sản xuất:

− Dược liệu: nguồn gốc, thời vụ, bộ phận, xử lý, …

− Dung môi: loại, nồng độ, tỷ lệ, pH, chất phụ gia, …

− Kỹ thuật: phương pháp, thời gian, nhiệt độ, áp suất, khuấy trộn, …

Biến phụ thuộc

− Hiệu suất chiết

− Hàm lượng hoạt chất (A, B, C, …)

− Tỷ lệ tạp chất

− Chi phí

d Biến số với quy trình định lượng (HPLC)

Trang 36

− Thời gian lưu

− Đỉnh hấp thu: diện tích, chiều cao

f Khái niệm tối ưu hóa

Nếu biến phụ thuộc y chỉ có một giá trị y thì nhà nghiên cứu có thể chọn các giá trị của biến độc lập x (x1, x2, ) sao cho giá trị y được tối đa (maximum), tối thiểu (minimum) hay đạt theo dự tính (predetermined)

Trong thực tế mỗi sản phẩm có rất nhiều tính chất, tức biến phụ thuộc y có nhiều giá trị (y1, y2, )

Trang 37

Các giá trị y1, y2, thường hay mâu thuẫn với nhau (thí dụ hiệu suất chiết cao và nhiều tạp chất) Khi ấy, nhà nghiên cứu phải dung hòa các giá trị x1, x2, sao cho các giá trị y1, y2, đạt được tối ưu (optimum, optimal, optimized) thay vì tối đa hay tối thiểu

Việc dung hòa các giá trị yj tức là tối ưu hóa cùng một lúc nhiều biến phụ thuộc hay tối ưu hóa đa đáp ứng

g Loại hình tối ưu ưu hóa

Tối ưu hóa có ràng buộc (constrained optimization)

− Một vài hay tất cả các biến độc lập có giá trị là một con số nhất định hay lớn hơn (>), lớn hơn hay bằng (), nhỏ hơn (<), nhỏ hơn hay bằng (≤) một giới hạn nào đó

− Loại hình tối ưu hóa có ràng buộc hay được áp dụng cho mô hình thực nghiệm gọi là mô hình hỗn hợp (mô hình công thức)

Tối ưu hóa không ràng buộc (unconstrained optimization)

− Các biến độc lập không có giới hạn về giá trị

− Loại hình tối ưu hóa không ràng buộc thường được áp dụng cho mô hình thực nghiệm gọi là mô hình yếu tố (mô hình quy trình)

2.1.7.3 Phương pháp tối ưu hóa truyền thống

Có thể phân loại thành hai phương pháp tối ưu hóa truyền thống:

• Loại 1: Phương pháp phụ thuộc mô hình

• Loại 2: Phương pháp không phụ thuộc mô hình

Loại 1: Phương pháp phụ thuộc mô hình

a Phương pháp toán học

Cho trước: một hàm f: A → R (từ tập hợp A tới tập số thực)

Tìm: một phần tử x0 thuộc A sao cho f(x0) ≤ f(x) với mọi x thuộc A ("cực tiểu hóa") hoặc sao cho f(x0) ≥ f(x) với mọi x thuộc A ("cực đại hóa")

Miền xác định A của hàm f nêu trên được gọi là không gian tìm kiếm Thông thường, A là một tập con của không gian Euclide Rn, thường được xác định bởi một tập các ràng buộc, các đẳng thức hay bất đẳng thức mà các thành viên của A phải thỏa mãn

Trang 38

Các phần tử của A được gọi là các lời giải khả thi Hàm f được gọi là hàm mục tiêu Lời giải khả thi nào cực tiểu hóa (hoặc cực đại hóa) hàm mục tiêu được gọi là lời giải tối ưu

b Phương pháp toán thống kê

Thông thường là hồi quy đa biến (đa tham số):

yâ = b0 + b1x1 + b2x2 + bkxk

Trong đó:

− b0: hằng số (constant)

− b: tham số (parameter); k = số lượng tham số

− bi (b0 & b): hệ số hồi quy (regression coefficient)

Với phương trình hồi quy dạng đa thức: y = b0 + b1x + b2x2 + bkxk + e

hay tuyến tính nội tại: * b*0 b x 1 1* b x b x*2 2 *k k e* * * * * * *

y =e + + + + ln y =b +b x +b x + b x +e thì phương pháp bình phương cực tiểu cũng có thể được áp dụng để có:

yâ = b0 + b1x1 + b2x2 + bkxk

c Phương pháp bề mặt đáp ứng

Phương pháp bề mặt đáp ứng (response surface) do G E P Box và K B Wilson giới thiệu năm 1951 Phương pháp này dựa vào dữ liệu của mô hình thực nghiệm để thực hiện việc tối ưu hóa Nó có thể được áp dụng để tối ưu hóa đa biến

Phương pháp này dựa trên phương trình toán học tổng quát: y = f(x1,x2) + e Trong đó:

− e = sai số

− f (x1,x2): bề mặt đáp ứng

Trang 39

Hình 2.3: Phương pháp bề mặt đáp ứng Loại 2: Phương pháp không phụ thuộc mô hình

a Phương pháp thay biến

Phương pháp thay biến (alternating variable search) thực hiện quá trình tối ưu hóa như sau Bắt đầu với mức a1 bất kỳ của x1 và xác định giá trị cực đại (hay cực tiểu) A ứng với mức b1 của x2 Kế đến, giữ mức b1 của x2 để tìm giá trị cực đại B Quá trình được lặp lại nhiều lần bằng cách thay các mức của x1 và x2 Cuối cùng, đỉnh tối ưu được xác định với tọa độ là a0 và b0

Trang 40

Hình 2.4: Phương pháp thay biến

b Phương pháp dốc nhất

Trong phương pháp dốc nhất (steepest ascent method), cũng giống như một người đứng dưới chân đồi có sương mù, muốn đến đỉnh đồi thì người ấy phải đi theo hướng dốc nhất

Tùy mũi tên xuất phát, người ta có thể xác định chính xác đỉnh tối ưu hay đi chệch hướng

Ngày đăng: 23/12/2018, 06:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w