Phân cụm dữ liệuMâu thuẫn tiềm tàng • Phân cụm dữ liệu là kỹ thuật rất quan trọng trong khai phá dữ liệu • Có rất nhiều định nghĩa khác nhau về kỹ thuật này • Về bản chất có thể hiểu phâ
Trang 1Báo cáo viên
Trang 21 Giới thiệu đề tài
Trang 31. Giới thiệu đề tài
Trang 4Công thức dược phẩm
Công thức dược phẩm
Thành phần
Liều lượng
Tỉ trọng
Kinh nghiệm
Mới
Trang 6Các phương pháp nghiên cứu
Mâu thuẫn tiềm tàng Phương pháp
- Phi tuyến
- Nhanh
- Phức tạp
- Hiệu quả tốt (98%) vs
Trang 7Cơ sở lý thuyết
2.
Trang 8Phân cụm dữ liệu
Mâu thuẫn tiềm tàng
• Phân cụm dữ liệu là kỹ thuật rất quan trọng trong khai phá dữ liệu
• Có rất nhiều định nghĩa khác nhau về kỹ thuật này
• Về bản chất có thể hiểu phân cụm là các quy trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng một cụm tương tự nhau và các đối tượng khác cụm thì không tương tự nhau
• Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu
• Tuy nhiên, không có tiêu chí nào được xem là tốt nhất để đánh giá hiệu quả của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: giảm dữ liệu (data reduction), “cụm tự nhiên” (“natural clusters”), cụm “có ích” (“useful” clusters), phát hiện phần tử ngoại lai (outlier detection).
Trang 9Công thức dược phẩm
Mâu thuẫn tiềm tàng
• Dược phẩm hay thuốc là những chất dưới dạng đơn chất hoặc hỗn hợp có nguồn gốc rõ ràng, được dùng cho người hoặc sinh vật để chẩn đoán, phòng và chữa bệnh, hạn chế hoặc thay đổi điều kiện bệnh lý hay sinh lý.
• Thiết lập công thức dược phẩm là thiết lập các dạng công thức có liều lượng khác nhau Thiết lập công thức dược phẩm có thể được định nghĩa là một tập hợp các hoạt động với mục tiêu tạo ra thuốc có thông
số kỹ thuật nhất định và đảm bảo việc duy trì các đặc điểm hiệu quả và
an toàn của thuốc Mục tiêu chính của thiết lập công thức dược phẩm là làm cho thuốc có thể vận chuyển dễ dàng trong cơ thể và tương thích với bệnh nhân Hiện nay mục tiêu mới được quan tâm trong thiết lập công thức dược phẩm là sinh khả dụng của thuốc.
Trang 10Thuật toán k-means
Mâu thuẫn tiềm tàng
• K-means là thuật toán rất quan trọng và được sử dụng phổ
biến trong kỹ thuật phân cụm dữ liệu
• Ý tưởng chính của thuật toán k-means là tìm cách phân
nhóm các đối tượng (objects) đã cho vào k cụm (k là số các cụm được xác định trước, k là số nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất.
• Thuật toán k-means áp dụng cho các đối tượng được biểu
diễn bởi các điểm trong không gian vectơ d chiều U = {xi | i =
1, … , N}, với xi ∈ ℜ biểu thị đối tượng (hay điểm dữ liệu) thứ
i.
Trang 11Thuật toán k-means
Mâu thuẫn tiềm tàng
• Thuật toán k-means gom cụm toàn bộ các điểm dữ liệu trong U
thành k cụm C = {C 1 , C 2 ,…, C k } sao cho mỗi điểm dữ liệu x i nằm trong một cụm duy nhất Để biết điểm dữ liệu thuộc cụm nào người ta gán cho nó một mã cụm Các điểm có cùng mã cụm thì ở cùng cụm, trong khi các điểm khác mã cụm thì ở trong các cụm khác nhau Một cụm có thể biểu thị bằng vectơ liên thuộc cụm v có độ dài N, với v i là mã cụm của x i Giá trị k là đầu vào của thuật toán Giá trị k dựa trên tiêu chuẩn tri thức trước đó.
• Trong các thuật toán gom cụm, các điểm được nhóm theo khái
niệm “độ gần” hay “độ tương tự” Với k-means, phép đo mặc định cho “độ tương tự” là khoảng cách Euclide.
Trang 12Thuật toán k-means
Mâu thuẫn tiềm tàng
• Thuật toán k-means thực hiện qua các bước chính sau:
1 Chọn ngẫu nhiên k tâm (centroid) cho k cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm.
2 Tính khoảng cách giữa các đối tượng (objects) đến k tâm (thường dùng khoảng cách Euclide).
3 Nhóm các đối tượng vào nhóm gần nhất.
4 Xác định lại tâm mới cho các nhóm.
5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng.
• Thuật toán k-means được phát triển bởi nhiều nhà nghiên cứu
khác nhau, điển hình là Lloyd (1957), Forgey (1965), Friedman (1967), Rubin (1967), McQueen (1967).
Trang 13Thuật toán k-means
Mâu thuẫn tiềm tàng
Hình 1: Lưu đồ thuật toán k-means
Trang 14Logic mờ
Mâu thuẫn tiềm tàng
• Trong logic cổ điển, hàm thành viên chỉ có một
trong hai giá trị là 1 (Đúng) hay 0 (Sai) Điều này không phản ánh đầy đủ thế giới khách quan, vì giữa hai màu “trắng” và “đen” còn có màu “xám”.
• Trong logic mờ, hàm thành viên có thể cho các
giá trị ở giữa 0 và 1 Hàm thành viên càng tiến đến
1 thì giá trị của nó càng gần Đúng Nhờ đó, logic
mờ có tính hiện thực hơn logic cổ điển.
Trang 16Chương trình minh họa
3.
Trang 18Bộ dữ liệu
• Công thức viên nén matrix
• Công trình của Bodea và Leucuta, năm 1997
• 13 công thức thực nghiệm
• 3 biến độc lập x1, x2 và x3
• 3 biến phụ thuộc y1, y2 và y3
Trang 19Bảng 1: Các biến số của viên nén matrix
Trang 21Giao diện chương trình – Module 1: Dữ liệu
Hình 3: Giao diện module 1 – Dữ liệu
Trang 22Giao diện chương trình – Module 2: Phân cụm dữ liệu
Hình 4: Giao diện module 2 – Phân cụm dữ liệu với thuật toán k-means
Trang 23Kết quả thực nghiệm
4.
Trang 25Phân cụm dữ liệu bằng Weka
Trang 26• Thực tế không cần thiết phân tích mối quan hệ nhân-quả giữa các biến phụ thuộc yi với nhau
• Không phù hợp
Nhận xét phân cụm dữ liệu bằng Weka
Trang 27Phân cụm dữ liệu biến phụ thuộc y1 bằng phần mềm
Trang 30• Phần mềm ứng dụng tiến hành phân cụm dữ liệu theo từng biến phụ thuộc y, điều này là cần thiết và phù hợp đối với bài toán trong ngành Dược.
Phân cụm dữ liệu bằng phần mềm
Trang 31Kết luận và hướng phát triển
5.
Trang 32• Loại trừ được trường hợp học quá mức
và dự đoán sai
• Phù hợp với yêu cầu ngành Dược
Nhận xét
Trang 33• Ứng dụng thực tế tại Bộ môn Bào chế
• Ứng dụng thêm nguồn dữ liệu từ thực phẩm
• Mở rộng đề tài bằng nhiều kỹ thuật khai phá dữ liệu
khác như rút luật kết hợp và cây quyết định (đây cũng là đề tài mà tác giả đã đăng ký nghiên cứu và báo cáo trong Hội nghị Khoa học – Kỹ thuật lần thứ
35, năm 2018)
Hướng phát triển của đề tài
Trang 34XIN CHÂN THÀNH CẢM ƠN