Bài Toán2 Khai thác luật kết hợp: quan trọng Mục như là một biến nhị phân: có hay không có trong một giao dịch Mua các sản phẩm cùng nhau Số lượng của một item nhiều hơn 1 Lợi nhuận hay
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Khoa Công Nghệ Thông Tin
Isolated Items Discarding Strategy For Discovering High
Trang 3Bài Toán
2
Khai thác luật kết hợp: quan trọng
Mục như là một biến nhị phân: có hay không có trong một giao dịch
Mua các sản phẩm cùng nhau
Số lượng của một item nhiều hơn 1
Lợi nhuận hay giá trị của các item là khác nhau
Hamilton (2004) : khai thác tập mục hữu ích cao từ CSDL
Tạo quá nhiều ứng viên khi tìm HUI Chi phí lớn
giảm ứng viên: sử dụng IIDS
Trang 5Cơ Sở Lý Thuyết
4
Định nghĩa 2.5: Giá trị hữu ích cục bộ (Local) của một itemset X trong
DB ký hiệu là là tổng của các giá trị hữu ích của itemset X trong
Ví dụ:
•
Trang 7Cơ Sở Lý Thuyết
6
Định nghĩa 3.1: Cho k-itemset X Một superset của X (chứa X và xuất
hiện ít nhất trong một giao dịch nào đó của DB) với kích thước chứa giao tác được ký hiệu là , với và
Ví dụ: Cho hoặc ,
Cả và đều chứa X, có ba phần tử và xuất hiện trong T02 của DB
•
Trang 8Cơ Sở Lý Thuyết
7
Định lý 3.1: Cho là một -superset tùy ý của k-itemset X, với Giả sử
rằng tồn tại một hàm dự đoán với mọi Nếu thì không có superset của
X là hữu ích cao
Với
•
Trang 9IIDS & Thuật Toán
8
- IIDS: một cách thức hiệu quả của việc thiết kế một hàm dự đoán.
- Utility mining là dạng tổng quát của share mining (SH-mining)
- Các thuật toán: ShFSM (Share-counted frequent sequence mining), DCG (Direct Candidates Generation),…
- Áp dụng IIDS FUM (Fast Utility Mining), DCG+
ShFSM & FUM
Trang 10IIDS & Thuật Toán
9
Input:
(1) DB: cơ sở dữ liệu giao tác có số lượng
(2) UT (utility table): bảng hữu ích
(3) minUtil: ngưỡng hữu ích nhỏ nhất
Output:
Tất cả các itemset hữu ích cao: HUI(DB)
Trang 11IIDS & Thuật Toán
Trang 12IIDS & Thuật Toán
Trang 13IIDS & Thuật Toán
Trang 14IIDS & Thuật Toán
Trang 15IIDS & Thuật Toán
Trang 16IIDS & Thuật Toán
Trang 17IIDS & Thuật Toán
; // xóa item không hữu ích
; // thêm item biệt lập
;//remaining candidate
•
Trang 18IIDS & Thuật Toán
Trang 19IIDS & Thuật Toán
Trang 20IIDS & Thuật Toán
Trang 21IIDS & Thuật Toán
Trang 22IIDS & Thuật Toán
Trang 23IIDS & Thuật Toán
Trang 24IIDS & Thuật Toán
Trang 25IIDS & Thuật Toán
Trang 26IIDS & Thuật Toán
; // xóa itemset không hữu ích
Chỉ định rõ mà không có item xuất hiện trong
•
Trang 27IIDS & Thuật Toán
26
ShSFM
FUM
Trang 28IIDS & Thuật Toán
Trang 29IIDS & Thuật Toán
28
ShFSM
FUM
dừng
Trang 30Kết Quả Thử Nghiệm
29
Dữ liệu
- Nhân tạo (Synthetic datasets)
- Máy phát dữ liệu tổng hợp IBM
- T10.I6.D1000k.N1000, T10.I6.D100k.N2000, và T20.I6.D1000k.N1000
- Thực tế:
- Dữ liệu chuỗi cửa hàng được lấy từ một chuỗi cửa hàng tạp hóa lớn ở California chứa 1.112.949 giao dịch và 46.086 mặt hàng khác nhau Bảng hữu ích lưu trữ lợi nhuận cho mỗi item Tổng lợi nhuận của các tập dữ liệu là 26.388.499,80$.
Trang 31Kết Quả Thử Nghiệm
30
Trang 32Kết Quả Thử Nghiệm
31
Trang 33Kết Quả Thử Nghiệm
32
Trang 34Kết Quả Thử Nghiệm
33
Trang 35Kết Quả Thử Nghiệm
34
Trang 36Kết Quả Thử Nghiệm
35
Trang 37Kết Quả Thử Nghiệm
36
Trang 38Kết Quả Thử Nghiệm
37
Trang 40Kết Luận Và Hướng Phát Triển
39
- Đề xuất IIDS để làm giảm các giá trị hàm dự đoán của các itemset.
- Các kết quả: hiệu suất của FUM và DCG+ tốt hơn ShFSM và DCG IIDS có thể làm giảm số lượng các ứng cử viên và làm tăng hiệu suất của các phương
pháp khai thác hữu ích một cách hiệu quả.
- Nền tảng lý thuyết và kết quả thực nghiệm cho thấy rằng các IIDS là một
chiến lược đầy hứa hẹn cho khai thác hữu ích IIDS cũng có thể được áp
dụng cho khai thác truyền thống giống như Apriori.
mở rộng phạm vi ứng dụng IIDS cho một số mô hình phân lớp.
Trang 41Tài Liệu Tham Khảo
40
[1] Yu-Chiang Li, Jieh-Shan Yeh, Chin-Chen Chang, “Isolated items discarding strategy for discovering high utility itemsets”, Data
& Knowledge Engineering, 64 (2008) 198–217.
[2] Vinutha C, Yogish H.K, “Survey On: Mining High Utility Itemsets from Transactional Database”, IOSR Journal of Computer
Engineering (IOSR-JCE), Volume 16, Issue 2, Ver I (Mar-Apr 2014).
[3] H Yao, H.J Hamilton, “Mining itemset utilities from transaction databases”, Data & Knowledge Engineering 59 (2006) 603– 626.
Trang 42CHÂN THÀNH CẢM ƠN
SỰ CHÚ Ý THEO DÕI CỦA THẦY,
CÁC ANH CHỊ VÀ CÁC BẠN
Trang 43Thảo Luận