khai phá luật kết hợp trong khai phá dữ liệu Item (phần tử) Itemset (tập phần tử) Transaction (giao dịch) Association (sự kết hợp) và association rule (luật kết hợp) Support (độ hỗ trợ) Confidence (độ tin cậy) Frequent itemset (tập phần tử phổ biếnthường xuyên) Strong association rule (luật kết hợp mạnh)
Trang 22
Trang 3Nội dung
3
Trang 4Khai phá luật kết hợp
4
Trang 5Tình huống – Market basket analysis
5
Trang 6Tình huống – Gợi ý bán hàng
6
Trang 7Tổng quan về khai phá luật kết hợp
7
Trang 8Các khái niệm cơ bản
Dữ liệu mẫu của AllElectronics
8
Trang 9Các khái niệm cơ bản
xuyên)
9
Trang 10Các khái niệm cơ bản
Dữ liệu mẫu của AllElectronics
Trang 11Các khái niệm cơ bản
Item (phần tử)
Các phần tử, mẫu, đối tượng đang được quan tâm
I = {I1, I2, …, Im}: tập tất cả m phần tử có thể có trong tập dữ liệu
Trang 12Các khái niệm cơ bản
Association (kết hợp) và association rule (luật kết hợp)
Sự kết hợp: các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch
Thể hiện mối liên hệ giữa các phần tử/các tập phần tử
Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần tử
Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử
Cho A và B là các tập phần tử, luật kết hợp là A B
B xuất hiện trong điều kiện A xuất hiện
12
Trang 13Các khái niệm cơ bản
Support (độ hỗ trợ)
Độ đo đo tần số xuất hiện của các phần tử/tập phần tử
Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
Giá trị support nhỏ nhất được chỉ định bởi người dùng
Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác
Minimum confidence threshold (ngưỡng tin cậy tối thiểu)
Giá trị confidence nhỏ nhất được chỉ định bởi người dùng
13
Trang 14Các khái niệm cơ bản
Frequent itemset (tập phần tử phổ biến)
Tập phần tử có support thỏa minimum support threshold
Cho A là một itemset
A là frequent itemset iff support(A) >= minimum support threshold
Strong association rule (luật kết hợp mạnh)
Luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold
Cho luật kết hợp AB giữa A và B, A và B là itemsets
AB là strong association rule iff support(AB) >= minimum support threshold và confidence(AB) >= minimum confidence threshold
14
Trang 15Quá trình khai phá luật kết hợp
Raw Data Items of Interest
Relationships among Items (Rules)
User
processing Mining Post- processing
Pre-15
Trang 16Quá trình khai phá luật kết hợp
Association Rules Items
Transactional/
Relational Data
Raw Data Items of Interest
Relationships among Items (Rules)
User
processing Mining Post- processing
Trang 17Khám phá các mẫu thường xuyên
17
Trang 18Giải thuật Apriori
Thực hiện khai phá các mẫu thường xuyên từ dữ liệu giao dịch
Một tập con của một tập mục thường xuyên thì
cũng là một tập mục thường xuyên
Ví dụ, nếu {I1, I2} là tập mục thường xuyên, thì {I1} và {I2} cũng phải là tập mục thường xuyên
Là một cách tiếp cận đệ quy để tìm các tập mục thường xuyên
Sử dụng các tập mục thường xuyên để sinh các luật kết hợp
18
Trang 19Giải thuật Apriori
Thuật toán sử dụng chiến thuật lan rộng, trong đó
k-itemsets được dùng để khám phá (k+1)-k-itemsets
Trong thuật toán, các tập mục thường xuyên được tăng thêm một item (bước này gọi là quá trình sinh ra ứng cử viên)
Sau đó các nhóm ứng viên này được thử lại trên dữ liệu
Quá trình nhận dạng từng item đơn trong dữ liệu, và mở rộng ngày càng lớn hơn đến khi tập mục xuất hiện vẫn thỏa mãn trong dữ liệu
19
Trang 20Giải thuật Apriori
Thuật toán Apriori dựa vào tính chất rằng một tập con bất kỳ của một tập mục thường xuyên thì cũng là một tập mục thường xuyên
Thuật toán khi đó có thể giảm số lượng các ứng viên bằng việc xem xét các ứng viên có giá trị support cao hơn min-support không?
Tất cả các tập mục nếu có tập mục con không thường xuyên thì cũng bị loại bỏ
20
Trang 21Giải thuật Apriori
B1 Xây dựng danh sách các ứng viên k-itemsets và sau
đó trích chọn ra danh sách thường xuyên của k-itemsets dùng min-sup
B2 Sau đó sử dụng danh sách thường xuyên k
-itemsets để xác định danh sách ứng viên và thường xuyên của (k+1)-itemsets
B3 Loại bỏ các tập mục không thường xuyên
B4 Lặp lại cho đến khi danh sách ứng viên và thường xuyên của k-itemsets rỗng
B5 Trả lại danh sách của (k-1)-itemsets
21
Trang 22{5} 4
Itemset Support
{1} 3 {2} 3 {3} 4 {5} 4
Minimum suport count = 2
22
Trang 23Minimum suport count = 2
Itemset Support
{1, 3} 3 {1, 5} 2 {2, 3} 2 {2, 5} 3 {3, 5} 3
Trang 24TX2
Itemset Support
{1, 3} 3 {1, 5} 2 {2, 3} 2 {2, 5} 3
Itemset Support
{1, 3, 5} 2
24
Trang 27Khám phá các luật kết hợp
27
Trang 28Khám phá các luật kết hợp – B1
Sinh ra tất cả các tập mục con khác rỗng của mỗi tập mục thường xuyên 𝐼
28
Trang 33Tóm tắt
Khai phá luật kết hợp được xem như là một trong
những đóng góp quan trọng nhất từ cộng đồng cơ sở
dữ liệu trong việc khám phá tri thức
Khai phá các frequent itemsets
Khai phác các tập luật kết hợp
33
Trang 34THANK YOU!