1. Trang chủ
  2. » Giáo án - Bài giảng

chương 4: khai phá luật kết hợp

34 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Luật Kết Hợp
Tác giả Đặng Xuân Thọ
Trường học Trường Đại học Sư phạm Hà Nội
Định dạng
Số trang 34
Dung lượng 0,91 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

khai phá luật kết hợp trong khai phá dữ liệu Item (phần tử) Itemset (tập phần tử) Transaction (giao dịch) Association (sự kết hợp) và association rule (luật kết hợp) Support (độ hỗ trợ) Confidence (độ tin cậy) Frequent itemset (tập phần tử phổ biếnthường xuyên) Strong association rule (luật kết hợp mạnh)

Trang 2

2

Trang 3

Nội dung

3

Trang 4

Khai phá luật kết hợp

4

Trang 5

Tình huống – Market basket analysis

5

Trang 6

Tình huống – Gợi ý bán hàng

6

Trang 7

Tổng quan về khai phá luật kết hợp

7

Trang 8

Các khái niệm cơ bản

 Dữ liệu mẫu của AllElectronics

8

Trang 9

Các khái niệm cơ bản

xuyên)

9

Trang 10

Các khái niệm cơ bản

 Dữ liệu mẫu của AllElectronics

Trang 11

Các khái niệm cơ bản

 Item (phần tử)

 Các phần tử, mẫu, đối tượng đang được quan tâm

I = {I1, I2, …, Im}: tập tất cả m phần tử có thể có trong tập dữ liệu

Trang 12

Các khái niệm cơ bản

 Association (kết hợp) và association rule (luật kết hợp)

 Sự kết hợp: các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch

 Thể hiện mối liên hệ giữa các phần tử/các tập phần tử

 Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập phần tử

 Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử

 Cho A và B là các tập phần tử, luật kết hợp là A  B

 B xuất hiện trong điều kiện A xuất hiện

12

Trang 13

Các khái niệm cơ bản

 Support (độ hỗ trợ)

 Độ đo đo tần số xuất hiện của các phần tử/tập phần tử

 Minimum support threshold (ngưỡng hỗ trợ tối thiểu)

 Giá trị support nhỏ nhất được chỉ định bởi người dùng

 Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất hiện của một tập phần tử khác

 Minimum confidence threshold (ngưỡng tin cậy tối thiểu)

 Giá trị confidence nhỏ nhất được chỉ định bởi người dùng

13

Trang 14

Các khái niệm cơ bản

 Frequent itemset (tập phần tử phổ biến)

 Tập phần tử có support thỏa minimum support threshold

 Cho A là một itemset

 A là frequent itemset iff support(A) >= minimum support threshold

 Strong association rule (luật kết hợp mạnh)

 Luật kết hợp có support và confidence thỏa minimum support threshold và minimum confidence threshold

 Cho luật kết hợp AB giữa A và B, A và B là itemsets

 AB là strong association rule iff support(AB) >= minimum support threshold và confidence(AB) >= minimum confidence threshold

14

Trang 15

Quá trình khai phá luật kết hợp

Raw Data Items of Interest

Relationships among Items (Rules)

User

processing Mining Post- processing

Pre-15

Trang 16

Quá trình khai phá luật kết hợp

Association Rules Items

Transactional/

Relational Data

Raw Data Items of Interest

Relationships among Items (Rules)

User

processing Mining Post- processing

Trang 17

Khám phá các mẫu thường xuyên

17

Trang 18

Giải thuật Apriori

 Thực hiện khai phá các mẫu thường xuyên từ dữ liệu giao dịch

 Một tập con của một tập mục thường xuyên thì

cũng là một tập mục thường xuyên

 Ví dụ, nếu {I1, I2} là tập mục thường xuyên, thì {I1} và {I2} cũng phải là tập mục thường xuyên

 Là một cách tiếp cận đệ quy để tìm các tập mục thường xuyên

 Sử dụng các tập mục thường xuyên để sinh các luật kết hợp

18

Trang 19

Giải thuật Apriori

 Thuật toán sử dụng chiến thuật lan rộng, trong đó

k-itemsets được dùng để khám phá (k+1)-k-itemsets

 Trong thuật toán, các tập mục thường xuyên được tăng thêm một item (bước này gọi là quá trình sinh ra ứng cử viên)

 Sau đó các nhóm ứng viên này được thử lại trên dữ liệu

 Quá trình nhận dạng từng item đơn trong dữ liệu, và mở rộng ngày càng lớn hơn đến khi tập mục xuất hiện vẫn thỏa mãn trong dữ liệu

19

Trang 20

Giải thuật Apriori

 Thuật toán Apriori dựa vào tính chất rằng một tập con bất kỳ của một tập mục thường xuyên thì cũng là một tập mục thường xuyên

 Thuật toán khi đó có thể giảm số lượng các ứng viên bằng việc xem xét các ứng viên có giá trị support cao hơn min-support không?

 Tất cả các tập mục nếu có tập mục con không thường xuyên thì cũng bị loại bỏ

20

Trang 21

Giải thuật Apriori

 B1 Xây dựng danh sách các ứng viên k-itemsets và sau

đó trích chọn ra danh sách thường xuyên của k-itemsets dùng min-sup

 B2 Sau đó sử dụng danh sách thường xuyên k

-itemsets để xác định danh sách ứng viên và thường xuyên của (k+1)-itemsets

 B3 Loại bỏ các tập mục không thường xuyên

 B4 Lặp lại cho đến khi danh sách ứng viên và thường xuyên của k-itemsets rỗng

 B5 Trả lại danh sách của (k-1)-itemsets

21

Trang 22

{5} 4

Itemset Support

{1} 3 {2} 3 {3} 4 {5} 4

Minimum suport count = 2

22

Trang 23

Minimum suport count = 2

Itemset Support

{1, 3} 3 {1, 5} 2 {2, 3} 2 {2, 5} 3 {3, 5} 3

Trang 24

TX2

Itemset Support

{1, 3} 3 {1, 5} 2 {2, 3} 2 {2, 5} 3

Itemset Support

{1, 3, 5} 2

24

Trang 27

Khám phá các luật kết hợp

27

Trang 28

Khám phá các luật kết hợp – B1

 Sinh ra tất cả các tập mục con khác rỗng của mỗi tập mục thường xuyên 𝐼

28

Trang 33

Tóm tắt

 Khai phá luật kết hợp được xem như là một trong

những đóng góp quan trọng nhất từ cộng đồng cơ sở

dữ liệu trong việc khám phá tri thức

 Khai phá các frequent itemsets

 Khai phác các tập luật kết hợp

33

Trang 34

THANK YOU!

Ngày đăng: 10/08/2021, 20:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w