Nội dung Quá trình phát hiện tri thức Khái niệm,phương pháp khai phá dữ liệu Khái niệm về luật kết hợp Quá trình khai phá luật kết hợp Thuật toán Apriori... Khai phá dữ liệu Hoà
Trang 1Hoàng Linh - Lê Mai 1 Khai phá dữ liệu
Các thuật toán khai phá dữ
liệu và ứng dụng
Giáo viên hướng dẫn :
PGS.TSKH Nguyễn Xuân Huy
Sinh viên thực hiện:
Lê Thị Mai
Phạm Thị Hoàng Linh
Trang 2Nội dung
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quá trình khai phá luật kết hợp
Thuật toán Apriori
Trang 3Khai phá dữ liệu Hoàng Linh - Lê Mai 3
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Trang 4Quá trình phát hiện tri thức
Hình thành định và định nghĩa bài toán
Thu thập và tiền xử lý dữ liệu
Khai phá dữ liệu, rút ra kết luận
Phân tích và kiểm định kết quả
Sử dụng các tri thức
Trang 5Khai phá dữ liệu Hoàng Linh - Lê Mai 5
Quá trình phát hiện tri thức
1 Hình thành, xác định và định nghĩa bài toán
2. Thu thập và tiền xử lý dữ liệu
3 Khai phá dữ liệu, rút ra các tri thức
4 Sử dụng các tri thức phát hiện được
Trang 6 Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Trang 7Khai phá dữ liệu Hoàng Linh - Lê Mai 7
Khái niệm khai phá dữ liệu
Phát hiện ra các thông tin có giá trị tiềm
ẩn trong các tập dữ liệu lớn (các kho dữ liệu)
Trang 8
Phương pháp khai phá dữ liệu
Phương pháp suy diễn
Phương pháp quy nạp
Phương pháp phát hiện các luật kết hợp
Các phương pháp dựa trên mẫu
Trang 9Khai phá dữ liệu Hoàng Linh - Lê Mai 9
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Trang 10Khái niệm về luật kết hợp
Cho I = { I1,I2,…Im}
Một giao dịch T (T I).
Gọi D là cơ sở dữ liệu bao gồm n giao dịch
T D hỗ trợ (support) cho một tập X I nếu nó
chứa tất cả các khoản mục của X, nghĩa là X T
Ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X
Trang 11Khai phá dữ liệu Hoàng Linh - Lê Mai 11
Trang 13Khai phá dữ liệu Hoàng Linh - Lê Mai 13
Trang 15Khai phá dữ liệu Hoàng Linh - Lê Mai 15
Trang 17Khai phá dữ liệu Hoàng Linh - Lê Mai 17
Trang 18Ví dụ về luật kết hợp
Luật kết hợp: A C
Support = support ({A} {C}) = 50%
Cofidence = support({A}{C}) / support ({A}) = 66,6%
Cho min_support = 50%, min_conf = 50% :
A C (support = 50%, confidence = 66.6%)
C A (support = 50%, confidence = 100%)
Trang 19Khai phá dữ liệu Hoàng Linh - Lê Mai 19
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Thuật toán Apriori
Trang 20Quy trình khai phá luật kết hợp
Khai phá luật kết hợp trải qua 2 giai đoạn sau:
Khai phá tập các khoản mục thường xuyên
Khai phá luật kết hợp
Trang 21Khai phá dữ liệu Hoàng Linh - Lê Mai 21
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Trang 22Thuật toán Apriori
Ý tưởng của thuật toán Apriori
Triển khai thuật toán Apriori
Cài đặt thuật toán Apriori
Giới hạn của Apriori
Ví dụ minh hoạ thuật toán Apriori
Trang 23Khai phá dữ liệu Hoàng Linh - Lê Mai 23
Tạo ra các tập phổ biến (thường xuyên) có 1 item, rồi tiếp đến là 2 items, 3 items cho đến khi chúng ta tạo ra tập phổ biến của mọi kích thước
Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ tin cậy
Tập k item được tạo ra từ tập k-1 items Tạo danh sách các item dự kiến của tập k items bằng cách hợp từng đôi một tập k-1 items có trong danh sách
Trang 24Triển khai thuật toán Apriori
Qua 2 bước:
Tạo tập item phổ biến: tạo tất cả các tập item dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsup.
Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật
Trang 25Khai phá dữ liệu Hoàng Linh - Lê Mai 25
Cài đặt thuật toán Apriori
Đầu tiên tính toán và kiểm tra tập 1 item có
là phổ biến không
Lần duyệt thứ k: Sử dụng các tập Lk-1 của tập k-1 item phổ biến được tìm thấy ở lần duyệt thứ k-1 để tạo tập dự kiến Ck Tiếp theo duyệt CSDL và tính support cho Ck
Tập hợp các tập k item Lk: là tập hợp của các tập k_item phổ biến
Trang 26Giới hạn của Apriori
Chi phí khá đắt, sử dụng bộ nhớ lớn và thời gian chậm
Không tốt đối với những mẫu lớn
Tốn bộ nhớ để duyệt, quét CSDL nhiều lần
Trang 27Khai phá dữ liệu Hoàng Linh - Lê Mai 27
Ví dụ minh hoạ thuật toán Apriori
Cho CSDL, tìm tập thường xuyên có độ hỗ trợ tối thiểu : 60%
Trang 28Ví dụ minh hoạ thuật toán Apriori
Trang 29Khai phá dữ liệu Hoàng Linh - Lê Mai 29
Xin chân thành cảm ơn