1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Các thuật toán khai phá dữ liệu và ứng dụng

29 105 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 233,84 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung Quá trình phát hiện tri thức  Khái niệm,phương pháp khai phá dữ liệu  Khái niệm về luật kết hợp  Quá trình khai phá luật kết hợp  Thuật toán Apriori... Khai phá dữ liệu Hoà

Trang 1

Hoàng Linh - Lê Mai 1 Khai phá dữ liệu

Các thuật toán khai phá dữ

liệu và ứng dụng

Giáo viên hướng dẫn :

PGS.TSKH Nguyễn Xuân Huy

Sinh viên thực hiện:

Lê Thị Mai

Phạm Thị Hoàng Linh

Trang 2

Nội dung

 Quá trình phát hiện tri thức

 Khái niệm,phương pháp khai phá dữ liệu

 Khái niệm về luật kết hợp

 Quá trình khai phá luật kết hợp

 Thuật toán Apriori

Trang 3

Khai phá dữ liệu Hoàng Linh - Lê Mai 3

Quá trình phát hiện tri thức

 Khái niệm,phương pháp khai phá dữ liệu

 Khái niệm về luật kết hợp

 Quy trình khai phá luật kết hợp

 Thuật toán Apriori

Trang 4

Quá trình phát hiện tri thức

Hình thành định và định nghĩa bài toán

Thu thập và tiền xử lý dữ liệu

Khai phá dữ liệu, rút ra kết luận

Phân tích và kiểm định kết quả

Sử dụng các tri thức

Trang 5

Khai phá dữ liệu Hoàng Linh - Lê Mai 5

Quá trình phát hiện tri thức

1 Hình thành, xác định và định nghĩa bài toán

2. Thu thập và tiền xử lý dữ liệu

3 Khai phá dữ liệu, rút ra các tri thức

4 Sử dụng các tri thức phát hiện được

Trang 6

Quá trình phát hiện tri thức

Khái niệm,phương pháp khai phá dữ liệu

 Khái niệm về luật kết hợp

 Quy trình khai phá luật kết hợp

 Thuật toán Apriori

Trang 7

Khai phá dữ liệu Hoàng Linh - Lê Mai 7

Khái niệm khai phá dữ liệu

Phát hiện ra các thông tin có giá trị tiềm

ẩn trong các tập dữ liệu lớn (các kho dữ liệu)

Trang 8

Phương pháp khai phá dữ liệu

 Phương pháp suy diễn

 Phương pháp quy nạp

 Phương pháp phát hiện các luật kết hợp

 Các phương pháp dựa trên mẫu

Trang 9

Khai phá dữ liệu Hoàng Linh - Lê Mai 9

 Quá trình phát hiện tri thức

 Khái niệm,phương pháp khai phá dữ liệu

 Quy trình khai phá luật kết hợp

 Thuật toán Apriori

Trang 10

Khái niệm về luật kết hợp

Cho I = { I1,I2,…Im}

Một giao dịch T (T I).

Gọi D là cơ sở dữ liệu bao gồm n giao dịch

T  D hỗ trợ (support) cho một tập X  I nếu nó

chứa tất cả các khoản mục của X, nghĩa là X  T

Ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X

Trang 11

Khai phá dữ liệu Hoàng Linh - Lê Mai 11

Trang 13

Khai phá dữ liệu Hoàng Linh - Lê Mai 13

Trang 15

Khai phá dữ liệu Hoàng Linh - Lê Mai 15

Trang 17

Khai phá dữ liệu Hoàng Linh - Lê Mai 17

Trang 18

Ví dụ về luật kết hợp

Luật kết hợp: A  C

Support = support ({A}  {C}) = 50%

Cofidence = support({A}{C}) / support ({A}) = 66,6%

Cho min_support = 50%, min_conf = 50% :

A  C (support = 50%, confidence = 66.6%)

C  A (support = 50%, confidence = 100%)

Trang 19

Khai phá dữ liệu Hoàng Linh - Lê Mai 19

 Quá trình phát hiện tri thức

 Khái niệm,phương pháp khai phá dữ liệu

 Khái niệm về luật kết hợp

 Thuật toán Apriori

Trang 20

Quy trình khai phá luật kết hợp

Khai phá luật kết hợp trải qua 2 giai đoạn sau:

 Khai phá tập các khoản mục thường xuyên

 Khai phá luật kết hợp

Trang 21

Khai phá dữ liệu Hoàng Linh - Lê Mai 21

 Quá trình phát hiện tri thức

 Khái niệm,phương pháp khai phá dữ liệu

 Khái niệm về luật kết hợp

 Quy trình khai phá luật kết hợp

Trang 22

Thuật toán Apriori

 Ý tưởng của thuật toán Apriori

 Triển khai thuật toán Apriori

 Cài đặt thuật toán Apriori

 Giới hạn của Apriori

 Ví dụ minh hoạ thuật toán Apriori

Trang 23

Khai phá dữ liệu Hoàng Linh - Lê Mai 23

Tạo ra các tập phổ biến (thường xuyên) có 1 item, rồi tiếp đến là 2 items, 3 items cho đến khi chúng ta tạo ra tập phổ biến của mọi kích thước

Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ tin cậy

Tập k item được tạo ra từ tập k-1 items Tạo danh sách các item dự kiến của tập k items bằng cách hợp từng đôi một tập k-1 items có trong danh sách

Trang 24

Triển khai thuật toán Apriori

Qua 2 bước:

Tạo tập item phổ biến: tạo tất cả các tập item dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsup.

Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật

Trang 25

Khai phá dữ liệu Hoàng Linh - Lê Mai 25

Cài đặt thuật toán Apriori

 Đầu tiên tính toán và kiểm tra tập 1 item có

là phổ biến không

 Lần duyệt thứ k: Sử dụng các tập Lk-1 của tập k-1 item phổ biến được tìm thấy ở lần duyệt thứ k-1 để tạo tập dự kiến Ck Tiếp theo duyệt CSDL và tính support cho Ck

 Tập hợp các tập k item Lk: là tập hợp của các tập k_item phổ biến

Trang 26

Giới hạn của Apriori

 Chi phí khá đắt, sử dụng bộ nhớ lớn và thời gian chậm

 Không tốt đối với những mẫu lớn

 Tốn bộ nhớ để duyệt, quét CSDL nhiều lần

Trang 27

Khai phá dữ liệu Hoàng Linh - Lê Mai 27

Ví dụ minh hoạ thuật toán Apriori

Cho CSDL, tìm tập thường xuyên có độ hỗ trợ tối thiểu : 60%

Trang 28

Ví dụ minh hoạ thuật toán Apriori

Trang 29

Khai phá dữ liệu Hoàng Linh - Lê Mai 29

Xin chân thành cảm ơn

Ngày đăng: 11/03/2020, 05:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w