Khai thác dữ liệu chỉ là một khâu trong qui trình Khám phá tri thức trong cơ sở dữ liệu.. Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một cách rộng rãi tron
Trang 1NỘI DUNG BÁO CÁO
Giới thiệu
Phân lớp dữ liệu và các thuật toán phân lớp dữ liệu
Luật kết hợp và các thuật toán tìm luật kết hợp
Trang 2GIỚI THIỆU
Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu
ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và xử lý thông tin
Khai thác dữ liệu là quá trình trích xuất các thông tin có giá trị tiềm ẩn
trong những kho dữ liệu Khai thác dữ liệu chỉ là một khâu trong qui trình Khám phá tri thức trong cơ sở dữ liệu
Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một cách rộng rãi
trong rất nhiều lĩnh vực kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông, internet… Không ai có thể phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại.
Trang 3GIỚI THIỆU
CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy nhiên với tốc
độ phát triển của công nghệ hiện nay, dữ liệu phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm, cá biệt có những CSDL lớn gấp đôi sau mỗi năm, điều này gây khó khăn không nhỏ cho việc áp dụng các phương thức khai thác dữ liệu kinh điển Các thuật toán xử lý tuần tự đôi khi không thể thực hiện trên những CSDL lớn.
Trong những năm gần đây, việc nghiên cứu cải tiến các thuật toán tuần tự
trong khai thác dữ liệu đang là hướng được nhiều người quan tâm Việc cải tiến được thực hiện trên hai khía cạnh:
1 Cải tiến về cấu trúc nhằm lưu trữ dữ liệu thích hợp cho các thuật
toán.
2 Cải tiến về cách thực thi các thuật toán trên cơ sở song song hóa
dựa trên sự phát triển của công nghệ chế tạo.
Trang 4PHÂN LỚP DỮ LIỆU
Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các
lớp C= {C1,…,Cm}, bài toán phân lớp được phát
biểu như sau: Xác định ánh xạ f : DC sao cho với mỗi ti được quy về một lớp Cj.
Về mặt thực chất, bài toán phân lớp chính là chia D
thành các lớp tương đương.
Trang 5THUẬT TOÁN PHÂN LỚP DỮ LIỆU
Phân lớp sử dụng khoảng cách
Phân lớp theo thống kê xác suất
Trang 6THUẬT TOÁN K-MEANS
Do J.MacQueen giới thiệu năm 1967 trong tài liệu “J Some
Methods for Classification and Analysis of Multivariate
Observations”
Được xếp vào 10 thuật toán tốt nhất trong Parallel Data Mining
K-means Clustering là một thuật toán dùng trong các bài toán
phân loại/nhóm n đối tượng thành k nhóm dựa trên đặc
tính/thuộc tính của đối tượng (k n nguyên, dương)
Về nguyên lý, có n đối tượng, mỗi đối tượng có m thuộc tính,
ta phân chia được các đối tượng thành k nhóm dựa trên các thuộc tính của đối tượng bằng việc áp dụng thuật toán này
Trang 7THUẬT TOÁN K-MEANS
Data input:
- n objects
- k clusters Start
Initial k cluster centers
Initial k cluster centers
T F
End
Trang 8VÍ DỤ K-MEANS
Số nhóm k=3
Số đối tượng cần phân chia n=9 (9 loại thuốc)
Số thuộc tính của mỗi loại thuốc là m=2
Cụ thể, danh mục các loại thuốc cần phân loại như sau:
Trang 9VÍ DỤ
Kết quả lần 1:
Với 3 điểm trung tâm ban đầu:
Ta được:
Trang 11 Tính toán lại điểm trung tâm từ lần lặp trước:
Kết quả:
VÍ DỤ:
Kết quả lặp lần 3:
Trang 13LUẬT KẾT HỢP
I.1 Luật kết hợp
Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng biệt, mỗi thuộc
tính gọi là một item Gọi D là một CSDL, trong đó mỗi bản ghi T là một giao dịch và chứa các tập item, TI
Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng
XY, trong đó X, Y I là các tập item gọi là itemsets và XY= Ở đây X được gọi là tiền đề, Y là mệnh đề kết quả
Trang 14 Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X Y là tỷ
lệ % các giao dịch có chứa X, Y với tổng số các giao dịch có trong cơ sở dữ liệu
Định nghĩa 3: Độ tin cậy (confidence) của luật là tỷ lệ % của
số giao dịch có chứa X, Y với số giao dịch có chứa X
Việc tìm các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất
cả các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ
hỗ trợ và độ tin cậy do người sử dụng xác định trước Các
ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và
mincof.
Trang 15LUẬT KẾT HỢP
I.1 Luật kết hợp
Ví dụ: Phân tích giỏ mua hàng
TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Example:
Beer }
Diaper ,
Milk
4
0 5
2
| T
|
) Beer Diaper,
, Milk
0 3
2 )
Diaper ,
Milk (
) Beer Diaper,
Trang 16LUẬT KẾT HỢP
I.2 Một số khái niệm liên quan.
Tập k item là tập hợp có k item
Tập item phổ biến là tập hợp các item có độ hỗ trợ lớn
hơn hay bằng minsup
Tập item dự kiến (tập ứng cử viên) là tập hợp các item
cần được xem xét có phải là tập item phổ biến không
Trang 17THUẬT TOÁN TÌM LUẬT KẾT HỢP
Thuật toán AIS
Thuật toán SETM
Thuật toán Apriori
Thuật toán Eclat
Trang 18THUẬT TOÁN APRIORI
Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items
tạo từ tập 1_item,……tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được
Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và
độ tin cậy
Tính chất: mọi tập item phổ biến thì tất cả các tập item
con của nó đều là phổ biến
Trang 19THUẬT TOÁN APRIORI
Qua 2 bước:
Tạo tập item phổ biến: tạo tất cả các tập item dự kiến,
tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsupp
Tạo luật kết hợp: Từ các tập con của tập phổ biến xây
dựng luật kết hợp và tính độ tin cậy của luật
Trang 20THUẬT TOÁN APRIORI
1 Xác định các tập item phổ biến:
Xác định các tập ứng cử viên (Ck)
Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử
viên
Trang 21THUẬT TOÁN APRIORI
1.1 Xác định C k:
Tìm các tập ứng cử viên 1 item
Quét CSDL để xác định độ hỗ trợ của các tập ứng cử viên
Tại vòng thứ k (k>1), các tập ứng cử viên được xác định dựa vào các tập phổ biến đã xác định tại vòng (k-1) sử dụng hàm Apriori_gen() Sau khi xác định được các tập ứng cử viên, thuật toán quét từng giao dịch trong CSDL để xác định độ hỗ trợ của các tập ứng cử viên Quá trình xác định các tập item phổ biến sẽ kết thúc khi không xác định được thêm tập item phổ biến nào nữa
Trang 22THUẬT TOÁN APRIORI
1.2 Nội dung hàm Apriori_gen()
+ F k-1 được kết nối với chính nó thu được C k
+ Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà có 1 số tập con (k-1) không có trong Fk-1 Sau đó nó trả về tập item phổ biến kích thước k còn lại.
Trang 23THUẬT TOÁN APRIORI
null
Trang 243 e
3 c
3 b
2 a
Sup Itemset
Data base D 1-candidates
Scan D
3 e
3 c
3 b
2 a
Sup Itemset
Freq 1-itemsets
bc ae ac
ce be
ab Itemset 2-candidates
ce be bc ae ac ab Itemset
2 1 2
2 3
1 Sup Counting
Scan D
ce be bc ac Itemset
2 2
2 3
Sup
Freq 2-itemsets bce
Itemset 3-candidates
bce
Itemset
2 Sup Freq 3-itemsets
Scan D
Ví dụ tìm tập item phổ biến
Trang 25THUẬT TOÁN APRIORI
2 Sinh các luật kết hợp từ các item phổ biến:
Tìm tất cả các tập con không rỗng h của tập item phổ biến
f F
Với mỗi tập con h tìm được, ta xuất ra luật dạng (h) (f-h)
nếu tỉ lệ support(f)/support(h) mincof
Trang 26THUẬT TOÁN APRIORI
Suppose {2,3,4} is frequent, with sup=50%
Proper nonempty subsets: {2,3}, {2,4}, {3,4}, {2}, {3}, {4}, with
All rules have support = 50%
Ví dụ sinh luật kết hợp
Trang 27II Thuật toán Apriori
Trang 28II Thuật toán Apriori
Thủ tục tìm tập ứng cử viên
Trang 29II Thuật toán Apriori
Thủ tục loại bỏ các tập ứng cử viên không phổ biến