Quan hệ tương đương trênToán tử Galois : – tập các thuộc tính chung của 9 mọi đối tượng trong Toán tử Galois : – tập c c đối tượng có chứa tập Toán tử Galois ’: – bao đóng của tập đối tư
Trang 3ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 5BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH CHO
BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 62 48 01 01
Phản biện 1: TS Nguyễn Hữu Trọng
Phản biện 2: TS Đặng Trường Sơn
Phản biện 3: TS Hồ Bảo Quốc
Phản biện độc lập 1: PGS.TS Huỳnh Thị Thanh Bình
Phản biện độc lập 2: TS Trần Đăng Hưng
NGƯỜI HƯỚNG DẪN KHOA HỌC
1 PGS.TS Lê Hoài Bắc
2 TS Trương Chí Tín
Tp Hồ Chí Minh – Năm 2015
ii
Lời cam đoan
Tôi xin cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của chínhbản thân Tất cả những tham khảo từ các nghiên cứu có liên quan đều được nêu rõnguồn gốc từ danh mục c c t i liệu tham khảo trong luận án Những đóng góp trongluận n l c c nghiên cứu của tác giả đ công bố trong c c b i b o hoa học nêu
Trang 6trong phần danh mục các công trình nghiên cứu chưa được công bố trong bất kì
công tr nh n o h c C c công tr nh nghiên cứu của nhiều tác giả được đưa v o nộidung luận n đều nhận được sự đồng ý trước đó của c c đồng tác giả
Tác giả luận án
Trần Ngọc Anh
iii
Lời cảm ơn
Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Lê Hoài Bắc, người
đ tận t nh hướng dẫn, định hướng v động viên em suốt thời gian học tập, nghiên
cứu và thực hiện luận án
Em xin được gởi lời tri ân sâu sắc đến TS Trương Chí Tín, bởi nhờ sự động viên,chỉ bảo, hướng dẫn tận tình của Thầy, em mới có thể hoàn thành luận án này
Em cũng xin chân th nh gửi lời cảm ơn đến các Thầy/Cô trong Khoa Công nghệ
Thông tin trường Đại học Khoa học Tự nhiên Tp HCM đ tận tình dạy dỗ, chỉ bảonhiều kiến thức quí báu giúp em hoàn thành khóa học
Xin cảm ơn c c Thầy/Cô, các đồng nghiệp trong Khoa Toán – Tin học, Đại học Đlạt và các bạn bè đ hỗ trợ, động viên tôi trong quá trình học tập và thực hiện luậnán
Cuối cùng, tôi muốn bày tỏ lời tri ân và biết ơn sâu sắc đến Cha, Vợ, Cha vợ, Mẹ vợ
và các anh, chị, em đ hích lệ, động viên, tạo điều kiện thuận lợi cho tôi trong suốtthời gian làm nghiên cứu sinh
Tp Hồ Chí Minh tháng 12 năm 2015
Tác giả luận án
Trần Ngọc Anh
Trang 7cận 81.4.1 C c hó hăn của việc khai thác luật kết hợp 8
Trang 81.4.2 Phương ph p tiếp cận 10
A Dựa vào các tập phổ biến đóng v c c tập sinh của chúng 10
B Phân hoạch rời các tập lời giải, tìm biểu diễn duy nhất của mỗi lời giải trong mỗi lớp con 10
1.5 C c đóng góp chính của luận án 12
1.6 Bố cục luận án 13
v 2 Khai thác các tập đóng và các tập sinh – cơ sở lý thuyết và thuật toán GENCLOSE 15 2.1 Các khái niệm, kết quả cơ bản 16
2.1.1 Các khái niệm cơ bản 16
2.1.2 Các kết quả cơ bản 20
2.2 Bài toán và các nghiên cứu liên quan 24
2.3 : cơ sở và thuật toán 27
2.3.1 Cây (tập thuộc tính – tập đối tượng – tập sinh) v c c bước chính của 27
2.3.2 C c điều kiện cần v đủ để x c định các tập sinh 29
2.3.3 Ba toán tử mở rộng tiền bao đóng 34
2.3.4 Thuật toán 41
2.3.5 Tính đúng đắn, tính đầy đủ và các kỹ thuật thực thi 48
A Tính đúng đắn v đầy đủ 48
B Kỹ thuật diffset trong 49
C Tìm kiếm nhanh trên với một bảng băm ép 51
Trang 92.4 Thử nghiệm thuật toán 52
2.4.1 Dữ liệu v c i đặt thử nghiệm 52
2.4.2 Kiểm chứng tính đúng của 54
2.4.3 Hiệu suất của 55
2.5 Kết luận 62
3 Cấu trúc lớp các tập phổ biến và cấu trúc tập luật kết hợp 63 3.1 Các khái niệm và kết quả cơ bản 64
3.1.1 Dàn khái niệm, luật kết hợp, bài toán khai thác luật kết hợp 64
3.1.2 Phân hoạch (rời) lớp tập phổ biến và tập luật kết hợp 66
vi 3.1.3 Tập bỏ được 69
3.2 Cấu trúc và biểu diễn duy nhất của các tập phổ biến có cùng bao đóng 71
3.2.1 Tính tối tiểu của tập sinh và tính lớn nhất của tập đóng trong mỗi lớp tương đương 73
3.2.2 Cấu trúc của các tập thuộc tính trong lớp tương đương dưới 75
3.2.3 Cấu trúc và biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới hạn chế 77
A Cấu trúc của các tập thuộc tính trong lớp tương đương dưới hạn chế 77
B Biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới hạn chế 80
3.2.4 Biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới 86 3.3 Cấu trúc tập luật kết hợp 89
3.3.1 Dạng tường minh của các luật trong mỗi lớp luật tương đương 90
Trang 103.3.2 Phân lớp cấu trúc tập luật kết hợp theo quan hệ thứ tự 93
A Các tập luật cơ sở theo quan hệ thứ tự 93
B Đ nh gi các tập luật cơ sở và việc khai thác chúng 97
C Dẫn xuất đầy đủ và không trùng lặp các tập luật hệ quả 101
3.4 Kết luận 110
4 Khai thác luật kết hợp với ràng buộc 112 4.1 Các bài toán khai thác luật kết hợp với ràng buộc và tiếp cận 112
4.1.1 Giới thiệu 112
4.1.2 Các bài toán khai thác luật kết hợp với ràng buộc 114
A Bài toán khai thác các luật kết hợp với ràng buộc kép 114
B Bài toán khai thác các luật kết hợp với ràng buộc giao khác rỗng 115
4.1.3 Vài nghiên cứu và tiếp cận liên quan 115
vii A Tiếp cận hai th c trước tập phổ biến với ràng buộc 115
B Tiếp cận hậu xử lý 118
4.1.4 Tiếp cận của luận án 120
4.2 Khai thác luật kết hợp với ràng buộc kép 121
4.2.1 Các khái niệm 122
4.2.2 Phân hoạch tập luật kết hợp với ràng buộc kép 124
A Phân hoạch thô 124
B C c
điều
kiện
Trang 12155
4.2.4 Dẫn xuất đầy đủ và không trùng lặp tất cả các luật kết hợp với ràng buộc trong 159
4.2.5 Thử nghiệm thuật toán 159
A Dữ liệu v c i đặt thử nghiệm 159
B Kết quả thử nghiệm 162
4.3 Khai thác luật kết hợp với ràng buộc giao khác rỗng 167
4.3.1 Phân hoạch tập luật kết hợp với ràng buộc giao khác rỗng 168
4.3.2 Thuật toán hậu xử lý 170
viii 4.3.3 Cấu trúc và biểu diễn tường minh của mỗi lớp luật kết hợp với ràng buộc giao khác rỗng 171
A Cấu trúc và biểu diễn tường minh của vế trái luật thuộc 172
B Cấu trúc và biểu diễn tường minh của vế phải luật thuộc 174
C Cấu trúc và biểu diễn tường minh của tập luật kết hợp với ràng buộc giao khác rỗng 179
4.3.4 Thử nghiệm 181
4.4 Kết luận 183
Kết luận 186 A Kết quả đạt được 186
B Hướng phát triển 188 Danh mục các công trình của tác giả
Trang 13Tài liệu tham khảo
191
ix
Danh mục các bảng
2.1 Cơ sở dữ liệu ví dụ 18
2.2 Đặc trưng c c cơ sở dữ liệu 53
2.3 C c ngưỡng độ hỗ trợ tối thiểu 53
2.4 Số lượng các tập phổ biến đóng 54
2.5 Số lượng các tập sinh 54
2.6 Hiệu suất của với và 61
3.1 Minh họa việc sinh không trùng lặp tất cả các luật kết hợp trong mỗi lớp 92
3.2 Một đ nh gi độ dài và số lượng các tập luật cơ sở 97
3.3 Đặc trưng c c cơ sở dữ liệu 97
3.4 Lực lượng các tập luật cơ sở 98
3.5 Thời gian khai thác các tập luật cơ sở 101
3.6 Tập luật cơ sở có độ dài trung bình bé nhất 102
3.7 Minh họa việc sinh không trùng lặp tất cả các luật hệ quả trong 109
4.1 Cơ sở dữ liệu ví dụ 126
4.2 Đặc trưng c c cơ sở dữ liệu 161
4.3 Các tỉ lệ thời gian chạy và tỉ lệ phần trăm luật dư thừa 167
x
Danh mục các hình
Trang 142.1 Một phân hoạch của lớp tất cả các tập phổ biến: các tập phổ biến đóng (in đậm),
các tập sinh (in nghiêng, gạch dưới), độ hỗ trợ (ở trên, bên trái), tập đối tượng
(ở trên, bên phải) 19
2.2 Minh họa việc kiểm tra điều kiện (2.10) 33
2.3 Minh họa việc khai thác tập sinh bằng 34
2.4 Hoạt động của ba toán tử mở rộng 38
2.5 Minh họa việc sử dụng ba toán tử mở rộng , và 39
2.6 Thuật toán 42
2.7 Thủ tục 45
2.8 Minh họa quá trình thực thi của 46
2.9 Tính toán diffset 50
2.10 Thực thi của với kỹ thuật diffset 51
2.11 Số lượng các tập phổ biến đóng v tập sinh trên Pum, Pum*, , C73 56
2.12 Số lượng các tập phổ biến đóng v tập sinh trên Con, C20, T25 và T20 57
2.13 Thời gian chạy của , và trên Pum, Pum*, và T20 58
2.14 Thời gian chạy của , và trên T25, C73, Con và C20 59
3.1 Một phân hoạch tập luật kết hợp (độ hỗ trợ v độ tin cậy của các luật trong mỗi lớp được cho lần lượt ở chỉ số trên bên trái và bên phải) 71
3.2 Các cấu trúc của các lớp tập phổ biến 72
3.3 Minh họa cấu trúc của một tập thuộc tính trong lớp tương đương dưới hạn chế 78 xi 3.4 Minh họa quá trình sinh không trùng lặp lớp 81
Trang 153.5 Minh họa quá trình sinh không trùng lặp lớp 83
3.6 Thủ tục 87
3.7 Thuật toán 88
3.8 Minh họa quá trình sinh không trùng lặp lớp 89
3.9 Thủ tục 92
3.10 Thuật toán 93
3.11 Thuật toán khai thác các tập cơ sở dạng 96
3.12 Lực lượng các tập cơ sở trên M và R 99
3.13 Thời gian khai thác các tập luật cơ sở trên P và T 100
3.14 Dẫn xuất (trùng lặp) luật hệ quả 104
3.15 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả 107
3.16 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả 108
4.1 Cấu trúc và biểu diễn duy nhất của tập luật kết hợp với ràng buộc kép 123
4.2 Các phân hoạch tập luật kết hợp với ràng buộc kép 124
4.3 Biểu đồ Hasse các tập phổ biến đóng (gạch dưới), các tập sinh (in nghiêng) và độ hỗ trợ (ở trên) trích từ cơ sở dữ liệu với ngưỡng 126
4.4 Quá trình sinh và tỉa luật khi tích hợp ràng buộc vào thuật toán [6] tìm luật kết hợp với ràng buộc từ tập phổ biến với ràng buộc 134
4.5 Thủ tục 136
4.6 Thủ tục 137
xii 4.7 Minh họa quá trình thực thi của Eclat tích hợp với ràng buộc 142
Trang 164.8 Thủ tục 151
4.9 Sự khái quát và cải tiến tính toán của 156
4.10 Thủ tục 157
4.11 Thuật toán 160
4.12 Thời gian chạy của và trên Connect 162
4.13 Thời gian chạy của và trên Pumsb 163
4.14 Thời gian chạy của và trên C73 163
4.15 Thời gian chạy của và trên Accident 164
4.16 Thời gian chạy của , và trên Mushroom 164
4.17 Thời gian chạy của , và trên Chess 165 4.18 Thời gian chạy của , và trên C20 165
4.19 Cấu trúc và biểu diễn duy nhất của tập luật kết hợp với ràng buộc giao khác trống 169
4.20 Thuật toán 180
4.21 Thời gian chạy của và trên C20d10k 182
4.22 Thời gian chạy của và trên Mushroom 183
xiii
Danh mục các ký hiệu, các chữ viết tắt
Số
thứ
Ký hiệu/Chữ viết tắt
Ý nghĩa
Trang 18Quan hệ tương đương trên
Toán tử Galois : – tập các thuộc tính chung của
9
mọi đối tượng trong
Toán tử Galois : – tập c c đối tượng có chứa tập
Toán tử Galois ’: – bao đóng của tập đối tượng
Tập các ràng buộc về độ hỗ trợ, độ tin cậy và trên thuộc13
tính
14
Cặp tập phổ biến đóng lồng nhau
15
Lớp các tập con thuộc tính có cùng bao đóng
Lớp các tập phổ biến có bao đóng và giao với khác16
rỗng
Lớp
các
tập
Trang 19Lớp tương đương dưới của tập thuộc tính
Lớp tương đương dưới của tập thuộc tính hạn chế trên20
tập thuộc tính X
Lớp tương đương dưới của tập thuộc tính hạn chế trên21
Trang 20tập thuộc tính với các biên ràng buộc mở rộng
Lớp các tập phổ biến trong lớp tương đương dưới của22
hạn chế trên có giao với khác rỗng
Lớp các tập phổ biến được dẫn ra từ các tập sinh của23
không chứa bất kỳ thuộc tính nào trong và
các tập con khác rỗng của phần giao giữa và
Lớp các tập phổ biến được dẫn ra từ các tập sinh của24
có chung ít nhất một thuộc tính với
Tập khác rỗng chứa các thuộc tính (mặt hàng) xuất hiện25
trong c c đối tượng
26
Tập các thuộc tính phổ biến của
Lớp chứa tất cả các luật có cùng bao đóng vế trái và có27
cùng bao đóng hợp hai vế
Lớp luật kết hợp với ràng buộc ép đại diện bởi cặp tập28
Trang 21phổ biến đóng lồng nhau
Một lớp luật kết hợp với ràng buộc giao khác rỗng đại29
diện bởi cặp tập phổ biến đóng lồng nhau
Lớp luật kết hợp với ràng buộc ép đại diện bởi cặp tập30
Lớp tất cả các luật kết hợp với c c ngưỡng , , ,
Lớp tất cả các luật kết hợp với c c ngưỡng , , ,
36
thỏa ràng buộc kép
Lớp tất cả các luật kết hợp với c c ngưỡng , , thỏa
Trang 22Bài toán 0, Bài toán 1, Bài toán 2, Bài toán 3
Tập các phần tử tối tiểu tương ứng với quan hệ thứ tự41
của luật cơ sở và hệ quả trong
Toán tử bỏ bớt các tập bỏ được trong vế phải của luật cơ44
Trang 24sinh tương ứng của mỗi chúng
Lớp các tập phổ biến đóng cùng độ hỗ trợ và các tập56
sinh có độ d i bé hơn hoặc bằng của mỗi chúng
Lớp các tập phổ biến đóng thỏa ràng buộc
Lớp các tập phổ biến đóng thỏa ràng buộc ứng với tập60
phổ biến đóng S thuộc
61
Lớp các tập phổ biến đóng có giao với khác rỗng
62
Lớp các tập phổ biến với ngưỡng
Biểu diễn duy nhất của lớp các tập phổ biến có cùng bao63
đóng
Biểu diễn duy nhất của các tập phổ biến trong lớp tương64
Trang 25đương dưới hạn chế trên
Lớp tất cả các tập phổ biến có độ hỗ trợ bé hơn hoặc65
bằng
66
Lớp các vế trái luật kết hợp với ràng buộc kép
Lớp các vế phải luật kết hợp với ràng buộc kép ứng với67
Trang 26Hàm dẫn xuất không trùng lặp các tập phổ biến thuộc73
Biểu diễn duy nhất cho tập vế trái luật kết hợp với ràng74
Lớp chứa các tập sinh của có giao với khác rỗng
Lớp các tập sinh có độ d i bé hơn hoặc bằng của tập79
Trang 27Tập ràng buộc giao bên vế trái luật kết hợp với ràng83
tương đương dưới hạn chế
Biểu diễn duy nhất của các tập thuộc tính trong lớp
Trang 28tương đương dưới hạn chế trên với các biên ràng
Chứa các nút của cây ứng với các i-tập sinh
Chặn dưới và chặn trên của vế trái luật kết hợp với ràng94
Trang 30buộc ép đơn thuần
Thuật toán hậu xử lý khai thác luật kết hợp với ràng111
buộc kép dựa trên đồ thị các tập phổ biến đóng v c ctập sinh
Thuật toán hậu xử lý khai thác một lớp luật kết hợp với112
Trang 31Cơ sở dữ liệu giao t c hay cơ sở dữ liệu nhị phân
Thời gian chạy trung bình của c c phương ph p
Trang 32liệu Các luật kết hợp đã được ứng dụng rộng rãi trong truyền thông, kinh tế, thươngmại, … Đã có nhiều nghiên cứu được tiến hành nhưng vẫn chưa giải quyết triệt đểđược bài toán Khó khăn lớn nhất của bài toán là lực lượng lớp các tập phổ biến vàtập các luật kết hợp trong trường hợp xấu nhất tăng cỡ mũ theo kích thước của tậptất cả thuộc tính Các thuật toán truyền thống để tìm các tập này đã kiểm tra khánhiều các điều kiện cần quá rộng (không là điều kiện đủ) và do đó sinh thừa nhiềuứng viên, thời gian chạy và dung lượng bộ nhớ cần thiết thường khá lớn Ngoài ra,người sử dụng khó khăn trong việc hiểu và quản lý số lượng quá lớn các tập này.Gần đây, một số tác giả đã đề nghị các thuật toán khai thác các tập phổ biến
đóng với số lượng ít hơn hẳn số lượng các tập phổ biến Từ các tập phổ biến đóngnày, ta thu được một tập các luật kết hợp cơ sở cũng có kích thước bé Đã có nhiềukết quả nghiên cứu các tập cơ sở [74, 95] với các dạng khác nhau Tuy nhiên, trongcác kết quả đó vẫn còn tồn tại nhiều nhược điểm chẳng hạn như tính không đủ, tínhtrùng lắp khi sinh luật cơ sở cũng như hệ quả (xem [85, 86])
Một số trong các lý do là: các tác giả chưa chỉ ra được các cấu trúc toán học chặtchẽ nằm sau các kết quả đó và một số thuật toán còn mang tính trực giác và chưa có
cơ sở lý thuyết chặt chẽ Có thể nhận thấy rằng việc sử dụng các công cụ toán họcphù hợp để phân tích sẽ cho ta cái nhìn khái quát hơn, thấy rõ hơn bản chất và mốiquan hệ giữa các khái niệm quan trọng để giải bài toán Chúng cho ta cơ sở lý thuyếtvững chắc được chứng minh chặt chẽ và bảo đảm tính đúng cũng như tính khôngtrùng lắp trong các thuật toán hiệu quả tương ứng khi sinh các tập phổ biến cũngnhư các luật kết hợp Ngoài ra, chúng còn cho ta cách nhìn khái quát và thống nhất
về các loại tập luật cơ sở khác nhau
1 Giới thiệu
Trang 33Mục tiêu của luận án là:
(1) Biểu diễn lại một số khái niệm và kết quả cơ bản của bài toán khai thác
tập phổ biến và luật kết hợp bằng ngôn ngữ toán học.
(2) Trên cơ sở đó, luận án sẽ khắc phục một số nhược điểm còn tồn tại trong các kết quả trước đây cũng như đề xuất một số khái niệm, phương pháp,
kỹ thuật mới để giải quyết hiệu quả hơn nữa bài toán khai thác tập phổ
biến và luật kết hợp.
(3) Sử dụng phương pháp tiếp cận trên, luận án giải quyết bài toán khai thác tập phổ biến và luật kết hợp mở rộng với các loại ràng buộc khác nhau.
(4) Một phần quan trọng của luận án là giải bài toán tìm các tập phổ biến
đóng và tập sinh – thông tin cốt lõi phục vụ cho việc khai thác tập phổ biến
và luật kết hợp có hay không có ràng buộc.
Tác giả đã cố gắng chứng minh chặt chẽ hầu hết các kết quả lý thuyết trước khichuyển chúng thành các thuật toán và kiểm chứng lại bằng thực nghiệm
1.1 Khám phá tri thức và khai thác luật kết hợp
Khai thác dữ liệu là tiến trình rút trích các thông tin hoặc mẫu hữu ích (tường minh,không tầm thường, chưa được biết trước đây) từ các nguồn dữ liệu lớn (như: các cơ
sở dữ liệu, các kho dữ liệu) thu thập được từ các ngành khoa học, kinh doanh và kỹthuật Khai thác dữ liệu là một phần cơ bản trong quá trình khám phá tri thức từ dữliệu Quá trình này thường chứa ba bước [59] Ở bước đầu tiên, dữ liệu được xử lýthô qua các công đoạn sau: làm sạch dữ liệu, tích hợp dữ liệu, chọn các đặc trưnghữu ích, rút gọn số biến/số chiều dữ liệu, biến đổi/rời rạc hóa dữ liệu Sau đó, cácthuật toán khai thác dữ liệu được áp dụng để rút trích ra các thông tin, tri thức tiềm
Trang 34ẩn Kết quả khai thác được đánh giá ở bước hậu xử lý dựa trên yêu cầu của người sửdụng hoặc tri thức biết trước Nếu kết quả không phù hợp, ta cần lặp lại quá trình.
1 Giới thiệu
3
Các nhiệm vụ khai thác dữ liệu điển hình gồm: phân lớp, phân cụm hoặc rút
trích các luật kết hợp Khai thác luật kết hợp là một trong các kỹ thuật khai thác dữliệu quan trọng được biết đến nhiều vì tính dễ sử dụng của kết quả khai thác cũngnhư phạm vi ứng dụng rộng rãi của nó Được đề xuất và nghiên cứu đầu tiên bởi
Agrawal 1 [5] , khai thác tập phổ biến và luật kết hợp quan tâm đến việc rút trích ra
các mẫu/tập phổ biến, các luật kết hợp giữa các mẫu phổ biến trong các cơ sở dữliệu giao tác (hoặc các nguồn dữ liệu khác)
Khai thác luật kết hợp được áp dụng đầu tiên cho các siêu thị và sau này cho
truyền thông mạng, quản lý rủi ro, điều khiển, Khi quan sát các giao dịch muahàng diễn ra trong một siêu thị, ta có thể biết được các mặt hàng thường xuyên đượcmua cùng nhau, chẳng hạn như sữa và bơ Trong tập các giao dịch xuất hiện sữa và
bơ, có đến 90% giao dịch, khách hàng mua thêm trứng Khi đó ta có luật “sữa và bơ
→ trứng” với độ chắc chắn hay độ tin cậy 90% Luật này có thể được sử dụng đểsắp xếp lại các mặt hàng sữa, bơ và trứng (chẳng hạn, gần nhau để thuận tiện chokhách hàng) cũng như giúp hỗ trợ ra các quyết định kinh doanh (như: việc tăng lêncủa doanh thu bán sữa và bơ có thể kéo theo sự tăng giá của trứng) Nếu các giaodịch có mua sữa, bơ và trứng xảy ra thường xuyên (tập mặt hàng sữa, bơ và trứng làtập phổ biến), luật càng có ý nghĩa
Định nghĩa 1.1 (Cơ sở dữ liệu giao tác – cơ sở dữ liệu nhị phân) Cho là tập các
mặt hàng Một cơ sở dữ liệu giao tác (xem [5]) gồm một tập các giao tác, mỗi
Trang 35giao tác chứa các mặt hàng được mua trong giao dịch, với Ta có
thể xem cơ sở dữ liệu giao tác như là cơ sở dữ liệu nhị phân gồm bộ ba
, trong đó:
là tập không rỗng chứa các đối tượng (hay các giao tác xuất hiện trong ),
là tập khác rỗng chứa tất cả các thuộc tính xuất hiện trong các đối tượng
(hay tập mặt hàng ), và
1 Chúng tôi xin được phép chỉ ghi tên tác giả đầu tiên trong nhóm tác giả khi trích dẫn
1 Giới thiệu
4
là một quan hệ hai ngôi trên (với khi và chỉ khi mặt hàng
xuất hiện trong giao tác )
1.2 Bài toán khai thác luật kết hợp và các tiếp cận
Bài toán khai thác luật kết hợp được phát biểu (xem [5]) như sau:
Bài toán 1 : Cho trước bảng cơ sở dữ liệu nhị phân và
Bài toán này thường được giải trong hai bước: (1) rút trích các tập phổ biến với
ngưỡng , (2) tìm các luật kết hợp từ các tập phổ biến đó với ngưỡng Nếu biết
được các tập phổ biến cùng độ hỗ trợ của chúng, thì ta có thể dẫn ra tất cả các luật
Trang 36kết hợp tương ứng [5] Do đó, hầu hết các nhà nghiên cứu tập trung vào việc tìm cácthuật toán khai thác tập phổ biến Ba thuật toán khai thác tập phổ biến điển hình là[5], [93] và [56] được đề xuất trong [5] và một
tiếp cận tương tự được chỉ ra độc lập trong [66] và các biến thể của nó
(chẳng hạn như [6], [72]) thường thực thi tốt trên các sơ sở dữ
liệu thưa (các giao tác chỉ chứa ít thuộc tính) chẳng hạn như các cơ sở dữ liệu siêuthị Nhưng, trên các cơ sở dữ liệu đặc (như các chuỗi tuần tự sinh học, dữ liệu
truyền thông mạng), chúng phải tạo nhiều ứng viên cũng như truy cập cơ sở dữ liệunhiều lần Gần đây, các thuật toán dựa trên cây mẫu phổ biến (cây ), điển hình
như , đã được phát triển [40, 57] Cơ sở dữ liệu ban đầu được nén vào
2 Xem định nghĩa chặt chẽ của chúng trong các mục 2.1.1 và 3.1.1.
1 Giới thiệu
5
trong cây hoặc các biến thể của nó Sử dụng chiến lược chia để trị và kỹ thuật
tìm kiếm theo chiều sâu, tất cả các tập phổ biến được khai thác từ các tập phổ biến 1phần tử dựa trên cây mà không cần phải quét lại cơ sở dữ liệu Tuy nhiên, việc sửdụng cây gặp phải khó khăn trong các hệ thống khai thác dữ liệu tương tác cũngnhư tăng cường Trong các hệ thống này, người sử dụng hay thay đổi ngưỡng độ hỗtrợ tối thiểu cũng như chèn các giao tác mới vào cơ sở dữ liệu Khi đó, cây có thểphải được xây dựng lại hoàn toàn Các thuật toán làm việc dựa trên nguyên lý
và cấu trúc cây sử dụng định dạng dữ liệu theo chiều ngang Ngược lại,
Zaki [93, 94] sử dụng định dạng theo chiều dọc để khai thác tập phổ biến Thuật
toán dựa trên giao các tập giao tác (tập đối tượng) được mô tả trong [93] Tiếpcận sử dụng kỹ thuật “diffset” (lưu và tính toán trên phần hiệu) xuất hiện
Trang 37trong [94] Một so sánh thử nghiệm các thuật toán khai thác tập phổ biến có thểđược tìm thấy trong [48].
Tuy nhiên, khi độ phức tạp của việc tìm tập phổ biến tăng lên (do tăng độ lớn
của dữ liệu hoặc giảm các ngưỡng độ hỗ trợ tối thiểu), việc áp dụng các thuật toán
đã thảo luận ở trên trở nên khó khăn: trong trường hợp xấu nhất, lực lượng của lớpcác tập phổ biến lớn cỡ mũ: , (chẳng
hạn khi ) Các tiếp cận gần đây hướng về việc tìm các biểu diễn đặc của
lớp các tập phổ biến như các tập phổ biến tối đại (chẳng hạn các thuật toán Mafia[32], [20] và [50]) và các tập phổ biến đóng (chẳng hạn các
thuật toán [73], [75] và [96]) và sử dụng các biểu diễn này để
tìm các tập phổ biến cũng như luật kết hợp Việc sử dụng các biểu diễn này khôngchỉ cho phép rút gọn việc tính toán và lưu trữ mà còn giúp phân tích kết quả dễ dànghơn Các tập phổ biến tối đại (mọi tập cha thật sự của một tập phổ biến tối đại đềukhông là tập phổ biến) với số lượng bé hơn nhiều có thể xác định được lớp tất cảcác tập phổ biến (nhờ tính chất : mọi tập con của một tập phổ biến cũng là
một tập phổ biến với độ hỗ trợ lớn hơn hoặc bằng nó) Tuy nhiên, vì có nhiều tậpphổ biến có thể được khai thác trùng lặp (từ các tập tối đại khác nhau) và đánh mấtthông tin về độ hỗ trợ nên chúng không phù hợp cho khai thác luật kết hợp Dựa
1 Giới thiệu
6
trên lý thuyết dàn [26, 27] cho phân tích khái niệm hình thức [41, 46, 90, 91], cáctập đóng được nghiên cứu nhiều trong thời gian gần đây [33, 73, 74, 95]
Một tập thuộc tính là tập đóng nếu nó bằng với bao đóng của nó (xem 2.1.1).
Một tập phổ biến đóng có thể đại diện cho một nhóm nhiều các tập phổ biến có bao
Trang 38đóng bằng nó, nói cách khác hai tập phổ biến là tương đương nếu chúng có cùngbao đóng (do đó cùng độ hỗ trợ) Nhờ đặc tính này, với một số lượng vừa phải,không quá lớn so với lớp các tập tối đại (thiếu thông tin cốt yếu về độ hỗ trợ), cũngkhông quá lớn như số lượng các tập phổ biến (thông tin về độ hỗ trợ bị lưu trữ trùnglặp), lớp các tập phổ biến đóng rất phù hợp với việc khai thác tập phổ biến cũng nhưluật kết hợp Một đánh giá thực nghiệm trong [96] đã chỉ ra rằng trên các cơ sở dữliệu đặc, số tập phổ biến đóng lớn hơn khoảng lần số tập phổ biến tối đại nhưng
nó nhỏ hơn đến khoảng lần số tập phổ biến Từ mỗi tập phổ biến đóng, ta có
thể dẫn ra tất cả các tập phổ biến khác có cùng bao đóng với nó, nghĩa là từ lớp tất
cả các tâp phổ biến đóng ta có thể dẫn ra lớp tất cả các tập phổ biến Kết quả này đãđược chứng minh (chẳng hạn trong [74, 95]), tuy nhiên vấn đề là làm sao dẫn xuất
ra chúng một cách hiệu quả? Việc dẫn ra các tập phổ biến từ một tập phổ biến đóngthật sự đạt được hiệu quả cao nếu ta biết thêm các tập sinh của nó (tập sinh của mộttập thuộc tính là tập con tối tiểu có cùng bao đóng với tập thuộc tính đó) Các têngọi khác nhau của tập sinh (“mẫu khóa” – key pattern, “tập tự do” – free set, “tậpsinh tối tiểu” – minimal generator hoặc “tập sinh” – generator) và các định nghĩakhác nhau của tập đóng và tập sinh xuất hiện trong [19, 34, 42, 73, 74, 83, 95] Luận
án sẽ chỉ ra rằng các định nghĩa này là tương đương (trong Hệ quả 2.1 và Hệ quả 2.2).
Nhiều nghiên cứu gần đây [17, 24, 25, 74, 95] đã sử dụng các tập phổ biến đóng
và các tập sinh để khai thác luật kết hợp Dựa trên chúng, Zaki [95] đã chỉ ra thuật
toán tìm các luật kết hợp (cơ sở) dạng “khái quát nhất” (most general rules),
Pasquier [74] đã đưa ra các thuật toán khai thác các luật (cơ sở) dạng “tối tiểu”
(minimal rules) và suy dẫn ra các luật hệ quả còn lại Trong quá trình tìm cơ sở lý
Trang 39thuyết và cách chứng minh tính đúng cho một số thuật toán của Pasquier [74],
1 Giới thiệu
7
nhưng không chứng minh được vì thiếu điều kiện, chúng tôi đã tìm ra được mộtphản ví dụ để chứng minh một trong các thuật toán đó vi phạm tính đúng và khôngđầy đủ, cũng như một số thuật toán khác của ông ta sinh thừa quá nhiều các luật hệquả Trong thuật toán tìm các luật khái quát nhất dựa trên các tập phổ biến đóng và
tập sinh của Zaki [94], ta có thể bỏ đi việc kiểm tra một số điều kiện cần không cần
thiết mà thuật toán đó vẫn đúng Bằng các kết quả lý thuyết đúng đắn, được chứngminh chặt chẽ và kiểm chứng qua thực nghiệm, các nhược điểm đó đã khắc phục bởi
Tín [85, 86] Trong luận án của mình [3], Bảy đã sử dụng đồ thị để nâng cao hiệu
quả khai thác luật kết hợp Trước hết, tác giả sử dụng thuật toán tìm
các tập phổ biến và xây dựng cung nối thể hiện quan hệ thứ tự (chứa trong tập hợpthông thường) giữa chúng Từ đó, thuật toán được xây dựng để khai
thác tất cả các luật kết hợp (mà tác giả gọi là luật kết hợp truyền thống) Việc khaithác luật từ các độ đo thú vị cũng được quan tâm Sau đó, tác giả tích hợp thêm việckhai thác tập sinh vào [96] để tìm đồ thị các tập phổ biến đóng và các tập
sinh của chúng (thuật toán ) hoặc tìm theo kiểu tăng cường (thuật toán
) Dựa trên đồ thị này, tác giả đã xét việc khai thác các luật kết hợp
không dư thừa tối tiểu và luật thiết yếu nhất) Các thuật toán được đề xuất đã nângcao được khả năng khai thác luật kết hợp qua nhiều kiểm chứng thực nghiệm Tuynhiên, tính đúng và hiệu quả của chúng vẫn chưa thật sự được chứng minh chặt chẽbằng các kết quả lý thuyết tương ứng
1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc
Trang 40Vì kích thước lớn của tập luật kết hợp, ngoài việc tiêu tốn nhiều thời gian và bộ nhớcho việc khai thác, ta còn gặp khó khăn trong việc lưu trữ, quản lý và sử dụng kếtquả thu được Vì vậy, bài toán có ý nghĩa thực tế hơn là tìm tập luật kết hợp vớikích thước bé, đủ để quản lý được và ngoài ra cần gắn với nhu cầu thật sự của người
sử dụng
1 Giới thiệu
8
Nhiều mô hình khai thác tập phổ biến/luật kết hợp với các kiểu ràng buộc khác
nhau được nghiên cứu trong thời gian gần đây (xem tổng quan các nghiên cứu trong
Mục 4.1) Các kết quả gần gần đây [1, 8, 11, 52, 53] quan tâm đến bài toán khai thác
các tập phổ biến với các ràng buộc trực tiếp trên các ngưỡng hỗ trợ và tin cậy lẫntrên các thuộc tính thường xuyên thay đổi Chẳng hạn khi khai thác dữ liệu trực
tuyến ta cần tìm các tập từ khóa phổ biến hạn chế trong một tập từ khóa ứng vớimột chủ đề cho trước, hoặc chứa ít nhất một từ khóa trong một chủ đề ràng buộc
nào đó Trong Chương 4, luận án quan tâm giải quyết hai bài toán (tổng quát hơn)
khai thác luật kết hợp với các ràng buộc tổng quát trực tiếp trên tập thuộc tính:
Bài toán 2 : Khai thác các luật kết hợp với ràng buộc kép và
Bài toán 3 : Khai thác các luật kết hợp với ràng buộc giao khác rỗng.
1.4 Các khó khăn của việc khai thác luật kết hợp và phương pháp
tiếp cận
1.4.1 Các khó khăn của việc khai thác luật kết hợp
Khó khăn lớn nhất khi tìm luật kết hợp là lực lượng của nó trong
trường hợp xấu nhất lớn cỡ mũ: