Biểu diễn toán học và một thuật toán nhanh cho bài toán khai thác tập phổ biến và luật kết hợp

tập thuộc tính X 21 ⌊ ⌋ Lớp tương đương dưới của tập thuộc tính hạn chế trên tập thuộc tính với các biên ràng buộc mở rộng 22 ⌊ ⌋ Lớp các tập phổ biến trong lớp tương đương dưới của

Trang 1

Trần Ngọc Anh

BIỂU DIỄN TOÁN HỌC VÀ MỘT THUẬT TOÁN NHANH

CHO BÀI TOÁN KHAI THÁC TẬP PHỔ BIẾN

VÀ LUẬT KẾT HỢP

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Tp Hồ Chí Minh – Năm 2015

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Phản biện 3: TS Hồ Bảo Quốc

Phản biện độc lập 1: PGS.TS Huỳnh Thị Thanh Bình

Phản biện độc lập 2: TS Trần Đăng Hưng

NGƯỜI HƯỚNG DẪN KHOA HỌC

1 PGS.TS Lê Hoài Bắc

2 TS Trương Chí Tín

Tp Hồ Chí Minh – Năm 2015

Trang 3

Lời cam đoan

Tôi xin cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của chính

bản thân Tất cả những tham khảo từ các nghiên cứu có liên quan đều được nêu rõ

nguồn gốc từ danh mục c c t i liệu tham khảo trong luận án Những đóng góp trong

luận n l c c nghiên cứu của tác giả đ công bố trong c c b i b o hoa học nêu

trong phần danh mục các công trình nghiên cứu chưa được công bố trong bất kì

công tr nh n o h c C c công tr nh nghiên cứu của nhiều tác giả được đưa v o nội

dung luận n đều nhận được sự đồng ý trước đó của c c đồng tác giả

Tác giả luận án

Trần Ngọc Anh

Trang 4

Lời cảm ơn

Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Lê Hoài Bắc, người

đ tận t nh hướng dẫn, định hướng v động viên em suốt thời gian học tập, nghiên

cứu và thực hiện luận án

Em xin được gởi lời tri ân sâu sắc đến TS Trương Chí Tín, bởi nhờ sự động viên,

chỉ bảo, hướng dẫn tận tình của Thầy, em mới có thể hoàn thành luận án này

Em cũng xin chân th nh gửi lời cảm ơn đến các Thầy/Cô trong Khoa Công nghệ

Thông tin trường Đại học Khoa học Tự nhiên Tp HCM đ tận tình dạy dỗ, chỉ bảo

nhiều kiến thức quí báu giúp em hoàn thành khóa học

Xin cảm ơn c c Thầy/Cô, các đồng nghiệp trong Khoa Toán – Tin học, Đại học Đ

lạt và các bạn bè đ hỗ trợ, động viên tôi trong quá trình học tập và thực hiện luận

án

Cuối cùng, tôi muốn bày tỏ lời tri ân và biết ơn sâu sắc đến Cha, Vợ, Cha vợ, Mẹ vợ

và các anh, chị, em đ hích lệ, động viên, tạo điều kiện thuận lợi cho tôi trong suốt

thời gian làm nghiên cứu sinh

Tp Hồ Chí Minh tháng 12 năm 2015

Tác giả luận án

Trần Ngọc Anh

Trang 5

MỤC LỤC

1.1 Khám phá tri thức và khai thác luật kết hợp 2

1.2 Bài toán khai thác luật kết hợp và các tiếp cận 4

1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc tính) 7

1.4 C c hó hăn của việc khai thác luật kết hợp v phương ph p tiếp cận 8

1.4.1 C c hó hăn của việc khai thác luật kết hợp 8

1.4.2 Phương ph p tiếp cận 10

A Dựa vào các tập phổ biến đóng v c c tập sinh của chúng 10

B Phân hoạch rời các tập lời giải, tìm biểu diễn duy nhất của mỗi lời giải trong mỗi lớp con 10

1.5 C c đóng góp chính của luận án 12

1.6 Bố cục luận án 13

Trang 6

2 Khai thác các tập đóng và các tập sinh – cơ sở lý thuyết và

2.1 Các khái niệm, kết quả cơ bản 16

2.1.1 Các khái niệm cơ bản 16

2.1.2 Các kết quả cơ bản 20

2.2 Bài toán và các nghiên cứu liên quan 24

2.3 : cơ sở và thuật toán 27

2.3.1 Cây (tập thuộc tính – tập đối tượng – tập sinh) v c c bước chính của 27

2.3.2 C c điều kiện cần v đủ để x c định các tập sinh 29

2.3.3 Ba toán tử mở rộng tiền bao đóng 34

2.3.4 Thuật toán 41

2.3.5 Tính đúng đắn, tính đầy đủ và các kỹ thuật thực thi 48

A Tính đúng đắn v đầy đủ 48

B Kỹ thuật diffset trong 49

C Tìm kiếm nhanh trên với một bảng băm ép 51

2.4 Thử nghiệm thuật toán 52

2.4.1 Dữ liệu v c i đặt thử nghiệm 52

2.4.2 Kiểm chứng tính đúng của 54

2.4.3 Hiệu suất của 55

2.5 Kết luận 62

3 Cấu trúc lớp các tập phổ biến và cấu trúc tập luật kết hợp 63 3.1 Các khái niệm và kết quả cơ bản 64

3.1.1 Dàn khái niệm, luật kết hợp, bài toán khai thác luật kết hợp 64

3.1.2 Phân hoạch (rời) lớp tập phổ biến và tập luật kết hợp 66

Trang 7

3.1.3 Tập bỏ được 69

3.2 Cấu trúc và biểu diễn duy nhất của các tập phổ biến có cùng bao đóng 71

3.2.1 Tính tối tiểu của tập sinh và tính lớn nhất của tập đóng trong mỗi lớp tương đương 73

3.2.2 Cấu trúc của các tập thuộc tính trong lớp tương đương dưới 75

3.2.3 Cấu trúc và biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới hạn chế 77

A Cấu trúc của các tập thuộc tính trong lớp tương đương dưới hạn chế 77

B Biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới hạn chế 80

3.2.4 Biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới 86 3.3 Cấu trúc tập luật kết hợp 89

3.3.1 Dạng tường minh của các luật trong mỗi lớp luật tương đương 90

3.3.2 Phân lớp cấu trúc tập luật kết hợp theo quan hệ thứ tự 93

A Các tập luật cơ sở theo quan hệ thứ tự 93

B Đ nh gi các tập luật cơ sở và việc khai thác chúng 97

C Dẫn xuất đầy đủ và không trùng lặp các tập luật hệ quả 101

3.4 Kết luận 110

4 Khai thác luật kết hợp với ràng buộc 112 4.1 Các bài toán khai thác luật kết hợp với ràng buộc và tiếp cận 112

4.1.1 Giới thiệu 112

4.1.2 Các bài toán khai thác luật kết hợp với ràng buộc 114

A Bài toán khai thác các luật kết hợp với ràng buộc kép 114

B Bài toán khai thác các luật kết hợp với ràng buộc giao khác rỗng 115

4.1.3 Vài nghiên cứu và tiếp cận liên quan 115

Trang 8

A Tiếp cận hai th c trước tập phổ biến với ràng buộc 115

B Tiếp cận hậu xử lý 118

4.1.4 Tiếp cận của luận án 120

4.2 Khai thác luật kết hợp với ràng buộc kép 121

4.2.1 Các khái niệm 122

4.2.2 Phân hoạch tập luật kết hợp với ràng buộc kép 124

A Phân hoạch thô 124

B C c điều kiện cần v đủ cho tính không rỗng của và ) 127

C Phân hoạch chặt tập luật kết hợp với ràng buộc kép 131

D X c định lớp 135

E So sánh với tiếp cận hai th c trước tập phổ biến với ràng buộc 139

4.2.3 Dẫn xuất không trùng lặp tất cả các luật kết hợp với ràng buộc trong mỗi lớp luật tương đương 144

A Cấu trúc và biểu diễn duy nhất của lớp tương đương c c tập con thuộc tính hạn chế với các ràng buộc biên 144

B Tính khái quát v ý nghĩa của 150

C Cấu trúc và biểu diễn duy nhất của lớp luật 155

4.2.4 Dẫn xuất đầy đủ và không trùng lặp tất cả các luật kết hợp với ràng buộc trong 159

4.2.5 Thử nghiệm thuật toán 159

A Dữ liệu v c i đặt thử nghiệm 159

B Kết quả thử nghiệm 162

4.3 Khai thác luật kết hợp với ràng buộc giao khác rỗng 167

4.3.1 Phân hoạch tập luật kết hợp với ràng buộc giao khác rỗng 168

4.3.2 Thuật toán hậu xử lý 170

Trang 9

4.3.3 Cấu trúc và biểu diễn tường minh của mỗi lớp luật kết hợp với ràng

buộc giao khác rỗng 171

A Cấu trúc và biểu diễn tường minh của vế trái luật thuộc 172

B Cấu trúc và biểu diễn tường minh của vế phải luật thuộc ⌊ ⌋ 174

C Cấu trúc và biểu diễn tường minh của tập luật kết hợp với ràng buộc giao khác rỗng 179 4.3.4 Thử nghiệm 181 4.4 Kết luận 183

A Kết quả đạt được 186

B Hướng phát triển 188

Trang 10

Danh mục các bảng

2.1 Cơ sở dữ liệu ví dụ 18

2.2 Đặc trưng c c cơ sở dữ liệu 53

2.3 C c ngưỡng độ hỗ trợ tối thiểu 53

2.4 Số lượng các tập phổ biến đóng 54

2.5 Số lượng các tập sinh 54

2.6 Hiệu suất của với và 61

3.1 Minh họa việc sinh không trùng lặp tất cả các luật kết hợp trong mỗi lớp 92

3.2 Một đ nh gi độ dài và số lượng các tập luật cơ sở 97

3.4 Lực lượng các tập luật cơ sở 98

3.5 Thời gian khai thác các tập luật cơ sở 101

3.6 Tập luật cơ sở có độ dài trung bình bé nhất 102

3.7 Minh họa việc sinh không trùng lặp tất cả các luật hệ quả trong 109

4.1 Cơ sở dữ liệu ví dụ 126

4.3 Các tỉ lệ thời gian chạy và tỉ lệ phần trăm luật dư thừa 167

Trang 11

Danh mục các hình

2.1 Một phân hoạch của lớp tất cả các tập phổ biến: các tập phổ biến đóng (in đậm),

các tập sinh (in nghiêng, gạch dưới), độ hỗ trợ (ở trên, bên trái), tập đối tượng

(ở trên, bên phải) 19

2.2 Minh họa việc kiểm tra điều kiện (2.10) 33

2.3 Minh họa việc khai thác tập sinh bằng 34

2.4 Hoạt động của ba toán tử mở rộng 38

2.5 Minh họa việc sử dụng ba toán tử mở rộng , và 39

2.6 Thuật toán 42

2.7 Thủ tục 45

2.8 Minh họa quá trình thực thi của 46

2.9 Tính toán diffset 50

2.10 Thực thi của với kỹ thuật diffset 51

2.11 Số lượng các tập phổ biến đóng v tập sinh trên Pum, Pum*, , C73 56

2.12 Số lượng các tập phổ biến đóng v tập sinh trên Con, C20, T25 và T20 57

2.13 Thời gian chạy của , và trên Pum, Pum*,

và T20 58

2.14 Thời gian chạy của , và trên T25, C73, Con và C20 59

3.1 Một phân hoạch tập luật kết hợp (độ hỗ trợ v độ tin cậy của các luật trong mỗi lớp được cho lần lượt ở chỉ số trên bên trái và bên phải) 71

3.2 Các cấu trúc của các lớp tập phổ biến 72 3.3 Minh họa cấu trúc của một tập thuộc tính trong lớp tương đương dưới hạn chế 78

Trang 12

3.4 Minh họa quá trình sinh không trùng lặp lớp 81

3.6 Thủ tục 87

3.9 Thủ tục 92

3.11 Thuật toán khai thác các tập cơ sở dạng 96

3.12 Lực lượng các tập cơ sở trên M và R 99

3.13 Thời gian khai thác các tập luật cơ sở trên P và T 100

3.14 Dẫn xuất (trùng lặp) luật hệ quả 104

3.15 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả 107

3.16 Thuật toán dẫn xuất nhanh chóng, đầy đủ tập luật hệ quả 108

4.1 Cấu trúc và biểu diễn duy nhất của tập luật kết hợp với ràng buộc kép 123

4.2 Các phân hoạch tập luật kết hợp với ràng buộc kép 124

4.3 Biểu đồ Hasse các tập phổ biến đóng (gạch dưới), các tập sinh (in nghiêng) và độ hỗ trợ (ở trên) trích từ cơ sở dữ liệu với ngưỡng 126

4.4 Quá trình sinh và tỉa luật khi tích hợp ràng buộc vào thuật toán [6]

tìm luật kết hợp với ràng buộc từ tập phổ biến với ràng buộc 134

4.5 Thủ tục 136

4.6 Thủ tục 137

Trang 13

4.7 Minh họa quá trình thực thi của Eclat tích hợp với ràng buộc 142

4.8 Thủ tục 151

4.9 Sự khái quát và cải tiến tính toán của 156

4.10 Thủ tục 157

4.11 Thuật toán 160

4.12 Thời gian chạy của và trên Connect 162

4.13 Thời gian chạy của và trên Pumsb 163

4.14 Thời gian chạy của và trên C73 163

4.15 Thời gian chạy của và trên Accident 164

4.16 Thời gian chạy của , và trên Mushroom 164

4.17 Thời gian chạy của , và trên Chess 165 4.18 Thời gian chạy của , và trên C20 165

4.19 Cấu trúc và biểu diễn duy nhất của tập luật kết hợp với ràng buộc giao khác trống 169

4.20 Thuật toán 180

4.21 Thời gian chạy của và trên C20d10k 182

4.22 Thời gian chạy của và trên Mushroom 183

Trang 14

Danh mục các ký hiệu, các chữ viết tắt

mọi đối tượng trong

thuộc tính

tính

rỗng

hình thành từ các tập sinh có giao bằng trống với

Trang 15

tập thuộc tính X

21 ⌊ ⌋ Lớp tương đương dưới của tập thuộc tính hạn chế trên

tập thuộc tính với các biên ràng buộc mở rộng

22 ⌊ ⌋ Lớp các tập phổ biến trong lớp tương đương dưới của

hạn chế trên có giao với khác rỗng

23 ⌊ ⌋

Lớp các tập phổ biến được dẫn ra từ các tập sinh của không chứa bất kỳ thuộc tính nào trong và các tập con khác rỗng của phần giao giữa và

24 ⌊ ⌋ Lớp các tập phổ biến được dẫn ra từ các tập sinh của

có chung ít nhất một thuộc tính với

trong c c đối tượng

27 Lớp chứa tất cả các luật có cùng bao đóng vế trái và có

cùng bao đóng hợp hai vế

28 Lớp luật kết hợp với ràng buộc ép đại diện bởi cặp tập

phổ biến đóng lồng nhau

29 Một lớp luật kết hợp với ràng buộc giao khác rỗng đại

diện bởi cặp tập phổ biến đóng lồng nhau

30 Lớp luật kết hợp với ràng buộc ép đại diện bởi cặp tập

phổ biến đóng lồng nhau

31 Lớp luật kết hợp với ràng buộc kép khác rỗng đại diện

bởi cặp tập phổ biến đóng lồng nhau

32 Biểu diễn duy nhất của lớp luật kết hợp với ràng buộc

Trang 16

35 Lớp tất cả các luật kết hợp với c c ngưỡng , , ,

36 Lớp tất cả các luật kết hợp với c c ngưỡng , , ,

thỏa ràng buộc kép

37 Lớp tất cả các luật kết hợp với c c ngưỡng , , thỏa

ràng buộc giao khác rỗng

39 Độ dài trung bình của tập sinh so với tập phổ biến đóng

40 (0–3) Bài toán 0, Bài toán 1, Bài toán 2, Bài toán 3

41 Tập các phần tử tối tiểu tương ứng với quan hệ thứ tự

– tập cơ sở

42 Toán tử bỏ bớt các tập bỏ được trong hai vế của luật cơ

sở

43 Toán tử chuyển các tập bỏ được từ vế trái sang vế phải

của luật cơ sở và hệ quả trong

44 Toán tử bỏ bớt các tập bỏ được trong vế phải của luật cơ

sở

45 Toán tử chuyển các tập bỏ được từ vế phải sang vế trái

của luật cơ sở và hệ quả trong

Trang 17

59 Lớp các tập phổ biến đóng thỏa ràng buộc

60 Lớp các tập phổ biến đóng thỏa ràng buộc ứng với tập

phổ biến đóng S thuộc

đóng

đương dưới hạn chế trên

65 Lớp tất cả các tập phổ biến có độ hỗ trợ bé hơn hoặc

bằng

67 Lớp các vế phải luật kết hợp với ràng buộc kép ứng với

vế trái

68 Hàm dẫn xuất không trùng lặp các tập phổ biến có bao

Trang 18

72 Hàm dẫn xuất không trùng lặp các tập phổ biến thuộc

75 Biểu diễn duy nhất cho tập vế phải luật kết hợp với ràng

buộc kép ứng với vế trái

79 Lớp các tập sinh có độ d i bé hơn hoặc bằng của tập

thuộc tính

80 Đồ thị con của thỏa mãn ,

83 Tập ràng buộc giao bên vế trái luật kết hợp với ràng

buộc giao khác rỗng

Trang 19

86 Biểu đồ các tập phổ biến đóng với ngưỡng cùng các

tập sinh v độ hỗ trợ của chúng

sinh v độ hỗ trợ

89 Biểu diễn duy nhất của các tập thuộc tính trong lớp

tương đương

90 Biểu diễn duy nhất của các tập thuộc tính trong lớp

tương đương dưới hạn chế

91

Biểu diễn duy nhất của các tập thuộc tính trong lớp tương đương dưới hạn chế trên với các biên ràng buộc mở rộng

92 Tập ràng buộc giao bên vế phải luật kết hợp với ràng

buộc giao khác rỗng

buộc kép

95 ) Lớp con các tập tối tiểu của lớp chứa hiệu của mỗi tập

sinh của hợp và với

96 Lớp các tập thuộc ) có giao với bằng trống

97 Lớp các tập thuộc ) có giao với khác trống

Trang 20

102 Lớp các tập con bỏ được trong ứng với tập sinh của

S

103 Lớp các cặp tập phổ biến đóng lồng nhau thỏa mãn

104 Lớp các cặp tập phổ biến đóng lồng nhau thỏa mãn ,

105 Lớp các cặp tập phổ biến đóng lồng nhau thỏa mãn ,

110 Thuật toán hậu xử lý khai thác luật kết hợp với ràng

buộc ép đơn thuần

111

Thuật toán hậu xử lý khai thác luật kết hợp với ràng buộc kép dựa trên đồ thị các tập phổ biến đóng v c c tập sinh

112 Thuật toán hậu xử lý khai thác một lớp luật kết hợp với

ràng buộc giao khác rỗng

115 và Các tỉ lệ thời gian chạy của và so

với

buộc kép

Trang 21

117 Ngưỡng hỗ trợ tối thiểu

120 Độ hỗ trợ (chuẩn hóa về ) của tập thuộc tính

122 , ,

Thời gian chạy trung bình của c c phương ph p , và trên những cặp ràng buộc

Trang 22

Chương 1 Giới thiệu

Khai thác luật kết hợp từ dữ liệu là một bài toán khó và cơ bản trong khai thác dữ liệu Các luật kết hợp đã được ứng dụng rộng rãi trong truyền thông, kinh tế, thương mại, … Đã có nhiều nghiên cứu được tiến hành nhưng vẫn chưa giải quyết triệt để được bài toán Khó khăn lớn nhất của bài toán là lực lượng lớp các tập phổ biến và tập các luật kết hợp trong trường hợp xấu nhất tăng cỡ mũ theo kích thước của tập tất cả thuộc tính Các thuật toán truyền thống để tìm các tập này đã kiểm tra khá nhiều các điều kiện cần quá rộng (không là điều kiện đủ) và do đó sinh thừa nhiều ứng viên, thời gian chạy và dung lượng bộ nhớ cần thiết thường khá lớn Ngoài ra, người sử dụng khó khăn trong việc hiểu và quản lý số lượng quá lớn các tập này Gần đây, một số tác giả đã đề nghị các thuật toán khai thác các tập phổ biến đóng với số lượng ít hơn hẳn số lượng các tập phổ biến Từ các tập phổ biến đóng này, ta thu được một tập các luật kết hợp cơ sở cũng có kích thước bé Đã có nhiều kết quả nghiên cứu các tập cơ sở [74, 95] với các dạng khác nhau Tuy nhiên, trong các kết quả đó vẫn còn tồn tại nhiều nhược điểm chẳng hạn như tính không đủ, tính trùng lắp khi sinh luật cơ sở cũng như hệ quả (xem [85, 86])

Một số trong các lý do là: các tác giả chưa chỉ ra được các cấu trúc toán học chặt chẽ nằm sau các kết quả đó và một số thuật toán còn mang tính trực giác và chưa có

cơ sở lý thuyết chặt chẽ Có thể nhận thấy rằng việc sử dụng các công cụ toán học phù hợp để phân tích sẽ cho ta cái nhìn khái quát hơn, thấy rõ hơn bản chất và mối quan hệ giữa các khái niệm quan trọng để giải bài toán Chúng cho ta cơ sở lý thuyết vững chắc được chứng minh chặt chẽ và bảo đảm tính đúng cũng như tính không trùng lắp trong các thuật toán hiệu quả tương ứng khi sinh các tập phổ biến cũng như các luật kết hợp Ngoài ra, chúng còn cho ta cách nhìn khái quát và thống nhất

về các loại tập luật cơ sở khác nhau

Trang 23

Mục tiêu của luận án là:

(1) Biểu diễn lại một số khái niệm và kết quả cơ bản của bài toán khai thác tập phổ biến và luật kết hợp bằng ngôn ngữ toán học

(2) Trên cơ sở đó, luận án sẽ khắc phục một số nhược điểm còn tồn tại trong các kết quả trước đây cũng như đề xuất một số khái niệm, phương pháp,

kỹ thuật mới để giải quyết hiệu quả hơn nữa bài toán khai thác tập phổ biến và luật kết hợp

(3) Sử dụng phương pháp tiếp cận trên, luận án giải quyết bài toán khai thác tập phổ biến và luật kết hợp mở rộng với các loại ràng buộc khác nhau (4) Một phần quan trọng của luận án là giải bài toán tìm các tập phổ biến đóng và tập sinh – thông tin cốt lõi phục vụ cho việc khai thác tập phổ biến

và luật kết hợp có hay không có ràng buộc

Tác giả đã cố gắng chứng minh chặt chẽ hầu hết các kết quả lý thuyết trước khi chuyển chúng thành các thuật toán và kiểm chứng lại bằng thực nghiệm

1.1 Khám phá tri thức và khai thác luật kết hợp

Khai thác dữ liệu là tiến trình rút trích các thông tin hoặc mẫu hữu ích (tường minh, không tầm thường, chưa được biết trước đây) từ các nguồn dữ liệu lớn (như: các cơ

sở dữ liệu, các kho dữ liệu) thu thập được từ các ngành khoa học, kinh doanh và kỹ thuật Khai thác dữ liệu là một phần cơ bản trong quá trình khám phá tri thức từ dữ liệu Quá trình này thường chứa ba bước [59] Ở bước đầu tiên, dữ liệu được xử lý thô qua các công đoạn sau: làm sạch dữ liệu, tích hợp dữ liệu, chọn các đặc trưng hữu ích, rút gọn số biến/số chiều dữ liệu, biến đổi/rời rạc hóa dữ liệu Sau đó, các thuật toán khai thác dữ liệu được áp dụng để rút trích ra các thông tin, tri thức tiềm

ẩn Kết quả khai thác được đánh giá ở bước hậu xử lý dựa trên yêu cầu của người sử dụng hoặc tri thức biết trước Nếu kết quả không phù hợp, ta cần lặp lại quá trình

Trang 24

Các nhiệm vụ khai thác dữ liệu điển hình gồm: phân lớp, phân cụm hoặc rút trích các luật kết hợp Khai thác luật kết hợp là một trong các kỹ thuật khai thác dữ liệu quan trọng được biết đến nhiều vì tính dễ sử dụng của kết quả khai thác cũng như phạm vi ứng dụng rộng rãi của nó Được đề xuất và nghiên cứu đầu tiên bởi

Agrawal 1[5], khai thác tập phổ biến và luật kết hợp quan tâm đến việc rút trích ra

các mẫu/tập phổ biến, các luật kết hợp giữa các mẫu phổ biến trong các cơ sở dữ liệu giao tác (hoặc các nguồn dữ liệu khác)

Khai thác luật kết hợp được áp dụng đầu tiên cho các siêu thị và sau này cho truyền thông mạng, quản lý rủi ro, điều khiển, Khi quan sát các giao dịch mua hàng diễn ra trong một siêu thị, ta có thể biết được các mặt hàng thường xuyên được mua cùng nhau, chẳng hạn như sữa và bơ Trong tập các giao dịch xuất hiện sữa và

bơ, có đến 90% giao dịch, khách hàng mua thêm trứng Khi đó ta có luật “sữa và bơ

→ trứng” với độ chắc chắn hay độ tin cậy 90% Luật này có thể được sử dụng để sắp xếp lại các mặt hàng sữa, bơ và trứng (chẳng hạn, gần nhau để thuận tiện cho khách hàng) cũng như giúp hỗ trợ ra các quyết định kinh doanh (như: việc tăng lên của doanh thu bán sữa và bơ có thể kéo theo sự tăng giá của trứng) Nếu các giao dịch có mua sữa, bơ và trứng xảy ra thường xuyên (tập mặt hàng sữa, bơ và trứng là tập phổ biến), luật càng có ý nghĩa

Định nghĩa 1.1 (Cơ sở dữ liệu giao tác – cơ sở dữ liệu nhị phân) Cho là tập các

mặt hàng Một cơ sở dữ liệu giao tác (xem [5]) gồm một tập các giao tác, mỗi

giao tác chứa các mặt hàng được mua trong giao dịch, với Ta có

thể xem cơ sở dữ liệu giao tác như là cơ sở dữ liệu nhị phân gồm bộ ba

, trong đó:

 là tập không rỗng chứa các đối tượng (hay các giao tác xuất hiện trong ),

 là tập khác rỗng chứa tất cả các thuộc tính xuất hiện trong các đối tượng

Trang 25

 là một quan hệ hai ngôi trên (với khi và chỉ khi mặt hàng

xuất hiện trong giao tác )

1.2 Bài toán khai thác luật kết hợp và các tiếp cận

Bài toán khai thác luật kết hợp được phát biểu (xem [5]) như sau:

Bài toán 1 : Cho trước bảng cơ sở dữ liệu nhị phân và

các ngưỡng hỗ trợ và tin cậy tối thiểu với

2

Xem định nghĩa chặt chẽ của chúng trong các mục 2.1.1 và 3.1.1

Trang 26

trong cây hoặc các biến thể của nó Sử dụng chiến lược chia để trị và kỹ thuật tìm kiếm theo chiều sâu, tất cả các tập phổ biến được khai thác từ các tập phổ biến 1 phần tử dựa trên cây mà không cần phải quét lại cơ sở dữ liệu Tuy nhiên, việc sử dụng cây gặp phải khó khăn trong các hệ thống khai thác dữ liệu tương tác cũng như tăng cường Trong các hệ thống này, người sử dụng hay thay đổi ngưỡng độ hỗ trợ tối thiểu cũng như chèn các giao tác mới vào cơ sở dữ liệu Khi đó, cây có thể phải được xây dựng lại hoàn toàn Các thuật toán làm việc dựa trên nguyên lý

và cấu trúc cây sử dụng định dạng dữ liệu theo chiều ngang Ngược lại,

Zaki [93, 94] sử dụng định dạng theo chiều dọc để khai thác tập phổ biến Thuật

toán dựa trên giao các tập giao tác (tập đối tượng) được mô tả trong [93] Tiếp cận sử dụng kỹ thuật “diffset” (lưu và tính toán trên phần hiệu) xuất hiện trong [94] Một so sánh thử nghiệm các thuật toán khai thác tập phổ biến có thể được tìm thấy trong [48]

Tuy nhiên, khi độ phức tạp của việc tìm tập phổ biến tăng lên (do tăng độ lớn của dữ liệu hoặc giảm các ngưỡng độ hỗ trợ tối thiểu), việc áp dụng các thuật toán

đã thảo luận ở trên trở nên khó khăn: trong trường hợp xấu nhất, lực lượng của lớp các tập phổ biến lớn cỡ mũ: , (chẳng hạn khi ) Các tiếp cận gần đây hướng về việc tìm các biểu diễn đặc của lớp các tập phổ biến như các tập phổ biến tối đại (chẳng hạn các thuật toán Mafia [32], [20] và [50]) và các tập phổ biến đóng (chẳng hạn các thuật toán [73], [75] và [96]) và sử dụng các biểu diễn này để tìm các tập phổ biến cũng như luật kết hợp Việc sử dụng các biểu diễn này không chỉ cho phép rút gọn việc tính toán và lưu trữ mà còn giúp phân tích kết quả dễ dàng hơn Các tập phổ biến tối đại (mọi tập cha thật sự của một tập phổ biến tối đại đều không là tập phổ biến) với số lượng bé hơn nhiều có thể xác định được lớp tất cả các tập phổ biến (nhờ tính chất : mọi tập con của một tập phổ biến cũng là một tập phổ biến với độ hỗ trợ lớn hơn hoặc bằng nó) Tuy nhiên, vì có nhiều tập phổ biến có thể được khai thác trùng lặp (từ các tập tối đại khác nhau) và đánh mất thông tin về độ hỗ trợ nên chúng không phù hợp cho khai thác luật kết hợp Dựa

Trang 27

trên lý thuyết dàn [26, 27] cho phân tích khái niệm hình thức [41, 46, 90, 91], các tập đóng được nghiên cứu nhiều trong thời gian gần đây [33, 73, 74, 95]

Một tập thuộc tính là tập đóng nếu nó bằng với bao đóng của nó (xem 2.1.1)

Một tập phổ biến đóng có thể đại diện cho một nhóm nhiều các tập phổ biến có bao đóng bằng nó, nói cách khác hai tập phổ biến là tương đương nếu chúng có cùng bao đóng (do đó cùng độ hỗ trợ) Nhờ đặc tính này, với một số lượng vừa phải, không quá lớn so với lớp các tập tối đại (thiếu thông tin cốt yếu về độ hỗ trợ), cũng không quá lớn như số lượng các tập phổ biến (thông tin về độ hỗ trợ bị lưu trữ trùng lặp), lớp các tập phổ biến đóng rất phù hợp với việc khai thác tập phổ biến cũng như luật kết hợp Một đánh giá thực nghiệm trong [96] đã chỉ ra rằng trên các cơ sở dữ liệu đặc, số tập phổ biến đóng lớn hơn khoảng lần số tập phổ biến tối đại nhưng

nó nhỏ hơn đến khoảng lần số tập phổ biến Từ mỗi tập phổ biến đóng, ta có thể dẫn ra tất cả các tập phổ biến khác có cùng bao đóng với nó, nghĩa là từ lớp tất

cả các tâp phổ biến đóng ta có thể dẫn ra lớp tất cả các tập phổ biến Kết quả này đã được chứng minh (chẳng hạn trong [74, 95]), tuy nhiên vấn đề là làm sao dẫn xuất

ra chúng một cách hiệu quả? Việc dẫn ra các tập phổ biến từ một tập phổ biến đóng thật sự đạt được hiệu quả cao nếu ta biết thêm các tập sinh của nó (tập sinh của một tập thuộc tính là tập con tối tiểu có cùng bao đóng với tập thuộc tính đó) Các tên gọi khác nhau của tập sinh (“mẫu khóa” – key pattern, “tập tự do” – free set, “tập sinh tối tiểu” – minimal generator hoặc “tập sinh” – generator) và các định nghĩa khác nhau của tập đóng và tập sinh xuất hiện trong [19, 34, 42, 73, 74, 83, 95] Luận

án sẽ chỉ ra rằng các định nghĩa này là tương đương (trong Hệ quả 2.1 và Hệ quả

2.2)

Nhiều nghiên cứu gần đây [17, 24, 25, 74, 95] đã sử dụng các tập phổ biến đóng

và các tập sinh để khai thác luật kết hợp Dựa trên chúng, Zaki [95] đã chỉ ra thuật

toán tìm các luật kết hợp (cơ sở) dạng “khái quát nhất” (most general rules),

Pasquier [74] đã đưa ra các thuật toán khai thác các luật (cơ sở) dạng “tối tiểu”

(minimal rules) và suy dẫn ra các luật hệ quả còn lại Trong quá trình tìm cơ sở lý

thuyết và cách chứng minh tính đúng cho một số thuật toán của Pasquier [74],

Trang 28

nhưng không chứng minh được vì thiếu điều kiện, chúng tôi đã tìm ra được một phản ví dụ để chứng minh một trong các thuật toán đó vi phạm tính đúng và không đầy đủ, cũng như một số thuật toán khác của ông ta sinh thừa quá nhiều các luật hệ quả Trong thuật toán tìm các luật khái quát nhất dựa trên các tập phổ biến đóng và

tập sinh của Zaki [94], ta có thể bỏ đi việc kiểm tra một số điều kiện cần không cần

thiết mà thuật toán đó vẫn đúng Bằng các kết quả lý thuyết đúng đắn, được chứng minh chặt chẽ và kiểm chứng qua thực nghiệm, các nhược điểm đó đã khắc phục bởi

Tín [85, 86] Trong luận án của mình [3], Bảy đã sử dụng đồ thị để nâng cao hiệu

quả khai thác luật kết hợp Trước hết, tác giả sử dụng thuật toán tìm các tập phổ biến và xây dựng cung nối thể hiện quan hệ thứ tự (chứa trong tập hợp thông thường) giữa chúng Từ đó, thuật toán được xây dựng để khai thác tất cả các luật kết hợp (mà tác giả gọi là luật kết hợp truyền thống) Việc khai thác luật từ các độ đo thú vị cũng được quan tâm Sau đó, tác giả tích hợp thêm việc khai thác tập sinh vào [96] để tìm đồ thị các tập phổ biến đóng và các tập sinh của chúng (thuật toán ) hoặc tìm theo kiểu tăng cường (thuật toán ) Dựa trên đồ thị này, tác giả đã xét việc khai thác các luật kết hợp không dư thừa tối tiểu và luật thiết yếu nhất) Các thuật toán được đề xuất đã nâng cao được khả năng khai thác luật kết hợp qua nhiều kiểm chứng thực nghiệm Tuy nhiên, tính đúng và hiệu quả của chúng vẫn chưa thật sự được chứng minh chặt chẽ bằng các kết quả lý thuyết tương ứng

1.3 Bài toán khai thác luật kết hợp với ràng buộc (trên tập thuộc

tính)

Vì kích thước lớn của tập luật kết hợp, ngoài việc tiêu tốn nhiều thời gian và bộ nhớ cho việc khai thác, ta còn gặp khó khăn trong việc lưu trữ, quản lý và sử dụng kết quả thu được Vì vậy, bài toán có ý nghĩa thực tế hơn là tìm tập luật kết hợp với kích thước bé, đủ để quản lý được và ngoài ra cần gắn với nhu cầu thật sự của người

sử dụng

Trang 29

Nhiều mô hình khai thác tập phổ biến/luật kết hợp với các kiểu ràng buộc khác nhau được nghiên cứu trong thời gian gần đây (xem tổng quan các nghiên cứu trong

Mục 4.1) Các kết quả gần gần đây [1, 8, 11, 52, 53] quan tâm đến bài toán khai thác

các tập phổ biến với các ràng buộc trực tiếp trên các ngưỡng hỗ trợ và tin cậy lẫn trên các thuộc tính thường xuyên thay đổi Chẳng hạn khi khai thác dữ liệu trực tuyến ta cần tìm các tập từ khóa phổ biến hạn chế trong một tập từ khóa ứng với một chủ đề cho trước, hoặc chứa ít nhất một từ khóa trong một chủ đề ràng buộc

nào đó Trong Chương 4, luận án quan tâm giải quyết hai bài toán (tổng quát hơn)

khai thác luật kết hợp với các ràng buộc tổng quát trực tiếp trên tập thuộc tính:

Bài toán 2 : Khai thác các luật kết hợp với ràng buộc kép và

Bài toán 3 : Khai thác các luật kết hợp với ràng buộc giao khác rỗng

1.4 Các khó khăn của việc khai thác luật kết hợp và phương pháp

tiếp cận

1.4.1 Các khó khăn của việc khai thác luật kết hợp

Khó khăn lớn nhất khi tìm luật kết hợp là lực lượng của nó trong trường hợp xấu nhất lớn cỡ mũ: (chẳng hạn khi ) Ta thường gặp phải vấn đề sinh nhiều các ứng viên [UV1] (cần thỏa các điều kiện cần cho chúng, chẳng hạn tính chất (chỉ

có thể thu hẹp một phần không gian tìm kiếm lời giải), …) cũng như tập phổ biến [LG2] và kiểm tra các điều kiện đủ (chẳng hạn, chỉ dựa vào việc tính độ hỗ trợ và

độ tin cậy, có thể đòi hỏi việc quét lại cơ sở dữ liệu hoặc có kích thước rất lớn [DL3]) phức tạp cho lời giải Ngoài ra, ta cũng đối diện với việc tính toán và lưu trữ trùng lặp thông tin liên quan đến các nhóm con lời giải Thậm chí, trong một

số thuật toán (chẳng hạn thuật toán suy dẫn luật hệ quả của Pasquier [74]), các luật

Trang 30

sinh ra vẫn có thể bị trùng lặp mà việc kiểm tra và loại bỏ chúng mất nhiều thời gian

Điều đó dẫn đến 3 hệ quả là:

 Thời gian chạy chương trình rất lâu, có thể không khả thi trên thực tế, nếu không có các thuật toán hiệu quả để tìm chúng;

 Kích thước bộ nhớ để lưu trữ chúng cũng quá lớn;

 Khó khăn cho người sử dụng trên các tập kết quả có kích thước quá lớn [KT4]

Nếu các khó khăn này không được giải quyết, việc giải bài toán khai thác luật kết hợp với ràng buộc (trên độ hỗ trợ, độ tin cậy và trên tập thuộc tính) lại càng khó khăn hơn Để giải quyết chúng, ta cần một phương pháp tiếp cận thỏa mãn càng nhiều càng tốt các tiêu chí sau:

 [BT1] Tính bảo toàn: không chỉ liệt kê ra các tập phổ biến, luật kết hợp mà còn cần biết độ hỗ trợ, độ tin cậy của chúng; không chỉ biết độ hỗ trợ, độ tin cậy của các tập phổ biến và luật kết hợp mà còn giảm việc lưu trùng lặp chúng

 [CS2] Lưu các tập cơ sở (tập cơ sở cho lớp tập phổ biến, tập cơ sở cho tập luật kết hợp) càng bé và khi cần dẫn xuất ra nhanh chóng (trực tiếp, không trùng lặp) các tập hệ quả còn lại từ các tập cơ sở tương ứng

 [KM3] Lưu thông tin cốt lõi (nhỏ, gọn) làm cơ sở cho việc biểu diễn không mất thông tin và khai thác hiệu quả mọi thông tin còn lại của bài toán

 [SS4] Có thể thiết kế các thuật toán song song hiệu quả khai thác tập phổ biến và luật kết hợp

 [BV5] Khá bền vững: khi các ràng buộc thay đổi (đặc biệt là ràng buộc trên tập thuộc tính), ta thường không phải giải lại bài toán từ đầu

Trang 31

1.4.2 Phương pháp tiếp cận

A Dựa vào các tập phổ biến đóng và các tập sinh

Để tránh việc sinh thừa (hoặc trùng lặp) các ứng viên cũng như tính toán và lưu trữ trùng lặp các thông tin liên quan đến lời giải, phương pháp mà luận án tiếp cận dựa vào biểu đồ các tập phổ biến đóng với ngưỡng cùng các tập sinh và độ hỗ trợ của chúng Đây là biểu đồ con của biểu đồ Hasse biểu diễn dàn các tập đóng cùng các tập sinh và độ hỗ trợ của chúng (mà số lượng các tập đóng và các tập sinh thường bé hơn rất nhiều so với số lượng các tập phổ biến và số lượng luật kết hợp, đặc biệt là với các cơ sở dữ liệu đặc, có tính thống kê cao) Ngưỡng được chọn khá bé so với các giá trị ngưỡng hỗ trợ tối thiểu mà người sử dụng thường chọn trong thực tế ( ) và ta có thể khai thác biểu đồ từ

cơ sở dữ liệu dựa vào thuật toán đề xuất trong Chương 2 Tiếp cận này

có thuận lợi là từ biểu đồ (với kích thước khá bé, chứa thông tin cốt lõi của các tập phổ biến và luật kết hợp, được tính toán và lưu trữ chỉ một lần trong hệ thống (+[KM3], +[BV5], -[DL3])), ta có thể xác định nhanh:

(1) biểu đồ con phục vụ cho việc khai thác tập phổ biến,

(2) đồ thị cho việc giải (trong Chương 3) bài toán tìm luật kết

hợp (đồ thị này chứa các đỉnh thuộc biểu đồ con , mỗi cung nối giữa hai đỉnh đại diện một lớp luật con các luật thỏa mãn và ), (3) và đồ thị để giải (trong Chương 4) các bài toán khai thác luật kết hợp mở rộng với ràng buộc (đồ thị này chứa các tập phổ biến đóng thuộc biểu đồ , mỗi cung nối giữa hai đỉnh đại diện cho lớp luật với ràng buộc khác rỗng)

B Phân hoạch rời các tập lời giải, tìm biểu diễn duy nhất của mỗi lời giải trong mỗi lớp con theo các tập đóng đại diện của lớp và các tập sinh của chúng

Sử dụng một quan hệ tương đương dựa trên bao đóng hai vế của luật, tập luật kết hợp được phân hoạch thành các lớp tương đương rời nhau Điều này làm giảm phần

Trang 32

lớn việc sinh các ứng viên (-[UV1]) cho lời giải (-[LG2]) cũng như giảm việc tính toán và lưu trữ trùng lặp (+[BT1]) các độ hỗ trợ và độ tin cậy cho mọi luật trong cùng một lớp luật Đây cũng chính là cơ sở để thiết kế các thuật toán song song (+[SS4]) hiệu quả khai thác tập phổ biến và luật kết hợp trong môi trường phân tán Trong mỗi lớp luật tương đương đại diện bởi hai tập phổ biến đóng lồng nhau thỏa mãn các ngưỡng ( thuộc ), vế trái và hợp hai vế của chúng đều thuộc các lớp tập phổ biến tương đương và (-[UV1

], [LG2], +[BT1], +[SS4]) Trong mỗi lớp (hoặc ), tập đóng (hoặc ) là tập lớn nhất, các tập sinh tương ứng của chúng là các tập tối tiểu, mọi tập còn lại có thể biểu diễn duy nhất một cách tường minh qua các tập sinh và tập bỏ được (gắn với tập có độ đo xác suất không) (+[KM3], +[CS2]), từ đó chúng được sinh ra không trùng lắp Dựa trên đó, ta có thể chỉ ra biểu diễn duy nhất, tường minh cho các luật trong mỗi lớp dựa trên , và các tập sinh của chúng (+[KM3]) Dựa chính vào các tập sinh với kích thước bé và số lượng ít này, các thuật toán tương ứng sẽ sinh nhanh chóng các luật

-Vì kích thước của mỗi lớp luật còn lớn, ta chỉ cần khai thác tập luật cơ sở của

nó Các luật cơ sở dạng “khái quát nhất” và “tối tiểu” đã được xét bởi Zaki [95], Tín [86], Passquier [74] và Tín [85] Theo cách nhìn khái quát, các tập luật cơ sở này

được hiểu nhất quán là các tập tối tiểu ứng với hai quan hệ thứ tự đặc biệt và

Với hai quan hệ thứ tự khác và , ta lại có hai loại tập luật cơ sở khác, như đã chỉ ra trong [4] và [2] tương ứng Luận án cũng khảo sát một quan hệ thứ tự mới mà tập luật cơ sở tương ứng có ưu điểm là kích thước của nó bé hơn bốn tập luật cơ sở đã xét trước đây Với mỗi lớp luật đại diện bởi cặp tập phổ biến đóng lồng nhau , dựa trên cấu trúc của các tập phổ biến và các quan hệ thứ tự, biểu diễn đơn giản, tường minh cho tập luật cơ sở tương ứng (chứa các luật tối tiểu) được chỉ ra Từ đó, tất cả các luật hệ quả (luật không tối tiểu) còn lại được dẫn xuất không trùng lặp bằng cách thêm, bớt hoặc chuyển vế các tập con bỏ được theo các toán tử suy dẫn phù hợp (+[CS2])

Trang 33

Để giải hai bài toán khai thác các tập luật kết hợp với ràng buộc đặt ra , , trước hết, luận án tìm các điều kiện cần để các tập luật kết hợp với ràng buộc

đó khác rỗng và sau đó, xác định đồ thị các tập phổ biến đóng thỏa ràng buộc tương ứng từ biểu đồ Dựa trên đồ thị này, tập luật kết hợp với ràng buộc tương ứng được phân hoạch thành các lớp luật tương đương với ràng buộc khác rỗng rời nhau Để khai thác một lớp luật, tiếp cận đơn giản là sinh tất cả các luật trong lớp rồi sau đó chọn ra các luật thỏa ràng buộc Tiếp cận này không hiệu quả khi có quá nhiều luật ứng viên không thỏa ràng buộc Để khắc phục hạn chế này, tiếp cận của luận án là đi tìm các biểu diễn tường minh, duy nhất các luật với ràng buộc trong mỗi lớp cũng dựa vào các tập phổ biến đóng và các tập sinh của chúng Sự biểu diễn này cũng chỉ ra cách sinh đầy đủ, không trùng lặp mọi luật với ràng buộc và được thể hiện thành các thuật toán hiệu quả tương ứng

1.5 Các đóng góp chính của luận án

(1) Diễn đạt lại một cách hệ thống bằng ngôn ngữ toán học một số khái niệm cơ bản của bài toán khai thác tập phổ biến và luật kết hợp; và bài toán tương ứng với các ràng buộc tổng quát trên tập thuộc tính

(2) Đề xuất thuật toán khai thác hiệu quả các tập phổ biến đóng

cùng các tập sinh và độ hỗ trợ của chúng – thông tin cốt lõi phục vụ cho việc giải các bài toán khai thác tập phổ biến và luật kết hợp có và không có ràng buộc (Kết quả chính được công bố trong [14])

(3) Chỉ ra các cấu trúc và biểu diễn duy nhất của lớp các tập phổ biến và tập luật kết hợp dựa trên đồ thị các tập phổ biến đóng cùng các tập sinh và độ hỗ trợ của chúng (Kết quả chính được công bố trong [15])

(4) Xác định các cấu trúc và biểu diễn duy nhất cho các tập luật kết hợp với ràng buộc dựa trên đồ thị các tập phổ biến đóng thỏa mãn ràng buộc cùng các tập sinh và độ hỗ trợ của chúng (Các kết quả chính được công bố trong [11, 13])

Trang 34

(5) Các cấu trúc và biểu diễn duy nhất trên đều có nền tảng lý thuyết được chứng

minh chặt chẽ trước khi chuyển thành các thuật toán hiệu quả tương ứng (dễ

được song song hóa trong môi trường phân tán và phù hợp với các thay đổi ngưỡng hỗ trợ, tin cậy lẫn trên ràng buộc thuộc tính)

Qua các đóng góp chính trên, luận án đã giải quyết tất cả các mục tiêu đặt ra: đóng góp (2) đã giải quyết mục tiêu (4); các đóng góp (3), (4) và (5) đã giải quyết các mục tiêu (2) và (3)

1.6 Bố cục luận án

Để thực thi được phương pháp tiếp cận trên, ta thật sự cần khai thác trước từ cơ sở

dữ liệu các tập phổ biến đóng cùng các tập sinh và độ hỗ trợ của chúng (xem phát

biểu bài toán trong 2.2) Trong Chương 2, sau khi nhìn lại các khái niệm, kết quả cơ

sở cũng như các tiếp cận liên quan đến bài toán khai thác các tập đóng và các tập sinh, luận án đề xuất thuật toán [14] khai thác theo mức, đồng thời các tập phổ biến đóng và những tập sinh của chúng trên một cây (tập thuộc tính – tập đối tượng – tập sinh) Trước hết, một điều kiện cần và đủ để xác định các tập sinh phần tử từ lớp các tập sinh phần tử biết trước được chỉ ra Sau đó, ba toán tử để mở rộng các tập thuộc tính “tiền đóng” đính kèm với các tập sinh hướng đến các tập đóng tương ứng được đề xuất Mô tả chi tiết các bước thực hiện, các kỹ thuật thực thi và chứng minh tính đúng đắn, đầy đủ của thuật toán được cho trong mục tiếp theo Phần cuối chương là kết quả so sánh hiệu quả của với

và , hai thuật toán khai thác tập đóng và tập sinh tiêu biểu

Trong Chương 3 [15], trước hết, luận án giới thiệu lại các khái niệm và kết quả

cơ bản trong bài toán khai thác tập phổ biến và luật kết hợp đặc biệt là khái niệm tập bỏ được và hai phân hoạch lớp tập phổ biến và tập luật kết hợp thành các lớp tương đương rời nhau Sau đó, luận án chỉ ra cấu trúc của các tập thuộc tính trong lớp tương đương dưới hạn chế thông qua các tập sinh và tập bỏ được Bằng các kỹ

Trang 35

thuật biểu diễn tập hợp, ta thu được biểu diễn duy nhất (và thuật toán hiệu quả tương ứng sinh đầy đủ, không trùng lặp) chúng Kết quả tổng quát này sau đó được sử dụng để xác định cấu trúc và biểu diễn duy nhất của các luật kết hợp trong mỗi lớp luật tương đương (và tổ chức thuật toán tương ứng khai thác chúng) Tiếp theo, chúng tôi phân lớp cấu trúc tập luật kết hợp bởi các loại tập luật cơ sở và hệ quả tương ứng theo các quan hệ thứ tự khác nhau (gồm quan hệ thứ tự mới) Các đánh giá lý thuyết và thực nghiệm để chứng minh rằng tập luật cơ sở min tốt hơn theo nghĩa số luật cơ sở và thời gian khai thác chúng (bằng hai thuật toán và ) bé nhất được trình bày sau

đó Trong phần còn lại của chương này, luận án đề xuất hai toán tử sinh đầy đủ và không trùng lặp tất cả các luật hệ quả min từ tập con các luật cơ sở min có cùng vế trái hoặc cùng vế phải Từ đó, ta thu được hai thuật toán tương ứng

và dẫn ra đầy đủ, không trùng lặp tất cả các luật hệ quả từ tập luật cơ

sở min

Ở Chương 4 [11, 13], sau khi giới thiệu một số nghiên cứu về khai thác tập phổ

biến và luật kết hợp với các kiểu ràng buộc, luận án đặt ra hai bài toán khai thác luật kết hợp với ràng buộc trực tiếp trên tập thuộc tính (ràng buộc kép – , ràng buộc giao khác rỗng – ), khảo sát các tiếp cận liên quan và phát triển phương

pháp tiếp cận đã được sử dụng trong Chương 3 để giải quyết chúng Các kết quả lý

thuyết và thuật toán thu được khi áp dụng tiếp cận này giải và được mô tả đầy đủ, chi tiết và kiểm chứng lại bằng thực nghiệm trong các mục tiếp theo tương ứng

Trang 36

Chương 2 Khai thác các tập đóng và các tập sinh – cơ sở lý

thuyết và thuật toán GENCLOSE

Như đã thảo luận trong phần giới thiệu, các tập phổ biến đóng và các tập sinh của chúng đóng vai trò quan trọng trong khai thác tập phổ biến và luật kết hợp Trong chương này, chúng ta sẽ thấy chúng là cơ sở để đưa ra một biểu diễn đầy đủ, không mất thông tin của tất cả các tập phổ biến và luật kết hợp cũng như giúp khai thác hiệu quả chúng Các thuật toán đã đề xuất trước đây hoặc khai thác chỉ các tập phổ biến đóng hoặc chỉ các tập sinh của chúng một cách độc lập Do đó, để tìm cả các tập phổ biến đóng lẫn các tập sinh của chúng, ta cần áp dụng tuần tự hai trong số chúng Các câu hỏi được đặt ra là: (1) liệu ta có thể khai thác chúng cùng lúc, (2) việc khai thác đồng thời như thế có rút gọn được thời gian khai thác hay không

, đề xuất bởi Pasquier [73], là ví dụ đầu tiên khẳng định rằng chúng ta có thể

khai thác đồng thời cả các tập phổ biến đóng và các tập sinh Tuy nhiên, đáng tiếc là hiệu quả của thuật toán không cao (chẳng hạn vì cần nhiều lần quét cơ sở dữ liệu) Dựa trên các đặc tính của các tập đóng và các tập sinh cũng như các mối quan hệ của chúng, chương này đề xuất thuật toán khai thác hiệu quả đồng thời các tập phổ biến đóng và những tập sinh của chúng Một tìm kiếm dần theo mức trên một cây (tập thuộc tính – tập đối tượng – tập sinh) được thực thi để khai

thác các tập sinh sử dụng một điều kiện cần và đủ để xác định các tập sinh i+1 phần tử từ lớp các tập sinh i phần tử biết trước Tính đúng của điều kiện này được

chứng minh chặt chẽ về mặt lý thuyết Chỉ dựa trên các tính toán lực lượng của tập hợp với kỹ thuật “diffset”, việc kiểm tra điều kiện này là đơn giản Trong quá trình

tìm kiếm, các tập thuộc tính “tiền đóng” (đính kèm với các tập sinh) được mở rộng

Trang 37

một cách tự nhiên dần đến các bao đóng của chúng bằng ba toán tử mở rộng (trong

đó hai toán tử được phát triển từ [96]) mà tính đúng đắn của chúng sẽ được chứng minh Các kết quả thử nghiệm trên nhiều cơ sở dữ liệu “benchmark” đã xác nhận tính hiệu quả của thuật toán đề xuất

Tổ chức của chương này như sau Mục 2.1 trình bày các khái niệm và các tính

chất cơ bản về các tập đóng, tập sinh cũng như chỉ ra sự tương đương của các định nghĩa về chúng Các nghiên cứu liên quan đến bài toán khai thác các tập đóng cùng

các tập sinh của chúng được thảo luận trong Mục 2.2 Mục 2.3 trước hết chỉ ra một

số các điều kiện cần và đủ tương đương để tìm các tập sinh và sau đó đề xuất ba toán tử bổ sung để mở rộng các tập sinh hướng đến các bao đóng của chúng Dựa trên hai kết quả này, thuật toán được xây dựng Tính đúng đắn, tính đầy

đủ và một số kỹ thuật thực thi của thuật toán cũng được chỉ ra Mục 2.4 trình bày kết quả so sánh với và , hai thuật toán khai thác tập

đóng và tập sinh tiêu biểu

2.1 Các khái niệm, kết quả cơ bản

2.1.1 Các khái niệm cơ bản

Cho cơ sở dữ liệu nhị phân ( ) Tập con chứa các thuộc tính trong , ( ) được gọi là một tập thuộc tính Tập con chứa các đối tượng trong ( ) được gọi là một tập đối tượng Định nghĩa * + và * + là các lớp chứa mọi tập con của và tương ứng Chúng ta xét toán tử

từ lớp tất cả các đối tượng vào lớp tất cả các tập thuộc tính và toán tử theo chiều ngược lại như sau: ,

( ) * | ( ) +

(quy ước rằng ( ) ( ) ) Định nghĩa toán tử bao đóng trong là ánh xạ hợp của và , và toán tử bao đóng trong là ánh xạ hợp của và : , Khi đó,

Trang 38

( ) ( ( ))

và ( ) ( ( )) được gọi là các bao đóng của tập thuộc tính và tập đối tượng

O tương ứng Nếu ( ) , thì được gọi là tập thuộc tính đóng (gọi tắt là tập

đóng) Nếu ( ) , thì được gọi là tập đối tượng đóng Các toán tử , và được gọi là các toán tử Galois Chi tiết về các khái niệm này có thể xem thêm trong [26, 41, 46, 90, 91]

Độ hỗ trợ của tập thuộc tính được định nghĩa là tần suất xuất hiện các giao tác trong có chứa ,

( ) | ( )|

| | Với ngưỡng hỗ trợ tối thiểu , | | -, tập thuộc tính được gọi là tập

Từ đây về sau, chúng ta chỉ xét các tập thuộc tính không tầm thường (có ( ) ) trong Nếu tập phổ biến là tập đóng, ta gọi nó là một tập phổ biến đóng Với hai tập khác rỗng bất kỳ , được gọi là một tập sinh 4 của (xem thêm

Trang 39

Ví dụ 2.1 (Một phân hoạch của lớp tất cả các tập phổ biến) Xét cơ sở dữ liệu

cho trong Bảng 2.1 với * + và Vì (* +)

và ( ) * +, nên ( ) ( ( )) , tức là, là một tập đóng Do đó, * + là một tập đối tượng đóng (thật vậy, (* +) ( (* +)) * +) Với 5, là một tập phổ biến vì ( ) Vì vậy, là một tập phổ biến đóng Xét tập con của Do ( ) ( ) và chỉ chứa thật sự một thuộc tính, nên là một tập sinh của Các tập con của có chứa thật sự thuộc tính ( * +) không thể là tập sinh của Ngoài ra, cũng là một tập sinh của vì ( ) ( ) và ( ) ( ) ( ) ( ) Ta dễ dàng kiểm tra rằng, ( ) * +

Trang 40

Hình 2.1 Một phân hoạch của lớp tất cả các tập phổ biến: các tập phổ biến đóng

(in đậm), các tập sinh (gạch dưới), độ hỗ trợ (ở trên, bên trái), tập đối tượng (ở

trên, bên phải)

2

C :=

aheg{1,3}

ag ae aeh aeg agh

2

B :=

fheg{3,4}

fg fe efh efg fgh

adfheg{3} aef afg de

dg aefh adef adefh adefg aefg aefgh afgh adfg adfgh deh ade adeh adeg adegh def defh defg defgh deg degh dgh adg adgh dfg

dfgh

1

adfhc{2}

dc afc acfh acdf cdh acd acdh cdf cdfh

1

ahbceg{1} ab agc aec

abh abc abch abce

abceh abceg abcg

abcgh abe abeh abeg

abegh abg abgh aceh

aceg acegh acgh

1

fhbceg{4} fb fgc fec bfh bcf bcfh bcef bcefh bcefg bcfg bcfgh bef befh befg befgh bfg bfgh cefh cefg cefgh cfgh

3

H :=

hc{1,2,4}

Định dạng
Số trang	222
Dung lượng	6,11 MB