Nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ và ứng dụng

Trong thực tế CSDL thương bao gồm có cả các thuộc tính định lượng, các thuật toán khai phá luật kết hợp với dữ liệu nhi phân không thể áp dụng với CSDL dạng này.. Để có thể xử lý dữ liệu

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

Nguyễn Tuấn Anh

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN

NGỮ VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – Năm 2020

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN

NGỮ VÀ ỨNG DỤNG

Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC

Mã sỗ: 62.46.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS.TSKH Nguyễn Cát Hồ

2 TS Trần Thái Sơn

Hà Nội – Năm 2020

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án Các kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác

Tác giả

Trang 4

LỜI CẢM ƠN

Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS TSKH Nguyễn Cát Hồ và TS Trần Thái Sơn Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết

ơn sâu sắc nhất tới hai thầy

Tác giả gửi lời cảm ơn chân thành tới Ban lãnh đạo Học viện Khoa học và Công nghệ, Viện Công nghệ thông tin, khoa Công nghệ thông tin và truyền thông đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án

Xin cảm ơn Ban giám hiệu trường Đại học Công nghệ thông tin và Truyền thông - ĐHTN, Ban chủ nhiệm khoa Công nghệ thông tin đã quan tâm giúp đỡ, tạo điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu

Cảm ơn các đồng nghiệp thuộc Khoa Công nghệ thông tin - Trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các anh chị trong nhóm nghiên cứu đại số gia tử đã động viên, khích lệ trao đổi những kiến thức và kinh nghiệm trong quá trình hoàn thành luận án

Cuối cùng, tác giả xin chân thành cảm ơn bố mẹ, chị em, đặc biệt là vợ và các con, những người luôn dành cho tác giả những tình cảm và chia sẻ những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu Luận án cũng là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành viên trong gia đình

Trang 5

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 5

DANH MỤC HÌNH BẢNG BIỂU 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7

MỞ ĐẦU 9

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ 17

1.1 Tập mờ và các phép toán trên tập mờ 17

1.1.1 Tập mờ (fuzzy set) 17

1.1.2 Biến ngôn ngữ 18

1.1.3 Phân hoạch mờ 19

1.2 Đại số gia tử 21

1.2.1 Khái niệm Đại số gia tử 21

1.2.2 Một số tính chất của ĐSGT tuyến tính 22

1.2.3 Định lượng ngữ nghĩa của giá trị ngôn ngữ 23

1.2.4 Khoảng mờ 24

1.2.5 Độ đo tính mờ của các giá trị ngôn ngữ 25

1.3 Giải thuật di truyền 27

1.4 Bài toán khai phá luật kết hợp 29

1.4.1 Một số khái niệm cơ bản 29

1.4.2 Bài toán khai phá luật kết hợp mờ 31

1.5 Một số hướng nghiên cứu về luật kết hợp 34

1.6 Kết luận chương 1 37

CHƯƠNG 2 KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP CẬN SỬ DỤNG ĐẠI SỐ GIA TỬ 38

2.1 Đặt vấn đề 38

2.2 Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT 39

2.2.1 Mờ hóa cơ sở dữ liệu giao dịch 39

2.2.2 Quan hệ khoảng cách giao dịch 41

2.2.3 Xây dựng bảng định lượng 42

2.3 Nén cơ sở dữ liệu giao dịch 43

2.4 Thuật toán trích xuất luật kết hợp mờ 46

Trang 6

2.5 Kết quả thử nghiệm 48

2.5.1 Thử nghiệm với CSDL FAM95 48

2.5.2 Thử nghiệm với CSDL STULONG 51

CHƯƠNG 3 PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN BIỂU DIỄN THỂ HẠT CỦA ĐSGT 56

3.1 Phân hoạch cho miền giá trị của thuộc tính 56

3.1.1 Đặt vấn đề 56

3.1.2 Rời rạc hóa thuộc tính định lượng 57

3.1.3 Phân chia miền giá trị của thuộc tính theo cách tiếp cận lý thuyết tập mờ 60

3.2 Phương pháp phân hoạch mờ bằng biểu diễn thể hạt với ĐSGT 63

3.2.1 Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt 64

3.2.2 Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt 66

3.3 Phương pháp tối ưu tham số mờ ĐSGT cho bài toán khai phá luật kết hợp 70

3.3.1 Mô hình giải thuật di truyền CHC 71

3.3.2 Mã hóa tập các MF 72

3.3.3 Đánh giá nhiễm sắc thể 73

3.4 Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp 75

3.5 Kết quả thử nghiệm 77

3.5.1 Cơ sở dữ liệu sử dụng trong thử nghiệm 77

3.5.2 Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn thể hạt 78

3.5.3 Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa thể hạt 93

KẾT LUẬN VÀ KIẾN NGHỊ 99

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 101

TÀI LIỆU THAM KHẢO 102

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Các ký hiệu

𝒜𝒳 Đại số gia tử tuyến tính

𝒜𝒳∗ Đại số gia tử tuyến tính đầy đủ

𝜇(ℎ) Độ đo tính mờ của gia tử h

𝑓𝑚(𝑥) Độ đo tính mờ của gia tử x

𝑣(𝑥) Hàm định lượng của giá trị ngôn ngữ của biến x

𝜇𝐴(𝑥) Hàm xác định độ thuộc của giá trị x vào tập mờ A 𝑙(𝑥) Độ dài của từ ngôn ngữ x

ℑ𝑓𝑚 Khoảng tính mờ của giá trị ngôn ngữ

FRBS Fuzzy Rule-based Systen

GA Giải thuật di truyền (Genetic Algorithms)

MF Hàm thuộc (Membership function)

SQM Semantically Quantifying Mapping

Min Supp Độ hỗ trợ tối thiểu

Trang 8

DANH MỤC HÌNH BẢNG BIỂU

Bảng 2.1: Cơ sở dữ liệu ví dụ 41

Bảng 2.2: Mờ hóa dữ liệu trong Bảng 2.1 41

Bảng 2.3: Bảng định lượng của cơ sở dữ liệu Bảng 2.2 43

Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80% 48

Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80% 49

Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80% 51

Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80% 52

Bảng 3.1: CSDL thống kế dân số của 10 gia đình 58

Bảng 3.2: Rời rạc hóa thuộc tính định lượng 58

Bảng 3.3: Ví dụ rời rạc hóa thuộc tính "Tuổi" 59

Bảng 3.4: CSDL thử nghiệm 77

Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương pháp sử dụng biểu diễn đơn thể hạt 78

Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt 79

Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật 82

Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet 86

Bảng 3.9: Bảng Độ thú vị trung bình 90

Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương pháp sử dụng biểu diễn đa thể hạt 94

Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp 94

Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp 95

Trang 9

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già 19

Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt 20

Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt 20

Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH 25

Hình 1.5: Độ đo tính mờ của biến TRUTH 26

Hình 1.6: Lưu đồ giải thuật di truyền 28

Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT 40

Hình 2.2: Tổng quan về thuật toán nén CSDL giao dịch 43

Hình 2.3: Thời gian thực hiện với CSDL nén và CSDL không nén 50

Hình 2.4: Thời gian thực hiện với CSDL nén 50

Hình 2.5: Thời gian thực hiện với CSDL nén và CSDL không nén 54

Hình 3.1: Xây dựng phần hoạch miền xác định của thuộc tính theo cách tiếp cận ĐSGT 65

Hình 3.2: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đơn thể hạt 65

Hình 3.3: Cấu trúc hạt thể nhiều mức 67

Hình 3.4: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đa thể hạt 69

Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính và khai phái luật kết hợp 70

Hình 3.6: Mô hình giải thuật di truyền CHC 72

Hình 3.7: Tập các MF cho mục Ij 74

Hình 3.8: Hai tập hàm thuộc phân bố không tốt 75

Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp 80

Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp 81

Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp 81

Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp 82

Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp 83

Trang 10

Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của

Herrera sử dụng lý thuyết tập mờ 85

Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng biểu diễn đơn thể hạt và ĐSGT 86

Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution 88

Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong 88

Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball 89

Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake 89

Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock 90

Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution 91

Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong 92

Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball 92 Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake 92

Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock 93

Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp 95

Hình 3.27: So sánh số lượng tập phổ biến và Min Supp 95

Hình 3.28: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng biểu diễn đa thể hạt và ĐSGT 97

Trang 11

MỞ ĐẦU

Cùng với sự phát triển mạnh mẽ của Công nghệ thông tin, đặc biệt là các hệ thống thông tin quản lý giai đoạn vừa qua, xuất hiện rất nhiều các kho thông tin hay CSDL lớn hoặc rất lớn Để khai thác thông tin ẩn trong các kho dữ liệu kích cỡ lớn như vậy nhằm phục vụ cho các nhu cầu quản lý cũng như cho các hoạt động khoa học khác nhau (như trí tuệ nhân tạo, ), hướng nghiên cứu khai phá dữ liệu, phát hiện tri thức đã ra đời thu hút sự quan tâm của các nhà tin học cũng như các chuyên gia trong nhiều lĩnh vực khác nhau như y tế, giáo dục,… và phát triển mạnh mẽ trong thời gian gần đây Vài thí dụ có thể thấy:

- Phát hiện những mối quan hệ dữ liệu, các luật kết hợp trong các kho dữ liệu lớn như các CSDL, các kho dữ liệu giao dịch bán hàng trong siêu thị, các kho dữ liệu

phản ảnh một phạm vi nào đó của hoạt động kinh tế - xã hội

- Giải quyết vấn đề trích rút thông tin trong tập dữ liệu lớn dạng các câu tóm tắt

ngôn ngữ (Linguistic summaries)

Bài toán khai thác luật kết hợp (Association rule mining) là hướng nghiên cứu quan trọng và sớm được nghiên cứu phát triển trong hướng nghiên cứu khai phá dữ liệu Giai đoạn đầu, các nghiên cứu trước đây được giới hạn trong phạm vi “bài toán luật kết hợp cổ điển”, tức là chỉ làm việc với các kho dữ liệu có giá trị nhị phân (0 và 1), sau đó mở rộng ra dữ liệu nằm trong trường số thực Trong những năm gần đây nhiều giải thuật dùng cho những công việc đặc thù đã được phát triển theo nhiều hướng khác nhau nhưng chủ yếu xoay quanh hai hướng chính:

(i) Cải tiến tốc độ trung bình các thuật toán khai phá luật kết hợp, vì thông

thường đây là bài toán có độ phức tạp hàm mũ do phải quét CSDL nhiều lần

(ii) Nghiên cứu sâu hơn về ý nghĩa của các luật kết hợp vì ta thấy không phải

luật kết hợp nào khai phá được cũng có ý nghĩa đối vời người sử dụng

Có rất nhiều thuật toán đã được đề xuất để tìm kiếm luật kết hợp từ CSDL có thuộc tính định lượng Dạng khai phá luật kết hợp đầu tiên được đề xuất là luật kết hợp nhị phân dựa trên dữ liệu basket đã được Agrawal và cộng sự đề xuất [21] Ở đây CSDL là một bảng các giao dịch tại một siêu thị trong ngày chẳng hạn với các cột là các mục (hàng hóa) và các dòng là danh sách người mua Nếu người A mua hàng ở

Trang 12

các mục x, y, z,… thì tại đó, CSDL nhận giá trị 1, còn lại là nhận giá trị 0 Như vậy, bài toán khai phá dữ liệu ban đầu làm việc với các giá trị nhị phân

Một luật kết hợp có dạng R: "𝑁ế𝑢 𝑋 𝑡ℎì 𝑌", trong đó X, Y là tập các mục,

𝑋, 𝑌 ⊆I và X ∩Y = ∅, X được gọi là tiên đề, Y được gọi là hệ quả của luật Hai độ do quan trọng và thường được sử dụng trong bài toán khai phá luật kết hợp là: Độ hỗ trợ

(support) và Độ tin cậy (confidence)

Với CSDL nhị phân chỉ quan tâm là một mặt hàng có xuất hiện trong giao dịch hay không mà không quan tâm đến số lượng mặt hàng trong mỗi giao dịch Trong thực tế CSDL thương bao gồm có cả các thuộc tính định lượng, các thuật toán khai phá luật kết hợp với dữ liệu nhi phân không thể áp dụng với CSDL dạng này Để có thể xử lý dữ liệu kiểu này, phương pháp thường được sử dụng là chia miền giá trị của các thuộc tính định lượng đó thành các khoảng, sau đó chuyển CSDL thành CSDL mới để có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân [8] Luật kết hợp

này có dạng: Nếu Tuổi ∈ [1, 25] thì Thu nhập ∈ [2 triệu, 3 triệu] Với phương pháp

rời rạc dữ liệu này đã giải quyết được bài toán chuyển từ CSDL giao dịch với dữ liệu

số về dữ liệu giao dịch nhị phân, tuy nhiên với kết quả này cũng chưa thỏa mãn các nhà nghiên cứu Một cách tự nhiên, điều này dẫn đến việc đề xuất và nghiên cứu các luật kết hợp mờ, ở đó người ta phân chia miền xác định của thuộc tính bằng các tập

mờ

Trong [29-31, 57], thuật toán khai phá luật kết hợp mờ đã được đề xuất Luật

kết hợp mờ có dạng: “Nếu X là A Thì Y là B” “X là A” gọi là tiền (tiên) đề, “Y là B”

gọi là kết luận của luật 𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑝}, Y= {𝑦1, 𝑦2, … , 𝑦𝑞} là tập mục là tập con của tập thuộc tính I của CSDL 𝐴 = {𝑓𝑥1, 𝑓𝑥2, … , 𝑓𝑥𝑝}, B= {𝑓𝑦1, 𝑓𝑦2, … , 𝑓𝑦𝑞} là các tập

mờ tương ứng của các thuộc tính X, Y

Để khai phá luật kết hợp mờ với CSDL có các thuộc tính định lượng, đầu tiên phải phân hoạch miền giá trị của các thuộc tính thành các miền mờ (mỗi miền mờ gắn với một nhãn ngôn ngữ) Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi

là một tập mờ và ứng với một hàm thuộc (Membership Function -MF) nhằm xác định

độ “thuộc” của giá trị biến vào tập mờ đã cho Hàm thuộc xác định độ thuộc của một đối tượng vào mỗi tập mờ đã được định nghĩa trước cho các thuộc tính định lượng Khi đó, mỗi giá trị của một thuộc tính trong CSDL sẽ ứng với một tập các giá trị của

Trang 13

các hàm thuộc ứng với các tập mờ của thuộc tính đó và ta sẽ xử lý tập giá trị độ thuộc này thay cho xử lý bản thân giá trị đó của CSDL

Thuật toán khai phá luật kết hợp mờ đề xuất trong [30], thuật toán khai phá luật kết hợp mờ theo trình tự sau: người sử dụng hoặc chuyên gia phải cung cấp thuật toán cùng với các tập mờ cho các thuộc tính định lượng và các hàm thuộc Các hàm thuộc và tập mờ được cung cấp dựa vào kinh nghiệm của các chuyên gia, có thể không phù hợp với luật kết hợp mờ của CSDL Để có được các luật kết hợp chất lượng, một trong các hướng nghiên cứu đực các tác giả đề xuất là dựa vào CSDL giao dịch đầu vào trích chọn ra các hàm thuộc

Trong các nghiên cứu về khai phá tri thức, bài toán phân chia miền xác định các thuộc tính định lượng của dữ liệu ngày càng nhận được sự quan tâm rộng rãi Phân chia miền xác định của thuộc tính là bước khởi đầu quan trọng cho cả một quá trình xử lý thông tin về sau cho hầu hết các bài toán khai phá tri thức như: khai phá luật kết hợp, phân loại, nhận dạng, hồi quy [15, 16, 28, 52, 67],

Trong các năm gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên công đoạn tiếp theo Nếu không có một hệ các MF được xây dựng tốt thì cũng sẽ không thể trích xuất các luật kết hợp tốt được Nếu ta có một sự phân chia mờ hợp lý (theo một số tiêu chuẩn xác định), các tri thức khai phá được về sau cũng sẽ là các tri thức phản ánh đúng đắn hơn các quy luật ẩn trong kho thông tin Ngược lại, nếu ban đầu không có sự phân chia mờ hợp lý, tri thức khai phá được có thể sẽ mang nặng tính chủ quan, áp đặt, không đúng với bản chất sự việc Đây thật ra là bài toán không đơn giản dù cho bề ngoài của sự việc không cho thấy rõ điều đó Bài toán phức tạp trước hết vì liên quan đến nhận thức mang tính cảm tính của cá nhân, phụ thuộc nhiều vào ngữ cảnh, chẳng hạn trong miền thuộc tính “khoảng cách” thì khoảng cách bao nhiêu gọi là “xa”, là “tương đối gần”, Thứ nữa, việc phân chia mờ cũng phụ thuộc rất nhiều vào dữ liệu đầu vào mà ta có được Một số nghiên cứu có giả thiết về hàm phân bố xác suất của dữ liệu hoặc các giả thiết khác Tuy nhiên dữ liệu thì rất đa dạng, các giả thiết không phải lúc nào cũng thỏa mãn và khối lượng thông tin thì vô cùng lớn, đòi hỏi phải có các phương pháp tin cậy nhưng không quá phức tạp để có thể xử

lý thông tin trong thời gian chấp nhận được

Trang 14

Phương pháp tiếp cận theo lý thuyết tập mờ cho ta một cách xử lý dữ liệu khá mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ điển Tuy vậy, vẫn còn nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, việc gắn nhãn ngôn ngữ vào các miền mờ thường dựa vào trực quan của con người, làm sao xây dựng được các MF nhanh chóng, phù hợp và cách xử lý các MF này thế nào để giữ được ngữ nghĩa gắn với chúng, Rất nhiều thuật toán khai phá luật kết hợp mờ đã được đề xuất [27, 31, 57, 59, 61, 65] với các phương pháp này thường định nghĩa trước các hàm thuộc, điều này khó trong thực tế và thương mang ý chủ quan của con người

Một số công bố được các nhà nghiên cứu đề xuất phương pháp tìm kiếm hàm thuộc và ứng dụng trong bài toán khai phá luật kết hợp từ CSDL có các thuộc tính định lượng: Tzung-Pei Hong và cộng sự (2004) [83], (2008) [42], (2016) [46], (2018) [60]; Herrera và cộng sự (2009) [53], (2015) [22]; Harikesh Bahadur Yadav và cộng

sự (2015) [14]; Aashna Agarwal và cộng sự (2016) [7]; Hemant Kumar Soni và cộng

sự (2016) [38]; Harihar Kalia và cộng sự (2016)[74]; Umesh Kumar Patel và cộng sự (2016) [76]; Umit Can và cộng sự (2017) [9], Archana Gupta và cộng sự (2019) [75]

Ý tưởng chính của các phương pháp sử dụng giải thuật GA để tìm kiếm trong CSDL các hàm thuộc từ CSDL sau đó áp dụng hàm thuộc tìm kiếm được để khai phá luật kết hợp Hướng nghiên cứu này đã cho phép xây dựng tập các hàm thuộc tốt hơn, không phải dựa hoàn toàn trên cách nhìn chủ quan của các chuyên gia Tuy vậy, do tập các hàm thuộc tương ứng với các tập mờ con dùng để phân chia miền xác định của thuộc tính có điểm xuất phát ban đầu chưa thực sự tốt nên kết quả thu được qua giải thuật di truyền chưa thật sự tối ưu (chẳng hạn như độ chồng lấn còn cao, tính đáng quan tâm, hay ngữ nghĩa của các luật thu được chưa thật sự đáp ứng yêu cầu –

mà ta sẽ thấy qua phân tích các kết quả thử nghiệm về sau)

Để khắc phục một số hạn chế của hướng tiếp cận dựa trên lý tuyết tập mờ, N.C.Ho và Wechler đã đề xuất hướng tiếp cận tính toán đựa trên ngôn ngữ gọi là ĐSGT [19, 49] Với cấu trúc của ĐSGT cho phép ngữ nghĩa tính toán của từ được định nghĩa dựa trên thứ tự ngữ nghĩa vốn có của các từ của biến, các miền của từ của các biến thiết lập một cấu trúc dựa trên thứ tự là đủ để giải các bài toán thực tế Việc gán ngữ nghĩa tính toán cho các từ của một biến bằng các tập mờ được xem như làm một ánh xạ Với phương pháp này, chỉ cần một bộ độ đo tính mờ của các từ của một

Trang 15

biến là đủ để xác định các đặc tính định lượng khác nhau như: giá trị định lượng ngữ nghĩa, các khoảng mờ,… Với các tiếp cận sử dụng ĐSGT cho phép dễ dàng phân hoạch miền giá trị của các thuộc tính thành các miền mờ dựa vào khoảng tính mờ và giá trị định lượng ngữ nghĩa của các từ Từ đó, có dễ dàng xây dựng được các hàm thuộc đựa trên hoạch đã có Các hàm thuộc này được xây dựng dựa trên một cấu trúc ĐSGT vì vậy các hàm thuộc có sự ràng buộc với nhau và gắn với một nhãn ngôn ngữ Các phân hoạch dựa trên các miền mờ con theo cách tiếp cận ĐSGT còn là một phân hoạch mạnh, có nghĩa một giá trị bất kỳ của miền xác định thuộc tính đều có tổng các

độ thuộc vào các hàm thuộc phân chia miền xác định của thuộc tính đó bằng 1 Để khắc phục nhược điểm của lý thuyết tập mờ, một số giải pháp đã ứng dụng ĐSGT vào giải quyết bài toán khai phá luật kết hợp mờ [2, 3] Nguyễn Công Hào và cộng

sự (2012) [2] xem miền trị Dom(A) của thuộc tính mờ là một cấu trúc ĐGST Với

mỗi x ∈ Dom(A) sẽ tương ứng với mỗi phần tử y trong ĐSGT (sử dụng hàm ngược

trong ĐSGT) Phương pháp này đơn giản nhưng việc ứng mỗi giá trị của Dom(A) với chỉ một phần tử của ĐSGT có thể gây mất mát thông tin Nguyễn Nam Tiến và cộng

sự (2012) [3] giải quyết được hạn chế đó bằng cách xác định khoảng cách của x với giá trị định lượng ngữ nghĩa của hai phần tử gần x nhất về hai phía, còn các phần tử khác của ĐSGT bằng 0 Như vậy với mỗi giá trị x chúng ta lưu một cặp giá trị thay

vì trong [2] chỉ lưu một giá trị

Bên cạnh hướng nghiên cứu tìm ra các luật kết hợp có ý nghĩa hơn, các nhà nghiên cứu cũng đề xuất nhiều giải pháp nhằm tăng tốc độ khai phá luật kết hợp: luật kết hợp song song, nén dữ liệu nên cây FP-Tree,… Jia-Yu Dai và cộng sự (2008) [18]

đề xuất giải pháp nén CSDL nhị phân, giải pháp là gộp các giao dịch nhị phân tạo thành giao dịch mới giúp giảm kích thước CSDL giao dịch, Chien-Min Lin (2013) [5] đề xuất giải pháp nén CSDL giao dịch lên cây FP-tree, Chun-Wei Lin và cộng sự (2009) [34] đề xuất giải pháp nén CSDL giao dịch mờ lên cây FP-Tree

Với các hướng nghiên cứu về khai phá luật kết hợp mờ nếu trên, đa phần các nhà nghiên cứu sử dụng biểu diễn các tập mờ dạng đơn thể hạt Trong một số năm gần đây nhiều nhà nghiên cứu đã nghiên cứu và sử dụng các hàm thuộc dạng đa thể hạt cho các bài toán trong khai phá dữ liệu [37, 66-68, 82, 84]

Đây là một lĩnh vực nghiên cứu ứng dụng rộng lớn Nội dung nghiên cứu của luận án có tiếp cận cả hai hướng nghiên cứu (là nghiên cứu giảm thời gian tính toán

Trang 16

và tìm hiểu xây dựng các luật có ngữ nghĩa đáng quan tâm của các luật mờ) nhưng được giới hạn trong các hướng nhỏ:

- Tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng luật mờ, như luật kết hợp mờ với thông tin ngôn ngữ (luật dạng ngôn ngữ) từ CSDL số nhằm phát hiện các quan hệ dữ liệu không dễ tiên lượng, nhưng có ích trong công việc quản

lý, hay các tri thức luật mờ sử dụng trong lập luận,

- Đề xuất giải pháp nén dữ liệu giao dịch mờ nhằm tăng tốc độ khai phá luật kết hợp

Trong luận án sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ để nghiên cứu một số vấn đề về khai phá luật kết hợp vì những lý do sau:

(i) Luật kết hợp mờ được nghiên cứu còn một số nhược điểm kể cả trong việc xây dựng thuật toán nhằm tăng tốc độ xử lý cũng như trong bài toán phân hoạch miền xác định của thuộc tính thành các miền mờ nhằm đưa ra các luật kết hợp có ý nghĩa Trong khi đó, ĐSGT dựa trên một cấu trúc toán học rõ ràng hơn, do đó việc xây dựng tập các hàm thuộc xác định các miền mờ con dùng để phân chia miền xác định trở nên ít mang tính chủ quan hơn và ngữ nghĩa của luật sẽ trở nên dễ chấp nhận hơn (ii) Với biểu diễn dữ liệu khác nhau, ĐSGT cho một cách tiếp cận thống nhất đơn giản mà có hiệu quả cao trong xử lý

Để nghiên cứu phát triển phương pháp, thuật toán phát hiện tri thức luật như vậy cần những nội dung nghiên cứu sau:

- Nghiên cứu các phương pháp biểu thị ngữ nghĩa các khái niệm mờ (các từ ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) hoặc các phương pháp toán học khác sao cho nó biểu thị ngữ nghĩa các khái niệm phù hợp nhất Việc nghiên cứu này đòi hỏi nghiên cứu nắm vững một cách hệ thống thêm các kiến thức về lý thuyết tập mờ

và ĐSGT, những cơ sở lý thuyết liên quan đến biểu thị ngữ nghĩa của các khái niệm

mờ trong ngôn ngữ tự nhiên

- Một trong những ứng dụng quan trọng của tri thức luật là nó thiết lập cơ sở tri thức cho lập luận mờ hay lập luận xấp xỉ Vì vậy, phương pháp luận phát hiện tri thức luật cũng gắn với phương pháp lập luận mờ: một hệ tri thức luật mờ là tốt, phù hợp nếu cơ sở tri thức luật được phát hiện tạo được cơ sở cho lập luận hiệu quả Vì vậy các phương pháp lập luận mờ cũng là một nội dung nghiên cứu của đề tài Nội dung

Trang 17

nghiên cứu này bao gồm nghiên cứu các phương pháp lập luận dựa trên lý thuyết tập

mờ kết hợp với phương pháp dựa trên ĐSGT

- Nghiên cứu các phương pháp khai phá tri thức nói chung và các luật mờ nói riêng

- Nghiên cứu các cách biểu diễn dữ liệu khác nhau của thông tin để có thể khai phá luật kết hợp một cách đa dạng, mang nhiều ý nghĩa Cụ thể các biểu diễn dữ liệu

đa thể hạt (Multi-granularity Representation of Data) được sử dụng, phù hợp với sự

chú ý ngày càng gia tăng của hướng nghiên cứu này

Kết quả của luận án:

- Đề xuất phương pháp khai phá luật kết hợp mờ dựa trên tiếp cận sử dụng ĐSGT

và giải pháp nén CSDL giao dịch

- Đề xuất phương pháp tìm kiếm hàm thuộc cho mỗi thuộc tính định lượng trong CSDL bằng phương pháp sử dụng lý thuyết ĐSGT và giải thuật GA Các hàm thuộc trong phương pháp này được xây dựng dựa trên biểu diễn dữ liệu đơn thể hạt và đa thể hạt

Bố cục luận án bao gồm: Phần mở đầu, 3 chương, phần kết luận và tài liệu tham khảo Kết quả chính của luận án tập trung ở chương 2, và 3 Cụ thể:

Chương 1: Trình bày những kiến thức cơ sở cần thiết làm nền tảng trong quá

trình nghiên cứu và những đề xuất mới của luận án, Các khái niệm của lý thuyết tập

mờ như: tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ Trình bày những nội dung cơ bản của lý thuýet ĐSGT như: khái niệm ĐSGT, ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ, hàm định lượng ngữ nghĩa Trình bày tóm tắt về về bài toán khai phá luật kết hợp và một số khái niệm cơ bản liên quan đến bài toán khai phá luật kết hợp

Chương 2: Phát triển thuật toán theo hướng tiếp cận ĐSGT cho bài toán khai

phá luật kết hợp mờ Thay vì cách tiếp cận như truyền thống là sử dụng lý thuyết tập

mờ, luận án sử ĐSGT để mờ hoá CSDL giao dịch, mỗi một thuộc tính định lượng sẽ

sử dụng một cấu trúc ĐSGT Để giảm thời gian khai phá luật kết hợp, chương này đề xuất giải pháp nén CSDL giao dịch mờ nhằm giảm kích thước CSDL Định nghĩa quan hệ và khoảng cách giữa các giao dịch được đề xuất, từ đó các giao dịch có khoảng cách gần nhau sẽ được gộp lại với nhau Do kích thước CSDL thu được nhỏ hơn kích thước CSDL ban đầu, giúp cho thời gian khai phá giảm

Trang 18

Chương 3: Việc phân chia miền giá trị của các thuộc tính định lượng có ý

nghĩa quan trọng và ảnh hưởng đến ý nghĩa của các luật kết hợp trong bài toán khai phá luật kết hợp mờ Trong chương này, luận án sử dụng lý thuyết ĐSGT, mỗi thuộc tính định lượng sử dụng một ĐSGT Dựa vào giá trị định lượng ngữ nghĩa của các phần tử ĐSGT và khoảng tính mờ để xây dựng các hàm thuộc cho các thuộc tính định lượng Chúng ta sử dụng biểu diễn đơn thể hạt và đa thể hạt để xây dựng các hàm thuộc cho các thuộc tính, các hàm thuộc có dạng hình tam giác Nhằm mục đích thu được các luật kết hợp có ý nghĩa, luận án sử dụng giải thuật GA để tìm ra các tham

số của ĐSGT Với cách tiếp cận này, các luật kết hợp được khai phá sẽ phản ánh phong phú và đa dạng hơn tri thức ẩn chứa trong kho thông tin được khai phá, từ những tri thức có tính khái quát cao cho đến những tri thức mang tính riêng biệt, chi tiết hơn

Trang 19

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ

1.1 Tập mờ và các phép toán trên tập mờ

Lý thuyết tập mờ được Zadeh thiết lập lần đầu năm 1965 trong [40] Khái niệm tập mờ là một mở rộng của lý thuyết tập hợp cổ điển và được dùng trong lôgic mờ Trong lý thuyết tập hợp cổ điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử hoặc thuộc hoặc không thuộc về tập hợp Mở rộng ra trong lý thuyết tập mờ, ngữ nghĩa của mỗi từ mờ được biểu diễn bằng một hàm từ tập vũ trụ U vào đoạn [0, 1] và hàm

đó gọi là tập mờ trên U Với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều có thể thuộc về nó với mực độ thuộc được đo bởi một giá trị trong đoạn [0, 1]

1.1.1 Tập mờ (fuzzy set)

Định nghĩa 1.1: [40] Cho U là vũ trụ các đối tượng Tập mờ A trên U là tập

các cặp có thứ tự (x, μA(x)), với μA(x) là hàm từ U vào [0, 1] gán cho mỗi phần tử x thuộc U giá trị μA(x) phản ảnh mức độ thuộc của x thuộc vào tập mờ A

Nếu 𝜇𝐴(𝑥) = 0 thì ta nói x hoàn toàn không thuộc tập A, ngoài ra nếu 𝜇𝐴(𝑥) =

1 thì ta nói x thuộc hoàn toàn vào A Trong Định nghĩa 1.1, hàm 𝜇 còn được gọi là

hàm thuộc (membership function)

Khi xây dựng các hàm thuộc của tập mờ A nào đó, một yêu cầu đặt ra là giá trị của nó phải biến thiên từ 0 đến 1 Trong các ứng dụng lý thuyết tập mờ ta thường

sử dụng một số dạng hàm thuộc dưới đây cho tập mờ A:

𝑏−𝑎,𝑐−𝑥𝑐−𝑏) , 0) Trong đó a, b,

c lần lượt là chân bên trái, đỉnh và chân bên phải của tam giác

𝑏−𝑎,𝑑−𝑥𝑑−𝑐, 1) , 0) Trong đó

a, d lần lượt là đỉnh dưới bên trái, bên phải, b, c lần lượt là đỉnh trên bên trái, bên phải của hình thang

của hàm

Trong các dạng hàm thuộc của các tập mờ ở trên, hàm thuộc dạng tam giác được sử dụng nhiều nhất do nó đơn giản và dễ hiểu với người dùng

Trang 20

Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được

mở rộng cho các tập mờ [1, 35, 41] Theo đó, các phép toán như t-norm, t-conorm, negation và phép kép theo, trong logic mờ được đề xuất, nghiên cứu chi tiết cung cấp cho các mô hình ứng dụng giải các bài toán thực tế

1.1.2 Biến ngôn ngữ

Biến ngôn ngữ là một biến có thể gán các từ trong ngôn ngữ cho giá trị của nó Các từ được đặc trưng bởi định nghĩa tập mờ trong miền xác định mà ở đó biến được định nghĩa Các biến ngôn ngữ cho phép biểu diễn một miền các giá trị số dưới dạng thuật ngữ miêu tả đơn giản của hệ mờ Ví dụ: tuổi của con người có thể xem đây là

biến ngôn ngữ có tên gọi TUỔI và nó nhận các giá trị ngôn ngữ như: “già”, “rất già”,

“trung bình”, “trẻ”, ”rất trẻ”, Tương ứng với mỗi hàm thuộc sẽ được gán một giá

trị ngôn ngữ Giả sử lấy giới hạn của tuổi thông thường trong khoảng [1, 120] và giả

sử rằng các giá trị ngôn ngữ được sinh ra bởi một tập các luật Khi đó, một cách hình thức, chúng ta có định nghĩa của biến ngôn ngữ sau đây:

Định nghĩa 1.2: [13] Biến ngôn ngữ là một bộ gồm năm thành phần (X,T(X),

U, R, M), trong đó X là tên biến, 𝑇(𝑋) là tập các giá trị ngôn ngữ của biến X, U là không gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến

mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ cho tập 𝑇(𝑋), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong 𝑇(𝑋) với một tập mờ trên U

Ví dụ 1.1: Từ định nghĩa trên, nếu biến ngôn ngữ X là biến TUỔI, biến cơ sở của u có miền xác định là 𝑈 = [1,120] tính theo tuổi Tập các giá trị ngôn ngữ tương ứng của biến ngôn ngữ là 𝑇(𝑇𝑈Ổ𝐼) = {𝑇𝑟ẻ, 𝑇𝑟𝑢𝑛𝑔 𝑛𝑖ê𝑛, 𝐺𝑖à} R là một qui tắc để sinh ra các giá trị này M là luật gán ngữ nghĩa sao cho mỗi một giá trị ngôn ngữ sẽ được gán với một tập mờ Chẳng hạn, đối với giá trị nguyên thuỷ “già”, 𝑀(𝐺𝑖à) ={(𝑢, 𝜇𝐺𝑖à(𝑢))| 𝑢 ∈ [1,120]}, được gán như sau:

Trang 21

Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già

1.1.3 Phân hoạch mờ

Chúng ta có định nghĩa phân hoạch mờ như sau:

Định nghĩa 1.3: [36] Cho m điểm cố định 𝑝1, 𝑝2, … , 𝑝𝑚 thuộc tập 𝑈 = [𝑎, 𝑏] ⊂ 𝑅, 𝑝1 = 𝑎, 𝑝𝑚 = 𝑏 là không gian tham chiếu của biến cơ sở 𝑢 của biến ngôn ngữ 𝑋 Khi đó một tập 𝑇 gồm m tập mờ 𝐴1, 𝐴2, … , 𝐴𝑚 định nghĩa trên 𝑈 (với hàm thuộc tương ứng là 𝜇𝐴1, 𝜇𝐴2, , 𝜇𝐴𝑚) được gọi là một phân hoạch mờ của 𝑈 nếu các điều kiện sau thoả mãn, ∀𝑘 = 1, … , 𝑚:

1) 𝜇𝐴𝑘(𝑝𝑘) (𝑝𝑘 thuộc về phần được gọi là lõi của 𝐴𝑘);

Nếu phân hoạch mờ thoả mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi

là phân hoạch đều

Trang 22

hạt (single granularity), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ

đa thể hạt (multi granularity)

Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt

Để thiết kế các phân hoạch mờ, chúng ta có thể tiếp cận theo hai hướng: lý thuyết tập mờ và tiếp cận theo lý thuyết ĐSGT [19, 49] Theo tiếp cận lý thuyết tập

mờ việc thiết kế phân hoạch mờ là đi xác định các tập mờ cho mỗi phân hoạch rồi gắn cho nó một nhãn ngôn ngữ Quá trình thiết kế tập mờ không xuất phát từ ngữ nghĩa của từ ngôn ngữ và không có ràng buộc liên kết giữa nhãn ngôn ngữ và tập mờ Theo tiếp cận lý thuyết ĐSGT khắc phục được một số nhước điểm của lý thuyết tập

mờ, việc thiết kế phân hoạch mờ là đi xác định các từ ngôn ngữ và ngữ nghĩa của từ

sử dụng trong phân hoạch

Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt

Quá trình này được thực hiện dựa trên ngữ nghĩa của miền ngôn ngữ và dựa trên hệ hình thức hóa của ĐSGT Phương pháp thiết kế phân hoạch sử dụng ĐSGT phù hợp với cấu trúc vốn có của ngôn ngữ tự nhiên

Trang 23

Hình 1.2 là một cấu trúc phân hoạch mờ dạng đơn thể hạt, Hình 1.3 là một cấu trúc phân hoạch mờ dạng đa thể hạt

Thiết kế phân hoạch miền giá trị của các thuộc tính sử dụng biểu diễn dạng đa thể hạt có ưu điểm là các từ có ngữ nghĩa từ khái quát đến đặc tả Vì vậy nó phù hợp với ngữ nghĩa vốn có của từ trong thế thế giới thực hơn

1.2 Đại số gia tử

Để hiểu ý nghĩa của ĐSGT ta hãy lấy biến số 𝑥𝑁 nhận giá trị số thực trên một

khoảng [a, b], định ý biến tốc độ chẳng hạn Nó mô phỏng một biến của thế giới thực

𝑥𝑅 (Reality) Con người cũng có thể mô tả biến 𝑥𝑅 bằng một biến ngôn ngữ X L sử dụng các giá trị ngôn ngữ Vì miền của biến 𝑥𝑁, Dom(𝑥𝑁) có thứ tự tuyến tính, nên

thực tế ta thấy miền ngôn ngữ của X L , Dom(X L), cũng có thức tự tuyến tính và, dó đó,

nó là một cấu trúc toán học ĐSGT là một lý thuyết nhằm phát hiện và làm rõ cấu

trúc toán học, cụ thể là cấu trúc đại số của miền ngôn ngữ Dom(X L), trong đó các gia

tử như very, rather,… đóng vai trò là các phép tính một ngôi, chẳng hạn “very fast”,

“very rather slow”,…

1.2.1 Khái niệm Đại số gia tử

Định nghĩa 1.4: [19, 49] Một ĐSGT được ký hiệu là bộ 4 thành phần được ký

hiệu 𝐴𝑋 = (𝑋, 𝐺, 𝐻, ≤) trong đó G là tập các phần tử sinh, H là tập các gia tử (hedge) còn " ≤ " là quan hệ cảm sinh ngữ nghĩa trên X Giả thiết trong G có chứa các phần

tử hằng 0, W, 1 với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hoà (neutral) trong X Ta gọi mỗi giá trị ngôn ngữ 𝑥 ∈ 𝑋 là một hạng từ (term) trong ĐSGT

Tập H được chia thành hai tập con rời nhau, ký hiệu là H− và H+, trong đó H−

là tập gia tử âm (các gia tử làm giảm ngữ nghĩa của các phần tử sinh) H+ là tập các gia tử dương (các gia tử làm tăng ngữ nghĩa của các phần tử sinh) Không mất tính tổng quát, ta luôn giả thiết rằng H− = {h−1 < h−2 < ⋯ < h−q} và H+ ={h1 < h2 < ⋯ < hp}

Khi tác động gia tử h ∈ H vào phần tử x ∈ X, thì thu được phần tử ký hiệu hx Với mỗi x ∈ X, ký hiệu H(x) là tập tất cả các hạng từ u ∈ X được sinh từ ngôn ngữ x bằng cách áp dụng các gia tử trong H và viết u = hn… h1x với hn, , h1 ∈ H, n ≥ 1

Trang 24

Nếu tập X và H là các tâp sắp xếp thứ tự tuyến tính, khi đó AX = (X, G, H, ≤) gọi là ĐSGT tuyến tính Và nếu được trang bị thêm hai gia tử giới hạn là 𝜎 và 𝜙 với ngữ nghĩa là cận trên đúng bà cận dưới đúng của tập H(x) khi tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký hiệu AX∗ = (X, G, H, σ, ϕ, ≤) Lưu ý rằng

hn… h1u được gọi là một biểu diễn chính tắc của một hạng từ x đối với u nếu

x = hn… h1u và hi… h1u ≠ hi−1… h1u với i nguyên và i ≤ n Ta gọi độ dài của một hạng từ 𝑥 là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm

1, kí hiệu l(x)

Ví dụ 1.2: Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE, 1}, H− ={Possible, Little} và H+ = {More, Very} Khi đó giá trị của các ngôn ngữ được sắp xếp thứ tự như sau: Very false < More false < false <Possible false <Little false< true

< More true < Verry true

1.2.2 Một số tính chất của ĐSGT tuyến tính

Định lý 1.1: [19, 49] Cho tập H− và H+ là các tập có sắp thứ tự tuyến tính của ĐSGT 𝐴𝑋 = (X, G, H, ≤) Khi đó ta có các khẳng định sau:

i) Với mỗi 𝑢 ∈ 𝑋 thì 𝐻(𝑢) là tập sắp thứ tự tuyến tính

ii) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X cũng là tập sắp thứ tự tuyến tính Hơn nữa nếu 𝑢 < 𝑣, và 𝑢, 𝑣 là độc lập với nhau, tức

là 𝑢 ∉ 𝐻(𝑣) và 𝑣 ∉ 𝐻(𝑢), thì 𝐻(𝑢) ≤ 𝐻(𝑣)

Định lý dưới đây xem xét sự so sánh của hai hạng từ trong niền ngôn ngữ của biến X Trong đó I là gia tử đơn vị, khi tác động lên một hạng từ không sinh ngữ nghĩa mới

Định lý 1.2: [19, 49] Cho 𝑥 = ℎ𝑛… ℎ1𝑢 và 𝑦 = 𝑘𝑛… 𝑘1𝑢 là hai biểu diễn chính tắc của 𝑥 và 𝑦 đối với 𝑢 Khi đó tồn tại chỉ số 𝑗 ≤ 𝑚𝑖𝑛{ 𝑛, 𝑚 } + 1 sao cho

ℎ𝑗′ = 𝑘𝑗′ với mọi 𝑗′ < 𝑗 (ở đây nếu 𝑗 = 𝑚𝑖𝑛{𝑛, 𝑚} thì hoặc ℎ𝑗 = 𝐼), ℎ𝑗 là gia tử đơn

vị 𝐼, với 𝑗 = 𝑛 + 1 ≤ 𝑚 hoặc 𝑘𝑗 = 𝐼 với 𝑗 = 𝑚 + 1 ≤ 𝑛 và

i) 𝑥 < 𝑦 khi và chỉ khi ℎ𝑗𝑥𝑗 < 𝑘𝑗𝑥𝑗, trong đó 𝑥𝑗 = ℎ𝑗−1ℎ1𝑢

ii) 𝑥 = 𝑦 khi và chỉ khi m = n và ℎ𝑗𝑥𝑗 = 𝑘𝑗𝑥𝑗

iii) x và y là không so sánh được với nhau khi và chỉ khi ℎ𝑗𝑥𝑗 và 𝑘𝑗𝑥𝑗 là không

so sánh được với nhau

Trang 25

1.2.3 Định lượng ngữ nghĩa của giá trị ngôn ngữ

Theo phương pháp tiếp cận tập mờ, các gái trị định lượng của mỗi tập mờ là giá trị khử mờ của hàm thuộc tương ứng Vì các giá trị ngôn ngữ có thứ tự theo ngữ nghĩa của nó nên trong ĐSGT đã thiết lập một hàm định lượng ngữ nghĩa của các từ với các giá trị nằm trong đoạn [0,1], các gái trị tương ứng với các từ đảm bảo thứ tự này

Định nghĩa 1.5: [19, 49] Cho AX = (X, G, H, ≤) là một ĐSGT tuyến tính Ánh

xạ 𝑣𝔵: 𝑋 → [0,1] được gọi là một hàm định lượng ngữ nghĩa của AX nếu:

(i) 𝑣𝔵 là ánh ạ 1-1 từ tập X vào đoạn [0,1] và bảo toàn thứ tự trên X, tức là

Định nghĩa 1.6: [19, 49] Một hàm dấu 𝑆𝑖𝑔𝑛: 𝑋  {−1,0,1} là một ánh xạ được định nghĩa đệ qui như sau, trong đó ℎ, ℎ′  𝐻 và 𝑐  {𝒄−, 𝒄+}:

Dựa trên hàm dấu này, chúng ta có tiêu chuẩn để so sánh ℎ𝑥 và 𝑥

Mệnh đề 1.1: [19, 49] Với bất kỳ ℎ và 𝑥, nếu 𝑆𝑖𝑔𝑛(ℎ𝑥) = 1 thì ℎ𝑥 > 𝑥; nếu

𝑆𝑖𝑔𝑛(ℎ𝑥) = -1 thì ℎ𝑥 < 𝑥

Định nghĩa 1.7: [19, 49] Cho AX là một ĐSGT tuyến tính đầy đủ và 𝑓𝑚 là

một độ đo tính mờ trên X Ta nói ánh xạ 𝔳𝔵: 𝑋  [0,1] được cảm sinh bởi độ đo tính

mờ 𝑓𝑚 nếu được định nghĩa bằng đệ qui như sau:

Trang 26

Với định nghĩa này, các tác giả trong [25] đã chứng minh nó thỏa mãn các yêu cầu của một hàm định lượng ngữ nghĩa và đảm bảo tính trù mật của nó đối với các hạng từ của AX trong đoạn [0,1]

Ví dụ 1.3: Xét ĐSGT 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙, ≤) là một ĐSGT tuyến tính đầy

đủ của biến ngôn ngữ TUỔI với 𝐻 = {𝑉, 𝐿} và 𝐺 = {𝑦𝑜𝑢𝑛𝑔, 𝑜𝑙𝑑} Với các tham số được như sau: 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 35: 80 = 0.4375; 𝑓𝑚(𝑜𝑙𝑑) = 1 – 𝑓𝑚(𝑜𝑙𝑑) =0.5625; Độ đo tính mờ của gia tử được cho là: 𝜇(𝐿) = 0.5; 𝜇(𝑉) = 0.5; Vì vậy, 𝑞 =

𝑝 = 1 và 𝛼 = 𝛽 = 0.5 Ta có thể tính được giá trị định lượng ngữ nghĩa của một số hạng tử ngôn ngữ của TUỔI như sau:

Cho 𝑥 = 𝑦𝑜𝑢𝑛𝑔, ta có:

𝑣(𝑦𝑜𝑢𝑛𝑔) = 𝛽 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 0.5 𝑥 0.4375 = 0.21875 Với miền của TUỔI là [0, 80], giá trị thực của trẻ là 80 𝑥 0.21875 = 17.5;

𝑣(𝑜𝑙𝑑) = 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) + 𝛼 𝑓𝑚(𝑜𝑙𝑑) = 0.4375 + 0.5 ∗ 0.5625 = 0.6875

và giá trị thực của già là 57.5;

𝑣(𝑉 𝑦𝑜𝑢𝑛𝑔) = 0.109375, giá trị thực của V young là 8.75

𝑣(𝐿 𝑦𝑜𝑢𝑛𝑔) = 0.328125, giá trị thực của L young là 26.25

𝑣(𝐿 𝑜𝑙𝑑) = 0.578125, giá trị thực của L old là 46.25

𝑣(𝑉 𝑜𝑙𝑑) = 0.859375, giá trị thực của V old là 68.75

1.2.4 Khoảng mờ

Khoảng tính mờ (fuzziness interval) của các khái niệm mờ là một khái niệm

rất quan trọng làm cơ sở cho việc nghiên cứu và xây dựng các mô hình ứng dụng Trong ĐSGT, dựa trên độ đo tính mờ 𝑓𝑚, chúng ta sẽ định nghĩa khoảng tính mờ của các hạng từ Gọi Itv([0, 1]) là họ các đoạn con của đoạn [0,1], ký hiệu || là độ dài của đoạn ""

Trang 27

Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH

Định nghĩa 1.8: [25] Khoảng tính mờ của các hạng từ 𝑥 ∈ 𝑿, ký hiệu ℑ𝑓𝑚(𝑥),

là một đoạn con của đoạn [0,1], ℑ𝑓𝑚(𝑥) ∈ 𝐼𝑡𝑣([0,1]) Nếu nó có độ dài bằng độ đo tính mờ, |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(𝑥), và được xác định bằng qui nạp theo độ dài của x như

𝑗 ≤ 𝑝 𝑣à 𝑗 ≠ 0} ⊂ 𝐼𝑡𝑣([0,1]) được xây dựng sao cho nó là một phân hoạch của

ℑ𝑓𝑚(𝑥), và thoả mãn |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(ℎ𝑗𝑥) và có thứ tự tuyến tính tương ứng với thứ tự của tập {ℎ−𝑞𝑥, ℎ−𝑞+1𝑥, … , ℎ𝑝𝑥} tức là nếu ℎ−𝑞𝑥 > ℎ−𝑞+1𝑥 > ⋯ > ℎ𝑝𝑥 thì

ℑ𝑓𝑚(ℎ−𝑞𝑥) > ℑ𝑓𝑚(ℎ−𝑞+1𝑥) > ⋯ > ℑ𝑓𝑚(ℎ𝑝𝑥) và ngược lại (xem Hình 1.4) Dễ dạng thấy rằng hệ phân hoạch như vậy luôn tồn tại dựa vào tính chất 𝑖) trong Mệnh

đề 1.2

Trường hợp độ dài của 𝑥 bằng 𝑘, 𝑙(𝑥) = 𝑘, ta có ký hiệu ℑ𝑘(𝑥) thay cho

ℑ𝑓𝑚(𝑥), khi đó ta nói khoảng cách tính mờ của 𝑥 có độ sâu 𝑘 hay khoảng tính mờ mức 𝑘

1.2.5 Độ đo tính mờ của các giá trị ngôn ngữ

Khái niệm độ đo tính mờ của giá trị ngôn ngữ là một khái niệm trừu tượng không dễ dàng để xác định bằng trực giác và có nhiều phương pháp tiếp cận khác để xác định khái niệm này Trong lý thuyết tập mờ, các phương pháp tiếp cận chủ yếu

Trang 28

là dựa trên hình dạng của tập mờ Tuy nhiên, trong ĐSGT các tác giả đã đưa ra một phương pháp xác định độ đo tính mờ một cách hợ lý: “tính mờ của một hạng từ 𝑥 được hiểu như là ngữ nghĩa của nó vẫn có thể được thay đổi khi tác động vào nó bằng gia tử khác” [19, 25, 49] Do đó, tập các hạng từ sinh ra từ 𝑥 bằng các gia tử sẽ thể hiện cho tính mờ của x và do đó, 𝐻(𝑥) có thể sử dụng như là một mô hình biểu thị tính mờ của 𝑥 và kích thước tập 𝐻(𝑥) được xem như độ đo tính mờ của 𝑥 Ta có định nghĩa sau về độ đo tính mờ

Định nghĩa 1.9: [19, 25, 49] Cho 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙, ≤) là một ĐSGT tuyến tính đầy đủ Ánh xạ 𝑓𝑚: 𝑋 → [0,1] được gọi là một độ đo tính mờ của các hạng

Trong đó, 𝑐− và 𝑐+ là phần tử sinh âm và phần tử sinh dương, điều kiện (𝑖) thể hiện tính đầy đủ của các phần tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa của miền thực đối với các biến, (𝑖𝑖) thể hiện tính rõ của các hạng từ và (𝑖𝑖𝑖) có thể được chấp nhận vì chúng ta đã chấp nhận giả thiết rằng các gia tử là độc lập với ngữ cảnh và vì vậy, khi áp dụng một gia tử ℎ lên các hạng từ thì hiểu quả tác động làm thay đổi ngữ nghĩa của các hạng đó là như nhau

Hình 1.5: Độ đo tính mờ của biến TRUTH

Trang 29

Hình 1.5: minh hoạ rõ hơn cho khái niệm độ đo tính mờ của biến ngôn ngữ

số được định nghĩa như sau: 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 35: 80 = 0.4375; 𝑓𝑚(𝑜𝑙𝑑) =

1 – 𝑓𝑚(𝑜𝑙𝑑) = 0.5625; Độ đo tính mờ của gia tử được cho là: 𝜇(𝐿) = 0.6; 𝜇(𝑉) =0.4; Theo công thức 𝑓𝑚(ℎ𝑥) = 𝜇(ℎ) 𝑓𝑚(𝑥), ta tính độ đo tính mờ của các hạng từ như sau:

1.3 Giải thuật di truyền

Giải thuật di truyền (GA-Genetic Algorithm) là kỹ thuật phỏng theo quá trình thích nghi tiến hóa của các quần thể sinh học dựa trên học thuyết Darwin [44] GA là phương pháp tìm kiếm tối ưu ngẫu nhiên bằng cách mô phỏng theo sự tiến hóa của con người hay của sinh vật GA đã bước đầu được áp dụng thành công trong các trường hợp, mà việc mô tả toán học cho bài toán gặp rất nhiều khó khăn Ngày nay,

GA đã và đang được ứng dụng để giải quyết trong một số ngành như tin sinh học, khoa học máy tính, trí tuệ nhân tạo, tài chính và một số ngành khác

Trang 30

Hình 1.6: Lưu đồ giải thuật di truyền

Giải thuật di truyền cơ bản gồm các bước sau:

Bước 1: Khởi tạo một quần thể ban đầu gồm các chuỗi nhiễm sắc thể

Bước 2: Xác định giá trị hàm mục tiêu cho từng nhiễm sắc thể tương ứng trong quần thể

Bước 3: Tạo quần thể mới bằng cách lại ghép tréo (crossover) từ các cá thể hiện tại có cọn lọc (selection), đồng thời tạo ra các đột biến (mutation) trong quần thể mới theo một xác suất nhất định

Bước 4: Xác định hàm mục tiêu cho các nhiễm sắc thể mới Các cá thể trong quần thể mới sinh ra được thay thế cho các cá thể cũ trong quần thể cũ bằng cách loại bớt các nhiễm sắc thể có độ thích nghi thấp

Bước 5: Kiểm tra thỏa mãn điều kiện dừng Nếu điều kiện đúng, lấy ra nhiễm sắc thể tốt nhất, giải thuật dừng lại; ngược lại, quay về bước 3

Kết quả Bắt đầu

Kết thúc

Trang 31

Trong luận án sử dụng giải thuật di truyền theo mô hình CHC [10] Các cá thể của quần thể hiện tại khởi nguồn cho quần thể thế hệ kế tiếp bằng các phép chọn lọc (Population-based Selection) Từ N cá thể cha mẹ và con cái tương ứng để chọn N cá thể tốt nhất để sản sinh thế hệ kế tiếp Mô hình CHC có sử dụng cơ chế tránh lai tại cận huyết và khởi tạo lại quần thể để kích thích sự đa dạng của quần thể thay vì phép toán đột biến Cơ chế tránh lai tạo cận huyết sử dụng trong phép toán lai tạo, cá thể

bố mẹ sẽ được lại tạo nếu như khoảng cách hamming giữa hai cá thể này nhỏ hơn một ngưỡng cho trước

1.4 Bài toán khai phá luật kết hợp

1.4.1 Một số khái niệm cơ bản

Cho 𝐼 = {𝐼1, 𝐼2, , 𝐼𝑚} là tập hợp của m thuộc tính nhị phân gọi là các mục

𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛} là tập các giao dịch gọi là cơ sở dữ liệu giao dịch Mỗi giao dịch trong D chứa tập con T các mục trong I (𝑇 ⊆ 𝐼), các bản ghi đều có chỉ số riêng Một luật kết hợp là một mệnh đề kéo theo có dạng 𝑋 → 𝑌, trong đó 𝑋, 𝑌 ⊆ 𝐼, thỏa mãn điều kiện 𝑋 ∩ 𝑌 = ∅ Các tập hợp X và Y được gọi là các tập mục (itemset) Tập

X được gọi là tiên đề, tập Y được gọi là hệ quả của luật [21]

Định nghĩa 1.10: Luật kết hợp

Một luật kết hợp là một mệnh đề có dạng 𝑋 → 𝑌, trong đó 𝑋, 𝑌  𝐼 trong đó X

và Y được gọi là các tập mục (itemsets), thỏa mãn điều kiện 𝑋 ∩ 𝑌 = ∅ Tập X gọi là

nguyên nhân, tập Y gọi là hệ quả

Độ hỗ trợ (support) và độ tin cậy (confidence) là hai độ đo quan trọng của luật

kết hợp được định nghĩa như phần dưới đây

Cho tập mục X (𝑋 ⊆ 𝐼), ta định nghĩa độ hỗ trợ của tập mục X trong CSDL D như sau:

Định nghĩa 1.12: [46] Độ hỗ trợ của luật 𝑋 → 𝑌:

Độ hỗ trợ của một luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi chứa tập hợp 𝑋 ∪ 𝑌, so với tổng số các bản ghi trong D

Trang 32

𝑆𝑢𝑝𝑝(𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) =|𝑋∪𝑌|

Định nghĩa 1.13: [46] Độ tin cậy của luật 𝑋 → 𝑌:

Độ tin cậy của một luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi trong

D chứa 𝑋 ∪ 𝑌 với số bản ghi trong D có chứa tập hợp X

𝑐𝑜𝑛𝑓(𝑋 → 𝑌) = 𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)

Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật

có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng độ hỗ trợ và độ tin cậy do người sử dụng

xác định trước Các ngưỡng của Độ hỗ trợ và Độ tin cậy được ký hiệu là 𝑚𝑖𝑛𝑠𝑢𝑝 và 𝑚𝑖𝑛𝑐𝑜𝑛𝑓

Ngoài các độ đo quan trọng là Support và Confidence thường dùng trong khai phá luật kết hợp, có thể có những độ đo khác để đánh giá luật khai phá được như: Lift, Leverage và Conviction Về cơ bản, ý nghĩa của luật kết hợp ta khai phá được vẫn chưa có những tiêu chí đánh giá rõ ràng Ngoài hai độ đo Độ hỗ trợ và Độ tin cậy, trong luận án này sử dụng các độ đo mang tính Eristic như các công trình (Hong

và cộng sự (2004, 2008) [42, 83], Herrera (2009) [53]) dùng để đánh giá như độ chồng lấn, độ bao phủ,… Các độ đo này sẽ được trình bày cụ thể ở Chương 3

Định nghĩa 1.14: [79] Độ đo Lift

Độ đo lift của luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi trong D chứa 𝑋 ∪ 𝑌 với tích số lượng bản ghi chứa X và Số lượng bản ghi chứa Y trong D

𝐿𝑖𝑓𝑡(𝑋 → 𝑌) = 𝐶𝑜𝑛𝑓(𝑋 → 𝑌)

𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌) 𝑆𝑢𝑝𝑝(𝑋) ∗ 𝑆𝑢𝑝𝑝(𝑌)

(1.4)

Độ thú vị của mỗi luật được tính theo công thức [71]:

𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡(𝑋 → 𝑌)

=𝑆𝑢𝑝𝑝(𝑋∪𝑌)𝑆𝑢𝑝𝑝(𝑋) ∗

𝑆𝑢𝑝𝑝(𝑋∪𝑌)𝑆𝑢𝑝𝑝(𝑌) ∗ (1 −

𝑆𝑢𝑝𝑝(𝑋∪𝑌)

(1.5)

Định nghĩa 1.15: Tập mục thường xuyên

Tập hợp X được gọi là tập mục thường xuyên (Frenquent itemset) nếu có 𝑆𝑢𝑝𝑝(𝑋)  𝑚𝑖𝑛𝑠𝑢𝑝, với 𝑚𝑖𝑛𝑠𝑢𝑝 là ngưỡng độ hỗ trợ cho trước Kí hiệu các tập này

là FI

Trang 33

Tính chất 1.1: Giả sử 𝐴, 𝐵 ⊆ 𝐼 là hai tập mục với 𝐴 ⊆ 𝐵 thì 𝑆𝑢𝑝𝑝(𝐴) ≥

𝑆𝑢𝑝𝑝(𝐵)

Như vậy, những bản ghi nào chứa tập mục B thì cũng chứa tập mục A

Tính chất 1.2: Giả sử A, B là hai tập mục, 𝐴, 𝐵 ⊆ 𝐼, nếu B là tập mục thường

xuyên và 𝐴 ⊆ 𝐵 thì A cũng là tập mục thường xuyên

Thật vậy, nếu B là tập mục thường xuyên thì 𝑆𝑢𝑝𝑝(𝐵) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝, mọi tập mục A là tập con của tập mục B đều là tập mục thường xuyên trong cơ sở dữ liệu D

vì 𝑆𝑢𝑝𝑝(𝐴) ≥ 𝑆𝑢𝑝𝑝(𝐵) (Tính chất 1.1)

Tính chất 1.3: Giả sử A, B là hai tập mục, 𝐴 ⊆ 𝐵 và A là tập mục không

thường xuyên thì B cũng là tập mục không thường xuyên

Định nghĩa 1.16: Tập mục đóng

Tập mục X (𝑋 ⊆ 𝐼) được gọi là đóng nếu không tồn tại tập mục cha Y (𝑌 ⊆ 𝐼)

có cùng độ hỗ trợ với X

𝑋 ⊆ 𝐼, X được gọi là đóng nếu ∀ 𝑌 ⊆ 𝐼 và 𝑋 ⊂ 𝑌: supp(X) < > supp(Y)

Ký hiệu tập phổ biến đóng là FCI

Định nghĩa 1.17: Tập mục phổ biến lớn nhất

Tập mục X (𝑋 ⊆ 𝐼) là là tập mục phổ biến lớn nhất nếu không tồn tại tập cha

Y (𝑌 ⊆ 𝐼) nào trong I là một tập mục phổ biến Ký hiệu tập tất cả các tập mục phổ biến lớn nhất là MFI Dễ thấy 𝑀𝐹𝐼 ⊆ 𝐹𝐶𝐼 ⊆ 𝐹𝐼

1.4.2 Bài toán khai phá luật kết hợp mờ

Cho 𝐷𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛} là CSDL giao dịch, n là tổng số bản ghi trong D Cho 𝐼 = {𝑖1, 𝑖2, … , 𝑖𝑚} là các mục, với mỗi mục 𝑖𝑗 (1 ≤ 𝑗 ≤ 𝑚) là thuộc tính hạng mục hoặc thuộc tính định lượng Một tập thuộc tính mờ là một cặp 〈𝑍, 𝐶〉 với Z tương ứng là tập các thuộc tính zj và C tương ứng là tập các tập mờ 𝑐𝑗 [27]

Nếu luật kết hợp mờ 𝑋 𝑖𝑠 𝐴 ⇒ 𝑌 𝑖𝑠 𝐵 gọi là tin cậy nếu thảo mãn độ hỗ trợ

mờ 𝐹(𝑍,𝐶) và độ tin cậy mờ 𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)), với 𝑍 = 𝑋 ∪ 𝑌, 𝐶 = 𝐴 ∪ 𝐵

Độ hỗ trợ mờ của tập mục 〈𝑍, 𝐶〉 ký hiệu là 𝑓𝑠(〈𝑍, 𝐶〉) được xác định theo

công thức [27]:

𝑓𝑠(〈𝑍, 𝐶〉) =∑ ∏ (𝑡

𝑖[(𝑥𝑗, 𝑎𝑗)])

𝑚 𝑗=1

𝑛 𝑖=1

𝑛

(1.6) Trong đó m là số lương tập mục trong tập mục (𝑍, 𝐶)

Trang 34

Độ tin cậy mờ được xác định theo công thức sau [27]:

𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)) = 𝑓𝑠(𝑍, 𝐶)

Thuật toán khai phá luật kết hợp mờ dựa trên thuật toán Apriori:

Thuật toán khai phá luật kết hợp mờ được chia làm hai pha như sau:

Pha 1: Tìm tất cả các tập thuộc tính mờ phổ biến dạng 〈𝑍, 𝐶〉 có độ hỗ trợ lớn hơn độ hỗ trợ cực tiểu của người dùng nhập vào:

𝑓𝑠(〈𝑍, 𝐶〉) ≥ 𝑓𝑚𝑖𝑛𝑠𝑢𝑝

Pha 2: Sinh các luật kết hợp mờ tin cậy từ các tập phổ biến đã tìm thấy ở pha

thứ nhất Pha này đơn giản và tốn kém ít thời gian hơn so với pha trên Nếu 〈𝑍, 𝐶〉 là một tập thuộc tính mờ phổ biến thì luật kết hợp được sinh ra từ X có dạng:

Z′is C′ → Z\Zfc ′is C\C′Với Z' là tập con khác rỗng của Z, Z\Z' là hiệu của hai tập hợp, C' là tập con khác rỗng của C và là tập các tập mờ tương ứng với các thuộc tính trong Z', C\C' là hiệu hai tập hợp, 𝑓𝑐 là độ tin cậy của luật thỏa mãn: 𝑓𝑐 ≥ 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓

Trang 35

Ký hiệu Ý nghĩa

D CSDL (dạng quan hệ hoặc giao dịch)

I Tập các mục (thuộc tính) trong D

T Tập các giao dịch (hoặc bản ghi) trong D

𝐷𝑓 CSDL mờ (được tính toán từ CSDL ban đầu thông qua hàm thuộc của các

tập mờ tương ứng với từng thuộc tính)

𝐼𝑓 Tập các mục (thuộc tính) trong 𝐷𝑓, mỗi mục hay thuộc tính đều được gắn

với một tập mờ Mỗi tập mờ f đều có môt ngưỡng 𝑤𝑓

𝐶𝑘 Tập các tập mục (thuộc tính) có kích thước k

𝐹𝑘 Tập các tập mục (thuộc tính) phổ biến có kích thước k

F Tập tất cả các tập mục (thuộc tính) phổ biến

Thuật toán khai phá luật kết hợp mờ:

Trang 36

Trong thuật toán sử dụng một số chương trình con sau đây:

- Chương trình con (DF, IF, TF) = Transform(D, I, T): hàm này thực hiện chuyển đổi từ CSDL D ban đầu sang CSDL mờ 𝐷𝐹

- Chương trình con F1 = Counting(DF, IF, TF, 𝑓𝑚𝑖𝑛𝑠𝑢𝑝): hàm này sinh ra F1

là tập tất cả các tập phổ biến 1-ItemSet có lực lượng bằng 1

- Chương trình con Ck = Join(Fk−1): hàm này thực hiện việc sinh ra tập các tập thuộc tính mờ ứng cử viên có lực lượng k từ tập các tập thuộc tính mờ phổ biến lực lượng k-1 là Fk−1

- Chương trình con Ck = Prune(Ck): chương trình con này sử dụng tính chất

"mọi tập con khác rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập không phổ biến đều là tập không phổ biến" (downward closure property) để cắt tỉa những tập thuộc tính nào trong Ck có tập con lực lượng k-1 không thuộc tập các tập thuộc tính phổ biến Fk−1

- Chương trình con Fk = Checking(Ck, Df, 𝑓𝑚𝑖𝑛𝑠𝑢𝑝): chương trình con này duyệt qua CSDL 𝐷𝑓 để cập nhật độ hỗ trợ cho các tập thuộc tính trong Ck Sau khi duyệt xong, Checking sẽ chỉ chọn những tập phổ biến (có độ hỗ trợ lớn hơn hoặc bằng fminsup) để đưa vào trong Fk

- Chương trình còn GenerateRules(F, 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓): sinh luật kết hợp mờ tin cậy từ tập các tập phổ biến F

1.5 Một số hướng nghiên cứu về luật kết hợp

Kể từ khi được R Agrawal đề xuất vào năm 1994 [21], lĩnh vực khai phá luật kết hợp đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau Có những đề xuất nhằm vào cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn,… Đã có nhiều kết nghiên cứu đã được các tác giả trong và ngoài nước công bố về khai phá luật kết hợp, các nghiên cứu tập trung vào hai hướng:

(1) Tăng tốc độ quá trình tìm kiếm tập phổ biến từ CSDL;

(2) Bài toán phân chia mờ miền xác định các thuộc tính định lượng của dữ liệu nhằm tìm kiếm các luật kết hợp có ý nghĩa hơn

Sau đây là một số hướng nghiên cứu chính về khai phá luật kết hợp:

- Luật kết hợp nhị phân (binary association): là hướng nghiên cứu đầu tiên của

luật kết hợp Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân [21] Trong dạng luật kết hợp này, các mục (thuộc tính) chỉ

Trang 37

được quan tâm là có hay không xuất hiện trong giao dịch của CSDL chứ không quan tâm về "mức độ" xuất hiện Thuật toán tiêu biểu nhất khai phá dạng luật này là thuật toán Apriori được R Agrawal đề xuất vào năm 1994 [21] Đây là dạng luật đơn giản

và như sau này ta biết các dạng luật khác cũng có thể chuyển về dạng luật này bằng

một số phương pháp như rời rạc hóa, mờ hóa,… Một ví dụ về dạng luật này: "Nếu

mua Bánh mì và Sữa Thì sẽ mua Bơ”, với độ hỗ trợ 50% và độ tin cậy 70%"

- Luật kết hợp có thuộc tính định lượng và thuộc tính hạng mục (quantitative and categorical association rule): các thuộc tính của các CSDL thực tế có kiểu rất đa

dạng (nhị phân - binary, số - quantitative, hạng mục - categorical, ) Đối với loại này, ta không chỉ quan tâm tới sự có mặt hay không của các mục trong giao dịch mà còn quan tâm tới định lượng của từng mục trong luật

Để khai phá luật kết hợp dạng này, ta cần phải chuyển đổi dữ liệu về dạng nhị phân hay còn gọi là rời rạc hoá dữ liệu để có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân Để chuyển các thuộc tính số về thuộc tính nhị phân, ta cần chia miền giá trị của thuộc tính thành các khoảng Việc phân chia này là rất quan trọng và

nó ảnh hưởng đến quá trình khai phá dữ liệu Để phát hiện luật kết hợp với các thuộc tính dạng này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hóa nhằm chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có

- Luật kết hợp mờ (fuzzy association rule): với những hạn chế còn gặp phải

trong quá trình rời rạc hóa các thuộc tính định lượng (quantitative attributes), các nhà nghiên cứu đã đề xuất luật kết hợp mờ nhằm khắc phục những hạn chế, và chuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng Với thuộc tính định lượng chúng ta gặp phải vấn đề “điểm biên gãy” khi rời rạc hoá dữ liệu Với dạng luật kết hợp mờ giúp ta làm trơn các “điểm biên gãy” đã đem lại hiệu quả đáng

kể Khai phá luật kết hợp mờ là phát hiện các luật kết hợp sử dụng khái niệm tập mờ đối với các thuộc tính định lượng Khi khai phá chúng ta cần phải định nghĩa trước các tập mờ cho các thuộc tính trước khi áp dụng các giải thuật cụ thể để khai phá dữ liệu

- Luật kết hợp nhiều mức (multi-level association rules): ngoài các dạng luật

trên, các nhà nghiên cứu còn đề xuất một hướng nghiên cứu nữa về luật kết hợp là luật kết hợp nhiều mức Với cách tiếp cận này, người ta sẽ tìm kiếm thêm những luật

có dạng "Nếu mua máy tính và máy in Thì sẽ mua lưu điện" thay vì chỉ những luật

Trang 38

quá cụ thể như "Nếu mua máy tính Sony Vaio và mua máy in Canon Thì sẽ mua lưu

điện" Dạng luật đầu là dạng luật tổng quát hóa của dạng luật sau

- Luật kết hợp với thuộc tính được đánh trọng số (association rule with weighted items): Với luật kết hợp thông thường, các mục trong CSDL sẽ có vai trò

như nhau trong CSDL Tuy nhiênt trong thực tế, các thuộc tính trong CSDL có vai trò khác nhau Có một số thuộc tính được chú trọng và lúc đó ta nói những thuộc tính

đó có mức độ quan trọng cao hơn các thuộc tính khác Đây là một hướng nghiên cứu rất thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này Với luật kết hợp có thuộc tính được đánh trọng số, chúng ta sẽ khai phá được những luật mang rất nhiều ý nghĩa, thậm chí là những luật "hiếm"

- Khai phá luật kết hợp song song (parallel mining of association rules):

Do kích thước dữ liệu ngày càng lớn, nhằm mục đích tăng tốc độ khai phá luật kết hợp các nhà nghiên cứu tập trung vào nghiên cứu các giải pháp song song hóa và

xử lý phân Có rất nhiều thuật toán song song khác nhau đã được đề xuất, chúng có

thể phụ thuộc hoặc độc lập với nền tảng phần cứng

- Luật kết hợp tiếp cận theo hướng nén CSDL giao dịch: Các thuật toán sử

dụng cách nén dữ liệu trong CSDL nhị phân cung cấp một giải pháp tốt có thể giảm yêu cầu không gian lưu trữ và thời gian xử lý dữ liệu Jia - Yu Dai đã đề xuất thuật toán gọi là M2TQT [18] Ý tưởng cơ bản của thuật toán này là: gộp các giao dịch có quan hệ gần nhau để tạo thành giao dịch mới, kết quả thu được là tạo ra CSDL mới

có kích thước nhỏ hơn, có thể giảm thời gian xử lý dữ liệu, giảm không gian lưu trữ Tuy nhiên thuật toán M2TQT chỉ thực hiện với CSDL nhị phân Với hướng nghiên cứu này, trong luận án đề xuất sử dụng ĐSGT để mờ hóa các thuộc tính mờ Từ CSDL

mờ, tiến hành gộp các giao dịch có quan hệ gần nhau để tạo thành CSDL mới có kích

thước nhỏ hơn, làm tăng hiệu quả khi khai phá dữ liệu

- Tìm kiếm hàm thuộc tối ưu cho bài toán khai phá luật kết hợp mờ: Trong các

nghiên cứu trước kia, thông thường các nghiên cứu chỉ tập trung vào công đoạn trích xuất luật kết hợp, mặc nhiên công nhận đã có sẵn các hàm thuộc phân chia miền xác định các thuộc tính Gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên công đoạn tiếp theo Nếu không có một hệ các MF được xây dựng tốt thì cũng sẽ không thể trích xuất các luật kết hợp tốt được Tuy nhiên, các nghiên cứu liên quan

Trang 39

đến xây dựng các tập MF dành cho trích xuất luật kết hợp vẫn rất ít, đa số các bài báo liên quan đến vấn đề này thuộc hướng phân loại tự động hay hồi quy [16, 28, 51] Một số kết quả các nhà nghiên cứu đã công bố về hướng nghiên cứu này: [6, 7, 9, 14,

22, 23, 38, 39, 42, 43, 45, 46, 48, 50, 53, 60, 64, 69, 70, 74-78]

Trong các hướng nghiên cứu trên, luận án tập trung vào hai hướng chính:

- Nhằm mục đính giảm thời gian khai phá luật kết hợp, đề xuất giải pháp nén

cơ sở dữ liệu giao dịch và khai phá luật kết hợp từ CSDL nén

- Để khai phá các luật kết hợp dưới dạng ngôn ngữ tự nhiên gần gũi với con người, luận án đề xuất giải pháp sử dụng ĐSGT Bên cạnh đó, để có được các luật kết hợp có ý nghĩa hơn, giải thuật GA được sử dụng để tìm kiếm tham số tối ưu cho ĐSGT

1.6 Kết luận chương 1

Trong chương này, luận án đã tóm tắt những kiến thực cơ sở làm nền tảng phục vụ trong quá trình nghiên cứu Nó bao gồm những nội dung chính sau:

- Lý thuyết tập mờ bao gồm các khái niệm tập mờ, phương pháp xây dựng tập

mờ, biến ngôn ngữ, phân hoạch mờ,

- Hệ thống lý thuyết về ĐSGT với những khái niện nền tảng như: ĐSGT, ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ của gia tử, phần tử sinh, phương pháp xác định giá trị định lượng của từ ngôn ngữ, khoảng tính mờ,

- Một số khái niệm cơ bản về luật kết hợp, luật kết hợp mờ và một số hướng nghiên cứu về khai phá luật kết hợp mờ

Với những kiến thức cơ sở đã được trình bày trong chương trình là nền tảng

đủ để thực hiện các mục tiêu đã đặt ra của luận án

Trang 40

CHƯƠNG 2 KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP

CẬN SỬ DỤNG ĐẠI SỐ GIA TỬ

Bài toán khai phá luật kết hợp mờ được nhiều tác giả quan tâm nghiên cứu và tiếp cận theo nhiều hướng khác nhau Các nhà nghiên cứu đã đề xuất nhiều giải pháp khác nhau nhằm tăng tốc độ khai phá luật cũng như là làm thế nào nào để tìm ra được các luật hữu ích từ CSDL Trong chương này luận án đề xuất ứng dụng ĐSGT và đề xuất giải pháp nén CSDL giao dịch mờ nhằm tạo ra CSDL giao dịch mới có kích thước nhỏ hơn Phương pháp đề xuất giúp tìm ra các luật kết hợp mờ dạng ngôn ngữ gần gũi với con người và giảm thời gian khai phá luật kết hợp

2.1 Đặt vấn đề

Khai phá luật kết hợp đã được triển khai nghiên cứu và mang lại nhiều kết quả tốt [3, 56, 62, 73] Các tác giả đã đưa ra nhiều giải pháp để giảm thời gian thực hiện khai phá luật như: giải pháp khai phá luật kết hợp song song, sử dụng các giải pháp nén giao dịch với CSDL nhị phân, Tuy vậy, trong lĩnh vực này, đến nay vẫn còn nhiều vấn đề đặt ra cần phải tiếp tục nghiên cứu giải quyết

Gần đây, các thuật toán sử dụng cách nén dữ liệu trong CSDL nhị phân cung cấp một giải pháp tốt có thể giảm yêu cầu không gian lưu trữ và thời gian xử lý dữ liệu Jia - Yu Dai (2008) đã đề xuất thuật toán nén CSDL giao dịch nhị phân gọi là M2TQT [18] Ý tưởng cơ bản của thuật toán này là: gộp các giao dịch có quan hệ gần nhau để tạo thành giao dịch mới, kết quả thu được là tạo ra CSDL mới có kích thước nhỏ hơn, có thể giảm thời gian xử lý dữ liệu, giảm không gian lưu trữ Thuật toán M2TQT được đánh giá là tốt hơn các phương pháp đã đề xuất trước đây Tuy nhiên thuật toán M2TQT chỉ thực hiện với CSDL nhị phân

Việc xử lý dữ liệu mờ để khai phá dữ liệu trong các luật kết hợp mờ chủ yếu dựa trên lý thuyết tập mờ như trong [62, 73] Tuy nhiên, theo cách sử dụng tập mờ có nhiều yếu tố ảnh hưởng đến độ chính xác như cách xác định tập mờ, phụ thuộc nhiều vào ý kiến của chuyên gia

Để khắc phục các nhược điểm của lý thuyết tập mờ, các giải pháp được đề xuất trong [2, 3] đã ứng dụng ĐSGT vào giải quyết bài toán khai phá luật kết hợp mờ Các tác giả trong [2] xem miền trị Dom(A) của thuộc tính mờ là một ĐGST Với mỗi x ∈

Định dạng
Số trang	109
Dung lượng	3,44 MB