Nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ và ứng dụng (tt)

Chúng tôi sử dụng Đại số gia tử ĐSGT thay cho lý thuyết tập mờ để nghiên cứu một số vấn đề về khai phá luật kết hợp: i Luật kết hợp mờ được nghiên cứu còn một số nhược điểm kể cả trong v

Trang 1

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGUYỄN TUẤN ANH

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN NGỮ VÀ ỨNG DỤNG

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 62 46 01 10

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI – 2020

Trang 2

Công trình được hoàn thành tại: Học viện Khoa học và Công Nghệ -

Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Người hướng dẫn khoa học 1: PGS TSKH Nguyễn Cát Hồ

Người hướng dẫn khoa học 2: TS Trần Thái Sơn

Có thể tìm hiểu luận án tại:

- Thư viện Học viện Khoa học và công nghệ

- Thư viện Quốc gia Việt Nam

Trang 3

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ

LIÊN QUAN ĐẾN LUẬN ÁN

[1] Trần Thái Sơn, Nguyễn Tuấn Anh, “Nâng cao hiệu quả khai phá luật

kết hợp mờ theo hướng tiếp cận đại số gia tử", Kỷ yếu hội nghị quốc gia

lần VI về nghiên cứu cơ bản và ứng dụng công nghệ thông tin (Fair) - Huế, 6/2013

[2] Tran Thai Son, Nguyen Tuan Anh, “Improve efficiency fuzzy

association rule using hedge algebra approach, Journal of Computer

Science and Cybernetics, Vol 30, No 4, 2014

[3] Tran Thai Son, Nguyen Tuan Anh, Hedges Algebras and fuzzy partition

problem for qualitative attributes, Journal of Computer Science and

Cybernetics, V.32, N.4, 2016

[4] Tran Thai Son, Nguyen Tuan Anh, Partition fuzzy domain with

multi-granularity representation of data based on Hedge Algebra approach,

Journal of Computer Science and Cybernetics, vol 33, pp 63-76, 2017

Trang 4

MỞ ĐẦU

Bài toán khai thác luật kết hợp là hướng nghiên cứu quan trọng và sớm được nghiên cứu phát triển trong hướng nghiên cứu khai phá dữ liệu Trong những năm gần đây nhiều giải thuật đã được được phát triển theo nhiều hướng khác nhau nhưng chủ yếu xoay quanh hai hướng chính:

(i) Cải tiến tốc độ trung bình các thuật toán khai phá luật vì thông thường, đây là bài toán

có độ phức tạp hàm mũ do phải quét CSDL nhiều lần

(ii) Nghiên cứu sâu hơn về ý nghĩa của các luật khai phá vì ta thấy không phải luật được

khai phá nào cũng có ý nghĩa đối vời người sử dụng

Luật kết hợp mờ có dạng: Luật kết hợp mờ có dạng: “Nếu X là A Thì Y là B” “X là A”

gọi là tiền (tiên) đề, “Y là B” gọi là kết luận của luật 𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑝}, Y= {𝑦1, 𝑦2, … , 𝑦𝑞}

là tập mục là tập con của tập thuộc tính I của CSDL 𝐴 = {𝑓𝑥1, 𝑓𝑥2, … , 𝑓𝑥𝑝}, B={𝑓𝑦1, 𝑓𝑦2, … , 𝑓𝑦𝑞} là các tập mờ tương ứng của các thuộc tính X, Y Phân chia miền xác định của thuộc tính là bước khởi đầu quan trọng cho cả một quá trình xử lý thông tin Gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên công đoạn tiếp theo

Luận án nghiên cứu các phương pháp khai phá tri thức dạng luật kết hợp mờ với thông tin ngôn ngữ (luật dạng ngôn ngữ) từ các CSDL hay các kho dữ liệu số Chúng tôi sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ để nghiên cứu một số vấn đề về khai phá luật kết hợp:

(i) Luật kết hợp mờ được nghiên cứu còn một số nhược điểm kể cả trong việc xây dựng thuật toán nhằm tăng tốc độ xử lý cũng như trong bài toán phân hoạch mờ miền xác định của thuộc tính nằm đưa ra các luật kết hợp có ý nghĩa

(ii) Với biểu diễn dữ liệu khác nhau, ĐSGT cho một cách tiếp cận thống nhất đơn giản mà có hiệu quả cao trong xử lý

Mục đích nghiên cứu:

- Nghiên cứu các phương pháp biểu thị ngữ nghĩa các khái niệm mờ (các từ ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) hoặc các phương pháp toán học khác sao cho nó biểu thị ngữ nghĩa các khái niệm phù hợp nhất

- Nghiên cứu các phương pháp khai phá tri thức nói chung và các luật mờ nói riêng

- Nghiên cứu các cách biểu diễn dữ liệu khác nhau của thông tin để có thể khai phá luật kết hợp một cách đa dạng, mang nhiều ý nghĩa Luận án sử dụng biểu diễn dữ liệu đơn

thể hạt và đa thể hạt, phù hợp với sự chú ý ngày càng gia tăng của hướng nghiên cứu này

CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ 1.1 Tập mờ và các phép toán trên tập mờ

1.1.1 Tập mờ (fuzzy set)

Định nghĩa 1.1: Cho U là vũ trụ các đối tượng Tập mờ A trên U là tập các cặp có thứ

tự (𝑥, 𝜇𝐴(𝑥)), với 𝜇𝐴(𝑥) là hàm từ U vào [0, 1] gán cho mỗi phần tử x thuộc U giá trị 𝜇𝐴(𝑥) phản ảnh mức độ thuộc của x thuộc vào tập mờ A

1.1.2 Biến ngôn ngữ

1.1.3 Phân hoạch mờ

Chúng ta có định nghĩa phân hoạch mờ như sau:

Trang 5

1) Định nghĩa 1.3: Cho m điểm cố định 𝑝1, 𝑝2, … , 𝑝𝑚 thuộc tập 𝑈 = [𝑎, 𝑏] ⊂ 𝑅 là không gian tham chiếu của biến cơ sở 𝑢 của biến ngôn ngữ 𝑋 Khi đó một tập 𝑇 gồm m tập mờ

𝐴1, 𝐴2, … , 𝐴𝑚 định nghĩa trên 𝑈 (với hàm thuộc tương ứng là 𝜇𝐴1, 𝜇𝐴2, , 𝜇𝐴𝑚) được gọi là một phân hoạch mờ của 𝑈 nếu các điều kiện sau thoả mãn, ∀𝑘 = 1, … , 𝑚:𝜇𝐴𝑘(𝑝𝑘) (𝑝𝑘 thuộc

về phần được gọi là lõi của 𝐴𝑘);

1.2.1 Khái niệm Đại số gia tử

Định nghĩa 1.4: Một ĐSGT được ký hiệu là bộ 4 thành phần được ký hiệu 𝐴𝑋 =

(X, G, H, ≤) trong đố G là tập các phần tử sinh, H là tập các gia tử (hedge) còn " ≤ " là quan

hệ cảm sinh ngữ nghĩa trên X Giả thiết trong G có chứa các phần tử hằng 0, W, 1 với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hoà (neutral) trong X Ta gọi mỗi giá trị ngôn ngữ 𝑥 ∈ 𝑋 là một hạng từ trong ĐSGT

Tập H gồm H−= {ℎ−1< ℎ−2< ⋯ < ℎ−𝑞} và 𝐻+= {ℎ1< ℎ2< ⋯ < ℎ𝑝}

1.2.2 Định lượng ngữ nghĩa của giá trị ngôn ngữ

Định nghĩa 1.5: Cho AX = (𝑋, 𝐺, 𝐻, ≤) là một ĐSGT tuyến tính Ánh xạ 𝑣𝔵: 𝑋 → [0,1] được gọi là một hàm định lượng ngữ nghĩa của AX nếu:

(i) 𝑣𝔵 là ánh ạ 1-1 từ tập X vào đoạn [0,1] và bảo toàn thứ tự trên X, tức là ∀𝑥, 𝑦 ∈ X,

Định nghĩa 1.7: Cho AX là một ĐSGT tuyến tính đầy đủ và 𝑓𝑚 là một độ đo tính mờ

trên X Ta nói ánh xạ 𝔳𝔵: 𝑋  [0,1] được cảm sinh bởi độ đo tính mờ 𝑓𝑚 nếu được định nghĩa bằng đệ qui như sau:

(1) 𝑣𝔵(𝑊) =  = 𝑓𝑚(𝑐−), 𝑣𝔵(𝑐−) =  –  𝑓𝑚(𝑐−) =  𝑓𝑚(𝑐−), 𝑣(𝑐+) =

 + 𝑓𝑚(𝑐+);

Trang 6

(2) 𝑣𝔵(ℎ𝑗𝑥) = 𝑣𝔵(𝑥) + 𝑆𝑖𝑔𝑛(ℎ𝑗𝑥) {∑𝑖−𝑠𝑖𝑔𝑛(𝑗)𝑖=𝑠𝑖𝑔𝑛(𝑗)𝜇(ℎ𝑖)𝑓𝑚(𝑥) − 𝜔(ℎ𝑗𝑥)𝜇(ℎ𝑗)𝑓𝑚(𝑥)},

với mọi j, −𝑞 ≤ 𝑗 ≤ 𝑝 và 𝑗  0, trong đó 𝜔(ℎ𝑗𝑥) =1

2[1 + 𝑆𝑖𝑔𝑛(ℎ𝑗𝑥) 𝑆𝑖𝑔𝑛(ℎ𝑝ℎ𝑗𝑥) (𝛽 −𝛼)] ∈ {𝛼, 𝛽};

1.3 Bài toán khai phá luật kết hợp

Định nghĩa 1.10: Một luật kết hợp là một mệnh đề kéo theo có dạng 𝑋 → 𝑌, trong đó

𝑋, 𝑌  𝐼 trong đó X và Y được gọi là các tập mục (itemsets), thỏa mãn điều kiện 𝑋 ∩ 𝑌 = ∅

Tập X gọi là nguyên nhân, tập Y gọi là hệ quả

Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ và độ tin cậy

Định nghĩa 1.11: Độ hỗ trợ của tập mục X: Đỗ hỗ trợ của tập mục X là tỷ lệ giữa số

lượng các bản ghi trong D chứa tập mục X với số bản ghi trong D

𝑆𝑢𝑝𝑝(𝑋) =|𝑋|

|𝐷|

(1.1)

Định nghĩa 1.12: Độ hỗ trợ của luật 𝑋 → 𝑌: Độ hỗ trợ của một luật kết hợp 𝑋 → 𝑌 là tỷ

lệ giữa số lượng các bản ghi chứa tập hợp 𝑋 ∪ 𝑌, so với tổng số các bản ghi trong D

𝑆𝑢𝑝𝑝(𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) =|𝑋∪𝑌||𝐷| (1.2)

Định nghĩa 1.13: Độ tin cậy của luật 𝑋 → 𝑌: Độ tin cậy của một luật kết hợp 𝑋 → 𝑌 là

tỷ lệ giữa số lượng các bản ghi trong D chứa 𝑋 ∪ 𝑌 với số bản ghi trong D chứa tập hợp X

𝑐𝑜𝑛𝑓(𝑋 → 𝑌) = 𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)

𝑆𝑢𝑝𝑝(𝑋)

(1.3)

1.3.2 Bài toán luật kết hợp mờ

Cho 𝐷𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛} là CSDL giao dịch, n là tổng số bản ghi trong D Cho 𝐼 =

{𝑖1, 𝑖2, … , 𝑖𝑚} là các mục, với mỗi mục 𝑖𝑗 (1 ≤ 𝑗 ≤ 𝑚) là thuộc tính hạng mục hoặc thuộc tính định lượng Một tập thuộc tính mờ là một cặp 〈𝑍, 𝐶〉 với Z tương ứng là tập các thuộc tính zj và C tương ứng là tập các tập mờ 𝑐𝑗 Nếu luật kết hợp mờ 𝑋 𝑖𝑠 𝐴 ⇒ 𝑌 𝑖𝑠 𝐵 gọi là tin cậy nếu thảo mãn độ hỗ trợ 𝐹(𝑍,𝐶) và độ tin cậy 𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)), với 𝑍 = 𝑋 ∪ 𝑌, 𝐶 = 𝐴 ∪ 𝐵

Độ hỗ trợ mờ của tập mục 〈𝑍, 𝐶〉 ký hiệu là 𝑓𝑠(〈𝑍, 𝐶〉) được xác định theo công thức:

𝑓𝑠(〈𝑍, 𝐶〉) =∑ ∏ (𝑡

𝑖[(𝑥𝑗, 𝑎𝑗)])

𝑚 𝑗=1 𝑛 𝑖=1

𝑛

(1.4)

Trong đó m là số lương tập mục trong tập mục (𝑍, 𝐶)

Độ tin cậy mờ được xác định theo công thức sau:

𝐹𝐶((𝑋,𝐴),(𝑌,𝐵))= 𝑓𝑠(𝑍, 𝐶)

Thuật toán khai phá luật kết hợp mờ dựa trên thuật toán Apriori:

Thuật toán khai phá luật kết hợp mờ được chia làm hai pha như sau:

Pha 1: Tìm tất cả các tập thuộc tính mờ phổ biến dạng 〈𝑍, 𝐶〉 có độ hỗ trợ lớn hơn độ hỗ trợ cực tiểu của người dùng nhập vào: 𝑓𝑠(〈𝑍, 𝐶〉) ≥ 𝑓𝑚𝑖𝑛𝑠𝑢𝑝

Trang 7

Pha 2: Sinh các luật kết hợp mờ tin cậy từ các tập phổ biến đã tìm thấy ở pha thứ nhất

Pha này đơn giản và tốn kém ít thời gian hơn so với pha trên Nếu 〈𝑍, 𝐶〉 là một tập thuộc tính mờ phổ biến thì luật kết hợp được sinh ra từ X có dạng: Z′is C′ → Z\Zfc ′is C\C′ Với Z' là tập con khác rỗng của Z, Z\Z' là hiệu của hai tập hợp, C' là tập con khác rỗng của C và là tập các tập mờ tương ứng với các thuộc tính trong Z', C\C' là hiệu hai tập hợp,

𝑓𝑐 là độ tin cậy của luật thỏa mãn: 𝑓𝑐 ≥ 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓

- Một số khái niệm cơ bản về luật kết hợp, luật kết hợp mờ và một số hướng nghiên cứu

2.1 Đặt vấn đề

Gần đây, các thuật toán sử dụng cách nén dữ liệu trong CSDL nhị phân cung cấp một giải pháp tốt có thể giảm yêu cầu không gian lưu trữ và thời gian xử lý dữ liệu Jia - Yu Dai

(2008) đã đề xuất thuật toán nén CSDL giao dịch nhị phân gọi là M2TQT Ý tưởng cơ bản

của thuật toán này là: gộp các giao dịch có quan hệ gần nhau để tạo thành giao dịch mới, kết quả thu được là tạo ra CSDL mới có kích thước nhỏ hơn, có thể giảm thời gian xử lý dữ liệu, giảm không gian lưu trữ Thuật toán M2TQT được đánh giá là tốt hơn các phương pháp

đã đề xuất trước đây Tuy nhiên thuật toán M2TQT chỉ thực hiện với CSDL nhị phân Nhằm nâng cao hiệu quả khai phá luật kết hợp, luận án đề xuất phương pháp khai phá luật kết hợp mờ theo cách tiếp cận ĐSGT, sử dụng cách nén dữ liệu cho một CSDL bất kỳ Với cách tiếp cận này, các giao dịch gần nhau được gộp lại để tạo thành giao dịch mới, làm giảm kích thước (chiều ngang) của CSDL đầu vào Thực nghiệm cho thấy, cách tiếp cận này cho kết quả tốt hơn các cách tiếp cận đã có

Nội dung chương này, luận án trình bày cách thức mờ hóa các thuộc tính mờ theo hướng tiếp cận ĐSGT, thuật toán nén CSDL mờ, và thuật toán khai phá luật kết hợp mờ với CSDL nén

2.2 Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT

2.2.1 Mờ hóa cơ sở dữ liệu giao dịch

Với cách tiếp cận ĐSGT, các giá trị hàm thuộc của mỗi giá trị của CSDL được tính theo cách như sau Trước hết, miền giá trị mỗi thuộc tính mờ được xem là một ĐSGT Với bài toán khai phá luật kết hợp mờ sử dụng lý thuyết tập mờ, chúng ta các phải xây dựng các

Trang 8

hàm thuộc cho mỗi thuộc tính Sau đó, dựa vào hàm thuộc đã xây dựng để tính độ thuộc của các giá trị và các miền mờ tương ứng Luận án đề xuất mỗi thuộc tính định lượng sẽ sử dụng một cấu trúc ĐSGT Dựa vào giá trị định lượng ngữ nghĩa của các phần tử của ĐSGT, chúng

ta xây dựng lên các phân hoạch mờ để tính độ thuộc của các phần tử trong CSDL đến các miền mờ

Bước 1: Chuẩn hóa các giá trị của các thuộc tính mờ về đoạn [0,1]

Bước 2: Xét các miền mờ 𝑠𝑗 của thuộc tính 𝑥𝑖 là các phần tử của ĐSGT 𝐴𝑋𝑖 Khi đó, một giá trị bất kỳ djxi của 𝑥𝑖 đều nằm giữa 2 giá trị định lượng ngữ nghĩa nào đó của 2 phần

tử của 𝐴𝑋𝑖 Khoảng cách trên đoạn [0,1] giữa djxi và giá trị định lượng ngữ nghĩa của hai phần tử gần djxi nhất về hai phía có thể dùng để xác định độ gần gũi của djxi vào hai miền

mờ (hai phần tử của ĐSGT) Độ

gần gũi giữa djxi với các phần tử

khác của ĐSGT được xác định

bằng 0 Để xác định độ thuộc cuối

cùng, ta phải chuẩn hóa (chuyển

về giá trị trong đoạn [0,1] rồi lấy

1 trừ khoảng cách đã chuẩn hóa

đó) Ta sẽ có, ứng với mỗi giá trị

djxi một cặp độ thuộc

Như vậy để tính độ thuộc djxi của thuộc tính 𝑥𝑖 vào miền mờ 𝑠𝑗:

𝜇𝑠𝑗(djxi) = 1 − | 𝑣(𝑠𝑗) − djxi |, với 𝑣(𝑠𝑗) là giá trị định lượng ngữ nghĩa của phần tử 𝑠𝑗

Ví dụ 2.1: Cho CSDL ví dụ như trong Bảng 2.1 gồm có hai thuộc tính A và B ĐSGT sử

dụng cho hai thuộc tính này có cấu trúc giống nhau: 𝐴𝑋 = (𝑋, 𝐺, 𝐻, ≤), 𝐶−= {𝐿𝑜𝑤}, 𝐶+={𝐻𝑖𝑔ℎ𝑡}, 𝐻−= {𝐿𝑒𝑎𝑠𝑡}, 𝐶+= {𝑉𝑒𝑟𝑦}, các tham số như sau: 𝑓𝑚(𝐿𝑜𝑤) = 𝑓𝑚(𝐻𝑖𝑔ℎ𝑡) = 0.5, 𝜇(𝑉𝑒𝑟𝑦) = 𝜇(Least) = 0.5, 𝐷𝑜𝑚(𝐴, 𝐵) = [0, 100] Khi đó ta tính được các giá trị định lượng ngữ nghĩa: v(Very Low) = 0.125, v(Least Low) = 0.375, v(Least Height) = 0.625, v(Very Height) = 0.875

2.2.2 Quan hệ khoảng cách giao dịch

Dựa vào khoảng cách giữa các giao dịch, có thể gộp các giao dịch có khoảng cách gần nhau để tạo ra nhóm giao dịch, kết quả là thu được CSDL mới có kích thước nhỏ hơn Quan hệ giao dịch và quan hệ khoảng cách giao dịch cho các giao dịch trong CSDL mờ được định nghĩa như sau:

Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT

Trang 9

(1) Quan hệ giao dịch: Hai giao dịch 𝑇1,

𝑇2 được gọi là có quan hệ với nhau nếu

𝑇1hoặc là tập con của 𝑇2 hoặc 𝑇1là tập

cha của 𝑇2

(2) Quan hệ khoảng cách giao dịch:

Khoảng cách giữa hai giao dịch là số

Bảng 2.3 là bảng định lượng được xây dựng từ CSDL trong Bảng 2.2 Với bảng định lượng, chúng ta có thể dễ dàng loại bớt các tập ứng cử viên có độ hỗ trợ nhỏ hơn so với sự

hỗ trợ tối thiểu

2.3 Nén cơ sở dữ liệu giao dịch

Với d là khoảng cách quan hệ được khởi tạo bằng 1 Dựa vào khoảng cách giữa các giao dịch, chúng ta gộp các giao dịch có khoảng cách nhỏ hơn hoặc bằng d để tạo thành nhóm giao dịch mới và đưa vào khối gồm các giao dịch được trộn với nhau

Trong Hình 2.2: CSDL gồm các thuộc tính định lượng, phần Tiền xử lý dữ liệu: Thực hiện

chuẩn hoá dữ liệu về đoạn [0,1], độ thuộc của giá trị của các thuộc tính được tính toán như trình trình bày trong mục 2.2, sau đó từ CSDL mờ thu được chúng ta gộp các giao dịch gần nhau vào với nhau tạo ra CSDL mới gọi là CSDL nén Chi tiết thuật toán nén được trình bày chi tiết trong Thuật toán 1 Để tìm ra các luật kết hợp từ CSDL nén luận án đề xuất cải tiến thuật toán Apriori mờ và chi tiết như Thuật toán 2

Thuật toán 1: Thuật toán nén giao dịch

Đầu vào: Cơ sở dữ liệu giao dịch mờ D

Đầu ra: Cơ sở dữ liệu nén

Ký hiệu các tham số của thuật toán như sau:

𝑀𝐿 = {𝑀𝐿𝑘}: 𝑀𝐿𝑘 các nhóm giao dịch có độ dài bằng k (độ dài của giao dịch là số mục trong giao dịch)

𝐿 = {𝐿𝑘}: 𝐿𝑘 các giao dịch có độ dài k

𝑇𝑖: Giao dịch thứ i trong CSDL mờ

| 𝑇𝑖 |: Độ dài của giao dịch 𝑇𝑖

Nội dung thuật toán:

Bước 1: Mỗi lần đọc một giao dịch 𝑇𝑖 từ CSDL mờ

Bước 2: Tính độ dài của giao dịch 𝑇𝑖: n

Bước 3: Dựa vào giao dịch đầu vào để xây dựng bảng định lượng

Bảng 2.3: Bảng định lượng của cơ sở dữ liệu

Bảng 2.2

Trang 10

Bước 4: Tính toán khoảng cách giữa

giao dịch Ti với các nhóm giao dịch trong

khối MLn−1, MLn, MLn+1 Nếu tồn tại

một nhóm giao dịch trong các khối

MLn−1, MLn, MLn+1 có khoảng cách với

giao dịch Ti nhỏ hơn hoặc bằng d Chúng

ta tiến hành gộp giao dịch Ti với nhóm

giao dịch trong khối tương ứng, ta thu

được nhóm giao dịch mới và đưa vào khối

có độ dài tương ứng, và xóa nhóm giao

dịch cũ trong khối

Bước 5: Nếu giao dịch 𝑇𝑖 không được

gộp với các nhóm giao dịch trong khối

MLn−1, MLn, MLn+1 Tính toán khoảng

cách giữa giao dịch 𝑇𝑖 và các giao dịch

trong khối 𝐿𝑛−1, 𝐿𝑛, 𝐿𝑛+1 Nếu tồn tại giao dịch 𝑇𝑗 sao cho 𝐷𝑇𝑖−𝑇𝑗≤ 𝑑, gộp giao dịch 𝑇𝑖 với giao dịch 𝑇𝑗 để tạo thành nhóm giao dịch và thêm nhóm giao dịch này vào khối tương ứng (tùy thuộc vào độ dài của nhóm giao dịch được tạo ra), và xóa giao dịch 𝑇𝑗 trong khối: 𝐿𝑛−1,

𝐿𝑛, 𝐿𝑛+1 Nếu không tìm được giao dịch thỏa mãn khoảng cách d, thêm giao dịch 𝑇𝑖 vào khối 𝐿𝑛

Bước 6: Lặp lại 5 bước trên cho đến khi giao dịch cuối cùng trong CSDL giao dịch được

xử lý

Bước 7: Mỗi lần đọc một giao dịch 𝑇𝑖 trong khối 𝐿 = {𝐿𝑘}

Bước 8: Tính độ dài của giao dịch 𝑇𝑖: n

Bước 9: Tính toán khoảng cách giữa giao dịch 𝑇𝑖 với các nhóm giao dịch trong các khối

MLn−1, MLn, MLn+1 Nếu tồn tại một nhóm giao dịch có khoảng cách nhỏ hơn hoặc bằng

d, tiến hành gộp giao dịch 𝑇𝑖 với nhóm giao dịch tìm được để tạo thành nhóm giao dịch mới Tùy thuộc vào độ dài của nhóm giao dịch mới, sẽ thêm nhóm giao dịch mới này vào khối tương ứng: MLn−1, MLn, MLn+1, xóa nhóm giao dịch cũ trong khối: MLn−1, MLn, MLn+1,

và xóa giao dịch 𝑇𝑖 trong khối 𝐿𝑛

Bước 10: Lặp lại bước 7, bước 8, bước 9 cho đến khi giao dịch cuối cùng trong 𝐿 =

{𝐿𝑘 } được xử lý

Kết quả thu được CSDL nén gồm các giao dịch trong các khối 𝐿 = {𝐿𝑘 }, 𝑀𝐿 = {𝑀𝐿𝑘 }, và bảng định lượng

2.4 Thuật toán trích xuất luật kết hợp mờ

Thuật toán 2: Khai phá dữ liệu mờ theo hướng tiếp cận ĐSGT Ký hiệu các tham số

của thuật toán khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT:

N: Tổng số giao dịch trong CSDL

M: Tổng số thuộc tính

𝐴𝑗: Thuộc tính thứ j, 1 ≤ 𝑗 ≤ 𝑚 (thuộc tính định lượng hoặc thuộc tính hạng mục)

|𝐴𝑗|: Số nhãn gia tử của thuộc tính Aj

𝑅𝑗𝑘: Nhãn gia tử j của thuộc tính Aj, 1 ≤ 𝑘 ≤ |Aj|

𝐷(𝑖): Dữ liệu giao dịch thứ i, 1 ≤ 𝑖 ≤ 𝑁

𝑣𝑗(𝑘): Giá trị phần tử thứ k của Aj trong D(i)

Hình 2.2: Tổng quan về thuật toán nén

CSDL giao dịch

Trang 11

𝑓𝑗𝑘(𝑖): Giá trị độ thuộc của 𝑣j(k) với nhãn gia tử Rjk, 0 ≤ 𝑓𝑗𝑘(𝑖)≤ 1

𝑆𝑢𝑝(𝑅𝑗𝑘): Độ hỗ trợ của Rjk

Sup: Giá trị hỗ trợ của mỗi tập mục phổ biến

Conf: Độ tin cậy của mỗi tập mục phổ biến

Min_sup: Độ hỗ trợ tối thiểu cho trước

Min_conf: Độ tin tin cậy cho trước

𝐶𝑟: Tập các tập mục có khả năng với r thuộc tính (tập mục), 1 ≤ 𝑟 ≤ 𝑚

𝐿𝑟: Tập các tập mục phổ biến thỏa mãn với r nhãn gia tử (tập mục) 1 ≤ 𝑟 ≤ 𝑚 Thuật toán khai phá luật kết hợp dựa trên ĐSGT cho các giá trị định lượng được thực hiện như sau:

Input: CSDL giao tác D; Các ĐSGT cho các thuộc tính mờ; Độ hỗ trợ 𝑀𝑖𝑛_𝑠𝑢𝑝 và độ tin cậy 𝑀𝑖𝑛_𝑐𝑜𝑛𝑓

Output: Luật kết hợp mờ

Bước 1: Chuyển các giá trị định lượng 𝑣𝑗(𝑘) của giao dịch 𝐴𝑗 trong 𝐷(𝑖), với i từ 1 tới N Với 𝑣𝑗(𝑘), nếu 𝑣𝑗(𝑘)nằm ở ngoài 1 trong 2 đầu mút (2 nhãn gia tử cực đại và cực tiểu) thì 𝑣𝑗(𝑘)chỉ có 1 nhãn gia tử ứng với đầu mút đó Ngược lại 𝑣𝑗(𝑘)được biểu diễn bởi 2 nhãn gia tử liên tiếp có đoạn giá trị nhỏ nhất trên trường giá trị của 𝑣𝑗(𝑘), mỗi nhãn ứng với 1 giá trị biểu diễn độ thuộc 𝑓𝑗𝑘(𝑖)(j = 1, 2) của 𝑣𝑗(𝑘)với nhãn gia tử đó Độ thuộc này được tính là khoảng cách của 𝑣𝑗(𝑘) tới giá trị biểu diễn cho nhãn gia tử tương ứng

Bước 2: Thực hiện thuật toán nén giao dịch (Thuật toán 1) với CSDL được mờ hóa ở

Bước 1 Kết thúc bước này, chúng ta thu được CSDL giao dịch nén và bảng định lượng Chúng ta sử dụng thuật toán giống như Apriori với CSDL nén để sinh ra các tập phổ biến

Bước 3: Dựa vào giá trị trong TL1 của bảng định lượng, giá trị trong TL1 là độ hỗ trợ của các 𝑅𝑗𝑘 Nếu 𝑆𝑢𝑝(𝑅𝑗𝑘) ≥ min_𝑠𝑢𝑝 thì đưa Rjkvào L1

Bước 4: Nếu L1≠ ∅, tiếp tục bước sau, nếu L1 = ∅ thì kết thúc thuật toán

Bước 5: Thuật toán xây dựng tập mục phổ biến mức r từ các tập mục phổ biến mức r -

1 bằng cách chọn 2 tập mục phổ biến mức r - 1 chỉ khác nhau duy nhất một mục, hợp 2 tập mục này ta được tập mục ứng viên 𝐶𝑟 Trước khi sử dụng CSDL nén để tính độ hỗ trợ của các tập mục trong 𝐶𝑟, dựa vào giá trị của TLr trong bảng định lượng chúng ta có thể loại bớt một số ứng cử viên mà không cần phải duyệt CSDL nén

Bước 6: Duyệt CSDL nén, tính độ hỗ trợ của mỗi tập mục trong 𝐶𝑟 Nếu tập mục nào

có độ hỗ trợ thỏa mãn độ hỗ trợ tối thiểu thì đưa vào 𝐿𝑟

Bước 7: Thực hiện theo các bước con sau đây lặp lại cho các tập mục phổ biến mức lớn

hơn được sinh ra tiếp theo dạng (r+1) tập mục phổ biến S với mục (𝑠1, 𝑠2, … , 𝑠𝑡, … , 𝑠𝑟+1) trong 𝐶𝑟+1, 1 ≤ 𝑡 ≤ 𝑟 + 1

(a) Tính giá trị hỗ trợ sup(S) của S trong giao dịch

(b) Nếu 𝑆𝑢𝑝(𝑆) ≥ 𝑀𝑖𝑛_𝑠𝑢𝑝, thì đưa S vào 𝐿𝑟+1

Bước 8: Nếu Lr+1 là rỗng, thì thực hiện bước tiếp theo, ngược lại, đặt 𝑟 = 𝑟 + 1, thực hiện lại bước 6 và 7

Bước 9: Đưa ra các luật kết hợp từ các tập mục phổ biến vừa thu được

Trang 12

2.5 Kết quả thử nghiệm

Kết quả thực nghiệm được thực hiện với hai thuật toán: thuật toán đề xuất và thuật toán Apriori mờ bằng ngôn ngữ lập trình C# và chạy thử nghiệm trên máy tính có cấu hình như sau: Intel(R) Core(TM) i5 CPU 1.7GHz, RAM 6GB Trong chương này, luận án sử dụng hai CSDL để thử nghiệm: FAM95 và STULONG

2.5.1 Thử nghiệm với CSDL FAM95

Trong Bảng 2.4 thống kê số lượng luật kết hợp thu được của ba phương pháp: phương pháp sử dụng: CSDL không nén, CSDL nén, và CSDL nén và Bảng định lượng Với độ hỗ trợ 20%, 30% số lượng luật kết hợp của phương pháp luận án đề xuất có khác so với phương pháp sử dụng thuật toán Apriori, với độ hỗ trợ tử 40% đến 70% thì số lượng luật kết hợp thu được của ba phương pháp là giống nhau

Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80%

kể

Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80%

CSDL giao dịch nén, không sử dụng bảng định lượng

Trang 13

Bảng 2.6: Luật kết hợp thu được với độ hỗ trợ 70% và độ tin cậy 80%

STT Luật kết hợp Đỗ hỗ trợ Độ tin cậy

Hình 2.3: Thời gian thực hiện với CSDL nén

Trong Hình 2.3 so sánh thời gian thực thuật toán Apriori mờ với CSDL không nén và thời gian thực hiện với CSDL nén nhưng không sử dụng bảng định lượng Trong Hình 2.4

so sánh thời gian thực hiện thuật toán cùng với CSDL nén có sử dụng bảng định lượng và CSDL nén không sử dụng bảng định lượng Thời gian dùng để nén CSDL trên là 135 giây,

số giao dịch thu được sau khi nén là 2402 giao dịch Kết quả thử nghiệm với độ tin cậy là 60%, luận án thử nghiệm với hai thuật toán: Luật kết hợp theo cách tiếp cận của ĐSGT [2]

và thuật toán luận án đề xuất là nén CSDL mờ theo hướng tiếp cận ĐSGT Kết quả thử nghiệm cho thấy phương pháp đề xuất nén CSDL cho kết quả nhanh hơn với phương pháp

đề xuất trong [2] và giá trị của các tập phổ biến tìm được giống với khi chúng ta sử dụng CSDL không nén

2.5.2 Thử nghiệm với CSDL STULONG

Trong Bảng 2.7 thống kê số lượng luật kết hợp thu được của ba phương pháp: phương pháp sử dụng: CSDL không nén, CSDL nén, và CSDL nén và Bảng định lượng

Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80%

Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80%

Định dạng
Số trang	27
Dung lượng	1,66 MB