Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp

LỜI CẢM ƠN Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kếthợp căn cứ vào ý kiến đánh giá của các chuyên gia theo một số tiêu chí cho trước là một

Trang 1

MỤC LỤC

LỜI CẢM ƠN iii

LỜI CAM ĐOAN iv

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v

DANH MỤC BẢNG vi

DANH MỤC HÌNH VẼ vii

MỞ ĐẦU 1

CHƯƠNG 1 KHAI PHÁ TRI THỨC MỜ 6

1.1 Khai phá tri thức theo cách tiếp cận của lý thuyết tập mờ 6

1.1.1 Kiến thức cơ sở về tập mờ 6

1.1.2 Khai phá tri thức với thông tin mờ 7

1.2 Một số kiến thức cơ bản ĐSGT 9

1.2.1 Đại số gia tử 9

1.2.2 Một số tính chất của đại số gia tử 11

1.3 Khai phá tri thức từ CSDL với hệ luật mờ 14

1.4 Luật kết hợp mờ 17

1.4.1 Một số khái niệm cơ bản 17

1.4.2 Thuật toán Apriori 21

1.5 Giải thuật di truyền 23

1.5.1 Khái niệm 23

1.5.2 Các thành phần cơ bản của giải thuật di truyền 23

CHƯƠNG 2 XÁC ĐỊNH CÁC HÀM THUỘC TRÊN MIỀN XÁC ĐỊNH THUỘC TÍNH MỜ 27

2.1 Phương pháp giải bài toán phân chia miền xác định thuộc tính 27

2.1.1 Một số phương pháp phân chia miền mờ 27

2.1.2 Phương pháp tiếp cận Đại số gia tử 28

Trang 2

2.2 Phương pháp xác định các hàm thuộc phân chia miền xác định thuộc

tínhmờ dựa trên dữ liệu 30

2.2.1 Biểu diễn nhiễm sắc thể 30

2.2.2 Hàm tối ưu 32

CHƯƠNG 3 GIẢI BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP MỜ DỰA TRÊN PHÂN HOẠCH MỜ TỐI ƯU 35

3.1 Bài toán khai phá luật kết hợp mờ 35

3.1.1 Rời rạc hóa thuộc tính dựa vào tập mờ 35

3.1.2 Rời rạc hóa thuộc tính mờ 38

3.1.3 Bài toán khai phá luật kết hợp mờ 40

3.2 Thuật toán và chương trình thử nghiệm 45

3.2.1 Thuật toán khai phá hàm thuộc và luật kết hợp 45

3.2.2 Một số kết quả thử nghiệm 47

KÊT LUẬN 56

TÀI LIỆU THAM KHẢO 57

Trang 3

LỜI CẢM ƠN

Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kếthợp căn cứ vào ý kiến đánh giá của các chuyên gia theo một số tiêu chí cho trước là một bài toán thường gặp trong các hoạt động thường xuyên của con người

Có rất nhiều phương pháp để giải quyết bài toán sắp xếp mờ theo nhiều hướng tiếp cận khác nhau, mỗi hướng tiếp cận đều có ưu nhược điểm riêng

Được sự đồng ý của trường Đại học công nghệ thông tin và truyền thồng và Thầy

giáo hướng dẫn em mạnh dạn nhận đề tài: “Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp” làm đề tài luận văn thạc sỹ

của mình

Sau một thời gian nghiên cứu nghiêm túc được sự hướng dẫn nhiệt tình của Thầy giáo hướng dẫn, luận văn em đã hoàn thành 3 chương và chương trình thử nghiệm

Em xin gửi lời cảm ơn sâu sắc tới Ts Trần Thái Sơn, người đã tận tình hướng

dẫn tôi trong suốt quá trình hoàn thành luận văn.Em cũng xin chân thành cảm ơn gia đình, bạn bè đã hết sức ủng hộ về vật chất lẫn tinh thần để em hoàn thành luận văn

Xin chân thành cảm ơn!

Trang 4

LỜI CAM ĐOAN Tên tôi là: Lê Minh Hiệp

Sinh ngày 19 tháng 07 năm 1987

Học viên cao học lớp: CK13A - Trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên

Xin cam đoan: Đề tài “Xây dựng các hàm thuộc trên miền xác định thuộc tính

mờ giải bài toán khai phá luật kết hợp” do Ts.Trần Thái Sơnhướng dẫn là công trình

nghiên cứu của riêng tôi Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng Tôi xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong

đề cương và yêu cầu của thầy giáo hướng dẫn Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước Hội đồng khoa học và trước pháp luật

Thái Nguyên, ngày tháng năm 2016

Tác giả luận văn

Lê Minh Hiệp

Trang 5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các kí hiệu

α Tổng độ đo tính mờ của các gia tử âm

β Tổng độ đó tính mờ của các gia tử dương

AX, AT Đại số gia tử

AX Đại số gia tử tuyến tính đầy đủ

W Phần tử trung hòa trong đại số gia tử

GA Giải thuật di truyền

MFRBS Mamdani Fuzzy Rule - Base System

Trang 6

DANH MỤC BẢNG

Bảng 3: Rời rạc hóa thuộc tính số rời rạc hữu hạn hoặc thuộc tính hạng mục 36

Bảng 5: Bảng các ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ 43

Bảng 7: Cở sử dữ liệu giao dịch sau khi chuẩn hóa về đoạn [0,1] 48 Bảng 8: Các tham số của ĐSGT được thiết lập dựa vào kinh nghiệm 49 Bảng 9: Các tham số của ĐSGT sau khi thực hiện tối ưu 51 Bảng 10: Số lượng 1-Itemset thu được với tham số sau khi chạy GA 53 Bảng 11: Một số luật thu được khi sử dụng hàm thuộc như trong hình 3.5 55

Trang 7

DANH MỤC HÌNH VẼ

Hình 2.1: Xây dựng hàm thuộc dựa trên giá trị ĐLNN 29

Hình 2.2: Lược đồ tìm kiếm hàm thuộc và khai phá luật kết hợp mờ 30

Hình 2.3: Hàm thuộc cho thuộc tính 31

Hình 2.4: Hàm thuộc cho thuộc tính Milk 31

Hình 2.5: Biểu diễn nhiễm sắc thể cho tập hàm thuộc trong Hình 2.3 32

Hình 2.6: Hai hàm thuộc không hợp lý 34

Hình 3.1: Hàm thuộc của các tập mờ "Tuổi_trẻ", "Tuổi_trung_niên", và "Tuổi_già" 38 Hình 3.2: Hàm thuộc cho thuộc tính Age với α=β=0.5, fm(N)=fm(P)=w=0.5 49

Hình 3.3: Cấu trúc Gen cho 10 thuộc tính 49

Hình 3.4:Các hàm thuộc với các tham số không tối ưu 51

Hình 3.5: Các hàm thuộc sau khi tối ưu 53

Hình 3.6: Biểu đồ quan hệ giữa tập lớn 1-itemsets và minimum support 54

Trang 8

MỞ ĐẦU

1 Đặt vấn đề

Lĩnh vực nghiên cứu khai phá tri thức nói chung và ứng dụng trong việc giải các bài toán trích xuất luật kết hợp mờvà xây dựng các hệ luật mờ trong điều khiển nói riêng đang phát triển mạnh mẽ Nếu như trước kia các kết quả nghiên cứu dựa trên nền tảng khoa học cổ điển, lô gic và sự chính xác thì hiện tại, việc nghiên cứu phải dựa trên những công nghệ mới, mang đặc tính mềm dẻo, có khả năng tương tác với con người tốt hơn do lĩnh vực khai phá tri thức là lĩnh vực liên quan chặt chẽ đến suy nghĩ, lập luận của con người Ta thấy, trong lập luận, con người thường dùng những khái niệm không được đo đếm chính xác, phổ biến là các từ ngôn ngữ tự nhiên, như “xa”,

“gần”, “giỏi”, “rất khá” Nếu muốn mô phỏng lập luận con người, đòi hỏi phải có những phương pháp mới khác với những phương pháp cổ điển đã có.Khái niệm công nghệ tính toán mềm ra đời, với tư tưởng đưa ra các nghiên cứu nền tảng và các công

cụ hữu ích giúp chúng ta xử lý một cách mềm dẻo nhiều vấn đề trong khoa học theo triết lý gần với lập luận của con người Dựa trên công nghệ tính toán mềm, rất nhiều các thuật toán đã và tiếp tục được nghiên cứu đề xuất liên quan đến lĩnh vực khai phá

dữ liệu Để giải quyết vấn đề, việc sử dụng kinh nghiệm của các chuyên gia trong lĩnh vực quan tâm rõ ràng là không đủ vì các lí do về thời gian, về khả năng biểu diễn tri thức bản thân dưới dạng dễ cho các chuyên gia khác hiểu, xử lí Do đó xuất hiện nhu cầu khai phá tri thức một cách tự động nhờ các thuật toán từ những kho thông tin lớn hiện có ở khắp nơi Về tổng thể, bài toán đặt ra là cho trước một Cơ sở dữ liệu (thường

là CSDL số, tức các giá trị của CSDL là các số thực), từ đó, bằng các phương pháp xử

lý nhất định, rút ra một hệ tri thức phản ánh các quy luật ngầm chứa trong CSDL số này Các quy luật này có thể biểu diễn dưới dạng luật kết hợp X ->Y, trong đó X,Y là các tập thuộc tính (không giao nhau) của CSDL thỏa mãn các điều kiện XY xuất hiện với tần số đủ lớn trong CSDL (tức độ hỗ trợ của luật lớn hơn một ngưỡng xác định để đảm bảo luật có ý nghĩa) và điều kiện nếu có X (tức giá trị CSDL ở hàng nào đó thuộc

Trang 9

về X) thì trên hàng đó cũng có Y sẽ sảy ra với tần suất đủ cao (có độ tin cậy vượt

ngưỡng) ví dụ luật “Nếu Sinh viên A chăm chỉ và khỏe mạnh và có tư duy khá Thì kết

quả học tập sẽ rất khá” Hoặc tri thức có thể biểu diễn dưới dạng mộthệ luật dạng IF X

is A and Y is B THEN Z is C, trong đó X, Y, Z là các biến mờ (thường là các biến ngôn ngữ), A, B, C là các giá trị biến ngôn ngữ (thường là các tập mờ)

Thí dụ luật IF đường là xa và tốc độ di chuyển là trung bình THEN thời gian đến

đích sẽ là lâu

Để có thể sinh ra những luật như vậy, đầu tiên ta phải chuyển hóa miền giá trị của các thuộc tính định tính “khoảng cách”, “tốc độ”, “thời gian” thành các miền mờ, hay nói cách khác là chia miền giá trị đó thành các miền mờ bằng cách xác định các hàm thuộc (MF - Mebership Function) trên đó Chẳng hạn, có thể chia miền giá trị thuộc tính độ dài (có các giá trị min, max tương ứng chẳng hạn là 0km, 200km) thành các miền mờ “gần”, “trung bình”, “xa” Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi là một tập mờ và ứng với một hàm thuộc nhằm xác định độ “thuộc” của giá trị biến vào tập mờ đã cho Khi đó, một giá trị của một thuộc tính CSDL sẽ ứng với một tập các giá trị của các hàm thuộc ứng với với các tập mờ của thuộc tính đó và ta sẽ

xử lý tập giá trị độ thuộc này thay cho xử lý bản thân giá trị đó của CSDL Và từ CSDL ban đầu với nhiều giá trị số, ta nhận được một CSDL mờ (FB - Fuzzy Dase) để tiến hành xây dựng các luật quan tâm Hệ luật nhận được gọi là RB (Rule Base) Kết hợp FB và RB cho ta Hệ tri thức (KB – Knowledge Base)

Các thuật toán trích rút các luật mờ hay hệ luật mờ gần đây thông thường phát triển trên các giải thuật di truyền (GA - Genetic Algorithm) hay khái quát hơn là các giải thuật tiến hóa (EA - Evolutionary Alg) vì chúng phù hợp với tính tối ưu đa mục tiêu của bài toán đặt ra là phải đưa ra những hệ luật mờ vừa có độ chính xác cao vừa đơn giản ở mức người sử dụng có thể chấp nhận được (ít luật và ít số thuộc tính tham gia vào trong mỗi luật)

Một điểm chung giữa các loại thuật toán là trước tiên đều phải có bước tạo ra FB Giai đoạn trước của nghiên cứu, thường người ta ít để ý đến việc tạo ra một FB tốt một cách có cơ sở, mặc nhiên công nhận đã có FB được sinh ra theo một cách nào đó rồi và

Trang 10

chỉ quan tâm đến việc xây dựng các thuật toán sinh RB Gần đây, người ta nhận thấy, xây dựng FB tốt sẽ là cơ sở để có những thuật toán tốt ở bước sau, bước xây dựng RB Thí dụ, miền xác định của thuộc tính tuổi là [0,120], nếu cứ máy móc chia làm 3 miền đều nhau ứng với 3 tập mờ “trẻ”, “trung niên” và “già” thì rõ ràng tập mờ “già” chẳng hạn sẽ ứng với những người ở khoảng tuổi [80,120], trong khi nếu ta khai phá

dữ liệu tập nhân sự của cơ quan nào đó, khái niệm “già” thuộc về những người ít tuổi hơn nhiều (trong khoảng 55 đến tuổi về hưu)

Vì vậy, việc xây dựng các tập mờ trên miền xác định của thuộc tính về cơ bản

phụ thuộc vào bài toán cụ thể, dữ liệu cụ thể Đã có những nghiên cứu sâu hơn về vấn

đề này và đã xuất hiện các thuật toán khá lý thú xây dựng FB mà cốt lõi là tiến hành phân chia miền giá trị thuộc tính thành các miền mờ Có thể liệt kê các nhóm thuật toán chính như sau:

1 Phân chia một cách ngẫu nhiên: Trong phương pháp này, ta chọn một số cố

định các miền cần chia (thông thường lấy số 3, tức phân làm 3 miền mờ) và chia thuộc tính thành các vùng đều nhau Phương pháp này đơn giản và có lẽ là tốt khi ta không

có thông tin nào khác, nhưng hiển nhiên là không đáp ứng tính đa dạng của dữ liệu.([7])

2 Phân chia theo dữ liệu (data driven):

- Phân chia theo phương pháp phân cụm (học không mẫu): Trong phương pháp

này, dữ liệu được phân thành cụm căn cứ vào độ gần gũi theo một tiêu chuẩn nào đó giữa chúng Thuật toán biết đến nhiều trong hướng phân cụm (clustering – học không mẫu) là k - mean Cũng thông thường, số cụm có thể chọn cố định trước, có thể là 3 Chỉ khác phương pháp trước là ta không chia đều miền xác định của thuộc tính mà căn

cứ vào phân bố cụ thể của số liệu Phương pháp này tính đến sự đa dạng của việc phân

bố dữ liệu nhưng đòi hỏi phải tiến hành chạy các thuật toán tốn nhiều thời gian

- Phân chia theo các tiêu chuẩn thống kê: ở đây dữ liệu được phân miền theo

các tiêu chuẩn thống kê như student s - test, χ2 Phương pháp loại này tính toán thường

Trang 11

đơn giản hơn dùng các giải thuật di truyền nhưng phụ thuộc vào dữ liệu có được liệu

có đủ lớn và phân bố tốt hay không.([8])

3 Phân chia theo phương pháp ràng buộc động: Trong phương pháp này, dữ

liệu được phân chia thành các miền mờ theo các ràng buộc trên các hàm thuộc để đảm bảo một số tiêu chí cho trước Các MF có thể thay đổi hình dạng, vị trí Theo ([9]), các tiêu chí đó có thể là: số lượng các (hàm thuộc) MF mỗi biến là vừa phải, độ chồng lấn của các MF là ít, miền giá trị được phủ hoàn toàn bởi các miền mờ tương ứng

Hiện nay, các nghiên cứu liên quan đến xây dựng FB chủ yếu dùng cách tiếp cận

lý thuyết tập mờ của L.Zadeh Phương pháp tiếp cận theo lý thuyết tập mờ cho ta một cách xử lý dữ liệu khá mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ điển Tuy vậy, vẫn còn nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợpvà cách xử lý các hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng vì khi chạy các thuật toán GA, các hàm thuộc này có thể biến đổi theo hướng không mong muốn Các nghiên cứu về sử dụng lý thuyết tập thô, lý thuyết khả năng để xây dựng FB còn ít được quan tâm Cách tiếp cận Đại số gia tử cũng bắt đầu những bước nghiên cứu đầu tiên Như vậy còn rất nhiều nỗ lực cần có để nghiên cứu sâu hơn về bản chất của việc phân chia miền mờ, gắn việc phân chia này với ngữ nghĩa các nhãn ngôn ngữ để có thể xây dựng được các FB tốt dẫn đến có một KB tốt phục vụ các bài toán khai phá tri thức, sử dụng các công cụ khác nhau của công nghệ tính toán mềm

Với những nhận xét nêu trên, luận văn dự kiến nghiên cứu về việc xây dựng FB tối ưu (theo một số tiêu chuẩn định trước) từ một CSDL cho trước theo hướng tiếp cận dựa trên dữ liệu (data driven - mục 2 nêu trên), sử dụng các công cụ mới nhất của công nghệ tính toán mềm và trên cơ sở FB tối ưu này tiến hành khai phá thử nghiệm các luật kết hợp từ một CSDL cho trước

Được sự đồng ý của trường Đại học Công nghệ thông tin và Truyền thông với sự

hướng dẫn của Thầy giáo em thực hiện đề tài: “Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp”làm đề tài luận văn của

mình

Trang 12

2 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là cơ sở dữ liệu đầu vào dùng để khai phá dữ liệu Các công cụ công nghệ tính toán mềm, đặc biệt là lý thuyết tập mờ và đại số gia

tử (ĐSGT) cũng được nghiên cứu như là công cụ để giải bài toán đặt ra

3 Hướng nghiên cứu của đề tài

Luận văn nghiên cứu các phương pháp giải bài toán phân lớp miền xác định thuộc tính của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các phương phápđã có vànghiên cứu cách giải bài toán theo cách tiếp cận của lý thuyết tập

mờ và ĐSGT, sử dụng giá trị định lượng ngữ nghĩa của các giá trị biến ngôn ngữ, phân chia miền thuộc tính tiến hành khai phá dữ liệu

Trang 13

CHƯƠNG 1 KHAI PHÂ TRI THỨC MỜ

Để có thể theo dõi nội dung luận văn một câch có hệ thống, chúng tôi xin trình băy vắn tắt câc khâi niệm cơ bản của lý thuyết tập mờ vă Đại số gia tử (ĐSGT) trong câc mục sau

1.1 Khai phâ tri thức theo câch tiếp cận của lý thuyết tập mờ

1.1.1 Kiến thức cơ sở về tập mờ

Lý thuyết tập mờ lần đầu tiín được Lofti A.Zadeh, một giâo sư thuộc trường Đại học Caliornia, Berkley giới thiệu trong một công trình nghiín cứu văo năm 1965 vă sau đó liín tục phât triển mạnh mẽ

Năm 1970, tại trường đại học Mary Queen, thănh phố London - Anh, Ebrahim Mamdani đê sử dụng logic mờ để điều khiển một mây hơi nước mẵng không thể điều khiển bằng kỹ thuật cổ điển

Tại Nhật, logic mờ được ứng dụng văo nhămây xử lý nước của hêng Fuji Electronic văo năm 1983, hệ thống xe điện ngầm của Hitachi năm 1987 Tuy logic mờ

ra đới ở Mỹ, ứng dụng lần đầu ở Anh, nhưng nó lại được phât triển vă ứng dụng nhiều nhất ở Nhật

Định nghĩa 1.1: Cho không gian nền U, tập A  U được gọi lă tập mờ nếu A

Trang 14

 (x): X→ [0,1]Trong đó, A là nhãn mờ của biến X, thường mang một ý nghĩa ngôn ngữ nào đó, mô tả định tính thuộc tính của đối tượng, chẳng hạn như cao, thấp, nóng, lạnh, sáng, tối,

A

 được gọi là hàm thuộc, hàm liên thuộc hay hàm thành viên (membership function)

Với xX thì A(x) được gọi là mức độ thuộc của x vào A

Như vậy ta có thể coi tập rõ là một trường hợp đặc biệt của tập mờ, trong đó hàm thuộc chỉ nhận 2 giá trị 0 và 1

Ký hiệu tập mờ, ta có các dạng ký hiệu sau:

- Liệt kê phần tử: giả sử U={a,b,c,d} ta có thể xác định một tập mờ

d c b a

A x

A  ( ) / trong trường hợp U là không gian liên tục

Lưu ý: Các ký hiệu  và  không phải là các phép tính tổng hay tích phân, mà chỉ là ký hiệu biểu thị tập hợp mờ

Ví dụ: Tập mờ A là tập “số gần 2” xác định bởi hàm thuộc

2

) 2 ( 

1.1.2 Khai phá tri thức với thông tin mờ

Các hướng tiếp cận và các kỹ thuật chính trong khai phá dữ liệu

Trang 15

Các hướng tiếp cận của KPDL có thể được phân chia theo chức năng hay lớp các bài toán khác nhau Sau đây là một số hướng tiếp cận chính:

- Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một

trong những lớp đã biết trước

Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng

nơ ron nhân tạo (neural network), Phân lớp còn được gọi là học có giám sát (học có thầy – supervised learning)

- Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn

giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% - 13 - trong số họ

sẽ mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin - sinh, tài chính & thị trường chứng khoán,.v.v

- Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự như

khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính

dự báo cao

- Phân cụm (clustering/segmentation): xếp các đối tượng theo từng cụm (số

lượng cũng như tên của cụm chưa được biết trước Phân cụm còn được gọi là học không giám sát (học không có thầy – unsupervised learning)

- Mô tả khái niệm (concept description & summarization): thiên về mô tả, tổng

hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản,

Các dạng dữ liệu có thể khai phá

Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau Sau đây là một số kiểu dữ liệu điển hình

- CSDL quan hệ (relational databases)

- CSDL đa chiều (multidimensional structures, data warehouses)

- CSDL dạng giao dịch (transactional databases)

Trang 16

- CSDL quan hệ - hướng đối tượng (object - relational databases)

- Dữ liệu không gian và thời gian (spatial and temporal data)

- Dữ liệu chuỗi thời gian (time - series data)

- CSDL đa phương tiện (multimedia databases) như âm thanh (audio), hình ảnh (image), phim ảnh (video),.v.v

- Dữ liệu Text và Web (text database & www)

1.2 Một số kiến thức cơ bản ĐSGT

Để xây dựng phương pháp luận tính toán nhằm giải quyết vấn đề mô phỏng các quá trình tư duy, suy luận của con người chúng ta phải thiết lập ánh xạ: gán mỗi khái niệm mờ một tập mờ trong không gian tất cả các hàm F(U, [0, 1]).Nghĩa là ta mượn cấu trúc tính toán rất phong phú của tập để mô phỏng phương pháp lập luận của con người thường vẫn được thực hiện trên nền ngôn ngữ tự nhiên

Vậy một vấn đề đặt ra là liệu bản thân ngôn ngữ có cấu trúc tính toán không? Nếu có thì các phương pháp lập luận xây dựng trên đó đem lại những lợi ích gì? Thông qua lý thuyết về đại số gia tử ta có thể thấy rằng tập các giá trị của một biến ngôn ngữ (biến mà giá trị của nó được lấy trong miền ngôn ngữ) là một cấu trúc đại số

đủ mạnh để tính toán

Lý thuyết đại số gia tử đã cố gắng nhúng tập ngôn ngữ vào một cấu trúc đại số thích hợp và tìm cách xem chúng như là một đại số để tiên đề hóa sao cho cấu trúc thu được mô phỏng tốt ngữ nghĩa ngôn ngữ

Trang 17

Khi đó miền ngôn ngữ T = dom (TRUTH) có thể biểu thị như là một cấu trúc đại

số AT = (T, G, H, ≤), trong đó:

- T: Là tập cơ sở của AT

- G: Là tập các từ nguyên thủy (tập các phần tử sinh: true, false)

- H: Là tập các toán tử một ngôi, gọi là các gia tử (các trạng từ nhấn)

- ≤: Là biểu thị quan hệ thứ tự trên các từ (các khái niệm mờ), nó được “cảm sinh” từ ngữ nghĩa tự nhiên Ví dụ: dựa trên ngữ nghĩa, các quan hệ thứ tự sau là đúng: false≤ true, more true ≤ very true, very false ≤ more false, possible true ≤ true, false ≤ possible false, …

Ta luôn giả thiết rằng các gia tử trong H là các toán tử thứ tự, nghĩa là (∀h ∈ H, h: T → T), (∀x ∈ T) {hx ≤ x hoặc hx ≥ x} Hai gia tử h, k ∈ H được gọi là ngược nhau nếu (∀x ∈ T) {hx ≤ x khi và chỉ khi kx ≥ x} và chúng được gọi là tương thích nhau nếu (∀x ∈ T) {hx ≤ x khi và chỉ khi kx ≤ x}

Ta ký hiệu h ≥ k nếu h, k tương thích nhau và (∀x ∈ T) {hx ≤ kx ≤ x hoặc hx ≥

kx ≥ x}

Ngoài ra, tập H còn có thể được phân hoạch thành hai tập H+ và H - với các gia

tử trong tập H+ hay H - là tương thích nhau, mỗi phần tử trong H+ cũng ngược với bất

kỳ phần tử nào trong H - và ngược lại

Giả sử trong tập H+ có phần tử V (ngầm định là very – rất) và trong tập H - có phần tử L (ngầm định là less – ít) là phần tử lớn nhất thì phần tử sinh g ∈ G là dương nếu g ≤ Vg và là âm nếu g ≥ Vg (hoặc g ∈ G là âm nếu g ≥ Lg và là âm nếu g ≤ Lg) Một gia tử h dương (hoặc âm) đối với một gia tử k nếu (∀x ∈ T) {hkx ≤ kx ≤ x hoặc hkx ≥ kx ≥ x} (hoặc (∀x ∈ T) { kx ≤ hkx ≤ x hoặc kx ≥ hkx ≥ x})

T được sinh ra từ G bởi các gia tử trong H Như vậy mỗi phần tử của T sẽ có dạng biểu diễn là x = h

Trang 18

Nếu G chỉ có đúng 2 từ nguyên thủy mờ, thì một được gọi là phần tử sinh dương

ký hiệu là t, một được gọi là phần tử sinh âm ký hiệu là f và ta có f < t (Trong ví dụ trên, t tương ứng với true là dương, còn f tương ứng với false là âm)

1.2.2 Một số tính chất của đại số gia tử

Một cấu trúc đại số AT = (T, G, H, ≤) với H được phân hoạch thành H+ và H -

các gia tử ngược nhau được gọi là một đại số gia tử nếu nó thỏa mãn các tiên đề sau:

(1) Mỗi gia tử hoặc là dương hoặc là âm đối với bất kỳ một gia tử nào khác, kể cả với chính nó

(2) Nếu hai khái niệm u và v là độc lập nhau, nghĩa là u H(v) và v H(u), thì (∀x∈H(u)) {x H(v)} Ngoài ra nếu u và v là không sánh được thì bất kỳ x∈H(u) cũng không sánh được với bất kỳ y∈H(v) (H(u) là tập các giá trị được sinh ra do tác động của các gia tử của H vào u)

(3) Nếu x ≠ hx thì x H(hx) và nếu h ≠ k và hx ≤ kx thì h’hx ≤ k’kx, với mọi gia

tử h, k, h’ và k’ Hơn nữa nếu hx ≠ kx thì hx và kx là độc lập

(4) Nếu u H(v) và u ≤ v (hoặc u ≥ v) thì u ≤ hv (hoặc u ≥ hv) đối với mọi gia tử

h

Xét đại số gia tử AT có đúng 3 phần tử sinh: dương, âm và một phần tử trung hòa

w nằm giữa hai phần tử sinh kia và có tính chất hw = w, với mọi h∈H Một phần tử y được gọi là phần tử đối nghịch của phần tử x nếu có tồn tại một biểu diễn của x có dạng x = h

Đặc biệt phần đối nghịch của w được định nghĩa chính là w Phần tử đối nghịch của x được ký hiệu là –x với chỉ số nếu cần thiết Nhìn chung một phần tử có thể có nhiều phần tử đối nghịch

Trang 19

Nếu mỗi phần tử của T chỉ có duy nhất một phần tử đối nghịch thì AT được gọi

là đại số gia tử đối xứng

Định lý sau cho thấy tính thứ tự ngữ nghĩa của các hạng từ trong ĐSGT

Định lý 1: Cho tập H - và H+ là các tập sắp thứ tự tuyến tính của ĐSGT AX = (X,

G, H, ) Khi đó ta có các khẳng định sau:

(1) Với mỗi uX thì H(u) là tập sắp thứ tự tuyến tính

(2) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X

cũng là tập sắp thứ tự tuyến tính Hơn nữa nếu u<v, và u, v là độc lập với nhau, tức là

uH(v) và vH(u), thì H(u) H(v)

Định lý tiếp theo xem xét sự so sánh của hai hạng từ trong miền ngôn ngữ của biến X

Định lý 2: Cho x = h n …h1u và y = k m …k1u là hai biểu diễn chính tắc của x và y

đối với u Khi đó tồn tại chỉ số j ≤ min{n, m} + 1 sao cho h j' = k j' với mọi j'<j (ở đây nếu j = min {n, m} + 1 thì hoặc h j là toán tử đơn vị I, h j = I, j = n + 1 ≤ m hoặc k j = I, j

Trang 20

Với những lý do đó có thể xem mỗi một đại số gia tử đối xứng là một cơ sở đại số cho một logic các giá trị ngôn ngữ Định lý tiếp theo nói về mối quan hệ với miền [0, 1]

Định lý 4: Nếu tập các toán tử (gia tử) H+ và H - có quan hệ thứ tự sắp xếp tuyến

tính thì có tồn tại một đẳng cấu từ đại số gia tử đối xứng AT = (T, G, H, -,∪, ∩, ⇒,

≤) vào cấu trúc logic đa trị tựa trên đoạn [0, 1] sao cho:

(1) Bảo toàn quan hệ thứ tự

(2) (u ∪ v) = max{ (u), (u ∪ v)} = min{ (u), (v)}

(3) (u ⇒ v) = max{1 - (u), (v)} và ( - u) = 1 - (u) Cần lưu ý rằng cấu trúc logic đa trị tựa trên đoạn [0, 1] là cơ sở để xây dựng và phát triển logic mờ và lập luận mờ Vì vậy sự “tương đồng” dựa trên định lý trên chứng tỏ thêm giá trị của cách tiếp cận đại số này

Các kết quả mở rộng đối với các toán tử sup, inf, gọi là đại số gia tử mở rộng đối xứng, đồng thời mịn hoá đại số gia tử, đưa thêm các toán tử hoặc, và liên kết các gia

tử tạo thành các gia tử mới Nhưng vấn đề tiếp tục này được quan tâm ở đây là trong các ví dụ trên thường đề cập đến biến chân lý, có miền giá trị được sắp xếp thứ tự khá

rõ, trong khi với các khái niệm ngôn ngữ mà con người tiếp xúc hàng ngày thì không được như vậy Hoặc bản thân một số gia tử như có thể, ít nhiều, xấp xỉ cũng không sánh được với nhau, trong khi suy luận rất cần sự sắp xếp đó

Như trong phần mở đầu của luận văn đã nêu, bài toán khai phá dữ liệu có thể chia làm 2 phần cơ bản: phần phân chia để xác định các tập mờ trên miền xác định của các thuộc tính, trên cơ sở đó, tiến hành phần sau là giải bài toán đặt ra Để dễ hình dung, phần tiếp theo chúng tôi xin trình bày 2 trong số các bài toán thường gặp và được tập trung nghiên cứu nhiều trong thời gian gần đây: bài toán xây dựng hệ luật mờ (Mamdani) MFRBS dùng cho phân loại tự động, hồi quy và bài toán trích xuất luật kết hợp Trong cả hai bài toán, chúng tôi trình bày cả 2 công đoạn cơ bản đã nêu để thấy

rõ thêm sự cần thiết của cả 2 công đoạn dẫn đến sự cần thiết của các giải thuật tối ưu các hàm thuộc (MF) phân chia miền xác định thuộc tính

Trang 21

1.3 Khai phá tri thức từ CSDL với hệ luật mờ

Hệ luật mờ Mamdani (MFRBS - Mamdani Fuzzy Rule - Base System) bao gồm

M luật có dạng

Rm: IF X1 is , , AND …AND XF is , , THEN XF+1 is , , (1)

m = 1, , M

Ở đó X = {X1, , Xf, , XF} là tập các biến ngôn ngữ đầu vào và XF+1 là biến đầu

ra Giả sử Uf, với f = 1, , F+1 là miền xác định của biến thứ f Giả sử P f= { , , … , , } là một phân hoạch mờ của Tf tập mờ trên biến Xf

MFRBS có đặc điểm khác các mô hình khác là các biến đầu vào và ra đều là mờ dưới dạng từ của ngôn ngữ tự nhiên Đặc điểm này mang lại tính “thân thiện” với con người vì suy luận trên các từ của ngôn ngữ tự nhiên là đặc điểm của con người.Các luật cũng được biểu diễn dưới dạng quen thuộc với suy nghĩ và lập luận của con người Hiện tại MFRBS được nghiên cứu sử dụng rộng rãi trong nghiên cứu ở các lĩnh vực điều khiển tự động, khai phá dữ liệu Bài toán hồi quy mờ sử dụng MFRBS thường được giải quyết cơ bản theo các bước như sau

1) Xác định một phân hoạch biến đầu vào Xfthành Tftập mờ , Ví dụ biến ngôn ngữ “Tuổi” có thể được phân thành 4 tập mờ “trẻ”, “khá trẻ”, “trung niên” và “già” 2) Xác định các hàm thuộc tương ứng với các tập mờ nói trên

3) Chuyển đổi số liệu từ CSDL mẫu thành các giá trị biến ngôn ngữ tương ứng

Ví dụ căn cứ vào các hàm thuộc đã xác định, tuổi 27 có thể chuyển đổi thành “khá trẻ” với độ thuộc 0,8

4) Từ dữ liệu chuyển đổi xác định một tập luật ban đầu, mỗi luật có dạng (1) 5) Tiến hành rút gọn tập luật theo các quy tắc heuristic để có được tập luật cuối cùng, đảm bảo tính đơn giản nhưng có độ chính xác tốt Thí dụ nếu 2 luật gần giống nhau (theo các tiêu chuẩn nào đó) thì có thể gộp lại Hoặc các thuộc tính ít ảnh hưởng (cũng theo tiêu chuẩn đánh giá nào đó) có thẻ loại bỏ khỏi luật

6) Trên cơ sở hệ (1), với một giá trị đầu vào, có thể nội suy ra giá trị đầu ra tương ứng sử dụng mạng nơron và giải thuật di truyền

Trang 22

Hiện nay, các thuật toán liên quan đến việc giải bài toán hồi quy mờ dựa trên MFRBS được liên tục nghiên cứu phát triển, chủ yếu để cải thiện thời gian tính toán trên cơ sở vẫn đảm bảo sai số thấp với những CSDL cỡ rất lớn Thuật toán được nhắc đến nhiều nhất là thuật toán tiến hóa đa mục tiêu (MOEM: multi - objective evolutionary method), kết hợp đồng thời việc phân hoạch tối ưu các tập mờ và sinh hệ luật trên các tập mẫu rút gọn (theo các tiêu chí khác nhau), giảm được khối lượng tính toán đáng kể trong khi vẫn đảm bảo sai số mô hình không cao (xem [9][10])

Như đã thấy, có rất nhiều các thuật toán trích xuất hệ luật mờ Mamdani được đề xuất Các thuật toán này khá đa dạng, nhưng về cơ bản đều bao gồm 2 khối xử lý chính như sau:

a) Khối xử lý CSDL ban đầu, chuyển CSDL (thường là dạng số) thành CSDL (DB) có các giá trị là các từ ngôn ngữ bằng cách phân chia miền xác định của thuộc tính thành các miền mờ DB này là một thành phần của Cơ sở tri thức (KB – Knowledge Base) cần xây dựng

b) Khối xây dựng hệ luật mờ (RB –Rule Base) Mamdani dựa trên DB hiện có Thực chất kết quả cho ra không chỉ là một hệ luật mờ mà là cả một tập các hệ luật mờ

là xấp xỉ một Pareto Front Một lời giải xX được gọi trội hơn (dominate) lời giải yX (tức là x tốt hơn y), ký hiệu xy, nếu:

i, f i (y) f i (x) và j, f j (y) <f j (x)

Nếu không có bất kỳ một lời giải y trội hơn x thì ta gọi x là một lời giải tối ưu

Pareto của bài toán (1) Tập tất cả các lời giải như vậy gọi là tập tối ưu Pareto, ký hiệu

S p Tập ảnh của lời giải tối ưu Pareto trên không gian mục tiêu được gọi là mặt Pareto (frontier) Tương tự, đối với một tập lời giải S X nếu không có bất kỳ lời giải yS trội hơn x thì x được gọi là một lời giải không bị chiếm ưu thế bởi tập S đó, ta cũng ký hiệu xS (tức x tốt hơn tập S)

Một lời giải tối ưu Pareto x không thể nói tốt hơn một lời giải Pareto, do đó chúng ta càng tìm ra nhiều lời giải tối ưu Pareto cho bài toán càng tốt Các phương

pháp tối ưu cổ điển thực hiện chuyển bài toán đa mục tiêu về một mục tiêu bằng việc

Trang 23

tập trung vào một mục tiêu tại một thời điểm và phải thực hiện nhiều lần phương pháp này để tìm tập các lời giải Các phương pháp tối ưu mới nhất có xu hướng giải quyết bài toán tối ưu đa mục tiêu trong cùng một vòng lặp

Trên 2 khối xử lý chính đó, có thể liệt kê một số kiểu thuật toán cơ bản như sau:

- Thuật toán xử lý 2 bước riêng rẽ: tạo DB (tối ưu hoặc không) cố định trước, sau

đó xây dựng RB Có thể xem [8], ở đó tác giả cố định DB trên cơ sở chọn các MF có hình dạng đồng nhất (là tam giác cân) và phân bố đều trên miền xác định; hoặc [7], ở

đó các MF có thể thay đổi chút ít nhằm tới một DB tương đối tốt cho việc xây dựng

RB tiếp theo

- Thuật toán kiểu xử lý 2 bước trong một vòng lặp: tạo DB xong dùng DB đó xây

dựng RB Bước tiếp theo là kiểm tra độ phù hợp (fitness) của hàm mục tiêu, nếu chưa đạt lại quay lại chọn DB mới và xây dựng RB Các thuật toán kiểu này đều dựa trên lõi là giải thuật đồng tiến hóa (coevolutionary approach) (xem [9][10])

Có thể nhận xét chung về các thuật toán này như sau:

- Những thuật toán xử lý 2 bước đơn giản hơn nhưng thường cho ra những RB kém tốt hơn do 2 bước tối ưu xử lý riêng rẽ và không có đảm bảo là DB tối ưu ở bước trước sẽ là DB tối ưu cho cả bước sau:

- Hiện nay, xu hướng là xây dựng các thuật toán đồng tiến hóa Tuy nhiên các thuật toán này đòi hỏi khối lượng tính toán và bộ nhớ rất lớn Do đó, gần đây xuất hiện các thuật toán làm việc với các DB rút gọn, dùng để kiểm tra độ phù hợp ([9]) hoặc để sinh luật ([10]) Các thuật toán này đã giảm được đáng kể khối lượng tính toán trong khi vẫn giữ được hiệu năng khi sinh RB

- Các thuật toán đã liệt kê đều dựa trên cách tiếp cận tập mờ và do đó đều gặp ít nhiều khó khăn khi xây dựng MF ban đầu để vừa đảm bảo sự phù hợp ngữ nghĩa, vừa đơn giản trong xử lý Thông thường, các thuật toán đã liệt kê đều đưa ra các ngưỡng bắt buộc để giới hạn số luật có trong RB và số thuộc tính tham gia trong mỗi luật

Trang 24

1.4 Luật kết hợpmờ

1.4.1 Một số khái niệm cơ bản

Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR)

là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu

Bài toán giỏ mua hàng trong siêu thị: Giả định chúng ta có rất nhiều mặt hàng,

ví dụ như "bánh mì", "sữa",…(coi là tính chất hoặc trường) Khách hàng khi đi siêu thị

sẽ bỏ vào giỏ mua hàng của họ một số mặt hàng nào đó, và chúng ta muốn tìm hiểu các khách hàng thường mua các mặt hàng nào đồng thời, thậm chí chúng ta không cần biết khách hàng cụ thể là ai Nhà quản lý dùng những thông tin này để điều chỉnh việc nhập hàng về siêu thị, hay đơn giản là để bố trí sắp xếp các mặt hàng gần nhau,

hoặc bán các mặt hàng đó theo một gói hàng, giúp cho khắc đỡ mất công tìm kiếm

Bảng 1: Cơ sở dữ liệu giao tác

ra đồng thời (một cách thường xuyên) như thế nào Các thuật toán này trải qua 2 pha: pha một: Đi tìm các sự kiện xảy ra thường xuyên, pha hai là tìm luật

Trang 25

Cho I= {I1, I2, , Im} là tập hợp của m tính chất riêng biệt Giả sử D là CSDL, với các bản ghi chứa một tập con T các tính chất (có thể coi như T  I), các bản ghi đều có chỉ số riêng Một luật kết hợp là một mệnh đề kéo theo có dạng X→Y, trong đó X, Y  I, thỏa mãn điều kiện XY= Các tập hợp X và Y được gọi là các

tập hợp tính chất (itemset) Tập X gọi là nguyên nhân, tập Y gọi là hệ quả

Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support) và độ tin cậy (confidence), được định nghĩa như phần dưới đây

Độ hỗ trợ:

Định nghĩa 1.2: Độ hỗ trợ của một tập hợp X trong cơ sở dữ liệu D là tỷ số giữa

các bản ghi T ⊆ D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm của các bản ghi trong D có chứa tập hợp X), ký hiệu là support(X) hay supp(X) (support sẽ

tự sinh ra khi cài thuật toán)

( ) =|{ ⊂ : ⊃ }|

Ta có: 0 ≤ supp(X) ≤ 1 với mọi tập hợp X

Định nghĩa 1.3: Độ hỗ trợ của một luật kết hợp X→Y là tỷ lệ giữa số lượng các

bản ghi chứa tập hợp X ∪ Y, so với tổng số các bản ghi trong D - Ký hiệu supp(X→Y)

Độ tin cậy:

Trang 26

Định nghĩa 1.4: Độ tin cậy của một luật kết hợp X → Y là tỷ lệ giữa số lượng các

bản ghi trong D chứa X ∪ Y với số bản ghi trong D có chứa tập hợp X Ký hiệu độ tin cậy của một luật là conf(r) Ta có 0 ≤ conf(r) ≤ 1

Nhận xét: Độ hỗ trợ và độ tin cậy có xác suất sau:

Supp(X → Y) = P(X ∪ Y) Conf (X → Y) = P(Y/X) = supp(X ∪ Y)/supp(X)

Có thể định nghĩa độ tin cậy như sau:

Định nghĩa 1.5: Độ tin cậy của một luật kết hợp X→Y là tỷ lệ giữa số lượng các

bản ghi của tập hợp chứa X ∪Y, so với tổng số các bản ghi chứa X

Nói rằng độ tin cậy của một luật là 90%, có nghĩa là có tới 90% số bản ghi chứa

X chứa luôn cả Y Hay nói theo ngôn ngữ xác suất là: " Xác suất có điều kiện để sảy ra

sự kiện Y đạt 85%" Điều kiện ở đây chính là: "Xảy ra sự kiện X"

Như vậy, độ tin cậy của luật thể hiện sự tương quan (correlation) giữa X và Y

Độ tin cậy đo sức nặng của luật, và người ta hầu như chỉ quan tâm đến những luật có

độ tin cậy cao Một luật kết hợp đi tìm các nguyên nhân dẫn tới hỏng hóc của hệ thống tổng đài, hay đề cập đến những mặt hàng thường hay được khách hàng mua kèm với mặt hàng chính mà độ tin cậy thấp sẽ không có ích cho công tác quản lý

Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật

có độ hỗ trợ và độ tin cậy do người sử dụng xác định trước Các ngưỡng của độ hỗ trợ

và độ tin cậy được ký hiệu là minsup và mincof Ví dụ: Khi phân tích giỏ hàng của người mua hàng trong một siêu thị ta được luật kiểu như: 85% khách hàng mua sữa thì cũng mua bánh mì, 30% thì mua cả hai thứ Trong đó: "mua sữa" là tiền đề còn "mua bánh mì" là kết luận của luật Con số 30% là độ hỗ trợ của luật còn 80% là độ tin cậy của luật

Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp dạng trên có sự khác biệt rất nhiều so với những thông tin thu được từ các câu lệnh truy vấn dữ liệu thông thường như SQL Đó là những tri thức, những mối liên hệ chưa biết trước và mang

Trang 27

tính dự báo đang tiềm ẩn trong dữ liệu Những tri thức này không đơn giản là kết quả của phép nhóm, tính tổng hay sắp xếp mà là của một quá trình tính toán khá phức tạp

Tập hợp:

Định nghĩa 1.6: Tập hợp X được gọi là tập hợp thường xuyên (Frequents

itemset) nếu có supp(X) ≥ minsup, với minsup là ngưỡng độ hỗ trợ cho trước

Kí hiệu các tập này là FI

Tính chất 1.1: Giả sử A, B ⊆ là hai tập hợp với A ⊆ B thì supp(A) ≥ supp(B)

Như vậy, những bản ghi nào chứa tập hợp B thì cũng chứa tập hợp A

Tính chất 1.2: Giả sử A, B là hai tập hợpA, B ⊆ I, nếu B là tập hợp thường

xuyên và A ⊆ B thì A cũng là tập hợp thường xuyên

Thật vậy, nếu B là tập hợp thường xuyên thì supp(B) ≥ minsup, mọi tập hợp

A là con của tập hợp B đều là tập hợp thường xuyên trong cơ sở dữ liệu D vì supp(A) ≥ supp(B) (Tính chất 1.1)

Tính chất 1.3: Giả sử A, B là hai tập hợp, A ⊆ B và A là tập hợp không thường

xuyên thì B cũng là tập hợp không thường xuyên

Định nghĩa 1.7: Một tập mục X được gọi là đóng (closed) nếu không có tập cha

nào của X có cùng độ hỗ trợ với nó, tức là không tồn tại một tập mục X' nào mà X′ ⊃ X và t(X) = t(X') (với t(x) và t(X') tương ứng là tập các giao chứa tập mục X và X') Ký hiệu tập phổ biến đóng là FCI

Định nghĩa 1.8: Nếu X là phổ biến và không tập cha nào của X là phổ biến, ta

nói rằng X là một tập phổ biến lớn nhất (maximally frequent itemset) Ký hiệu tập tất

cả các tập phổ biến lớn nhất là MFI Dễ thấy MFI ⊆ FCI ⊆ FI

Khai phá luật kết hợp là công việc phát hiện ra (tìm ra, khám phá, phát hiện) các luật kết hợp thỏa mãn các ngưỡng độ hỗ trợ (δ) và ngưỡng độ tin cậy (α) cho trước Bài toán khai phá luật kết hợp được chia thành hai bài toán nhỏ, hay như người ta thường nói, việc giải bài toán trải qua hai pha:

Trang 28

Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong CSDL T

Pha 2: Sử dụng tập FI tìm được ở pha 1 để sinh ra các luật tin cậy (interesting

rules) Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta

có thể xác định luật AB→CD với tỷ lệ độ tin cậy:

Nếu conf ≥ minconf thì luật được giữ lại (và thỏa mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến)

Trong thực tế, hầu hết thời gian của quá trình khai thác luật kết hợp là thực hiện

ở pha 1 Nhưng khi có những mẫu rất dài (mẫu chứa nhiều mục) xuất hiện trong dữ liệu, việc sinh ra toàn bộ các tập phổ biến (FI) hay các tập đóng (FCI) là không thực tế Hơn nữa, có nhiều ứng dụng mà chỉ cần sinh tập phổ biến lớn nhất (MFI) là đủ, như khám phá mẫu tổ hợp trong các ứng dụng sinh học

Có rất nhiều nghiên cứu về các phương pháp sinh tất cả các tập phổ biến và tập phổ biến lớn nhất một cách có hiệu quả Khi các mẫu phổ biến (frequent pattern) dài

có từ 15 đến 20 items) thì tập FI, thậm chí cả tập FCI trở nên rất lớn và hầu hết các phương pháp truyền thống phải đếm quá nhiều tập mục mới có thể thực hiện được Các thuật toán dựa trên thuật toán Apriori – đếm tất cả 2k tập con của mỗi k - itemset

mà chúng quét qua, và do đó không thích hợp với các itemset dài được Các phương pháp khác sử dụng "lookaheads" để giảm số lượng tập mục được đếm Tuy nhiên, hầu hết các thuật toán này đều sử dụng tìm kiếm theo chiều rộng, ví dụ: tìm tất cả các k –itemsets trước khi tính đến các (k+1) – itemsets

Cách làm này hạn chế hiệu quả của lookaheads, vì các mẫu phổ biến dài hơn mà hữu ích vẫn chưa được tìm ra

1.4.2 Thuật toán Apriori

Thuật toán Apriori được Agrawal và Srikant phát biểu năm 1994, xem chi tiết trong[4] Apriori là thuật toán phổ biến nhất để tìm luật kết hợp, được coi là một sự cải tiến lớn trong lịch sử khai phá luật kết hợp vì đã vượt xa tầm của các thuật toán quen

Trang 29

thuộc trong lĩnh vực này Thuật toán dựa trên một nhận xét đơn giản là bất kỳ tập con nào của tập thường xuyên cũng là tập thường xuyên Do đó, trong quá trình đi tìm tập ứng viên k Itemset, chỉ cần dùng đến các tập thường xuyên k - 1 Itemset đã tìm thấy ở bước trước đó Nhờ vậy, bộ nhớ được giải phóng đáng kể

Thuật toán Apriori có hai bước để tìm ra tất cả các tập mục dữ liệu thường xuyên:

- Bước 1: Duyệt qua CSDL để tìm ra tất cả các mục dữ liệu thường xuyên bằng

cách đếm số lần xuất hiện của từng mục trong tất cả các giao tác, sau đó loại bỏ những mục dữ liệu có độ hỗ trợ nhỏ hơn Minsup, được tập L1 Tập L1 gọi là tập các mục dữ liệu thường xuyên một mục dữ liệu Trong bước 2, mỗi lần duyệt CSDL tiếp theo ta chỉ cần xét các mục dữ liệu trong bảng này

- Bước 2: Gọi Ck là tập các tập ứng viên k Itemset, Lk là tập các tập thường xuyên k Itemset Quá trình tìm tập Lk trải qua ba công đoạn nhỏ:

a) C'k là tập các tập k Itemset có được bằng cách hợp từng hai tập k - 1 Itemset thường xuyên trong Lk - 1 có k - 2 mục dữ liệu đầu tiên giống nhau, mục thứ k - 1 khác nhau

b) Tìm tập ứng viên Ck bằng cách loại bỏ những tập trong C'k có chứa một tập con k - 1 Itemset nhưng không là tập k - 1 Itemset thường xuyên

c) Ứng với mỗi tập ứng viên trong Ck, duyệt qua CSDL, đếm số giao tác chứa tập ứng viên này để xem tập này có phải là tập thường xuyên hay không, ta được tập Lk Lặp lại bước 2 cho đến khi tập Lk là rỗng

Thuật toán Apriori phát sinh số lượng lớn tập ứng viên Có quá nhiều lần duyệt toàn bộ CSDL để tính độ hỗ trợ của các mục dữ liệu Thuật toán không thể giải được khi số mục dữ liệu lớn Dựa vào thuật toán Apriori, nhiều thuật toán mới được thiết kế với những sửa đổi hoặc cải tiến Nói chung có hai cách tiếp cận: Một là sẽ giảm bớt số lần duyệt qua toàn bộ CSDL; hai là thay thế toàn bộ CSDL với chỉ một bộ phận của nó dựa vào tập mục dữ liệu thường xuyên hiện thời Cách tiếp cận khác là dùng kỹ thuật xén bớt để làm cho số tập ứng viên nhỏ đi

Trang 30

1.5 Giải thuật di truyền

1.5.1 Khái niệm

Giải thuật di truyền là giải thuật tìm kiếm dựa trên cơ chế chọn lọc và di truyền

tự nhiên sử dụng nguyên lý di truyền về sự thích nghi và sự sống của các cá thể thích nghi nhất trong tự nhiên

Cấu trúc giải thuật di truyền tổng quát:

Bắt đầu

t = 0;

Khởi tạo P(t);

Tính độ thích nghi cho các cá thể thuộc P(t);

Khi (điều kiện dừng chưa thỏa mãn) lặp

- Khởi tạo quần thể(Innitial population generation)

- Hàm thích nghi (Fitness Function)

- Lựa chọn (Selection)

- Lai ghép (Crossover)

- Đột biến (Mutation)

Trang 31

- Chiến lược thay thế (Replacement Strategy)

- Tiêu chuẩn kết thúc (Termination Criteria)

a) Mã hóa

Trong giải thuật di truyền cách mã hóa NST rất quan trọng nó không chỉ quyết định đến hiệu quả của giải thuật mà còn ảnh hưởng đến việc lựa chọn các toán tử trong các bước lai ghép và đột biến Với mỗi kiều bài toán khác nhau có nhiều cách mã hóa NST

Cách mã hoá NST được đánh giá là một trong hai yếu tố quyết định trong xây dựng giải thuật di truyền

Mã hoá nhị phân

Trong tất cả các phương pháp mã hóa thì phương pháp mã hoá nhị phân là phương pháp mã hoá nhiễm sắc thể đơn giản và ra đời sớm nhất Trong mã hoá nhị phân, mỗi nhiễm sắc thể là một chuỗi nhị phân, mỗi bit trong nó có thể biểu diễn một đặc tính của lời giải

Mã hoá nhị phân tuy là phổ biến nhưng nó có một nhược điểm là có thể tạo ra không gian mã hoá lớn hơn so với không gian giá trị của nhiễm sắc thể, hơn nữa có thể xảy ra trường hợp các toán tử lai ghép và đột biến tạo ra các cá thể không nằm trong không gian tìm kiếm và đòi hỏi phải có những phương pháp sửa chữa để làm cá thể tạo

ra nằm trong không gian tìm kiếm Do đó, với nhiều bài toán thì biểu diễn nhị phân là không hữu hiệu, điển hình là bài toán TSP

Trang 32

Mã hoá hoán vị phù hợp cho các bài toán liên quan đến thứ tự Đối với các bài toán này, việc thao tác trên các nhiễm sắcthể chính là hoán vị các số trong chuỗi đó làm thay đổi trình tự của nó

Mã hoá theo giá trị

Mã hoá trực tiếp theo giá trị có thể được dùng trong các bài toán sử dụng giá trị phức tạp như trong số thực Trong đó, mỗi nhiễm sắc thể là một chuỗi các giá trị Các giá trị có thể là bất cứ cái gì liên quan đến bài toán, từ số nguyên, số thực, kí tựcho đến các đối tượng phức tạp hơn

Mã hoá theo giá trị thường dùng cho các bài toán đặc biệt Trong cách mã hoá này ta thường phải phát triển các toán tử đột biến và lai ghép cho phù hợp với từng bài toán

b) Khởi tạo quần thể ban đầu

Quần thể là một tập hợp các cá thể có cùng một số đặc điểm nào đấy Trong giải

thuật di truyền ta quan niệm quần thể là một tập các lời giải của một bài toán

Quần thể ban đầu ảnh hưởng khá nhiều đến hiệu quả giải thuật, tuy nhiên trong nhiều bài toán thì quần thể ban đầu thường được lựa chọn ngẫu nhiên Thường phụ thuộc vào kích thước chuỗi mã hóa VD: Nếu có NST 32 bits, thì kích thước quần thể nên cao hơn 16

Kích thước quần thể cho biết có bao nhiêu cá thể trong một quần thể trong mỗi thế hệ Các nghiên cứu và các thử nghiệm đã cho thấy kích thước quần thể không nên quá bé cũng như không quá lớn Nếu có quá ít cá thểthì sẽ làm giảm không gian tìm kiếm của giải thuật và dễ rơi vào các cục bộ địa phương, như vậy sẽ dễ xảy ra trường hợp bỏ qua các lời giải tốt Tuy nhiên nếu cóquá nhiều cá thể cũng sẽ làm cho giải thuật chạy chậm đi, ảnh hưởng đến hiệu quảtính toán của giải thuật Các nghiên cứu cũng đã chỉ ra không có lợi khi tăng kích thước quần thể lên quá một giới hạn cho phép

c) Hàm tính độ thích nghi

Định dạng
Số trang	65
Dung lượng	1,15 MB