TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU

Trang 1

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC

TIỂU LUẬN MÔN HỌC

CƠ SỞ TOÁN

Đề tài:

TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU

HỌC VIÊN THỰC HIỆN: 1 Võ Thanh Minh

Trang 3

MỤC LỤC

3

PHẦN MỞ ĐẦU 4

NỘI DUNG 5

I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 5

1 Khái niệm: 5

2 Quá trình khám phá tri thức trong CSDL 5

3 Các kỹ thuật khai phá dữ liệu 6

3.1 Các kỹ thuật tiếp cận trong Data mining 6

3.2 Dạng dữ liệu có thể khai phá 7

3.3 Ứng dụng của khai phá dữ liệu 7

3.4 Khai phá luật kết hợp và ứng dụng 7

II LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 8

1 Khai phá luật kết hợp 8

2 Lý thuyết về luật kết hợp 9

2.1 Khái niệm 9

2.2 Một số tính chất liên quan đến các hạng mục phổ biến: 10

2.2.1 Tập mục phổ biến: 10

2.2.2 Luật kết hợp: 10

2.3 Một số hướng tiếp cận trong khai phá luật kết hợp 11

2.4 Phát hiện luật kết hợp trên hệ thông tin nhị phân 13

2.4.1 Các định nghĩa về hệ thông tin nhị phân 13

2.4.2 Thuật toán phát hiện tập chỉ mục và luật kết hợp nhị phân 15

III MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 17

1 Thuật toán Apriori 17

1.1 Ý tưởng thuật toán Apriori 17

1.2 Thuật toán Apriori 17

1.3 Sinh các luật kết hợp từ tập mục phổ biến: 20

2 Thuật toán FP-growth 22

2.1 Ý tưởng thuật toán 22

2.2 Thuật toán FP-growth 23

2.3 Đánh giá thuật toán FP-growth 25

IV THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP 25

1 Phát biểu bài toán 25

2 Phân tích chương trình 27

KẾT LUẬN 29

TÀI LIỆU THAM KHẢO: 30

Trang 4

PHẦN MỞ ĐẦU

Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sởcủa mọi hoạt động sản xuất, kinh doanh Cá nhân hoặc tổ chức nào thu thập vàhiểu được thông tin và hành động dựa trên các thông tin được kết xuất từ cácthông tin đã có sẽ đạt được thành công trong mọi hoạt động Chính vì lý do đó,việc tạo ra thông tin, tổ chức lưu trữ và khai thác ngày càng trở nên quan trọng

và gia tăng không ngừng

Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sốngnhư: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triểncủa kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu… không chỉ bằngcác phép toán đơn giản thông thường như: phép đếm, thống kê… mà đòi hỏicách xử lý thông minh hơn, hiệu quả hơn Từ đó các nhà quản lý có được thôngtin có ích để tác động lại quá trình sản xuất, kinh doanh của mình… đó là trithức Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL (lớn)được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining) Khai phá luật kếthợp là một nội dung quan trọng trong khai phá dữ liệu

Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiêncứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại ViệtNam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu

và dần đưa vào ứng dụng

Khai phá dữ liệu (Data Mining) được coi là quá trình trích xuất các thôngtin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL,kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùngmột số thuật ngữ khác có ý nghĩa tương tự như: Khám phá tri thức từ cơ sở dữliệu (Knowledge Discovery in Database-KDD), trích lọc dữ liệu (knowlegdeextraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (dataarchaeology), nạo vét dữ liệu (data dredging)

Tiểu luận trình bày một số vấn đề về khám phá tri thức, khai phá dữ liệu,

và trình bày rõ vấn đề khai phá luật kết hợp và ứng dụng một số thuật toán khaiphá luật kết hợp trong CSDL

Trang 5

NỘI DUNG

I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1 Khái niệm:

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối ở thập kỷ 80

của thế kỷ XX Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thôngtin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất,khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật

để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu

Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm khámphá tri thức trong cơ sở dữ liệu, để chỉ toàn bộ quá trình phát hiện các tri thức cóích từ các tập dữ liệu lớn; trong đó khai phá dữ liệu là một bước đặc biệt trongtoàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu haycác mô hình từ dữ liệu

Ở một mức độ trừu tượng nhất định có thể định nghĩa về khai phá dữ liệu:

Data Mining là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu

dụng trong CSDL lớn

Khám phá tri thức (KDD) là mục tiêu chính của khai phá dữ liệu, do vậy

hai khái niệm đó được xem như hai lĩnh vực tương đương nhau Nhưng, nếuphân chia một cách tách bạch thì khai phá dữ liệu là một bước chính trong quátrình KDD

2 Quá trình khám phá tri thức trong CSDL

Khám phá tri thức trong CSDL (KDD) là lĩnh vực liên quan đến các ngànhnhư: thống kê, học máy, CSDL, thuật toán, trực quan hoá dữ liệu, tính toán songsong và hiệu năng cao,…

Mục đích của quá trình khám phá tri thức là rút ra tri thức từ dữ liệu trongCSDL lớn Quá trình KDD là quá trình gồm nhiều giai đoạn và lặp lại, mà trong

đó sự lặp lại có thể xuất hiện ở bất cứ bước nào

Quá trình đó có thể được mô tả theo hình sau:

Trang 6

Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán Là tìm hiểu

lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phảihoàn thành Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích vàcho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứngdụng và bản chất của dữ liệu

Bước thứ hai: Thu thập và tiền xử lý dữ liệu Là thu thập và xử lý thô, còn

được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lý việcthiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết,bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện trithức Do dữ liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất, … có thểgây ra các nhầm lẫn Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn

và rời rạc hoá

Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức Là khai phá dữ liệu, hay

nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu Giaiđoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ vàmục đích của khai phá dữ liệu, dùng phương pháp khai phá nào? Thông thường,các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ratính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiệncác suy diễn dựa trên dữ liệu hiện có Tùy theo bài toán xác định được mà ta lựachọn các phương pháp khai phá dữ liệu cho phù hợp

Bước thứ tư: Sử dụng các tri thức phát hiện được Là hiểu tri thức đã tìm

được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Các bước trên có thể lặp đilặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lầnthực hiện Các kết quả của quá trình khám phá tri thức có thể được đưa và ứngdụng trong các lĩnh vực khác nhau Do các kết quả có thể là các dự đoán hoặccác mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết địnhnhằm tự động hoá quá trình này

Tóm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ liệu mà trong

đó khai phá dữ liệu là công đoạn quan trọng nhất

3 Các kỹ thuật khai phá dữ liệu

3.1 Các kỹ thuật tiếp cận trong Data mining

Căn cứ vào lớp các bài toán cần giải quyết, khai phá dữ liệu có các kỹ thuật

áp dụng sau:

Phân lớp và dự đoán: xếp một đối tượng vào một trong những lớp đã biết

trước Ví dụ: phân lớp các bệnh nhân dữ liệu trong hồ sơ bệnh án Hướng tiếpcận này thường sử dụng một số kỹ thuật của học máy như cây quyết định, mạng

nơ ron nhân tạo

Luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các

thành phần dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu làtập luật kết hợp tìm được Có thể lấy một ví dụ đơn giản về luật kết hợp như sau:

Trang 7

phân tích CSDL bán hàng nhận được thông tin về những khách hàng mua máytính cũng có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần muađược miêu tả trong luật kết hợp sau:

[Độ hỗ trợ: 4%, độ tin cậy: 70%]

Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật Chúngtương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá Độ hỗ trợ4% có nghĩa là: 4% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính vàphần mềm quản lý tài chính là đã được mua cùng nhau Còn độ tin cậy 70% cónghĩa là 70% các khách hàng mua máy tính cũng mua phân mềm quản lý tàichính

Phân tích chuỗi theo thời gian: Tượng tự như khai phá luật kết hợp nhưng

có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiềutrong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao.Phân cụm: xếp các đối tượng theo từng cụm dữ liệu tự nhiên

Mô tả khái niệm: thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ:tóm tắt văn bản

3.2 Dạng dữ liệu có thể khai phá

Do Data Mining được ứng dụng rộng rãi nên nó có thể làm việc với rấtnhiều kiểu dữ liệu khác nhau Sau đây là một số dạng dữ liệu điển hình: CSDLquan hệ, CSDL đa chiều (multidimentional structures, data warehouses), CSDLdạng giao dịch, CSDL quan hệ-hướng đối tượng, dữ liệu không gian và thờigian, Dữ liệu chuỗi thời gian, CSDL đa phương tiện, dữ liệu Text và Web

3.3 Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực được quan tâm và ứng dụng rộng rãi Một

số ứng dụng điển hình trong khai phá dữ liệu có thể liệt kê: 1) phân tích dữ liệu

và hỗ trợ ra quyết định; 2) điều trị y học; 3) phát hiện văn bản; 4) tin sinh học; 5)tài chính và thị trường chứng khoán; 6) bảo hiểm

3.4 Khai phá luật kết hợp và ứng dụng

trường gọi là item Ý nghĩa của các luật kết hợp khá dễ nhận thấy: Cho trước

thì chắc chắn T có chứa Y Độ tin cậy của luật (rule confidence) có thể được

kết hợp có nguồn gốc từ việc phân tích dữ liệu mua hàng của khách và nhận ra

suất là c%” Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh

Trang 8

làm cho luật kết hợp trở thành một phương pháp khai thác phổ biến Hơn nữa,luật kết hợp không chỉ bị giới hạn trong phân tích sự phụ thuộc lẫn nhau trongphạm vi các ứng dụng bán lẻ mà chúng còn được áp dụng thành công trong rấtnhiều bài toán kinh doanh.

Như vậy, khai phá luật kết hợp là một phương pháp xử lý thông tin quantrọng và phổ biến, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu Tiếptheo, tiểu luận sẽ đề cập đến luật kết hợp Đây là một hướng nghiên cứu quantrọng trong lĩnh vực khai phá dữ liệu và là nội dung tìm hiểu, nghiên cứu trọngtâm của tiểu luận

II LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU

1 Khai phá luật kết hợp

Được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận được rấtnhiều sự quan tâm của nhiều nhà khoa học Ngày nay việc khai thác các luật nhưthế vẫn là một trong những phương pháp khai thác mẫu phổ biến nhất trong việckhám phá tri thức và khai thác dữ liệu

Mục đích chính của khai phá dữ liệu là các tri thức được kết xuất ra sẽđược sử dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh vànghiên cứu khoa học

Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tạisiêu thị, các nhà quản lý rất thích có được các thông tin mang tính thống kê như:

“90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoahiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thường mua loại

TV 21 inches” Những thông tin như vậy rất hữu ích trong việc định hướng kinhdoanh Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụkhai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể Đó chính là nhiệm

vụ khai phá luật kết hợp

Giả sử chúng ta có một CSDL D Luật kết hợp cho biết phạm vi mà trong

đó sự xuất hiện của tập các mục S nào đó trong các bản ghi của D sẽ kéo theo sựxuất hiện của một tập những mục U cũng trong những bản ghi đó Mỗi luật kếthợp được đặc trưng bởi một cặp tỉ lệ Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ

% những bản ghi trong D chứa cả S và U

Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ

luật kết hợp được thực hiện như sau:

Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽkéo theo một số mục khác

Trang 9

Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn90%.

Hãy tưởng tượng, một công ty bán hàng qua mạng Internet Các kháchhàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL vềcác yêu cầu của khách hàng Giả sử công ty quan tâm đến mối quan hệ "tuổi,giới tính, nghề nghiệp và sản phẩm" Khi đó có thể có rất nhiều câu hỏi tươngứng với luật trên Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhânđặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất, thoả mãn mộtngưỡng nào đó ?

2 Lý thuyết về luật kết hợp

2.1 Khái niệm

Tương tự như khái niệm tập hợp, các giao dịch không được trùng lặp,nhưng có thể nới rộng tính chất này của tập hợp và trong các thuật toán sau này,người ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cảcác tập mục khác, có thể coi chúng đã được sắp xếp theo thứ tự từ điển của cácmục

Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một

chứa tất cả các item của X

T(X) để chỉ tập các giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc sup(X),s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong

D, nghĩa là:

D

T X D T

)

Độ hỗ trợ tối thiểu minsup là một giá trị cho trước bởi người sử dụng Nếu

phổ biến được sử dụng như một tập đáng quan tâm trong các thuật toán, ngượclại, những tập không phải tập phổ biến là những tập không đáng quan tâm Cácphần sau sẽ sử dụng những cụm từ khác như “X có độ hỗ trợ tối thiểu”, hay “Xkhông có độ hỗ trợ tối thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏa

Trang 10

Luật X => Y tồn tại một độ tin cậy c Độ tin cậy c được định nghĩa là khảnăng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Ta có công thức tính độ tin cậy cnhư sau:

) sup(

) (

| ( ) (

X

Y X T

X p

T X T Y p I X I Y p Y X

Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối

thiểu do người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu đượcgọi là các tập mục phổ biến

Bài toán 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn Ý

tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta cóthể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:

) sup(

AB

ABCD conf = (2.3)Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợtối thiểu vì ABCD là phổ biến)

2.2 Một số tính chất liên quan đến các hạng mục phổ biến:

2.2.1 Tập mục phổ biến:

Tính chất 1 (Độ hỗ trợ của tập con):

Điều này là rõ ràng vì tất cả các giao tác của D hỗ trợ B thì cũng hỗ trợ A

Tính chất 2:

Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến

Nếu một mục trong B không có độ hỗ trợ tối thiểu trên D nghĩa là sup(B)<minsup thì một tập con A của B sẽ không phải là một tập phổ biến vì support(B)

Tính chất 3: Các tập con của tập phổ biến cũng là tập phổ biến

2.2.2 Luật kết hợp:

Trang 11

Tính chất 1:( Không hợp các luật kết hợp)

Tính chất 2:(Không tách luật)

Ví dụ trường hợp Z có mặt trong một giao tác chỉ khi cả hai X và Y cũng

có mặt, tức là sup(X∪Y)= sup(Z), nếu độ hỗ trợ của X và Y đủ lớn hơn

biệt sẽ không đủ độ tin cậy

Tính chất 3: (Các luật kết hợp không có tính bắc cầu)

giao dịch chứa X,Y,Z, và độ tin cậy cực tiểu minconf

Tính chất 4:

B

L B

) sup(

) (

) sup(

C L

L D

2.3 Một số hướng tiếp cận trong khai phá luật kết hợp

Lĩnh vực khai thác luật kết hợp cho đến nay đã được nghiên cứu và pháttriển theo nhiều hướng khác nhau Có những đề xuất nhằm cải tiến tốc độ thuật

Trang 12

toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn… và có một sốhướng chính như sau:

Luật kết hợp nhị phân là hướng nghiên cứu đầu tiên của luật kết hợp Hầuhết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợpnhị phân Trong dạng luật kết hợp này, các mục, thuộc tính, chỉ được quan tâm

là có hay không xuất hiện trong giao tác của CSDL chứ không quan tâm về

“mức độ” xuất hiện Ví dụ: Trong hệ thống tính cước điện thoại thì việc gọi 10cuộc điện thoại và một cuộc được xem là giống nhau Thuật toán tiêu biểu nhấtkhai phá dạng luật này là thuật toán Apriori và các biến thể của nó Đây là dạngluật đơn giản và các luật khác cũng có thể chuyển về dạng luật này nhờ một sốphương pháp như rời rạc hoá, mờ hoá, … Một ví dụ về dạng luật này: “gọi liêntỉnh= ‘yes’ AND gọi di động= ‘yes’ => gọi quốc tế= ‘yes’ AND gọi dịch vụ 108

= ‘yes’, với độ hỗ trợ 20% và độ tin cậy 80%”

Luật kết hợp có thuộc tính số và thuộc tính hạng mục: Các thuộc tính củacác CSDL thực tế có kiểu rất đa dạng, như số nhị phân, giá trị định tính, địnhlượng Để phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã

đề xuất một số phương pháp rời rạc hoá nhằm chuyển dạng luật này về dạng nhịphân để có thể áp dụng các thuật toán đã có Một ví dụ về dạng luật này

“phương thức gọi = ‘Tự động’ AND giờ gọi IN [‘23:00:39 23:00:59’] ANDThời gian đàm thoại IN [‘200 300’] => gọi liên tỉnh = ‘có’ , với độ hỗ trợ là 23.53% , và độ tin cậy là 80%”

Luật kết hợp tiếp cận theo hướng tập thô: Tìm kiếm luật kết hợp dựa trên lýthuyết tập thô

Luật kết hợp nhiều mức: Cách tiếp cận theo luật này sẽ tìm kiếm thêmnhững luật có dạng “mua máy tính PC => mua hệ điều hành AND mua phầnmềm tiện ích văn phòng, …” thay vì chỉ những luật quá cụ thể như “mua máytính IBM PC => mua hệ điều hành Microsoft Windows AND mua phần mềmtiện ích văn phòng Microsoft Office, …” Như vậy dạng luật đầu là dạng luậttổng quát hoá của dạng luật sau và tổng quát theo nhiều mức khác nhau

Luật kết hợp mờ: Với những hạn chế còn gặp phải trong quá trình rời rạchoá các thuộc tính số (quantitave attributes), các nhà nghiên cứu đã đề xuất luậtkết hợp mờ nhằm khắc phục các hạn chế trên và chuyển luật kết hợp về mộtdạng tự nhiên hơn, gần gũi hơn với người sử dụng một ví dụ của dạng này là:

“thuê bao tư nhân = ‘yes’ AND thời gian đàm thoại lớn AND cước nội tỉnh =

‘yes’ => cước không hợp lệ = ‘yes’, với độ hỗ trợ 4% và độ tin cậy 85%” Trongluật trên, điều kiện thời gian đàm thoại lớn ở vế trái của luật là một thuộc tính đãđược mờ hoá

Luật kết hợp với thuộc tính được đánh trọng số: Trong thực tế, các thuộctính trong CSDL không phải lúc nào cũng có vai trò như nhau Có một số thuộctính được chú trọng hơn và có mức độ quan trọng cao hơn các thuộc tính khác

Ví dụ khi khảo sát về doanh thu hàng tháng, thông tin về thời gian đàm thoại,

Trang 13

vùng cước là quan trọng hơn nhiều so với thông tin về phương thức gọi Trongquá trình tìm kiếm luật, chúng ta sẽ gán thời gian gọi, vùng cước các trọng sốlớn hơn thuộc tính phương thức gọi Đây là hướng nghiên cứu rất thú vị và đãđược một số nhà nghiên cứu đề xuất cách giải quyết bài toán này Với luật kếthợp có thuộc tính được đánh trọng số, chúng ta sẽ khai thác được những luật

“hiếm” (tức là có độ hỗ trợ thấp, nhưng có ý nghĩa đặc biệt hoặc mang rất nhiều

ý nghĩa)

Luật kết hợp song song: Bên cạnh khai thác luật kết hợp tuần tự, các nhàlàm tin học cũng tập trung vào nghiên cứu các thuật giải song song cho quá trìnhphát hiện luật kết hợp Nhu cầu song song hoá và xử lý phân tán là cần thiết bởikích thước dữ liệu ngày càng lớn hơn nên đòi hỏi tốc độ xử lý cũng như dunglượng bộ nhớ của hệ thống phải được đảm bảo Có rất nhiều thuật toán songsong khác nhau đã đề xuất để có thể không phụ thuộc vào phần cứng

Bên cạnh những nghiên cứu về các biến thể của luật kết hợp, các nhànghiên cứu còn chú trọng đề xuất những thuật toán nhằm tăng tốc quá trình tìmkiếm tập phổ biến từ CSDL

Ngoài ra, còn có một số hướng nghiên cứu khác về khai thác luật kết hợpnhư: khai thác luật kết hợp trực tuyến, khai thác luật kết hợp được kết nối trựctuyến đến các kho dữ liệu đa chiều thông qua công nghệ OLAP, MOLAP,ROLAP, ADO

2.4 Phát hiện luật kết hợp trên hệ thông tin nhị phân

2.4.1 Các định nghĩa về hệ thông tin nhị phân

Hệ thông tin nhị phân

B = {0, 1}

ngược lại

Các ánh xạ thông tin nhị phân

nghĩa như sau:

d) = 1}

Trang 14

Tập chỉ báo phổ biến nhị phân

Cho S ⊆ D, S là tập chỉ báo phổ biến nhị phân với ngưỡng θ nếu

Cho LB là một tập gồm tất cả các tập chỉ báo phổ biến nhị phân đã phát

nguyên dương)

Các luật kết hợp phổ biến nhị phân và hệ số tin cậy

Cho L là một phần tử của LB, X và Y là hai tập con của L, trong đó:

Chúng ta xác định các luật kết hợp nhị phân giữa tập chỉ số X và tập chỉ số

)) ( (

)) ( ) ( ( )

(

X p card

Y p X p card Y

X

CF

B

B B

(2.6)

Các vectơ chỉ báo nhị phân và các phép toán

m chỉ báo

Vectơ chỉ báo nhị phân: vB(X) = {X1, X2, … , Xn} trong đó: X ⊂ D là một

là tập tất cả các vectơ chỉ báo nhị phân của SB, nếu card(X) = 1 thì X là bộ chỉbáo của SB và Xj = χ(o, X)

Tích vectơ chỉ báo nhị phân: Cho X1, X2 ⊂ D, vB(X1) = (X11, X12, … , X1n),

Trang 15

Độ hỗ trợ các vectơ chỉ báo nhị phân

là: supB(vB(X1)) = {o ⊂ O| ∀d ∈ X1, χ(o, d) = 1} (2.7)

vectơ chỉ báo nhị phân vB({sj}) Các yếu tố của ρB(S) được tính bằng

và card(X) = h (h là số nguyên dương cho trước)

2.4.2 Thuật toán phát hiện tập chỉ mục và luật kết hợp nhị phân

Thuật toán phát triển từ thuật toán Apriori-Tid Để phát hiện các tập chỉbáo nhị phân phổ biến từ các luật kết hợp nhị phân từ hệ thông tin nhị phân.Thuật toán này làm việc với các bit trong bộ nhớ và không làm việc với CSDLtrên đĩa, vì thế có thể cải tiến tốc độ quá trình phát hiện luật Cho một CSDL vàhai ngưỡng độ hỗ trợ tối thiểu minsup và độ tin cậy tối thiểu minconf của luậtkết hợp Thuật toán Apriori-Tid có hai pha:

Pha 1: Phát hiện các tập chỉ báo phổ biến dựa trên ngưỡng minsup chotrước

Pha 2: Xây dựng các luật kết hợp dựa trên một ngưỡng minconf cho trước

Chi tiết thuật toán Apriori-Tid như sau:

Pha 1: Phát hiện tập chỉ mục phổ biến nhị phân

Tiêu đề	Tìm hiểu luật kết hợp trong khai phá dữ liệu
Tác giả	Võ Thanh Minh, Nguyễn Quang, Hồ Văn Lâm, Phạm Vinh, Trần Thị Quế Vy
Trường học	Đại Học Huế
Chuyên ngành	Cơ sở toán
Thể loại	Tiểu luận
Năm xuất bản	2010
Thành phố	Huế

Định dạng
Số trang	30
Dung lượng	258 KB