TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

TIỂU LUẬN MÔN HỌCKHAI PHÁ DỮ LIỆUKHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

Trang 1

ĐẠI HỌC HUẾ

TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN

NHÓM 4 – CAO HỌC KHOA HỌC MÁY TÍNH B

(NĂM HỌC 2010 – 2012)

KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

KHAI PHÁ DỮ LIỆU

Huế, tháng 9/2011

Trang 2

ĐẠI HỌC HUẾ

TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN

NHÓM 4 – CAO HỌC KHOA HỌC MÁY TÍNH B

(NĂM HỌC 2010 – 2012)

KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN

KHAI PHÁ DỮ LIỆU

LÊ BÁ MINH PHONG NGUYỄN THỊ THANH TÂM NGUYỄN THỊ THÀNH

NGUYỄN VŨ CÁT TƯỜNG TRẦN THỊ MỸ NGÂN

Huế, tháng 9/2011

Trang 3

MỤC LỤC

LỜI NÓI ĐẦU 4

I Đặt vấn đề 5

II Nội dung 6

2.1 Khai phá luật kết hợp 6

2.1.1 Phân tích giỏ mua hàng 5

2.1.2 Một số khái niệm cơ bản 6

2.1.3 Khai phá luật kết hợp 8

2.2 Khai phá luật kết hợp luận lý một chiều từ tập giao tác 9

2.2.1 Thuật toán Apriori 9

2.2.2 Sinh luật kết hợp từ những tập mục phổ biến 15

2.2.3 Cải tiến hiệu suất Apriori 16

2.2.4 Khai phá tập mục phổ biến không sinh ứng cử 18

2.3 Khai phá luật kết hợp đa mức từ tập giao tác 22

2.3.1 Luật kết hợp đa mức 22

2.3.2 Phương pháp để khai phá luật kết hợp đa cấp 24

2.3.3 Kiểm tra dư thừa luật kết hợp đa cấp 28

2.4 Khai phá luật kết hợp đa chiều từ CSDL quan hệ và kho dữ liệu 29 2.4.1 Luật kết hợp đa chiều 29

2.4.2 Khai phá luật kết hợp đa chiều sử dụng rời rạc hóa tĩnh của thuộc tính định lượng 30

2.4.3 Khai phá luật kết hợp định lượng 32

2.4.4 Khai phá luật kết hợp khoảng cơ sở 33

2.5 Từ khai phá sự kết hợp để phân tích sự tương quan 35

2.5.1 Các luật mạnh là không nhất thiết thích hợp 35

2.5.2 Từ phân tích kết hợp để phân tích tương quan 36

2.6 Khai phá luật kết hợp dựa trên các ràng buộc 40

2.6.1 Khai phá dựa vào ràng buộc dạng luật 41

2.6.2 Khai phá dựa vào các ràng buộc thêm về luật 42

III Kết luận 46

Trang 4

Tài liệu tham khảo 47

Trang 5

LỜI NÓI ĐẦU

Khai phá dữ liệu (hay Data mining) là một quá trình trích xuất thông tin

có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớnhoặc cực lớn nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai,hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhậndiện được

Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà cáccông cụ truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đápđược (thậm chí các cách truyền thống không thể giải được) Nó có thể tìmthấy được những thông tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc khôngxem xét đến để có thể dự đoán những xu thế/ hành động xảy ra trong tươnglai Data mining là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức

từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoahọc và kinh doanh

Để có thể data mining một cách hiệu quả, điều đầu tiên cần phải thuthập dữ liệu và định nghĩa lại theo các tiêu chí cần phân tích Các kỹ thuậtdata mining có thể cài đặt rất nhanh chóng trên các nền tảng phần mềm, phầncứng phổ thông mà không cần đòi hỏi quá phức tạp, tuy vậy data miningthường gắn liền với việc phân tích một khối lượng dữ liệu cực lớn nên cầnứng dụng các công nghệ high performance client/server hoặc xử lý song song(parallel programming)

Dưới sự hướng dẫn của cô giáo, TS Hoàng Thị Lan Giao, nhóm chúng

tôi mạnh dạn tìm hiểu đề tài “Khai phá luật kết hợp trong CSDL lớn”.

Trong quá trình tìm hiểu và trình bày sẽ không tránh khỏi những thiếu sót, rấtmong cô giáo và các bạn đóng góp ý kiển để tiểu luận được hoàn thiện hơn

NHÓM 4 – CAO HỌC KHMT B (2010 – 2012)

Trang 6

I ĐẶT VẤN ĐỀ

Tìm kiếm, khai phá các luật kết hợp là vấn đề thú vị và có mối quan hệtương quan giữa các tập mục dữ liệu lớn Với số lượng lớn các dữ liệu liên tụcđược thu thập và lưu trữ, nhiều ngành công nghiệp đang quan tâm đến việckhai phá luật kết hợp từ cơ sở dữ liệu của họ Ví dụ như thông qua các hồ sơkinh doanh, hồ sơ giao dịch, qua tiếp thị, phân tích có thể giúp đưa ra cácchiến lược kinh doanh khả thi hơn

Một ví dụ điển hình của việc khai thác luật kết hợp là phân tích thịtrường Đây là quá trình này phân tích thói quen của khách hàng khi muahàng và tìm ra mối quan hệ giữa các mặt hàng với nhau khi khách hàng muahàng Việc phát hiện ra các kết hợp như vậy có thể giúp các nhà bán lẻ pháttriển các chiến lược tiếp thị, biết được khách hàng thường xuyên mua các mặthàng nào thường đi kèm với nhau Ví dụ, nếu khách hàng đang mua sữa, làmthế nào họ cũng mua bánh mì đi kèm? Những thông tin này có thể giúp tăngdoanh thu bằng cách giúp các nhà bán lẻ tiếp thị, chọn lọc và lập kế hoạchcho không gian trưng bày của họ Ví dụ, đặt sữa và bánh mì gần nhau hơn để

có thể khuyến khích việc bán các mặt hàng này

Làm thế nào chúng ta có thể tìm ra luật kết hợp từ một lượng lớn dữliệu, nơi mà các dữ liệu là giao dịch hoặc quan hệ? Làm thế nào để có thể tìm

ra các các thủ tục khai phá để khám phá các kết hợp thú vị? Cấu trúc ngônngữ gì có ích trong việc định nghĩa một ngôn ngữ truy vấn dữ liệu cho việckhai phá các luật kết hợp? Trong phần này chúng tôi sẽ lần lượt giải quyếttừng vấn đề trên

Hình 1

Trang 7

II NỘI DUNG

2.1 Khai phá luật kết hợp

Khai phá luật kết hợp là tìm kiếm các mối quan hệ thú vị giữa các mụctrong một tập dữ liệu nhất định Chúng tôi bắt đầu tại phần sau bằng cáchtrình bày một ví dụ về phân tích thị trường, hình thức mới nhất của khai pháluật kết hợp Các khái niệm cơ bản của các khai phá luật kết hợp được đưa ratrong mục 2.1.2 Mục 2.1.3 trình bày một cách thức để phân biệt các loại luậtkết hợp

2.1.1 Phân tích giỏ mua hàng

Giả sử, là quản lý của một chi nhánh AllElectronics, bạn muốn tìm hiểu

thêm về các thói quen mua sắm khách hàng Bạn tự hỏi: “Những nhóm các

mặt hàng nào mà khách hàng có thể mua trên cùng một chuyến đi đến siêu thị?" Để trả lời câu hỏi của bạn, người phân tích thị trường có thể tìm hiểu

trên các hóa đơn bán lẻ của khách hàng tại cửa hàng Các kết quả có thể được

sử dụng để lập kế hoạch tiếp thị hay quảng cáo, cũng như trong cách thiết kếcác gian hàng Ví dụ, phân tích thị trường có thể giúp nhà quản lý thiết kế bốtrí các gian hàng với các mặt hàng thường xuyên được mua với nhau lại gầnvới nhau để khuyến khích khách hàng trong việc mua sắm Nếu khách hàngmua máy tính cũng có xu hướng mua phần mềm quản lý thì nên bố trí, sắpxếp cho cả hai ở gần nhau để khuyến khích khách hàng mua nhằm tăng doanh

số bán hàng của cả hai Trong một chiến lược khác, đặt phần cứng và phầnmềm ở hai đầu của cửa hàng có thể lôi kéo khách hàng mua những mặt hàng

đó để nhận các mặt hàng khác trên đường đi Ví dụ, sau khi quyết định muamột máy tính đắt tiền, một khách hàng có thể tìm hệ thống bảo mật để muanên nghĩ đến việc tìm các phần mềm, và có thể quyết định mua một hệ thốngbảo mật mức độ gia đình là tốt Việc phân tích thị trường cũng có thể giúp cácnhà bán lẻ lên kế hoạch mà các mặt hàng đưa vào bán với giá giảm Nếukhách hàng có xu hướng mua máy tính và máy in với nhau thì có thể thấyrằng việc bán các máy in có thể ngang bằng việc bán máy tính

Nếu chúng ta có số lượng lớn tập hợp các mặt hàng có sẵn tại cửa hàng,

ta đặt mỗi mặt hàng có một giá trị Boolean đại diện cho sự có mặt hay vắngmặt của mặt hàng đó Mỗi giỏ hàng có thể được đại diện bởi một vector cácgiá trị Boolean gán cho biến này Các vectơ Boolean có thể được phân tích để

Trang 8

gán cho các mặt hàng thường xuyên được mua với nhau Ví dụ, các thông tin

mà khách hàng mua máy tính cũng có xu hướng mua phần mềm quản lý đượcthể hiện trong luật kết hợp dưới đây

computer financial_management_software

[support=2%; confidence = 60%] (1)

Độ hỗ trợ và độ tin cậy là hai thước đo được quan tâm nhất Chúng phảnánh sự thành công và chắc chắn của luật Độ hỗ trợ 2% cho luật kết hợp (1) cónghĩa là 2% của tất cả các giao dịch theo phân tích cho thấy rằng máy tính vàphần mềm quản lý được mua cùng với nhau Độ tin cậy 60% có nghĩa là 60%khách hàng mua một máy tính cũng mua phần mềm Thông thường, nguyêntắc liên kết được coi là thú vị nếu chúng đáp ứng cả độ hỗ trợ và độ tin cậymột ngưỡng tối thiểu Ngưỡng này có thể được thiết lập bởi người sử dụnghoặc các chuyên gia

2.1.2 Một số khái niệm cơ bản

Giả sử I = {i 1 , i 2 ,…, i m } là tập các mặt hàng Cho D là các dữ liệu công

việc có liên quan, một tập hợp các giao dịch trong đó mỗi giao dịch T là mộttập các mục với T  I Mỗi giao dịch có liên quan đến một định danh, đượcgọi là TID Cho A là một nhóm các mặt hằng Một T giao dịch được gọi làchứa A nếu và chỉ nếu A T Một luật kết hợp dưới hình thức AB, với A

 I, B  I và

Một luật mà đáp ứng cả độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) thì được gọi là mạnh Chúng ta qui định min_sup và

min_conf xảy ra giữa 0% và 100%

Một tập các mục được gọi là một tập mục Một tập mục có chứa các kmặt hàng gọi là một k-tập mục Tập {computer,

financial_managerment_software} là 2-tập mục Tần suất xuất hiện của tập

mục là số các giao dịch có chứa các tập mục Điều này cũng được biết đếnnhư là đếm tần số hoặc độ hỗ trợ của tập mục Một tập mục thõa mãn độ hỗ

trợ tối thiểu nếu tần số xuất hiện của tập mục là lớn hơn hoặc bằng min_sup

và tổng số các giao dịch trong D Số lượng các giao dịch cần thiết cho tậpmục để đáp ứng độ hỗ trợ tối thiểu gọi là tính hỗ trợ tối thiểu Nếu tập mụcthõa mãn độ hỗ trợ tối thiểu, thì đó là tập tập mục phổ biến k-tập mục phổbiến được ký hiệu là Lk

Trang 9

Làm thế nào để khai phá được luật kết hợp trong tập dữ liệu lớn Khaiphá luật kết hợp qua 2 bước:

-Tìm tất cả các tập mục phổ biến Theo định nghĩa, mỗi tập mục này sẽxảy ra thường xuyên như là một xác định trước độ hỗ trợ tối thiểu

-Tạo ra các luật kết hợp mạnh cho các tập mục phổ biến

Bằng việc định nghĩa, những quy tắc này phải đáp ứng độ hỗ trợ tốithiểu và độ tin cậy tối thiểu

2.1.3 Khai phá luật kết hợp

Việc phân tích thị trường chỉ là một hình thức khai phá luật kết hợp.Trong thực tế, có nhiều loại luật kết hợp Các luật kết hợp có thể được phânloại dựa trên các tiêu chí sau đây:

1 Căn cứ vào loại giá trị xử lý trong luật Nếu một luật quan tâm kết

hợp giữa sự hiện diện hay vắng mặt của mặt hàng, đó là một luật kết hợpBoolean Ví dụ, luật (1) ở trên là một luật kết hợp Boolean thu được từ phântích thị trường trong giỏ hàng

Nếu một luật mô tả sự kết hợp giữa số lượng hoặc thuộc tính mặt hàng,thì nó là một luật kết hợp lượng số Trong những quy tắc này, các giá trị địnhlượng cho các hạng mục hoặc các thuộc tính được chia thành khoảng thờigian Ví dụ luật sau là một luật kết hợp định lượng, với X đại diện cho mộtkhách hàng:

Age(X,“30…39”) income(X,“24K…48K”)  buys (X, high resolution

TV) (2)

Lưu ý rằng các thuộc tính định lượng age và income được rời rạc hóa

2 Căn cứ vào chiều của dữ liệu Nếu các mục hoặc các thuộc tính trong

luật kết hợp chỉ có một chiều, thì nó là luật kết hợp đơn chiều Lưu ý rằng quytắc (1) có thể được viết lại như sau:

buys(X,“computer")buys(X,”financial_management_software") (3)

Quy tắc (1) là luật kết hợp một chiều vì nó đề cập đến chỉ một chiều của

dữ liệu là buys Nếu một luật tham chiếu đến hai hoặc nhiều chiều, như buys,time_of_transaction và customer_category thì nó là một luật kết hợp đa chiều.Quy tắc (2) trên đây được coi là một đa chiều vì nó bao gồm 3 chiều: age,income và buys

Trang 10

3 Căn cứ vào các mức trong các luật Một số phương pháp để khai thác

luật kết hợp có thể tìm thấy ở mức Ví dụ, giả sử một tập hợp các luật kết hợpđược khai thác dưới đây

age(X, “30…39") buys(X, “laptop computer") (4)

age(X, “30…34") buys(X, “computer") (5)

Trong quy tắc (4) và (5), các mặt hàng đã mua được tham chiếu ở mứckhác nhau (Tức là, "computer” là mức trừu tượng cao hơn "laptopcomputer”) Chúng tôi tham khảo việc khai phá luật kết hợp đa mức Nếu cácquy tắc trong một tập đã cho không tham chiếu đến các mục hoặc các thuộctính tại các mức khác nhau thì đó là luật kết hợp đơn mức

2.2 Khai phá luật kết hợp luận lý một chiều từ tập giao tác.

Trong phần này, chúng ta sẽ biết đến các phương pháp khai phá luật kếthợp hình thức đơn giản như một chiều, đơn cấp, luật kết hợp nhị phân cũng

như thảo luận về market basket analysis trong mục 6.1.1 Chúng ta sẽ bắt

đầu bằng thuật toán Apriori, đây là thuật toán cơ bản để tìm tập mục phổ biến

(trong mục 6.2.1) Một thủ tục sinh ra tập luật kết hợp mạnh từ tập mục phổ biến được thảo luận trong mục 6.2.2 Mục 6.2.3 trình bày một số thay đổi đối với thuật toán Apriori nhằm cải tiến hiệu quả và khả năng của nó Mục 6.2.4

đưa ra phương pháp khai phá luật kết hợp khác, nó khác với Apriori, nó

không liên quan việc sinh ra tập mục phổ biến “ứng cử” Mục 6.2.5 mô tả

cách nguyên lý Apriori có thể được áp dụng để cải tiến hiệu suất cho câu trả

lời “iceberg queries – truy vấn núi băng trôi” rất phổ biến trong

2.2.1 Thuật toán Apriori

Apriori là thuật toán có ảnh hưởng đối với việc tìm tập mục phổ biến choluật kết hợp nhị phân Tên của thuật toán thì dựa vào nguyên nhân mà thuậttoán sử dụng đó là “prior knowledge – tiên nghiệm tri thức” của thuộc tínhtập mục phổ biến, và sẽ thấy rõ ở bên dưới Apriori sử dụng một phương pháplặp được biết đến như là một phép tìm kiếm mức thông thái (level-wise), ởđây k-tập mục được dùng để tìm ra (k + 1) – tập mục Đầu tiên tập mục phổbiến 1-tập mục được tìm thấy Tập mục này được ký hiệu L1 L1 được dùng đểtìm L2, tập mục phổ biến 2-tập mục, và nó được dùng để tìm tiếp L3 và cứ tiếptục như vậy cho đến khi không tìm thấy k-tập mục nào nữa Việc tìm mỗi Lk

đòi hỏi phải quét toàn bộ cơ sở dữ liệu

Trang 11

Để cải tiến hiệu suất sinh “level-wise” tập mục phổ biến, một thuộc tính

quan trọng gọi là thuộc tính Apriori đưa ra dưới đây được sử dụng để giảmkhông gian tìm kiếm Chúng ta sẽ mô tả thuộc tính này sau đó chỉ ra ví dụ đểminh họa cách dùng nó

Để sử dụng thuộc tính Apriori, tất cả tập con khác rỗng của tập mục phổbiến phải là tập phổ biến Thuộc tính này là nền tảng cho sự theo dõi tiếptheo Theo định nghĩa, nếu một tập mục I không thỏa mãn ngưỡng hỗ trợ tốithiểu min_sup, thì I không là tập mục phổ biến, đó là P(I) < min_sup Nếumột mục A được thêm vào tập mục I, thì tập mục đích cũng không phổ biếnhơn I Vì vậy I U A cũng không là tập phổ biến, nghĩa là P(I U A) < min_sup.Thuộc tính này thuộc về một tập thuộc tính phân loại đặc biệt gọi là

anti-monotone trong ngữ cảnh mà nếu một tập không thể vượt qua kiểm tra thì tất cả tập con của nó cũng sẽ bị lỗi y như nó vậy Nó được gọi là anti- monotone bởi vì thuộc tính đơn điệu trong ngữ cảnh kiểm tra bị lỗi.

“Thuộc tính Apriori được sử dụng trong thuật toán như thế nào?” Đểhiểu về vấn đề này, chúng ta sẽ cùng xem dùng Lk-1 để tìm Lk như thế nào Có

2 bước trong quá trình này, đó là bước kết nối và bước rút gọn

1 Bước kết nối: để tìm Lk, một tập ứng cử k-tập mục được sinh ra bằngcách nối Lk-1 với chính nó Tập mục ứng cử này được ký hiệu Ck Lấy l1 và l2 lànhững mục trong Lk-1 Ký hiệu li[j] là mục thứ j trong li (ví dụ: l1[k-2] là phần

tử thứ hai từ phần tử cuối cùng của mục l1) Theo quy ước, Apriori giả thiếtnhững mục trong một giao tác hoặc tập được sắp xếp theo thứ tự từ điển Kếtnối giữa Lk-1 và Lk-1 theo dạng là mỗi thành viên Lk-1 có khả năng nối nếu phần

tử đầu tiên trong (k-2) mục là giống nhau Nghĩa là, những thành viên l1 và l2

của Lk-1 được nối với nhau nếu (l1[1] =l2[1]) ^ (l1[2] = l2[2]) ^ … ^ (l1[k-2] =l2[k-2]) ^ (l1[k-1] < l2[k-1]) Điều kiện l1[k-1] < l2[k-1] bảo đảm mỗi tập sinh

ra đều không giống nhau Tập mục kết quả theo dạng nối l1 và l2 là l1[1]l1[2]…

l1[k-1]l2[k-1]

2 Bước làm gọn: Ck là tập cha của Lk, nghĩa là những thành viên trong

nó có thể có hoặc không là phổ biến, nhưng tất cả trong k-tập mục phổ biếnthì chứa trong Ck Việc quét cơ sở dữ liệu để quyết định lượng ứng cử trong

Ck sẽ là kết quả trong quyết định của Lk (ví dụ, tất cả ứng cử có lượng khôngnhỏ hơn độ hỗ trợ nhỏ nhất được định nghĩa là phổ biến, và vì vậy nó phụthuộc vào Lk) Tuy nhiên, Ck có thể rất lớn, và dẫn đến phải giải quyết tính

Trang 12

toán rất nặng nhọc Để giảm kích thước Ck, thuộc tính Apriori được sử dụngnhư sau Bất kỳ (k-1)-tập mục không phổ biến không thể có tập con k-tập mụcphổ biến Như vậy, nếu bất kỳ (k-1)-tập con của một k-tập mục ứng cử thìkhông ở trong Lk-1, khi đó tập ứng cử cũng không thể là phổ biến và vì thế cóthể loại khỏi Ck Tập con này kiểm tra nhanh chóng bằng cách duy trì mộtcây băm của những tập mục phổ biến.

TID List of item_IDsT100

T200T300T400T500T600T700T800T900

I1, I2, I5I2, I4

I2, I3I1, I2, I4I1, I3I2, I3I1, I3I1, I2, I3, I5I1, I2, I3Hình 6.2 Giao tác dữ liệu cho một chi nhánh điện tử

Ví dụ 6.1 Chúng ta cùng xem một ví dụ cụ thể của Apriori dựa vào tậpgiao tác dữ liệu D của hình 6.2 Ở đây có 9 giao tác trong cơ sở dữ liệu này,nghĩa là |D| = 9 Chúng ta sử dụng hình 6.3 để minh họa thuật toán Aprioricho việc tìm tập mục phổ biến trong D

1 Đầu tiên của thuật toán, mỗi mục là 1 thành viên của tập 1-tập mụcứng cử, C1 Thuật toán đơn giản có thể quét tất cả giao tác được sắp theo sốthứ tự sự kiện của mỗi mục

2 Giả thiết độ hỗ trợ tối thiểu của giao tác là 2 (min_sup = 2/9 = 22%).Tập 1-tập mục phổ biến là L1 có thể định nghĩa ngay sau đó Nó bao gồm 1-tập mục ứng cử thỏa ngưỡng hỗ trợ tối thiểu min_sup

3 Để tìm ra tập 2-tập mục phổ biến, L2, thuật toán sử dụng L1 nối L1 đểsinh ra tập 2-tập mục ứng cử, C2

4 Tiếp theo, những giao tác trong D được quét và độ hỗ trợ của mỗi tậpmục ứng cử trong C2 được tính lại, như chỉ ra trong bảng giữa của hàng thứ 2hình 6.3

Trang 13

5 Tập 2-tập mục phổ biến L2 được định nghĩa, gồm những 2-tập mụcứng cử trong C2 thỏa min_sup.

6 Sinh tập 3-tập mục ứng cử, C3 được chi tiết trong hình 6.3 Đầu tiên,chúng ta lấy C3 = L2 nối L2 = {{I1,I2,I3}, {I1,I2,I5}, {I1,I3,I5}, {I2,I3,I4},{I2,I3,I5}, {I2,I4,I5}} Dựa vào thuộc tính Apriori tất cả của tập mục phổbiến phải là tập phổ biến, chúng ta có thể định nghĩa 4 ứng cử cuối không thể

là phổ biến Vì vậy có thể loại nó khỏi C3, theo đó ta lưu kết quả có được củanhững kết quả không cần thiết độ hỗ trợ của chúng trong suốt quá trình quéttuần tự tập con của D để định nghĩa L3 Lưu ý rằng khi cho một k-tập mụcứng cử , chúng ta chỉ cần kiểm tra nếu (k-1)-tập con của nó là phổ biến khi

thuật toán Apriori sử dụng level-wise trong chiến lược tìm kiếm.

7 Giao tác trong D được quét theo thứ tự để định nghĩa L3 bao gồm tập mục ứng cử trong C3 thỏa ngưỡng hỗ trợ tối thiểu (hình 6.3)

3-8 Thuật toán sử dụng L3 nối L3 để sinh ra tập ứng cử 4-tập mục C4 Mặc

dù kết quả nối là {{I1,I2,I3,I5}, tập mục này được rút gọn thì tập con của nó

là {{I2,I3,I5}} không phổ biến Như vậy C4 = và thuật toán kết thúc và đưa

ra được tất cả những tập mục phổ biến

Trang 14

Hình 6.5 là giả mã cho thuật toán Apriori và các thủ tục liên quan Bước

1 thuật toán Apriori tìm 1-tập mục phổ biến L1 Từ bước 2 – 10 Lk-1 đượcdùng để sinh tập ứng cử Ck theo thứ tự để tìm Lk Thủ tục apriori_gen sinh

các ứng cử và sau đó sử dụng thuộc tính Apriori để loại các tập con khôngphổ biến (bước 3) Thủ tục này mô tả ở dưới Để một trong tất cả các ứng cửđược sinh ra, cơ sở dữ liệu phải được quét (bước 4) Đối với mỗi giao tác,chức năng của tập con được dùng để tìm tất cả tập con của một giao tác mà làcác ứng cử (bước 5), và số đếm của mỗi ứng cử được tích lũy (bước 6 và 7).Cuối cùng tất cả ứng cử thỏa ngưỡng hỗ trợ tối thiểu nằm trong tập mục phổ

Trang 15

biến, thủ tục L.A có thể được gọi là để sinh ra luật kết hợp từ tập mục phổbiến Như là thủ tục được mô tả trong phần 6.2.2.

Thủ tục apriori_gen thực hiện 2 công việc có tên là “kết nối” và “rút

gọn” Trong phần kết nối, Lk-1 được nối với Lk-1 để sinh ra tập ứng cử tiềmnăng (bước 1-4) Phần rút gọn (bước 5-7) thuộc tính Apriori sẽ loại nhữngứng cử nào mà có tập con của nó không phải là phổ biến Kiểm tra một tập

con là phổ biến được đưa ra ở thủ tục has_infrequent_subset

Thuật toán: Apriori tìm tập mục phổ biến sử dụng phương pháp wise lặp lại dựa vào ứng cử sinh ra

level-Input: cơ sở dữ liệu, D số các giao tác, ngưỡng hỗ trợ tối thiểu min_supOutput: L tập mục phổ biến trong D

(1) L1 = 1-tập mục phổ biến (D)

(2) for (k=2; Lk-1≠ ; k++{

(3) Ck=apriori_gen(Lk-1,min_sup);

(4) for mỗi giao tác t D {//quét D để đếm

(5) Ct=tập con(Ck,t); //lấy tập con của t là ứng cử

Trang 16

(3) if(l1[1]=l2[1] ^ (l1[2]=l2[2]) ^ … ^ (l1[k-2]=l2[k-2]) ^ (l1[k-1]<l21]) then

[k-(4) c = l1 nối l2; //bước kết nối:sinh tập ứng cử

(5) if has_infrequent_subset(c,Lk-1) then

(6) delete c; //bước rút gọn: loại ứng cử không thỏa

(7) else thêm c vào Ck;

(8) }

(9) return Ck;

Procedure has_infrequent_subset(c:k-tập mục ứng cử; Lk-1: (k-1)-tập mụcphổ biến);// sử dụng prior knowledge

(1)for mỗi (k-1)-tập con s của c

(2) if s Lk-1 then

(3)return TRUE;

(4)return FALSE;

2.2.2 Sinh luật kết hợp từ những tập mục phổ biến.

Những tập mục phổ biến từ tập giao tác trong cơ sở dữ liệu D được tìm

ra, từ đó dễ dàng để ta sinh ra các luật kết hợp mạnh từ những tập mục phổbiến này (luật kết hợp mạnh ở đây phải thỏa mãn 2 ngưỡng là độ hỗ trợ tốithiểu min_sup và độ tin cậy tối thiểu min_conf) Điều này được thực hiệnbằng cách sử dụng công thức cho độ tin cậy sau:

Confidence (A=> B) = P(B|A) = , (6.8)

Ở đây độ hỗ trợ (A U B) là số giao tác chứa tập mục A U B và độ hỗ trợ

(A)là số giao tác chứa tập mục A Dựa vào công thức này, những luật kết hợp

có thể được sinh ra như sau:

 Với mỗi tập mục phổ biến l, sinh tất cả tập con khác rỗng của l

 Với mỗi tập con khác rỗng của l, luật được sinh ra “s => (l-s)”

if min_conf, với min_conf là ngưỡng tin cậy tối thiểu

Trang 17

Ví dụ 6.2 chúng ta thử một ví dụ dựa vào dữ liệu là các giao tácAllElectronics đưa ra ở hình 6.2 Dữ liệu chứa tập mục phổ biến l ={I1,I2,I5} Những luật kết hợp nào có thể được sinh ra từ l? Những tập conkhác rỗng của l là: {I1,I2}, {I1,I5}, {I2,I5}, {I1}, {I2} và {I5} Ta có các luậtkết hợp được đưa ra bên dưới, mỗi liệt kê với một độ tin cậy:

2.2.3 Cải tiến hiệu suất Apriori.

“Làm cách nào để cải tiến hiệu năng của Apriori?” Nhiều cách khácnhau đã đưa ra để cải tiến hiệu năng của thuật toán cơ bản Apriori này Một

số trong các cách khác nhau này được liệt kê ở dưới

 Áp dụng kỹ thuật băm (băm tập mục đếm được): Một kỹ thuật băm cóthể được dùng để giảm kích thước của k-tập mục ứng cử Ck với k > 1 Ví dụ,khi quét mỗi giao tác trong cơ sở dữ liệu để sinh ra 1-tập mục phổ biến L1, từ1-tập mục phổ biến trong C1 chúng ta có thể sinh tất cả 2-tập mục cho mỗigiao tác, băm (xem hình) chúng vào các khe chứa khác nhau của cấu trúcbảng băm và tăng số khe chứa tương ứng (hình 6.6) Một 2-tập mục mà có sốkhe chứa tương ứng trong bảng băm và ngưỡng hỗ trợ ở dưới không là phổbiến thì bị loại khỏi tập ứng cử Khi đó một kỹ thuật băm có thể làm giảm sốlượng k-tập mục phổ biến (đặc biệt khi k=2)

Trang 18

 Giảm số giao tác (giảm số giao tác được quét trong lần lặp tiếp theo):một giao tác không chứa bất kỳ k-tập mục phổ biến thì không thể chứa bất kỳ(k+1)-tập mục phổ biến Vì vậy, khi một giao tác có thể được đánh dấu hoặc

bị loại từ đó khi đó việc quét tiếp theo của cơ sở dữ liệu đối với j-tập mục, j >

k sẽ không phải làm

 Phân vùng (phân vùng dữ liệu để tìm tập mục ứng cử): một kỹ thuậtphân vùng có thể được dùng mà kỹ thuật này đòi hỏi chỉ 2 cơ sở dữ liệu quétđến chính tập mục phổ biến (hình 6.7) Nó bao gồm 2 pha Trong pha 1, thuậttoán chia nhỏ các giao tác của D vào n vùng không phủ nhau Nếu ngưỡng hỗtrợ tối thiểu đối với giao tác trong D là min_sup, khi đó độ hỗ trợ tối thiểu tập

mục đối với vùng là min_sup x số giao tác trong vùng đó Với mỗi vùng, tất

cả tập mục phổ biến trong vùng được tìm ra Những tập mục phổ biến nàyđược đề cập như là những tập mục phổ biến cục bộ Thủ tục sử dụng một cấutrúc dữ liệu đặc biệt mà đối với mỗi tập mục, ghi lại TIDs của những giao tácchứa những mục trong tập mục Điều này cho phép tìm tất cả k-tập mục phổbiến cục bộ, với k = 1, 2, …, trong chỉ 1 lần quét cơ sở dữ liệu Một tập mục phổ biến cục bộ có thể có hoặc không là tập phổ biến liênquan đến toàn bộ cơ sở dữ liệu D Bất kỳ tập mục mà là tập mục phổ biếntiềm năng liên quan đến D phải là một tập mục phổ biến trong ít nhất mộttrong các vùng Vì vậy, tất cả những tập mục phổ biến cục bộ là những tậpmục ứng cử liên quan đến D Tập các tập mục phổ biến từ tất cả các vùngthuộc dạng những tập mục ứng cử toàn cục liên quan đến D Trong pha 2, lầnquét thứ 2 của D dẫn vào nơi mà hỗ trợ thật sự của mỗi ứng cử được đánh giáthứ tự để quyết định là tập mục phổ biến toàn cục Kích thước vùng và sốvùng được cài đặt đến khi mỗi vùng có thể đặt vào trong bộ nhớ chính và vìthế được đọc chỉ trong 1 pha

 Lấy mẫu (khai phá trên một tập con của dữ liệu đươc cho): Ý tưởng

cơ bản của phương pháp lấy mẫu là để chọn một mẫu ngẫu nhiên S của dữliệu đầu vào D và khi tìm những tập mục phổ biến trong S thay thế cho D.Theo cách này, chúng ta thỏa hiệp một vài độ chính xác ngược lại với độ tincậy Kích thước mẫu của S là khi mà việc tìm kiếm để tìm những tập mục phổbiến trong S tốt hơn trong D, nó có khả năng rằng chúng ta sẽ bị lỗi ở một sốtập mục phổ biến toàn cục Để giảm khả năng này, ta sử dụng một ngưỡng hỗtrợ thấp hơn ngưỡng hỗ trợ tối thiểu để tìm những tập mục phổ biến cục bộtrong S (ký hiệu LS) Phần còn lại của cơ sở dữ liệu sau đó được dùng để tính

Trang 19

phổ biến thật sự của mỗi tập mục trong LS Một cơ chế được dùng để xác địnhtất cả tập mục phổ biến toàn cục đều được chứa trong LS Nếu LS thật sự chứatất cả những tập mục phổ biến trong D, khi đó chỉ yêu cần một lần quét D.Hơn thế nữa, lần duyệt thứ 2 có thể thực hiện theo thứ tự để tìm những tậpmục phổ biến mà chúng đã bị lỗi trong lần duyệt thứ nhất Phương pháp lấymẫu đặc biệt hữu ích khi độ tin cậy là quan trọng ở mức tối đa như khi mộtứng tính toán mạnh phải được chạy trên một nền tảng rất phổ biến.

 Đếm tập mục động (thêm những tập ứng cử tại những điểm khác nhautrong suốt một lần quét): kỹ thuật đếm một tập mục động được đề xuất ở khi

mà cơ sở dữ liệu được phân vào những khối đánh dấu bởi những điểm bắtđầu Trong sự thay đổi này, những tập mục ứng cử mới có thể được thêm tạibất kỳ điểm bắt đầu nào, không giống trong Apriori, ở đó xác định những tậpmục ứng cử mới ngay lập tức trước khi mỗi lần quét cơ sở dữ liệu hoàn thành

Kỹ thuật là động vì thế nó đánh giá độ hỗ trợ của tất cả những tập mục mà đãđược đếm , thêm những tập mục ứng cử mới nếu một trong những tập con củachúng được đánh giá là phổ biến Kết quả thuật toán yêu cầu quét cơ sở dữliệu ít hơn Apriori

Những phương pháp khác nhau giải quyết khai phá luật kết hợp đa cấp

và đa chiều được thảo luận trong phần còn lại của chương này Khai phá luậtkết hợp liên quan dữ liệu không gian, dữ liệu thời gian liên tiếp và dữ liệu đaphương tiện được thảo luận ở chương 9

2.2.4 Khai phá tập mục phổ biến không sinh ứng cử.

Như chúng ta đã thấy, trong nhiều trường hợp, phương pháp sinh ứng cử

và kiểm tra ứng cử của Apriori làm giảm kích thước của tập ứng cử một cáchđáng kể và dẫn đến việc thực thi có lợi Tuy nhiên, nó có thể nhận hai giá trịkhông tầm thường

 Cần phải sinh một lượng lớn những tập ứng cử Ví dụ, nếu 104 1-tậpmục phổ biến, thuật toán Apriori sẽ cần phải sinh hơn 107 2-tập mục ứng cử

và cộng dồn nhằm kiểm tra lần xuất hiện tập phổ biến Hơn nữa, để khai phámôt mẫu phổ biến kích thước 100, (a1, …, a100) phải sinh tập ứng cử hơn 2100

1030 tổng ứng cử

 Cần lặp lại quá trình quét cơ sở dữ liệu và kiểm tra tập ứng cử lớnbằng ghép mẫu Trường hợp đặc biệt đối với khai phá mẫu dài

Trang 20

“Chúng ta có thể thiết kế một phương pháp mà chính nó là những tậpmục phổ biến hoàn toàn mà không cần sinh ứng cử?” Một phương pháp thú vịtrong thử nghiệm này gọi là tăng mẫu phổ biến (frequent pattern growth) hayđơn giản là FP-growth mà theo đó một chiến lược chia và chinh phục (divideand conquer) như sau: bó dữ liệu trình diến những tập mục phổ biến vào trongmột cây mẫu phổ biến hay FP-tree, nhưng giữ lại thông tin kết hợp tập mục vàsau đó chia một bó cơ sở dữ liệu vào tập cơ sở dữ liệu điều kiện (một loại đặcbiệt của cơ sở dữ liệu trình chiếu), mỗi kết hợp với một mục phổ biến và đếnchính nó vì thề tách cơ sở dữ liệu rời nhau ra Chúng ta cùng xem ví dụ.

Ví dụ 6.3: chúng ta quay trở lại ví dụ khai phá cơ sở dữ liệu giao tác D ở

hình 6.2 trong ví dụ 6.1 sử dụng phương pháp tăng mẫu phổ biến FP-growth.Đầu tiên quét cơ sở dữ liệu tương tự như Apriori, cái lấy được là tậpnhững tập mục phổ biến (1-tập mục) và độ hỗ trợ của chúng (độ phổ biến).Chúng ta lấy độ hỗ trợ tối thiểu là 2 Tập những tập mục phổ biến được sắpxếp theo thứ tự giảm dần độ hỗ trợ Kết quả tập này hay bảng liệt kê được kýhiệu L Khi đó, chúng ta có L = [I2: 7, I1: 6, I3: 6, I4: 2, I5: 2]

Một FP-tree có cấu trúc như sau.Đầu tiên tạo gốc của cây gán nhãn là

“null” Quét cơ sở dữ liệu D lần thứ 2 Những mục trong mỗi giao tác được

xử lý trong L theo trình tự (ví dụ, sắp xếp theo giảm dần của độ hỗ trợ) vàmột nhánh được tạo đối với mỗi giao tác Ví dụ, quét giao tác đầu tiên

“T100: I1, I2, I5”, chứa 3 mục (I2, I1, I5) trong L theo thứ tự, dẫn đến cấutrúc của nhánh đầu tiên của cây có 3 nút: ((I2: 1), (I1: 1), (I5: 1)), ở đây I2 là 1liên kết vì nó là con của gốc I1 liên kết đến I2 và I5 liên kết đến I2 Ở giaotác thứ hai, T200, chứa những mục I2 và I4 trong L theo thứ tự, và kết quả cómột nhánh ở đây I2 liên kết với gốc và I4 liên kết đến I2 Tuy nhiên, nhánhnày sẽ chia sẻ tiền tố giống nhau (I2) với đường đi có sắn cho T100 Do đóchúng ta thay giá trị(gia lượng) độ ở nút I2 bằng 1 và tạo thêm một nút mới(I4: 1) mà nút này liên kết như là con của nút (I2: 2) Trong trường hợpchung, khi xem nhánh thêm vào cho một giao tác, độ hỗ trợ của mỗi nút màtiền tố như nhau thì cho giá trị là 1 và những nút cho những mục tiếp theo tiền

tố được tạo ra và liên kết phù hợp

Để giảm giao cắt trên cây, một mục đầu bảng được tạo ra để mỗi điểmmục tương ứng một lần xuất hiện trên cây thông qua một xích liên kết các nút.Cây đạt được sau khi quét tất cả các giao tác xem hình 6.8 với các liên kết nút

Trang 21

kết hợp Do đó, vấn đề của khai pha mẫu phổ biến trong cơ sở dữ liệu đượcchuyển thành khai phá FP-tree.

Tiến trình khai phá của cây FP-tree như sau Bắt đầu từ mẫu phổ biến độdài 1 (như 1 mẫu đầu tiên ở hậu tố), xây dựng nó nền tảng mẫu điều kiện (“cơ

sở dữ liệu nhỏ” mà chứa tập đường dẫn tiền tố lần xuất hiện trên FP-tree vớimẫu hậu tố), sau đó xây dựng nó (điều kiện) FP-tree và thực hiện khai phá đệquy trên một cây Tăng mẫu đạt được bằng cách ghép mẫu hậu tố với nhữngmẫu phổ biến sinh ra từ điều kiện FP-tree

Khai phá FP-tree được tóm tắt trong bảng 6.1 và chi tiết như sau Đầutiên chúng ta xem I5 là mục cuối cùng trong L Lý do ở sau sẽ trở nên rõ khichúng ta giải thích tiến trình khai phá FP-tree I5 xuất hiện trong 2 nhánh củaFP-tree ở hình 6.8 (Số lần xuất hiện của I5 có thể dễ dàng tìm thấy theođường liên kết của nó) Dạng đường dẫn bởi những nhánh này là: ((I2 I1 I5:1)) và ((I2 I1 I3: 1)) Vì vây, xem I5 là 1 hậu tố, nó kéo theo hai đường dẫntiền tố laf ((I2 I1: 1)) và ((I2 I1 I3: 1)), mà dạng thức dựa vào mẫu điều kiệnchính nó Điều kiện FP-tree bao gồm chỉ một đường dẫn đơn (I2: 2, I1: 2); I3không bao gồm bởi vì độ hỗ trợ của nó là 1 nhỏ hơn độ hỗ trợ tối thiểu.Đường dẫn đơn sinh ra tất cả kết hợp của những mẫu phổ biến: I2 I5: 2, I1 I5:

Tương tự với phân tích ở dưới, điều kiện dựa vào mẫu I3 là {(I2 I1: 2),(I2: 2), (I1: 2)} Điều kiện FP-tree có 2 nhánh (I2: 4, I1: 2) và (I1: 2) được chỉ

ra ở hình 6.9, sinh tập mẫu: {I2 I3: 4, I1 I3: 2, I2 I1 I3: 2} Cuối cùng, dựavào mẫu điều kiện là {(I2: 4)} FP-tree chứa chỉ 1 nút (I2: 4), nút này sinh 1mẫu phổ biến, I2 I1: 4 Tiến trình khai phá được tóm tắt trong hình 6.10

Phương pháp FP-growth làm thay đổi vấn đề tìm những tập mẫu phổbiến dài thành tìm kiếm đệ quy ngắn hơn và sau đó kết nối theo hậu tố

Trang 22

Thuật toán: FP-growth Sử dụng FP-tree với mẫu phổ biến bằng cách

tăng phân mảnh mẫu

Đầu vào: một giao tác của cơ sở dữ liệu D, ngưỡng hỗ trợ tối thiểu,min_sup

Đầu ra: hoàn tất tập mẫu phổ biến

Phương pháp:

1 FP-tree được xây dựng theo các bước sau

a) Quét một giao tác trong cơ sở dữ liệu D Thu thập tập mục phổbiến F và độ hỗ trợ của chúng

b) Tạo gốc của FP-tree và gán nhãn nó là “null” Đối với mỗi giao

tác Trans trong D làm như sau.

Lựa chọn và sắp xếp những mục phổ biến trong Trans theo thứ tự của

L Đặt sắp xếp danh sách mục phổ biến trong Trans là [p|P], với p là phần tử

đầu tiên và P là phần còn lại của danh sách Gọi thủ tục insert_tree([p|P], T),thủ tục thực hiện như sau Nếu T có con N thì N.item-name = p.item-name,sau đó tăng độ N lên 1; ngược lại tạo một nút mới N và đặt độ là 1, nó liên kếtđến cha nó là liên kết đến nút T và nó liên kết với nút có item-name giốngnhau thông qua cấu trúc liên kết nút Nếu P khác rỗng, gọi đệ quyinsert_tree(P, N)

2 Khai phá một FP-tree thực hiện bằng cách gọi FP-growth(FP_tree,null) và thực hiện như sau

Procedure FP_growth(Tree, )

(1) If Tree chứa một đường dẫn đơn P thì

(2) For mỗi biến đổi (biểu thị như ) của những nút trong đườngdẫn P

(3) Sinh mẫu U với độ hỗ trợ = độ hỗ trợ tối thiểu của những

nút trong

(4) Else với mỗi ai trong tiêu đề của Tree {

(5) Sinh mẫu = ai U với hỗ trợ = độ hỗ trợ ai;

Trang 23

(6) Xây dựng , dựa vào mẫu điều kiến s và sau đó là điều kiện của FP-tree Treeβ;

(7) If Treeβ thì Gọi F_growth (Treeβ, );}

Để sử dụng những mục phổ biến ít nhất như là hậu tố, sự lựa chọn tối ưuđược đề cập tới Phương pháp về thực chất làm giảm giá trị tìm kiếm

Khi cơ sở dữ liệu lớn, đôi khi nó không thực tế để xây dựng FP-tree dựavào bộ nhớ chính Một phương án lựa chọn thú vị là với phân vùng đầu tiên

cơ sở dữ liệu cho vào một tập cơ sở dữ liệu trình chiếu và khi đó xây dựngFP-tree và chính nó trong mỗi cơ sở dữ liệu trình chiếu Do đó một tiến trình

có thể được đệ quy để áp dụng đến bất kỳ cơ sở dữ liệu trình chiếu nếu nó tree vẫn không thể đặt vào bộ nhớ chính

FP-Việc học trên việc thực thi của phương pháp FP-growth chỉ ra rằng nóhiệu quả và tỉ lệ với khai phá cả hai mẫu phổ biến dài, ngắn và khoảng thứ tựcủa chiều đo nhanh hơn thuật toán Apriori Nó cũng nhanh hơn thuật toánTree Projection để trình chiếu một cơ sở dữ liệu vào 1 cây của cơ sở dữ liệutrình chiếu đệ quy

2.3 Khai phá luật kết hợp đa mức từ tập giao tác

2.3.1 Luật kết hợp đa mức

Đối với nhiều ứng dụng, thì đó là sự khác nhau để tìm ra các kết hợpmạnh giữa các mục dữ liệu ở mức con hoặc mức gốc Các kết hợp mạnh đượcphát hiện ở mức cao có thể đại diện cho kiến thức thông thường Các hệ thốngkhai phá dữ liệu phải cung cấp khả năng cho các luật kết hợp ở nhiều mứckhác nhau

Xét ví dụ sau: Giả sử chúng ta có được cho các công việc liên quan cácgiao dịch trong bảng sau cho doanh số bán hàng máy tính Công tyAllElectronics hiển thị các mặt hàng được mua trong mỗi giao dịch TID

Trang 24

Các mặt hàng được phân cấp khái niệm cho các mức được hiển thị tronghình sau

Một hệ thống phân cấp là một dãy tuần tự từ các tập khái niệm mức thấpđến tập khái niệm mức cao hơn Dữ liệu có thể được tổng quát hóa bằng cáchthay thế các khái niệm mức thấp bởi các khái niệm mức cao hơn hoặc xa hơn.Khái niệm phân cấp trong hình trên có 4 mức, bắt đầu từ mức 0, 1, 2, 3 Theoquy ước, các cấp trong một hệ thống khái niệm được đánh số từ trên xuốngdưới, bắt đầu từ mức 0 ở nút gốc (mức trừu tượng chung nhất) Ở đây, cấp 1bao gồm computer, software, printer và computer accessor; cấp 2 bao gồmhome computer, laptop computer, education software, financial managementsoftware, ; và cấp 3 bao gồm IBM home computer, , Microsoft educationalsoftware, … Cấp độ 3 là cấp độ trừu tượng nhất của hệ thống này Khái niệmphân cấp có thể được xác định bởi người dùng quen thuộc với các dữ liệu,hoặc có thể tồn tại ngầm trong các dữ liệu

Các mục trong bảng trên đang ở mức thấp nhất của hệ thống phân cấp.Đây là điều khó khăn để tìm kiếm mặt hàng được mua nhiều nhất Ví dụ, nếu

“IBM home computer " hoặc “Sony b/w printer" xảy ra ở một phần rất nhỏcủa các giao dịch, sau đó nó có thể tìm được các kết hợp mạnh đến các mục

đó Rất ít người có thể mua hàng như nhau, làm cho nó không có tập mục{ IBM home computer, Sony b/w printer} thõa mãn độ hỗ trợ tối thiểu Dễdàng tìm thấy các luật kết hợp mạnh giữa “IBM home computer " và “ b/wprinter” hơn là giữa “IBM home computer " và “Sony b/w printer" Tương tựnhư vậy, nhiều người có thể mua “computer” và “printer” với nhau, hơn làmua “IBM home computer " và “Sony b/w printer" với nhau Nói cách khác,

Trang 25

các tập mục phổ biến chẳng hạn như {IBM home computer, b/w printer} và{computer, printer} có nhiều khả năng có độ hỗ trợ tối thiểu hơn tập mục phổbiến có chứa dữ liệu chỉ mức độ nguyên thủy, như {IBM home computer,Sony b/w printer} Từ đây có thể dễ dàng tìm thấy các kết hợp giữa các mụctại nhiều mức khái niệm với nhau.

Các luật được tạo ra từ khai phá luật kết hợp với khái niệm phân cấpđược gọi là luật kết hợp đa mức

2.3.2 Phương pháp để khai phá luật kết hợp đa cấp.

“Làm thế nào để khai thác luật kết hợp đa mức hiệu quả trên khái niệmphân cấp?”

Chúng ta hãy xem xét một số phương pháp tiếp cận dựa trên độ hỗ trợ

-độ tin cậy Đi từ mức khái niệm 1 xuống các mức thấp hơn, lần lượt xác địnhcác tập mục phổ biến ở mỗi mức, cho đến khi không tìm thấy tập mục phổbiến Một khi tất cả các tập mục phổ biến ở mức 1 được tìm thấy, thì các tậpmục phổ biến ở mức 2 được tìm thấy, và cứ như vậy Đối với mỗi cấp, thuậttoán bất kỳ để phát hiện các tập mục phổ biến có thể được sử dụng, chẳng hạnnhư Apriori hay chính biến thể của nó Một số biến thể của phương pháp nàyđược mô tả dưới đây, và được minh họa trong hình sau, với hình chữ nhật chothấy một mục hoặc tập mục đã được kiểm tra, và hình chữ nhật với biên dàycho thấy việc kiểm tra mục hoặc tập mục là phổ biến

1 Sử dụng độ hỗ trợ tối thiểu đồng nhất cho tất cả các cấp: cùng độ hỗ

trợ tối thiểu được sử dụng khi khai thác ở mỗi cấp trừu tượng Ví dụ, tronghình bên dưới, độ hỗ trợ tối thiểu là 5% Cả "computer” và “laptop computer”được tìm thấy thường xuyên, trong khi “home computer” thì không

Khi thống nhất độ hỗ trợ tối thiểu, các thủ tục tìm kiếm là đơn giản.Phương pháp này cũng đơn giản khi mà người dùng được yêu cầu xác địnhchỉ với một độ hỗ trợ tối thiểu Một kỹ thuật tối ưu hóa có thể được thông quabằng cách tìm kiếm tránh kiểm tra các tập mục phổ biến có chứa bất kỳ mụcnào mà cha của nó không có độ hỗ trợ tối thiểu

Tiêu đề	Khai Phá Luật Kết Hợp Với Cơ Sở Dữ Liệu Lớn
Tác giả	Trần Như Đăng, Tuyên Lê Bá Minh Phong, Nguyễn Thị Thanh Tâm, Nguyễn Thị Thành, Nguyễn Vũ Cát Tường, Trần Thị Mỹ Ngân
Người hướng dẫn	TS. Hoàng Thị Lan Giao
Trường học	Đại học Huế
Chuyên ngành	Khai phá dữ liệu
Thể loại	Tiểu luận
Năm xuất bản	2011
Thành phố	Huế

Định dạng
Số trang	51
Dung lượng	1,39 MB