Một số vấn đề về khai phá dữ liệu

Dựa trên mộl số báo cáo khoa học trong một số hội nghị quốc tể và một số bài báo dược công bố trẽn các tạp chí chuyên ngành hoặc phổ biến {rèn Internet, íuận ván này sẽ trình bày một số

Trang 2

Lời in ở d ầ u 3

C h ư ơ n g 1: T ổ n g q u a n về cơ s ở d ữ liệu và k h a i p h á d ữ liệ u 6

/ / T ổ chức và khai thác cơ sở d ữ liệu truyền ỉhống 6

1.2 Bước phát triển m ới của việc tổ chức và khai thác các CSDL 7

1.3 Q uá trình p h á t hiện tri thức 11

1.3.1 Pháỉ hiện tri thức 1 1 1.3.2 Các giai đoạn của quá trình phát hiện tri thức 12

1.4 Khai phá d ữ l i ệ u 14

1.4.1 K iến trúc của hệ thống khai phá dữ l i ệ u 15

1.4.2 Quá trình khai phá dữ iiệu 16

1.4.3 Nhiệm vụ chính của khai phá dữ l i ệ u í 7 1.4.4 Các thành phẩn của giải thuật khai phá dữ l i ệ u 19

1.4.5 M ội số phương pháp khai thác dữ liệu phổ b i ế n 20

1.4.6 Lựa chọn phương p h á p 24

1.4.7 Có phải tất cả cấc mẫu lìm được đều đáng quan t â m ? 25

C h ư ơ n g 2: K h a i p h á l u ậ t k ết hợ p I r o n g cơ sở t i a iiộu l ớ n 27

2,1, ¡Mật kết h ợ p 27

2.1.1 Phân tích sự bán hàng của siêu thị - một ví dụ về dộng cơ thúc dẩy khai phá luật kết h ọ p 27

2.1.2 Các khái niệm cơ s ở 28

2.1.3 M ột s ố lính chất của tập m ục phổ biến và luật kếl h ợ p 32

2.2 Khai p h á luật kết hợp boolean dơn chiều ỉừ C S D L tác vụ 35

2.2.1 Thuật toán Apriori: tìm tập mục phổ biến sử dụng sinh các ứng cừ 35

2.2.2 Nồng cao hiệu quả của Thuật toán Apriori 42

2.2.3 Sinh các luật kồì hợp từ ỉập mục phổ biên 46

2 3 :K h ư i phá lập m ục p h ổ biến không sinh các ứng cử 49

2.4 C ơ sở iỷ ỉhuyâì của luật kết hợp 59

MỤC LỤC

Trang 3

2.6 Khai phá ỉnậi kết hợp da mức 66

2.6.1: Luật kết hợp đa mức 66

2.6.2: Các cách tiếp cận khai phá luật kết hợp đa mức 68

Chưong 3: Khai phá luật kết hợp đ ó n g 73

3.1: Tập mục phổ biến dóng 73

3.2: Sình lu ậ t 79

3.3: Thuật toán CHARM 80

Chương 4ĩ Thử nghiệm khai phấ luật kết h ợ p 86

4.1: Mô tảđữỉiệu 86

4,2: Xây dựng chương trình 87

4.3: Kết q u ả th ử ng h iệm 90

Kết kuân của luân v ả o 93 > > Tài iiệu tham k h ả o 94

2.5 Khai p há luật kết hợp ảịnh lượng 63

Trang 4

LỜ I M Ở Đ Ẩ U

Sự phát triển mạnh mẽ của công nghệ phần cứng đã tạo nên các máy tính có

bộ xử lý tốc độ cao, bộ nhớ dung ỉưọmg lớ» và cùng với điều đó là sự phát triển không ngừng của các hệ thống viễn thông Các hệ thống Ihông tin phục vụ việc ụr (lộng hoá trong các lĩnh vực kinh doanh cũng như quản !ỷ đã được triển khai với lốc

độ íãng trưởng virợi bậc Diều dó dã tạo ra những dòng dữ liệu khổng lồ, trớ Iliành hiện tượng “bùng lỉố thông tin” Nhiều hệ quàn trị cơ sở dữ iiệu mạnh với các cõng

cụ phong phú và thuận úện đã giúp con người khai thác có hiệu quả nguồn lài nguyên <Jữ liệu nói irên.

Cùng với chức năng khai thác có tính chất tác nghiệp, việc khai ihác các cơ

sớ ciữ liệu (CSDL) phục vụ các yêu cầu trợ giúp qưyết định ngày càng có ý nghĩa quan trọng và là nhu cầu lo lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý

Dữ liệu được Ihu thập và lưu trữ ngày càng nhiều nhuìig người ta quyết đình trong quàn ỉý, kinh doanh lại cần những thông tin bố ích, những "tri thức'' rút ra từ những nguổn cỉù' liệu dó hơn là chính những dữ liệu dó cho việc ra quyẽì định của mình Các nhu cầu đó đã được biết tiến tờ lâu nhưng mới thực sự bùng nổ lìr thập

»íèu 90 của ihế kì 20, Do đó, những nám gổn dây đã phát triếci mạnh mẽ một loại

các lình vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin (data warechouse, information wareliouse), các hệ trợ giúp quyết định, các phương pháp phát hiện tri thức và khai phá dữ lìồu (data mining) Trong đó, khai phá dữ liệu và phát hiện tri Ihức đã trở Ihành một lĩnh vực nghiên cứu sôi đông, thu hút sự quan tàm cúa rất nhiều người Ixên khấp các lĩnh vực khác nhau như các hệ cơ sở dữ liệu, thống kê, chiếi xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo v.v

Các kho dữ liệu có Ihc giúp khai thác thông tin bằng các công cụ truy vấn và báo cáo cũng như được sử dụng để hỗ trợ việc phân tích trực tuyến, kiểm dịnli các giả thuyết Tuy nhiên, chỉ có kho dữ liệu thì chưa (hể có được tri thức, nếu dữ liệu dược phân tích một cách thông minh thì chúng sẽ là nguồn tài nguyên vỏ cùng quí giá Từ những khối lượng khổng ỉổ dữ liệu có sẵn, tìm ra những Ihông tin tiềm ẩn có giá trị, chưa đưọc phót hiện, những xu hướng phát trịểu và »hững yểu lố íác dộng tôn

Trang 5

Quá trình phát hiện iri ihức gdm nhiều giai đoạn, trong đó giai (Jüan khai pliầ

dử liệu ( data mining hay viết tắỉ là DM) là giai doạn chủ yếu nhất cùa nó.

Giai đoạn khai phá dữ liệu được thực hiện sau các khâu tình lọc và tiền xử lý

dữ liệu, nhằm tìm ra các mẫu, các xu hướng có ý nghĩa (ừ các tập dữ liệu Chỉ có các mầu, các xu hướng được xem là đáng quan tâm (xét theo một phương diện nào dó) mới được coi là tri thức, và tri thức là có ích khí nó có thể gìiip đạt được mục đích của hệ thống hoặc người dùng Các kỹ thuật khai phá dữ liệu được chia thành ba mảng cơ bân: phan lóp/phân cụm dữ liệu, các luật kết hợp và khai phá chuỗi.

Khai phá luật kết hợp từ những CSDL lớn lần đầu xuất hiện vào năm 1993 và hiện tại đã và đang được nghiên cứu, phát triển rất mạnh, trở rhành một khuynh hưởng quan trọng của khai phá dữ liệu Khai phá luật kết hợp được nghiên cứu và phát triển mạnh vì các iuật tìm được bộc lộ nhiổu mẫu có ích

Dựa trên mộl số báo cáo khoa học trong một số hội nghị quốc tể và một số bài báo dược công bố trẽn các tạp chí chuyên ngành hoặc phổ biến {rèn Internet, íuận ván này sẽ trình bày một số vấn đề về phái hiện tri thức, khai phá dữ liệu và trình bày rô vấn để khai phá luật kết h ợ p

Nội dung của luân văn gồm có bốn chương và phần phụ lục.

Chương 1: Tổng quan về cơ sở dữ liệu và khai phá dữ liệu: nhằm tổng quan lioá về các giai đoạn của quá trình phát hiện tri thức, các vấn đề chúlil của íỊUá trình khai phá dữ liệu, các phương pháp , các kỹ thuật khai phá dữ liệu.

Chương 2: Khai phá luật kết hợp trong CSDL lớn Chương này trình bày chi liếi các vâ'n đề chính yếu của khai phá ỉuật kếi họp: bài toán xuất phát, mô hình lùnii

Trang 6

thức, một số thuật loárt điển hình giải quyết vấn dề, phân lích độ phức tạp cùa bài toán, nêu một số cách ùếp cận trong khai phá luật kết hợp định lượng, luật kết hợp phân cấp.

Chương 3: Trình bày C0 sở Ịý ihuyết về tâp d ó n g và khai phá luật kết hợp

dóng

Chương 4: Thử nghiệm khai phá luậi kết hợp: trình bày kết quả xây dựng chương trình và kết quả thừ nghiệm khai phá luật kết hợp trê» một số CSDL.

Trang 7

T Ồ N G Q U A N VỂ c o s ở D ữ L IỆ U V À K H A I PH Á D Ử LIỆU

1.1 TỔ CHỨC VÀ KHAI THÁC c ơ s ở DỮ LIỆU TRUYỂN t h ố n g :

Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liêu (CSDL) đã đưực phác triển từ những năm 60 Từ đó cho đến nay, rất nhiều CSDL đã được \ổ chức, phát triển và khai thác ở mọi quy mô và ờ khấp các lĩnh vực hoạt động của con người vằ xã hội Theo như đánh giá cho thấy, ỉưựng thông tin (rên thế giới

cứ sau 20 tháng lại tăng gấp đôi Kích íhước và số lượng cơ sở đữ liệu thậm chí còn lăng nhanh hơn Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 triệu, hầu hết đều )à các cơ sở dữ liêu cỡ nhỏ phát triển trén DBase III Với sư phát Iricn mạnh mẽ của công nghệ điện lử tạo ra các bộ nhớ có dung lượng lớn, bộ xử Ịý tốc (ìộ cao cùng với các hệ thống mạng viễn thông người ỉa đã xôy dựng các hệ ỉhống thông tin nhằm tự động hoá mọi hoạt động kinh doanh của mình Điều này đã tạo ra một dòng dữ liệu lãng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khoẻ, sử dụng thẻ tín dụng v.v đều được ghi vào trong máy tính Cho đến nay, con số này đã trở nên khổng lồ bao gồm các cơ sở

dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes ỉưu trữ cốc dữ iiệu kinh doanh, ví

dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao địch, dữ liệu bán hàng, (lữ liệu các lài khoản, các khoẳn vay, sử dụng vốn v.v Nhiều hệ quản Irị CSDL mạnh với các công cụ phong phú và thuận tiện đã giúp cho con người khai thác có hiệu quả các nguồn tàì nguyên dữ liệu Mô hình CSDL quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc lổ chức và khai ỉiiáe các

CSDL đó Cho đến nay, không một tổ chức kinh tế nào là không sủ dụng các hệ quản trị CSDL và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các CSDL phục vụ cho hoạt dộng tác nghiệp của mình.

CHƯƠNG 1

1.2 BƯỚC PHÁT THIỂN M ỏ i CỦA VIỆC rổ CHỨC VẢ KHAI THÁC í Ác CSDL

Trang 8

Sự phá! triển kinh ngạc của công nghệ phần cứng máy tính trong 3 thập kỉ qua tạo cho máy tính có sức mạnh ỉớn Điều đó cho phép cạo ra sô' lượng khổng lổ các CSDL và thông tin được cất giữ để quản ỉý kinh doanh, tìm thông tin, phân tích

dữ liêu.

Ngày nay, dữ liệu có thể được lưu giữ trong nhiều kiểu khác nhau Một kiến trúc CSDL gần đây đã nổi bật ỉên là kho dữ liệu (data warehouse), nó lưu giữ nhiều (iữ liệu từ nhiều nguồn khác nhau, tổ chức thống nhất để có thể tạo ra quyết định Công nghệ kho đữ Hệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, phần tích trực (uyên (O L A P ), đó là những kĩ thuật phân tích với chức năng như là tóm t ắ i, hợp nhất, tập hợp để có thể xem xét thông tin từ các góc độ khác nhau Các công cụ OLAP hỗ trợ phân tích đa chiều và cạo ra quyết định, thêm vào đó các công cụ phân rích dữ liệu đã đòi hòi phân tích sâu như phân ỉớp dữ iiộu, phân nhóm, tìm các đặc tính của dữ liệu,

Cùng với việc tăng klìòng ngừng khối lượng dữ liệu, các hệ thống thồng tin cũng (tược chuyên môn hoá, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài chính, buôn bán thị trường v.v Như vậy, bên cạnh chức năng khai thác dữ liệu có lính chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các

hộ íhông tin nữa mà ià tính linh hoại và sẵn sàng đáp lại những yêu cầu trong thực

tế, CSDL cần đem lại những "tri thức" hơn !à chính những dữ liệu đó Các quyết dịnh cần phài có càng nhanh càng tốt và phải chính xác dựa trên những đữ liệu sán

có trong khỉ khối lượng đữ liệu cứ sau 20 tháng lại tãng gấp đôi làm ảnh hường đến thời gian ra quyết định cũng nhưklìả năng hiểu biết được nội dung dữ liệu Lúc này, các mô hình CSDL truyền thống và ngỏn ngữ SQL đã cho thấy không có khả nàng thực hiện được công việc này Để lấy được những ihông tin có tính ”ỉri thức" írong khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuậl có khả năng hợp nhái các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi Ihành một tập hợp các

cơ sở dữ liệu ổn định, có chất lượng được sử dụng chỉ riêng cho một vài mục đích nào đó, Các kỹ thuật dó ctirơc gọi chung là kỷ thuệt tạo kho dữ liệu (data

w arehousing) và môi trường các dữ liệu có đuợc gọi là các kho dữ liệu (data warehouse).

Trang 9

Kho dữ liệu [ i ,3] là một môi trường có cấu trúc các hệ ihống ihông tin, cung cấp clio người dùng các Ihôag Ún khó có thể truy nhập hoặc biểu dien trong cúc CSDL tác nghiệp truyền thống, nhằm ¡nục đích hỗ trợ việc ra quyết định mang ỉính lịch sử hoặc hiện đại Theo W.H Inmon, có thể định nghĩa kho dữ liệu như sau :

’'Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ để có lính ổ» định, Ihay dổi iheo thời gian nhằm hỗ trợ clio việc ra quyết định, Nói cách khác, mội kho <iũ' liộu bao gồm;

- Một hoặc nhiều công cụ (íể chiêì xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu

- Nội đung của nó được cập nhật thường xuyên theo cách chêm thòng tin

- Chứa các dût liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin.

- Chứa các bảng dữ liệu có kích thưóc lớn.

- Một CÂU hòi thường trồ vẻ một lập kết quả liôn quan đến toàn bô bảng và các tiên kếi nhiều bảng.

Cấu trúc kho dữ liệu dược xày dựng dựa trên hệ quản trị CSDL qua» hệ, có chức năng giống như một kho lưu trữ thông ùn trung tâm Trong đó» (ỉữ liệu lác nghiệp và phần xử lý được tách tiêng khỏi quá ìrình xử lý kho dữ liệu Kho lưu trữ trung tăm đuợc bao quanh bởi các thành phổn được thiết kế để làm cho kho dữ liệu

CÓ ílìổ hoạt động, quản ỉý và truy nhập được từ người dùỉig đẩu cuối cũng nhu tù các nguổn dữ liệu.

Trang 10

( 'ác dừ liệu iiịỊUồn

I lìn h 1 1 : Cấu ÍVÚC điển hỉnh cãa kho dữ liệu

Như trên hình l i cho thấy, kho dữ liệu bao gồm 7 thành phần :

- Dữ liệu nguồn (là cúc ứng (lung lác nghiệp hoặc các kho dữ liệu tác liglỉìệp

và các công cụ chiết xuất, tàm sạch và chuydn đổi dữ liệu),

- Kho dữ liệu vể dữ liệu (Metadata)

- Các kỹ thuật xốy kho

- Kho dữ iiệu thồng minh hay dữ liệu theo chỏ đề (Data marts) là nơi các dữ liệu đưựe khoanh vùng theo chủ đề tới một gíổi hạn nào đố và có thể được (hay đổi cho phù hợp với nhu cầu của từng bộ phận người đùng Vứi các kho dữ ỉiệu này, cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp nghĩa là với một tạp hợp các kho dữ liệu Ihông minh, ta tạo ra một kho dữ ỉiệu, lìgược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông minh,

- Các cóng cụ vẩn đáp (query), báo cáo (reporting), phãti tích trực tiếp (OLAP) và khai phá dữ liệu (data mining) Đây chính là các cách khai thác kho dữ liệu để đem lại những "tri thức" hơ» là đem lại chính những dữ liệu thô.

- Quản trị kho dữ liệu

- Hệ thống phân phối thông tin

Nhưng chỉ có kho dữ liệu thòi chưa đỏ để có các trì thức Như đã để cập ở trên, các kho dữ liệu được sử đụng theo ba cách chính:

Trang 11

- '['heo cách khai thác truyền thống, kho dữ liệu dược sử dụng dể khai thác các thông tin bằng các công cụ vấn đáp và băo cáo Tuy nhiên, nhờ có việc chic! xuất, lổng hợp và chuyến dổi lừ các dữ liệu thô sang dạng dữ íiệu chấl iượng cao và

có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biếu diễn llỉông tin ỉruyền thống (hỏi đáp và báo cáo) Bằng cách tạo ra một tầng ẩn giữa người dùng

và CSDL, các dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liộu khác nhau, tránh cho người đùng khỏi những câu lệnh SQL phức tạp Tuy nhiên, đây mới chỉ là các khai thác với kỹ thuật cao để đưa ra cấc dữ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu "íri thức”.

- Thứ hai là các kho dữ liệu được sử dụng để hỗ trọ cho phan tích trực tuyến (OLAP) Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công eụ iằm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực luyến có khả nìing phân tích dữ liệu, xác định xem giả thuyết đứng hay sai Tuy nhiên, phân tích írựe tuyến ầại klìông có khả năng dưa ta được các giả thuyết.

Hơn nữa, kích thước quá iớn và tính chất phức tạp của kho tlữ liệu iàm cho nó rốt khó có thể được sử dụng cho những mục đích như đua ra các giả thuyết từ các tlìông tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giá thuyết giải thích được hành vi của một nhóm khách hàng).

Trước đây, kỹ thuật học máy thường được sử đụng để tìm ra những giả thuyết

từ các ihông tin dữ liệu thu íhập được Tuy nhiên, thực nghiêin cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập đữ liệu lớn trong kho dữ liệu này Phựơng pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với

sự phát triển của đữ liệu Đây chính là lý do tại sao một khối lượng lớn dữ ỉiệu vẫn chua được khai thác và thậm chí được ỉuu chủ yếu trong các kho đữ liệu không trực tuyến (off line) Điều này đã tạo nên một iỗ hổng lớn trong việc hò !rợ phân lích và tìm hiểu dữ liệu tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai íhác các dữ liệu dó Trong khi đố, càng ngày người ta càng nhân thấy rằng nếu được phân tích

Trang 12

ihồng minh thì dữ liệu sẽ là mội nguồn tàí nguyên quý giá ưong cạnh tranh tiên thương trường.

Một phương pháp mới đáp ứng cả nhu cầu trong khoa hạc cũng như trong hoạt dộng thực ũễn, đó chính là CÔHỊỈ nghệ khai phá dữ liệu (data mining). Đây chính là ứng dụng chinh tiìứba cửa kho dữ liệu.

Như John Naísbeiỉ đã nói ’'Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri ihức" Dữ liệu Ihường được cho bởi cổc giá {rị mô tá các sự kiện, hiện lưỢrtg

cụ Ihế Còn tri thức (knowledge) là gì? Có thể có nhũng dịnh nghĩa rỗ ràng đế phân biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà (lịnh nglũa chính xác nhưng phân hiệt chúng trong những ngữ cảnh nhất định là rất cần thiết và

có thể ịàm dược Thống tin là một khái niệm rất rộng, khó có thể dưa ra một định nghĩa chính xác cho khái niệm này Cũng không thể định nghĩa cho khái niệm iri thức cho dù chì hạn chế trong phạm vi những trị Ihức đưọc chiết suâì từ các CSDL Tuy nhiên, ta cố Ihể hiểu tri thức là một biển thức trong một ngôn ngữ nào dó ciìưn

ngữ thường được đùng để biểu diễn tri thức (trong việc pháĩ hiện tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các ỉtiật (rules), các công ĩ h ứ c trong ngôn ngữ logic mệnh đề hoặc tàn từ cấp một, các hệ thống phương trình v.v ví dụ như ta có các luật miôu tả các thuộc lính của dữ liệu, các mẫu rhường xuyên xảy ra, các nhóm đối luợng trong cơ sở dữ liệu v.v

Trang 13

Trì thức nói ờ đây là tri thức được rút ra từ CSDL (hường đổ giải quyết một loại các nhiệm vụ nhất định trong 1T1ỘI Lĩnh vực nhất định Do vậy, quá trình phát hiện ỉri Ihức cũng mang linh hướng nhiệm vụ, không phải là phát hiện mọi trí thức bái kỳ mà phát hiện U'i thức nhằm giải quyết lốt một nhiệm vụ íiào đó Vì vậy, quá irình phát hiện tri thức là quá trình hoạt động tương tác giữa người sử dụng hoặc chuyên gia phân tích với các công cụ lin học [3J.

1,3.2 Cốc giai đoạn của quá trình phát hiện tri thức:

Mục đích của quá trình phát hiện tri íhức là rút ra tri thức từ dữ liệu trong CSDL lớn Quá trình KDD là quá trình gồm nhiỂu giai đoạt» và lặp l ạ i , mà trong dó

sự lặp lại có thể xuất hiện ở bất cứ bước nào Quá trinh đó có thể mô lả theo mô hình sau: [3] ( hình 1.2)

Giai đoạn Ấ: Xác định và dịnh nghĩa vấn đề: Tìm hiểu lĩnh vực ứng dụng và nhiệm vụ đặt ra, xác định các tri tlìức đã có và mục tiêu của người dùng Tạo và lựa chọn CSDL.

Giai đoạn 2: Thu thập và tiền xử lý dữ liệu, bao gồm: làm sạch dữ liệu, rúi gọn kích ihướe và số chiều,

Giai đoạn 3: Khai phá dữ liệu, bao gồm: chọn nhiệm vụ khai phá, chọn các phương pháp khai phá và thực hiện khai phá để rút ra các mẫu, các mồ hình có ý nghĩa dưới (lạng biểu diễn tương ứng (luật xếp loại, cây quyết định, luật sàn xuấl, biểu thức hồi quy )

Giai đoạn 4: Giải ihích kết quả và đánh giá các mâu, các mô hình tìm thấy ở

giai đoạn 3.

G iai (ỉoạn 5: Sử iltm g các íri thức d ã được p h á t hiện.

Cùng cố tinh chế các tri thức đã được phát hiện Kết hợp các tri liiức (hành lìộ iliống Giải quyết các xung đột tiềm tàng trong tri thức khai Ihác được Sau đó, tri thức dược chuẩn bị sẩn cho ứng đụng.

Như vậy, KDD ià một quả trình rứt ra tri thức từ dữ Uệu mả ¡rong đó khai phá dữ liệu là giai đoạn chã yếu.

Trang 14

Hình 1.2 Q iiâ trình phá! hiện tri thức

Lý luận và thực tiễn thực hiện các quá trình phát hiện tri thức mà la xốt ở dây

íà sự tiếp thu, sử dụng và phát triển nhiều thành tựu và cỗng cụ cùa các lĩnh vực đã phát triển trước đổ như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v Nil ưng ctặc điểm cơ bản của lý luận về phát hiện tri íhức ở tlây là p h á t hiện iri thức trực tiếp lừ dữ liệu, do đậc điểm đổ mà nó có những điểm mới phán biệt với các ngành đã có lừ trước Thí dụ như với các hệ chuyên gia thì cư sở tri Ihức dược hình thành lừ kinh nghiệm và kiến thức của các chuyên gia là chú yếu, vói nhiổu bài »oán

nhận citing thì ihường lập các dạng mẫu là cho trước v.v còn dối với lỷ thuyết phái

hiện (ri ìhức thì các u i thức, các dựng m ẫu, cức giả thuyết détt dược p h ả i hiệti lữ việc kh a i thác các kh o d ữ liệu

Néu phát hiện tri thức là toàn bộ quá trình trừu xuất tri thức từ các CSDL llìí

quá tành phát hiện tri thức, khâu khai phá dữ liệu được thực liiện sau các khâu linh

lọc và tiền xử lý dữ liệu, lức là việc khai phá để lìm ra các mẫu hình có ý nghĩa ctuợc tiến hành trên tập dữ tiêu có hy vọng là sẽ thích hợp với nhiệm vụ khai phá đó chứ

Trang 15

không phải ià khai phá hếl dữ liệu với một thời gian đủ dài đổ lấy được một mẫu không thực sự có ích như khái niệm trong thống kê trước đây Vì vậy, khai phá dữ liệu thuồng bao gồm việc thử tìm mô hình phù hợp vái tập dữ liệu và tìm kiếm các mẫu từ tập dữ liệu theo mô hình dó Thí dụ ìa có mổ hình là một luật kết họp ỉhl mẫu là các yếu tố tham gia cùng với các độ hỗ uợ (support) và độ tin cậy (confidence) trong các luật tương ứng.

Nếu xét về mật ý íưởng và mục đích ứng đụng, khai phá dữ liệu là một nhu cầu tấi yếu, mội sự nhạy cảni đáp lại sự mong mỏi của giới kỉnh đoanh thì về mặì kỹ ỉhuât, đó thực sự là một khó khăn và là cả sự thách thức đối với những nhà khoa học Khai phá dữ liệu được xây dựng dựa trên việc sử dụng các giải thuật mới, được (lịnh hướng theo nhu cầu kinh doanh để có thể giải quyếl tự động các bài toán kinh doanh bảng các kỹ thuật dễ dùng và có thể hiểu được.

Khai phá dữ liệu không thuộc một ngành công nghiệp nào Nó sử dụng các

kỹ thuật thông minh để khai phá các tri thức tiềm ẩn trong dữ liệu Có thể coi khai phá dừ liệu ngày nay đang ở trạng thái giống như việc quàn trị dữ liệu vào niũrng [lãm 60, khi mà cấc ứng dụng quản íậ dữ liệu đều không tuân theo một nguyên lác chung nào cho đến khi mô hình dữ liệu quan hệ ra đờỉ cùng với sức mạnh cùa ngôn ngũ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị dữ liệu lên nhanh chổng, Tuy vậy, hiện nay trên thế giới đã có rất nhiều ngành công nghiệp sử dụng

kỹ ihuẠt khai phá dữ liêu đổ phục vụ cho hoại động kinh doanh của mình và đã hước đáu thành công như ngành tỉli chính, y học, hoá học, bào hiểm, sản xuất, giao thòng, hàng không v.v Các kết quả đạl được cho thấy mặc dù kỹ thuật khai plìá dữ liệu hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng vối những tri ihức mà chuyôrv gịa con người cũng chưa cung cấp được thì khai phá dữ iiệu cổ một tiềm năng to lớn trong việc lạo ra những lợi nhuận đáng kể trong nền kinh tế.

Trang 16

phá dữ liệu liên quan đến việc phân tích các d ữ liệu và sử dụng các kỹ thuật để tìm

ra các m ầ u hình có tính chinh quy ịregularities) trong tập d ữ liệu. [3]

1.4.1 Kiến trúc cùa hệ thống khai phá cỉữ liệu :

Khai phá dữ liệu Ut mội bước trong quá trình phát hiện trì thức từ số lưựng lớn clữ liệu đã lưu trữ trong các CSDL, kho dữ liệu hoặc các nơi lưu giữ khác, Bước này có thể tương tác lẫn nhau giữa người sử đụng hoặc cơ sở tri thức, những mẫu đáng quan tâm được đưa đến cho người đùng hoậc ĩưu giữ như là tri thức mới ĩrong

+ Cư sở tri thức: đó là lĩnh vực tri thức được dùng để hướng dẫn việc rim hoặc đánh giá các mẫu kết quả tìm dược,

+ Data mining engine: bao gồm tập các modul chức năng dể Ihực hiện các nhiệm vụ như là rnô tả đặcdiểm, kết hợp, phan lớp, phân nhóm dữ liệu,

+ Module đánh giá mẫu: TliùnU phẩn này sử dụng các độ đo và tương lác với các modul khai phá DL đổ tạp trung vào tìm các mẫu cẩn quan lảm.

+ Biểu diễn dạng dồ hoạ : mociul này giao tiếp giữa người dùng và hệ thống khai phá dữ liệu.

Trang 17

Hình 1 3: Kiến trúc hệ thống khai phú dừ liệu.

1-4.2 Quá trình khai phá dữ iỉệu

Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp dữ liệu Với các phương pháp học máy và thông kè trước đây, thường till bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ nhớ Khi chuyển sang các ứng đụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được Khồng chỉ bởi vì nó khống thổ nạp hết dữ ìiệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các tệp dơn gián để phân tích được,

Quá trình khai phá dữ liệu dược thể hiện bồi mô hình sau [3Ị:

Trang 18

+ Xác định nhiệm vụ: Xãc định chính xác vấn đề cần giải quyết.

+ Xác định các đữ liệu liên quan dùng để xây đựng giải pháp.

+ Thu thập các dữ liệu có liên quan và xừ lý chứng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được, ò đây có thể gặp một sô' vấn đề: dữ liệu phải được sao ra nhiều bản (nếu được chiết suất vào các tệp), quản lý tập các tệp dữ

iiệu, phải lặp đi lặp lại nhiều lẩn toàn bộ quá trình (nếu mô hình đ ữ ỉiệu ihay đổi v.v )

4- Chọn thuật toán khai phá dữ ĩiệu thích bợp và thực hiện việc khai phá dữ liệu: nhằm tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa dó.

1.4.3 Nhiệm vụ chính của khai phá dữ tiêu :

Mục đích của khai phá dữ liệu ià các chiết xuất tri thức từ dữ liệu Do đó, ta

có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả (description) vò dự đoán (prediction). Các mẫu mà khai phá dữ liệu phát hiện được nhằm vào các mục đích này.

Dự đoán liên quan đến việc sử đụng các biến hoặc các trường trong cơ sờ dữ ỉiệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến đáng quan tâm Mô tả tập trung vào việc tìm kiếm các mẫu m ô lả dữ liệu mà con người có thể hiểu được.

Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ iiệu bao gổm như sau :

Trang 19

4 Phản lớp (Chmificcution) : Phãn lớp ià việc học một hàm ánh xạ {hay phân loại) mội mẫu dữ liệu vào mộl trong số các lớp đã xác dinh (Hand 1981; Weiss

Si Kulikowski 1991; MeLaehla» 1992).

liệu thành mội biến dự đoán có giá trị thực.

Ạ Phân nhóm (Clustering) : Là việc mô tả chung để lìm ra các tập xác định các nhóm hay các ioại dể mô tẳ dữ liệu (Tìuerington, Smith & Makov 1985, Jain & Dubes 1988) Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lèn nhau Có nghĩa ỉà một dỉr liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia Các ứiig dụng khai phá dữ liệu có nhiệm vụ phàn nhổm như phát hiện tập các khách hàng có phản ứng giống nhau trong cơ sớ dữ liệu tiếp thị

H ìn hl 5 m iêu tả các m ẫu của quá trình khai phá dữ liệu với nhiệm vụ phân nhổm Ở đây các m ẫu là các nhóm k hách hàng được xếp thành ba nhóm gối lên nhau Các điếm nằm trong cả hai nhóm chứng tỏ khách hàng có thể thuộc cả hai loại trạng

thái.

# Tóm tắt (summarization) : Liên quan đến các phương pháp tìm kiếm một

mô tả tóm tắt' cho một tập con dữ liệu Các kỹ thuật tóm tắt thường được áp dụng

cho các phân tích dữ ìiệu tương tác có tính thăm dò và tạo báo cáo tự động.

* Mô hình hoá phụ thuộc (Dependency Modeling) : Bao gồm việc tì nì kiếm ruột mô hình mô tả sự phụ thuộc đáng kể giữa các biến Các mô hình phụ thuộc tồn tại dưới hai mức:

Trang 20

- Mức cấu true của mò hình xác dinh (thường ơ dạng đồ hoạ) các biến nào là phụ thuộc cục bộ với nhau,

- Mức định ỉượag của một mô hhìh xác định độ mạnh của sự phụ thuộc Iheu một thước đo nào đó.

ệ P hái hiện s ự ihuy đổi và lạc hướng (C hange a n d D eviation D etection):

Tập trung vào khai íhác những thay đổi đáng kể nhất trong dữ liệu từ các giá trị

chuẩn hoặc được đo trưóc đó (Berndt & Cliffort; Guyon et al Kloesgen; Matheus et

al., Basseville & Nikiforov 1993).

Rõ ràng là ta thấy những nhiệm vụ khác nhau này yêu cầu sô' lượng và các

dạng thông tin rất khác nhau ndn chúng thường ảnh hưởng đến việc thiết kế và chọn

giải thuật khai phá dữ liệu khác nhau.

1.4.4 Các thành phần của giải thuật khai phá d ô liệu

Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn

mô hình, đánh giá mô hình, tìm kiếm mò hình [3]

tả các mẫu có thể khai thác dược, Nếu sự mô tả quá bị hạn chế thì sẽ khổng ihể học

dưực hoặc sẽ không thể có các mẫu tạo ra được một mô hình chính xác cho đĩr liệu

Khả nãng miêu tả mô hình càng lớn thì càng làm tăng ư»ức độ nguy hiểm do bị học

quá và làm giảm di khả năng dự đoán các dữ liệu chưa biết Hơn tiữa, việc lìm kiếm

sẽ càng trở nên phức tạp hơn VỈI vịệc giải thích mô hình cũng khó khãn hơn.

của quá trình phát hiện tri thức hay không Việc đánh giá độ chính xác dự đoán dự»

(IV¡1 đánh giá chéo (cross validation)- Đátth giá chất lượng liên quan đến độ chính

xác dự đoáiỉ, độ mới, khả nâng sử dụng, khả năng hiểu được của mô hình Câ hai

chuẩn tliông kè và chuẩn logic đều có thể dược sừ dụng đổ đánh giá mõ hình.

Iham số và úm kiếm mô hình.

- Trong tìm kiếm tham số; giải thuật cẩn lìm kiêm các tham số để tối ưu hóa các liôti chuẩn đánh giá mô hình với các dữ liệu quan sál được và với một miêu ui

mô hình dã định.

Trang 21

2 0

- Tìm kiếm mô hình; Tìm kiếm mõ hình xây ra giống như một vòng lặp qua phương pháp lìm kiấn tham số: miêu tả mô hình bị thay đổi tạo nên một họ các mó

hình Với mỗi một miêu tả mố hình, phương pháp tìm kiếm tham số dược áp dụng

để đánh giá chất lượng mô hình, Các phương pháp tìm kiếm mô hình thường sử

dạng các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có

thể thường ngăn càn các tìm kiếm tổng thể.

1.4.5 Một sô' phương pháp khai thác dữ liệu phổ biến [3, II]

ỉ 4.5.1 Phương phấp quy nạp (induction)

Có hai kỹ thuật chính để thực hiện việc này ià suy diễn và quy nạp.

* Phương pháp suy diễn: Nhằm rúl ra thông tìm là kết quả logic của các thõng

tin trong cơ sở dữ liệu Phương pháp suy diễn dựa trên các sự kiện chính xác để suy

ra các trí thức mới từ các thông lin cũ, Mẫu chiết xuấí được bằng cách sừ đụng

phương pháp này »hường là các luậí suy dìển.

* Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh

ra từ cơ sở dữ liệu Có nghĩa là tìó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không

phải bất đẩu với các tri thức đã biết trước Các thông tin mà phương pháp nìiy dem

lạị íà các ihông tin hay các tri thức cấp cao diễn tà về các đối tượng irong cơ sở dữ

liệu Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL.

Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo

luạt.

Ị 4.5.2 CâỴ quyầĩ định và luật:

* Cây quyết định', cây quyết định là một mô tả tri thức dạng đơn giàn nhằm

phân các đôi tưọng dữ liệu thành mội số lớp nhất định Các nút của cây được gán

nhãn !à tên các thuộc tính, các cạnh được gắn các giá trị có thể của các thuộc tính,

các )á miều tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi

trẽn cây, qua các cạnh tương ứng với giá trị của thuộc tính của đối tượng tới lá.

Trang 22

Vi du: Bang vf du hoc cho ktiai niem ch d tennis (PlayTennte)

Hinh 1.6 mư ta cäy quy£t dinh cho khai ni&m choi tennis (PlayTennis)

ITmh 1.6: Cäy quyei dinh cho khäi niem choi tennis (PlayTennis)

• Tao ladt: Cäc luat dufoc tao ra nhäm suy diln mot so mSu dür lieu co y nghla

vd mat thưng kS Cäc luat cd dang Neu P thi Q; vưi P lä menh d l düng vưi mưt phän

d& liSu Irong CSDL, Q la menh d£ du dộn.

CAy quydt dinh va iuät co iru dilm lä hinh thüt miSu ta ddn gum, mo hinh

.suy di£n khä de hi£u do'i vưi ngudi sir dung Tuy nhien, gioi han ctia no la miCm la

cay vä luat chi co the bi£u diln du'Oc mưt so dang chtfc naug va vi vay gioi ban ca v<j

d(> chinh xäc cüa mo hinh.

Trang 23

2 2

! A.5.ỉ Phát hiện các Idật kết hợp

Phương pháp này nhằm phái hiện ta các luật kết hợp giữa các thành phần dữ liệu trong cơ sớ dữ liệu Mẫu dầu ra của giải thuật khai phá dữ liệu là lập luật kết hợp lìm dược Chẳng hạn: phân tích CSDL bán hàng nhận được thông tin về những kliácli hàng mua máy tính cũng có khuynh hướng ¡nua phần mềm quản lý tài chính trong cùng lần mua được miêu tà trong luật kếl hợp sau:

" M á y tinh = > Phần m ềm quản Ị ý tài chính"

1.4.5,4 Phân nhỏm và phân đoạn (dttsíerrìg and segmentation)

Kỹ thuật phân nhóm và phan đoạn ià những kỹ thuật phân chia dữ liệu sao cho môi phẩn hoặc mỗi nhóm giông nhau theo một tiêu chuẩn nào đó Môl quan hệ ihàiìh vieil của các nhóm có thể đụa trên mức độ giống nhau của các ihành viên và

lừ đó xây dựng nên các luật rằng buộc giữa các thành viên trong nhóm, Một kỹ tliuẠl phần nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các chành phần như là hàm của các tham sổ' của các thành phần Phương pháp này được gọi là phương pháp phan hoạch lối ưu (optimal partitioning).

Mẳu đẩu ra của quá trình khai phá dữ liệu sử dụng kỹ Ihuật này là các lập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu Khi các mẫu dược thiết lập, chúng có thể dược sử dụng để tái tạo các tập dữ liệu ở dạng dễ hiểu hơn, đồng thời còng cung cấp các nhóm dữ liệu cho các hoại động cũng như công viộc phân lích Đối với cơ sở dữ liệu lớn, việc ỉấy ra các nhóm này !à rất quan ỉrọng,

L 4 5 5 C ác phương p h á p dựa {rên m ầu:

Sừ dụng các mẫu miêu tả từ cơ sở dữ ỉiệu để cạo nên một mô hình dự đoán các mẫu mới băng cách rúl ra các Um ộc tính tương tự như các mầu tiă bict trong mô

Trang 24

lùnh Các kỹ thuật bao gồm phản lốp theo láng giềng gồn nhắt, các giai thuật lìổi quy {Dasarathy 1991) và các hệ thống suy diễn dựa trên lình huống (case-based reasoning) (Kolodner ỉ 993).

/ 4.5.6 M ỏ hình p h ụ thuộc dựa trên đồ th ị xức stưĩỉ

Các mô hình dồ thị xác định sự phụ thuộc xác suấỉ giữa các sự kiện litông tịua các lièn hệ trực liếp theo cẩc cung đổ thị (Pearl 1988; Whiflaker, 1990) Ở dạng

(lơn gián nliất, mô hình này xác định những biến nào phụ IỈ1UỘC trực tiếp vào nhau Những mô hình này chủ yếu được sử dụng với các biến có giá trị rời rạc hoặc phân

loại

1.4.5.7 M ỏ hình học quan hệ

Trong khi mẫu chicl xuất được bằng các luật suy diễn và cốy quyết định gắn chật với các mệnh dề logic (prepositional logic) thì mổ hình học quan hệ (còn được gọi là lập trình logic quy nạp sử dụng ngồn ngữ mẫu theo thứ tự logic trước (first - order logic) rất linh hoạt Mô hình này có thể dễ dàng tìm ra cổng (hức: X = Y Chơ đến nay, háu hết các nghiên cứu về các phưưng pháp đánh giá mô hình này cỉều Ihco logic trong tự nhiên.

1.4.5.8 K hai p h á d ữ liệu văn bthì (Text M ining)

Phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không định dạng Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo, v.v Khai phá dữ ỉiệu dạng văn bàn đã được sử dụng để phân tích cồu trả lời cho các eâu hỏi mở (rong khảo sát thị trường, lìm kiếm các rài liệu phức tạp.

1.4.5.9 M ạng neuron

Mạng neuron ià một tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúc toán học với khả năng học Các phương pháp là kết quả của việc nghiên cứu

mô hình học của hệ thống thẩn kinh C011 người, Mạng neuron có thể đưa ra ý nghĩa

từ các dữ liệu phức tạp hoặc không chính xác và có Ihể được sử đụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức lạp mà con ngưòi cũng như các kỹ thuật máy tính khác không thể phát hiện được.

Khi đề cập đến khai lluíc dữ liệu, người ía chường đề cập nhiều đến mạng neuron Tuy lìuỊug neuron có một số hạn chế gây khó khãn trong việc áp dạng và

Trang 25

triển khai nhưng nó cũng có những ưu điểm đáng kể Một Irong số nlìững ưu điểm phải kể đến của mạng neuron ỉà khả năng tạo ra các mò hình dự đoán có độ chính xác cao, có thế áp dụng được cho rất nhiều các loại bài toán ktiác nhau đáp ứng dược các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hóa, dự báo các sự kiện phụ thuộc vào Ihời gian, v.v

i ,4.5,10 G iá ì thuật d i truyền

Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng íại hệ thống tiến hóa irong tự nhiên, chính xác hơn đó là các giải thuật chì ra tập các cá thể được bình thành, (lược ước lượng và biến dổi như thế nào Ví dụ như xác định xem làm thế nào

để tựa chọn các cá thể tạo giống và lựa chọn cá thể nào sẽ bị loại bỏ Giải thuậi cũng mỏ phỏng lại yếu lô' gen trong nhiễm sắc thể sinh học trên máy tính dể có thè' giảií quyết nhiều bài toán fhực iế khác nhau.

Giải thuật di truyền là mội giải thuật lối ưu hóa, Nó được sử dụng rất rộng rãi trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuặỉ mạng neuron Sự liêti hệ cùa nó với các giẳi ihuậí khai phá dữ liệu là ờ chỗ việc lối ưu hóa cần Ihiết cho các qua trinh khai phá dữ liệu, ví dụ như trong các kỹ thuật cây quyết dịnh, tạo luật.

Như vây, qua phẩn tành bày (rên nêu ra một số phưcíng pháp, chúng ta thày

cổ rất nhiều cấc phương pháp khai phá dữ Hệu Mỗi phương pháp có những dặc tliểiit liètìịỉ phù hợp YỚÌ ruột ¡¿rp các bài mán, với các dạng dữ liệu và miền dữ liệu nhất

ílịnh.

1.4.6 Lựa chọn phương pháp

Các giải thuật khai phá dữ ìiệu tự đông vẫn mới chỉ ớ giai đoạn phát triển ban

dầu, H iện người ta vần chưa dưa ra dược m ột liêu chuẩn nào trong việc quyết dịnh

Mầu hết các kỹ thuật khai phá dữ liệu đều mới đối với lĩnh vực kinh doanh Hơn nữa lại cố rấ t nhỉểu k ỹ thuật, m ỗi kỹ thuật dược s ồ d ụ n g cho nhiêu bời ¡oản

kỹ thuật nào? Câu trả lời tất nhiên là không dơn giản Mỗi phương pháp đều có điếm mạnh và điểm yếu của nó, nhưng hầu hết các điểm yếu đều có thể khắc phục dược.

Trang 26

Vậy thì phải làm như thế nào để áp dụng kỹ thuật một cách thật đơn giản, dễ sử dụng để không cảm líìấy những phức tạp vốn có của kỹ thuật đó.

1.4.7 Có phải tất cả các mẫu tìm được đều đáng quan tâm?

Hệ thống khai phá dữ liệu có thể sinh ra hàng nghìn hoặc thậm chí hàng triệu mẫu hoặc luật Do vậy, có một câu hỏi: Có phải tất cả đều ỉà đáng quan tâm? Câu trả lòi là chỉ có I phần nhỏ trong các mẫu hoặc luật ]à đáng quan tâm và hữu ích đối với người sử dụng.

Có một vài câu hỏi dặt ra cho hệ thống khai phá dữ liệu:

- Cái gì tạo ra các mẫu quan tâm?

- Hệ thống DM có thể sinh ra tất cả các mẫu quan tâm không?

- Hệ thống DM có thể sình ra chỉ các m ẫu quan tãm?

Trả lời cầu hỏi thứ nhát: Mẳu là đáng quan tâm nếu:

(1) Dễ hiểu đối với con người.

(2) Hợp ỉệ hoặc được dữ liệu kiểm tra với độ chắc chấn nào đó, (3) Có khả năng (tiềm năng) hữu ích

(4) Mới ỉạ (novei) Mẵu cũng là quan tAm nếu nó là giả thiết hợp lệ được người đùng xác nhộn Mẫu quan tôm biểu diễn sự hiểu biết (tri thức).

Có vài đỏ đo cho các mẫu quan tâm, Nó dựa trện cấu trúc cùa các mãu đã khám phá và thống kê trên chúng, Chẳng hạn , độ đo cho các luật kết hợp dạng X -»

Y là độ hỗ trợ và độ tin cậy của luật Đ ó là xác suất P(XƯY) và xác suất có diều kiện p (Y /X ) Về hình thức, độ hỗ trợ và độ tin cậy là xác định như sau:

Support(X Y) = P(XUY) Confidence(X Y) = P(Y/X) Nhìn chung các độ đo này có thể được người dùng điều khiển.

Câu hỏi thứ hai: Có thể tạo ra tất cả các mẫu cần quan tâm không?

Điều đó liên quan đến lính hoàn thiện của thuật toán khai phá N ổ thường không thực hiện được và không có khả năng đối với các hộ thống khai phá dữ liệu

Trang 27

đế sinh ra tất cả các mẫu có thể lồn tại Thay cho điều ció, người ta tập irung vào mục liôu tìm kiêm Khai phá luật kết hợp là một ví dụ mà ở đc> sử dụng các độ đo cỏ thế đảm bảo khai phá trọn vẹn, có nghĩa là với ngưỡng độ hỗ trợ và độ tin cậy nhò nhát xác ílịnh trước thì có thể tìm được.

Câu hỏi cuối cùng: Hệ thống khai phổ dữ liệu có thể chỉ sinh ra các mẫu cầti quan tâm kiìông? - đó lằ vấn đề tối líu trong khai phá đữ liệu, Nó là mong muốn cao

CẾIO hệ thống khai phá dữ liệu chì sinth ra các m ẫu qua« làm Điều đó còn là sự

ihách Ihứe trong khai phá dữ liệu.

dó khai phá dữ liệu là giai đoạn quan trọng nhất. Chương này cũng đã tóm tắt một

số phương pháp phổ biến dùng để khai phá dữ liệu và phân tích một số khía cạnh của khai phá dữ liệu Trong các phương pháp khai phẩ dữ liệu, phát hiện các luật kết hợp là một lĩnh vực đang được quan tâm nghiên cứu mạnh mẽ Chương sau sẽ í rình bày chi tiết vấn đề khai phá luật kết hợp trên CSDL lớn.

Trang 28

KH AI PHÁ LUẬT KẾT HỢP TRONG c ơ SỎ DỮ LIỆU LỚN

2.1 LUẬT K ẾT HỢP

Khai phá luật kết hợp là một kỹ thuật quan trọng của khai phá dữ ỉiệu được ra đời và phát triển mạnh mẽ trong những num gần đây Lần đầu được Rakesh Agrawal, Tomasz Imielinski, Amn Swami đề xuất năm 1993 [14,4], Sau đó năm

1996 được llakesh Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen, A ĩnkeri Verkamo tiếp tục phái triển cải tiến Những nghiên cứu về luật kết hợp gần dây tập trung xây dựng các thuật toán khai phá luật kết hợp mới, hiệu quả hoặc cải tiến, phát triển các thuật toán hiệu quả hơn từ các thụâl toán đã có.

Chương này trình bày: Bài toán xuất phát, các khái niệm cơ sở, khai phá luật kết hợp boolean lừ CSDL lác vụ, thuậí toán Apriorì: tìm tập mục phổ biến sử dụng phương pháp sinh các ứng cử, cách sinh ra các luật kết hựp lừ các tập mục phổ biến Đổng thời néu một số cải úến để nâng cao hiệu quả của thuật toán Apriorì Mặt khác, chương này cũng trình bày một cách tiếp cận khác để lìm các tập mục phổ biến: tìm tạp mục phổ biến không cắn sinh các ứng cử như thuậi toán Apriorì - dó là thuật toán FP-growth Trong chương này cũng nêu một số vấn đồ khai phá các luật kết hợp đa mức, khai phá luật kết hợp định lưựng và đánh giá độ phức tạp của thuật toái» kỉiai phá luật kết hợp.

2,1.1 Phân tích sự báu hàng cua siêu thị - một ví dụ về dộng CƯ thúc dấy khai phá luật kết hợp £11 ]:

Giả sử rằng là người quản lý của siêu thị, ta muốn biết được về s ở thích mua hàng của khách hàng Đặc biệt, ta muốn biếí những nhóm hoặc tập hợp những mậl [làng gì khách hàng thường cùng mua trong một lần đến cửu hiệu Để trả loi câu hỏi

dó, cần phân tích trên dữ liệu bán lè của các tác vụ mua bán của khách hàng Kết quả phân lích có thể sứ dụng cho kế hoạch tiếp thị hoặc chiến lược quảng cáo cũng như sắp xếp các mặt hàng Như vậy; Cho trước một ỉượng lớn dĩr liệu lưu các thông tin mua sắm của khách hàng, ta mong muốn phát hiện được những tri thức có giá trị

CHƯƠNG 2

Trang 29

2 8

nhầm phục vụ cho cửa hàng hoạch định các chiến lược bán hằng như nên thiết kế

mẫu quảng cáo thế nào? bô' trí sắp xếp hàng hoá ra sao? cần bổ sung thêm những

hàng hoá gì? phân loại các đối iưựng khách hàng của cửa hàng để có chiến lược

quảng cáo và kinh doanh phù hợp v.v

Ta có thể sử dụng các biến giá trị Boolean để miêu lả sự cỏ mặt hoặc không

của mật hàng irong mỗi tác vụ mua bán Mỗi rổ mua hàng của khách hàng có lh<í

miêu tả bởi một vector boolean của các biến này Các vector boolean đó có thể phản

lích cho các vụ mua bán để lìm ra sự kết hợp: các tập phổ biến và các mật hàng

thường được mua cùng nhau Chẳng hạn: (hông tin về những khách hàng mua máy

tính cũng có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua

được miêu tả ỉrong luật kếỉ hợp sau:

" Máy tính => Phần mềm quản lý lài chính"

[Độ hỗ trợ: 2%, độ tin cậy: 60%]

Đ ộ hổ trợ và độ tin cậy là hai dộ đo của sự đáng quan tâm cùa luật Chúng

tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá Đỗ hỗ irợ 2%

cỏ nghĩa ià: 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mém

quản ]ý tài chính là đã được mua cùng nhau CÒI1 độ tin cậy 60% có nghĩa là 60%

các khách hàng mua máy tính cũng mua phần mềm Đặc biệt, các luật kết hợp coi là

dáng quan tâm nếu chúng thoà mãn cả hai ngưỡng độ hỗ trợ cực tiểu và dộ tin cậy

cực tiểu Nhũng ngưỡng này có thể đo người dùng hoặc các chuyên gia trong lĩnh

vực xác định,

2.1.2 Các khái niệm cơ sở:

Kí hiệu I = {i|, i2, ì,,,} là cập các thuộc tính nhị phân, gọi là các mục (

item) D íà cơ sở dữ liệu của các tác vụ (mỗi vụ mua hàng của một khách hàng nào

đó được xem là một tác vụ - transaction), ở đó mỗi tác vụ T là tập của các mục Tçzî

Mỗi tác vụ có một định danh gọi là TID X là tập cùa các m ục, X ç l Tác vụ T dược

gọ í là chứa X nếu và chỉ nếu X çT Tác vụ T được biểu diễn như một vectơ nhị phùn,

ở đó : T[k]=l hoạc T[k]=0.

* Luật kết hợp (Association Rule) : Một luật kết hợp là phát biểu dạng X —»

Y, ở đó Xçrl, Y c l , và X n Y = 0

Trang 30

Đối với luật kết hợp X ^ Y , X được gọi là ỉién dề , Y được gọi ià kết quả của

luíU

* Dộ hổ trự của một tập mục ( itemsei): Độ hỗ trợ (Supporl) của một tạp mục

X irong lập các tác vụ D, kí kiệu supp(X) là tỉ số gíừa sô' các tác vụ T (cùa D) chứa

X và tổng số các lác vụ của D ( hay sô'phàn trăm của các tốc vụ trong D có chứa X).

với độ hỗ trợ cực tiểu là minsup.

* Độ hỗ ỉ rợ (Support) của một luật: cho luật r= X —» Y, độ hỗ trợ của luẠi r,

kí hiệu supp(r) đưực xác định như sau : supp(r)=supp(XưY),

Như vậy, mội luật kết hợp trong tạp các tắc vụ D vói độ hỗ irợ s, thì s là so phán trăm của các tác vụ trong D có chứa X u Y ( chứa cả hai X và Y) Đ ó chính là xác xuất P(X ưY ) Đô hỗ uợ của mội luật có giá trị giữa 0 và 1.

* Dộ tin cậy ctUt m ột luật (Conßdence): Luật r= X —» Y có độ tin cậy c trong

D nếu c ià sổ phân trâm các tác vụ Irong D mà chứa X thí cũng chứa Y Đ ó chính là xác xuất có điều kiện: P(Y/X) Kĩ hiệu độ tin cây của luật r là conf(r) Độ Ún cậy cúa mội luật cũng có giá irị giữa 0 và l

conf(X-> Y) = P(YỈX)= supp (X uY) /supp (X).

Các luật thoả mãn cà hai ngưỡng: độ hỗ trợ cực liểu ( nìinsup) và độ tin cậy cực tiểu ( minconf) được gọi ià luật kết hợp mạnh (strong) , tức l à : supp(X—> Y) > nùnsup và vonfịX—> Y) > minconf Người ta thường viết giá trị các độ hỗ trợ và độ tin cậy này giữa 0% và 100% thay cho 0 tới 1.

Trang 31

CSDL !m¡ trfi các dû liêu (ne vu Dfr liêu nie vu cô ihé diroc luru iw dutfi d;mg bàng k ici i tluroc rn x n.

Khai phá các Iuât két hop trong CSDL ión nhtf thé nào? Khai phà Iuât kél hop

là qua trlnh gôm 2 bufóte:

(1) Tim tâ't Cil các tâp mue phô bien: môî tâp mue là phd bien duoc xàc dinh qua tinh dô hô ira và thoa mân dô hô tro eue tiéu.

(2) Sinh ra các iuât két hop rnanh lír các tâp mue pho bién; các iuât phài thoà mân dô hô tro cutc lieu và dô tin cây eue tiéu.

Vf du : Cho CSDL D gôm 5 tâc vu sau :

ta trong bàng 2.1) nên supp(A) = 2/5 = 40%.

Trang 32

Tuong ur ban g 2.3 tinh dô hô tro cua môt so tâp mue trong CSDL D Vf du, tâp mue AB xuàt hiên eh! 1 lân trong tac vu T3, do do dô hô ira eiia tâp mue này là 20%.

Bàng 2.3 Dô hô ira cita câc tâp mue

Rang 2.4 tính dô tin eây cua môt sô îuât kêt hop sinh ra tir câc tâp mue trong bàng 2.3 Dô fin eAy 100% eho lufit A —> C cô nghîa là trong moi lac vu trong dô A xuât hiû» ihi C cüng xuât hiên Dô tin cûy cua luál này duoc tinh bàng câch chia sô' cae tac vu mà tftp mue AC xuât hiên là 2 cho SÔ các tâc vu mà mue A xuàl hiên (bàng 2.1).

Luâl kêt hçfp Dô tin cây conf (X —>Y)

Trang 33

2.1.3 Mội số tính chát của tập mục phổ biến và luật kết hợp:

Với tập phổ biến ta có 3 lính chất sau:

(1) Tính chất ] ( độ hồ trợ của tập cou):

Nếu AcB vói A,B là các tập mục thì supp(A) ¿supp(B).

Điều này là rõ ràng vì tất cả các tác vụ trong Đ hỗ trợ B thì cũng hỗ trợ A (2) Tính chất 2:

Mội lập chứa một tập không phổ biến thì cũng là tập không phổ hiến.

Nếu tập A không đủ độ Ỉ1Ỗ trợ cực tiểu, tức là supp(A) < minsup tili tập B chứa A cũng không phải tập phổ biến vì supp(B) < supp(A) < minsup ( Uieo tính chất 1)

(3) Tính chất 3: Các tập con của tập phổ biến cũng là tập phổ biến.

Nếu cập B là tập phổ biến trong D, tức là: supp(B)> minsup , mọi tập con A của B cũng là phồ biến trong D bởi vì supp(A) > supp(B) > minsup theo tính chất 1 Trường hợp đặc biệt, nếu lập A = {i| , i2 , , ik } là tập phổ biến thì mọi tập con có (k-1) mục cùa nó cũng là phổ biến, Chú ý rằng ngược lại là không đúng.

Với luẠl kết lìựp ta có 4 tính chất sau:

(4) Tíuh chất 4: Không hợp các luật kết hợp.

Nếu cố X—>Z và Y~>z trong D thỉ không nhất thiết XUĩ —>z lả đúng.

Xéí trường hợp X r \Y ~ 0 và các tác vụ trong D hỗ trợ z nếu và chỉ nếu chứng

hỗ trợ mỗi X hoặc Y , khi đó luật X v Y ~ » z có độ tin cậy 0%.

Tương tự: X~-»Y A X->Z ị=> X -> Y u Z

(5) Tính chất 5: Không tách luật.

Nếu xuy —¡>z thì K—>Z và Y-±Z chưa chắc xảy ra.

Ví dụ, trường hợp 2 có mặl trong một tác vụ chỉ khi cả hai X và Y cũng có mặt, tức là supp(X uY ) = supp(Z) , nếu dộ hỗ trợ của X và Y đủ lớn hơn supp(XuY), tức là supp{X) > supp(XuY) và supp(Y) > supp(X uY ) Ihì hai luật riêng biệt sẽ không đủ độ tin cậy

Tuy nhiên, đảo lại: x~> YƯZ X-> Y A X->Z

(6) Tính ehâi 6: Các luật, kết hợp không có tính bấc cẩu

Trang 34

N eu X —> Y và Y , clahìịỉ tu kiiôni> ! h ể s tty ra X—>Z

Ví dụ: giá sứ T(X) c T(Y) c T (Z ), ớ dó T(X), T(Y), T(Z) lương ứng là lập các tác vụ chứa X, Y và z , và độ tin cậy cực tiểu là minconf,

conf(X“»Y) = conf(Y—>Z) = minconf

thế thì : conf(X—>Z) = minconf2 < minconf vì m in co n fd , do dó luật X->Z không đủ độ tin cây

Có (hể xem ví dụ sau cho tính không bắc cầư: Không có liên hệ gì giữa X và z.

Vì supp(B)>supp(A) ( iheo tính chất ỉ) và định nghĩa độ tin cây, chúng ta

nhận dược: coníỊB - , (/, - B)) - M < a ö < min Cữnf

supp(B) supp(A) Cũng như vậy:

D*0.

Bởi vì: D ç C nẻn (L-D) 2 (L-C), do đó supp(L-D)<supp(L-C)

- , - ì ĩ E E Í t L > -J H E E ÍtL > m inconf

su pp (L -D ) supp(L-C)

Tức ià conf({L-D) ->D ) > conf((L-C) ~>C) > minconf

Các tính chất này sẽ được sử dụng trong thuật toán mô tả ở phần sau.

Trang 35

Trong thực tế có nhiều loại luật kết hợp, Các luật kết hợp có thể có các dạng khác nhyu dựa ỉ rên các cơ sở sau :

• Dựa irên các kiểu của các gíá trị trong luật: Nếu luật quan tâm kêì hợp sự

có mặt hoặc không có mặt của các mục thì nó là luật kết hợp Boolean , ví dụ tuột:

" Máy tính => Phần mềm quản lý tài chính" (R I) Nếu luật miêu tả sự quan hệ giữa các ĩhuộc tính hoặc các mục định íượng thi

nó là luật kết hựp định lượng Trong các luật này, các giá trị định lương của các mục hoặc cấc thuộc tính là dược phàn chí ít thành các khoảng Luật sau là ví dụ luật kêì hợp định lượng, ở dó X là biến biểu diễn khách hàng:

Tuổi(X, '”'30 39") A Thunhập(X,''42K 48K")

—> Mua (X, "TV độ phân giải cao") (R2)

ở đây thuộc tính định lượng iằ luổì và Lhu nhập.

• Dựa trên chiều của dữ liệu chứa trong luật: nếu các mục hoặc các ỉhưộc tính trong luật kết liợo tham chiếu đến chỉ một chiều thì nó là luật kết hợp dtín chiều ( single-dimensional association rule) Luật (R i) ở trên có thể viết lại:

Mua(X,"Máy tính") -» Mua(X, "Phần mểm quản lý tài chính") (R.3)

Luật nằy là luật kết hợp đưn chiều vì nó chỉ đề cập đến một chiều { đó ià

Mua)

Nếu ỉuật tham chiếu đến nhiều hơn một chiều, như ià Mua, Loại khách hàng, thì nó gọi ỉà luật kết hợp đa cíùều (multidimensional association rule) Ví dụ luật (R2) ỏ trên có thể coi là luật kết hợp đa chiều vì nó chứa ba chiều là tuổi, ihu nhập, mua,

• Dựa trên mức trừu tượng chứa rrong luật: Một số phương pháp khai phá luật kết hợp có thể tìm các luột vớt các mức ỉrừu tượng khác nhau V í đụt giả sử rẳng lập các luật khai phá được bao gồm các luật sau:

Tuổi(X,"30 39") -> Mua(X,"máy tính xách tay") <R4)

Tuổi(X,"30 39") -> Mua(X,"máy tính ") (R5)

Trong các luậi R4 và R5, các mục đu mua là Iham chiếu đến cấc mức trừu tượng khác nhau ( chẳng hạn: "máy tính" ỉà sự trừu tượng cao hơn của "máy tính

Trang 36

xách tay") Tập luật kếl hợp khai phá được gồm có các luật kêì hợp da mức Nếu Irong các luật không tham chiếu dến cúc mục hoặc các thuộc tính với các mức trừu lượng khác nhau thì tệp dó chứa các líiậi kếl hợp đơn mức (single levels association rules).

Khai phá luật kết họp có thể mở rộng đế phân lích sự lương quan, ở đó sự có mặt hoặc không có mặc của mối lương quan các mục có thể là xác định Nổ có thể

mở rộng dể khai phá các mẫu phổ biến cực đại và các tập mục phổ biến đổng Mẫu phổ biển cực đại ỉà mẫu phổ biến mà hất kỳ íập mục nào chứa nó và lớn hơn nó đều không phải tập phổ biến.

2.2 KHAI PHÁ LUẬT KẾT HỢP BOOLEAN ĐƠN CHĩỀU TỪ CSDLTÁC vụ

Trong phẩn này sẽ xem xét các phương pháp khai phá dạng đơn giản nhất của luật kết hợp - đơn chiều, đơn mức, luật kết hợp Boolean như là đã phân tích trong bán hàng của siêu thị ỏ trên Ta bắt điìu với thuật toán Apriori, một thuật toán cơ sớ kinh điển cho việc tìm các tập mục phổ biên Phần này cũng nêu thủ tục sinh ra các iuật kết hợp lừ các lập mục phổ biến, đồng thời cũng nêu một số biến dổi Ihuật toán Apriori dể tang tính hiệu quả của thuật toán.

2.2.1 Thuật toán Apriori tìm tập m ục phổ biến sử dụng phương pháp sinh các úng cử.

Apriori là thuật toán khai phá các tập mục phổ biến cho các luật kết hợp boolean Trong phần này trình bày thuật toán Apriori do Rakesh Agrawal, Torna:;/ Imicluvski, Arun Swami [14] đề xuất lần đầu vào năm 1993.

Vấn để phát hiện tấí cả các luật kết hợp có độ hỗ trợ và độ tin cậy vượt quá ngưỡng xác định nào đó (phụ ŨU1ỘC người dùng, ngưông cùa độ hỗ trợ và độ tin cậy khi ấy tương ứng dược gọi là độ hỗ trơ cực tiểu minsup và độ tin cậy cực tiếu mincouf) có lhể được phân rã (hành 2 vấn đề con

i) Tìm tất cả các tập mục phổ biến với minsupp nào đó Thuật toán

Apiiori nhằm giải quyết vấn đề này.

ii) Sử dụng các tập mục phổ biến để sinh ra các ìuột kết hợp vói minconỉ

nào đó.

Trang 37

Các thuật toán phát hiện các lập mục phổ biến Ihực hiệu nhiều lần duyệl ciữ

liệu Trong lần duyệt Ihứ nhất, chúng ta tính độ hỗ trợ của các mục riêng biệi và xác định các mục phố biến trong chúng, tức là thoả m ãn cỉộ hổ trợ cực liêu Trong mồi lẩn duyệt sau, chúng ta bắt (hiu với tập hạt giống là các tập mục phổ biên dã lìm

dược trong lẩn duyệl trước Ciiúiig la sử dụng tàp hạt giống này để sinh ra tập mục

phổ biến tiềm nâng, gọi íà tập mục ứng cử và tính độ hỗ trợ thực sự của các tập nụic

ứng cử này khi duyệt qua dữ liệu, ử cuối mỗi ỉần duyệt, chúng ta xác định được tập

mục nỉio trong các lập ứng cử là lập phổ biến líiực sự và chúng trớ thành hạt giống

cho lần íluyệi tiếp theo Quá trinh này ỉ hực hiện cho đến khi klìỏng có một lập mục

phổ hííiii mới nào nữa dược IÌIĨI ihấy

Các ihuậi toán Apriori sinh ra các tập ứng cử để lính trong mội lẩn iluyộl bằng việc sử dụng chí các lập mục dã dược thấy là phổ biến (rong lán duyệt trước

mục có the được sinh ra bằng cách kết nối các tập mục phổ biến có (k - 1)- mục, và XOÌÍ các tập ứng cử viên tiếu I1Ó có chứa bất kỳ mội tập con nào mà không phải là phổ biến Thủ lục này nói chung dẫn đến một số nhỏ hon nhiều các tạp ứng cử viện, nói cách khác nó khá hiệu quà trong việc "tỉa gọn" không gian tìm kiếm.

Kí hiệu: Chúng ta gìả sử các mục (rong mỗi tác vụ được lưu giữ Iheo nậỉ tự

từ liiểth Gọi sô' các m ục trong mội lập mực là kích lliưổc của nó và gọi tập mục có

kích ihước k ỉà tập k-mục ( hay tập k mục) Các mục trong mỗi tập mục cũng dược

giữ ở trật tự lừ điển Chúng ta sử dụng các kí hiệu sau:

Tập k-mục Tập mục có k mục

u

Tập các lập k-mục phổ biến( với độ hỗ trợ cực tiểu minsup nào đó) Mỗi phẩn tử cúa tập này có 2 trường: í) 'rạp mục và ii) Độ hỗ Ircr của nó

c k

Tập các tập k-mục ứng cử ( các [ộp mục phổ hiến liổm niing).

Mồi phần lử của lập này có 2 trường: i) Tập mục và ii) Độ hồ trợ của nó.

Bảng 2.5: Bâng ã hiệu cho thuật toán Aprìori

Thuật toán Apriori (hực liiện theo cách lặp lại, ở đó tập (k-I)- mục ( {k'ỉ)- itemscis) được sử dụng cho việc tìm lập k- mục ( k- ịtemsets). ở lần duyệt dầu ticn.

Trang 38

người la lính độ hỗ Irự của các mục rícng lẻ (iiay lộp chỉ gổm 1 mục) và xác (lịnh

xem trong chúng mục nào là phổ biến, tức tỉm dược tập các 1 mục phổ biến Đó là lập L|, L| dược dùng để tìm L2 ỉằ các tập 2 mục phổ biến, nó lại được dùng để tìm Li, cứ như vậy cho ũến khi không tìm được tập phổ biến lớn hưn lập k mục phổ bien đẫ tìm thấy Tìm mỗi Lk đòi hỏi một lẩn quét toàn bộ CSDL,

Đổ tăng tính hiệu quả trong việc sinh 1‘a tập mục phổ biến, các tính chất của ỉập mục phổ biến đã nêu ỏ' tiên được sử dụng như sau: một lính chất quan crọng , gọi

là tính châì Apriori được sử dụng để nít gọn không gian tìm kiếm ,đó là: tài cả các

tập con khác rỗng của tập mục phổ biến phải là tập mục phổ biến. Nếu lập mục I không thoẳ mãn ngưỡng hỗ trợ cực tiểu thì I không phải tập mục phổ biến, tức !à P(ỉ)< minsup, Nếu mục A được thêm vào tập mục ĩ thì nhận dược một tập mục ( đó

là lu A ) không thể phổ biến lìơti I, do đó Iu A cũng không phải tập mục phổ biến, tức ià P(IuA)<minsup Tính chất đó có thể phát biểu lại như sau: nếu một tập mục khống là phổ biến thỉ mọi tập mục chứa nó cũng không phải phổ biến.

"Tính châì Apríori được sử đụng trong thuật toán như thế nào?" , để hiểu điều này ta xem thuật toán sử dụng Lk.ị để tìm Lk như thế nào?

Quá trình gồm 2 bước , đó là : bước kết nòi và bước tỉa.

1 Bước kết nổi', để tìm L* , tập k m ục ứng cử được .sinh ra bởi việc kết nối Lk.j với chính nó Kếl quả lằ tập các ứng cử c k , Giả sử lj và t2 là các tập mục trong Lk., Kí hiệu l,[j] Jà mục thứ j trong 1¡ Bằng qui ước, Apriori giả sử các mục trong tác

vụ hoộc tập mục có tiật tự lừ điển Nối Lk.j với Lk.| được thực hiện như sau : các lìiànii phần của Lk.| là được kết nối nếu (k-2) mục đầu tiên là chung Tức là, thành phần 1| và ỉ2 của Lk„| dược nối nếu :

Trang 39

dược lính độ hổ trự không nhỏ hơn ngưỡng hỗ trợ cực tiểu mínsupp tà tập phổ biến thrợc xác định, dó chính ià Lịi) Tuy nhiên, Cj có thể ỉà rất lớn, và do đó dẫn đến lính toán rất lớn Để rút gọn kích thước cùa c t , tính chấ» Apriori được sử dụng như

sau: Bá'í kỳ tập (k*I ) mục nào không p h ổ biển không th ể là tập con của íập k mục

tập con (k-1) mục này có thể làm nhanh bởi duy trì một cây băm của tất cả các tập mục phổ biến đã tìm thấy.

Ví dụ : chúng ta xem thuật toán thực hiện trên CSDL D sau

Bảng 2.6 : Cơ sở dữ liệu D minh hơạ cho thuật toán Apriori

ờ đây có 9 tác vụ, tức là /DỊ-9 Quá trình thuật toán Apriori lìm tập mục phổ biên trang D tfiể hiện ở các báng sau:

Trang 40

Bảng 2.7: Diên biển thuật toán Apriorì vởỉ độ hồ trợ là 2i9 ( xuất hiển 2 lần)

] Trong iẩn lặp đổu tiên của thuật toán, mỗi mục là phần tử của tập ứng cử 1 mục, C| Thuật toán đơn giản quét lất cả các tác vụ theo ỉhứ tự để tính số lần xuất hiện cùa mỗi mục.

Định dạng
Số trang	109
Dung lượng	38,55 MB