Luận văn nghiên cứu khai phá luật kết hợp sử dụng sql

Khai phá các luật kết hợp là một tiếp cận khai phú dữ liệu nhằm phát hiện các luật kết hợp giữa các thành phần dữ liệu trong cơ sở đữ liệu.. Quá trình phát hiện trí thức từ CSDL có thể

Trang 1

DANH MUC CAC KY HIEU, VIET TAT

1.4.3 Các kỹ thuật khai phả dữ liệu: _—

1.4.1, Phương phap quy Map neecsecsessassieesseestiseeneeesiensiestisentiatenseen sind)

Trang 2

2.3.3 Định nghĩa dộ tin cậy à eeeriirreraeeooo, TẾ

2.3 Một số tính chất liên quan ị cec "¬¬

3.5.1 Sinh cáo luật kị hợp Sự các tập mục phổ bị Hóc Xeeeeeeroeu37

3.6 Một ví dụ về khai phá luật kết hợp sử dụng SQI, - - 4 3.7 Kết luận chương 3

CHUONG 4 THU NGHIEM VA BAN LUẬN

4.1, Tht nghiém khai phả luật kết hợp

4.1.1, Bài toán thử nghiệm ànirerrerree MA AB

4.1.4 Trién khai tìm các luật kết hợp từ tập mục thường xuyên 60

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Trang 3

DANH MỤC CÁC KÝ HIỂU, VIÉT TAT

KDD Knowledge Discovery in Khai pha tri thite trong oo sé dit

minconf Minimum Confidence Độ tm cậy tôi thiểu

Minsup Minimum Support Độ hễ trợ tối thiểu

TDL ‘Transaction Indentification —_ | Dinh danh giao tac

Trang 4

DANH MỤC CÁC HÌNH

Hình 1.1 Quả trinh phát hiện tri thức từ CSDL

linh 1.2 Mẫu kết hợp với phương pháp cây quyết định

Hình 3.1; Thu&t tod Aptiori esses sasseessseeseseinenstneseeee

Hình 3.2: Hẻm tạo tập ứng cử viên Cy tit Fea

Linh 3.5: ‘Lao va oft tia tập các ứng viên có độ dài E

THình 3.6: Sinh vả tửa lập các ứng viên gó độ dài k— 4

Hinh 3.7: Tinh dé hé tro theo ky thuật k- nhánh

Hình 3.8: Mô hình tính độ hỗ trợ bằng kỹ thuật k- nhánh

Hình 3.9: Tĩnh độ hỗ trợ theo kỹ thuật gom nhóm

Tlinh 3.10 Tinh đỗ hã trạ theo sử dụng truy vẫn lỏng,

Hình 3.11: Mê hình tỉnh độ hồ trợ bằng kỹ thuật truy vẫn lỏng,

Hình 3.12: Sinh các luật kết hợp tử các tập mục phỏ biến

Trang 5

DANH MỤC CÁC BẰNG Bang 3.1: Đăng tập phổ biển "FISETS"

Bang 3.2 Bang “Primary-Rules”

Bang 3.3 Bảng "ruÏe3” in 2022010 eecee

Bảng 3.4: Dữ liệu đầu vào

Bang 3.5, Bang "M8 t8" ccc secseesssstsinsnnes servis seennetneee

Bang 3.6 Bing “Associate rule”

Bang 4.7 Tap mục thường xuyên F3

Bang 4.8 Bang PFrequentSet ssssesssnsiessnseavesesnensineeneeeie

Bang 4.9, Đảng luật kết hợp

ii

Trang 6

LOT CAM DOAN Luận văn thạc sỹ này đo em nghiên cứu và thực hiện dưới sự hướng dẫn của

Thay giáo TS Phan Anh Phong Với mục dích học lập, nghiên cứu để nâng cao

kiên thức và trinh độ chuyên môn nên em đã làm luận văn này một cách nghiêm tức

và hoàn toàn Irung thực

Tổ hoàn thành bản luận văn này, ngoài các tài liệu tham khảo đã liệt ké, em

cam đoan không sao chép toàn văn các công trình hoặc thiết kế tết nghiệp của người

Trang 7

thông lin, Viện Công nghệ thông tu và Truyền thông trường Đại học Bách khoa

‘Ha Nội đã giúp đỡ em trong qua trinh thực hiện luận văn

Cuối cùng, em xim cam on gia định, bạn bè và lập thể lớp 13BCNTT-VINH,

những người đã luôn ở bên khích lệ và động viên em rất nhiều

Trong quá trình làm luận văn, vĩ một số lý do về thời gian va kién thie han hep

tiên không trảnh khối những sai sót trong để tải Lm rất rong nhận được sự góp y

hen nữa của quý thây giáo, cõ giáo và các bạn

Em xin chân thanh cam on!

tháng 10 năm 2015 Hạc viên

Phan Văn Nhật

Trang 8

MO PAU

Có thể nói rằng, ngày nay công nghệ thông trì (CNL) đã trở thánh một phần không thể thiếu trong cuộc sống của xã hội hiện đại CMTT đã và đăng được ứng dụng sâu rộng ở nhiều lĩnh vực khác nhau trong hoạt dộng thường ngày của chúng,

†a như Giáo đục, Y tế, Khoa học, Xây dụng, Kinh doanh,

Việc sử dụng CNTT dễ lưu trữ dữ liệu và khai thác thông tia phục vụ các hoạt

động tác nghiệp đã được phát triển từ những nằm 60 của thể kỷ trước Tuy nhiên, chúng ta vẫn có thể bị thiểu thông tin hữu ích cho đủ dữ liệu không lổ, nếu chủng ta không biết các kỳ thuật khai thác

Gan đây, nhiều nghiên cứu đã chỉ ra, việc nắm bắt tốt thông tim được coi là cơ số quan trọng của mọi hoạt động sản xuất, kinh doanh Cá nhân hay tổ chức nảo thu thập và hiểu được thông tin và hành động đựa trên cáo thông tin được kết xuất tr

các thông tin đã gó số đạt được thành công trong mọi hoạt động Chính vì thế, việc

tạo ra thông tin, tổ chức lưu trữ và khai thác chúng ngày cảng trở nên quan trọng Bên cạnh đó các thiết bị thu thập đữ liệu tự động tương đổi phát triển đã tạo ra những kho đữ liệu khong 16 Voi su phat triển mạnh mế của công nghệ điện li tao

ra cáo bộ nhớ có dung lượng lớn, bộ xử lý tốc dộ cao cùng với các hệ thông mạng, viễn thông, người ta đã xây dụng cáo hệ thẳng thông Em nhằm tự động hóa mợi hoạt đông kinh doanh của mình Điều này đã tao ra một nguồn đữ liêu tăng lên không ngừng trong cuộc sống như: thương mại, quản lý và khoa học đã lắm nay sinh va thic day su phát triển của kỹ thuật thu thập, hm trữ, phân tích và khai phá đữ liệu

xuà dôi hỏi cách xử lý thông manh hơn, hiệu quả hơn Từ đỏ dặt ra cho các các nhà

quan ly van đề, là làm thể nào đề xử lý khôi lượng thông tín cực lớn như vậy phát hiện ra các thông tin him ích để tác động lại quá trình sản xuất, kinh doanh của

xinh đỏ là trí thức

Để làm được điều đá người ta đã sử dựng các kỹ thuật cho phép ta khai thác dược trí thức hữu ich từ CSDL lớn được gọi là các kĩ thuật khai phả dữ liệu (Data Mining - DM) Néi một cách nôm na khai phá đữ Hệu lả quá trình trích xuất các

thông tin cô giá trị tiểm ấn bên trong lượng lớn đữ liệu Hiện nay, ngoài thuật ngữ

1

Trang 9

khai phả dữ liệu, người ta côn dùng một số thuật ngữ khác có ý nghĩa tương tự như:

Khám phá trị thức từ CSDL, phan tich di liệu/mẫu, nạo vét dữ liệu

Đã có rái nhiều giải pháp được để xuất ứng dụng trorg khai phá đữ liệu, tuy nhiên trên thực tế cho thây quá trình này vẫn còn gặp rất những khó khăn và thách

thức Khai phá các luật kết hợp là một tiếp cận khai phú dữ liệu nhằm phát hiện các

luật kết hợp giữa các thành phần dữ liệu trong cơ sở đữ liệu Mục dich chính của quả trình này là tìm các trí thức đưới dạng các luật được kết xuất ra từ đữ liệu để sử

dụng trong dự bảo, trợ giúp ong sẵn xuất kinh doanh và nghiên cúu khoa học

Khai phá luật kết hợp được đề xuất lần đâu vào năm 1993 và phát triển mạnh

trong vải thập kỷ gần đây Những nghiên cúu về khai phá luật kết hợp lập Irung xây dựng, các thuật toán dẻ khai phả luật kết hợp một cách hiệu quả hoặc cãi tiến, phát triển các thuật toán đã có hoặc phát triển các ứng dụng Mội trong những thuật toán được sử dụng nhiền khi khai phá luật kết hợp là thuật loan Apriori và các mỡ rộng

của thuật toán này [4]

Như chúng ta đã biết SQI, là ngôn ngữ của cơ sở đữ liệu, có khả năng rất mạnh khi truy vấn đữ liệu, chính vì thế, gân đây có nhiều nghiên cứu khai phá luật kết hợp

‘bang cách xây dung thuật toán Apriori sử dụng SQL Kỹ thuật này không chỉ khai

thắc được sức mạnh của SỢI., một ngôn ngữ được tích hợp trong hau hết cáo hệ

quan tri cơ sở đữ liệu, mà còn cho thầy tính hiệu quả vẻ tốc dộ xử lý và thực thị

Tử những lý do trên tôi đã chọn “Nghiên cửu khai phá luật kết hợp sử dụng

SQU” làm để tài cho luận văn Thạc sỹ của mình

Tục tiêu cña dé tai:

Trang 10

+ Đặc biệt là di sâu vào nghiên cứu phương pháp khai phá luật kết hợp sử dung SQL

+ Xây dựng, trién khai mé hinh thue nghiém,

Ngoài phần mở đầu, kết hiện và tải liệu tham khảo nội dung ban luận van

*Nghiễn cứu khai phá luật kết hợp sử dụng SQL” dược tổ chức thành 4 chương

Chương 1 Tổng quan về phát hiện tri thức và khai phá dữ tiện

Phát hiện trí thúc vả khai phá đứt liệu, quả trình khám phá trí thúc từ CSDL; các

kĩ thuật, phương pháp khai phá đữ liệu, nhiệm vụ và một số ứng dụng của khai phá

đữ liệu

Chương 2 Khai phá luật kết hợp

Giới thiệu một số khải niệm vẻ luật kết hợp, định nghĩa vẻ luật kết hợp, tập mục thường xuyên, độ lin cây, độ bỗ trợ một số tính chất cơ bản hên quan: của lập rnục

thường xuyên trong luật kết hợp củng các vỉ đụ minh họa tương ứng,

Chương 3 Khai phá luật kết hợp sử dụng SQL

Nội đung bao gềm: Nghiên cửu về thuật toán Apriori phương pháp tiếp cận, Tạo tập các ứng viên, Tính toán độ hỗ trợ của các tập mục thường xuyên bằng các kỹ

thuật truy vẫn SQL như: kỳ thuật kết nỗi k-nhanh, kỹ thuật gom nhóm và kỹ thuật

sử dụng truy vẫn lồng, đánh giá tu nhược điểm của 3 kỹ thuật này, Sinh luật

Chương 4 Thủ nghiệm và bàn luận

Chương 4 trình bảy các bước triển khai thử nghiệm và Demo việc khai phá luật kết hợp với bộ dữ liêu khách hàng từ cơ sở đữ liệu ngân hàng Sau dó bản luận về các kỹ thuật tính toán khi sử dụng SQL khai phá luật kết hợp trên bộ dữ liệu thử

nghiệm

Trang 11

CHƯƠNG 1

TONG QUAN VE PUAT HLEN FRI THỨC VA KILAI PLA DU LUEU

1.1 Phát hiện tri thức

Phát hiện trị thúc rong ede ov sé dit idu (Knowledge Discovery in Databases-

KDD) là quá trình tìm kiểm những trị thức tiêm ản, không biết trước, và có ích trong khối cø sở đữ liệu (CSDL) Thực chất đỏ là quá trình tìm kiếm những thông,

tin có trong cơ số dữ liệu nhưng bị che đấu trong các khối đữ liệu

Nhiều người coi khai phá đữ liệu và phát hiện trí thức trong cơ sở dữ liệu là như

nhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quả

trình phát hiện tri thức trong cơ sở đữ liệu

1.2 Quá trình phát hiện trí thức từ cơ sở dữ liệu

Thát hiện trí thức từ CSDL là quá trình sử dụng các phương pháp, công cụ tỉa

Tiọc lối ưu nhằm đạt được mục đích nhất định

Quá trình phát hiện trí thức từ CSDL có thể được chia thành các bước như sau:

% Lâm sạch dữ liệu (Data Cleanmg} Loại bỏ đữ liệu nhiều, hoặc dữ liệu

% Chuyên đổi đữ liệu (Data Transformation) chuyển dữ liệu vẻ những dạng

phủ hợp cho việc khai phá

% Khai phá đữ liệu (Đaia Mining) các kỹ thuật được áp dụng để trích xuất thông tin có ích hoặc các mẫu điện hình trong đữ liệu

s# Đánh giá mẫu (Pattern Evaluation) Danh giá mẫu hoặc trí thức thu được

% Trình diễn dữ liệu (Knowledee Prcsentation): Biểu diễn những trì thức khai pha duge.

Trang 12

Tinh 1.1 Quả trùnh nhát hiện trĩ thức từ CSDL,

Hình 1.1 trên đây mô tả năm giai đoạn trong quá trình phát hiện ui dite ur CSDL Mặc đủ có năm giai đoạn như trên song quá trình phát hiện trị thúc từ CSDL

là một qua trình lương tác và lặp đi lắp lại theo chủ trình liên tục theo kiểu xoáy

tròn ốc trong, đó lần lặp sau hoàn chỉnh hơn lần lặp trước Ngoài ra giai doan sau lại

được dựa trên kết quá thu được của giai đoạn trước

1.2.1 Tara chon

Lua chon 1a giai đoạn lọc và lựa ra những đữ liệu phủ hợp liên quan trực tiếp tới nhiệm vụ phân tích trích rút từ CSDL,

Mục đích của quả trình này là chọn lọc những CSDI, liên quan đến mục đích và

yêu cầu phát hiện trí thức Thực tế các nguồn CSDL được phân hóa và phục vụ ở nhiều lĩnh vực khác nhau như sắn xuất, kinh doanh, y tế, giáo dục, Vỉ thẻ lượng

trị thúc phát hiện được từ CSDI, số có ý nghữa khảo nhau cho từng lĩnh vục

Để lựa chọn được CSDL phù hợp cho quá trình phát hiện trí thức, người ta

thường đặc biệt quan tam đếu mục đích, nhiệm vụ và lĩnh vực liên quan tới việc

phát hiện trì thức.

Trang 13

1.2.2 Tiền xử lý dữ liệu

Tiển xử lý dữ liệu lả giai doạn bao gốm các công, việc làm sạch, làm giàu, biển đổi và rút gọn từ khối dữ liệu lớn thích hợp cho giai đoạn sau CSDI, sau khi chọn

lựa mới chỉ ở mrức liên quan trực tiếp tới nhiệm vụ phát hiện tri thức Những đữ liệu

nảy có thể chưa dây dú, chưa thuần nhất, chứa nhiễu giá trị dặc biệt

Do vậy mục địch của qúa trình tiên xứ lý nhằm loại bỏ những đỡ liệu dư thửa,

tổ sung đữ liệu và đồng nhất hóa đữ liệu Các công việc chính bao gềm: Chẹn loc

đữ liệu, làm sạch đít liệu, làm giảu dữ liệu và mái hóa đữ liệu

Để thuận tiên cho việc phan tich, khai pha dit ligu thi dir én dau vào phải được chuẩn hóa theo khuôn mẫu thuận tiệt

nhiệm vụ của quá trình chuyển đạng đữ liệu

pho các huật toán khai phá đữ liệu Đó là

1.2.4 Khai phá dữ liệu

Khai phá dữ liệu sử dụng, các công, cụ, thuật toán để lấy ra các mẫu dữ liệu có Ý

nghia tir khéi dữ liệu

Dây là quá trình then chốt của phát hiện trí thức Quá trình khai phá đữ liệu sử

đụng các thuật toán khai phá đữ liệu dễ dưa các các mẫu/mô hình dữ liệu tiểm ân

trong khỏi đữ liệu lớn

'Tủy thuộc vào mục địch, yêu câu của việc phát hiện trị thức, tại quá trình này

việc lựa chọn các giải thuật phủ hợp là công việc quan trọng để đảm bảo hiệu suât

và kết quả của công việc

Trang 14

1.2.5 Trình diễn

Trình điễn là việc thể hiện các mẫu đữ liệu sau khi khai phá thành các dạng báo cáo đỗ truyền đại tới nguồi dùng và biến nó thánh trí thức hữu dung

Kết quả của quá trinh khai phá đữ liệu là các mẫu/mô hình đữ liệu có ý nghĩa và

để phân tích Tuy nhiên dây là các mấu/mô hình ở dạng thỏ cò thể chua trỡ thành trì thức của người yêu cầu phát hiện trỉ thức

Trình diễn là quả biển dỗi, thể hiện các mẫu/mô hình đữ liệu đó thánh các dạng

báo cáo phục vụ cho các mục địch khác nhau

1.3 Khai phá đữ liệu

Định nghĩa: Khai phá đữ liệu là một tập hợp các kỹ thuật được sử dụng để tự

động khai thác và tùm ra các mỗi quan hệ lẫn nhau của đữ liệu trong một tập hợp dữ

ấn trang tập đữ liệu

liệu không lễ và phúc tạp, đồng thời cũng tìm ra các mu tié

đó

1.3.1 Nhiệm vụ của khai phá đữ Hện

Ta đã biết nuc đích của khai phá đữ liệu là các trị thức duợc chiết lọc từ cơ sở

dữ liệu để phục vụ cho các lĩnh vực sản xuất, kinh doanh, y tế, giáo đụo

Do vậy, ta có thể xem mục đích clunh của khai phả đữ liệu là mô tả va du đoán

Đự đoán: Đưa các mẫu/mô hình dữ liệu chiết xuất để dự đoán những giả trí chua biết hoặc những giá trị trong tương lai

Mô tả: Tìm kiếm và liệt kê các mâuAanô hình dữ liệu mà cơn người có thể hiểu

để sử dụng vào các raục dich khác nhau

Với 3 mục đích cơ bản trên, nhiệm vụ của khai phá đứ liệu bao gồm:

- _ Phân cụm, phân loại, phản nhỏm, phân lớp

~ Khai phá luật kế hợp

- Lap mé hinb dy bio

- Phan tích đổi tượng ngoài cuộc

- _ Phân tích sự tiên hóa

Trang 15

1.3.2 Các kỹ thuật khai phá đữ liệu:

Các kỹ thuật khai phá đứ liệu thường được chia thành hai nhóm chính cụ thế Thư sau

- Kỹ thuật khai phá đữ liệu dự đoán: Băn chất của kỹ thuật này là đưa ra các dự doan dựa vào các suy diễn trên CBDL hiện thời Các kỹ thuột này gốm có: phân lớp,

1.3.2.1 Kỹ thuật khai phá dữ liệu dự đoán

& Phân lớp đã liệu

Mục tiêu của kỹ thuật phân lớp dữ liệu là dự đoàn nhãn lớp cho các mẫu dữ liệu

Quá trình phân loại đữ liệu bao gồm 2 bước: xây dựng mô hình và sử dụng mô hình

để phân loại

- _ Xây đựng mê hình dựa trên việc phân tích các mẫu đữ liệu cho trước

-_ Sử đựng mô hình để phân loại dữ liệu

+ Bước 1: Mô hình sẽ được xảy đựng đựa trên việc phân tích các mẫu đữ liệu có sẵn, mỗi mẫu tương ứng với 1 lớp, được quyết định bởi một số thuộc tỉnh gợi là

thuộc tính lớp Các lớp đữ hiệu này còn được gọi là lớp dữ liệu huân luyện (traming data set) Các nhãn lớp của tập đứ liệu huần luyện để phải được xác định trước khi xây dựng mô hình

+ Bước 2: Sử đụng mô hình đề phản lớp đữ liệu trước hết chứng ta phải tính độ chính xác của mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử

dụng để dự đoản nhãn lép cho các mẫu đữ liệu khác trong tương lai

b Phương pháp hỗi quy

Khác với kỹ thuật phân lớp dữ liệu chỉ đàng để dự đoán về cáo giá trị rời rac thi

kỹ thuật hải quy được dùng để dự đoán về các giá trí liên lục

§

Trang 16

Hội quy là một hàm toán học ánh xạ mục dữ liệu thành một biển dự doán có giá

trị thực [rong cuộc sống có rất nhiễu ứng dung khai phá dữ liệu với nhiệm vụ hội quy, cụ thể như: đảnh giá tình trạng sức khỏe của bệnh nhân khi biết được kết quả xét nghiệm chân doán, dự doàn khả năng tiêu thụ của một sản phẩm mới bing ham

chỉ tiên quảng cáo

1.3.2.2 Khai phá dữ Hệu mô tả

Nhiệm vụ của khai phả đữ liệu mô tá lá mỗ tả về các tính chất hay đặc tính

chưng của dữ liệu trang CSDL, hiện thời

Bao gim các kỹ thuậi: ! Kỹ thuật phân cụm;

+ Kỳ thuật khai phá luật kết hợp;

œ Phân cụm đấ liệu

Mục tiêu chính của kỹ thuật phân cụm dũ liệu là nhóm các đối tượng lương lự

nhau trong tập đữ liệu vào các cụm sao cho các đổi tượng thuộc củng một cụm là tương đồng còn các đối tượng thuộc các cụm khác sẽ không tương đẳng

Môi dỗi tượng có thể thuộc về nhiều hơn mội cự

b Khai phả luật kết hợp

Mne liêu chính của kỹ thuật khai phả luật kết hợp là phát liên và đưa ra các mồi

quan hệ giữa các giá trị dữ liệu trong CSDL Đầu ra của khai phá dữ liệu sử dụng kỹ

thuật này là các luật kêt hợp tim được

Khai phả luật kết hợp được thực hiện

n quá 2 bước cơ bắn

+ Bước 1: Là tim tất cả các tập mục phổ biến, một tập mục phỏ biển dược xác định qua độ hễ trợ và có độ hỗ trợ lớn hơn độ hễ trợ cực tiểu

| Buée 2: Khi sinh ra các luật kết hợp từ tập mục phố biến, độ hỗ trợ và độ tia

cậy của các luật phái lớn hơn độ hỗ trợ cực tiểu vá đỏ tia cậy cực tiểu tương ứng 1.4 Một số phương pháp khai phá dữ liệu

1.4.1 Phương pháp quy nạp

Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn

cũng có thể được suy điễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này đó là suy điễn và quy nạp

Trang 17

+ Phương pháp suy diễn:

Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở đữ liệu

Phuong pháp suy điễn dựa trên các sự kiện chỉnh xác để suy ra cáo ri thúc mới Lit

các thông tin cũ Mẫu chiết xuất được bằng cách sử đụng phương pháp này thường,

là các luật suy tiễn

+ Phương pháp qMy nạp:

Phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở đữ liệu Có

ghứa là nỏ tự tìm kiểm, tạo mẫu và sinh ra trì thức chứ không phải bắt đầu với các

trì thức đã biết trước Cúc thông tin ma phương pháp này đem lại là các thông tin

hay các trị thùc cấp cao diễn tả về các dối tượng trong cơ sở dữ liệu

1.4.2 Cây quyết định và luật:

& Cây quyết định:

Cây quyết dịnh là một mô tả trị thức dạng dơn giản nhằm phân các dối tượng dữ liệu thành một số lớp nhất định Các mút của cây được gản nhãn là tên các thuộc

tỉnh, cáo cạnh được gản các giá trị có thể cña cáo thuộc tính, cá

Khéng cho vay Cha vay

Hink 1.2 Mau két hup voi plucong pl

10

Trang 18

b Tạn luật

Các luật được tạo ra nhằm suy điển một số mẫu đữ liệu cỏ ý nghĩa về mặt thông

kê Các luật có dạng Nếu P Thì Q, với P là mệnh để đúng với một phản trong cơ sở

dữ liệu, Q la mệnh đễ dự doàn

Cây quyết định và luật có ưu điểm là bình thức mã tâ đơn giầu, mô hình suy

điển khá để hiểu đôi với người sử dụng Tuy nhiên, giới hạn của nó là mô tả cây và

luật chỉ có thế biểu điễn được một số đạng chức năng vả vị vậy giới hạn cả về độ

chỉnh xác của mô hình

1.4.3 Phát hiện các nat kết hop

Thương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phân đữ

điệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá đữ liệu là tập luật kếL

hep tìm dược Một vi dy don giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và l3 có nghĩa là sự xuất hiện của A trong bin ghi kéo theo sự xuất

tiện của B trong cùng bản ghi đó: A > B

Cho một lược để R= {AI,A2, „ Ap} các thuộc tính với miễn giá trị {0.1},

và một quan hệ r trên R Một luật kêL hợp trên r được mô tả dưới dang X >B với

+ RvậT €RWX Về mặt trực giác, ta có thê phát biểu ý nghĩa oủa luật như sau

Nếu một bản ghi của bằng r có giá tị Ï tại mỗi thuộc tỉnh thuộc 3X thỉ giá trị của thuộc tính 1š cũng lá một trong củng bản ghỉ đó Ví dụ: như ta có tập cơ sở đữ liệu

vẻ các mặt hàng bán trong siéu thị cáo đòng tương ứng với cáo ngày bán hàng, các cột tương ứng với các mặt hàng thỉ giá trị 1 tại ô (20/10 bánh mủ) xác định rằng,

bánh mú đã được bán ngày hôm đỏ và cũng kéo theo sự xuất hiện giả trị Ì tại ô

(20/10, bơ)

Cho ïƑ cR, dặt s(W„) là tàn số xuất hiền của W trong r dược tình bằng tỷ lệ của các đòng trong r có giả trị Ì tại mỗi cột thuộc W, Tần sỏ xuất hiện của luật X—>B

trong r được định nghĩa là s(-Ÿ +2 ƒB} +) càn gọi là độ hỗ trọ của luật, độ tin cậy của

hạật là s(Ý {24B} )SOXr), ở đây X có thể gồm nhiều thuộc tính, B là giá trị không

cố định Nhờ vậy mà không xảy ra việc tạo ra các luật không mong muốn trước khi

11

Trang 19

quá trình từa kiếm bắt đầu Điều dó cũng cho thấy không gian tìm kiếm có kích thước tăng lên theo hảm mũ của số lượng các thuộc tính ở đầu vảo Do vậy cần phải chủ ý thiết kế dữ liệu cho việc tìm kiếm cáo luật kết hợp

>H

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X:

sao cho tân số của luật không nhỗ hơn ngưỡng œ cho trước và độ tín cậy của luật

không nhỏ hơn ngưỡng Mincoufi cho trước Từ một cơ sở dữ liệu, ta có thể tìm ra

được hãng nghn vả thậm chí hàng trầm nghìn các luật kết hợp,

Ta gợi một lập cơn # © ® là phổ biến wong r nếu thôa 1uấn diều kiện sÖ€1) > ổ Tếu biết tất cã các tập phố biến trong r thi việc tìm kiêm các luật kết hợp rất dé dàng, VÌ vậy giải thuật thm kiểm các luật kết hợp trước tiên phải đi tìm tắt cá các tập phổ biến nay, sau dé tao dựng dẫn các luật kết hợp bằng cách ghép dần cáo tập thuộc tính đựa trên mức độ phố biến

Các luật kết hợp có thể là một cách hình thức hóa đơn giản Chúng rất thích hợp

cho việc lav ra các kết quả có dữ liệu dạng nhị phân Giới hạn co bản của phương,

pháp này là ở chỗ quan hệ can phải thưa theo nghĩa là không cỏ tập phd bién nao chứa nhiều hơn 15 thuộc tính Giải thuật tìm kiếm các luật kết hợp tạo ra số lật ít nhật băng số các tập phố biến và nếu như một lập phố biến có kích thước K thì phải

có ïL nhất 2R luật kết hợp Thông tín về các tập phổ biển được sử dụng để ước lượng

độ tin cậy của các tập luật kết hợp

Khai phá đữ liệu tuy là lịnh vực mới nhưng là

nhiều và ứng dụng rộng rãi trong thực tiễn Một số ứng dụng diễn hình của khai pha

dữ liệu có thê được Hệt kẽ như sau:

- Phân lich dir iéu va hd tro ra quyat dinh (Analysis & Decilion support)

- Phan tép van ban, tom tắt van ban va phan lớp cae trang Web (ext mining

& Web mining)

- Điều trị y học (Medicab Mỗi liên hệ giữa triệu chứng, chân doán và phương, pháp điều trị (chế 48 dinh đường, thuộc rnen, phẫu thuật),

12

Trang 20

~_ Phân tích độ rũi ro

- ‘Tai chính và thị trường chứng khoán (I4nanee & stock market}> Phân tích

th hình tài chính và dự đoán:

- Bao hiém, Giáo dục

1.6 Các thách thức trong khai phá dữ Hệu

Khai phá đữ liện ngày cảng đóng góp một vai trỏ quan trong trong việc tỉm ra

các trí thức thực sự có ích, hiệu quả tiêm ấn trong các khôi đữ liệu thông tin khống

lỗ mả hàng ngày vẫn đang được thu thập, lưu trử để giúp các cả nhân vả tổ chức đưa

ya cáo quyết định chính xác và nhanh chóng Tuy đã có rât nhiều các giải pháp và phương pháp được ứng đụng trong khai phá dữ liệu nhưng trên thực lễ quá trinh nay vẫn gặp không ít khó khăn và thách thức như:

- Cơ sở đữ liệu có kích thước lớn

- Cơ sở đữ liệu có số thuộc tính lớn

‘Thay đổi dữ liệu vả trí thức có thể lảm cho cáo mẫu đã phát hiện không cỏn phủ hợp

- Đữ liệu bị thiểu hoặc bị nhiều

- Quan hệ giữa oác trường phức tap

- Giao tiếp với người sử dụng và kết hợp với các trị thức đã có

- Lich hợp với các hệ thống khác

Cơ sở đữ liệu lớn có thê lớn về số lượng các bản ghi, lớn về số lượng các thuộc

tinh trong CSDIL Số lương các bản ghủ trong C8DL lớn có khi dụng lượng tới hàng

Gigabyte, terabyte: số thuộc tính trong CSDL có thế rât nhiều vả đa dạng Đẻ giải

phức tạp của bài toán lăng lên Vì vậy không gian từm kiểm không gian trạng thải

gia tăng, nhiêu mẫu hay mỗ hình thừa trùng lặp phát sinh nhiều luật thừa, đây được

coi là vấn để nan giải trong quả trình khai phá đứ liệu Nhằm giải quyết được những,

13

Trang 21

vấn để trên phải sử dụng một số các trị thức đã biết trước đề loại bồ và trích lọc ra

những dữ liệu thích hợp với yêu cầu của bải toán

Vẫn để dữ liệu bị thay đổi phụ thuộc theo thời gian, có nghĩa là đữ liệu bị ảnh hưởng và phụ thuộc vào thời điểm quan sát, lây mẫu, thời điểm khai phá Kết quả

đạt được sau khi khai phá cũng gây không ít khó khăn cho khai phá đũ liệu, như các

mẫu được khai phá ở bước trước, có thể không có giá trị hay vô nghĩa đối với thời điểm sử đụng, hoặc có thế làm nhiễu, hay phát sinh hiệu ứng phụ làm sai lệch kết qua Để khắo phục được vấn để này cần phải chuẩn hóa, cãi tiên nâng cấp các mẫu, các mô hình và có thể xem các thay đổi nảy lá mục dich của khai pha va tim kiếm các mẫu bị thay đổi Thuộc tính không phủ hợp, các bộ giá trị không đây đủ bị thiểu giả trị rong các miễn Huộc tính đã làm ảnh hướng rất lớn trong khai phá dữ liệu Trong quá trình khai phá đữ liệu, khi các hệ thống tương tác với nhau phụ thuộc

nhau mà thiểu vắng một vải giá trị nào đó, sẽ đẫn đến các mẫu không được chính

xác, bị thiểu không đây đủ Đẻ giải quyết cho van dé nay, người ta coi sự thiểu vắẳng của các dữ liệu này lá giá trị ẩn, chưa biết và có thẻ được tiên đoán bảng một

phương pháp náo đó

Quan hệ phức tạp giữa các thuộc tỉnh trong CSDL cũng lả vẫn để cân được quai tâm Những bệ thuộc tính có cầu trúc, phân lớp phức tạp, có mỗi liên hệ phức tap

với nhau trong CSDL đòi hỏi khai phá đữ liệu phải có các giải pháp các kỹ thuật dễ

có thể áp dụng được, nhận ra được các mỗi quan hệ nảy trong quá trình khai phá dữ

liệu

1.7 Kết luận chương 1

Nội dụng chương trình đã tìm hiểu quá trình phái hiện trí thúc và các vấn dé

+hai phá đữ liệu Phát hiện trí thwe (DD) là quá trình rút ra trí thức từ đũ Hiệu mà trong đó khai phá đữ liệu là giai đoạn chủ yêu Khai phá đữ liệu là nhiệm vụ khai

phá các mẫu có ích từ số lượng lớn dữ liệu, ở đỏ đữ liệu có thể dược lưu trữ trong

các CSDL, kho dữ liệu hoặc kho lưu trữ thông tin khác, Nó là một lĩnh vực cỏn mới

nể và được phát triển từ các lĩnh vực riur hệ thống CSDL, kho đữ liệu, thống kê, học máy, trực quan hóa dữ liệu Khai phá trí thức bao gồm nhiều giai doạn trong

14

Trang 22

đó giai đoạn khai phá dữ liệu là giai doạn quan trọng nhất Chương nay tom tất một

số phương pháp đàng đề khai phả đữ liệu vả phân tích việc khai phá dữ liệu Trong

các phương pháp khai phá đữ liệu, phát hiện các luật kết hợp là một lĩnh vực đang

được quan tâm nghiên cứu nhiều Phân này sẽ dược trình bay rõ hơn trong phần tiếp

theo của luận văn

l5

Trang 23

CHƯƠNG 2

KHAI PHA LUAT KET HOP

2.1 Bài toán khai phá luật kết hợp

Bai toán khai phá luật kết hợp được giới thiện từ năm 1993 vả nhận duoc rat Trhiểu sự quan tâm của nhiều nhà khoa học [Ì | Ngày nay việc khai thác các luật nhự thể vẫn là một trong những phương pháp khai thác mẫu phỏ biến nhất trong việc

phát hiện trí thức và khai phá đữ liệu

Mục ích chính của khai phá đữ liệu là các trì thúc duợc kêL xual ra

ð dược sử

dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa

học

Trong hoạt dộng sân xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu

thi, cdc nha quản lý rất thích có được thông tin mang tỉnh thống kế như: "90% phụ

nữ có xe máy máu đỗ va đeo đẳng hồ Thụy Sĩ thì dùng nước hoa hiệu Chanel” hoặc

“70% khách hàng là công nhần khi trua TV thường mua loại TV 21inches”, Những,

thông tin như vậy rất hữu ích cho việc định hướng kinh doanh Vậy vẫn để đặt ra là liêu có tìm được các luật như vậy bằng các công cụ khai phá dữ liện hay không”

Câu trả lời hoàn toàn có thể Đó chính là nhiệm vụ khai phá luật kết hợp

Giá sử chủng ta có một cơ sở đữ liệu T Luật kết hợp cho biết phạm vi ma trong

đó sự xuất hiện của lập các rục X não đó trong các bản ghỉ của T sẽ kéo theo sự

xuất hiện của tập các mục Ý cũng trong những bản ghi đỏ Mỗi luật kết hợp dược đặc trưng bởi hai thông số độ tra cậy và độ hễ trợ Độ tín cậy được biểu diễn bằng tỉ

lệ % những bản ghi trong T chứa cả X và Ý so với những bản phí trong T chúa X

Độ hỗ trợ dược biểu diễn bằng tỉ lệ 9% những bán ghi trong 1 chứa cá X và Y

‘Van đề khai phá luật kết hợp được phát biểu như sau: Cho trước độ hỗ trợ ø và

dé tin cậy ƒ Những luật kết hợp rong D có độ hỗ trợ và độ từn cây tương ứng lớn

hơn hoặc bằng ø và ƒ

Giả thiết T là CSDL giao địch và vai a = 10%, B = 90% Van đề khai phá luật

kết hợp được thực hiện như sau

16

Trang 24

Liệt kê, dếm tất cả những qui luật chỉ ra sự xuất hiện tập các mục này sẽ kéo theo sự xuất hiện tập các mục khác

Chỉ

hơn hoặc bằng 90%

ét những qui luật mà độ hỗ trợ lớn hơn hoặc bằng ⁄10% và độ tin cậy lớn

Hãy tướng tượng một công ty bản hàng qua mạng Internet Các khách hàng

được yêu câu điển vào các mẫu bán hàng để công ty có được mệt CSDL về các yêu cầu của khách hàng, Giả sử công ty quan lâm đến một quan hệ “tôi, giới tính, nghề nghiệp và sản phẩm” Khi đỏ có thể có rất nhiều câu hỏi tương ứng với luật trên

Ví đụ trang, lứa tuổi nào đó thì những khác hàng nữ lã công nhân sẽ đặt mua

ant hang gi do vi du do dai chang hạn là nhiều nhát, thổa mãn một ngưỡng nào do? 2.2 Một số khái niệm cơ bản

2.2.1 Định nghĩa về luật kết hợp

Cho cơ sở dữ liệu T gồm các giao dich ti t2, , in Ki hiéu T={ t1, t2, ., to}

được gợi là cơ sở đữ liệu giao dich

Mỗi giao dịch t bao gồm tập các mục I(temset), Ï= {iI, 12, ., im} Mét itemset

gồm k item được goi la k-itemset

Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương, quan giita cac item Một luật kết hợp được định nghĩa là một mệnh đề kêu thea cb dang XY,

trong đồ x,Y C 7 thõa mãn diều kiện X -¬Ÿ —Ø X, Y dược gợi là các tập mục (itemset) Tập X gọi là nguyên nhân, tập Y gọi là hệ quả

Theo quan điểm thẳng kê: X được gọi là biển độc lập và Y được gọi là biến phụ

thuộc

Co 2 độ do quan trong đối với huật kết hợp: Độ hỗ trợ (Support) va d6 tin cay

(Confiđence), được định nghĩa như phân sau:[2]

2.2.2 Dinh nghĩa về đỗ hỗ trợ

Độ hỗ trợ của tnột ap mus X trong cơ sở dũ Hệu T là tỉ lệ giữa số lượng các bãn

ghi + —7 có chứa tập mục X và tổng số bản ghi trong T (hay là phần trăm của các

tân ghỉ trong T có chứa lập mục Ä), kỉ hiệu SuppOf) vả có công thức sau:

Trang 25

Trong đó: nƠK) là số giao dịch chúa X, N là tổng số giao dịch.[2]

Dé hé tro của một luật kết hợp +Y _ >7 là tỉ lệ giữa số lượng các bản ghi chữa tập mục X UY so vdi téng số các bản ghi rong T Kí hiệu #upp(X —Y) có công,

'Trong do: n(X) là số giao dịch chứa X, N là tổng sé giao dich

2.2.3 Dịnh nghĩa độ tin cậy

D6 tin cậy của một luật kết hợp X —>7 là tí lệ giữa số lượng các bán ghi trong T

chữa tập mục X27 so với số lượng các bản ghỉ trong Ì chửa tập mục X Kí hiệu

conf(X = Y)cö công thức sau:

Ÿ<T|XUYCT} nỢX OY) - SuppCY2Y) m WeD|XcT} — n(X) Supp xX)

Trong dé: n(X) là số giao dịch chứa XÃ

Tập mục X dược gọi là tập mục thường xuyên (frequent itemset) nếu

Supp(X)> minsup, voi minsup la dé hé tro t6i thiểu cho trước.|2|

Ngược lại, một tập mục không thường xuyên X là tập mục mà độ hỗ trợ của nỏ nhỏ hem độ hễ trợ tôi thiên cho trước

Chung ta nhận thấy rằng, trị thức dem lại bởi luật kết hợp đạng trên có sự khác

biệt rất nhiều so với những thông tin thu được từ các câu lênh truy vẫn đữ liệu thông,

thường Đó là những trị thức, những mới liêu hệ chưa biết trước và mang tính dự

báo dang tiềm dn trong dữ liệu Những tri thức này không đơn giản là kết quả của phép gora nhóm, tính tổng hay sắp xếp mà là của ruột quá trình tính toán khá phức

tạp

Tuy nhiên, không phải bất cử luật kết hợp rảo có ruặt trong lập các luậi có thể được sinh ra đều có ý ngÌhữa trên thực tế Mi các luật phải thỏa mãn một ngưỡng hỗ trợ va fin cay cụ thể Thực vậy, cho một tập các giao địch T, bài toán khai phá luật

18

Trang 26

kết hợp là sinh ra tắt cả các luật kết hợp mà có dộ hỗ trợ supp lớn hơn hoặc bằng dé

hỗ trợ tối thiểu minsup và độ tin cậy conf lớn hơn hoặc bằng độ tin cậy tối thiểu

Tnineonf tương ứng do người dùng xác định, Khai phá luật kết hợp được phân thành

2 bài toàn con

Bài toán 1: Tìm tất cả các tập mục má có độ hỗ trợ lớn hơn hoặc bằng đỏ hỗ trợ tối thiếu đo người ding xác định Cáo tập mục thỏa mãn độ hễ trợ tôi thiên được gọi

là các tập mục thường: xuyên

Bài toán 2: Dửng các tập mục thường xuyên đề sinh ra các luật mong muền Ý

tưởng chung là nếu E' {iI, ï2, , mỹ là một tập mục thường xuyên, với mỗi lập mục

S={iI, ña, , ik} 1A tap con khang réng của F thi chúng †a có thể xác định luật

®_>F—® với độ tin cậy:

B trong T R6 rang voi CB thì ta sẽ có được s(1)> (#8) (những bản phí nào

chứa tập thì sẽ chứa tập A), va do vay Supp(4) > Supp(B) là điều hiển nhiên

Tĩnh chất 2: Giả sử A và I3 là hai tập mục, 41,8 7 Nếu B là tập mục thường

xuyén va 4c thi A cũng là tập mục thường xuyên

19

Trang 27

Chứng mình:

Thal vay, ACB taco Supp(A) = Supp(B) (theo tink chdt 7 & trên), Hơn nữa B là

tập mục thường xuyên nên Supp(A)>minsup Do vay Sxp(4)> Supp(R)> min sup

nén A cling là tập mục thường Xuyên

Tink chất 3: Giả sử A và B là bai tập mục, 4,2 CJ Néu 4c 8 va A là tập mục

không thường xuyên thì B cũng là tập mục không thường xuyên

Ching minh

‘That ACB tacd Supp(A} 2 Supp(B) (theo tinh chat 1 ở trên), Lien nữa A là

Supp( 8) 5 Supp(A) < minsup nêu T3 cũng lả tập mục không thường xuyên

2.3.2 Luật kết hợp

Tỉnh chất 1: Luật kết hợp không có tính hợp thành

Nếu có X—»P, Y—>Z trong † thi không nhất thiết ¥ UY > Z la dong

Chúng mình:

Thật vay, voi XY, FOZ là hai luật kết hợp thì tương ủng

supp x > 1)- "ED > nin amp va suppty = 7)- "E22 min sup Ta lai cd

Supp(X UY U2) < SupplX VY) va Supp(X UY U2) < Supp(Y 2) Nhu vay ta xét

trường hợp swzøX >Y)=nmimsup hodc = Supp(¥ > Z)=minsup thì

Supp(X OY WZ) <iin sup (dau = xây ra khi và chỉ khi cáo tập X, Y, Z luén xuat

Tiện cùng nhau trong một giao dịch)

Tương tự: Nếu có Y =Y,XZỦ YS UZ

That vy ta ec conf(X UY —2)—- TUBPCX VY 2) Supp(X UY)

conf(X > 2) = SHRM) coapey 7) = SPE 2)

20

Trang 28

Xét trường hợp Z có mặt trong một giao dịch chỉ khi X và Y cũng có mặt, tức là

Supp(X OY OZ) = Suppl X GY) = Suppl Z) = Supp(X IZ) = Supp\¥ IZ) = +

Suppl VY 2Z) _

Ỏ XK = Z)—

Khí do co Ýv/T S7) TT L, vả nếu như độ tín cậy tôi thiếu

xuineonf = 1 thi bai luật Ý _>Z và Y _>Z sẽ không đủ độ tin cậy,

Tuy nbidn, dao bi: XY UZ hi VP va YZ

Tinh chất 3: Luật kết hap không có tính bắc cầu

Nếu X =Ƒ và Y =>Z, chủng ta không thể suy ra X =>⁄

ag mink

Ta xét CSDL giao địch sau:

"Vải với minsuip=50%, mineonf=509% ta sẽ tìm được các luật kết hợp:

Ovi dutrénta c6 X=> Y va YZ nhung khéng tén tai XZ,

2.4 Một số hướng tiếp cận frong khai phá luật kết hop

Lĩnh vục khai thác luật kết hợp cho đến nay đã được nghiên cứu va phát triển theo thiểu hướng khác nhau Có những để xuất nhằm cải tiền thuật toán, có để xuất tìm kiểm những, luật có ý nghĩa hơn Dưới dây là một số hưởng chính [4]

T,uật kết hợp nhị phân (Binary association rule): La hudng ngbién cou dau

tiên của luật kết hợp Theo dạng luật kết hop này thi cdc items chi duge quan

tâm là có hay không xuất hiện trong cơ sở đữ liệu giao tac (‘lransaction database)

21

Trang 29

chứ không quan tâm về mức dộ hay tan xuất xuất hiển Thuật toán tiêu biểu nhất

của khai phá đạng luật này là thuật toán Aprior[4]

T,uật kết hợp có thude tinh số và thuộc lính hang muc (Quanlilative and

cateporial association rule): các cơ sở đữ liệu thực tế thường có các thuộc tinh da

dạng (như nhị phân, số, mục (categorial) ) chứ không nhất quán ở mệt dang wo

cả Vì vậy dễ khai phá luật kết hợp với các cơ sở đữ liệu này các nhà nghiên cứu dẻ xuất một số phương pháp rời rạc hóa nhằm chuyến dang hiật này vẻ dang nhi phân

Taật kết hợp mở (Íuzzy ssaocislion rulc): Với những khó khăn gặp phải

khi rời rạc hóa các thuộc tỉnh số, các nhả nghiên cứu đề xuất luật kết hợp mờ khắc

phục hạn chế đó và chuyển kiật kết hợp vẻ một đạng gần gũi hon [4]

Luật kết hợp với thuộc tinh dược dánh trọng sé (association mules with weighted items): Cac thuộc tỉnh trong cơ sở dữ liệu thường không có vai trỏ

ni nhau Có một số thuộc tính quan trọng và được chú trọng hơn gác thuộc

tính khác Vi vậy trong quả trình tìm kiểm luật các thuộc tỉnh được đánh trọng số

theo mức độ xác định nào đỏ Nhờ vậy ta thu được những luật “hiếm” (túc là cỏ

dộ hỗ trợ thấp nhưng mang rửuiễu ý nghữa).4]

Khai thác luật kết hợp song song (parallel mining of association rule): Nhu

chu song song hỏa và xử lý phân tân là cần thiết vì kích thước đữ liêu ngày càng lớn nên đòi hỏi tốc độ xứ lý phải được đảm bao.[4]

Khmi phá luật kết hợp sử dung SQL: Su da dang ola dit liệu, các nhiệm vụ

khai phá dữ liệu, vả các cách tiếp cận khai phá dữ liệu đặt ra nhiều thách thức trong van để nghiên cứu KPDL Sự phát triển của các hệ thống và phương pháp KPDL

22

Trang 30

hiệu quả, việc xây dựng các môi trưởng KPDL tương tác và tích hợp, việc thiết kế các ngôn ngữ KPIDL, và việc ủng dụng các kỹ thuật KPDL để giải quyết các vin dé

ứng dụng lớn là rhiệm vụ quan trọng đối với các nhà nghiền củu KPDL, hệ thông

KPDL vả các nhà phát triển ứng dung Phan nay dé cap dén mét sé van dé dang thu hút sự chủ ý của các nhà nghiên cứu KPD Làm thé nao dé ting cường hiệu suất, độ

chính xác, khã năng mỡ rộng, và lích hợp của các hệ thống khai thác dữ liệu? Tảm

thé nao dé giám độ phức tạp tỉnh toán 2 Làm thế nào đề cái thiện khả năng xử lý dữ liện không đây đủ, không phù hợp, và nhiễu ? Ba câu hỏi trên đã được tập trưng, nghiên cứ nghiên cứu bằng phương pháp khai phá luật kết hợp dựa trên sức mạn":

của BQL trong đó tập trung nghiên cửu 3 kỹ thuật cơ bán là k-nhánh (K-Way), gom

nhóm (2 Group by) và truy vấn lồng (Sub Query) va sẽ được trình bảy chỉ tiết ở

chương 3 của luận văn này

Trên đây là những biến thể của khai phá luật kết hợp cho phép ta tim kiểm

luật kết hợp một cách linh hoạt trong những cơ sở đữ liệu lớn Bên cạnh đó các

nhà nghiên cứu cón chủ trọng để xuất các thuật toán nhằm tăng tốc quả trình tìm kiếm luật kết hợp trong cơ sở đữ liệu

2.5 Kết luận chương 2

Trong nội dung chương này đã trình bảy một số định nghĩa cơ bản và các tinh

chất liên qua dễ luật kết hợp như Tập thường xuyên, độ hỗ trợ, độ tin cậy Đồng thời cũng trình bảy một số hướng tiếp cân trong nghiên cứu khai phá luật kết hợp

Dễ đi sâu hơn vào nghiên cửu khai phá luật kết hợp, trong chương 3 cúa luận

‘van tap tring nghiên cứu một số thuật toán điển hình trong khai phá luật kết hợp và đặc biệt đi sân về tim hiểu khai phá luật kết hợp bằng SQT

23

Trang 31

CHƯƠNG 3 KHAIPHA LUAT KET HOP SU DUNG SQL

3.1 Đặt vẫn dé

Ở chương 1 chúng ta đã từm hiểu tổng quan về phát hiện trí thức vả khai pha

dữ Hiệu, qua đó cho thấy ý nghĩa quan trọng của khai phá đữ liệu là tìm ra các trỉ

thức hữu ích tiêm an bén trong các khỏi dit ligu ma hàng ngày chúng ta vin dang,

thu thập được Liện nay đã có rất nhiều giải pháp được đưa ra ứng dụng trong khai

pha đữ liệu, tay nhiên trên thực tế cho thây quả trình này vẫn côn pặp rất những khó

khăn và thách thức

Khai phá các luật kết hợp là một tiếp cận khai phá đữ liện nhằm phát hiện ra các hiật kết hợp giữa các thành phần dữ liệu trong cơ sở đữ liệu Mục dich chính của quả trình này là tìm các trị thúc đưới dạng các luật được kết xuất ra từ đữ liệu để sử đụng trong đự báo thông tin, trợ giúp trong sân xuất kinh đoanh và nghiên cứu khoa

học Một trong những thuật toán được sử đụng nhiều khi khai phả luật kết hợp là

thuật toản Apriori và cáo mở rộng của thuật toán này [5]

Như chủng ta đã biết SQL là ngôn ngữ của cơ sở dữ liệu, có khá năng rất mạnh

*hi truy vân đữ liệu, chính vì thể, gần đây có nhiều nghiên cứu khai phá luật kết hợp

Đằng cách xây dựng thuật toán Amiori sử dụng SQT Kỹ Ihuật này không chỉ khai

thác được sức mạnh cứa SQL, một ngôn ngữ được tịch hợp trong hau hết các hệ

quản trị cơ sở đữ liệu, mà còn cho thầy tính hiệu quả vẻ tốc độ xứ lý và thục thị

Trong chương 3 nảy tập trung nghiên cửu quá trình khai phá luật két hợp sử dụng SQL Phản 3.L là kiến thức nên tăng về thuật toán Apriori Cách tạo tập các

ứng viên sử dụng SỢI dược trình bày ở phân 3.3 Phẫu 3.4 trình bảy việc tính toán

độ hỗ trợ của tập mục thường xuyên bằng, các kỹ thuật nổi k-nhành (K-way join), kỹ Thuật gom nhóm (Group by), và kỹ thuật sử dung truy van ling (Sub query) Giai doan sinh luật từ tập mục thường xuyên dược trình bảy ở phần 3.5 Phần cuỗi của chương 3 là một ví dụ minh họa vẻ khai phả luật kết hợp sử dụng SQL tử cơ sở đữ

liệu giao địch

24

Trang 32

3.2 Thuật toán Aprinri

3.2.1.Ý tưởng

Apriori la một trong những thuật toán khai phá đứ liệu được sử đụng khá phố

biển, cụ thế hơn là nó được đừng để khai phá luật kết hợp trong cơ sở đữ liệu

Apriori là giải thuật dược Rakesh Agrawal, Tomasz Imiclinski, Arun Swami dé xuat lin dau vào năm 1993 |4]

Thuật toán Apriori đựa trên một nhận xét tỉnh tế là bắt kỹ tập hợp con nao của

tập mục thường xuyên cũng lả tập mục thường xuyên Do đó quá trình tìm tập mục

thường xuyên, chỉ cân dùng đến tập mục thường xuyên vừa xuất hiện ở bước ngay trước đó, chủ không đúng đến tắt cả các tập mục thường xuyên, tính dến thời diễm

tiện tại Nhỏ vậy, bộ nhớ được giải phòng đẳng kế va thời gian tính toán nhanh hơn |4]

Quá trình thực hiện thuật toán Apriori có thẻ được liệt kê theo các bước sau:

ước 1: Tìm tắt cả các tập mục thường xuyén (frequent itemset)

Tập mục thường xuyên k-itemset tìm dược dùng dễ từn tập mục thường xuyên (KH}-iemset

Pan tién tim tập mục thường xuyên 1-itemset (E,) San đó F, được đừng dé tim T; (2-itemseÐ, cho đến khi không cỏ tập mục thường xuyên k-itemset nào được tìm thay

Bước 2: Từ các lập inue thường xuyên sinh ra các luật kết hợp thốa mãn ngưỡng

độ tin cậy tôi thiểu (mineonỆ)

'Với mỗi tập mục thường xuyên T = {i, ip, ., i} ta liệt kê tất cã các tập mục

Si, b, , k} là tập con không rống của F và thiết lập luật kết hợp ÿ~># —ÿ nêu thốa mãn ngưỡng độ tin cậy tôi thiểu

3.2.2 Thuật toán

Đầu vàa: Cơ sỡ đữ liệu giao địch T, độ hỗ trợ tải thiểu zữasup

Đầu ra: Các tập mục thường xuyên

Các hước thực hiệ

Bước 1: Duyệt toàn bộ cơ sở đứ liện giao địch để có được tập ứng cử viên Cy

(1-itemseÐ) và độ hỗ trợ Supp tương ứng So sánh Supp với miisup đề có được tập

xnục thưởng xuyên l (1-itemset)

25

Trang 33

Bước 2: Sử dụng F\.¬ kết nối nội với chính nó, tức là kết nỗi F¿+ với Ei dé sinh

Ta tập ứng viên k-itemset Cụ,

Bước 3: Duyệt cơ sở đữ liệu giao địch để tỉnh độ hỗ tro supp cha mai tập ứng

cử viên k-ifemset Cụ So sánh độ hỗ trợ supp voi minsup (supp > minsup) dé thu

được tập mục thường xuyên k-itemset (Ey)

Bước 4: Tắp bước 3 cho đến khi tập ứng cử viên Ck bang rong

Bước 5: Với mỗi tập mục thường xuyén F, sinh tất cả các tập con 5 không rỗng

của F

Bước 6: Với mỗi lập con S, tạo ra các luật có đựng §—(E— 9) tiểu độ tín cậy

của nó thỏa mân ngưỡng độ tin cậy tối thiểu (mineonf)

Trên đây là giải thuật chung của thuật toán Apriori, bây giờ ta xét cụ thể từng

công đoạn cửa thuật toàn Apriori

†m tất cả các tập mục thường xuyên (lập mục thường xuyên là tập con của tập

Cyl, Lid tap tat cd cde myc {mat hang) trong ‘Tv

Fic (ff oClL scouts N > win sup}, 2N: tổng số giao địch

for (k= 2, F,*@: kl \)do Z Duyệt tới khi không cá F, nào được im thấp

Tor cach transaction r<7 đo “Duyét timg giao dich trong T

for each candidate e<C,do 2Ðuyệ! từng tập ứng cử viên trong Cụ

if c is contained int then

c.count ++;

end end

ke {ec C, |e.count/N > min sup}

Trang 34

Hàm tạo tập ứng cử viễn C¡ từ Fy, ,

return Cụ

Hink 3.2: Ham tao tap ing cit vin Cy tit Fy Tack op pm thường xuyên vừa lao ở trên:

Với mỗi tập mục thưởng xuyên F tìm dược

- Tim tat cả tập con không rỗng S của TT

- Tao hiật kết hop #=>(—#) nêu thêa mãn ngưỡng độ tin cây tối thiếu

(minconf)

Tom lại dễ khai phá được các luật kết hợp Đằng thuật Loán Apriori ching ta cần

xây dựng được 3 thủ tục quan trọng như sau đây:

I Tạo cáo tập mục từng viên Cụ

+ Tỉnh Loạn độ hỗ trợ của các lận mục ứng viên để

Trang 35

3.2.3 Vidu mink hoa

GIả sử ta có một cơ sở đữ liệu giao dịch T như sau:

Mã giao địch | Các mặt hàng được mua (itemset)

Thịt bỏ, Thít gà, Sữa

‘Thit bo, Banh fomat

Banh format, Giay

Thit bo, Thit g4, Banh fomat Thịt bò, áo, Bánh fomat, Stta

Thịt gà, Quận áo, Sữa

Thịt gã, Sửa, Quận áo

Co sở đi giao dich T

Vii minsup — 30%, mincon! — 80% ta thực hiện lần lượt theo thudt Loan Apriori

Tân duyệt 1 ta được lập ứng gữ viên Cụ (1-itomset) và độ hỗ trọ lượng ứng

Ttemset Support (sup) 'Thịt bò

Thịt gà Sữa anh fomat Giay

Quản áo Tâp các ứng cử viên C¡ (1-ifemisef)

múa

fun

tà

Tioại bổ các iIemnset trang Cị không phải là tấp mục thường xuyên ta dược gác

tap mục thường xuyên lị (1-itemset) (tân suất xuất hiện >3)

Tiêu đề	Luận Văn Nghiên Cứu Khai Phá Luật Kết Hợp Sử Dụng SQL
Trường học	Trường Đại Học Khoa Học Tự Nhiên
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn
Năm xuất bản	2022
Thành phố	Hồ Chí Minh

Định dạng
Số trang	71
Dung lượng	1,04 MB