Khai phá các luật kết hợp là một tiếp cận khai phú dữ liệu nhằm phát hiện các luật kết hợp giữa các thành phần dữ liệu trong cơ sở đữ liệu.. Quá trình phát hiện trí thức từ CSDL có thể
Trang 1
DANH MUC CAC KY HIEU, VIET TAT
1.4.3 Các kỹ thuật khai phả dữ liệu: _—
1.4.1, Phương phap quy Map neecsecsessassieesseestiseeneeesiensiestisentiatenseen sind)
Trang 22.3.3 Định nghĩa dộ tin cậy à eeeriirreraeeooo, TẾ
2.3 Một số tính chất liên quan ị cec "¬¬
3.5.1 Sinh cáo luật kị hợp Sự các tập mục phổ bị Hóc Xeeeeeeroeu37
3.6 Một ví dụ về khai phá luật kết hợp sử dụng SQI, - - 4 3.7 Kết luận chương 3
CHUONG 4 THU NGHIEM VA BAN LUẬN
4.1, Tht nghiém khai phả luật kết hợp
4.1.1, Bài toán thử nghiệm ànirerrerree MA AB
4.1.4 Trién khai tìm các luật kết hợp từ tập mục thường xuyên 60
KẾT LUẬN
TÀI LIỆU THAM KHẢO
Trang 3DANH MỤC CÁC KÝ HIỂU, VIÉT TAT
KDD Knowledge Discovery in Khai pha tri thite trong oo sé dit
minconf Minimum Confidence Độ tm cậy tôi thiểu
Minsup Minimum Support Độ hễ trợ tối thiểu
TDL ‘Transaction Indentification —_ | Dinh danh giao tac
Trang 4
DANH MỤC CÁC HÌNH
Hình 1.1 Quả trinh phát hiện tri thức từ CSDL
linh 1.2 Mẫu kết hợp với phương pháp cây quyết định
Hình 3.1; Thu&t tod Aptiori esses sasseessseeseseinenstneseeee
Hình 3.2: Hẻm tạo tập ứng cử viên Cy tit Fea
Linh 3.5: ‘Lao va oft tia tập các ứng viên có độ dài E
THình 3.6: Sinh vả tửa lập các ứng viên gó độ dài k— 4
Hinh 3.7: Tinh dé hé tro theo ky thuật k- nhánh
Hình 3.8: Mô hình tính độ hỗ trợ bằng kỹ thuật k- nhánh
Hình 3.9: Tĩnh độ hỗ trợ theo kỹ thuật gom nhóm
Tlinh 3.10 Tinh đỗ hã trạ theo sử dụng truy vẫn lỏng,
Hình 3.11: Mê hình tỉnh độ hồ trợ bằng kỹ thuật truy vẫn lỏng,
Hình 3.12: Sinh các luật kết hợp tử các tập mục phỏ biến
Trang 5DANH MỤC CÁC BẰNG Bang 3.1: Đăng tập phổ biển "FISETS"
Bang 3.2 Bang “Primary-Rules”
Bang 3.3 Bảng "ruÏe3” in 2022010 eecee
Bảng 3.4: Dữ liệu đầu vào
Bang 3.5, Bang "M8 t8" ccc secseesssstsinsnnes servis seennetneee
Bang 3.6 Bing “Associate rule”
Bang 4.7 Tap mục thường xuyên F3
Bang 4.8 Bang PFrequentSet ssssesssnsiessnseavesesnensineeneeeie
Bang 4.9, Đảng luật kết hợp
ii
Trang 6LOT CAM DOAN Luận văn thạc sỹ này đo em nghiên cứu và thực hiện dưới sự hướng dẫn của
Thay giáo TS Phan Anh Phong Với mục dích học lập, nghiên cứu để nâng cao
kiên thức và trinh độ chuyên môn nên em đã làm luận văn này một cách nghiêm tức
và hoàn toàn Irung thực
Tổ hoàn thành bản luận văn này, ngoài các tài liệu tham khảo đã liệt ké, em
cam đoan không sao chép toàn văn các công trình hoặc thiết kế tết nghiệp của người
Trang 7thông lin, Viện Công nghệ thông tu và Truyền thông trường Đại học Bách khoa
‘Ha Nội đã giúp đỡ em trong qua trinh thực hiện luận văn
Cuối cùng, em xim cam on gia định, bạn bè và lập thể lớp 13BCNTT-VINH,
những người đã luôn ở bên khích lệ và động viên em rất nhiều
Trong quá trình làm luận văn, vĩ một số lý do về thời gian va kién thie han hep
tiên không trảnh khối những sai sót trong để tải Lm rất rong nhận được sự góp y
hen nữa của quý thây giáo, cõ giáo và các bạn
Em xin chân thanh cam on!
tháng 10 năm 2015 Hạc viên
Phan Văn Nhật
Trang 8MO PAU
Có thể nói rằng, ngày nay công nghệ thông trì (CNL) đã trở thánh một phần không thể thiếu trong cuộc sống của xã hội hiện đại CMTT đã và đăng được ứng dụng sâu rộng ở nhiều lĩnh vực khác nhau trong hoạt dộng thường ngày của chúng,
†a như Giáo đục, Y tế, Khoa học, Xây dụng, Kinh doanh,
Việc sử dụng CNTT dễ lưu trữ dữ liệu và khai thác thông tia phục vụ các hoạt
động tác nghiệp đã được phát triển từ những nằm 60 của thể kỷ trước Tuy nhiên, chúng ta vẫn có thể bị thiểu thông tin hữu ích cho đủ dữ liệu không lổ, nếu chủng ta không biết các kỳ thuật khai thác
Gan đây, nhiều nghiên cứu đã chỉ ra, việc nắm bắt tốt thông tim được coi là cơ số quan trọng của mọi hoạt động sản xuất, kinh doanh Cá nhân hay tổ chức nảo thu thập và hiểu được thông tin và hành động đựa trên cáo thông tin được kết xuất tr
các thông tin đã gó số đạt được thành công trong mọi hoạt động Chính vì thế, việc
tạo ra thông tin, tổ chức lưu trữ và khai thác chúng ngày cảng trở nên quan trọng Bên cạnh đó các thiết bị thu thập đữ liệu tự động tương đổi phát triển đã tạo ra những kho đữ liệu khong 16 Voi su phat triển mạnh mế của công nghệ điện li tao
ra cáo bộ nhớ có dung lượng lớn, bộ xử lý tốc dộ cao cùng với các hệ thông mạng, viễn thông, người ta đã xây dụng cáo hệ thẳng thông Em nhằm tự động hóa mợi hoạt đông kinh doanh của mình Điều này đã tao ra một nguồn đữ liêu tăng lên không ngừng trong cuộc sống như: thương mại, quản lý và khoa học đã lắm nay sinh va thic day su phát triển của kỹ thuật thu thập, hm trữ, phân tích và khai phá đữ liệu
xuà dôi hỏi cách xử lý thông manh hơn, hiệu quả hơn Từ đỏ dặt ra cho các các nhà
quan ly van đề, là làm thể nào đề xử lý khôi lượng thông tín cực lớn như vậy phát hiện ra các thông tin him ích để tác động lại quá trình sản xuất, kinh doanh của
xinh đỏ là trí thức
Để làm được điều đá người ta đã sử dựng các kỹ thuật cho phép ta khai thác dược trí thức hữu ich từ CSDL lớn được gọi là các kĩ thuật khai phả dữ liệu (Data Mining - DM) Néi một cách nôm na khai phá đữ Hệu lả quá trình trích xuất các
thông tin cô giá trị tiểm ấn bên trong lượng lớn đữ liệu Hiện nay, ngoài thuật ngữ
1
Trang 9khai phả dữ liệu, người ta côn dùng một số thuật ngữ khác có ý nghĩa tương tự như:
Khám phá trị thức từ CSDL, phan tich di liệu/mẫu, nạo vét dữ liệu
Đã có rái nhiều giải pháp được để xuất ứng dụng trorg khai phá đữ liệu, tuy nhiên trên thực tế cho thây quá trình này vẫn còn gặp rất những khó khăn và thách
thức Khai phá các luật kết hợp là một tiếp cận khai phú dữ liệu nhằm phát hiện các
luật kết hợp giữa các thành phần dữ liệu trong cơ sở đữ liệu Mục dich chính của quả trình này là tìm các trí thức đưới dạng các luật được kết xuất ra từ đữ liệu để sử
dụng trong dự bảo, trợ giúp ong sẵn xuất kinh doanh và nghiên cúu khoa học
Khai phá luật kết hợp được đề xuất lần đâu vào năm 1993 và phát triển mạnh
trong vải thập kỷ gần đây Những nghiên cúu về khai phá luật kết hợp lập Irung xây dựng, các thuật toán dẻ khai phả luật kết hợp một cách hiệu quả hoặc cãi tiến, phát triển các thuật toán đã có hoặc phát triển các ứng dụng Mội trong những thuật toán được sử dụng nhiền khi khai phá luật kết hợp là thuật loan Apriori và các mỡ rộng
của thuật toán này [4]
Như chúng ta đã biết SQI, là ngôn ngữ của cơ sở đữ liệu, có khả năng rất mạnh khi truy vấn đữ liệu, chính vì thế, gân đây có nhiều nghiên cứu khai phá luật kết hợp
‘bang cách xây dung thuật toán Apriori sử dụng SQL Kỹ thuật này không chỉ khai
thắc được sức mạnh của SỢI., một ngôn ngữ được tích hợp trong hau hết cáo hệ
quan tri cơ sở đữ liệu, mà còn cho thầy tính hiệu quả vẻ tốc dộ xử lý và thực thị
Tử những lý do trên tôi đã chọn “Nghiên cửu khai phá luật kết hợp sử dụng
SQU” làm để tài cho luận văn Thạc sỹ của mình
Tục tiêu cña dé tai:
Trang 10+ Đặc biệt là di sâu vào nghiên cứu phương pháp khai phá luật kết hợp sử dung SQL
+ Xây dựng, trién khai mé hinh thue nghiém,
Ngoài phần mở đầu, kết hiện và tải liệu tham khảo nội dung ban luận van
*Nghiễn cứu khai phá luật kết hợp sử dụng SQL” dược tổ chức thành 4 chương
Chương 1 Tổng quan về phát hiện tri thức và khai phá dữ tiện
Phát hiện trí thúc vả khai phá đứt liệu, quả trình khám phá trí thúc từ CSDL; các
kĩ thuật, phương pháp khai phá đữ liệu, nhiệm vụ và một số ứng dụng của khai phá
đữ liệu
Chương 2 Khai phá luật kết hợp
Giới thiệu một số khải niệm vẻ luật kết hợp, định nghĩa vẻ luật kết hợp, tập mục thường xuyên, độ lin cây, độ bỗ trợ một số tính chất cơ bản hên quan: của lập rnục
thường xuyên trong luật kết hợp củng các vỉ đụ minh họa tương ứng,
Chương 3 Khai phá luật kết hợp sử dụng SQL
Nội đung bao gềm: Nghiên cửu về thuật toán Apriori phương pháp tiếp cận, Tạo tập các ứng viên, Tính toán độ hỗ trợ của các tập mục thường xuyên bằng các kỹ
thuật truy vẫn SQL như: kỳ thuật kết nỗi k-nhanh, kỹ thuật gom nhóm và kỹ thuật
sử dụng truy vẫn lồng, đánh giá tu nhược điểm của 3 kỹ thuật này, Sinh luật
Chương 4 Thủ nghiệm và bàn luận
Chương 4 trình bảy các bước triển khai thử nghiệm và Demo việc khai phá luật kết hợp với bộ dữ liêu khách hàng từ cơ sở đữ liệu ngân hàng Sau dó bản luận về các kỹ thuật tính toán khi sử dụng SQL khai phá luật kết hợp trên bộ dữ liệu thử
nghiệm
Trang 11CHƯƠNG 1
TONG QUAN VE PUAT HLEN FRI THỨC VA KILAI PLA DU LUEU
1.1 Phát hiện tri thức
Phát hiện trị thúc rong ede ov sé dit idu (Knowledge Discovery in Databases-
KDD) là quá trình tìm kiểm những trị thức tiêm ản, không biết trước, và có ích trong khối cø sở đữ liệu (CSDL) Thực chất đỏ là quá trình tìm kiếm những thông,
tin có trong cơ số dữ liệu nhưng bị che đấu trong các khối đữ liệu
Nhiều người coi khai phá đữ liệu và phát hiện trí thức trong cơ sở dữ liệu là như
nhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quả
trình phát hiện tri thức trong cơ sở đữ liệu
1.2 Quá trình phát hiện trí thức từ cơ sở dữ liệu
Thát hiện trí thức từ CSDL là quá trình sử dụng các phương pháp, công cụ tỉa
Tiọc lối ưu nhằm đạt được mục đích nhất định
Quá trình phát hiện trí thức từ CSDL có thể được chia thành các bước như sau:
% Lâm sạch dữ liệu (Data Cleanmg} Loại bỏ đữ liệu nhiều, hoặc dữ liệu
% Chuyên đổi đữ liệu (Data Transformation) chuyển dữ liệu vẻ những dạng
phủ hợp cho việc khai phá
% Khai phá đữ liệu (Đaia Mining) các kỹ thuật được áp dụng để trích xuất thông tin có ích hoặc các mẫu điện hình trong đữ liệu
s# Đánh giá mẫu (Pattern Evaluation) Danh giá mẫu hoặc trí thức thu được
% Trình diễn dữ liệu (Knowledee Prcsentation): Biểu diễn những trì thức khai pha duge.
Trang 12Tinh 1.1 Quả trùnh nhát hiện trĩ thức từ CSDL,
Hình 1.1 trên đây mô tả năm giai đoạn trong quá trình phát hiện ui dite ur CSDL Mặc đủ có năm giai đoạn như trên song quá trình phát hiện trị thúc từ CSDL
là một qua trình lương tác và lặp đi lắp lại theo chủ trình liên tục theo kiểu xoáy
tròn ốc trong, đó lần lặp sau hoàn chỉnh hơn lần lặp trước Ngoài ra giai doan sau lại
được dựa trên kết quá thu được của giai đoạn trước
1.2.1 Tara chon
Lua chon 1a giai đoạn lọc và lựa ra những đữ liệu phủ hợp liên quan trực tiếp tới nhiệm vụ phân tích trích rút từ CSDL,
Mục đích của quả trình này là chọn lọc những CSDI, liên quan đến mục đích và
yêu cầu phát hiện trí thức Thực tế các nguồn CSDL được phân hóa và phục vụ ở nhiều lĩnh vực khác nhau như sắn xuất, kinh doanh, y tế, giáo dục, Vỉ thẻ lượng
trị thúc phát hiện được từ CSDI, số có ý nghữa khảo nhau cho từng lĩnh vục
Để lựa chọn được CSDL phù hợp cho quá trình phát hiện trí thức, người ta
thường đặc biệt quan tam đếu mục đích, nhiệm vụ và lĩnh vực liên quan tới việc
phát hiện trì thức.
Trang 131.2.2 Tiền xử lý dữ liệu
Tiển xử lý dữ liệu lả giai doạn bao gốm các công, việc làm sạch, làm giàu, biển đổi và rút gọn từ khối dữ liệu lớn thích hợp cho giai đoạn sau CSDI, sau khi chọn
lựa mới chỉ ở mrức liên quan trực tiếp tới nhiệm vụ phát hiện tri thức Những đữ liệu
nảy có thể chưa dây dú, chưa thuần nhất, chứa nhiễu giá trị dặc biệt
Do vậy mục địch của qúa trình tiên xứ lý nhằm loại bỏ những đỡ liệu dư thửa,
tổ sung đữ liệu và đồng nhất hóa đữ liệu Các công việc chính bao gềm: Chẹn loc
đữ liệu, làm sạch đít liệu, làm giảu dữ liệu và mái hóa đữ liệu
Để thuận tiên cho việc phan tich, khai pha dit ligu thi dir én dau vào phải được chuẩn hóa theo khuôn mẫu thuận tiệt
nhiệm vụ của quá trình chuyển đạng đữ liệu
pho các huật toán khai phá đữ liệu Đó là
1.2.4 Khai phá dữ liệu
Khai phá dữ liệu sử dụng, các công, cụ, thuật toán để lấy ra các mẫu dữ liệu có Ý
nghia tir khéi dữ liệu
Dây là quá trình then chốt của phát hiện trí thức Quá trình khai phá đữ liệu sử
đụng các thuật toán khai phá đữ liệu dễ dưa các các mẫu/mô hình dữ liệu tiểm ân
trong khỏi đữ liệu lớn
'Tủy thuộc vào mục địch, yêu câu của việc phát hiện trị thức, tại quá trình này
việc lựa chọn các giải thuật phủ hợp là công việc quan trọng để đảm bảo hiệu suât
và kết quả của công việc
Trang 141.2.5 Trình diễn
Trình điễn là việc thể hiện các mẫu đữ liệu sau khi khai phá thành các dạng báo cáo đỗ truyền đại tới nguồi dùng và biến nó thánh trí thức hữu dung
Kết quả của quá trinh khai phá đữ liệu là các mẫu/mô hình đữ liệu có ý nghĩa và
để phân tích Tuy nhiên dây là các mấu/mô hình ở dạng thỏ cò thể chua trỡ thành trì thức của người yêu cầu phát hiện trỉ thức
Trình diễn là quả biển dỗi, thể hiện các mẫu/mô hình đữ liệu đó thánh các dạng
báo cáo phục vụ cho các mục địch khác nhau
1.3 Khai phá đữ liệu
Định nghĩa: Khai phá đữ liệu là một tập hợp các kỹ thuật được sử dụng để tự
động khai thác và tùm ra các mỗi quan hệ lẫn nhau của đữ liệu trong một tập hợp dữ
ấn trang tập đữ liệu
liệu không lễ và phúc tạp, đồng thời cũng tìm ra các mu tié
đó
1.3.1 Nhiệm vụ của khai phá đữ Hện
Ta đã biết nuc đích của khai phá đữ liệu là các trị thức duợc chiết lọc từ cơ sở
dữ liệu để phục vụ cho các lĩnh vực sản xuất, kinh doanh, y tế, giáo đụo
Do vậy, ta có thể xem mục đích clunh của khai phả đữ liệu là mô tả va du đoán
Đự đoán: Đưa các mẫu/mô hình dữ liệu chiết xuất để dự đoán những giả trí chua biết hoặc những giá trị trong tương lai
Mô tả: Tìm kiếm và liệt kê các mâuAanô hình dữ liệu mà cơn người có thể hiểu
để sử dụng vào các raục dich khác nhau
Với 3 mục đích cơ bản trên, nhiệm vụ của khai phá đứ liệu bao gồm:
- _ Phân cụm, phân loại, phản nhỏm, phân lớp
~ Khai phá luật kế hợp
- Lap mé hinb dy bio
- Phan tích đổi tượng ngoài cuộc
- _ Phân tích sự tiên hóa
Trang 151.3.2 Các kỹ thuật khai phá đữ liệu:
Các kỹ thuật khai phá đứ liệu thường được chia thành hai nhóm chính cụ thế Thư sau
- Kỹ thuật khai phá đữ liệu dự đoán: Băn chất của kỹ thuật này là đưa ra các dự doan dựa vào các suy diễn trên CBDL hiện thời Các kỹ thuột này gốm có: phân lớp,
1.3.2.1 Kỹ thuật khai phá dữ liệu dự đoán
& Phân lớp đã liệu
Mục tiêu của kỹ thuật phân lớp dữ liệu là dự đoàn nhãn lớp cho các mẫu dữ liệu
Quá trình phân loại đữ liệu bao gồm 2 bước: xây dựng mô hình và sử dụng mô hình
để phân loại
- _ Xây đựng mê hình dựa trên việc phân tích các mẫu đữ liệu cho trước
-_ Sử đựng mô hình để phân loại dữ liệu
+ Bước 1: Mô hình sẽ được xảy đựng đựa trên việc phân tích các mẫu đữ liệu có sẵn, mỗi mẫu tương ứng với 1 lớp, được quyết định bởi một số thuộc tỉnh gợi là
thuộc tính lớp Các lớp đữ hiệu này còn được gọi là lớp dữ liệu huân luyện (traming data set) Các nhãn lớp của tập đứ liệu huần luyện để phải được xác định trước khi xây dựng mô hình
+ Bước 2: Sử đụng mô hình đề phản lớp đữ liệu trước hết chứng ta phải tính độ chính xác của mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử
dụng để dự đoản nhãn lép cho các mẫu đữ liệu khác trong tương lai
b Phương pháp hỗi quy
Khác với kỹ thuật phân lớp dữ liệu chỉ đàng để dự đoán về cáo giá trị rời rac thi
kỹ thuật hải quy được dùng để dự đoán về các giá trí liên lục
§
Trang 16Hội quy là một hàm toán học ánh xạ mục dữ liệu thành một biển dự doán có giá
trị thực [rong cuộc sống có rất nhiễu ứng dung khai phá dữ liệu với nhiệm vụ hội quy, cụ thể như: đảnh giá tình trạng sức khỏe của bệnh nhân khi biết được kết quả xét nghiệm chân doán, dự doàn khả năng tiêu thụ của một sản phẩm mới bing ham
chỉ tiên quảng cáo
1.3.2.2 Khai phá dữ Hệu mô tả
Nhiệm vụ của khai phả đữ liệu mô tá lá mỗ tả về các tính chất hay đặc tính
chưng của dữ liệu trang CSDL, hiện thời
Bao gim các kỹ thuậi: ! Kỹ thuật phân cụm;
+ Kỳ thuật khai phá luật kết hợp;
œ Phân cụm đấ liệu
Mục tiêu chính của kỹ thuật phân cụm dũ liệu là nhóm các đối tượng lương lự
nhau trong tập đữ liệu vào các cụm sao cho các đổi tượng thuộc củng một cụm là tương đồng còn các đối tượng thuộc các cụm khác sẽ không tương đẳng
Môi dỗi tượng có thể thuộc về nhiều hơn mội cự
b Khai phả luật kết hợp
Mne liêu chính của kỹ thuật khai phả luật kết hợp là phát liên và đưa ra các mồi
quan hệ giữa các giá trị dữ liệu trong CSDL Đầu ra của khai phá dữ liệu sử dụng kỹ
thuật này là các luật kêt hợp tim được
Khai phả luật kết hợp được thực hiện
n quá 2 bước cơ bắn
+ Bước 1: Là tim tất cả các tập mục phổ biến, một tập mục phỏ biển dược xác định qua độ hễ trợ và có độ hỗ trợ lớn hơn độ hễ trợ cực tiểu
| Buée 2: Khi sinh ra các luật kết hợp từ tập mục phố biến, độ hỗ trợ và độ tia
cậy của các luật phái lớn hơn độ hỗ trợ cực tiểu vá đỏ tia cậy cực tiểu tương ứng 1.4 Một số phương pháp khai phá dữ liệu
1.4.1 Phương pháp quy nạp
Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn
cũng có thể được suy điễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này đó là suy điễn và quy nạp
Trang 17+ Phương pháp suy diễn:
Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở đữ liệu
Phuong pháp suy điễn dựa trên các sự kiện chỉnh xác để suy ra cáo ri thúc mới Lit
các thông tin cũ Mẫu chiết xuất được bằng cách sử đụng phương pháp này thường,
là các luật suy tiễn
+ Phương pháp qMy nạp:
Phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở đữ liệu Có
ghứa là nỏ tự tìm kiểm, tạo mẫu và sinh ra trì thức chứ không phải bắt đầu với các
trì thức đã biết trước Cúc thông tin ma phương pháp này đem lại là các thông tin
hay các trị thùc cấp cao diễn tả về các dối tượng trong cơ sở dữ liệu
1.4.2 Cây quyết định và luật:
& Cây quyết định:
Cây quyết dịnh là một mô tả trị thức dạng dơn giản nhằm phân các dối tượng dữ liệu thành một số lớp nhất định Các mút của cây được gản nhãn là tên các thuộc
tỉnh, cáo cạnh được gản các giá trị có thể cña cáo thuộc tính, cá
Khéng cho vay Cha vay
Hink 1.2 Mau két hup voi plucong pl
10
Trang 18b Tạn luật
Các luật được tạo ra nhằm suy điển một số mẫu đữ liệu cỏ ý nghĩa về mặt thông
kê Các luật có dạng Nếu P Thì Q, với P là mệnh để đúng với một phản trong cơ sở
dữ liệu, Q la mệnh đễ dự doàn
Cây quyết định và luật có ưu điểm là bình thức mã tâ đơn giầu, mô hình suy
điển khá để hiểu đôi với người sử dụng Tuy nhiên, giới hạn của nó là mô tả cây và
luật chỉ có thế biểu điễn được một số đạng chức năng vả vị vậy giới hạn cả về độ
chỉnh xác của mô hình
1.4.3 Phát hiện các nat kết hop
Thương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phân đữ
điệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá đữ liệu là tập luật kếL
hep tìm dược Một vi dy don giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và l3 có nghĩa là sự xuất hiện của A trong bin ghi kéo theo sự xuất
tiện của B trong cùng bản ghi đó: A > B
Cho một lược để R= {AI,A2, „ Ap} các thuộc tính với miễn giá trị {0.1},
và một quan hệ r trên R Một luật kêL hợp trên r được mô tả dưới dang X >B với
+ RvậT €RWX Về mặt trực giác, ta có thê phát biểu ý nghĩa oủa luật như sau
Nếu một bản ghi của bằng r có giá tị Ï tại mỗi thuộc tỉnh thuộc 3X thỉ giá trị của thuộc tính 1š cũng lá một trong củng bản ghỉ đó Ví dụ: như ta có tập cơ sở đữ liệu
vẻ các mặt hàng bán trong siéu thị cáo đòng tương ứng với cáo ngày bán hàng, các cột tương ứng với các mặt hàng thỉ giá trị 1 tại ô (20/10 bánh mủ) xác định rằng,
bánh mú đã được bán ngày hôm đỏ và cũng kéo theo sự xuất hiện giả trị Ì tại ô
(20/10, bơ)
Cho ïƑ cR, dặt s(W„) là tàn số xuất hiền của W trong r dược tình bằng tỷ lệ của các đòng trong r có giả trị Ì tại mỗi cột thuộc W, Tần sỏ xuất hiện của luật X—>B
trong r được định nghĩa là s(-Ÿ +2 ƒB} +) càn gọi là độ hỗ trọ của luật, độ tin cậy của
hạật là s(Ý {24B} )SOXr), ở đây X có thể gồm nhiều thuộc tính, B là giá trị không
cố định Nhờ vậy mà không xảy ra việc tạo ra các luật không mong muốn trước khi
11
Trang 19quá trình từa kiếm bắt đầu Điều dó cũng cho thấy không gian tìm kiếm có kích thước tăng lên theo hảm mũ của số lượng các thuộc tính ở đầu vảo Do vậy cần phải chủ ý thiết kế dữ liệu cho việc tìm kiếm cáo luật kết hợp
>H
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X:
sao cho tân số của luật không nhỗ hơn ngưỡng œ cho trước và độ tín cậy của luật
không nhỏ hơn ngưỡng Mincoufi cho trước Từ một cơ sở dữ liệu, ta có thể tìm ra
được hãng nghn vả thậm chí hàng trầm nghìn các luật kết hợp,
Ta gợi một lập cơn # © ® là phổ biến wong r nếu thôa 1uấn diều kiện sÖ€1) > ổ Tếu biết tất cã các tập phố biến trong r thi việc tìm kiêm các luật kết hợp rất dé dàng, VÌ vậy giải thuật thm kiểm các luật kết hợp trước tiên phải đi tìm tắt cá các tập phổ biến nay, sau dé tao dựng dẫn các luật kết hợp bằng cách ghép dần cáo tập thuộc tính đựa trên mức độ phố biến
Các luật kết hợp có thể là một cách hình thức hóa đơn giản Chúng rất thích hợp
cho việc lav ra các kết quả có dữ liệu dạng nhị phân Giới hạn co bản của phương,
pháp này là ở chỗ quan hệ can phải thưa theo nghĩa là không cỏ tập phd bién nao chứa nhiều hơn 15 thuộc tính Giải thuật tìm kiếm các luật kết hợp tạo ra số lật ít nhật băng số các tập phố biến và nếu như một lập phố biến có kích thước K thì phải
có ïL nhất 2R luật kết hợp Thông tín về các tập phổ biển được sử dụng để ước lượng
độ tin cậy của các tập luật kết hợp
Khai phá đữ liệu tuy là lịnh vực mới nhưng là
nhiều và ứng dụng rộng rãi trong thực tiễn Một số ứng dụng diễn hình của khai pha
dữ liệu có thê được Hệt kẽ như sau:
- Phân lich dir iéu va hd tro ra quyat dinh (Analysis & Decilion support)
- Phan tép van ban, tom tắt van ban va phan lớp cae trang Web (ext mining
& Web mining)
- Điều trị y học (Medicab Mỗi liên hệ giữa triệu chứng, chân doán và phương, pháp điều trị (chế 48 dinh đường, thuộc rnen, phẫu thuật),
12
Trang 20~_ Phân tích độ rũi ro
- ‘Tai chính và thị trường chứng khoán (I4nanee & stock market}> Phân tích
th hình tài chính và dự đoán:
- Bao hiém, Giáo dục
1.6 Các thách thức trong khai phá dữ Hệu
Khai phá đữ liện ngày cảng đóng góp một vai trỏ quan trong trong việc tỉm ra
các trí thức thực sự có ích, hiệu quả tiêm ấn trong các khôi đữ liệu thông tin khống
lỗ mả hàng ngày vẫn đang được thu thập, lưu trử để giúp các cả nhân vả tổ chức đưa
ya cáo quyết định chính xác và nhanh chóng Tuy đã có rât nhiều các giải pháp và phương pháp được ứng đụng trong khai phá dữ liệu nhưng trên thực lễ quá trinh nay vẫn gặp không ít khó khăn và thách thức như:
- Cơ sở đữ liệu có kích thước lớn
- Cơ sở đữ liệu có số thuộc tính lớn
‘Thay đổi dữ liệu vả trí thức có thể lảm cho cáo mẫu đã phát hiện không cỏn phủ hợp
- Đữ liệu bị thiểu hoặc bị nhiều
- Quan hệ giữa oác trường phức tap
- Giao tiếp với người sử dụng và kết hợp với các trị thức đã có
- Lich hợp với các hệ thống khác
Cơ sở đữ liệu lớn có thê lớn về số lượng các bản ghi, lớn về số lượng các thuộc
tinh trong CSDIL Số lương các bản ghủ trong C8DL lớn có khi dụng lượng tới hàng
Gigabyte, terabyte: số thuộc tính trong CSDL có thế rât nhiều vả đa dạng Đẻ giải
phức tạp của bài toán lăng lên Vì vậy không gian từm kiểm không gian trạng thải
gia tăng, nhiêu mẫu hay mỗ hình thừa trùng lặp phát sinh nhiều luật thừa, đây được
coi là vấn để nan giải trong quả trình khai phá đứ liệu Nhằm giải quyết được những,
13
Trang 21vấn để trên phải sử dụng một số các trị thức đã biết trước đề loại bồ và trích lọc ra
những dữ liệu thích hợp với yêu cầu của bải toán
Vẫn để dữ liệu bị thay đổi phụ thuộc theo thời gian, có nghĩa là đữ liệu bị ảnh hưởng và phụ thuộc vào thời điểm quan sát, lây mẫu, thời điểm khai phá Kết quả
đạt được sau khi khai phá cũng gây không ít khó khăn cho khai phá đũ liệu, như các
mẫu được khai phá ở bước trước, có thể không có giá trị hay vô nghĩa đối với thời điểm sử đụng, hoặc có thế làm nhiễu, hay phát sinh hiệu ứng phụ làm sai lệch kết qua Để khắo phục được vấn để này cần phải chuẩn hóa, cãi tiên nâng cấp các mẫu, các mô hình và có thể xem các thay đổi nảy lá mục dich của khai pha va tim kiếm các mẫu bị thay đổi Thuộc tính không phủ hợp, các bộ giá trị không đây đủ bị thiểu giả trị rong các miễn Huộc tính đã làm ảnh hướng rất lớn trong khai phá dữ liệu Trong quá trình khai phá đữ liệu, khi các hệ thống tương tác với nhau phụ thuộc
nhau mà thiểu vắng một vải giá trị nào đó, sẽ đẫn đến các mẫu không được chính
xác, bị thiểu không đây đủ Đẻ giải quyết cho van dé nay, người ta coi sự thiểu vắẳng của các dữ liệu này lá giá trị ẩn, chưa biết và có thẻ được tiên đoán bảng một
phương pháp náo đó
Quan hệ phức tạp giữa các thuộc tỉnh trong CSDL cũng lả vẫn để cân được quai tâm Những bệ thuộc tính có cầu trúc, phân lớp phức tạp, có mỗi liên hệ phức tap
với nhau trong CSDL đòi hỏi khai phá đữ liệu phải có các giải pháp các kỹ thuật dễ
có thể áp dụng được, nhận ra được các mỗi quan hệ nảy trong quá trình khai phá dữ
liệu
1.7 Kết luận chương 1
Nội dụng chương trình đã tìm hiểu quá trình phái hiện trí thúc và các vấn dé
+hai phá đữ liệu Phát hiện trí thwe (DD) là quá trình rút ra trí thức từ đũ Hiệu mà trong đó khai phá đữ liệu là giai đoạn chủ yêu Khai phá đữ liệu là nhiệm vụ khai
phá các mẫu có ích từ số lượng lớn dữ liệu, ở đỏ đữ liệu có thể dược lưu trữ trong
các CSDL, kho dữ liệu hoặc kho lưu trữ thông tin khác, Nó là một lĩnh vực cỏn mới
nể và được phát triển từ các lĩnh vực riur hệ thống CSDL, kho đữ liệu, thống kê, học máy, trực quan hóa dữ liệu Khai phá trí thức bao gồm nhiều giai doạn trong
14
Trang 22đó giai đoạn khai phá dữ liệu là giai doạn quan trọng nhất Chương nay tom tất một
số phương pháp đàng đề khai phả đữ liệu vả phân tích việc khai phá dữ liệu Trong
các phương pháp khai phá đữ liệu, phát hiện các luật kết hợp là một lĩnh vực đang
được quan tâm nghiên cứu nhiều Phân này sẽ dược trình bay rõ hơn trong phần tiếp
theo của luận văn
l5
Trang 23CHƯƠNG 2
KHAI PHA LUAT KET HOP
2.1 Bài toán khai phá luật kết hợp
Bai toán khai phá luật kết hợp được giới thiện từ năm 1993 vả nhận duoc rat Trhiểu sự quan tâm của nhiều nhà khoa học [Ì | Ngày nay việc khai thác các luật nhự thể vẫn là một trong những phương pháp khai thác mẫu phỏ biến nhất trong việc
phát hiện trí thức và khai phá đữ liệu
Mục ích chính của khai phá đữ liệu là các trì thúc duợc kêL xual ra
ð dược sử
dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa
học
Trong hoạt dộng sân xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu
thi, cdc nha quản lý rất thích có được thông tin mang tỉnh thống kế như: "90% phụ
nữ có xe máy máu đỗ va đeo đẳng hồ Thụy Sĩ thì dùng nước hoa hiệu Chanel” hoặc
“70% khách hàng là công nhần khi trua TV thường mua loại TV 21inches”, Những,
thông tin như vậy rất hữu ích cho việc định hướng kinh doanh Vậy vẫn để đặt ra là liêu có tìm được các luật như vậy bằng các công cụ khai phá dữ liện hay không”
Câu trả lời hoàn toàn có thể Đó chính là nhiệm vụ khai phá luật kết hợp
Giá sử chủng ta có một cơ sở đữ liệu T Luật kết hợp cho biết phạm vi ma trong
đó sự xuất hiện của lập các rục X não đó trong các bản ghỉ của T sẽ kéo theo sự
xuất hiện của tập các mục Ý cũng trong những bản ghi đỏ Mỗi luật kết hợp dược đặc trưng bởi hai thông số độ tra cậy và độ hễ trợ Độ tín cậy được biểu diễn bằng tỉ
lệ % những bản ghi trong T chứa cả X và Ý so với những bản phí trong T chúa X
Độ hỗ trợ dược biểu diễn bằng tỉ lệ 9% những bán ghi trong 1 chứa cá X và Y
‘Van đề khai phá luật kết hợp được phát biểu như sau: Cho trước độ hỗ trợ ø và
dé tin cậy ƒ Những luật kết hợp rong D có độ hỗ trợ và độ từn cây tương ứng lớn
hơn hoặc bằng ø và ƒ
Giả thiết T là CSDL giao địch và vai a = 10%, B = 90% Van đề khai phá luật
kết hợp được thực hiện như sau
16
Trang 24Liệt kê, dếm tất cả những qui luật chỉ ra sự xuất hiện tập các mục này sẽ kéo theo sự xuất hiện tập các mục khác
Chỉ
hơn hoặc bằng 90%
ét những qui luật mà độ hỗ trợ lớn hơn hoặc bằng ⁄10% và độ tin cậy lớn
Hãy tướng tượng một công ty bản hàng qua mạng Internet Các khách hàng
được yêu câu điển vào các mẫu bán hàng để công ty có được mệt CSDL về các yêu cầu của khách hàng, Giả sử công ty quan lâm đến một quan hệ “tôi, giới tính, nghề nghiệp và sản phẩm” Khi đỏ có thể có rất nhiều câu hỏi tương ứng với luật trên
Ví đụ trang, lứa tuổi nào đó thì những khác hàng nữ lã công nhân sẽ đặt mua
ant hang gi do vi du do dai chang hạn là nhiều nhát, thổa mãn một ngưỡng nào do? 2.2 Một số khái niệm cơ bản
2.2.1 Định nghĩa về luật kết hợp
Cho cơ sở dữ liệu T gồm các giao dich ti t2, , in Ki hiéu T={ t1, t2, ., to}
được gợi là cơ sở đữ liệu giao dich
Mỗi giao dịch t bao gồm tập các mục I(temset), Ï= {iI, 12, ., im} Mét itemset
gồm k item được goi la k-itemset
Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương, quan giita cac item Một luật kết hợp được định nghĩa là một mệnh đề kêu thea cb dang XY,
trong đồ x,Y C 7 thõa mãn diều kiện X -¬Ÿ —Ø X, Y dược gợi là các tập mục (itemset) Tập X gọi là nguyên nhân, tập Y gọi là hệ quả
Theo quan điểm thẳng kê: X được gọi là biển độc lập và Y được gọi là biến phụ
thuộc
Co 2 độ do quan trong đối với huật kết hợp: Độ hỗ trợ (Support) va d6 tin cay
(Confiđence), được định nghĩa như phân sau:[2]
2.2.2 Dinh nghĩa về đỗ hỗ trợ
Độ hỗ trợ của tnột ap mus X trong cơ sở dũ Hệu T là tỉ lệ giữa số lượng các bãn
ghi + —7 có chứa tập mục X và tổng số bản ghi trong T (hay là phần trăm của các
tân ghỉ trong T có chứa lập mục Ä), kỉ hiệu SuppOf) vả có công thức sau:
Trang 25
Trong đó: nƠK) là số giao dịch chúa X, N là tổng số giao dịch.[2]
Dé hé tro của một luật kết hợp +Y _ >7 là tỉ lệ giữa số lượng các bản ghi chữa tập mục X UY so vdi téng số các bản ghi rong T Kí hiệu #upp(X —Y) có công,
'Trong do: n(X) là số giao dịch chứa X, N là tổng sé giao dich
2.2.3 Dịnh nghĩa độ tin cậy
D6 tin cậy của một luật kết hợp X —>7 là tí lệ giữa số lượng các bán ghi trong T
chữa tập mục X27 so với số lượng các bản ghỉ trong Ì chửa tập mục X Kí hiệu
conf(X = Y)cö công thức sau:
Ÿ<T|XUYCT} nỢX OY) - SuppCY2Y) m WeD|XcT} — n(X) Supp xX)
Trong dé: n(X) là số giao dịch chứa XÃ
Tập mục X dược gọi là tập mục thường xuyên (frequent itemset) nếu
Supp(X)> minsup, voi minsup la dé hé tro t6i thiểu cho trước.|2|
Ngược lại, một tập mục không thường xuyên X là tập mục mà độ hỗ trợ của nỏ nhỏ hem độ hễ trợ tôi thiên cho trước
Chung ta nhận thấy rằng, trị thức dem lại bởi luật kết hợp đạng trên có sự khác
biệt rất nhiều so với những thông tin thu được từ các câu lênh truy vẫn đữ liệu thông,
thường Đó là những trị thức, những mới liêu hệ chưa biết trước và mang tính dự
báo dang tiềm dn trong dữ liệu Những tri thức này không đơn giản là kết quả của phép gora nhóm, tính tổng hay sắp xếp mà là của ruột quá trình tính toán khá phức
tạp
Tuy nhiên, không phải bất cử luật kết hợp rảo có ruặt trong lập các luậi có thể được sinh ra đều có ý ngÌhữa trên thực tế Mi các luật phải thỏa mãn một ngưỡng hỗ trợ va fin cay cụ thể Thực vậy, cho một tập các giao địch T, bài toán khai phá luật
18
Trang 26kết hợp là sinh ra tắt cả các luật kết hợp mà có dộ hỗ trợ supp lớn hơn hoặc bằng dé
hỗ trợ tối thiểu minsup và độ tin cậy conf lớn hơn hoặc bằng độ tin cậy tối thiểu
Tnineonf tương ứng do người dùng xác định, Khai phá luật kết hợp được phân thành
2 bài toàn con
Bài toán 1: Tìm tất cả các tập mục má có độ hỗ trợ lớn hơn hoặc bằng đỏ hỗ trợ tối thiếu đo người ding xác định Cáo tập mục thỏa mãn độ hễ trợ tôi thiên được gọi
là các tập mục thường: xuyên
Bài toán 2: Dửng các tập mục thường xuyên đề sinh ra các luật mong muền Ý
tưởng chung là nếu E' {iI, ï2, , mỹ là một tập mục thường xuyên, với mỗi lập mục
S={iI, ña, , ik} 1A tap con khang réng của F thi chúng †a có thể xác định luật
®_>F—® với độ tin cậy:
B trong T R6 rang voi CB thì ta sẽ có được s(1)> (#8) (những bản phí nào
chứa tập thì sẽ chứa tập A), va do vay Supp(4) > Supp(B) là điều hiển nhiên
Tĩnh chất 2: Giả sử A và I3 là hai tập mục, 41,8 7 Nếu B là tập mục thường
xuyén va 4c thi A cũng là tập mục thường xuyên
19
Trang 27Chứng mình:
Thal vay, ACB taco Supp(A) = Supp(B) (theo tink chdt 7 & trên), Hơn nữa B là
tập mục thường xuyên nên Supp(A)>minsup Do vay Sxp(4)> Supp(R)> min sup
nén A cling là tập mục thường Xuyên
Tink chất 3: Giả sử A và B là bai tập mục, 4,2 CJ Néu 4c 8 va A là tập mục
không thường xuyên thì B cũng là tập mục không thường xuyên
Ching minh
‘That ACB tacd Supp(A} 2 Supp(B) (theo tinh chat 1 ở trên), Lien nữa A là
Supp( 8) 5 Supp(A) < minsup nêu T3 cũng lả tập mục không thường xuyên
2.3.2 Luật kết hợp
Tỉnh chất 1: Luật kết hợp không có tính hợp thành
Nếu có X—»P, Y—>Z trong † thi không nhất thiết ¥ UY > Z la dong
Chúng mình:
Thật vay, voi XY, FOZ là hai luật kết hợp thì tương ủng
supp x > 1)- "ED > nin amp va suppty = 7)- "E22 min sup Ta lai cd
Supp(X UY U2) < SupplX VY) va Supp(X UY U2) < Supp(Y 2) Nhu vay ta xét
trường hợp swzøX >Y)=nmimsup hodc = Supp(¥ > Z)=minsup thì
Supp(X OY WZ) <iin sup (dau = xây ra khi và chỉ khi cáo tập X, Y, Z luén xuat
Tiện cùng nhau trong một giao dịch)
Tương tự: Nếu có Y =Y,XZỦ YS UZ
That vy ta ec conf(X UY —2)—- TUBPCX VY 2) Supp(X UY)
conf(X > 2) = SHRM) coapey 7) = SPE 2)
20
Trang 28Xét trường hợp Z có mặt trong một giao dịch chỉ khi X và Y cũng có mặt, tức là
Supp(X OY OZ) = Suppl X GY) = Suppl Z) = Supp(X IZ) = Supp\¥ IZ) = +
Suppl VY 2Z) _
Ỏ XK = Z)—
Khí do co Ýv/T S7) TT L, vả nếu như độ tín cậy tôi thiếu
xuineonf = 1 thi bai luật Ý _>Z và Y _>Z sẽ không đủ độ tin cậy,
Tuy nbidn, dao bi: XY UZ hi VP va YZ
Tinh chất 3: Luật kết hap không có tính bắc cầu
Nếu X =Ƒ và Y =>Z, chủng ta không thể suy ra X =>⁄
ag mink
Ta xét CSDL giao địch sau:
"Vải với minsuip=50%, mineonf=509% ta sẽ tìm được các luật kết hợp:
Ovi dutrénta c6 X=> Y va YZ nhung khéng tén tai XZ,
2.4 Một số hướng tiếp cận frong khai phá luật kết hop
Lĩnh vục khai thác luật kết hợp cho đến nay đã được nghiên cứu va phát triển theo thiểu hướng khác nhau Có những để xuất nhằm cải tiền thuật toán, có để xuất tìm kiểm những, luật có ý nghĩa hơn Dưới dây là một số hưởng chính [4]
T,uật kết hợp nhị phân (Binary association rule): La hudng ngbién cou dau
tiên của luật kết hợp Theo dạng luật kết hop này thi cdc items chi duge quan
tâm là có hay không xuất hiện trong cơ sở đữ liệu giao tac (‘lransaction database)
21
Trang 29chứ không quan tâm về mức dộ hay tan xuất xuất hiển Thuật toán tiêu biểu nhất
của khai phá đạng luật này là thuật toán Aprior[4]
T,uật kết hợp có thude tinh số và thuộc lính hang muc (Quanlilative and
cateporial association rule): các cơ sở đữ liệu thực tế thường có các thuộc tinh da
dạng (như nhị phân, số, mục (categorial) ) chứ không nhất quán ở mệt dang wo
cả Vì vậy dễ khai phá luật kết hợp với các cơ sở đữ liệu này các nhà nghiên cứu dẻ xuất một số phương pháp rời rạc hóa nhằm chuyến dang hiật này vẻ dang nhi phân
Taật kết hợp mở (Íuzzy ssaocislion rulc): Với những khó khăn gặp phải
khi rời rạc hóa các thuộc tỉnh số, các nhả nghiên cứu đề xuất luật kết hợp mờ khắc
phục hạn chế đó và chuyển kiật kết hợp vẻ một đạng gần gũi hon [4]
Luật kết hợp với thuộc tinh dược dánh trọng sé (association mules with weighted items): Cac thuộc tỉnh trong cơ sở dữ liệu thường không có vai trỏ
ni nhau Có một số thuộc tính quan trọng và được chú trọng hơn gác thuộc
tính khác Vi vậy trong quả trình tìm kiểm luật các thuộc tỉnh được đánh trọng số
theo mức độ xác định nào đỏ Nhờ vậy ta thu được những luật “hiếm” (túc là cỏ
dộ hỗ trợ thấp nhưng mang rửuiễu ý nghữa).4]
Khai thác luật kết hợp song song (parallel mining of association rule): Nhu
chu song song hỏa và xử lý phân tân là cần thiết vì kích thước đữ liêu ngày càng lớn nên đòi hỏi tốc độ xứ lý phải được đảm bao.[4]
Khmi phá luật kết hợp sử dung SQL: Su da dang ola dit liệu, các nhiệm vụ
khai phá dữ liệu, vả các cách tiếp cận khai phá dữ liệu đặt ra nhiều thách thức trong van để nghiên cứu KPDL Sự phát triển của các hệ thống và phương pháp KPDL
22
Trang 30hiệu quả, việc xây dựng các môi trưởng KPDL tương tác và tích hợp, việc thiết kế các ngôn ngữ KPIDL, và việc ủng dụng các kỹ thuật KPDL để giải quyết các vin dé
ứng dụng lớn là rhiệm vụ quan trọng đối với các nhà nghiền củu KPDL, hệ thông
KPDL vả các nhà phát triển ứng dung Phan nay dé cap dén mét sé van dé dang thu hút sự chủ ý của các nhà nghiên cứu KPD Làm thé nao dé ting cường hiệu suất, độ
chính xác, khã năng mỡ rộng, và lích hợp của các hệ thống khai thác dữ liệu? Tảm
thé nao dé giám độ phức tạp tỉnh toán 2 Làm thế nào đề cái thiện khả năng xử lý dữ liện không đây đủ, không phù hợp, và nhiễu ? Ba câu hỏi trên đã được tập trưng, nghiên cứ nghiên cứu bằng phương pháp khai phá luật kết hợp dựa trên sức mạn":
của BQL trong đó tập trung nghiên cửu 3 kỹ thuật cơ bán là k-nhánh (K-Way), gom
nhóm (2 Group by) và truy vấn lồng (Sub Query) va sẽ được trình bảy chỉ tiết ở
chương 3 của luận văn này
Trên đây là những biến thể của khai phá luật kết hợp cho phép ta tim kiểm
luật kết hợp một cách linh hoạt trong những cơ sở đữ liệu lớn Bên cạnh đó các
nhà nghiên cứu cón chủ trọng để xuất các thuật toán nhằm tăng tốc quả trình tìm kiếm luật kết hợp trong cơ sở đữ liệu
2.5 Kết luận chương 2
Trong nội dung chương này đã trình bảy một số định nghĩa cơ bản và các tinh
chất liên qua dễ luật kết hợp như Tập thường xuyên, độ hỗ trợ, độ tin cậy Đồng thời cũng trình bảy một số hướng tiếp cân trong nghiên cứu khai phá luật kết hợp
Dễ đi sâu hơn vào nghiên cửu khai phá luật kết hợp, trong chương 3 cúa luận
‘van tap tring nghiên cứu một số thuật toán điển hình trong khai phá luật kết hợp và đặc biệt đi sân về tim hiểu khai phá luật kết hợp bằng SQT
23
Trang 31CHƯƠNG 3 KHAIPHA LUAT KET HOP SU DUNG SQL
3.1 Đặt vẫn dé
Ở chương 1 chúng ta đã từm hiểu tổng quan về phát hiện trí thức vả khai pha
dữ Hiệu, qua đó cho thấy ý nghĩa quan trọng của khai phá đữ liệu là tìm ra các trỉ
thức hữu ích tiêm an bén trong các khỏi dit ligu ma hàng ngày chúng ta vin dang,
thu thập được Liện nay đã có rất nhiều giải pháp được đưa ra ứng dụng trong khai
pha đữ liệu, tay nhiên trên thực tế cho thây quả trình này vẫn côn pặp rất những khó
khăn và thách thức
Khai phá các luật kết hợp là một tiếp cận khai phá đữ liện nhằm phát hiện ra các hiật kết hợp giữa các thành phần dữ liệu trong cơ sở đữ liệu Mục dich chính của quả trình này là tìm các trị thúc đưới dạng các luật được kết xuất ra từ đữ liệu để sử đụng trong đự báo thông tin, trợ giúp trong sân xuất kinh đoanh và nghiên cứu khoa
học Một trong những thuật toán được sử đụng nhiều khi khai phả luật kết hợp là
thuật toản Apriori và cáo mở rộng của thuật toán này [5]
Như chủng ta đã biết SQL là ngôn ngữ của cơ sở dữ liệu, có khá năng rất mạnh
*hi truy vân đữ liệu, chính vì thể, gần đây có nhiều nghiên cứu khai phá luật kết hợp
Đằng cách xây dựng thuật toán Amiori sử dụng SQT Kỹ Ihuật này không chỉ khai
thác được sức mạnh cứa SQL, một ngôn ngữ được tịch hợp trong hau hết các hệ
quản trị cơ sở đữ liệu, mà còn cho thầy tính hiệu quả vẻ tốc độ xứ lý và thục thị
Trong chương 3 nảy tập trung nghiên cửu quá trình khai phá luật két hợp sử dụng SQL Phản 3.L là kiến thức nên tăng về thuật toán Apriori Cách tạo tập các
ứng viên sử dụng SỢI dược trình bày ở phân 3.3 Phẫu 3.4 trình bảy việc tính toán
độ hỗ trợ của tập mục thường xuyên bằng, các kỹ thuật nổi k-nhành (K-way join), kỹ Thuật gom nhóm (Group by), và kỹ thuật sử dung truy van ling (Sub query) Giai doan sinh luật từ tập mục thường xuyên dược trình bảy ở phần 3.5 Phần cuỗi của chương 3 là một ví dụ minh họa vẻ khai phả luật kết hợp sử dụng SQL tử cơ sở đữ
liệu giao địch
24
Trang 323.2 Thuật toán Aprinri
3.2.1.Ý tưởng
Apriori la một trong những thuật toán khai phá đứ liệu được sử đụng khá phố
biển, cụ thế hơn là nó được đừng để khai phá luật kết hợp trong cơ sở đữ liệu
Apriori là giải thuật dược Rakesh Agrawal, Tomasz Imiclinski, Arun Swami dé xuat lin dau vào năm 1993 |4]
Thuật toán Apriori đựa trên một nhận xét tỉnh tế là bắt kỹ tập hợp con nao của
tập mục thường xuyên cũng lả tập mục thường xuyên Do đó quá trình tìm tập mục
thường xuyên, chỉ cân dùng đến tập mục thường xuyên vừa xuất hiện ở bước ngay trước đó, chủ không đúng đến tắt cả các tập mục thường xuyên, tính dến thời diễm
tiện tại Nhỏ vậy, bộ nhớ được giải phòng đẳng kế va thời gian tính toán nhanh hơn |4]
Quá trình thực hiện thuật toán Apriori có thẻ được liệt kê theo các bước sau:
ước 1: Tìm tắt cả các tập mục thường xuyén (frequent itemset)
Tập mục thường xuyên k-itemset tìm dược dùng dễ từn tập mục thường xuyên (KH}-iemset
Pan tién tim tập mục thường xuyên 1-itemset (E,) San đó F, được đừng dé tim T; (2-itemseÐ, cho đến khi không cỏ tập mục thường xuyên k-itemset nào được tìm thay
Bước 2: Từ các lập inue thường xuyên sinh ra các luật kết hợp thốa mãn ngưỡng
độ tin cậy tôi thiểu (mineonỆ)
'Với mỗi tập mục thường xuyên T = {i, ip, ., i} ta liệt kê tất cã các tập mục
Si, b, , k} là tập con không rống của F và thiết lập luật kết hợp ÿ~># —ÿ nêu thốa mãn ngưỡng độ tin cậy tôi thiểu
3.2.2 Thuật toán
Đầu vàa: Cơ sỡ đữ liệu giao địch T, độ hỗ trợ tải thiểu zữasup
Đầu ra: Các tập mục thường xuyên
Các hước thực hiệ
Bước 1: Duyệt toàn bộ cơ sở đứ liện giao địch để có được tập ứng cử viên Cy
(1-itemseÐ) và độ hỗ trợ Supp tương ứng So sánh Supp với miisup đề có được tập
xnục thưởng xuyên l (1-itemset)
25
Trang 33Bước 2: Sử dụng F\.¬ kết nối nội với chính nó, tức là kết nỗi F¿+ với Ei dé sinh
Ta tập ứng viên k-itemset Cụ,
Bước 3: Duyệt cơ sở đữ liệu giao địch để tỉnh độ hỗ tro supp cha mai tập ứng
cử viên k-ifemset Cụ So sánh độ hỗ trợ supp voi minsup (supp > minsup) dé thu
được tập mục thường xuyên k-itemset (Ey)
Bước 4: Tắp bước 3 cho đến khi tập ứng cử viên Ck bang rong
Bước 5: Với mỗi tập mục thường xuyén F, sinh tất cả các tập con 5 không rỗng
của F
Bước 6: Với mỗi lập con S, tạo ra các luật có đựng §—(E— 9) tiểu độ tín cậy
của nó thỏa mân ngưỡng độ tin cậy tối thiểu (mineonf)
Trên đây là giải thuật chung của thuật toán Apriori, bây giờ ta xét cụ thể từng
công đoạn cửa thuật toàn Apriori
†m tất cả các tập mục thường xuyên (lập mục thường xuyên là tập con của tập
Cyl, Lid tap tat cd cde myc {mat hang) trong ‘Tv
Fic (ff oClL scouts N > win sup}, 2N: tổng số giao địch
for (k= 2, F,*@: kl \)do Z Duyệt tới khi không cá F, nào được im thấp
Cụ©-candidate gen(,;); ⁄J1ảm tạo tập ứng cử viên Cụ tir Fy;
Tor cach transaction r<7 đo “Duyét timg giao dich trong T
for each candidate e<C,do 2Ðuyệ! từng tập ứng cử viên trong Cụ
if c is contained int then
c.count ++;
end end
ke {ec C, |e.count/N > min sup}
Trang 34Hàm tạo tập ứng cử viễn C¡ từ Fy, ,
return Cụ
Hink 3.2: Ham tao tap ing cit vin Cy tit Fy Tack op pm thường xuyên vừa lao ở trên:
Với mỗi tập mục thưởng xuyên F tìm dược
- Tim tat cả tập con không rỗng S của TT
- Tao hiật kết hop #=>(—#) nêu thêa mãn ngưỡng độ tin cây tối thiếu
(minconf)
Tom lại dễ khai phá được các luật kết hợp Đằng thuật Loán Apriori ching ta cần
xây dựng được 3 thủ tục quan trọng như sau đây:
I Tạo cáo tập mục từng viên Cụ
+ Tỉnh Loạn độ hỗ trợ của các lận mục ứng viên để
Trang 353.2.3 Vidu mink hoa
GIả sử ta có một cơ sở đữ liệu giao dịch T như sau:
Mã giao địch | Các mặt hàng được mua (itemset)
Thịt bỏ, Thít gà, Sữa
‘Thit bo, Banh fomat
Banh format, Giay
Thit bo, Thit g4, Banh fomat Thịt bò, áo, Bánh fomat, Stta
Thịt gà, Quận áo, Sữa
Thịt gã, Sửa, Quận áo
Co sở đi giao dich T
Vii minsup — 30%, mincon! — 80% ta thực hiện lần lượt theo thudt Loan Apriori
Tân duyệt 1 ta được lập ứng gữ viên Cụ (1-itomset) và độ hỗ trọ lượng ứng
Ttemset Support (sup) 'Thịt bò
Thịt gà Sữa anh fomat Giay
Quản áo Tâp các ứng cử viên C¡ (1-ifemisef)
múa
fun
tà
Tioại bổ các iIemnset trang Cị không phải là tấp mục thường xuyên ta dược gác
tap mục thường xuyên lị (1-itemset) (tân suất xuất hiện >3)