Xây dựng thuật toán khai thác các itemset có giá trị hữu ích trung bình cao trên dữ liệu động.. TÓM TẮT Nội dung chính của luận văn là tìm hiểu các thuật toán khai thác tập hữu ích trung
Trang 1-
NGUYỄN MINH TÂN
XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI
THÁC DỮ LIỆU DỰA TRÊN
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM
-
NGUYỄN MINH TÂN
XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI
THÁC DỮ LIỆU DỰA TRÊN
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM
Cán bộ hướng dẫn khoa học: TS LÊ THỊ NGỌC THƠ
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP.HCM ngày tháng năm 2018
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
Trang 4TRƯỜNG ĐH CÔNG NGHỆ TP.HCM
VIỆN ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TP HCM, ngày 12 tháng 01 năm 2018
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN MINH TÂN Giới tính: Nam Ngày, tháng, năm sinh: 25/02/1989 Nơi sinh: Tây Ninh Chuyên ngành: Công Nghệ Thông Tin MSHV: 1541860042
I- Tên đề tài:
XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA
TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH
II- Nhiệm vụ và nội dung:
1 Giới thiệu tổng quan về khai thác dữ liệu và khai thác luật kết hợp dựa trên tập phổ biến, tập hữu ích và tập hữu ích trung bình
2 Trình bày một số thuật toán cho quá trình khai thác tập itemset có giá trị hữu ích cao và hữu ích trung bình cao
3 Xây dựng thuật toán khai thác các itemset có giá trị hữu ích trung bình cao
trên dữ liệu động Cho ví dụ minh họa và nhận xét
4 Cài đặt chương trình thực nghiệm
III- Ngày giao nhiệm vụ: 13/02/2017
IV- Ngày hoàn thành nhiệm vụ: 30/12/2017
V- Cán bộ hướng dẫn: TS Lê Thị Ngọc Thơ
CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH
TS Lê Thị Ngọc Thơ
Trang 5LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc
Tp.HCM, ngày 12 tháng 01 năm 2018
Tác giả luận văn
NGUYỄN MINH TÂN
Trang 6LỜI CẢM ƠN
Trước tiên, tôi xin gởi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của Trường Đại học Kỹ thuật Công nghệ Tp HCM, đặc biệt là các Thầy Cô Khoa Công nghệ Thông tin đã truyền đạt vốn kiến thức quý báu cho chúng tôi trong suốt thời gian học tập tại trường
Đồng thời, tôi cũng xin gửi lời cảm ơn đến Ban Giám hiệu, Khoa Công nghệ Thông tin Trường Đại học Quốc tế Sài Gòn, cũng như các đồng nghiệp ở bộ môn Tin học đã tạo điều kiện và giúp đỡ tôi hoàn thành khóa học này
Đặc biệt, tôi gởi lời cảm ơn chân thành đến TS Lê Thị Ngọc Thơ, Trường Đại học Kỹ thuật Công nghệ Tp.HCM, Cô đã nhiệt tình hướng dẫn và định hướng, giúp tôi hoàn thành luận văn này
Sau cùng, tôi gửi lời biết ơn đến gia đình, bạn bè và các bạn cùng lớp đã ủng
hộ, tạo điều kiện tốt cho tôi trong suốt khóa học
Trong quá trình thực hiện luận văn, tôi đã cố gắng hoàn thành tốt với tất cả
nỗ lực của bản thân, nhưng chắc chắn không tránh khỏi những sai sót và hạn chế Rất mong nhận được sự đóng góp ý kiến của Quý Thầy Cô và các bạn để tôi học thêm được nhiều kinh nghiệm
Tôi xin chân thành cảm ơn!
Nguyễn Minh Tân
Trang 7TÓM TẮT
Nội dung chính của luận văn là tìm hiểu các thuật toán khai thác tập hữu ích trung bình và khai thác tập hữu ích trung bình trên dữ liệu động Tác giả đã tìm hiểu
sự thay đổi các giá trị của các itemsets khi cập nhật thêm các giao dịch và tính toán
sự thay đổi đó Trên cơ sở đó tác giả đề xuất cải tiến thuật toán HAUI-Tree để tính toán tập các giá trị của itemset trong cơ sở dữ liệu thêm vào và cập nhật lại tập các itemsets hữu ích trung bình Định hướng của đề xuất này là khi thêm các giao dịch mới, các itemsets thỏa ngưỡng trong cơ sở dữ liệu ban đầu và tập dữ liệu mới thêm vào sẽ được cập nhật mà không cần phải tính lại tất cả như chạy thuật toán từ đầu
Nội dung cụ thể của luận văn này là xây dựng thuật toán IHAUI-Tree để khai thác các itemsets dựa trên độ hữu ích trung bình Khi các giao dịch được thêm mới vào cơ sở dữ liệu, thuật toán chỉ cần tính toán các giá trị thay đổi và cập nhật lại tập hữu ích trung bình mà không cần chạy lại từ đầu Đồng thời, trong nghiên cứu này tác giả đề xuất một cấu trúc dữ liệu cho itemset để cải tiến việc tính toán các giá trị cho các itemset nhanh hơn
Phương pháp đề xuất đã được thực nghiệm trên bộ dữ liệu mẫu và so sánh kết quả với các phương pháp trước đó Kết quả thực nghiệm cho thấy, giải pháp được đề xuất nâng cao hiệu quả việc khai thác các itemsets hữu ích trung bình, nhất
là khi việc cập nhật dữ liệu luôn thường xuyên
Trang 8ABSTRACT
The main content of this thesis is to study algorithms for mining average utility itemsets on the dynamic data, learn about changes in the values of the itemsets when updating transactions, calculate those changes and suggest improving the HAUI-Tree algorithm to calculate the set of the values of the itemsets in the added database and to update the set of the average utility itemsets The objective of this work is to ensure that when new transactions are added, the itemsets meeting the threshold in the original database and the newly added dataset will be updated without re-running the algorithm from scratch
In particular, the IHAUI-Tree algorithm is developed to exploit the itemsets based on the average utility When transactions are added to the database, the algorithm only needs to calculate the changed values and update the average utility itemsets without re-running from the scratch In this work, we proposed a new data structure for the itemsets to help calculate the values of the itemsets faster
The proposed approach is experiement on two data sets The results were compared to previous algorithms and shown that our proposed solution improve the efficiency in exploiting the average utility itemsets, especially when data is frequently updated
Trang 9MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
TÓM TẮT iii
ABSTRACT iv
MỤC LỤC v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT viii
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC HÌNH x
CHƯƠNG 1 - TỔNG QUAN 1
1.1 Tổng quan về khai phá dữ liệu 1
1.1.1 Nhu cầu về khai phá dữ liệu 1
1.1.2 Khai thác dữ liệu là sự tiến hóa của công nghệ thông tin 3
1.1.3 Khai phá dữ liệu và khai phá tri thức 6
1.1.4 Các bước chính của quá trình khai phá dữ liệu 7
1.1.5 Kiến trúc một hệ thống khai phá dữ liệu 9
1.1.6 Ứng dụng của khai phá dữ liệu 11
1.2 Khai thác các mẫu phổ biến 12
1.2.1 Mẫu phổ biến 12
1.2.2 Khai thác mẫu phổ biến, tập phổ biến 12
1.3 Khai thác dựa trên giá trị hữu ích 14
1.4 Khai thác dựa trên giá trị hữu ích trung bình 15
1.5 Mục tiêu của luận văn 16
CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT 18
2.1 Một số khái niệm 18
2.1.1 Cơ sở dữ liệu giao dịch 18
2.1.2 Itemset 18
Trang 102.1.3 Độ phổ biến 18
2.1.4 Tập phổ biến 18
2.1.5 Tính chất Apriori 19
2.1.6 Ngưỡng hữu ích trung bình tối thiểu 19
2.1.7 Độ hữu ích 19
2.1.8 Tập hữu ích 20
2.1.9 Độ hữu ích trung bình 21
2.1.10.Tập hữu ích trung bình 21
2.1.11.Cận trên độ hữu ích trung bình 21
2.1.12.Tập cận trên độ hữu ích trung bình 22
2.2 Tính chất bao đóng giảm 22
2.3 Tính bao đóng giảm trong tập cận trên hữu ích trung bình 23
2.4 Thuật toán HAUI-Tree 23
2.4.1 Giới thiệu 23
2.4.1.1.Biểu diễn Itemset 23
2.4.1.2.Cây HAUI-Tree 24
2.4.2 Thuật toán sử dụng HAUI-Tree 24
2.4.2.1.Tập dữ liệu giao dịch 24
2.4.2.2.Thuật toán khai thác với HAUI-Tree 25
2.4.3 Ví dụ minh họa 27
2.4.4 Một số nhận xét 31
2.5 Khai thác độ hữu ích trung bình hai pha tăng trưởng 32
2.5.1 Giới thiệu 32
2.5.2 Thuật toán 32
2.5.3 Một số nhận xét 34
CHƯƠNG 3 - XÂY DỰNG THUẬT TOÁN IHAUI-TREE 35
3.1 Cây IHAUI-Tree 35
3.2 Thuật toán IHAUI 35
3.3 Ví dụ minh họa 38
Trang 113.3.1 Chạy lần đầu 38
3.3.2 Cập nhật thêm giao dịch 42
3.4 Một số nhận xét 46
CHƯƠNG 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ 48
4.1 Các bộ dữ liệu mẫu 48
4.2 Chạy thử nghiệm trên bộ dữ liệu Accidents 49
4.3 Chạy thử nghiệm trên bộ dữ liệu Retail 50
4.4 Kết luận và kiến nghị 50
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 53
Trang 12DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Minimum high average-utility ratio Tỉ lệ ngưỡng hữu ích trung bình tối thiểu
au, AU Average utility Giá trị hữu ích trung bình
HAUI High average utility itemset Tập hữu ích trung bình cao
HAUUBI High average-utility
Trang 13DANH MỤC CÁC BẢNG
Bảng 2.1: CSDL item trong giao dịch 18
Bảng 2.2: CSDL các giao dịch 20
Bảng 2.3: Giá trị hữu ích các item 20
Bảng 2.4: Cấu trúc tập tin dữ liệu 24
Bảng 2.5: Biểu diễn dữ liệu giao dịch 25
Bảng 2.6: CSDL giao dịch 27
Bảng 2.7: Giá trị của các item trong CSDL 27
Bảng 2.8: Kết quả tính giá trị hữu ích và au, ub của các 1-itemset 28
Bảng 2.9: Ví dụ HAUI-Tree - Cấu trúc dữ liệu các 1-itemset 29
Bảng 2.10: Kết quả thu được tập HAU VÀ HAUUB 31
Bảng 3.1: CSDL giao dịch 39
Bảng 3.2: Giá trị hữu ích 39
Bảng 3.3: Kết quả tính giá trị hữu ích, AU và UB của các 1-itemset 40
Bảng 3.4: 1-itemset 40
Bảng 3.5: Kết quả thu được tập HAU VÀ HAUUB 42
Bảng 3.6: CSDL các giao dịch thêm mới 42
Bảng 3.7: Kết quả tính giá trị hữu ích, AU và UB của các 1-itemset 43
Bảng 3.8: 1-itemset 43
Bảng 3.9: 1-itemset sau khi cập nhật 43
Bảng 3.10: Kết quả thu được từ cây IHAUI-Tree 46
Bảng 3.11: Câu trúc itemset của IHAUI và HAUI 47
Bảng 4.1: Thông tin bộ dữ liệu 48
Bảng 4.2: Kết quả chạy thử nghiệm 49
Bảng 4.3: Thời gian chạy của 2 thuật toán 49
Bảng 4.4: Kết quả chạy thử nghiệm 50
Bảng 4.5: Thời gian chạy của 2 thuật toán 50
Trang 14DANH MỤC CÁC HÌNH
Hình 1.1: Sự tiến hóa công nghệ CSDL [2] 3
Hình 1.2: Thế giới là dữ liệu phong phú nhưng thông tin nghèo [2] 5
Hình 1.3: Khai phá dữ liệu – tìm kiếm tri thức trong dữ liệu [2] 6
Hình 1.4: Khai thác dữ liệu là một bước trong quá trình khám phá tri thức [2] 7
Hình 1.5: Kiến trúc hệ thống khai thác dữ liệu [2] 9
Hình 1.6: Ví dụ chọn giỏ hàng trong siêu thị [2] 13
Hình 2.1: Kết quả kết hợp item {A} với các item khác 29
Hình 2.2: Kết quả kết hợp item {B} với các item khác 30
Hình 2.3: Kết quả kết hợp item {A} theo HAUI-Tree 30
Hình 2.4: Kết quả cây thu được 30
Hình 3.1: Cấu trúc cây IHAUI-Tree 35
Hình 3.2: Kết quả kết hợp item {A} với các item khác 40
Hình 3.3: Kết quả kết hợp item {B} với các item khác 41
Hình 3.4: Kết quả thu được cây IHAUI-Tree 41
Hình 3.5: Kết quả kết hợp item {A} với các item khác 44
Hình 3.6: Kết quả kết hợp item {B} với các item khác 45
Hình 3.7: Kết quả kết hợp các item khác 45
Hình 4.1: So sánh thời gian chạy của 2 thuật toán 49
Hình 4.2: So sánh thời gian chạy của 2 thuật toán 50
Trang 15CHƯƠNG 1 - TỔNG QUAN
1.1 Tổng quan về khai phá dữ liệu
1.1.1 Nhu cầu về khai phá dữ liệu
“Chúng ta đang sống trong thời đại thông tin” [4], nhưng thực ra là chúng ta đang sống trong thời đại dữ liệu Hàng Terabytes hay Petabytes1
dữ liệu đổ vào mạng máy tính, World Wide Web (WWW), và những thiết bị lưu trữ dữ liệu mỗi ngày từ kinh doanh, xã hội, khoa học và kỹ thuật, y tế, và gần như mọi khía cạnh khác của cuộc sống hàng ngày
Việc tăng trưởng bùng nổ của khối lượng dữ liệu có sẵn là kết quả của việc tin học hoá xã hội và sự phát triển mạnh mẽ, nhanh chóng của các công cụ thu thập
và lưu trữ dữ liệu Các công ty trên toàn thế giới đã tạo ra bộ dữ liệu khổng lồ, bao gồm cả giao dịch bán hàng, hồ sơ giao dịch chứng khoán, giới thiệu sản phẩm, chương trình khuyến mãi bán hàng, hồ sơ công ty và thông tin phản hồi của khách hàng
Ví dụ:
Các cơ sở dữ liệu lớn xử lý hàng trăm triệu giao dịch mỗi tuần
http://top-10-list.org/2010/02/16/top-10-largest-databases-list/
1 Library of Congress: chứa hơn 125 triệu mục, trong đó bao gồm các
tờ báo, sách nấu ăn và thủ tục tố tụng của chính phủ
2 Central Intelligence Agency: không rõ kích thước chính xác của cơ
sở dữ liệu này, nhưng có hàng trăm mục dữ liệu thêm vào mỗi tháng và bao gồm số liệu thống kê dân số, bản đồ,…
3 Amazon: chứa hơn 250 nghìn sách, 55 triệu khách hàng, và hơn 40 Terabytes dữ liệu
1 Một petabyte là một đơn vị thông tin hoặc lưu trữ máy tính bằng một nghìn triệu triệu byte, hay một ngàn terabyte, tương đương một triệu gigabyte
Trang 164 YouTube: hàng trăm triệu clip được xem hàng ngày, tăng gấp đôi mỗi 5 tháng
5 ChoicePoint: cơ sở dữ liệu có thể đạt tới mặt trăng và trở lại ít nhất
75 lần
6 Sprint: có hơn 50 triệu thuê bao Ít nhất 3.000 tỷ cơ sở dữ liệu trên
350 bản ghi cuộc gọi hang ngày và 70.000 lần chèn mỗi giây
7 Google: theo thống kê hơn 90 triệu cuộc tìm kiếm mỗi ngày và được gọi là vua của CSDL internet
8 AT&T: tương tự như Sprint là công ty viễn thông lâu đời Nó chứa hơn 310 terabyte thông tin và gần 2.000 tỷ hang
9 National Energy Research SCC là trung tâm tính toán nghiêm cứu năng lượng quốc gia là CSDL lớn thứ 2 trên thế giới
10 World Data Center for Climate: CSDL này được điều khiển và duy trì bởi trung tâm tính toán khí hậu Đức
Trung tâm tính toán khoa học nghiên cứu năng lượng quốc gia Mỹ
Trang 17 Ít nhất có 242.39 triệu trang Web ở Hà Lan (23/9/2016), và 246.03 triệu trang (16/6/2017)
Sự phát triển bùng nổ, phổ biến rộng rãi, và khổng lồ của dữ liệu làm cho chúng ta thực sự sống trong thời đại dữ liệu Để tự động phát hiện ra thông tin có giá trị từ một lượng lớn dữ liệu và chuyển dữ liệu đó thành tri thức, rất cần những công cụ mạnh mẽ và linh hoạt Sự cần thiết này đã dẫn đến sự ra đời của khai thác
dữ liệu Đây là một lĩnh vực mới, năng động và đầy hứa hẹn Khai thác dữ liệu đã
và sẽ tiếp tục thực hiện những bước tiến lớn trong cuộc hành trình của chúng ta từ thời dữ liệu đến thời đại thông tin
1.1.2 Khai thác dữ liệu là sự tiến hóa của công nghệ thông tin
Khai thác dữ liệu có thể được xem như là một kết quả của sự tiến hóa tự nhiên của công nghệ thông tin
Tập hợp dữ liệu và khởi tạo CSDL
- Xử lý file thô sơ
- Giao diện người dùng, nhập liệu và kết xuất
- Xử lý truy vấn, tối ưu truy vấn
- Quản lý giao dịch: Khôi phục, điều khiển tương tranh
- Xử lý giao dịch trực tuyến
Hệ CSDL mở rộng
- Mô hình dữ liệu mở rộng: Quan
hệ mở rộng , quan hệ - đối tượng,
suy luận
- Ứng dụng mở rộng: Không gian,
thời gian, đa phương tiện, tích
cực, khoa học, cở sở tri thức
Kho dữ liệu và khai phá dữ liệu
- Kho dữ liệu và OLAP
- Khai thác dữ liệu và phát hiện tri thức: Phân lớp, phân cụm, kết hợp, phân tích mẫu, phân tích ngược lại …
- Ứng dụng KPDL mở rộng: Khai phá dữ liệu dòng, khai phá text, khai phá web
Hệ CSDL dựa trên Web
- Hệ CSDL dựa trên XML
- Sự tích hợp với phục hồi thông tin
- Dữ liệu và tích hợp thông tin
Thế hệ mới của dữ liệu tích hợp và các hệ thống thông tin
Hình 1.1: Sự tiến hóa công nghệ CSDL [2]
Trang 18Khai thác dữ liệu có thể coi là một sự tiến hóa tự nhiên trong công nghệ thông tin và ngành hệ thống thông tin Từ những năm 1960, công nghệ thông tin đã phát triển một cách có hệ thống từ những hệ thống xử lý tập tin ban đầu đến các hệ
cơ sở dữ liệu phức tạp, hỗ trợ nhiều chức năng Những nghiên cứu và những bước phát triển trong các hệ cơ sở dữ liệu những năm 1970 đã phát triển từ dữ liệu dưới dạng phân cấp và tiến đến cơ sở dữ liệu quan hệ, các công cụ mô hình hóa dữ liệu, các phương pháp chỉ mục và truy cập dữ liệu Hơn thế nữa, người sử dụng còn có thể tương tác CSDL thông qua các ngôn ngữ truy vấn dữ liệu với giao diện thân thiện cùng các chức năng tối ưu hóa truy vấn và quản lý xung đột giao tác Các phương pháp xử lý giao tác trực tuyến (OLAP) tỏ ra rất hiệu quả Với các phương pháp này một truy vấn giống như một giao tác chỉ đọc.Sự phổ biến rộng rãi của CSDL quan hệ như một công cụ lưu trữ, đảm bảo, và quản lý dữ liệu hiệu quả kể cả những CSDL khổng lồ
Từ giữa những năm 1980, các hệ CSDL quan hệ được phát triển mạnh mẽ thúc đẩy quá trình phát triển các mô hình dữ liệu nâng cao như mô hình quan hệ mở rộng, mô hình hướng đối tượng, quan hệ đối tượng, mô hình suy diễn Các hệ CSDL hướng ứng dụng bao gồm các hệ CSDL cho các ứng dụng không gian vũ trụ,
y học, đa phương tiện, CSDL theo dòng, CSDL cho các ngành khoa học, kỹ thuật, các hệ cơ sở tri thức cũng phát triển nhanh chóng Các hệ CSDL hỗn hợp và hệ thống thông tin Internet toàn cầu như WWW xuất hiện và đóng vai trò chủ đạo trong ngành công nghiệp thông tin
Sự phát triển vững chắc và vượt bậc của kỹ thuật phần cứng đã tạo ra được các siêu máy tính, các thiết bị thu thập dữ liệu và phương tiện lưu trữ mới đáp ứng được nhu cầu lưu trữ ngày càng lớn Điều này là tiền đề quan trọng cho ngành công nghiệp CSDL và thông tin, tạo ra các thùng chứa CSDL và thông tin khổng lồ có khả năng quản lý giao tác, đảm bảo thông tin và phân tích dữ liệu
Hiện nay dữ liệu có thể được lưu trữ trong các loại thùng chứa khác nhau Một loại kiến trúc thùng chứa dữ liệu xuất hiện là các kho dữ liệu (Data Warehouse)
là một thùng chứa các nguồn dữ liệu hỗn hợp khác nhau, được tổ chức dưới một sơ
đồ thống nhất tại một địa điểm duy nhất hỗ trợ việc quản lý ra quyết định Kỹ thuật
xử lý kho dữ liệu này gồm các quá trình: Làm sạch dữ liệu (Data Cleaning), tích
Trang 19hợp dữ liệu (Data Integration), xử lý giao tác trực tuyến (OLAP) với khả năng tổng quát hóa, nén, tập hợp dữ liệu có thể nhìn dữ liệu theo nhiều chiều hướng khác nhau Mặc dù công cụ OLAP có thể hỗ trợ phân tích dữ liệu theo nhiều chiều khác nhau, hỗ trợ ra quyết định, nhưng cần tích hợp thêm các công cụ phân tích dữ liệu theo chiều sâu khác như phân lớp, gom nhóm dữ liệu hay phân tích dữ liệu theo thời gian thực Hơn nữa, kích thước dữ liệu trong CSDL và kho dữ liệu là rất lớn Vì vậy, việc phân tích dữ liệu dưới các hình thức khác nhau một cái hiệu quả và có lợi
là một thử thách
Sự giàu có của dữ liệu đi đôi với sự ra đời của các công cụ phân tích dữ liệu
để khai thác thông tin, tri thức hữu ích.Tránh tình trạng giàu dữ liệu mà nghèo thông tin Với những CSDL khổng lồ và phát triển liên tục trong các kho dữ liệu thì việc phân tích không thể thực hiện được nếu không có sự hỗ trợ của các công cụ Khi dữ liệu bị nhiễu quá lớn có thể gây ra hiện tượng “Data Tombs” (mộ dữ liệu) Các công
cụ hỗ trợ ra quyết định không phải dựa trên dữ liệu trong thùng chứa mà dựa trên các tri thức thu được từ dữ liệu Các tri thức này được rút ra từ các hệ chuyên gia Quá trình này thường tốn thời gian và độ chính xác không cao Các công cụ khai thác dữ liệu thực hiện phân tích dữ liệu và giúp chuyển dữ liệu thành dữ liệu vàng
“golden nuggets” cho quá trình khám phá tri thức
Hình 1.2: Thế giới là dữ liệu phong phú nhưng thông tin nghèo nàn [2]
Theo Plato:“Sự cần thiết, là người mẹ của sáng chế” [2] KPDL ra đời như
một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên Khá nhiều định nghĩa
Trang 20về KPDL đã được trình bày ở trên KPDL được xem như là một công nghệ tri thức, giúp các nhà phân tích khai thác những thông tin hữu ích từ những kho dữ liệu, được tích trữ trong suốt quá trình hoạt động của công ty, tổ chức
1.1.3 Khai phá dữ liệu và khai phá tri thức
Khai phá dữ liệu là một quá trình trích xuất tri thức từ lượng lớn dữ liệu, khai thác kiến thức từ dữ liệu Một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu
“Phát hiện tri thức trong CSDL là một quá trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu” [2]
Hình 1.3: Khai phá dữ liệu – tìm kiếm tri thức trong dữ liệu [2]
Là lĩnh vực nghiên cứu và triển khai được phát triển nhanh chóng và rộng lớn, lại được rất nhiều nhóm nghiên cứu tại nhiều địa điểm khác nhau trên thế giới đồng thời quan tâm, nên tồn tại rất nhiều cách tiếp cận khác nhau đối với lĩnh vực KDD Vì lý do đó mà trong nhiều tài liệu, các nhà khoa học trên thế giới đã sử dụng nhiều thuật ngữ khác nhau mà chúng được coi là mang cùng nghĩa với KDD như chiết lọc tri thức (knowledge extraction), phát hiện thông tin (information discovery), thu hoạch thông tin (information harvesting), khai quật dữ liệu (data archaeology) và xử lý mẫu dữ liệu (data pattern processing)
Trang 21Mô hình quá trình khai phá dữ liệu cũng được cải tiến, phù hợp với mục tiêu kinh doanh và mục tiêu phát triển của từng tổ chức Tồn tại một số mô hình thiên hướng công nghệ
1.1.4 Các bước chính của quá trình khai phá dữ liệu
Nhiều người xem khai thác dữ liệu như là một từ đồng nghĩa với một thuật ngữ phổ biến được sử dụng, khám phá tri thức từ dữ liệu, hoặc KDD, trong khi những người khác xem khai thác dữ liệu chỉ đơn thuần là một bước cần thiết trong quá trình khám phá tri thức Quá trình khám phá tri thức được thể hiện trong hình 1.4 là một chuỗi lặp đi lặp lại các bước sau:
Hình 1.4: Khai thác dữ liệu là một bước trong quá trình khám phá tri thức [2]
Làm sạch dữ liệu (để loại bỏ nhiễu và dữ liệu không phù hợp)
Tích hợp dữ liệu (nơi mà nhiều nguồn dữ liệu có thể được kết hợp)4
Chọn lựa dữ liệu (nơi dữ liệu có liên quan đến nhiệm vụ phân tích được lấy từ cơ sở
dữ liệu): là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu
4 Một xu hướng phổ biến trong ngành công nghiệp thông tin là để thực hiện làm sạch dữ liệu và tích hợp dữ liệu như là một bước tiền xử lý, nơi mà các dữ liệu kết quả được lưu trữ trong một kho dữ liệu
Trang 22lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định
Biến đổi dữ liệu (nơi mà dữ liệu được biến đổi và hợp nhất thành các hình thức thích hợp cho khai thác bằng cách thực hiện tóm tắt hoặc tập hợp các hoạt động)5 Khai thác dữ liệu (một quá trình cần thiết mà các phương pháp thông minh được áp dụng để trích xuất các mẫu dữ liệu): đây được xem là bước quan trọng nhất trong quá trình KDD Nó áp dụng một số kỹ thuật KPDL (chủ yếu là từ học máy và các lĩnh vực khác) để khai phá, trích chọn được những mẫu (patterns) thông tin, những mối liên hệ (relationships) đặc biệt trong dữ liệu
Đánh giá mẫu (để xác định các mô hình thực sự thú vị đại diện cho kiến thức dựa trên các biện pháp): thành phần này thường sử dụng các độ đo và tương tác với thành phần KPDL để tập trung tìm kiếm các mẫu Nó có thể sử dụng các ngưỡng để lọc ra các mẫu phát hiện được Ngoài ra, thành phần đánh giá mẫu có thể được tích hợp với thành phần KPDL, phụ thuộc vào các phương pháp KPDL được sử dụng Biểu diễn tri thức (nơi trực quan và kỹ thuật biểu diễn tri thức được sử dụng để trình bày kiến thức khai thác cho người sử dụng): những mẫu thông tin và mối liên hệ trong dữ liệu đã được khai phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám phá được những tiêu chí nhất định
Từ bước 1 đến 4 là các hình thức khác nhau của tiền xử lý dữ liệu, nơi dữ liệu được chuẩn bị cho khai thác Các bước khai thác dữ liệu có thể tương tác với người sử dụng hoặc một cơ sở tri thức Các mẫu thú vị được trình bày cho người sử dụng và có thể được lưu trữ như kiến thức mới trong cơ sở tri thức
Trang 231.1.5 Kiến trúc một hệ thống khai phá dữ liệu
Kiến trúc của hệ thống KPDL có thể có các thành phần chính sau:
Hình 1.5: Kiến trúc hệ thống khai thác dữ liệu [2]
Trong kiến trúc này, các nguồn dữ liệu cho các hệ thống KPDL bao gồm hoặc CSDL, hoặc kho dữ liệu, hoặc WWW, hoặc kho chứa dữ liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên Cơ sở tri thức, bao gồm các tri thức hiện có
về miền ứng dụng, được sử dụng trong thành phần KPDL để làm tăng tính hiệu quả của thành phần này Một số tham số của thuật toán KPDL tương ứng sẽ được tinh chỉnh theo tri thức miền sẵn có từ cơ sở tri thức trong hệ thống Cơ sở tri thức còn được sử dụng trong việc đánh giá các mẫu đã khai phá được xem chúng có thực sự
Trang 24hấp dẫn hay không, trong đó có đối chứng với các tri thức đã có trong cơ sở tri thức Nếu mẫu khai phá được thực sự hấp dẫn thì được bổ sung vào cơ sở tri thức để phục
vụ cho hoạt động tiếp theo của hệ thống Như vậy, nguồn tri thức bổ sung vào cơ sở tri thức ở đây không chỉ từ lập luận logic để có tri thức mới, mà còn cho con người hiểu biết thêm về thế giới khách quan để bổ sung vào tri thức được phát hiện một cách tự động từ nguồn dữ liệu
KPDL là một bước chính trong quá trình phát hiện tri thức từ số lượng lớn
dữ liệu đã lưu trữ trong CSDL, kho dữ liệu hoặc các nơi lưu trữ khác Kết quả của bước này là những mẫu đáng quan tâm được đưa đến cho người dùng hoặc lưu giữ như là tri thức mới trong cơ sở tri thức
CSDL, kho dữ liệu, WWW, kho chứa dữ liệu khác: Đây là một hoặc một tập CSDL, kho dữ liệu, World Wide Web, hoặc kho chứa dữ liệu kiểu bất
kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thực hiện trên dữ liệu
Server CSDL/Kho dữ liệu: Có trách nhiệm lấy dữ liệu liên quan dựa trên yêu cầu của người KPDL
Cơ sở tri thức: Đây là miền tri thức được sử dụng để hướng dẫn việc tìm kiếm hoặc đánh giá sự thú vị của các mẫu quan tâm Tri thức này có thể bao gồm các mức phân cấp khái niệm, được sử dụng để tổ chức các thuộc tính hoặc giá trị thuộc tính thành các cấp trừu tượng Tri thức như độ tin cậy của người sử dụng, có thể được sử dụng để đánh giá độ thú vị của mẫu Các ví dụ khác của miền tri thức là các ràng buộc thú vị bổ sung hoặc ngưỡng, và siêu dữ liệu (mô tả dữ liệu từ nhiều nguồn không đồng nhất)
Bộ máy khai phá dữ liệu: Đây là thành phần cần thiết đối với hệ thống KPDL, bao gồm một tập các chức năng như mô tả, phân tích tính kết hợp
và tính tương quan, phân lớp, dự báo, phân tích cụm, phân tích ngoại lai,
và phân tích sự tiến hóa
Trang 25 Đánh giá mẫu: Thành phần này thường sử dụng các độ đo và tương tác với thành phần KPDL để tập trung tìm kiếm các mẫu thú vị Nó có thể sử dụng các ngưỡng để lọc ra các mẫu phát hiện được Ngoài ra, thành phần đánh giá mẫu có thể được tích hợp với thành phần KPDL, phụ thuộc vào các phương pháp KPDL được sử dụng
Giao diện người dùng: Thành phần này là thành phần giao tiếp giữa người
sử dụng và hệ thống KPDL; cho phép người dung tương tác với hệ thống bằng cách xác định một truy vấn hoặc một nhiệm vụ KPDL, cung cấp thông tin để giúp tập trung tìm kiếm, thăm dò và KPDL dựa trên kết quả KPDL trung gian Ngoài ra, thành phần này cho phép người dùng tìm các lược đồ CSDL, kho dữ liệu hoặc các cấu trúc dữ liệu, đánh giá các mẫu khai phá được, và trực quan hoá các mẫu trong các dạng khác nhau
1.1.6 Ứng dụng của khai phá dữ liệu
Mặc dù KPDL là một xu hướng nghiên cứu tương đối mới, nhưng thu hút nhiều nhà nghiên cứu bởi vì các ứng dụng thực tế của nó trong nhiều lĩnh vực Sau đây là một số ứng dụng tiêu biểu:
Phân tích dữ liệu và hỗ trợ ra quyết định: ứng dụng này là phổ biến trong thương mại, tài chính và thị trường chứng khoán,…
Y tế: tìm kiếm sự liên quan tiềm năng giữa các triệu chứng, chẩn đoán, và phương pháp điều trị,…
Khai phá text và web: tóm tắt tài liệu, khôi phục văn bản và tìm kiếm văn bản, phân lớp văn bản và siêu văn bản,…
Tin sinh học: tìm kiếm và so sánh thông tin di truyền điển hình hoặc đặc biệt như bộ gen và DNA, các mối quan hệ ngầm giữa một số gen và một
số bệnh di truyền,…
Tài chính và thị trường chứng khoán: kiểm tra dữ liệu để trích xuất thông tin dự đoán cho giá của các loại cổ phiếu,…
Trang 26 Những ứng dụng khác: viễn thông, bảo hiểm y tế, thiên văn học, chống khủng bố, thể thao,…
1.2 Khai thác các mẫu phổ biến
1.2.1 Mẫu phổ biến
Là tập các item xuất hiện phổ biến trong một tập dữ liệu Ví dụ như itemset gồm sữa và bánh mì xuất hiện phổ biến trong dữ liệu giao dịch giỏ hàng được gọi là một itemset phổ biến
Các tập mẫu phổ biến được sử dụng để khai thác luật kết hợp, sự tương quan của dữ liệu Ngoài ra, chúng còn được sử dụng trong các quá trình phân lớp, gom cụm hay các công việc khai thác dữ liệu khác Khai thác tập phổ biến đóng vai trò quan trọng trong khai thác dữ liệu và xuất hiện nhiều trong các nghiên cứu
1.2.2 Khai thác mẫu phổ biến, tập phổ biến
Khai thác mẫu phổ biến: là việc tìm kiếm các mối quan hệ xuất hiện một cách tuần hoàn, phổ biến trong tập dữ liệu Khai thác luật kết hợp, mối tương quan các itemset trong tập dữ liệu các giao tác cũng là khai thác mẫu phổ biến Một ví dụ điển hình đó là phân tích giỏ hàng trong các cửa hàng, siêu thị
Khai thác tập phổ biến: là việc tìm ra các tập item phổ biến để rút ra sự kết hợp và mối liên quan giữa các item trên những tập dữ liệu lớn của giao dịch Với kích thước dữ liệu khổng lồ được thu thập và lưu trữ, nhiều công ty đã ứng dụng khai thác tập mẫu trên dữ liệu của họ Việc khám phá những mối liên hệ thú vị dựa trên các dòng dữ liệu khổng lồ giúp các nhà phân tích đưa ra những chiến lược trong kinh doanh, hỗ trợ trong việc thiết kế các catalog, marketing, phân tích thói quen mua sắm của khách hàng
Trang 27Hình 1.6: Ví dụ chọn giỏ hàng trong siêu thị [2]
Một ứng dụng thường thấy trong khai thác các tập item phổ biến là phân tích giỏ hàng Quá trình này sẽ phân tích thói quen mua hàng và tìm thấy các mối kết hợp giữa các item mà khách hàng chọn mua Việc khám phá quan hệ kết hợp này có thể hỗ trợ những người bán lẻ phát triển chiến lược marketing dựa trên những sản phẩm thường được người dùng mua chung
Việc khai thác dữ liệu rút ra các luật kết hợp trong mua bán hàng trực tuyến cũng giúp cho ngành thương mại điện tử phát triển, đáp ứng nhu cầu mua hàng ngày càng tăng với tốc độ nhanh chóng và tiện lợi
Trong quá trình khai thác luật kết hợp thì khai thác tập phổ biến là một trong những việc quan trọng nhưng mất nhiều thời gian Trong hầu hết các thuật toán khai thác luật, các nghiên cứu đặc biệt chú ý đến vấn đề làm thế nào để khai thác nhanh tập phổ biến (hay tập phổ biến đóng) Nên có khá nhiều tác giả chỉ tập trung vào
Trang 28việc nghiên cứu tìm ra thuật toán hiệu quả cho bài toán khai thác tập phổ biến/tập phổ biến đóng (FI/FCI) Một số thuật toán tiêu biểu cho việc giải quyết bài toán này như thuật toán Apriori, AprioriTid, Eclat, FP-Growth,… Trong đó phương pháp FP-Growth được cải tiến hơn với việc khai thác các FI dựa trên cây chỉ qua duyệt CSDL hai lần
1.3 Khai thác dựa trên giá trị hữu ích
Thường thì khai thác tập phổ biến chỉ cần quan tâm đến sự xuất hiện của các item mà không quan tâm đến các giá trị khác của nó như số lượng hay giá cả Các item trong giao dịch được xem là như nhau Nhưng thực tế giá trị của các item khác nhau, và các item có giá trị cao thường lại xuất hiện ít hơn các các item có giá trị thấp Vì vậy vấn đề có thể được coi là mở rộng của việc khai thác các itemset phổ biến đó là khai thác các itemset hữu ích
Có thể ví dụ như việc mua kim cương và quần áo, kim cương có thể xuất hiện ít lần hơn trong các giao dịch so với quần áo nhưng giá trị mang lại của nó có thể cao hơn Phương pháp khai thác dữ liệu dựa trên độ hữu ích được đưa ra bởi Chan [8] Giá trị hữu ích của một item trong giao dịch được tính bằng tích giá trị hữu ích (giá) và số lượng của nó trong giao dịch Giá trị hữu ích của itemset trong giao dịch bằng tổng các giá trị hữu ích của các item trong itemset trong giao dịch
đó Một itemset được gọi là có độ hữu ích cao khi giá trị hữu ích của nó thỏa ngưỡng được định trước Tiêu biểu cho việc khai thác này là thuật toán dựa trên hai pha của Liu [8] Ở pha thứ nhất, các ứng viên sinh ra được cắt tỉa bởi ngưỡng cận trên giảm thiểu bớt số ứng viên Pha thứ hai, dữ liệu được đọc một lần nữa, tính toán giá trị hữu ích thực tế của các ứng viên còn lại và tìm ra các itemset có độ hữu ích cao Vấn đề được đặt ra trong việc khai thác này chính là cắt giảm bớt số ứng viên và thời gian duyệt lại dữ liệu Vào năm 2011, Lin, Hong, Lu đã đưa ra một cấu trúc cây gọi là HUP-Tree [5] để khai thác các itemset hữu ích cao Bước đầu việc khai thác cần tính toán các giá trị hữu ích tương ứng và chọn ra tập các 1-itemset ứng viên, sau đó dựa trên bảng header được sắp xếp theo tính tăng dần độ phổ biến
Trang 29để tiến hành duyệt một lần nữa các giao dịch để tao ra HUP-Tree Cuối cùng, các tập itemset hữu ích cao sẽ được khai thác từ HUP-Tree Phương pháp dựa vào WIT-Tree với việc sử dụng thuộc tính “bao đóng giảm” của các itemset để loại bỏ các ứng viên không phù hợp, phát sinh ứng viên nhanh chóng rút ngắn thời gian khai thác
1.4 Khai thác dựa trên giá trị hữu ích trung bình
Như đã nhắc ở trên, với khai thác độ hữu ích, độ hữu ích của một itemset là tổng giá trị hữu ích của các item trong tất cả các giao dịch chứa nó mà không quan tâm đến số lượng item trong itemset Vì vậy độ hữu ích của itemset sẽ tăng dần theo
số lượng item, trong cùng một giao dịch thì itemset có chiều dài lớn hơn sẽ có giá trị hữu ích lớn hơn Vì vậy việc sử dụng một ngưỡng chung cho tất cả các itemset là chưa hợp lý
Một độ đo mới được đề nghị để giải quyết vấn đề trên, đó là giá trị hữu ích trung bình AU (Average Utility) [6] Độ hữu ích trung bình được tính bằng tổng giá trị hữu ích của itemset chia cho độ dài của itemset Nếu giá trị này lớn hơn ngưỡng cho trước thì itemset được gọi là itemset có độ hữu ích trung bình cao hay còn gọi là HAUI (High Average Utility Itemset) [6]
Khi sử dụng giá trị hữu ích trung bình thì tính bao đóng giảm bị phá vỡ, tức
là một itemset có giá trị hữu ích trung bình không thỏa ngưỡng thì vẫn có thể kết hợp với một hay nhiều item khác để tạo thành một itemset có độ hữu ích trung bình cao Đây chính là vấn đề cần giải quyết trong bài toán khai thác là số lượng ứng viên rất lớn và chi phí tính toán cao
Một giá trị thường được đưa ra để giảm bớt số ứng viên xét là giá trị cận trên hữu ích trung bình UB (Average Utility Upper Bound) Trong nghiên cứu của các tác giả, Hong, Lee& Wang [1] đã sử dụng giá trị UB để loại bớt ứng viên tạo ra tập các itemset có giá trị UB thỏa ngưỡng và dựa vào tập các r-itemset có giá trị UB thỏa ngưỡng để tạo ra các (r+1)-itemset, sau đó chọn ra các itemset nào có độ hữu ích trung bình cao (HAUI) Ở đây các itemset có UB không thỏa ngưỡng thì bị loại
Trang 30nhưng các giá trị của chúng vẫn còn được xét trong việc tính UB cho các itemset khác[1] Với hướng tiếp cận này, sau khi loại trừ các item có UB không thỏa ngưỡng, UB của các item còn lại sẽ được tính lại và chọn lọc thêm một lần nữa Một số cấu trúc dữ liệu khác cũng đã được đề cập để tăng tốc độ tính toán.Điển hình như cấu trúc bảng chỉ mục trong nghiên cứu của Lan, Hong, Tseng [4]
Năm 2014, Tien Lu, Bay Vo, Hien T Nguyen, Tzung-Pei Hong [9] đã đưa ra thuật toán HAUI-Tree sử dụng giá trị cận trên trung bình để loại bỏ bớt các ứng viên, đồng thời tận dụng được tính bao đóng giảm của tập ngưỡng trên hữu ích trung bình Ưu điểm của nó là giúp cho việc phát sinh các ứng viên nhanh hơn thuật toán sử dụng Index Table và tiết kiệm được vùng nhớ Đồng thời trong nghiên cứu này có đề xuất cấu trúc một itemset nhằm giảm thời gian tính toán, cải thiện thời gian phát sinh và tính toán các giá trị cho các ứng viên
1.5 Mục tiêu của luận văn
Đề xuất một cấu trúc dữ liệu mới để cải thiện cách tính toán các giá trị cho các itemsets (BitArray) nhanh hơn
Thực nghiệm và so sánh thuật toán đề xuất với các phương pháp trước
đó và đưa ra các nhận xét
Đề xuất thuật toán khai thác tập hữu ích trung bình trên CSDL tăng trưởng
Kết luận chương
Chương này đã trình bày tổng quan về khai thác dữ liệu và khai thác tri thức
và sự cần thiết của nó Quá trình khai thác tri thức gồm nhiều giai đoạn, trong đó giai đoạn khai thác dữ liệu là một giai đoạn chính yếu nhất
Khai phá dữ liệu là quá trình khám phá ra các mẫu được quan tâm từ lượng lớn dữ liệu:
Trang 31 Mẫu kết quả khai phá được là những mẫu thể hiện tri thức nếu chúng dễ hiểu, hợp lệ với một mức độ chắc chắn, hữu dụng, và mới đối với người dùng
Khai phá dữ liệu được xem như là một phần của quá trình khám phá tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: làm sạch dữ liệu, tích hợp dữ liệu, chọn lựa dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá mẫu, và biểu diễn tri thức
Nhiều lĩnh vực khác nhau có liên quan với khai phá dữ liệu: cơ sở dữ liệu, lý thuyết thống kê, học máy, khoa học thông tin, trực quan hóa,…
Các vấn đề liên quan: phương pháp luận khai phá dữ liệu, vấn đề tương tác người dùng, khả năng co giãn dữ liệu và hiệu suất, vấn đề xử lý lượng lớn các kiểu dữ liệu khác nhau, vấn đề khai thác các ứng dụng khai phá dữ liệu cũng như sự ảnh hưởng xã hội của chúng
Sự đa dạng của dữ liệu, các nhiệm vụ khai thác dữ liệu, và các cách tiếp cận khai thác dữ liệu đặt ra nhiều thách thức trong vấn đề nghiên cứu khai thác dữ liệu Phần cuối của chương này phác họa những ưu thế, ứng dụng chính của lĩnh vực này
và những hướng nghiên cứu đã và đang được quan tâm
Trang 32CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT
2.1 Một số khái niệm
2.1.1 Cơ sở dữ liệu giao dịch
Một CSDL giao dịch D gồm một bộ {I, P, T} trong đó Tập { } là tập hợp n items được xét, tập { } là tập hợp giá trị hữu ích của n item và tập { } là tập hợp m giao dịch được xét
2.1.2 Itemset
Một itemset {X} là tập hợp các item Ii (Ii I), X I, nếu |X|=r thì ta gọi {X}
là một r-itemset (r là số lượng item trong itemset {X}), r là độ dài của itemset {X}
2.1.3 Độ phổ biến
Cho CSDL giao dịch D và một itemset {X} I Độ phổ biến của{X} trong D,
kí hiệu (X), là số giao dịch mà có {X} xuất hiện trong D
Ví dụ: Cho CSDL sau:
Bảng 2.1: CSDL item trong giao dịch
Mã giao dịch Danh sách item
Trang 33Ví dụ: Xét CSDL của bảng 2.1 với minSupCount= 3 thì {A} thuộc tập phổ
biến vì ({A}) = 4 minSupCount,nhưng {AD} không thuộc tập phổ biến
Tính chất này được áp dụng rất nhiều trong các thuật toán khai thác tập phổ biến Nó giúp phát sinh các ứng viên hiệu quả, tăng tốc độ khai thác
2.1.6 Ngưỡng hữu ích trung bình tối thiểu
Ngưỡng hữu ích trung bình tối thiểu là một giá trị được sử dụng trong khai thác dựa trên giá trị hữu ích của item, các itemset có giá trị hữu ích vượt qua ngưỡng này được gọi là itemset có giá trị hữu ích cao (HUI) Mở rộng với việc khai thác theo độ hữu ích trung bình, một itemset có giá trị hữu ích trung bình vượt qua ngưỡng gọi là itemset có giá trị hữu ích trung bình cao (HAUI)
Với tỉ lệ ngưỡng hữu ích trung bình tối thiểu (do người dùng định trước)
2.1.7 Độ hữu ích
Độ hữu ích của item trong giao dịch là tích của số lượng item trong giao dịch
đó và giá trị hữu ích của nó
Trong đó: uij là độ hữu ích của item Ii trong giao dịch tj, qij là số lượng item I trong giao dịch tj