1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng thuật toán IHAUI để khai thác dữ liệu dựa trên độ hữu ích trung bình

67 82 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,83 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xây dựng thuật toán khai thác các itemset có giá trị hữu ích trung bình cao trên dữ liệu động.. TÓM TẮT Nội dung chính của luận văn là tìm hiểu các thuật toán khai thác tập hữu ích trung

Trang 1

-

NGUYỄN MINH TÂN

XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI

THÁC DỮ LIỆU DỰA TRÊN

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM

-

NGUYỄN MINH TÂN

XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI

THÁC DỮ LIỆU DỰA TRÊN

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM

Cán bộ hướng dẫn khoa học: TS LÊ THỊ NGỌC THƠ

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP.HCM ngày tháng năm 2018

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

Trang 4

TRƯỜNG ĐH CÔNG NGHỆ TP.HCM

VIỆN ĐÀO TẠO SAU ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

TP HCM, ngày 12 tháng 01 năm 2018

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: NGUYỄN MINH TÂN Giới tính: Nam Ngày, tháng, năm sinh: 25/02/1989 Nơi sinh: Tây Ninh Chuyên ngành: Công Nghệ Thông Tin MSHV: 1541860042

I- Tên đề tài:

XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA

TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH

II- Nhiệm vụ và nội dung:

1 Giới thiệu tổng quan về khai thác dữ liệu và khai thác luật kết hợp dựa trên tập phổ biến, tập hữu ích và tập hữu ích trung bình

2 Trình bày một số thuật toán cho quá trình khai thác tập itemset có giá trị hữu ích cao và hữu ích trung bình cao

3 Xây dựng thuật toán khai thác các itemset có giá trị hữu ích trung bình cao

trên dữ liệu động Cho ví dụ minh họa và nhận xét

4 Cài đặt chương trình thực nghiệm

III- Ngày giao nhiệm vụ: 13/02/2017

IV- Ngày hoàn thành nhiệm vụ: 30/12/2017

V- Cán bộ hướng dẫn: TS Lê Thị Ngọc Thơ

CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH

TS Lê Thị Ngọc Thơ

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc

Tp.HCM, ngày 12 tháng 01 năm 2018

Tác giả luận văn

NGUYỄN MINH TÂN

Trang 6

LỜI CẢM ƠN

Trước tiên, tôi xin gởi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của Trường Đại học Kỹ thuật Công nghệ Tp HCM, đặc biệt là các Thầy Cô Khoa Công nghệ Thông tin đã truyền đạt vốn kiến thức quý báu cho chúng tôi trong suốt thời gian học tập tại trường

Đồng thời, tôi cũng xin gửi lời cảm ơn đến Ban Giám hiệu, Khoa Công nghệ Thông tin Trường Đại học Quốc tế Sài Gòn, cũng như các đồng nghiệp ở bộ môn Tin học đã tạo điều kiện và giúp đỡ tôi hoàn thành khóa học này

Đặc biệt, tôi gởi lời cảm ơn chân thành đến TS Lê Thị Ngọc Thơ, Trường Đại học Kỹ thuật Công nghệ Tp.HCM, Cô đã nhiệt tình hướng dẫn và định hướng, giúp tôi hoàn thành luận văn này

Sau cùng, tôi gửi lời biết ơn đến gia đình, bạn bè và các bạn cùng lớp đã ủng

hộ, tạo điều kiện tốt cho tôi trong suốt khóa học

Trong quá trình thực hiện luận văn, tôi đã cố gắng hoàn thành tốt với tất cả

nỗ lực của bản thân, nhưng chắc chắn không tránh khỏi những sai sót và hạn chế Rất mong nhận được sự đóng góp ý kiến của Quý Thầy Cô và các bạn để tôi học thêm được nhiều kinh nghiệm

Tôi xin chân thành cảm ơn!

Nguyễn Minh Tân

Trang 7

TÓM TẮT

Nội dung chính của luận văn là tìm hiểu các thuật toán khai thác tập hữu ích trung bình và khai thác tập hữu ích trung bình trên dữ liệu động Tác giả đã tìm hiểu

sự thay đổi các giá trị của các itemsets khi cập nhật thêm các giao dịch và tính toán

sự thay đổi đó Trên cơ sở đó tác giả đề xuất cải tiến thuật toán HAUI-Tree để tính toán tập các giá trị của itemset trong cơ sở dữ liệu thêm vào và cập nhật lại tập các itemsets hữu ích trung bình Định hướng của đề xuất này là khi thêm các giao dịch mới, các itemsets thỏa ngưỡng trong cơ sở dữ liệu ban đầu và tập dữ liệu mới thêm vào sẽ được cập nhật mà không cần phải tính lại tất cả như chạy thuật toán từ đầu

Nội dung cụ thể của luận văn này là xây dựng thuật toán IHAUI-Tree để khai thác các itemsets dựa trên độ hữu ích trung bình Khi các giao dịch được thêm mới vào cơ sở dữ liệu, thuật toán chỉ cần tính toán các giá trị thay đổi và cập nhật lại tập hữu ích trung bình mà không cần chạy lại từ đầu Đồng thời, trong nghiên cứu này tác giả đề xuất một cấu trúc dữ liệu cho itemset để cải tiến việc tính toán các giá trị cho các itemset nhanh hơn

Phương pháp đề xuất đã được thực nghiệm trên bộ dữ liệu mẫu và so sánh kết quả với các phương pháp trước đó Kết quả thực nghiệm cho thấy, giải pháp được đề xuất nâng cao hiệu quả việc khai thác các itemsets hữu ích trung bình, nhất

là khi việc cập nhật dữ liệu luôn thường xuyên

Trang 8

ABSTRACT

The main content of this thesis is to study algorithms for mining average utility itemsets on the dynamic data, learn about changes in the values of the itemsets when updating transactions, calculate those changes and suggest improving the HAUI-Tree algorithm to calculate the set of the values of the itemsets in the added database and to update the set of the average utility itemsets The objective of this work is to ensure that when new transactions are added, the itemsets meeting the threshold in the original database and the newly added dataset will be updated without re-running the algorithm from scratch

In particular, the IHAUI-Tree algorithm is developed to exploit the itemsets based on the average utility When transactions are added to the database, the algorithm only needs to calculate the changed values and update the average utility itemsets without re-running from the scratch In this work, we proposed a new data structure for the itemsets to help calculate the values of the itemsets faster

The proposed approach is experiement on two data sets The results were compared to previous algorithms and shown that our proposed solution improve the efficiency in exploiting the average utility itemsets, especially when data is frequently updated

Trang 9

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT iii

ABSTRACT iv

MỤC LỤC v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT viii

DANH MỤC CÁC BẢNG ix

DANH MỤC CÁC HÌNH x

CHƯƠNG 1 - TỔNG QUAN 1

1.1 Tổng quan về khai phá dữ liệu 1

1.1.1 Nhu cầu về khai phá dữ liệu 1

1.1.2 Khai thác dữ liệu là sự tiến hóa của công nghệ thông tin 3

1.1.3 Khai phá dữ liệu và khai phá tri thức 6

1.1.4 Các bước chính của quá trình khai phá dữ liệu 7

1.1.5 Kiến trúc một hệ thống khai phá dữ liệu 9

1.1.6 Ứng dụng của khai phá dữ liệu 11

1.2 Khai thác các mẫu phổ biến 12

1.2.1 Mẫu phổ biến 12

1.2.2 Khai thác mẫu phổ biến, tập phổ biến 12

1.3 Khai thác dựa trên giá trị hữu ích 14

1.4 Khai thác dựa trên giá trị hữu ích trung bình 15

1.5 Mục tiêu của luận văn 16

CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT 18

2.1 Một số khái niệm 18

2.1.1 Cơ sở dữ liệu giao dịch 18

2.1.2 Itemset 18

Trang 10

2.1.3 Độ phổ biến 18

2.1.4 Tập phổ biến 18

2.1.5 Tính chất Apriori 19

2.1.6 Ngưỡng hữu ích trung bình tối thiểu 19

2.1.7 Độ hữu ích 19

2.1.8 Tập hữu ích 20

2.1.9 Độ hữu ích trung bình 21

2.1.10.Tập hữu ích trung bình 21

2.1.11.Cận trên độ hữu ích trung bình 21

2.1.12.Tập cận trên độ hữu ích trung bình 22

2.2 Tính chất bao đóng giảm 22

2.3 Tính bao đóng giảm trong tập cận trên hữu ích trung bình 23

2.4 Thuật toán HAUI-Tree 23

2.4.1 Giới thiệu 23

2.4.1.1.Biểu diễn Itemset 23

2.4.1.2.Cây HAUI-Tree 24

2.4.2 Thuật toán sử dụng HAUI-Tree 24

2.4.2.1.Tập dữ liệu giao dịch 24

2.4.2.2.Thuật toán khai thác với HAUI-Tree 25

2.4.3 Ví dụ minh họa 27

2.4.4 Một số nhận xét 31

2.5 Khai thác độ hữu ích trung bình hai pha tăng trưởng 32

2.5.1 Giới thiệu 32

2.5.2 Thuật toán 32

2.5.3 Một số nhận xét 34

CHƯƠNG 3 - XÂY DỰNG THUẬT TOÁN IHAUI-TREE 35

3.1 Cây IHAUI-Tree 35

3.2 Thuật toán IHAUI 35

3.3 Ví dụ minh họa 38

Trang 11

3.3.1 Chạy lần đầu 38

3.3.2 Cập nhật thêm giao dịch 42

3.4 Một số nhận xét 46

CHƯƠNG 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ 48

4.1 Các bộ dữ liệu mẫu 48

4.2 Chạy thử nghiệm trên bộ dữ liệu Accidents 49

4.3 Chạy thử nghiệm trên bộ dữ liệu Retail 50

4.4 Kết luận và kiến nghị 50

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 53

Trang 12

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

 Minimum high average-utility ratio Tỉ lệ ngưỡng hữu ích trung bình tối thiểu

au, AU Average utility Giá trị hữu ích trung bình

HAUI High average utility itemset Tập hữu ích trung bình cao

HAUUBI High average-utility

Trang 13

DANH MỤC CÁC BẢNG

Bảng 2.1: CSDL item trong giao dịch 18

Bảng 2.2: CSDL các giao dịch 20

Bảng 2.3: Giá trị hữu ích các item 20

Bảng 2.4: Cấu trúc tập tin dữ liệu 24

Bảng 2.5: Biểu diễn dữ liệu giao dịch 25

Bảng 2.6: CSDL giao dịch 27

Bảng 2.7: Giá trị của các item trong CSDL 27

Bảng 2.8: Kết quả tính giá trị hữu ích và au, ub của các 1-itemset 28

Bảng 2.9: Ví dụ HAUI-Tree - Cấu trúc dữ liệu các 1-itemset 29

Bảng 2.10: Kết quả thu được tập HAU VÀ HAUUB 31

Bảng 3.1: CSDL giao dịch 39

Bảng 3.2: Giá trị hữu ích 39

Bảng 3.3: Kết quả tính giá trị hữu ích, AU và UB của các 1-itemset 40

Bảng 3.4: 1-itemset 40

Bảng 3.5: Kết quả thu được tập HAU VÀ HAUUB 42

Bảng 3.6: CSDL các giao dịch thêm mới 42

Bảng 3.7: Kết quả tính giá trị hữu ích, AU và UB của các 1-itemset 43

Bảng 3.8: 1-itemset 43

Bảng 3.9: 1-itemset sau khi cập nhật 43

Bảng 3.10: Kết quả thu được từ cây IHAUI-Tree 46

Bảng 3.11: Câu trúc itemset của IHAUI và HAUI 47

Bảng 4.1: Thông tin bộ dữ liệu 48

Bảng 4.2: Kết quả chạy thử nghiệm 49

Bảng 4.3: Thời gian chạy của 2 thuật toán 49

Bảng 4.4: Kết quả chạy thử nghiệm 50

Bảng 4.5: Thời gian chạy của 2 thuật toán 50

Trang 14

DANH MỤC CÁC HÌNH

Hình 1.1: Sự tiến hóa công nghệ CSDL [2] 3

Hình 1.2: Thế giới là dữ liệu phong phú nhưng thông tin nghèo [2] 5

Hình 1.3: Khai phá dữ liệu – tìm kiếm tri thức trong dữ liệu [2] 6

Hình 1.4: Khai thác dữ liệu là một bước trong quá trình khám phá tri thức [2] 7

Hình 1.5: Kiến trúc hệ thống khai thác dữ liệu [2] 9

Hình 1.6: Ví dụ chọn giỏ hàng trong siêu thị [2] 13

Hình 2.1: Kết quả kết hợp item {A} với các item khác 29

Hình 2.2: Kết quả kết hợp item {B} với các item khác 30

Hình 2.3: Kết quả kết hợp item {A} theo HAUI-Tree 30

Hình 2.4: Kết quả cây thu được 30

Hình 3.1: Cấu trúc cây IHAUI-Tree 35

Hình 3.2: Kết quả kết hợp item {A} với các item khác 40

Hình 3.3: Kết quả kết hợp item {B} với các item khác 41

Hình 3.4: Kết quả thu được cây IHAUI-Tree 41

Hình 3.5: Kết quả kết hợp item {A} với các item khác 44

Hình 3.6: Kết quả kết hợp item {B} với các item khác 45

Hình 3.7: Kết quả kết hợp các item khác 45

Hình 4.1: So sánh thời gian chạy của 2 thuật toán 49

Hình 4.2: So sánh thời gian chạy của 2 thuật toán 50

Trang 15

CHƯƠNG 1 - TỔNG QUAN

1.1 Tổng quan về khai phá dữ liệu

1.1.1 Nhu cầu về khai phá dữ liệu

“Chúng ta đang sống trong thời đại thông tin” [4], nhưng thực ra là chúng ta đang sống trong thời đại dữ liệu Hàng Terabytes hay Petabytes1

dữ liệu đổ vào mạng máy tính, World Wide Web (WWW), và những thiết bị lưu trữ dữ liệu mỗi ngày từ kinh doanh, xã hội, khoa học và kỹ thuật, y tế, và gần như mọi khía cạnh khác của cuộc sống hàng ngày

Việc tăng trưởng bùng nổ của khối lượng dữ liệu có sẵn là kết quả của việc tin học hoá xã hội và sự phát triển mạnh mẽ, nhanh chóng của các công cụ thu thập

và lưu trữ dữ liệu Các công ty trên toàn thế giới đã tạo ra bộ dữ liệu khổng lồ, bao gồm cả giao dịch bán hàng, hồ sơ giao dịch chứng khoán, giới thiệu sản phẩm, chương trình khuyến mãi bán hàng, hồ sơ công ty và thông tin phản hồi của khách hàng

Ví dụ:

 Các cơ sở dữ liệu lớn xử lý hàng trăm triệu giao dịch mỗi tuần

 http://top-10-list.org/2010/02/16/top-10-largest-databases-list/

1 Library of Congress: chứa hơn 125 triệu mục, trong đó bao gồm các

tờ báo, sách nấu ăn và thủ tục tố tụng của chính phủ

2 Central Intelligence Agency: không rõ kích thước chính xác của cơ

sở dữ liệu này, nhưng có hàng trăm mục dữ liệu thêm vào mỗi tháng và bao gồm số liệu thống kê dân số, bản đồ,…

3 Amazon: chứa hơn 250 nghìn sách, 55 triệu khách hàng, và hơn 40 Terabytes dữ liệu

1 Một petabyte là một đơn vị thông tin hoặc lưu trữ máy tính bằng một nghìn triệu triệu byte, hay một ngàn terabyte, tương đương một triệu gigabyte

Trang 16

4 YouTube: hàng trăm triệu clip được xem hàng ngày, tăng gấp đôi mỗi 5 tháng

5 ChoicePoint: cơ sở dữ liệu có thể đạt tới mặt trăng và trở lại ít nhất

75 lần

6 Sprint: có hơn 50 triệu thuê bao Ít nhất 3.000 tỷ cơ sở dữ liệu trên

350 bản ghi cuộc gọi hang ngày và 70.000 lần chèn mỗi giây

7 Google: theo thống kê hơn 90 triệu cuộc tìm kiếm mỗi ngày và được gọi là vua của CSDL internet

8 AT&T: tương tự như Sprint là công ty viễn thông lâu đời Nó chứa hơn 310 terabyte thông tin và gần 2.000 tỷ hang

9 National Energy Research SCC là trung tâm tính toán nghiêm cứu năng lượng quốc gia là CSDL lớn thứ 2 trên thế giới

10 World Data Center for Climate: CSDL này được điều khiển và duy trì bởi trung tâm tính toán khí hậu Đức

 Trung tâm tính toán khoa học nghiên cứu năng lượng quốc gia Mỹ

Trang 17

 Ít nhất có 242.39 triệu trang Web ở Hà Lan (23/9/2016), và 246.03 triệu trang (16/6/2017)

Sự phát triển bùng nổ, phổ biến rộng rãi, và khổng lồ của dữ liệu làm cho chúng ta thực sự sống trong thời đại dữ liệu Để tự động phát hiện ra thông tin có giá trị từ một lượng lớn dữ liệu và chuyển dữ liệu đó thành tri thức, rất cần những công cụ mạnh mẽ và linh hoạt Sự cần thiết này đã dẫn đến sự ra đời của khai thác

dữ liệu Đây là một lĩnh vực mới, năng động và đầy hứa hẹn Khai thác dữ liệu đã

và sẽ tiếp tục thực hiện những bước tiến lớn trong cuộc hành trình của chúng ta từ thời dữ liệu đến thời đại thông tin

1.1.2 Khai thác dữ liệu là sự tiến hóa của công nghệ thông tin

Khai thác dữ liệu có thể được xem như là một kết quả của sự tiến hóa tự nhiên của công nghệ thông tin

Tập hợp dữ liệu và khởi tạo CSDL

- Xử lý file thô sơ

- Giao diện người dùng, nhập liệu và kết xuất

- Xử lý truy vấn, tối ưu truy vấn

- Quản lý giao dịch: Khôi phục, điều khiển tương tranh

- Xử lý giao dịch trực tuyến

Hệ CSDL mở rộng

- Mô hình dữ liệu mở rộng: Quan

hệ mở rộng , quan hệ - đối tượng,

suy luận

- Ứng dụng mở rộng: Không gian,

thời gian, đa phương tiện, tích

cực, khoa học, cở sở tri thức

Kho dữ liệu và khai phá dữ liệu

- Kho dữ liệu và OLAP

- Khai thác dữ liệu và phát hiện tri thức: Phân lớp, phân cụm, kết hợp, phân tích mẫu, phân tích ngược lại …

- Ứng dụng KPDL mở rộng: Khai phá dữ liệu dòng, khai phá text, khai phá web

Hệ CSDL dựa trên Web

- Hệ CSDL dựa trên XML

- Sự tích hợp với phục hồi thông tin

- Dữ liệu và tích hợp thông tin

Thế hệ mới của dữ liệu tích hợp và các hệ thống thông tin

Hình 1.1: Sự tiến hóa công nghệ CSDL [2]

Trang 18

Khai thác dữ liệu có thể coi là một sự tiến hóa tự nhiên trong công nghệ thông tin và ngành hệ thống thông tin Từ những năm 1960, công nghệ thông tin đã phát triển một cách có hệ thống từ những hệ thống xử lý tập tin ban đầu đến các hệ

cơ sở dữ liệu phức tạp, hỗ trợ nhiều chức năng Những nghiên cứu và những bước phát triển trong các hệ cơ sở dữ liệu những năm 1970 đã phát triển từ dữ liệu dưới dạng phân cấp và tiến đến cơ sở dữ liệu quan hệ, các công cụ mô hình hóa dữ liệu, các phương pháp chỉ mục và truy cập dữ liệu Hơn thế nữa, người sử dụng còn có thể tương tác CSDL thông qua các ngôn ngữ truy vấn dữ liệu với giao diện thân thiện cùng các chức năng tối ưu hóa truy vấn và quản lý xung đột giao tác Các phương pháp xử lý giao tác trực tuyến (OLAP) tỏ ra rất hiệu quả Với các phương pháp này một truy vấn giống như một giao tác chỉ đọc.Sự phổ biến rộng rãi của CSDL quan hệ như một công cụ lưu trữ, đảm bảo, và quản lý dữ liệu hiệu quả kể cả những CSDL khổng lồ

Từ giữa những năm 1980, các hệ CSDL quan hệ được phát triển mạnh mẽ thúc đẩy quá trình phát triển các mô hình dữ liệu nâng cao như mô hình quan hệ mở rộng, mô hình hướng đối tượng, quan hệ đối tượng, mô hình suy diễn Các hệ CSDL hướng ứng dụng bao gồm các hệ CSDL cho các ứng dụng không gian vũ trụ,

y học, đa phương tiện, CSDL theo dòng, CSDL cho các ngành khoa học, kỹ thuật, các hệ cơ sở tri thức cũng phát triển nhanh chóng Các hệ CSDL hỗn hợp và hệ thống thông tin Internet toàn cầu như WWW xuất hiện và đóng vai trò chủ đạo trong ngành công nghiệp thông tin

Sự phát triển vững chắc và vượt bậc của kỹ thuật phần cứng đã tạo ra được các siêu máy tính, các thiết bị thu thập dữ liệu và phương tiện lưu trữ mới đáp ứng được nhu cầu lưu trữ ngày càng lớn Điều này là tiền đề quan trọng cho ngành công nghiệp CSDL và thông tin, tạo ra các thùng chứa CSDL và thông tin khổng lồ có khả năng quản lý giao tác, đảm bảo thông tin và phân tích dữ liệu

Hiện nay dữ liệu có thể được lưu trữ trong các loại thùng chứa khác nhau Một loại kiến trúc thùng chứa dữ liệu xuất hiện là các kho dữ liệu (Data Warehouse)

là một thùng chứa các nguồn dữ liệu hỗn hợp khác nhau, được tổ chức dưới một sơ

đồ thống nhất tại một địa điểm duy nhất hỗ trợ việc quản lý ra quyết định Kỹ thuật

xử lý kho dữ liệu này gồm các quá trình: Làm sạch dữ liệu (Data Cleaning), tích

Trang 19

hợp dữ liệu (Data Integration), xử lý giao tác trực tuyến (OLAP) với khả năng tổng quát hóa, nén, tập hợp dữ liệu có thể nhìn dữ liệu theo nhiều chiều hướng khác nhau Mặc dù công cụ OLAP có thể hỗ trợ phân tích dữ liệu theo nhiều chiều khác nhau, hỗ trợ ra quyết định, nhưng cần tích hợp thêm các công cụ phân tích dữ liệu theo chiều sâu khác như phân lớp, gom nhóm dữ liệu hay phân tích dữ liệu theo thời gian thực Hơn nữa, kích thước dữ liệu trong CSDL và kho dữ liệu là rất lớn Vì vậy, việc phân tích dữ liệu dưới các hình thức khác nhau một cái hiệu quả và có lợi

là một thử thách

Sự giàu có của dữ liệu đi đôi với sự ra đời của các công cụ phân tích dữ liệu

để khai thác thông tin, tri thức hữu ích.Tránh tình trạng giàu dữ liệu mà nghèo thông tin Với những CSDL khổng lồ và phát triển liên tục trong các kho dữ liệu thì việc phân tích không thể thực hiện được nếu không có sự hỗ trợ của các công cụ Khi dữ liệu bị nhiễu quá lớn có thể gây ra hiện tượng “Data Tombs” (mộ dữ liệu) Các công

cụ hỗ trợ ra quyết định không phải dựa trên dữ liệu trong thùng chứa mà dựa trên các tri thức thu được từ dữ liệu Các tri thức này được rút ra từ các hệ chuyên gia Quá trình này thường tốn thời gian và độ chính xác không cao Các công cụ khai thác dữ liệu thực hiện phân tích dữ liệu và giúp chuyển dữ liệu thành dữ liệu vàng

“golden nuggets” cho quá trình khám phá tri thức

Hình 1.2: Thế giới là dữ liệu phong phú nhưng thông tin nghèo nàn [2]

Theo Plato:“Sự cần thiết, là người mẹ của sáng chế” [2] KPDL ra đời như

một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên Khá nhiều định nghĩa

Trang 20

về KPDL đã được trình bày ở trên KPDL được xem như là một công nghệ tri thức, giúp các nhà phân tích khai thác những thông tin hữu ích từ những kho dữ liệu, được tích trữ trong suốt quá trình hoạt động của công ty, tổ chức

1.1.3 Khai phá dữ liệu và khai phá tri thức

Khai phá dữ liệu là một quá trình trích xuất tri thức từ lượng lớn dữ liệu, khai thác kiến thức từ dữ liệu Một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu

“Phát hiện tri thức trong CSDL là một quá trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu” [2]

Hình 1.3: Khai phá dữ liệu – tìm kiếm tri thức trong dữ liệu [2]

Là lĩnh vực nghiên cứu và triển khai được phát triển nhanh chóng và rộng lớn, lại được rất nhiều nhóm nghiên cứu tại nhiều địa điểm khác nhau trên thế giới đồng thời quan tâm, nên tồn tại rất nhiều cách tiếp cận khác nhau đối với lĩnh vực KDD Vì lý do đó mà trong nhiều tài liệu, các nhà khoa học trên thế giới đã sử dụng nhiều thuật ngữ khác nhau mà chúng được coi là mang cùng nghĩa với KDD như chiết lọc tri thức (knowledge extraction), phát hiện thông tin (information discovery), thu hoạch thông tin (information harvesting), khai quật dữ liệu (data archaeology) và xử lý mẫu dữ liệu (data pattern processing)

Trang 21

Mô hình quá trình khai phá dữ liệu cũng được cải tiến, phù hợp với mục tiêu kinh doanh và mục tiêu phát triển của từng tổ chức Tồn tại một số mô hình thiên hướng công nghệ

1.1.4 Các bước chính của quá trình khai phá dữ liệu

Nhiều người xem khai thác dữ liệu như là một từ đồng nghĩa với một thuật ngữ phổ biến được sử dụng, khám phá tri thức từ dữ liệu, hoặc KDD, trong khi những người khác xem khai thác dữ liệu chỉ đơn thuần là một bước cần thiết trong quá trình khám phá tri thức Quá trình khám phá tri thức được thể hiện trong hình 1.4 là một chuỗi lặp đi lặp lại các bước sau:

Hình 1.4: Khai thác dữ liệu là một bước trong quá trình khám phá tri thức [2]

Làm sạch dữ liệu (để loại bỏ nhiễu và dữ liệu không phù hợp)

Tích hợp dữ liệu (nơi mà nhiều nguồn dữ liệu có thể được kết hợp)4

Chọn lựa dữ liệu (nơi dữ liệu có liên quan đến nhiệm vụ phân tích được lấy từ cơ sở

dữ liệu): là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu

4 Một xu hướng phổ biến trong ngành công nghiệp thông tin là để thực hiện làm sạch dữ liệu và tích hợp dữ liệu như là một bước tiền xử lý, nơi mà các dữ liệu kết quả được lưu trữ trong một kho dữ liệu

Trang 22

lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định

Biến đổi dữ liệu (nơi mà dữ liệu được biến đổi và hợp nhất thành các hình thức thích hợp cho khai thác bằng cách thực hiện tóm tắt hoặc tập hợp các hoạt động)5 Khai thác dữ liệu (một quá trình cần thiết mà các phương pháp thông minh được áp dụng để trích xuất các mẫu dữ liệu): đây được xem là bước quan trọng nhất trong quá trình KDD Nó áp dụng một số kỹ thuật KPDL (chủ yếu là từ học máy và các lĩnh vực khác) để khai phá, trích chọn được những mẫu (patterns) thông tin, những mối liên hệ (relationships) đặc biệt trong dữ liệu

Đánh giá mẫu (để xác định các mô hình thực sự thú vị đại diện cho kiến thức dựa trên các biện pháp): thành phần này thường sử dụng các độ đo và tương tác với thành phần KPDL để tập trung tìm kiếm các mẫu Nó có thể sử dụng các ngưỡng để lọc ra các mẫu phát hiện được Ngoài ra, thành phần đánh giá mẫu có thể được tích hợp với thành phần KPDL, phụ thuộc vào các phương pháp KPDL được sử dụng Biểu diễn tri thức (nơi trực quan và kỹ thuật biểu diễn tri thức được sử dụng để trình bày kiến thức khai thác cho người sử dụng): những mẫu thông tin và mối liên hệ trong dữ liệu đã được khai phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám phá được những tiêu chí nhất định

Từ bước 1 đến 4 là các hình thức khác nhau của tiền xử lý dữ liệu, nơi dữ liệu được chuẩn bị cho khai thác Các bước khai thác dữ liệu có thể tương tác với người sử dụng hoặc một cơ sở tri thức Các mẫu thú vị được trình bày cho người sử dụng và có thể được lưu trữ như kiến thức mới trong cơ sở tri thức

Trang 23

1.1.5 Kiến trúc một hệ thống khai phá dữ liệu

Kiến trúc của hệ thống KPDL có thể có các thành phần chính sau:

Hình 1.5: Kiến trúc hệ thống khai thác dữ liệu [2]

Trong kiến trúc này, các nguồn dữ liệu cho các hệ thống KPDL bao gồm hoặc CSDL, hoặc kho dữ liệu, hoặc WWW, hoặc kho chứa dữ liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên Cơ sở tri thức, bao gồm các tri thức hiện có

về miền ứng dụng, được sử dụng trong thành phần KPDL để làm tăng tính hiệu quả của thành phần này Một số tham số của thuật toán KPDL tương ứng sẽ được tinh chỉnh theo tri thức miền sẵn có từ cơ sở tri thức trong hệ thống Cơ sở tri thức còn được sử dụng trong việc đánh giá các mẫu đã khai phá được xem chúng có thực sự

Trang 24

hấp dẫn hay không, trong đó có đối chứng với các tri thức đã có trong cơ sở tri thức Nếu mẫu khai phá được thực sự hấp dẫn thì được bổ sung vào cơ sở tri thức để phục

vụ cho hoạt động tiếp theo của hệ thống Như vậy, nguồn tri thức bổ sung vào cơ sở tri thức ở đây không chỉ từ lập luận logic để có tri thức mới, mà còn cho con người hiểu biết thêm về thế giới khách quan để bổ sung vào tri thức được phát hiện một cách tự động từ nguồn dữ liệu

KPDL là một bước chính trong quá trình phát hiện tri thức từ số lượng lớn

dữ liệu đã lưu trữ trong CSDL, kho dữ liệu hoặc các nơi lưu trữ khác Kết quả của bước này là những mẫu đáng quan tâm được đưa đến cho người dùng hoặc lưu giữ như là tri thức mới trong cơ sở tri thức

 CSDL, kho dữ liệu, WWW, kho chứa dữ liệu khác: Đây là một hoặc một tập CSDL, kho dữ liệu, World Wide Web, hoặc kho chứa dữ liệu kiểu bất

kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thực hiện trên dữ liệu

 Server CSDL/Kho dữ liệu: Có trách nhiệm lấy dữ liệu liên quan dựa trên yêu cầu của người KPDL

 Cơ sở tri thức: Đây là miền tri thức được sử dụng để hướng dẫn việc tìm kiếm hoặc đánh giá sự thú vị của các mẫu quan tâm Tri thức này có thể bao gồm các mức phân cấp khái niệm, được sử dụng để tổ chức các thuộc tính hoặc giá trị thuộc tính thành các cấp trừu tượng Tri thức như độ tin cậy của người sử dụng, có thể được sử dụng để đánh giá độ thú vị của mẫu Các ví dụ khác của miền tri thức là các ràng buộc thú vị bổ sung hoặc ngưỡng, và siêu dữ liệu (mô tả dữ liệu từ nhiều nguồn không đồng nhất)

 Bộ máy khai phá dữ liệu: Đây là thành phần cần thiết đối với hệ thống KPDL, bao gồm một tập các chức năng như mô tả, phân tích tính kết hợp

và tính tương quan, phân lớp, dự báo, phân tích cụm, phân tích ngoại lai,

và phân tích sự tiến hóa

Trang 25

 Đánh giá mẫu: Thành phần này thường sử dụng các độ đo và tương tác với thành phần KPDL để tập trung tìm kiếm các mẫu thú vị Nó có thể sử dụng các ngưỡng để lọc ra các mẫu phát hiện được Ngoài ra, thành phần đánh giá mẫu có thể được tích hợp với thành phần KPDL, phụ thuộc vào các phương pháp KPDL được sử dụng

 Giao diện người dùng: Thành phần này là thành phần giao tiếp giữa người

sử dụng và hệ thống KPDL; cho phép người dung tương tác với hệ thống bằng cách xác định một truy vấn hoặc một nhiệm vụ KPDL, cung cấp thông tin để giúp tập trung tìm kiếm, thăm dò và KPDL dựa trên kết quả KPDL trung gian Ngoài ra, thành phần này cho phép người dùng tìm các lược đồ CSDL, kho dữ liệu hoặc các cấu trúc dữ liệu, đánh giá các mẫu khai phá được, và trực quan hoá các mẫu trong các dạng khác nhau

1.1.6 Ứng dụng của khai phá dữ liệu

Mặc dù KPDL là một xu hướng nghiên cứu tương đối mới, nhưng thu hút nhiều nhà nghiên cứu bởi vì các ứng dụng thực tế của nó trong nhiều lĩnh vực Sau đây là một số ứng dụng tiêu biểu:

 Phân tích dữ liệu và hỗ trợ ra quyết định: ứng dụng này là phổ biến trong thương mại, tài chính và thị trường chứng khoán,…

 Y tế: tìm kiếm sự liên quan tiềm năng giữa các triệu chứng, chẩn đoán, và phương pháp điều trị,…

 Khai phá text và web: tóm tắt tài liệu, khôi phục văn bản và tìm kiếm văn bản, phân lớp văn bản và siêu văn bản,…

 Tin sinh học: tìm kiếm và so sánh thông tin di truyền điển hình hoặc đặc biệt như bộ gen và DNA, các mối quan hệ ngầm giữa một số gen và một

số bệnh di truyền,…

 Tài chính và thị trường chứng khoán: kiểm tra dữ liệu để trích xuất thông tin dự đoán cho giá của các loại cổ phiếu,…

Trang 26

 Những ứng dụng khác: viễn thông, bảo hiểm y tế, thiên văn học, chống khủng bố, thể thao,…

1.2 Khai thác các mẫu phổ biến

1.2.1 Mẫu phổ biến

Là tập các item xuất hiện phổ biến trong một tập dữ liệu Ví dụ như itemset gồm sữa và bánh mì xuất hiện phổ biến trong dữ liệu giao dịch giỏ hàng được gọi là một itemset phổ biến

Các tập mẫu phổ biến được sử dụng để khai thác luật kết hợp, sự tương quan của dữ liệu Ngoài ra, chúng còn được sử dụng trong các quá trình phân lớp, gom cụm hay các công việc khai thác dữ liệu khác Khai thác tập phổ biến đóng vai trò quan trọng trong khai thác dữ liệu và xuất hiện nhiều trong các nghiên cứu

1.2.2 Khai thác mẫu phổ biến, tập phổ biến

Khai thác mẫu phổ biến: là việc tìm kiếm các mối quan hệ xuất hiện một cách tuần hoàn, phổ biến trong tập dữ liệu Khai thác luật kết hợp, mối tương quan các itemset trong tập dữ liệu các giao tác cũng là khai thác mẫu phổ biến Một ví dụ điển hình đó là phân tích giỏ hàng trong các cửa hàng, siêu thị

Khai thác tập phổ biến: là việc tìm ra các tập item phổ biến để rút ra sự kết hợp và mối liên quan giữa các item trên những tập dữ liệu lớn của giao dịch Với kích thước dữ liệu khổng lồ được thu thập và lưu trữ, nhiều công ty đã ứng dụng khai thác tập mẫu trên dữ liệu của họ Việc khám phá những mối liên hệ thú vị dựa trên các dòng dữ liệu khổng lồ giúp các nhà phân tích đưa ra những chiến lược trong kinh doanh, hỗ trợ trong việc thiết kế các catalog, marketing, phân tích thói quen mua sắm của khách hàng

Trang 27

Hình 1.6: Ví dụ chọn giỏ hàng trong siêu thị [2]

Một ứng dụng thường thấy trong khai thác các tập item phổ biến là phân tích giỏ hàng Quá trình này sẽ phân tích thói quen mua hàng và tìm thấy các mối kết hợp giữa các item mà khách hàng chọn mua Việc khám phá quan hệ kết hợp này có thể hỗ trợ những người bán lẻ phát triển chiến lược marketing dựa trên những sản phẩm thường được người dùng mua chung

Việc khai thác dữ liệu rút ra các luật kết hợp trong mua bán hàng trực tuyến cũng giúp cho ngành thương mại điện tử phát triển, đáp ứng nhu cầu mua hàng ngày càng tăng với tốc độ nhanh chóng và tiện lợi

Trong quá trình khai thác luật kết hợp thì khai thác tập phổ biến là một trong những việc quan trọng nhưng mất nhiều thời gian Trong hầu hết các thuật toán khai thác luật, các nghiên cứu đặc biệt chú ý đến vấn đề làm thế nào để khai thác nhanh tập phổ biến (hay tập phổ biến đóng) Nên có khá nhiều tác giả chỉ tập trung vào

Trang 28

việc nghiên cứu tìm ra thuật toán hiệu quả cho bài toán khai thác tập phổ biến/tập phổ biến đóng (FI/FCI) Một số thuật toán tiêu biểu cho việc giải quyết bài toán này như thuật toán Apriori, AprioriTid, Eclat, FP-Growth,… Trong đó phương pháp FP-Growth được cải tiến hơn với việc khai thác các FI dựa trên cây chỉ qua duyệt CSDL hai lần

1.3 Khai thác dựa trên giá trị hữu ích

Thường thì khai thác tập phổ biến chỉ cần quan tâm đến sự xuất hiện của các item mà không quan tâm đến các giá trị khác của nó như số lượng hay giá cả Các item trong giao dịch được xem là như nhau Nhưng thực tế giá trị của các item khác nhau, và các item có giá trị cao thường lại xuất hiện ít hơn các các item có giá trị thấp Vì vậy vấn đề có thể được coi là mở rộng của việc khai thác các itemset phổ biến đó là khai thác các itemset hữu ích

Có thể ví dụ như việc mua kim cương và quần áo, kim cương có thể xuất hiện ít lần hơn trong các giao dịch so với quần áo nhưng giá trị mang lại của nó có thể cao hơn Phương pháp khai thác dữ liệu dựa trên độ hữu ích được đưa ra bởi Chan [8] Giá trị hữu ích của một item trong giao dịch được tính bằng tích giá trị hữu ích (giá) và số lượng của nó trong giao dịch Giá trị hữu ích của itemset trong giao dịch bằng tổng các giá trị hữu ích của các item trong itemset trong giao dịch

đó Một itemset được gọi là có độ hữu ích cao khi giá trị hữu ích của nó thỏa ngưỡng được định trước Tiêu biểu cho việc khai thác này là thuật toán dựa trên hai pha của Liu [8] Ở pha thứ nhất, các ứng viên sinh ra được cắt tỉa bởi ngưỡng cận trên giảm thiểu bớt số ứng viên Pha thứ hai, dữ liệu được đọc một lần nữa, tính toán giá trị hữu ích thực tế của các ứng viên còn lại và tìm ra các itemset có độ hữu ích cao Vấn đề được đặt ra trong việc khai thác này chính là cắt giảm bớt số ứng viên và thời gian duyệt lại dữ liệu Vào năm 2011, Lin, Hong, Lu đã đưa ra một cấu trúc cây gọi là HUP-Tree [5] để khai thác các itemset hữu ích cao Bước đầu việc khai thác cần tính toán các giá trị hữu ích tương ứng và chọn ra tập các 1-itemset ứng viên, sau đó dựa trên bảng header được sắp xếp theo tính tăng dần độ phổ biến

Trang 29

để tiến hành duyệt một lần nữa các giao dịch để tao ra HUP-Tree Cuối cùng, các tập itemset hữu ích cao sẽ được khai thác từ HUP-Tree Phương pháp dựa vào WIT-Tree với việc sử dụng thuộc tính “bao đóng giảm” của các itemset để loại bỏ các ứng viên không phù hợp, phát sinh ứng viên nhanh chóng rút ngắn thời gian khai thác

1.4 Khai thác dựa trên giá trị hữu ích trung bình

Như đã nhắc ở trên, với khai thác độ hữu ích, độ hữu ích của một itemset là tổng giá trị hữu ích của các item trong tất cả các giao dịch chứa nó mà không quan tâm đến số lượng item trong itemset Vì vậy độ hữu ích của itemset sẽ tăng dần theo

số lượng item, trong cùng một giao dịch thì itemset có chiều dài lớn hơn sẽ có giá trị hữu ích lớn hơn Vì vậy việc sử dụng một ngưỡng chung cho tất cả các itemset là chưa hợp lý

Một độ đo mới được đề nghị để giải quyết vấn đề trên, đó là giá trị hữu ích trung bình AU (Average Utility) [6] Độ hữu ích trung bình được tính bằng tổng giá trị hữu ích của itemset chia cho độ dài của itemset Nếu giá trị này lớn hơn ngưỡng cho trước thì itemset được gọi là itemset có độ hữu ích trung bình cao hay còn gọi là HAUI (High Average Utility Itemset) [6]

Khi sử dụng giá trị hữu ích trung bình thì tính bao đóng giảm bị phá vỡ, tức

là một itemset có giá trị hữu ích trung bình không thỏa ngưỡng thì vẫn có thể kết hợp với một hay nhiều item khác để tạo thành một itemset có độ hữu ích trung bình cao Đây chính là vấn đề cần giải quyết trong bài toán khai thác là số lượng ứng viên rất lớn và chi phí tính toán cao

Một giá trị thường được đưa ra để giảm bớt số ứng viên xét là giá trị cận trên hữu ích trung bình UB (Average Utility Upper Bound) Trong nghiên cứu của các tác giả, Hong, Lee& Wang [1] đã sử dụng giá trị UB để loại bớt ứng viên tạo ra tập các itemset có giá trị UB thỏa ngưỡng và dựa vào tập các r-itemset có giá trị UB thỏa ngưỡng để tạo ra các (r+1)-itemset, sau đó chọn ra các itemset nào có độ hữu ích trung bình cao (HAUI) Ở đây các itemset có UB không thỏa ngưỡng thì bị loại

Trang 30

nhưng các giá trị của chúng vẫn còn được xét trong việc tính UB cho các itemset khác[1] Với hướng tiếp cận này, sau khi loại trừ các item có UB không thỏa ngưỡng, UB của các item còn lại sẽ được tính lại và chọn lọc thêm một lần nữa Một số cấu trúc dữ liệu khác cũng đã được đề cập để tăng tốc độ tính toán.Điển hình như cấu trúc bảng chỉ mục trong nghiên cứu của Lan, Hong, Tseng [4]

Năm 2014, Tien Lu, Bay Vo, Hien T Nguyen, Tzung-Pei Hong [9] đã đưa ra thuật toán HAUI-Tree sử dụng giá trị cận trên trung bình để loại bỏ bớt các ứng viên, đồng thời tận dụng được tính bao đóng giảm của tập ngưỡng trên hữu ích trung bình Ưu điểm của nó là giúp cho việc phát sinh các ứng viên nhanh hơn thuật toán sử dụng Index Table và tiết kiệm được vùng nhớ Đồng thời trong nghiên cứu này có đề xuất cấu trúc một itemset nhằm giảm thời gian tính toán, cải thiện thời gian phát sinh và tính toán các giá trị cho các ứng viên

1.5 Mục tiêu của luận văn

 Đề xuất một cấu trúc dữ liệu mới để cải thiện cách tính toán các giá trị cho các itemsets (BitArray) nhanh hơn

 Thực nghiệm và so sánh thuật toán đề xuất với các phương pháp trước

đó và đưa ra các nhận xét

 Đề xuất thuật toán khai thác tập hữu ích trung bình trên CSDL tăng trưởng

Kết luận chương

Chương này đã trình bày tổng quan về khai thác dữ liệu và khai thác tri thức

và sự cần thiết của nó Quá trình khai thác tri thức gồm nhiều giai đoạn, trong đó giai đoạn khai thác dữ liệu là một giai đoạn chính yếu nhất

Khai phá dữ liệu là quá trình khám phá ra các mẫu được quan tâm từ lượng lớn dữ liệu:

Trang 31

 Mẫu kết quả khai phá được là những mẫu thể hiện tri thức nếu chúng dễ hiểu, hợp lệ với một mức độ chắc chắn, hữu dụng, và mới đối với người dùng

 Khai phá dữ liệu được xem như là một phần của quá trình khám phá tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: làm sạch dữ liệu, tích hợp dữ liệu, chọn lựa dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá mẫu, và biểu diễn tri thức

 Nhiều lĩnh vực khác nhau có liên quan với khai phá dữ liệu: cơ sở dữ liệu, lý thuyết thống kê, học máy, khoa học thông tin, trực quan hóa,…

 Các vấn đề liên quan: phương pháp luận khai phá dữ liệu, vấn đề tương tác người dùng, khả năng co giãn dữ liệu và hiệu suất, vấn đề xử lý lượng lớn các kiểu dữ liệu khác nhau, vấn đề khai thác các ứng dụng khai phá dữ liệu cũng như sự ảnh hưởng xã hội của chúng

Sự đa dạng của dữ liệu, các nhiệm vụ khai thác dữ liệu, và các cách tiếp cận khai thác dữ liệu đặt ra nhiều thách thức trong vấn đề nghiên cứu khai thác dữ liệu Phần cuối của chương này phác họa những ưu thế, ứng dụng chính của lĩnh vực này

và những hướng nghiên cứu đã và đang được quan tâm

Trang 32

CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT

2.1 Một số khái niệm

2.1.1 Cơ sở dữ liệu giao dịch

Một CSDL giao dịch D gồm một bộ {I, P, T} trong đó Tập { } là tập hợp n items được xét, tập { } là tập hợp giá trị hữu ích của n item và tập { } là tập hợp m giao dịch được xét

2.1.2 Itemset

Một itemset {X} là tập hợp các item Ii (Ii I), X I, nếu |X|=r thì ta gọi {X}

là một r-itemset (r là số lượng item trong itemset {X}), r là độ dài của itemset {X}

2.1.3 Độ phổ biến

Cho CSDL giao dịch D và một itemset {X} I Độ phổ biến của{X} trong D,

kí hiệu (X), là số giao dịch mà có {X} xuất hiện trong D

Ví dụ: Cho CSDL sau:

Bảng 2.1: CSDL item trong giao dịch

Mã giao dịch Danh sách item

Trang 33

Ví dụ: Xét CSDL của bảng 2.1 với minSupCount= 3 thì {A} thuộc tập phổ

biến vì ({A}) = 4 minSupCount,nhưng {AD} không thuộc tập phổ biến

Tính chất này được áp dụng rất nhiều trong các thuật toán khai thác tập phổ biến Nó giúp phát sinh các ứng viên hiệu quả, tăng tốc độ khai thác

2.1.6 Ngưỡng hữu ích trung bình tối thiểu

Ngưỡng hữu ích trung bình tối thiểu là một giá trị được sử dụng trong khai thác dựa trên giá trị hữu ích của item, các itemset có giá trị hữu ích vượt qua ngưỡng này được gọi là itemset có giá trị hữu ích cao (HUI) Mở rộng với việc khai thác theo độ hữu ích trung bình, một itemset có giá trị hữu ích trung bình vượt qua ngưỡng gọi là itemset có giá trị hữu ích trung bình cao (HAUI)

Với tỉ lệ ngưỡng hữu ích trung bình tối thiểu (do người dùng định trước)

2.1.7 Độ hữu ích

Độ hữu ích của item trong giao dịch là tích của số lượng item trong giao dịch

đó và giá trị hữu ích của nó

Trong đó: uij là độ hữu ích của item Ii trong giao dịch tj, qij là số lượng item I trong giao dịch tj

Ngày đăng: 02/11/2018, 23:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w