Đánh giá các thuật toán khai thác tập mục lợi ích cao

Phạm vi nghiên cứu  Vì có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu các thuật toán khai thác tập có ích cao trên dữ liệu tĩnh dữ liệu không có biến động,

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

Cán bộ hướng dẫn khoa học: ………

TS TÔ HOÀI VIỆT

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM

(HUTECH) ngày 17 tháng 10 năm 2015

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã sửa chữa

Chủ tịch Hội đồng đánh giá LV

Trang 4

TRƯỜNG ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM CÔNG NGHỆ TP.HỒ CHÍ MINH Độc lập – Tự do – Hạnh phúc

PHÒNG QLKH – ĐTSĐH

TP HCM, ngày 17 tháng 10 năm 2015

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên : Đặng Công Quốc Giới tính: Nam

Ngày, tháng, năm sinh : 21 – 06 – 1968 Nơi sinh: Thừa Thiên Huế Chuyên ngành : Công Nghệ Thông Tin MSHV : 1341860050

III- Ngày giao nhiệm vụ: 03/4/2015

IV- Ngày hoàn thành nhiệm vụ: 17/9/2015

V- Cán bộ hướng dẫn: TS Tô Hoài Việt

CÁN BỘ HƯỚNG DẪN KHOA CÔNG NGHỆ THÔNG TIN

TS Tô Hoài Việt

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả đánh giá, nhận xét và các đề xuất cải tiến mới nêu trong Luận văn là trung thực

và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này cũng nhƣ các trích dẫn hay tài liệu học thuật tham khảo đã đƣợc cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thông tin trích dẫn trong Luận văn

Học viên thực hiện Luận văn

Đặng Công Quốc

Trang 6

LỜI CẢM ƠN

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới TS Tô Hoài Việt – Trường Đại học Sài Gòn, PGS.TSKH Nguyễn Xuân Huy – Viện Hàn lâm KHCN Việt Nam, TS Võ Đình Bảy – Trường Đại học Công nghệ TP Hồ Chí Minh, TS Lư Nhật Vinh – Trường Đại học Công nghiệp Thực phẩm TP Hồ Chí Minh, PGS.TS Lê Hoài Bắc – Trường Đại học Khoa học Tự nhiên TP Hố Chí Minh, TS Nguyễn Quốc Huy – Trường Đại học Sài Gòn, những người thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này

Tôi xin chân thành cảm ơn sự dạy bảo, giúp đỡ, tạo điều kiện và khuyến khích tôi trong quá trình học tập và nghiên cứu của các thầy cô giáo, cán bộ quản lý của Trường Đại học Công nghệ TP Hồ Chí Minh

Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè - những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống và trong công việc

Tôi xin chân thành cảm ơn!

Tp Hồ Chí Minh, ngày 26 tháng 10 năm 2015

Tác giả

Đặng Công Quốc

Trang 7

TÓM TẮT

Phân tích hành vi mua sắm của khách hàng là bài toán cơ bản trong lĩnh vực kinh doanh cũng như nghiên cứu marketing Vì vậy, việc hiện thực một hệ thống có tên gọi là Hệ phân tích hành vi khách hàng để hỗ trợ cho các nhà buôn bán lẻ tận dụng khai thác khối lượng dữ liệu giao dịch khổng lồ từ chính cửa hàng của họ là điều cần thiết

Hệ thống gồm nhiều mô đun và nhiều giai đoạn để thực hiện, tất cả các mô đun và các giai đoạn thực hiện đều khó và phức tạp Nhưng cốt lõi hơn hết là việc

xử lý dữ liệu lớn hiệu quả Vì vậy, tác giả ưu tiên tập trung nghiên cứu các thuật toán tìm tập các mặt hàng mang lại lợi ích nhất cho cửa hàng đó

Việc nghiên cứu bước đầu đã có một số kết quả như sau:

- Xác định mã nguồn và cấu trúc dữ liệu của từng thuật toán đã cài đặt trên SPMF như mô tả trong các bài báo đã công bố để xác định độ tin cậy của công cụ SPMF

- Xác định được thuật toán Two-Phase trong SPMF cài đặt không đúng với bài báo ban đầu (cài đặt theo cây WIT-TREE, sử dụng Tidset)

- Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng của Two-Phase có dùng thêm tính chất Diffset của Zaki)

- Thực nghiệm lại tất cả các thực nghiệm đã được thực hiện trong các công trình công bố để xác định tính đúng đắn của thuật toán

Các kết quả này hoàn thành mục tiêu đánh giá khách quan ưu điểm và khuyết điểm của các thuật toán mới Đánh giá một số thuật toán theo cấu trúc cây, một số thuật toán theo utility-list; So sánh hiệu quả giữa cấu trúc cây và utility-list Kiểm tra tính đúng đắn của mã nguồn các thuật toán khai thác tập có ích cao trong công

cụ SPMF so với mã giả của các thuật toán đưa ra trong các bài báo Hiện thực lại các thực nghiệm cho từng thuật toán đã trình bày trong các bài báo đã công bố Qua

Trang 8

đó, đảm bảo môi trường thực nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả mới sau này nếu có

Trang 9

Customer behavior analysis is a basis problem in business area as well as marketing research Thus, it is very necessary for setting up a system named Customer Behavior Analysis System to support the retailers in mining the huge transaction data from their stores

The system has many modules and many phases which need to implement They are very touch and complexity In these modules, the main core is how to process big data effectively So the thesis focuses on studying algorithms which can find out the high utility itemsets for the stores

There are some initial results of research as follows:

- To identify whether the source code and data structures of each algorithm in SPMF tool are correct as the description of the proposed papers If it is right, the SPMF is considered as high confident tool to compare the algorithms in many data

- We see that the source code of Two-Phase algorithm in SPMF tool is not right one hundred percent as described in the original paper It is implemented as the description of WIT-TREE, an enhancement of Two-Phase

- We implemented one more algorithm named Diffset-Two-Phase It is the expanding of Two-Phase which applied the Diffset property

- All experiments in proposed papers of HUI mining are implemented again to identify the correctness of algorithms

These results help us measure objectively the advantages and disadvantages

of novel algorithms Especially, we focus on algorithms using lattice structure and utility-list, and identify the correctness of source code of SPMF is based on the pseudo-code proposed in HUI papers Then, the correctness of experiments in HUI papers is also reviewed by re-running the algorithms with experiment data From

Trang 10

that, we can claim that experiment environment is confident already to test every new algorithms as well as new data in future if possible

Trang 11

2.3 Khuôn mẫu chung để khai thác itemset có ích 29 CHƯƠNG 3: ĐÁNH GIÁ CÁC THUẬT TOÁN

Trang 12

3.1 Bài toán ban đầu 34

3.2.4 Cấu trúc cây IT-tree và các lớp tương đương 40

3.3 Các thuật toán theo cấu trúc dàn kết hợp cấu trúc utiity-list 45

Trang 13

DANH MỤC CÁC TỪ VIẾT TẮT

Ký hiệu, viết tắt Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt

TID Transaction Item Database Định danh giao tác

FIM Frequent Itemset Mining Khai thác tập phổ biến

HUI High-Utility Itemset Mining Khai thác tập hữu ích cao

WIT – Tree Cây WIT – Tree Weighted Itemset – Tidset

Tree

TWU – Mining Thuật toán TWU – Mining Transaction Weighted

Utility Mining HUI-MINER High Utility Itemset Miner Giải thuật Hui-Miner FHM Fast High –utility Miner Giải thuật FHM

Co-Occurrence Structure

Cấu trúc EUCS

Trang 14

DANH MỤC CÁC BẢNG

Bảng 3.3: Một thành phần trong danh sách utility-list 47

Bảng 3.6: Kết quả thực nghiệm so sánh giữa nhóm (Two-phase, Diffset-Two-Phase)

Trang 15

Hình 3.6: SPMF có cài đặt thêm thuật toán Diffset-Two-Phase 44

Hình 3.8: Minh họa cách mở rộng itemset từ các item 46

Trang 16

Hình 3.22: Đồ thị minh họa cho dữ liệu Accidents 60 Hình 3.23: Đồ thị minh họa cho dữ liệu Accidents* 60

Hình 4.2: Minh họa các thành phần SSAS – SSIS – SSRS trong BIDS 65

Trang 17

MỞ ĐẦU

1 Lý do chọn đề tài

Phân tích hành vi mua sắm của khách hàng là bài toán cơ bản trong lĩnh vực hoạt động cũng như nghiên cứu marketing Trong đó, thông tin giao dịch thể hiện qua từng hóa đơn và các hóa đơn là dữ liệu quan trọng để các nhà buôn bán lẻ và sỉ rút ra được thông tin có giá trị về hành vi mua sắm của khách hàng để hoạch định chiến lược mua bán cũng như trong kế hoạch tích trữ tồn kho

Tuy nhiên, để một người tự rút ra được những thông tin có giá trị từ nhiều dữ liệu hóa đơn thì thường dễ sai sót và tốn quá nhiều thời gian Tác giả quan tâm đến việc hiện thực một hệ thống có tên gọi là Hệ phân tích hành vi khách hàng để hỗ trợ cho các nhà buôn bán lẻ tận dụng khai thác khối lượng dữ liệu giao dịch khổng lồ từ chính cửa hàng của họ

Hệ thống gồm nhiều mô đun và nhiều giai đoạn để thực hiện, tất cả các mô đun và các giai đoạn thực hiện đều khó và phức tạp Nhưng cốt lõi hơn hết là việc

xử lý dữ liệu lớn hiệu quả Vì vậy, tác giả ưu tiên tập trung nghiên cứu các thuật toán tìm tập các mặt hàng mang lại lợi ích nhất cho cửa hàng đó

2 Đóng góp chính của luận văn

- Xác định mã nguồn và cấu trúc dữ liệu của từng thuật toán đã cài đặt trên SPMF như mô tả trong các bài báo đã công bố để xác định độ tin cậy của công cụ SPMF

- Xác định được thuật toán Two-Phase trong SPMF cài đặt không đúng với bài báo ban đầu (cài đặt theo cây WIT-tree)

- Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng của Two-Phase có dùng thêm tính chất Diffset của Zaki)

- Thực nghiệm lại tất cả các thực nghiệm đã được thực hiện trong các công trình công bố để xác định tính đúng đắn của thuật toán

Trang 18

3 Mục tiêu nghiên cứu

 Mục tiêu tổng quát: Khảo sát các phương pháp làm thực nghiệm và phân tích thực nghiệm của các tác giả đề xuất thuật toán Đánh giá thực

nghiệm một số thuật toán khai thác tập mục lợi ích cao

 Mục tiêu cụ thể: Đưa ra các bước thực nghiệm và các ràng buộc cần thiết

để đánh giá khách quan ưu điểm và khuyết điểm của các thuật toán mới Đánh giá một số thuật toán theo cấu trúc cây, một số thuật toán theo utility-list; So sánh hiệu quả giữa cấu trúc cây và utility-list Kiểm tra tính đúng đắn của mã nguồn các thuật toán khai thác tập có ích cao trong công cụ SPMF so với mã giả của các thuật toán đưa ra trong các bài báo Hiện thực lại các thực nghiệm cho từng thuật toán đã trình bày trong các bài báo đã công bố Qua đó, đảm bảo môi trường thực nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả mới sau này nếu

có

4 Đối tượng và phạm vi nghiên cứu

4.1 Đối tượng nghiên cứu:

 Các thuật toán về khai thác tập mục lợi ích cao như: Two-Phase, MINING, Diffset-Two-Phase, HUI-Miner, FHM

TWU- Dữ liệu thử phổ biến như: chess, mushroom, pumsb, connect, accidents

4.2 Phạm vi nghiên cứu

 Vì có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu các thuật toán khai thác tập có ích cao trên dữ liệu tĩnh (dữ liệu không có biến động), dữ liệu nghiên cứu được lấy từ nguồn dữ liệu nghiên cứu chuẩn (chưa thử nghiệm trên dữ liệu thực), việc đánh giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán (chưa đánh giá tính có ích thực sự so với ý kiến thực của khách hàng) Việc xử lý dữ liệu theo hướng tập trung (chưa nghiên cứu hướng phân tán)

Trang 19

 Các thuật toán chính để tìm hiểu gồm những thuật toán phổ biến và được công cụ SPMF cài đặt bao gồm: Two – Phase, Hui – Miner, FHM

 Dữ liệu thực nghiệm được lấy từ nguồn đáng tin cậy

5 Phương pháp nghiên cứu

Cài đặt thuật toán Diffset-Two-Phase, tìm hiểu và thực nghiệm các thuật toán Two-Phase, Diffset-Two-Phase, Hui-Miner, FHM, với nhiều CSDL được lấy từ

cập lúc 9 giờ ngày 01/8/2015) và có điều chỉnh số item và số giao dịch Chương trình được cài đặt bằng ngôn ngữ Java, hệ điều hành Windows 10 Pro, CPU i7-4790 3.6 GHz, RAM 8GB, tập trung vào 2 hướng chính như sau:

 Thực hiện lại thực nghiệm của các thuật toán khai thác tập hữu ích cao nhằm xác minh lại các kết luận quan trọng của các tác giả

 So sánh, đối chiếu và tìm ra các đặc trưng quan trọng của các tập thử cho từng họ thuật toán cụ thể

 So sánh tính hiệu quả giữa cấu trúc cây và utility-list về khai thác tập mục lợi ích cao

Trang 20

CHƯƠNG 1 TỔNG QUAN

1.1 Giới thiệu

Trong thực tế, một doanh nghiệp bán lẻ cần xác định khách hàng nào có khả năng có giá trị nhất (khách hàng đóng góp phần lớn lợi nhuận cho công ty) Đây là những khách hàng, họ có thể mua những món hàng có giá sẵn, những món hàng lợi nhuận cao, hoặc những món hàng sành điệu, hầu hết khách hàng không mua những món hàng này mà chỉ có số ít khách hàng mua nên thông tin về những món hàng như vậy xuất hiện rất ít trên cơ sở dữ liệu giao tác, nhưng những món hàng này mang lại lợi nhuận cao Trong khai thác luật kết hợp truyền thống, các giao tác thể hiện khách hàng có thể có lợi ích cao bị bỏ sót Ví dụ, {sữa, bánh mì} có thể là một tập phổ biến với độ hỗ trợ 40%, đóng góp 4% tổng lợi ích, và khách hàng tương ứng thuộc nhóm A, trong khi {bánh sinh nhật, thiệp sinh nhật} có thể là tập không phổ biến với độ hỗ trợ 8% (giả sử ngưỡng độ hỗ trợ là 10%), đóng góp 8% tổng lợi ích, và khách hàng tương ứng thì thuộc nhóm B Các chuyên gia thị trường phải quan tâm hơn trong vấn đề tiếp thị bán hàng {bánh sinh nhật, thiệp sinh nhật} bằng cách thiết kế chiến dịch tiếp thị hoặc thiết kế vé khuyến mãi cho khách hàng nhóm

B (các khách hàng mang nhiều lợi ích), dù itemset này bị bỏ quên trong khai thác luật kết hợp

Một ví dụ khác là dữ liệu web log Một chuỗi các trang web do người dùng ghé thăm có thể được xem như là một giao tác Do số lần thăm một trang web và thời gian người dùng dành cho một trang web đặc biệt nào đó thì khác nhau, nên tổng thời gian mà người dùng dành cho một trang có thể được xem là độ có ích Những người thiết kế website có thể nắm bắt sự quan tâm và các hành vi của khách hàng bằng cách nhìn vào độ có ích của các kết hợp trang rồi xem xét việc tái tổ chức cấu trúc link của website để phục vụ cho sở thích người dùng Tần suất không

đủ để trả lời các câu hỏi, đại loại như liệu một itemset có mang lại lợi ích cao hay

Trang 21

không? hay liệu một itemset có ảnh hưởng mạnh hay không? Khai thác độ có ích thì rất hữu dụng trong phần lớn các ứng dụng thực tế

Tuy nhiên, không có chiến lược hiệu quả để tìm tất cả các itemset có ích cao Một phương pháp thông thường có thể loại trừ các item đóng góp phần nhỏ trong tổng lợi ích Tuy nhiên, itemset có ích cao vẩn có chứa các item có ích thấp Một cách khác để thích nghi với sơ đồ tìm kiếm thông minh có trong thuật toán khai thác luật kết hợp nhanh, như là Apriori Cơ sở của các thuật toán khai thác luật kết hợp truyền thống này là “tính chất bao đóng giảm” (tính chất phản đơn điệu): bất cứ tập con của tập phổ biến nào cũng phổ biến Có nghĩa là, chỉ có k - itemsets phổ biến được khai thác để sinh ra các (k+1) - itemsets phổ biến tiềm ẩn Hướng tiếp cận này hiệu quả do một số lượng lớn các kết hợp của các item được tỉa tại mỗi cấp Tuy nhiên, tính chất này không áp dụng được cho mô hình khai thác độ có ích Ví dụ,

u(D) = 36 < 120, D là một item có độ có ích thấp, nhưng tập lớn có chứa nó {B, D}

là itemset có ích cao Không có tính chất này, số lượng ứng viên được sinh ra tại mỗi cấp tiến nhanh đến tất cả các kết hợp của tất cả item Đối với 105 items, hơn 1092-itemsets ứng viên có thể được sinh ra Hơn nữa, để khai thác một mẫu dài thì số lượng ứng viên cực lớn Chi phí tính toán về thời gian hay vùng nhớ thì không chịu nổi, tập trung vào cách nào để ứng dụng Thách thức trong khai thác độ có ích là

giới hạn về kích thước của tập ứng viên và đơn giản việc tính toán để tính độ có ích

1.2 Tổng quan về khai thác dữ liệu

1.2.1 Khai thác dữ liệu [1, 2, 3, 7]

Khai thác dữ liệu – Data Mining (KTDL) là một quá trình trích xuất tri thức

từ lượng lớn dữ liệu KTDL đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các CSDL lớn KTDL là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định

Trang 22

Hình 1.1: Vị trí của KTDL Nguồn dữ liệu phục vụ cho khai thác dữ liệu có thể là các CSDL lớn hay các kho dữ liệu có hoặc không có cấu trúc Khai thác dữ liệu chỉ thực sự phát huy tác dụng trên các CSDL lớn, nơi mà khả năng diễn dịch và trực giác của con người cũng như các kỹ thuật truyền thống không thể thực hiện được hoặc nếu thực hiện được thì hiệu quả không cao KTDL là một công đoạn trong tiến trình lớn hơn là khám phá tri thức từ CSDL KTDL mang tính trực giác, cho phép thu được những hiểu biết rõ ràng và sâu sắc hơn, vượt xa kho dữ liệu KTDL giúp phát hiện những

xu thế phát triển từ những thông tin quá khứ, cũng như cho phép đề xuất các dự báo mang tính thống kê, gom cụm và phân loại dữ liệu Kho dữ liệu điển hình trong những doanh nghiệp cho phép người dùng hỏi và trả lời những câu hỏi như “Doanh

số bán ra là bao nhiêu tính theo khu vực, theo nhân viên bán hàng” Trong khi đó,

Ra quyết định

Trình bày dữ liệu Các công cụ trực quan

Data Mining Khảo sát dữ liệu Phân tích thống kê, truy vấn và báo

cáo Data Warehouses/Data Marts

OLAP, MDA

Nguồn dữ liệu Giấy tờ, tập tin, trình cung cấp thông tin,hệ thống

CSDL,OLTP

Mẫu kết quả

từ khai thác dữ liệu

Tăng khả năng hỗ trợ

quyết định kinh doanh

Người dùng

Nhà phân tích kinh doanh

Nhà phân tích dữ liệu

DBA

Trang 23

KTDL cho phép người ra quyết định kinh doanh hỏi và trả lời cho những câu hỏi như là “Ai là khách hàng chính yếu của công ty đối với một mặt hàng cụ thể?” hoặc

“Dòng sản phẩm nào sẽ bán trong khu vực này và ai sẽ mua chúng, dựa vào việc bán những sản phẩm tương tự ở ở khu vực đó?”.Vị trí của KTDL được thể hiện qua

Kho dữ liệu

Dữ liệu cụ thể sẽ được khai thác

Trang 24

Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết từ CSDL tác nghiệp vào một CSDL riêng Chúng ta chỉ chọn những dữ liệu cần thiết cho các giai đoạn sau

 Bước 4: Biến đổi dữ liệu

Mục đích của giai đoạn biến đổi là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khai thác dữ liệu

 Bước 5: Khai thác dữ liệu

KTDL là tiến trình “điều chỉnh đúng” các mô hình dữ liệu Áp dụng các kỹ thuật khai thác dữ liệu nhằm trích lọc những mẫu tin, những mối liên hệ đặc biệt trong dữ liệu

 Bước 6: Đánh giá và biểu diễn dữ liệu

Là quá trình giải thích và hiển thị trực quan các kết quả KTDL để

hỗ trợ việc định giá chất lượng dữ liệu, đánh giá mô hình dữ liệu được lựa chọn có phù hợp hay không? và thể hiện mô hình Mỗi bước (trừ lưu trữ

dữ liệu) cho phép tương tác người dùng, và một số bước (ví dụ như lựa chọn tài nguyên) có thể thực hiện hoàn toàn thủ công

Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:

1.2.2 Các ứng dụng của Khai thác dữ liệu [3, 4]

Khai thác dữ liệu được ứng dụng rộng rãi trong rất nhiều lĩnh vực như [2,3]:

a Ngân hàng

 Xây dựng mô hình dự báo rủi ro tín dụng

 Tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản

Trang 25

b Thương mại điện tử

 Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng

 Phân tích khách hàng duyệt web

 Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng trong một phân khu thị trường nhất định

 Phát hiện giả mạo thẻ trong lĩnh vực viễn thông

 Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho dịch vụ quản lý rủi ro cho thương mại điện tử

 Phát hiện xâm nhập mạng trái phép

1.3 Khai thác tập có ích

1.3.1 Đặt vấn đề [5, 11]

Trong khai thác tập phổ biến người dùng chỉ khai thác các itemset có tần suất cao Tuy nhiên trong thực tế còn một số tập quan trọng chưa được khám phá là do hạn chế của tập phổ biến Tập phổ biến chỉ phản ánh tương quan về mặt thống kê nhưng không phản ánh được tầm quan trọng về mặt ngữ nghĩa giữa các item Luận văn đề cập cách khai thác các itemset dựa trên độ có ích để tránh hạn chế trên Cách này cho phép người dùng định lượng mức độ quan tâm của mình khi xác định độ có ích của các item Khi độ có ích của các itemset thỏa ràng buộc độ có ích cho trước nào đó có nghĩa là các itemset đang được quan tâm Các chiến lược tỉa dùng trong các hướng khai thác các itemset trước đây không dùng được trong ràng buộc độ có ích Cần có thuật toán chiến lược tỉa mới để khai thác các itemset dựa trên độ có ích bằng cách kết hợp với các chiến lược tỉa đã có

Trang 26

Mục đích khai thác tập phổ biến là tìm ra tất cả tập phổ biến, các itemset phải

có ít nhất độ hỗ trợ tối thiểu nhất định, đó là phần trăm các giao tác chứa itemset Khi sử dụng độ hỗ trợ thì chỉ có những itemset tần suất cao mới hấp dẩn được người dùng

Tập phổ biến xuất hiện hạn chế khi khai thác đến tầm quan trọng của các itemset Đó là khi độ hỗ trợ tối thiểu thấp thì rất nhiều tập phổ biến mà người dùng không quan tâm vẩn được sinh ra Ví dụ, hàng ngàn sản phẩm kết hợp với nhau chỉ xuất hiện trong 1% giao tác Nếu quá nhiều tập phổ biến đáng ra không cần quan tâm lại được tìm thấy, người sử dụng buộc phải thực hiện thao tác khác để chọn những itemset thực sự quan tâm Hạn chế thứ hai là độ hỗ trợ dựa trên tần suất itemset không là độ đo tương xứng cho sự quan tâm của người dùng nào đó Giả sử mục tiêu của người trưởng nhóm bán hàng là tìm ra các itemset có thể sinh ra lợi nhuận cao hơn ngưỡng Ví dụ sau minh họa khai thác các itemset dựa trên độ hỗ trợ

có thể dẫn đến một số itemset có khả năng lợi nhuận cao nhất sẽ không được tìm thấy do có độ hỗ trợ thấp

Bảng 1.1: Cơ sở dữ liệu giao tác

Mã giao tác Item A Item B Item C Item D

Trang 27

Bảng 1.2: Lợi nhuận đơn vị cho các item

Tên Item Lợi nhuận

Item B 100

Bảng 1.3: Độ hỗ trợ và lợi nhuận cho các item

Các itemset Độ hỗ trợ Lợi nhuận

Trang 28

được tính như trong bảng 1.3 Trong 10 giao dịch ở bảng 1.1 chỉ có hai giao dịch 8

và 9, bao gồm cả thành phần B và D, độ hỗ trợ của itemset BD là 2 10 20% Do t8gồm 1B và 1D, t9 gồm 1D và 10D, tổng cộng có 2B và 11D xuất hiện trong các giao dịch có chứa itemset BD Qua bảng 1.2, lợi nhuận cho mỗi item B là 100 và mỗi item D là 1 Vì vậy lợi nhuận của các itemset BD được tính là 2 100 + 11 1 211 Lợi nhuận của các itemset khác trong bảng 1.3 được tính tương tự như vậy Giả sử

độ hỗ trợ tối thiểu là 40%, các tập phổ biến trong bảng 1.3 là D, A, DA và C nhưng

4 itemset có khả năng lợi nhuận nhất là BD, B, AC và CD, tất cả là các tập không phổ biến

1.3.2 Vấn đề cần giải quyết

Ở ví dụ 1.1 cho thấy hướng khai thác tập phổ biến này không thoả mục tiêu của người trưởng nhóm bán hàng Trong trường hợp này độ hỗ trợ chỉ phản ánh sự tương quan về mặt thống kê của các item, chứ không phản ánh được tầm quan trọng ngữ nghĩa của chúng Mặt khác, tương quan thống kê không thể xác định một itemset có ích như thế nào ứng với sự quan tâm người dùng (lợi nhuận) Trong ví dụ này, lợi nhuận của itemset không chỉ phụ thuộc vào độ hỗ trợ của itemset, mà còn phụ thuộc vào giá của các item trong itemset đó

Do vậy nên cần phải phát triển hướng khai thác itemset dựa trên độ có ích, hướng này cho phép người dùng diển tả các giá trị có ích và tìm ra các itemset có giá trị có ích cao hơn ngưỡng Khi khai thác các itemset dựa trên độ có ích, độ có ích định lượng sự quan tâm người dùng, và tính hữu dụng của các itemset được định lượng dưới dạng giá trị độ có ích của chúng Đúng ra một itemset S hữu dụng với

người dùng nếu thoả có ích, đó là ràng buộc theo hình thức u(S)

minutil với u(S) là giá trị độ có ích của itemset S, minutil là ngưỡng do người dùng

định nghĩa Trong thực tế giá trị độ có ích của một itemset có thể tính dưới dạng chi phí, lợi nhuận, và giá trị thẩm mỹ, hay những cách tính khác tùy theo sự quan tâm của người dùng Đối với ví dụ 1.1 thì các giá trị độ có ích của các itemset có thể được thể hiện theo lợi nhuận và được minh họa trong bảng 1.3 Ví dụ giá trị có ích

u(ABCD) 144 cho thấy siêu thị lời 144 khi bán các item A, B, C, D với nhau

Trang 29

Giả sử n có ích là u(S) 140, có nghĩa là chỉ có các itemset lãi ít nhất

140 thì mới có ý nghĩa với người quản lý siêu thị Itemset ABCD được quan tâm, vì

thoả u(ABCD) 140 Ràng buộc độ có ích đo tầm quan trọng itemset theo hai cách

Một là của một itemset được tính bằng độ hỗ trợ; cách còn lại là của một itemset được đo bởi người

dùng Sự kết hợp này cho ra tầm quan trọng của một itemset trong ứng dụng định sẵn, và không chỉ phản ánh tầm quan trọng về mặt thống kê mà còn tầm quan trọng

về mặt ngữ nghĩa của các itemset

Khai thác các itemset dựa trên ràng buộc rất quan trọng, ở đó người dùng được phép xác định mục tiêu theo ý nghĩa của các ràng buộc để cho ra tầm quan trọng ngữ nghĩa của một itemset trong ứng dụng định sẵn Nhiều ngữ nghĩa khác nhau, ví dụ như tầm quan trọng của các item, hoặc tầm quan trọng của các giao tác, được mô tả theo ràng buộc Tuy nhiên, các ràng buộc dùng trong các kiểu như vậy

gọi là khả chuyển Một ràng buộc n khi có một itemset vi phạm một thuộc

tính, thì các itemset tiền tố theo thứ tự xác định của các item trong itemset đó cũng vậy

Trong các nghiên cứu trước đó về các ràng buộc khả chuyển cho thấy nhiều khía cạnh hữu dụng về tầm quan trọng ngữ nghĩa của các itemset trong các ứng dụng đã có, các ràng buộc tự nhiên khác có thể không khả chuyển thì cũng hữu dụng cho việc diễn tả khía cạnh phức tạp hơn về tầm quan trọng ngữ nghĩa Do tính hiệu quả của các phương pháp sẵn có trong việc khai thác tập phổ biến và khai thác các itemset dựa trên ràng buộc khả chuyển, nên cần phải nghiên cứu tỉ mỉ để tìm ra chiến lược tỉa cành nào của chúng vì đa số có thể ứng dụng được cho ràng buộc độ

có ích Tuy nhiên cũng khó thực hiện, vì một itemset có càng nhiều item, càng ít giao tác liên quan đến đến itemset đó Do đó các ràng buộc độ có ích không thể khả chuyển Nên cần phải phát triển các chiến lược tỉa cành hiệu quả cho các ràng buộc

độ có ích

Luận văn đề cập các thuật toán hiệu quả để quản lý các ràng buộc độ có ích, một loại ràng buộc không khả chuyển có thể diển tả các mức độ quan trọng ngữ

Trang 30

nghĩa mà không bị các lý thuyết đã có và các kỹ thuật trong khai thác các itemset ràng buộc Chính xác là đưa ra một hướng khai thác các itemset dựa trên độ có ích,

cho phép người dùng diễn tả sự quan tâm của họ đối với một itemset thông qua

í có ích, một hàm liên quan đến các giá trị cụ thể trong một miền mà người

dùng quan tâm Kết hợp hàm tính độ có ích với cơ sở dữ liệu nào đó, các itemset tìm được chứa các giá trị độ có ích phản ánh tầm quan trọng của chúng đối với

người dùng Khái niệm m n n là các itemset được tìm thấy có giá

trị độ có ích thoả ràng buộc độ có ích Kết quả là, hướng khai thác các itemset dựa trên độ có ích có thể tìm ra một nhóm các itemset mà không do các kỹ thuật khai thác tập phổ biến cũng không do kỹ thuật khai thác dựa trên ràng buộc khả chuyển

đã tồn tại có thể tìm thấy

Hướng khai thác các itemset dựa trên độ có ích cho việc tìm kiếm các itemset quan trọng trong nhiều ứng dụng, bao gồm khai thác web và tìm kiếm thông tin (IR) Ví dụ bảng 1.1 có thể được quan tâm khi mô tả tập các trang web để khai thác web, mỗi cột biểu diển một từ khoá, mỗi hàng biểu diển một trang web, và giá trị trên mỗi ô biểu thị số lần xuất hiện từ khoá trên trang đó Bảng 1.1 được xem như tập các tài liệu đã được sử dụng trong việc tìm kiếm thông tin, mà ở đó mỗi cột biểu diển một từ, mỗi hàng biểu diễn một tài liệu, và giá trị trong mỗi ô biểu thị tần suất một từ xuất hiện trong tài liệu Bảng 1.2 có thể được xem như sự quan tâm của người sử dụng giữa các từ hay các từ khoá Dùng thuật toán UMining đã được đề nghị, trang web hay tài liệu ứng với sự quan tâm của người sử dụng có thể được tìm

ra Nói chung, khai thác các itemset dựa trên độ có ích cho ta một khuôn mẫu tổng quát để khai thác các itemset có trọng số, mà ở đó giá trị độ có ích của mỗi item trong một itemset biểu thị trọng số

1.4 Cấu trúc luận văn

Luận văn này được tổ chức thành 3 chương và 2 phần Phần mở đầu, Chương

1 giới thiệu Tổng quan về khai thác dữ liệu, Chương 2 sẽ giới thiệu Cơ sở lý thuyết,

đề cập đến các định nghĩa, các định lý và chứng minh định lý, dựa vào đó đưa ra các chiến lược tỉa cành, và các kỹ thuật liên quan Chương 3 sẽ đánh giá các thuật

Trang 31

toán bằng các thực nghiệm trên SPMF Phần cuối trình bày kết luận cũng như hướng ứng dụng của luận văn

Trang 32

CHƯƠNG 2

CƠ SỞ LÝ THUYẾT

Phần này diễn giải các định nghĩa chính thức về các từ khóa, giá trị có ích của một itemset và phân tích các tính chất toán học về ràng buộc độ có ích Trong đó có các định lý cung cấp nền tảng lý thuyết cho các chiến lược tỉa được đề nghị trong phần sau

2.1 Các định nghĩa [1, 2, 3, 4, 5, 7, 11, 12]

Theo như ký hiệu dùng để mô tả các itemset, cho I { i 1 , , i p , i q , , i m } là tập

các item, ở đó một item ứng với một thuộc tính của cơ sở dữ liệu giao tác T Mỗi giao tác t q trong T là tập con của I, và được gán mã giao tác TID Một itemset S là tập con của I, thì S  I Để đơn giản kí hiệu, đôi khi ta viết một itemset {i 1 , ,i k } là

i 1 , ,i k ; chẳng hạn ABCD biểu thị itemset {A, B, C, D} Ta gọi giá trị có ích của

itemset S là u(S)

Định nghĩa 2.1 Ràng buộc độ có ích là một ràng buộc có dạng u(S) minutil

Định nghĩa 2.2 Một itemset S là m ó có ích cao nếu u(S)  minutil, với minutil là ngưỡng do người sử dụng định nghĩa Ngược lại S là một item ó có ích thấp

Dựa trên ràng buộc độ có ích, bài toán khai thác các itemset dựa trên độ có ích được định nghĩa như sau:

Định nghĩa 2.3 Bài toán khai thác các itemset dựa trên độ có ích là để khám phá tập

H chứa toàn bộ các itemset có độ có ích cao, có nghĩa là:

Trang 33

phản ánh mục tiêu của người thủ kho trong việc khám phá các itemset có sinh lợi

đáng kể (chẳng hạn, minutil 150) Người dùng đánh giá BD là có ích, do lợi nhuận của itemset BD lớn hơn minutil Ở đây, ta quan sát thấy tầm quan trọng ngữ nghĩa của lợi nhuận có thể được xác định bằng hàm f(x,y), ở đó x là số lượng bán của một món hàng còn y là lợi nhuận riêng món hàng đó Tính độ có ích của itemset được định lượng theo x và y, gọi là f(x,y) = x .

y Giá trị của x có thể được nhận từ cơ

sở dữ liệu giao tác và chỉ tùy thuộc vào cơ sở dữ liệu bên dưới được dùng trong qui

trình khai thác dữ liệu Ngược lại, y thường không sẵn sàng trong cơ sở dữ liệu giao

tác và chỉ tùy thuộc vào người khảo sát các itemset Vì vậy, trong trường hợp này, tầm quan trọng của các itemset được đo bằng hai giá trị Một là tầm quan trọng về

mặt thống kê của item được đo bằng tham số x, đây là giới hạn khách quan độc lập

với ứng dụng được dự tính trước của nó Phần còn lại là tầm quan trọng về mặt ngữ

nghĩa của item được đo bởi tham số y, đây là giới hạn chủ quan phụ thuộc vào ứng dụng và người sử dụng Kết quả là, f(x,y) kết hợp cách đo khách quan và chủ quan

của item với nhau Việc kết hợp cho thấy tầm quan trọng của các itemset đối với ứng dụng này, nó không chỉ phản ánh tầm quan trọng về mặt thống kê mà còn tầm

quan trọng về mặt ngữ nghĩa của các itemset Để định nghĩa f(x,y) là hàm tính độ có

ích dành cho việc khai thác các itemset dựa trên độ có ích, ta bắt đầu bằng định

nghĩa tham số x và y

Định nghĩa 2.4 Giá trị khách quan của m t item i ptại giao tác t q , biểu thị là x pq , số đơn vị item i pbán được tại giao tác t q(giá trị có sẵn trong cột i phàng t q của cơ sở dữ liệu)

Ví dụ trong bảng 1.1, các giá trị số lượng bán trong các giao tác là các giá trị khách

quan Nếu i 4 = D, thì x 43 = 30 là giá trị khách quan của thành phần D trong giao tác

t 3

Định nghĩa 2.5 Ta gọi giá trị y pdo người dùng gán cho item i p trong cơ sở dữ liệu,

dựa trên đánh giá lợi nhuận mà mỗi đơn vị item có thể đem lại, là giá trị chủ quan

Trang 34

(subjective value) của item i p Dĩ nhiên, nếu i p được đánh giá cao hơn i q thì

p q

y y

Thông thường, giá trị chủ quan của các item được cho dưới dạng bảng (kèm theo cơ sở dữ liệu) Ví dụ cơ sở dữ liệu giao tác là bảng 1.1 cùng với bảng giá trị chủ quan của các item là bảng 1.2

Định nghĩa cho thấy giá trị chủ quan có liên quan đến một giá trị xác định trong một miền nào đó để diễn tả độ quan tâm của người dùng Trong thực tế, giá trị

của y p được người dùng gán theo sự suy diển của anh ta về miền kiến thức xác định

được đo bởi độ có ích ví dụ như giá, lợi nhuận, hoặc giá trị thẩm mỹ Ví dụ, cho i1 =

A và i2 = B Dùng bảng 1.2 ta có y1 = 5 và y2 = 100 Bất đẳng thức y 2 > y 1 cho thấy thủ kho quan tâm đến item B hơn item A, do mỗi item B kiếm nhiều lợi nhuận hơn item A

Do nhận được giá trị khách quan x pq từ cơ sở dữ liệu giao tác và giá trị chủ

quan y p từ người sử dụng, hàm tính độ có ích mô tả tầm quan trọng của một itemset

có thể được định nghĩa như hàm hai chiều f(x,y)

Định nghĩa 2.6 Ký hiệu x là giá trị khách quan, y là giá trị chủ quan của một item

Một hàm hai biến f x y( , ) :R R R , đơn điệu tăng theo x và theo y, được gọi là

t là giá trị của f x y( , ) tại x pq và y p, tức f x( pq,y p)

Ví dụ 2.1: Xét cơ sở dữ liệu giao tác trong bảng 1.1 và bảng lợi nhuận trong bảng

1.2 Gọi các item i 1 , i 2 , i 3 ,và i 4 tương ứng các item A, B, C và D Giả sử người dùng

định nghĩa hàm tính độ có ích f(x pq ,y p ) là f(x pq ,y p ) = x pq y p , với x pq là số lượng bán

của món hàng i p trong giao tác t q , và y p là giá trị lợi nhuận riêng của món hàng i p

Thì f(x 11 ,y 1 ) = 4×5 = 20, chứng tỏ siêu thị kiếm 20$ do bán 4 món hàng A trong giao tác t 1 Tương tự như vậy f(x 21 , y 2 ) = 0, f(x 31 ,y 3 ) = 1 × 38 = 38, và f(x 41 ,y 4 ) = 0

Trang 35

Định nghĩa 2.8 Tập giao tác của m t itemset S, biểu thị T S , là tập các giao tác có chứa itemset S, có nghĩa là , TS = {tq| S  tq, tq T}

Ví dụ, xét CSDL giao tác như trong bảng 1.1, giả sử S = AD Theo định

(

Biểu thức (2.2) là công thức tính độ có ích của item i p trong itemset S

f(x pq ,y p ) là hàm tính độ có ích, hàm này được định nghĩa như thế nào tùy người dùng Với x pq là giá trị khách quan, y p là giá trị chủ quan T S là tập các giao tác có

chứa itemset S, t q là giao tác thứ q

Xét CSDL giao tác trong bảng 1.1 với bảng lợi nhuận trong bảng 1.2 Gọi S = ACD, TS = {t6, t8} Vậy l(A,S) = 4 × 5 + 1 × 5 = 25

Giả sử giá trị có ích của một itemset được thể hiện bằng tổng giá trị có ích của mỗi item trong itemset

Định nghĩa 2.10 Giá trị có ích của m t itemset S, biểu thị u(S), là tổng giá trị có ích

của mỗi thành phần trong S, có nghĩa là,







S i

) S , i ( l )

S ( u

S (

Trang 36

quan trọng ngữ nghĩa của các itemset bằng cách dùng hàm tính độ có ích riêng của

mình f(x,y) Vì vậy một itemset có thể là sự quan tâm của người này nhưng không là

sự quan tâm của người kia, do người dùng có các mức độ quan tâm khác nhau trong các itemset, được mô tả bởi các hàm tính độ có ích của họ Nói cách khác, các itemset khác nhau có thể tìm ra hai người sử dụng theo quan điểm của họ, được mô

tả bởi các hàm tính độ có ích riêng của mỗi người Định lý 2.1 cho thấy các chiến lược tỉa đã dùng trong các hướng tiếp cận đang tồn tại trong khai thác tập phổ biến

và khai thác các itemset dựa trên ràng buộc khả chuyển có thể không được áp dụng cho việc khai thác các itemset dựa trên độ có ích

Định lý 2.1 M t ràng bu có ích u(S)  minutil không nhất thiế l ôn ơn

ệ , ơn ệu, hoặc kh chuy n theo thứ tự ăn m

Ràng buộc u ( S )minutil là phản đơn điệu khả chuyển nếu và chỉ nếu u là

một hàm giảm tiền tố Tương tự, u ( S )minutil là đơn điệu khả chuyển nếu và chỉ

nếu u là một hàm tăng tiền tố

Định nghĩa 2.11 Tập k-itemset, biểu thị là Sk

, là một itemset có k items riêng biệt

Định nghĩa 2.12 Tập (k-1)-itemset, của Sk

, S

= {ACD, ABD, ABC}

2.2 Các kỹ thuật liên quan

Dù không phủ nhận cách chọn các itemset dựa trên tần suất, cách này xem tất

cả các item và các giao dịch trong CSDL giao dịch như nhau Trong thực tế, các item hay các giao dịch có thể quan trọng khác nhau đối với người sử dụng Ví dụ, itemset (Nước hoa, đá quí) đối với trưởng nhóm bán hàng có thể có lợi nhuận tiềm

ẩn cao hơn itemset (Nước hoa, son môi) Thật sự có ích nếu có nhiều mô hình nói

về tầm quan trọng theo ngữ nghĩa cho các itemset

Trang 37

Khai thác các itemset dựa trên ràng buộc đã tạo nên qui trình mô tả sự quan tâm của người dùng không khác gì so với các ràng buộc Bốn khuynh hướng dựa

trên ràng buộc là R ng uộc khả chuyển CC , các it m có trọng số WI , hai thác độ có ích cao (HUM), và Chia s các itemset (IS) Khác biệt chính giữa các

hướng tiếp cận này là (1) mức độ khác nhau về độ mịn được dùng để xác định tầm quan trọng ngữ nghĩa của các itemset, và (2) chiến lược tỉa cành khác nhau được phát triển theo các ràng buộc xác định trên các itemset

R ng uộc khả chuyển CC được Pei et al [7] đưa ra có ưu điểm đáng kể

trong việc nghiên cứu khai thác dựa trên ràng buộc Trong hướng tiếp cận này, một itemset S1 = i1, , im là itemset tiền của itemset S2 = i1, , in nếu các item trong

S1 và S2 được liệt kê theo cùng thứ tự và mn

Định nghĩa 2.16 Ràng buộc C được gọi là khả chuyể ô iệu theo thứ tự

O trên các item nếu có itemset S thỏa tính chất P, thì bất cứ itemset tiền tố nào của S

cũng vậy Ràng buộc C được gọi là kh chuy n ơn ệu đối với một thứ tự O trên

các item nếu có itemset S vi phạm tính chất P, thì bất cứ itemset tiền tố nào của S

cũng vậy Ràng buộc C được gọi là kh chuy n đối với một thứ tự O nếu nó khả

chuyển không đơn điệu hoặc khả chuyển đơn điệu đối với thứ tự O

Sau đây là minh họa một ràng buộc khả chuyển

Ví dụ 2.3 Xét bảng 1.2 là bảng lợi nhuận

Cho avg(S)30 là ràng buộc lợi nhuận trung bình của itemset S Ta có avg(ABCD)

= (5+100+38+1)/4 = 36 Nếu các item sắp xếp theo lợi nhuận đơn vị giảm dần, ta

được <B, C, A, D>

Itemset BCAD có BCA, BC, và B là các itemset tiền tố của nó theo thứ tự <B, C,

A, D>

Thì avg(BCA) = 47.67, avg (BC) = 69, và avg (B) = 100

Lợi nhuận trung bình của itemset BCAD ít nhất là 30, xem đây là lợi nhuận trung bình cho các itemset tiền tố của nó theo thứ tự <B, C, A, D>

Theo định nghĩa, ràng buộc avg(ABCD)  30 thì khả chuyển không đơn điệu đối với thứ tự <B, C, A, D>

Trang 38

Do vậy, nó khả chuyển theo thứ tự <B, C, A, D>

Hướng tiếp cận item có trọng số (WI) và hướng tiếp cận khai thác có giá trị (VAM) cho thấy tầm quan trọng ngữ nghĩa của các itemset ở mức item Cả hai

hướng tiếp cận giả sử các item trong CSDL giao tác (các cột trong một bảng) có các trọng số khác nhau Ví dụ, một máy tính (món hàng A) có thể quan trọng hơn điện thoại (món hàng B) về mặt lợi nhuận Nếu tìm kiếm với khối lượng lớn thì dùng hướng tiếp cận khai thác có giá trị Chiến lược tỉa được phát triển theo hướng WI chẳng qua dùng ràng buộc khả chuyển theo thứ tự sắp xếp các item theo thứ tự giảm dựa trên trọng số

Theo cách này, hai cách tính được đưa ra để thay thế độ hỗ trợ Cách tính đầu tiên được gọi là độ hỗ trợ có trọng số, được định nghĩa như sau:

) S ( s ) w ( S port sup

Với wp biểu thị trọng số của item ip

Yếu tố đầu tiên của cách tính độ hỗ trợ có trọng số có xu hướng theo các luật

có nhiều item Khi số item lớn, thậm chí nếu tất cả các trọng số nhỏ, thì tổng trọng

số có thể lớn Độ hỗ trợ có trọng số chuẩn được đưa ra để giảm khuynh hướng này

và được định nghĩa như sau:

) S ( s ) w (

S

1 ) S ( port sup

với |S| là số item trong itemset S

Cách tính độ hỗ trợ truyền thống là một trường hợp đặc biệt của độ hỗ trợ có trọng số chuẩn, do khi tất cả các trọng số dành cho các item bằng 1, thì độ hỗ trợ có trọng số chuẩn giống hệt độ hỗ trợ Hướng tiếp cận các item có trọng số (WI) và hướng tiếp cận khai thác giá trị thêm vào (VAM) dùng các item có trọng số để xác định tầm quan trọng ngữ nghĩa của các itemset ở mức item Không giống như khai thác tập phổ biến, nó xem tất cả các item như nhau, cả hai hướng tiếp cận này giả sử các item trong một tập dữ liệu giao tác (các cột trong bảng) có các trọng số khác nhau để phản ánh tầm quan trọng của chúng đối với người dùng

Trang 39

Hướng tiếp cận khai thác độ có ích cao (HUM) cho thấy tầm quan trọng

ngữ nghĩa của các itemset ở mức giao tác Hướng tiếp cận này giả sử các giao tác trong CSDL (các hàng trong bảng) có các giá trị có ích khác nhau Ví dụ, cùng một cách chữa trị cho nhiều bệnh nhân khác nhau (các giao tác khác nhau, cũng một thang thuốc như vậy) sẽ có nhiều cấp độ hiệu quả khác nhau Chiến lược tỉa cho hướng này dùng ràng buộc khả chuyển có thứ tự sắp xếp các giao tác giảm dần dựa trên các giá trị có ích của chúng

Một mô hình dữ liệu khác bằng cách gán một trọng số cho mỗi giao tác Trọng số biểu diễn tầm quan trọng của giao tác trong tập dữ liệu Các trọng số được gán cho các giao tác cũng được gọi là các trọng số dọc Ví dụ, trọng số có thể phản ánh thời gian giao tác, có nghĩa là, các giao tác càng gần càng có trọng số lớn Dựa trên mô hình này, độ hỗ trợ có gắn trọng số dọc được định nghĩa như sau:

S ( port sup q S (2.3)

với w q và w biểu thị trọng số dọc đối với các giao tác t q và t, một cách tương ứng

Mô hình trọng số hổn hợp dùng cả hai trọng số ngang và dọc Trong mô hình này, mỗi item được gán một trọng số ngang và mỗi giao tác được gán với trọng số dọc

Độ hỗ trợ trọng số hỗn hợp được định nghĩa như sau:

) S ( port sup ) S ( port sup ) S ( port sup m  nv  v (2.4)

Cả support v và support m là các mở rộng của phép đo độ hỗ trợ truyền thống Nếu tất

cả các trọng số ngang và dọc được bật là 1, thì cả support v và support m đúng là độ

hỗ trợ truyền thống

Hướng tiếp cận chia s itemset (IS) cho thấy tầm quan trọng ngữ nghĩa của

các giá trị số có liên quan tiêu biểu với các item riêng lẻ trong một CSDL giao tác (các ô trong bảng) Ảnh hưởng rõ ràng khi mua tập các món hàng (itemset) được đo bằng việc chia sẻ từng món hàng (item), là phần chia của giá trị số nói chung nào

đó, như là tổng số các item được bán Ví dụ 2.1 máy tính được bán trong giao tác này có thể được xem là quan trọng hơn hai máy tính được bán trong giao tác khác

Vì vậy miền của bảng có thể là các con số rõ ràng, như là số các item được bán, chứ

Trang 40

không phải là miền nhị phân {0,1}, 1 là item xuất hiện trong giao tác, 0 có nghĩa là không xuất hiện Dùng cách tìm kiếm heuristic để tìm các itemset với các giá trị chia sẻ cao hơn ngưỡng chia sẻ tối thiểu

Cấu trúc chia sẻ itemset có đề cập đến các trọng số cho cả các thuộc tính và cho các cặp giá trị thuộc tính Ảnh hưởng rõ ràng nhất của việc mua một itemset có thể được đo bằng độ chia sẻ itemset, giao tác của giá trị số tổng quan nào đó, như là tổng giá trị của tất cả các món hàng được bán Ví dụ, trong một tập dữ liệu giao tác, trọng số trên một thuộc tính có thể biểu diễn giá của một mặt hàng, và trọng số của một cặp giá trị thuộc tính có thể biểu diễn số lượng mặt hàng trong một giao tác Dựa trên mô hình này, trong framework chia sẻ itemset, độ hỗ trợ được tổng quát hóa Độ hỗ trợ đếm cho itemset S được định nghĩa như sau:

) t , i ( w )

S sup(

) i ( w ) t , i ( w )

S sup(

_

Với w(i p ) là trọng số của thuộc tính i p và w(i p )>0

Phép đo độ có ích khác, được định nghĩa như sau:

S (

Định dạng
Số trang	83
Dung lượng	1,73 MB