Phạm vi nghiên cứu Vì có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu các thuật toán khai thác tập có ích cao trên dữ liệu tĩnh dữ liệu không có biến động,
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: ………
TS TÔ HOÀI VIỆT
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM
(HUTECH) ngày 17 tháng 10 năm 2015
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã sửa chữa
Chủ tịch Hội đồng đánh giá LV
Trang 4TRƯỜNG ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM CÔNG NGHỆ TP.HỒ CHÍ MINH Độc lập – Tự do – Hạnh phúc
PHÒNG QLKH – ĐTSĐH
TP HCM, ngày 17 tháng 10 năm 2015
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên : Đặng Công Quốc Giới tính: Nam
Ngày, tháng, năm sinh : 21 – 06 – 1968 Nơi sinh: Thừa Thiên Huế Chuyên ngành : Công Nghệ Thông Tin MSHV : 1341860050
III- Ngày giao nhiệm vụ: 03/4/2015
IV- Ngày hoàn thành nhiệm vụ: 17/9/2015
V- Cán bộ hướng dẫn: TS Tô Hoài Việt
CÁN BỘ HƯỚNG DẪN KHOA CÔNG NGHỆ THÔNG TIN
TS Tô Hoài Việt
Trang 5LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả đánh giá, nhận xét và các đề xuất cải tiến mới nêu trong Luận văn là trung thực
và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này cũng nhƣ các trích dẫn hay tài liệu học thuật tham khảo đã đƣợc cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thông tin trích dẫn trong Luận văn
Học viên thực hiện Luận văn
Đặng Công Quốc
Trang 6LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới TS Tô Hoài Việt – Trường Đại học Sài Gòn, PGS.TSKH Nguyễn Xuân Huy – Viện Hàn lâm KHCN Việt Nam, TS Võ Đình Bảy – Trường Đại học Công nghệ TP Hồ Chí Minh, TS Lư Nhật Vinh – Trường Đại học Công nghiệp Thực phẩm TP Hồ Chí Minh, PGS.TS Lê Hoài Bắc – Trường Đại học Khoa học Tự nhiên TP Hố Chí Minh, TS Nguyễn Quốc Huy – Trường Đại học Sài Gòn, những người thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này
Tôi xin chân thành cảm ơn sự dạy bảo, giúp đỡ, tạo điều kiện và khuyến khích tôi trong quá trình học tập và nghiên cứu của các thầy cô giáo, cán bộ quản lý của Trường Đại học Công nghệ TP Hồ Chí Minh
Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè - những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống và trong công việc
Tôi xin chân thành cảm ơn!
Tp Hồ Chí Minh, ngày 26 tháng 10 năm 2015
Tác giả
Đặng Công Quốc
Trang 7TÓM TẮT
Phân tích hành vi mua sắm của khách hàng là bài toán cơ bản trong lĩnh vực kinh doanh cũng như nghiên cứu marketing Vì vậy, việc hiện thực một hệ thống có tên gọi là Hệ phân tích hành vi khách hàng để hỗ trợ cho các nhà buôn bán lẻ tận dụng khai thác khối lượng dữ liệu giao dịch khổng lồ từ chính cửa hàng của họ là điều cần thiết
Hệ thống gồm nhiều mô đun và nhiều giai đoạn để thực hiện, tất cả các mô đun và các giai đoạn thực hiện đều khó và phức tạp Nhưng cốt lõi hơn hết là việc
xử lý dữ liệu lớn hiệu quả Vì vậy, tác giả ưu tiên tập trung nghiên cứu các thuật toán tìm tập các mặt hàng mang lại lợi ích nhất cho cửa hàng đó
Việc nghiên cứu bước đầu đã có một số kết quả như sau:
- Xác định mã nguồn và cấu trúc dữ liệu của từng thuật toán đã cài đặt trên SPMF như mô tả trong các bài báo đã công bố để xác định độ tin cậy của công cụ SPMF
- Xác định được thuật toán Two-Phase trong SPMF cài đặt không đúng với bài báo ban đầu (cài đặt theo cây WIT-TREE, sử dụng Tidset)
- Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng của Two-Phase có dùng thêm tính chất Diffset của Zaki)
- Thực nghiệm lại tất cả các thực nghiệm đã được thực hiện trong các công trình công bố để xác định tính đúng đắn của thuật toán
Các kết quả này hoàn thành mục tiêu đánh giá khách quan ưu điểm và khuyết điểm của các thuật toán mới Đánh giá một số thuật toán theo cấu trúc cây, một số thuật toán theo utility-list; So sánh hiệu quả giữa cấu trúc cây và utility-list Kiểm tra tính đúng đắn của mã nguồn các thuật toán khai thác tập có ích cao trong công
cụ SPMF so với mã giả của các thuật toán đưa ra trong các bài báo Hiện thực lại các thực nghiệm cho từng thuật toán đã trình bày trong các bài báo đã công bố Qua
Trang 8đó, đảm bảo môi trường thực nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả mới sau này nếu có
Trang 9Customer behavior analysis is a basis problem in business area as well as marketing research Thus, it is very necessary for setting up a system named Customer Behavior Analysis System to support the retailers in mining the huge transaction data from their stores
The system has many modules and many phases which need to implement They are very touch and complexity In these modules, the main core is how to process big data effectively So the thesis focuses on studying algorithms which can find out the high utility itemsets for the stores
There are some initial results of research as follows:
- To identify whether the source code and data structures of each algorithm in SPMF tool are correct as the description of the proposed papers If it is right, the SPMF is considered as high confident tool to compare the algorithms in many data
- We see that the source code of Two-Phase algorithm in SPMF tool is not right one hundred percent as described in the original paper It is implemented as the description of WIT-TREE, an enhancement of Two-Phase
- We implemented one more algorithm named Diffset-Two-Phase It is the expanding of Two-Phase which applied the Diffset property
- All experiments in proposed papers of HUI mining are implemented again to identify the correctness of algorithms
These results help us measure objectively the advantages and disadvantages
of novel algorithms Especially, we focus on algorithms using lattice structure and utility-list, and identify the correctness of source code of SPMF is based on the pseudo-code proposed in HUI papers Then, the correctness of experiments in HUI papers is also reviewed by re-running the algorithms with experiment data From
Trang 10that, we can claim that experiment environment is confident already to test every new algorithms as well as new data in future if possible
Trang 112.3 Khuôn mẫu chung để khai thác itemset có ích 29 CHƯƠNG 3: ĐÁNH GIÁ CÁC THUẬT TOÁN
Trang 123.1 Bài toán ban đầu 34
3.2.4 Cấu trúc cây IT-tree và các lớp tương đương 40
3.3 Các thuật toán theo cấu trúc dàn kết hợp cấu trúc utiity-list 45
Trang 13DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu, viết tắt Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt
TID Transaction Item Database Định danh giao tác
FIM Frequent Itemset Mining Khai thác tập phổ biến
HUI High-Utility Itemset Mining Khai thác tập hữu ích cao
WIT – Tree Cây WIT – Tree Weighted Itemset – Tidset
Tree
TWU – Mining Thuật toán TWU – Mining Transaction Weighted
Utility Mining HUI-MINER High Utility Itemset Miner Giải thuật Hui-Miner FHM Fast High –utility Miner Giải thuật FHM
Co-Occurrence Structure
Cấu trúc EUCS
Trang 14DANH MỤC CÁC BẢNG
Bảng 3.3: Một thành phần trong danh sách utility-list 47
Bảng 3.6: Kết quả thực nghiệm so sánh giữa nhóm (Two-phase, Diffset-Two-Phase)
Trang 15Hình 3.6: SPMF có cài đặt thêm thuật toán Diffset-Two-Phase 44
Hình 3.8: Minh họa cách mở rộng itemset từ các item 46
Trang 16Hình 3.22: Đồ thị minh họa cho dữ liệu Accidents 60 Hình 3.23: Đồ thị minh họa cho dữ liệu Accidents* 60
Hình 4.2: Minh họa các thành phần SSAS – SSIS – SSRS trong BIDS 65
Trang 17MỞ ĐẦU
1 Lý do chọn đề tài
Phân tích hành vi mua sắm của khách hàng là bài toán cơ bản trong lĩnh vực hoạt động cũng như nghiên cứu marketing Trong đó, thông tin giao dịch thể hiện qua từng hóa đơn và các hóa đơn là dữ liệu quan trọng để các nhà buôn bán lẻ và sỉ rút ra được thông tin có giá trị về hành vi mua sắm của khách hàng để hoạch định chiến lược mua bán cũng như trong kế hoạch tích trữ tồn kho
Tuy nhiên, để một người tự rút ra được những thông tin có giá trị từ nhiều dữ liệu hóa đơn thì thường dễ sai sót và tốn quá nhiều thời gian Tác giả quan tâm đến việc hiện thực một hệ thống có tên gọi là Hệ phân tích hành vi khách hàng để hỗ trợ cho các nhà buôn bán lẻ tận dụng khai thác khối lượng dữ liệu giao dịch khổng lồ từ chính cửa hàng của họ
Hệ thống gồm nhiều mô đun và nhiều giai đoạn để thực hiện, tất cả các mô đun và các giai đoạn thực hiện đều khó và phức tạp Nhưng cốt lõi hơn hết là việc
xử lý dữ liệu lớn hiệu quả Vì vậy, tác giả ưu tiên tập trung nghiên cứu các thuật toán tìm tập các mặt hàng mang lại lợi ích nhất cho cửa hàng đó
2 Đóng góp chính của luận văn
- Xác định mã nguồn và cấu trúc dữ liệu của từng thuật toán đã cài đặt trên SPMF như mô tả trong các bài báo đã công bố để xác định độ tin cậy của công cụ SPMF
- Xác định được thuật toán Two-Phase trong SPMF cài đặt không đúng với bài báo ban đầu (cài đặt theo cây WIT-tree)
- Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng của Two-Phase có dùng thêm tính chất Diffset của Zaki)
- Thực nghiệm lại tất cả các thực nghiệm đã được thực hiện trong các công trình công bố để xác định tính đúng đắn của thuật toán
Trang 183 Mục tiêu nghiên cứu
Mục tiêu tổng quát: Khảo sát các phương pháp làm thực nghiệm và phân tích thực nghiệm của các tác giả đề xuất thuật toán Đánh giá thực
nghiệm một số thuật toán khai thác tập mục lợi ích cao
Mục tiêu cụ thể: Đưa ra các bước thực nghiệm và các ràng buộc cần thiết
để đánh giá khách quan ưu điểm và khuyết điểm của các thuật toán mới Đánh giá một số thuật toán theo cấu trúc cây, một số thuật toán theo utility-list; So sánh hiệu quả giữa cấu trúc cây và utility-list Kiểm tra tính đúng đắn của mã nguồn các thuật toán khai thác tập có ích cao trong công cụ SPMF so với mã giả của các thuật toán đưa ra trong các bài báo Hiện thực lại các thực nghiệm cho từng thuật toán đã trình bày trong các bài báo đã công bố Qua đó, đảm bảo môi trường thực nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả mới sau này nếu
có
4 Đối tượng và phạm vi nghiên cứu
4.1 Đối tượng nghiên cứu:
Các thuật toán về khai thác tập mục lợi ích cao như: Two-Phase, MINING, Diffset-Two-Phase, HUI-Miner, FHM
TWU- Dữ liệu thử phổ biến như: chess, mushroom, pumsb, connect, accidents
4.2 Phạm vi nghiên cứu
Vì có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu các thuật toán khai thác tập có ích cao trên dữ liệu tĩnh (dữ liệu không có biến động), dữ liệu nghiên cứu được lấy từ nguồn dữ liệu nghiên cứu chuẩn (chưa thử nghiệm trên dữ liệu thực), việc đánh giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán (chưa đánh giá tính có ích thực sự so với ý kiến thực của khách hàng) Việc xử lý dữ liệu theo hướng tập trung (chưa nghiên cứu hướng phân tán)
Trang 19 Các thuật toán chính để tìm hiểu gồm những thuật toán phổ biến và được công cụ SPMF cài đặt bao gồm: Two – Phase, Hui – Miner, FHM
Dữ liệu thực nghiệm được lấy từ nguồn đáng tin cậy
5 Phương pháp nghiên cứu
Cài đặt thuật toán Diffset-Two-Phase, tìm hiểu và thực nghiệm các thuật toán Two-Phase, Diffset-Two-Phase, Hui-Miner, FHM, với nhiều CSDL được lấy từ
cập lúc 9 giờ ngày 01/8/2015) và có điều chỉnh số item và số giao dịch Chương trình được cài đặt bằng ngôn ngữ Java, hệ điều hành Windows 10 Pro, CPU i7-4790 3.6 GHz, RAM 8GB, tập trung vào 2 hướng chính như sau:
Thực hiện lại thực nghiệm của các thuật toán khai thác tập hữu ích cao nhằm xác minh lại các kết luận quan trọng của các tác giả
So sánh, đối chiếu và tìm ra các đặc trưng quan trọng của các tập thử cho từng họ thuật toán cụ thể
So sánh tính hiệu quả giữa cấu trúc cây và utility-list về khai thác tập mục lợi ích cao
Trang 20CHƯƠNG 1 TỔNG QUAN
1.1 Giới thiệu
Trong thực tế, một doanh nghiệp bán lẻ cần xác định khách hàng nào có khả năng có giá trị nhất (khách hàng đóng góp phần lớn lợi nhuận cho công ty) Đây là những khách hàng, họ có thể mua những món hàng có giá sẵn, những món hàng lợi nhuận cao, hoặc những món hàng sành điệu, hầu hết khách hàng không mua những món hàng này mà chỉ có số ít khách hàng mua nên thông tin về những món hàng như vậy xuất hiện rất ít trên cơ sở dữ liệu giao tác, nhưng những món hàng này mang lại lợi nhuận cao Trong khai thác luật kết hợp truyền thống, các giao tác thể hiện khách hàng có thể có lợi ích cao bị bỏ sót Ví dụ, {sữa, bánh mì} có thể là một tập phổ biến với độ hỗ trợ 40%, đóng góp 4% tổng lợi ích, và khách hàng tương ứng thuộc nhóm A, trong khi {bánh sinh nhật, thiệp sinh nhật} có thể là tập không phổ biến với độ hỗ trợ 8% (giả sử ngưỡng độ hỗ trợ là 10%), đóng góp 8% tổng lợi ích, và khách hàng tương ứng thì thuộc nhóm B Các chuyên gia thị trường phải quan tâm hơn trong vấn đề tiếp thị bán hàng {bánh sinh nhật, thiệp sinh nhật} bằng cách thiết kế chiến dịch tiếp thị hoặc thiết kế vé khuyến mãi cho khách hàng nhóm
B (các khách hàng mang nhiều lợi ích), dù itemset này bị bỏ quên trong khai thác luật kết hợp
Một ví dụ khác là dữ liệu web log Một chuỗi các trang web do người dùng ghé thăm có thể được xem như là một giao tác Do số lần thăm một trang web và thời gian người dùng dành cho một trang web đặc biệt nào đó thì khác nhau, nên tổng thời gian mà người dùng dành cho một trang có thể được xem là độ có ích Những người thiết kế website có thể nắm bắt sự quan tâm và các hành vi của khách hàng bằng cách nhìn vào độ có ích của các kết hợp trang rồi xem xét việc tái tổ chức cấu trúc link của website để phục vụ cho sở thích người dùng Tần suất không
đủ để trả lời các câu hỏi, đại loại như liệu một itemset có mang lại lợi ích cao hay
Trang 21không? hay liệu một itemset có ảnh hưởng mạnh hay không? Khai thác độ có ích thì rất hữu dụng trong phần lớn các ứng dụng thực tế
Tuy nhiên, không có chiến lược hiệu quả để tìm tất cả các itemset có ích cao Một phương pháp thông thường có thể loại trừ các item đóng góp phần nhỏ trong tổng lợi ích Tuy nhiên, itemset có ích cao vẩn có chứa các item có ích thấp Một cách khác để thích nghi với sơ đồ tìm kiếm thông minh có trong thuật toán khai thác luật kết hợp nhanh, như là Apriori Cơ sở của các thuật toán khai thác luật kết hợp truyền thống này là “tính chất bao đóng giảm” (tính chất phản đơn điệu): bất cứ tập con của tập phổ biến nào cũng phổ biến Có nghĩa là, chỉ có k - itemsets phổ biến được khai thác để sinh ra các (k+1) - itemsets phổ biến tiềm ẩn Hướng tiếp cận này hiệu quả do một số lượng lớn các kết hợp của các item được tỉa tại mỗi cấp Tuy nhiên, tính chất này không áp dụng được cho mô hình khai thác độ có ích Ví dụ,
u(D) = 36 < 120, D là một item có độ có ích thấp, nhưng tập lớn có chứa nó {B, D}
là itemset có ích cao Không có tính chất này, số lượng ứng viên được sinh ra tại mỗi cấp tiến nhanh đến tất cả các kết hợp của tất cả item Đối với 105 items, hơn 1092-itemsets ứng viên có thể được sinh ra Hơn nữa, để khai thác một mẫu dài thì số lượng ứng viên cực lớn Chi phí tính toán về thời gian hay vùng nhớ thì không chịu nổi, tập trung vào cách nào để ứng dụng Thách thức trong khai thác độ có ích là
giới hạn về kích thước của tập ứng viên và đơn giản việc tính toán để tính độ có ích
1.2 Tổng quan về khai thác dữ liệu
1.2.1 Khai thác dữ liệu [1, 2, 3, 7]
Khai thác dữ liệu – Data Mining (KTDL) là một quá trình trích xuất tri thức
từ lượng lớn dữ liệu KTDL đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các CSDL lớn KTDL là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định
Trang 22Hình 1.1: Vị trí của KTDL Nguồn dữ liệu phục vụ cho khai thác dữ liệu có thể là các CSDL lớn hay các kho dữ liệu có hoặc không có cấu trúc Khai thác dữ liệu chỉ thực sự phát huy tác dụng trên các CSDL lớn, nơi mà khả năng diễn dịch và trực giác của con người cũng như các kỹ thuật truyền thống không thể thực hiện được hoặc nếu thực hiện được thì hiệu quả không cao KTDL là một công đoạn trong tiến trình lớn hơn là khám phá tri thức từ CSDL KTDL mang tính trực giác, cho phép thu được những hiểu biết rõ ràng và sâu sắc hơn, vượt xa kho dữ liệu KTDL giúp phát hiện những
xu thế phát triển từ những thông tin quá khứ, cũng như cho phép đề xuất các dự báo mang tính thống kê, gom cụm và phân loại dữ liệu Kho dữ liệu điển hình trong những doanh nghiệp cho phép người dùng hỏi và trả lời những câu hỏi như “Doanh
số bán ra là bao nhiêu tính theo khu vực, theo nhân viên bán hàng” Trong khi đó,
Ra quyết định
Trình bày dữ liệu Các công cụ trực quan
Data Mining Khảo sát dữ liệu Phân tích thống kê, truy vấn và báo
cáo Data Warehouses/Data Marts
OLAP, MDA
Nguồn dữ liệu Giấy tờ, tập tin, trình cung cấp thông tin,hệ thống
CSDL,OLTP
Mẫu kết quả
từ khai thác dữ liệu
Tăng khả năng hỗ trợ
quyết định kinh doanh
Người dùng
Nhà phân tích kinh doanh
Nhà phân tích dữ liệu
DBA
Trang 23KTDL cho phép người ra quyết định kinh doanh hỏi và trả lời cho những câu hỏi như là “Ai là khách hàng chính yếu của công ty đối với một mặt hàng cụ thể?” hoặc
“Dòng sản phẩm nào sẽ bán trong khu vực này và ai sẽ mua chúng, dựa vào việc bán những sản phẩm tương tự ở ở khu vực đó?”.Vị trí của KTDL được thể hiện qua
Kho dữ liệu
Dữ liệu cụ thể sẽ được khai thác
Trang 24Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết từ CSDL tác nghiệp vào một CSDL riêng Chúng ta chỉ chọn những dữ liệu cần thiết cho các giai đoạn sau
Bước 4: Biến đổi dữ liệu
Mục đích của giai đoạn biến đổi là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khai thác dữ liệu
Bước 5: Khai thác dữ liệu
KTDL là tiến trình “điều chỉnh đúng” các mô hình dữ liệu Áp dụng các kỹ thuật khai thác dữ liệu nhằm trích lọc những mẫu tin, những mối liên hệ đặc biệt trong dữ liệu
Bước 6: Đánh giá và biểu diễn dữ liệu
Là quá trình giải thích và hiển thị trực quan các kết quả KTDL để
hỗ trợ việc định giá chất lượng dữ liệu, đánh giá mô hình dữ liệu được lựa chọn có phù hợp hay không? và thể hiện mô hình Mỗi bước (trừ lưu trữ
dữ liệu) cho phép tương tác người dùng, và một số bước (ví dụ như lựa chọn tài nguyên) có thể thực hiện hoàn toàn thủ công
Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:
1.2.2 Các ứng dụng của Khai thác dữ liệu [3, 4]
Khai thác dữ liệu được ứng dụng rộng rãi trong rất nhiều lĩnh vực như [2,3]:
a Ngân hàng
Xây dựng mô hình dự báo rủi ro tín dụng
Tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản
Trang 25b Thương mại điện tử
Công cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng
Phân tích khách hàng duyệt web
Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng trong một phân khu thị trường nhất định
Phát hiện giả mạo thẻ trong lĩnh vực viễn thông
Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho dịch vụ quản lý rủi ro cho thương mại điện tử
Phát hiện xâm nhập mạng trái phép
1.3 Khai thác tập có ích
1.3.1 Đặt vấn đề [5, 11]
Trong khai thác tập phổ biến người dùng chỉ khai thác các itemset có tần suất cao Tuy nhiên trong thực tế còn một số tập quan trọng chưa được khám phá là do hạn chế của tập phổ biến Tập phổ biến chỉ phản ánh tương quan về mặt thống kê nhưng không phản ánh được tầm quan trọng về mặt ngữ nghĩa giữa các item Luận văn đề cập cách khai thác các itemset dựa trên độ có ích để tránh hạn chế trên Cách này cho phép người dùng định lượng mức độ quan tâm của mình khi xác định độ có ích của các item Khi độ có ích của các itemset thỏa ràng buộc độ có ích cho trước nào đó có nghĩa là các itemset đang được quan tâm Các chiến lược tỉa dùng trong các hướng khai thác các itemset trước đây không dùng được trong ràng buộc độ có ích Cần có thuật toán chiến lược tỉa mới để khai thác các itemset dựa trên độ có ích bằng cách kết hợp với các chiến lược tỉa đã có
Trang 26Mục đích khai thác tập phổ biến là tìm ra tất cả tập phổ biến, các itemset phải
có ít nhất độ hỗ trợ tối thiểu nhất định, đó là phần trăm các giao tác chứa itemset Khi sử dụng độ hỗ trợ thì chỉ có những itemset tần suất cao mới hấp dẩn được người dùng
Tập phổ biến xuất hiện hạn chế khi khai thác đến tầm quan trọng của các itemset Đó là khi độ hỗ trợ tối thiểu thấp thì rất nhiều tập phổ biến mà người dùng không quan tâm vẩn được sinh ra Ví dụ, hàng ngàn sản phẩm kết hợp với nhau chỉ xuất hiện trong 1% giao tác Nếu quá nhiều tập phổ biến đáng ra không cần quan tâm lại được tìm thấy, người sử dụng buộc phải thực hiện thao tác khác để chọn những itemset thực sự quan tâm Hạn chế thứ hai là độ hỗ trợ dựa trên tần suất itemset không là độ đo tương xứng cho sự quan tâm của người dùng nào đó Giả sử mục tiêu của người trưởng nhóm bán hàng là tìm ra các itemset có thể sinh ra lợi nhuận cao hơn ngưỡng Ví dụ sau minh họa khai thác các itemset dựa trên độ hỗ trợ
có thể dẫn đến một số itemset có khả năng lợi nhuận cao nhất sẽ không được tìm thấy do có độ hỗ trợ thấp
Bảng 1.1: Cơ sở dữ liệu giao tác
Mã giao tác Item A Item B Item C Item D
Trang 27Bảng 1.2: Lợi nhuận đơn vị cho các item
Tên Item Lợi nhuận
Item B 100
Bảng 1.3: Độ hỗ trợ và lợi nhuận cho các item
Các itemset Độ hỗ trợ Lợi nhuận
Trang 28được tính như trong bảng 1.3 Trong 10 giao dịch ở bảng 1.1 chỉ có hai giao dịch 8
và 9, bao gồm cả thành phần B và D, độ hỗ trợ của itemset BD là 2 10 20% Do t8gồm 1B và 1D, t9 gồm 1D và 10D, tổng cộng có 2B và 11D xuất hiện trong các giao dịch có chứa itemset BD Qua bảng 1.2, lợi nhuận cho mỗi item B là 100 và mỗi item D là 1 Vì vậy lợi nhuận của các itemset BD được tính là 2 100 + 11 1 211 Lợi nhuận của các itemset khác trong bảng 1.3 được tính tương tự như vậy Giả sử
độ hỗ trợ tối thiểu là 40%, các tập phổ biến trong bảng 1.3 là D, A, DA và C nhưng
4 itemset có khả năng lợi nhuận nhất là BD, B, AC và CD, tất cả là các tập không phổ biến
1.3.2 Vấn đề cần giải quyết
Ở ví dụ 1.1 cho thấy hướng khai thác tập phổ biến này không thoả mục tiêu của người trưởng nhóm bán hàng Trong trường hợp này độ hỗ trợ chỉ phản ánh sự tương quan về mặt thống kê của các item, chứ không phản ánh được tầm quan trọng ngữ nghĩa của chúng Mặt khác, tương quan thống kê không thể xác định một itemset có ích như thế nào ứng với sự quan tâm người dùng (lợi nhuận) Trong ví dụ này, lợi nhuận của itemset không chỉ phụ thuộc vào độ hỗ trợ của itemset, mà còn phụ thuộc vào giá của các item trong itemset đó
Do vậy nên cần phải phát triển hướng khai thác itemset dựa trên độ có ích, hướng này cho phép người dùng diển tả các giá trị có ích và tìm ra các itemset có giá trị có ích cao hơn ngưỡng Khi khai thác các itemset dựa trên độ có ích, độ có ích định lượng sự quan tâm người dùng, và tính hữu dụng của các itemset được định lượng dưới dạng giá trị độ có ích của chúng Đúng ra một itemset S hữu dụng với
người dùng nếu thoả có ích, đó là ràng buộc theo hình thức u(S)
minutil với u(S) là giá trị độ có ích của itemset S, minutil là ngưỡng do người dùng
định nghĩa Trong thực tế giá trị độ có ích của một itemset có thể tính dưới dạng chi phí, lợi nhuận, và giá trị thẩm mỹ, hay những cách tính khác tùy theo sự quan tâm của người dùng Đối với ví dụ 1.1 thì các giá trị độ có ích của các itemset có thể được thể hiện theo lợi nhuận và được minh họa trong bảng 1.3 Ví dụ giá trị có ích
u(ABCD) 144 cho thấy siêu thị lời 144 khi bán các item A, B, C, D với nhau
Trang 29Giả sử n có ích là u(S) 140, có nghĩa là chỉ có các itemset lãi ít nhất
140 thì mới có ý nghĩa với người quản lý siêu thị Itemset ABCD được quan tâm, vì
thoả u(ABCD) 140 Ràng buộc độ có ích đo tầm quan trọng itemset theo hai cách
Một là của một itemset được tính bằng độ hỗ trợ; cách còn lại là của một itemset được đo bởi người
dùng Sự kết hợp này cho ra tầm quan trọng của một itemset trong ứng dụng định sẵn, và không chỉ phản ánh tầm quan trọng về mặt thống kê mà còn tầm quan trọng
về mặt ngữ nghĩa của các itemset
Khai thác các itemset dựa trên ràng buộc rất quan trọng, ở đó người dùng được phép xác định mục tiêu theo ý nghĩa của các ràng buộc để cho ra tầm quan trọng ngữ nghĩa của một itemset trong ứng dụng định sẵn Nhiều ngữ nghĩa khác nhau, ví dụ như tầm quan trọng của các item, hoặc tầm quan trọng của các giao tác, được mô tả theo ràng buộc Tuy nhiên, các ràng buộc dùng trong các kiểu như vậy
gọi là khả chuyển Một ràng buộc n khi có một itemset vi phạm một thuộc
tính, thì các itemset tiền tố theo thứ tự xác định của các item trong itemset đó cũng vậy
Trong các nghiên cứu trước đó về các ràng buộc khả chuyển cho thấy nhiều khía cạnh hữu dụng về tầm quan trọng ngữ nghĩa của các itemset trong các ứng dụng đã có, các ràng buộc tự nhiên khác có thể không khả chuyển thì cũng hữu dụng cho việc diễn tả khía cạnh phức tạp hơn về tầm quan trọng ngữ nghĩa Do tính hiệu quả của các phương pháp sẵn có trong việc khai thác tập phổ biến và khai thác các itemset dựa trên ràng buộc khả chuyển, nên cần phải nghiên cứu tỉ mỉ để tìm ra chiến lược tỉa cành nào của chúng vì đa số có thể ứng dụng được cho ràng buộc độ
có ích Tuy nhiên cũng khó thực hiện, vì một itemset có càng nhiều item, càng ít giao tác liên quan đến đến itemset đó Do đó các ràng buộc độ có ích không thể khả chuyển Nên cần phải phát triển các chiến lược tỉa cành hiệu quả cho các ràng buộc
độ có ích
Luận văn đề cập các thuật toán hiệu quả để quản lý các ràng buộc độ có ích, một loại ràng buộc không khả chuyển có thể diển tả các mức độ quan trọng ngữ
Trang 30nghĩa mà không bị các lý thuyết đã có và các kỹ thuật trong khai thác các itemset ràng buộc Chính xác là đưa ra một hướng khai thác các itemset dựa trên độ có ích,
cho phép người dùng diễn tả sự quan tâm của họ đối với một itemset thông qua
í có ích, một hàm liên quan đến các giá trị cụ thể trong một miền mà người
dùng quan tâm Kết hợp hàm tính độ có ích với cơ sở dữ liệu nào đó, các itemset tìm được chứa các giá trị độ có ích phản ánh tầm quan trọng của chúng đối với
người dùng Khái niệm m n n là các itemset được tìm thấy có giá
trị độ có ích thoả ràng buộc độ có ích Kết quả là, hướng khai thác các itemset dựa trên độ có ích có thể tìm ra một nhóm các itemset mà không do các kỹ thuật khai thác tập phổ biến cũng không do kỹ thuật khai thác dựa trên ràng buộc khả chuyển
đã tồn tại có thể tìm thấy
Hướng khai thác các itemset dựa trên độ có ích cho việc tìm kiếm các itemset quan trọng trong nhiều ứng dụng, bao gồm khai thác web và tìm kiếm thông tin (IR) Ví dụ bảng 1.1 có thể được quan tâm khi mô tả tập các trang web để khai thác web, mỗi cột biểu diển một từ khoá, mỗi hàng biểu diển một trang web, và giá trị trên mỗi ô biểu thị số lần xuất hiện từ khoá trên trang đó Bảng 1.1 được xem như tập các tài liệu đã được sử dụng trong việc tìm kiếm thông tin, mà ở đó mỗi cột biểu diển một từ, mỗi hàng biểu diễn một tài liệu, và giá trị trong mỗi ô biểu thị tần suất một từ xuất hiện trong tài liệu Bảng 1.2 có thể được xem như sự quan tâm của người sử dụng giữa các từ hay các từ khoá Dùng thuật toán UMining đã được đề nghị, trang web hay tài liệu ứng với sự quan tâm của người sử dụng có thể được tìm
ra Nói chung, khai thác các itemset dựa trên độ có ích cho ta một khuôn mẫu tổng quát để khai thác các itemset có trọng số, mà ở đó giá trị độ có ích của mỗi item trong một itemset biểu thị trọng số
1.4 Cấu trúc luận văn
Luận văn này được tổ chức thành 3 chương và 2 phần Phần mở đầu, Chương
1 giới thiệu Tổng quan về khai thác dữ liệu, Chương 2 sẽ giới thiệu Cơ sở lý thuyết,
đề cập đến các định nghĩa, các định lý và chứng minh định lý, dựa vào đó đưa ra các chiến lược tỉa cành, và các kỹ thuật liên quan Chương 3 sẽ đánh giá các thuật
Trang 31toán bằng các thực nghiệm trên SPMF Phần cuối trình bày kết luận cũng như hướng ứng dụng của luận văn
Trang 32CHƯƠNG 2
CƠ SỞ LÝ THUYẾT
Phần này diễn giải các định nghĩa chính thức về các từ khóa, giá trị có ích của một itemset và phân tích các tính chất toán học về ràng buộc độ có ích Trong đó có các định lý cung cấp nền tảng lý thuyết cho các chiến lược tỉa được đề nghị trong phần sau
2.1 Các định nghĩa [1, 2, 3, 4, 5, 7, 11, 12]
Theo như ký hiệu dùng để mô tả các itemset, cho I { i 1 , , i p , i q , , i m } là tập
các item, ở đó một item ứng với một thuộc tính của cơ sở dữ liệu giao tác T Mỗi giao tác t q trong T là tập con của I, và được gán mã giao tác TID Một itemset S là tập con của I, thì S I Để đơn giản kí hiệu, đôi khi ta viết một itemset {i 1 , ,i k } là
i 1 , ,i k ; chẳng hạn ABCD biểu thị itemset {A, B, C, D} Ta gọi giá trị có ích của
itemset S là u(S)
Định nghĩa 2.1 Ràng buộc độ có ích là một ràng buộc có dạng u(S) minutil
Định nghĩa 2.2 Một itemset S là m ó có ích cao nếu u(S) minutil, với minutil là ngưỡng do người sử dụng định nghĩa Ngược lại S là một item ó có ích thấp
Dựa trên ràng buộc độ có ích, bài toán khai thác các itemset dựa trên độ có ích được định nghĩa như sau:
Định nghĩa 2.3 Bài toán khai thác các itemset dựa trên độ có ích là để khám phá tập
H chứa toàn bộ các itemset có độ có ích cao, có nghĩa là:
Trang 33phản ánh mục tiêu của người thủ kho trong việc khám phá các itemset có sinh lợi
đáng kể (chẳng hạn, minutil 150) Người dùng đánh giá BD là có ích, do lợi nhuận của itemset BD lớn hơn minutil Ở đây, ta quan sát thấy tầm quan trọng ngữ nghĩa của lợi nhuận có thể được xác định bằng hàm f(x,y), ở đó x là số lượng bán của một món hàng còn y là lợi nhuận riêng món hàng đó Tính độ có ích của itemset được định lượng theo x và y, gọi là f(x,y) = x .
y Giá trị của x có thể được nhận từ cơ
sở dữ liệu giao tác và chỉ tùy thuộc vào cơ sở dữ liệu bên dưới được dùng trong qui
trình khai thác dữ liệu Ngược lại, y thường không sẵn sàng trong cơ sở dữ liệu giao
tác và chỉ tùy thuộc vào người khảo sát các itemset Vì vậy, trong trường hợp này, tầm quan trọng của các itemset được đo bằng hai giá trị Một là tầm quan trọng về
mặt thống kê của item được đo bằng tham số x, đây là giới hạn khách quan độc lập
với ứng dụng được dự tính trước của nó Phần còn lại là tầm quan trọng về mặt ngữ
nghĩa của item được đo bởi tham số y, đây là giới hạn chủ quan phụ thuộc vào ứng dụng và người sử dụng Kết quả là, f(x,y) kết hợp cách đo khách quan và chủ quan
của item với nhau Việc kết hợp cho thấy tầm quan trọng của các itemset đối với ứng dụng này, nó không chỉ phản ánh tầm quan trọng về mặt thống kê mà còn tầm
quan trọng về mặt ngữ nghĩa của các itemset Để định nghĩa f(x,y) là hàm tính độ có
ích dành cho việc khai thác các itemset dựa trên độ có ích, ta bắt đầu bằng định
nghĩa tham số x và y
Định nghĩa 2.4 Giá trị khách quan của m t item i ptại giao tác t q , biểu thị là x pq , số đơn vị item i pbán được tại giao tác t q(giá trị có sẵn trong cột i phàng t q của cơ sở dữ liệu)
Ví dụ trong bảng 1.1, các giá trị số lượng bán trong các giao tác là các giá trị khách
quan Nếu i 4 = D, thì x 43 = 30 là giá trị khách quan của thành phần D trong giao tác
t 3
Định nghĩa 2.5 Ta gọi giá trị y pdo người dùng gán cho item i p trong cơ sở dữ liệu,
dựa trên đánh giá lợi nhuận mà mỗi đơn vị item có thể đem lại, là giá trị chủ quan
Trang 34(subjective value) của item i p Dĩ nhiên, nếu i p được đánh giá cao hơn i q thì
p q
y y
Thông thường, giá trị chủ quan của các item được cho dưới dạng bảng (kèm theo cơ sở dữ liệu) Ví dụ cơ sở dữ liệu giao tác là bảng 1.1 cùng với bảng giá trị chủ quan của các item là bảng 1.2
Định nghĩa cho thấy giá trị chủ quan có liên quan đến một giá trị xác định trong một miền nào đó để diễn tả độ quan tâm của người dùng Trong thực tế, giá trị
của y p được người dùng gán theo sự suy diển của anh ta về miền kiến thức xác định
được đo bởi độ có ích ví dụ như giá, lợi nhuận, hoặc giá trị thẩm mỹ Ví dụ, cho i1 =
A và i2 = B Dùng bảng 1.2 ta có y1 = 5 và y2 = 100 Bất đẳng thức y 2 > y 1 cho thấy thủ kho quan tâm đến item B hơn item A, do mỗi item B kiếm nhiều lợi nhuận hơn item A
Do nhận được giá trị khách quan x pq từ cơ sở dữ liệu giao tác và giá trị chủ
quan y p từ người sử dụng, hàm tính độ có ích mô tả tầm quan trọng của một itemset
có thể được định nghĩa như hàm hai chiều f(x,y)
Định nghĩa 2.6 Ký hiệu x là giá trị khách quan, y là giá trị chủ quan của một item
Một hàm hai biến f x y( , ) :R R R , đơn điệu tăng theo x và theo y, được gọi là
t là giá trị của f x y( , ) tại x pq và y p, tức f x( pq,y p)
Ví dụ 2.1: Xét cơ sở dữ liệu giao tác trong bảng 1.1 và bảng lợi nhuận trong bảng
1.2 Gọi các item i 1 , i 2 , i 3 ,và i 4 tương ứng các item A, B, C và D Giả sử người dùng
định nghĩa hàm tính độ có ích f(x pq ,y p ) là f(x pq ,y p ) = x pq y p , với x pq là số lượng bán
của món hàng i p trong giao tác t q , và y p là giá trị lợi nhuận riêng của món hàng i p
Thì f(x 11 ,y 1 ) = 4×5 = 20, chứng tỏ siêu thị kiếm 20$ do bán 4 món hàng A trong giao tác t 1 Tương tự như vậy f(x 21 , y 2 ) = 0, f(x 31 ,y 3 ) = 1 × 38 = 38, và f(x 41 ,y 4 ) = 0
Trang 35Định nghĩa 2.8 Tập giao tác của m t itemset S, biểu thị T S , là tập các giao tác có chứa itemset S, có nghĩa là , TS = {tq| S tq, tq T}
Ví dụ, xét CSDL giao tác như trong bảng 1.1, giả sử S = AD Theo định
(
Biểu thức (2.2) là công thức tính độ có ích của item i p trong itemset S
f(x pq ,y p ) là hàm tính độ có ích, hàm này được định nghĩa như thế nào tùy người dùng Với x pq là giá trị khách quan, y p là giá trị chủ quan T S là tập các giao tác có
chứa itemset S, t q là giao tác thứ q
Xét CSDL giao tác trong bảng 1.1 với bảng lợi nhuận trong bảng 1.2 Gọi S = ACD, TS = {t6, t8} Vậy l(A,S) = 4 × 5 + 1 × 5 = 25
Giả sử giá trị có ích của một itemset được thể hiện bằng tổng giá trị có ích của mỗi item trong itemset
Định nghĩa 2.10 Giá trị có ích của m t itemset S, biểu thị u(S), là tổng giá trị có ích
của mỗi thành phần trong S, có nghĩa là,
S i
) S , i ( l )
S ( u
S (
Trang 36quan trọng ngữ nghĩa của các itemset bằng cách dùng hàm tính độ có ích riêng của
mình f(x,y) Vì vậy một itemset có thể là sự quan tâm của người này nhưng không là
sự quan tâm của người kia, do người dùng có các mức độ quan tâm khác nhau trong các itemset, được mô tả bởi các hàm tính độ có ích của họ Nói cách khác, các itemset khác nhau có thể tìm ra hai người sử dụng theo quan điểm của họ, được mô
tả bởi các hàm tính độ có ích riêng của mỗi người Định lý 2.1 cho thấy các chiến lược tỉa đã dùng trong các hướng tiếp cận đang tồn tại trong khai thác tập phổ biến
và khai thác các itemset dựa trên ràng buộc khả chuyển có thể không được áp dụng cho việc khai thác các itemset dựa trên độ có ích
Định lý 2.1 M t ràng bu có ích u(S) minutil không nhất thiế l ôn ơn
ệ , ơn ệu, hoặc kh chuy n theo thứ tự ăn m
Ràng buộc u ( S )minutil là phản đơn điệu khả chuyển nếu và chỉ nếu u là
một hàm giảm tiền tố Tương tự, u ( S )minutil là đơn điệu khả chuyển nếu và chỉ
nếu u là một hàm tăng tiền tố
Định nghĩa 2.11 Tập k-itemset, biểu thị là Sk
, là một itemset có k items riêng biệt
Định nghĩa 2.12 Tập (k-1)-itemset, của Sk
, S
= {ACD, ABD, ABC}
2.2 Các kỹ thuật liên quan
Dù không phủ nhận cách chọn các itemset dựa trên tần suất, cách này xem tất
cả các item và các giao dịch trong CSDL giao dịch như nhau Trong thực tế, các item hay các giao dịch có thể quan trọng khác nhau đối với người sử dụng Ví dụ, itemset (Nước hoa, đá quí) đối với trưởng nhóm bán hàng có thể có lợi nhuận tiềm
ẩn cao hơn itemset (Nước hoa, son môi) Thật sự có ích nếu có nhiều mô hình nói
về tầm quan trọng theo ngữ nghĩa cho các itemset
Trang 37Khai thác các itemset dựa trên ràng buộc đã tạo nên qui trình mô tả sự quan tâm của người dùng không khác gì so với các ràng buộc Bốn khuynh hướng dựa
trên ràng buộc là R ng uộc khả chuyển CC , các it m có trọng số WI , hai thác độ có ích cao (HUM), và Chia s các itemset (IS) Khác biệt chính giữa các
hướng tiếp cận này là (1) mức độ khác nhau về độ mịn được dùng để xác định tầm quan trọng ngữ nghĩa của các itemset, và (2) chiến lược tỉa cành khác nhau được phát triển theo các ràng buộc xác định trên các itemset
R ng uộc khả chuyển CC được Pei et al [7] đưa ra có ưu điểm đáng kể
trong việc nghiên cứu khai thác dựa trên ràng buộc Trong hướng tiếp cận này, một itemset S1 = i1, , im là itemset tiền của itemset S2 = i1, , in nếu các item trong
S1 và S2 được liệt kê theo cùng thứ tự và mn
Định nghĩa 2.16 Ràng buộc C được gọi là khả chuyể ô iệu theo thứ tự
O trên các item nếu có itemset S thỏa tính chất P, thì bất cứ itemset tiền tố nào của S
cũng vậy Ràng buộc C được gọi là kh chuy n ơn ệu đối với một thứ tự O trên
các item nếu có itemset S vi phạm tính chất P, thì bất cứ itemset tiền tố nào của S
cũng vậy Ràng buộc C được gọi là kh chuy n đối với một thứ tự O nếu nó khả
chuyển không đơn điệu hoặc khả chuyển đơn điệu đối với thứ tự O
Sau đây là minh họa một ràng buộc khả chuyển
Ví dụ 2.3 Xét bảng 1.2 là bảng lợi nhuận
Cho avg(S)30 là ràng buộc lợi nhuận trung bình của itemset S Ta có avg(ABCD)
= (5+100+38+1)/4 = 36 Nếu các item sắp xếp theo lợi nhuận đơn vị giảm dần, ta
được <B, C, A, D>
Itemset BCAD có BCA, BC, và B là các itemset tiền tố của nó theo thứ tự <B, C,
A, D>
Thì avg(BCA) = 47.67, avg (BC) = 69, và avg (B) = 100
Lợi nhuận trung bình của itemset BCAD ít nhất là 30, xem đây là lợi nhuận trung bình cho các itemset tiền tố của nó theo thứ tự <B, C, A, D>
Theo định nghĩa, ràng buộc avg(ABCD) 30 thì khả chuyển không đơn điệu đối với thứ tự <B, C, A, D>
Trang 38Do vậy, nó khả chuyển theo thứ tự <B, C, A, D>
Hướng tiếp cận item có trọng số (WI) và hướng tiếp cận khai thác có giá trị (VAM) cho thấy tầm quan trọng ngữ nghĩa của các itemset ở mức item Cả hai
hướng tiếp cận giả sử các item trong CSDL giao tác (các cột trong một bảng) có các trọng số khác nhau Ví dụ, một máy tính (món hàng A) có thể quan trọng hơn điện thoại (món hàng B) về mặt lợi nhuận Nếu tìm kiếm với khối lượng lớn thì dùng hướng tiếp cận khai thác có giá trị Chiến lược tỉa được phát triển theo hướng WI chẳng qua dùng ràng buộc khả chuyển theo thứ tự sắp xếp các item theo thứ tự giảm dựa trên trọng số
Theo cách này, hai cách tính được đưa ra để thay thế độ hỗ trợ Cách tính đầu tiên được gọi là độ hỗ trợ có trọng số, được định nghĩa như sau:
) S ( s ) w ( S port sup
Với wp biểu thị trọng số của item ip
Yếu tố đầu tiên của cách tính độ hỗ trợ có trọng số có xu hướng theo các luật
có nhiều item Khi số item lớn, thậm chí nếu tất cả các trọng số nhỏ, thì tổng trọng
số có thể lớn Độ hỗ trợ có trọng số chuẩn được đưa ra để giảm khuynh hướng này
và được định nghĩa như sau:
) S ( s ) w (
S
1 ) S ( port sup
với |S| là số item trong itemset S
Cách tính độ hỗ trợ truyền thống là một trường hợp đặc biệt của độ hỗ trợ có trọng số chuẩn, do khi tất cả các trọng số dành cho các item bằng 1, thì độ hỗ trợ có trọng số chuẩn giống hệt độ hỗ trợ Hướng tiếp cận các item có trọng số (WI) và hướng tiếp cận khai thác giá trị thêm vào (VAM) dùng các item có trọng số để xác định tầm quan trọng ngữ nghĩa của các itemset ở mức item Không giống như khai thác tập phổ biến, nó xem tất cả các item như nhau, cả hai hướng tiếp cận này giả sử các item trong một tập dữ liệu giao tác (các cột trong bảng) có các trọng số khác nhau để phản ánh tầm quan trọng của chúng đối với người dùng
Trang 39Hướng tiếp cận khai thác độ có ích cao (HUM) cho thấy tầm quan trọng
ngữ nghĩa của các itemset ở mức giao tác Hướng tiếp cận này giả sử các giao tác trong CSDL (các hàng trong bảng) có các giá trị có ích khác nhau Ví dụ, cùng một cách chữa trị cho nhiều bệnh nhân khác nhau (các giao tác khác nhau, cũng một thang thuốc như vậy) sẽ có nhiều cấp độ hiệu quả khác nhau Chiến lược tỉa cho hướng này dùng ràng buộc khả chuyển có thứ tự sắp xếp các giao tác giảm dần dựa trên các giá trị có ích của chúng
Một mô hình dữ liệu khác bằng cách gán một trọng số cho mỗi giao tác Trọng số biểu diễn tầm quan trọng của giao tác trong tập dữ liệu Các trọng số được gán cho các giao tác cũng được gọi là các trọng số dọc Ví dụ, trọng số có thể phản ánh thời gian giao tác, có nghĩa là, các giao tác càng gần càng có trọng số lớn Dựa trên mô hình này, độ hỗ trợ có gắn trọng số dọc được định nghĩa như sau:
S ( port sup q S (2.3)
với w q và w biểu thị trọng số dọc đối với các giao tác t q và t, một cách tương ứng
Mô hình trọng số hổn hợp dùng cả hai trọng số ngang và dọc Trong mô hình này, mỗi item được gán một trọng số ngang và mỗi giao tác được gán với trọng số dọc
Độ hỗ trợ trọng số hỗn hợp được định nghĩa như sau:
) S ( port sup ) S ( port sup ) S ( port sup m nv v (2.4)
Cả support v và support m là các mở rộng của phép đo độ hỗ trợ truyền thống Nếu tất
cả các trọng số ngang và dọc được bật là 1, thì cả support v và support m đúng là độ
hỗ trợ truyền thống
Hướng tiếp cận chia s itemset (IS) cho thấy tầm quan trọng ngữ nghĩa của
các giá trị số có liên quan tiêu biểu với các item riêng lẻ trong một CSDL giao tác (các ô trong bảng) Ảnh hưởng rõ ràng khi mua tập các món hàng (itemset) được đo bằng việc chia sẻ từng món hàng (item), là phần chia của giá trị số nói chung nào
đó, như là tổng số các item được bán Ví dụ 2.1 máy tính được bán trong giao tác này có thể được xem là quan trọng hơn hai máy tính được bán trong giao tác khác
Vì vậy miền của bảng có thể là các con số rõ ràng, như là số các item được bán, chứ
Trang 40không phải là miền nhị phân {0,1}, 1 là item xuất hiện trong giao tác, 0 có nghĩa là không xuất hiện Dùng cách tìm kiếm heuristic để tìm các itemset với các giá trị chia sẻ cao hơn ngưỡng chia sẻ tối thiểu
Cấu trúc chia sẻ itemset có đề cập đến các trọng số cho cả các thuộc tính và cho các cặp giá trị thuộc tính Ảnh hưởng rõ ràng nhất của việc mua một itemset có thể được đo bằng độ chia sẻ itemset, giao tác của giá trị số tổng quan nào đó, như là tổng giá trị của tất cả các món hàng được bán Ví dụ, trong một tập dữ liệu giao tác, trọng số trên một thuộc tính có thể biểu diễn giá của một mặt hàng, và trọng số của một cặp giá trị thuộc tính có thể biểu diễn số lượng mặt hàng trong một giao tác Dựa trên mô hình này, trong framework chia sẻ itemset, độ hỗ trợ được tổng quát hóa Độ hỗ trợ đếm cho itemset S được định nghĩa như sau:
) t , i ( w )
S sup(
) i ( w ) t , i ( w )
S sup(
_
Với w(i p ) là trọng số của thuộc tính i p và w(i p )>0
Phép đo độ có ích khác, được định nghĩa như sau:
S (