1. Trang chủ
  2. » Công Nghệ Thông Tin

Isolated Items Discarding Strategy For Discovering High Utility Itemsets

43 209 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 1,59 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài Toán2 Khai thác luật kết hợp: quan trọng Mục như là một biến nhị phân: có hay không có trong một giao dịch Mua các sản phẩm cùng nhau Số lượng của một item nhiều hơn 1 Lợi nhuận hay

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Khoa Công Nghệ Thông Tin

Isolated Items Discarding Strategy For Discovering High

Trang 3

Bài Toán

2

Khai thác luật kết hợp: quan trọng

Mục như là một biến nhị phân: có hay không có trong một giao dịch

Mua các sản phẩm cùng nhau

Số lượng của một item nhiều hơn 1

Lợi nhuận hay giá trị của các item là khác nhau

Hamilton (2004) : khai thác tập mục hữu ích cao từ CSDL

 Tạo quá nhiều ứng viên khi tìm HUI  Chi phí lớn

 giảm ứng viên: sử dụng IIDS

Trang 5

Cơ Sở Lý Thuyết

4

Định nghĩa 2.5: Giá trị hữu ích cục bộ (Local) của một itemset X trong

DB ký hiệu là là tổng của các giá trị hữu ích của itemset X trong

Ví dụ:

Trang 7

Cơ Sở Lý Thuyết

6

Định nghĩa 3.1: Cho k-itemset X Một superset của X (chứa X và xuất

hiện ít nhất trong một giao dịch nào đó của DB) với kích thước chứa giao tác được ký hiệu là , với và

Ví dụ: Cho hoặc ,

Cả và đều chứa X, có ba phần tử và xuất hiện trong T02 của DB

Trang 8

Cơ Sở Lý Thuyết

7

Định lý 3.1: Cho là một -superset tùy ý của k-itemset X, với Giả sử

rằng tồn tại một hàm dự đoán với mọi Nếu thì không có superset của

X là hữu ích cao

Với

Trang 9

IIDS & Thuật Toán

8

- IIDS: một cách thức hiệu quả của việc thiết kế một hàm dự đoán.

- Utility mining là dạng tổng quát của share mining (SH-mining)

- Các thuật toán: ShFSM (Share-counted frequent sequence mining), DCG (Direct Candidates Generation),…

- Áp dụng IIDS  FUM (Fast Utility Mining), DCG+

 ShFSM & FUM

Trang 10

IIDS & Thuật Toán

9

Input:

(1) DB: cơ sở dữ liệu giao tác có số lượng

(2) UT (utility table): bảng hữu ích

(3) minUtil: ngưỡng hữu ích nhỏ nhất

Output:

Tất cả các itemset hữu ích cao: HUI(DB)

Trang 11

IIDS & Thuật Toán

Trang 12

IIDS & Thuật Toán

Trang 13

IIDS & Thuật Toán

Trang 14

IIDS & Thuật Toán

Trang 15

IIDS & Thuật Toán

Trang 16

IIDS & Thuật Toán

Trang 17

IIDS & Thuật Toán

; // xóa item không hữu ích

; // thêm item biệt lập

;//remaining candidate

Trang 18

IIDS & Thuật Toán

Trang 19

IIDS & Thuật Toán

Trang 20

IIDS & Thuật Toán

Trang 21

IIDS & Thuật Toán

Trang 22

IIDS & Thuật Toán

Trang 23

IIDS & Thuật Toán

Trang 24

IIDS & Thuật Toán

Trang 25

IIDS & Thuật Toán

Trang 26

IIDS & Thuật Toán

; // xóa itemset không hữu ích

Chỉ định rõ mà không có item xuất hiện trong

Trang 27

IIDS & Thuật Toán

26

ShSFM

FUM

Trang 28

IIDS & Thuật Toán

Trang 29

IIDS & Thuật Toán

28

ShFSM

FUM

 dừng

Trang 30

Kết Quả Thử Nghiệm

29

Dữ liệu

- Nhân tạo (Synthetic datasets)

- Máy phát dữ liệu tổng hợp IBM

- T10.I6.D1000k.N1000, T10.I6.D100k.N2000, và T20.I6.D1000k.N1000

- Thực tế:

- Dữ liệu chuỗi cửa hàng được lấy từ một chuỗi cửa hàng tạp hóa lớn ở California chứa 1.112.949 giao dịch và 46.086 mặt hàng khác nhau Bảng hữu ích lưu trữ lợi nhuận cho mỗi item Tổng lợi nhuận của các tập dữ liệu là 26.388.499,80$.

Trang 31

Kết Quả Thử Nghiệm

30

Trang 32

Kết Quả Thử Nghiệm

31

Trang 33

Kết Quả Thử Nghiệm

32

Trang 34

Kết Quả Thử Nghiệm

33

Trang 35

Kết Quả Thử Nghiệm

34

Trang 36

Kết Quả Thử Nghiệm

35

Trang 37

Kết Quả Thử Nghiệm

36

Trang 38

Kết Quả Thử Nghiệm

37

Trang 40

Kết Luận Và Hướng Phát Triển

39

- Đề xuất IIDS để làm giảm các giá trị hàm dự đoán của các itemset.

- Các kết quả: hiệu suất của FUM và DCG+ tốt hơn ShFSM và DCG IIDS có thể làm giảm số lượng các ứng cử viên và làm tăng hiệu suất của các phương

pháp khai thác hữu ích một cách hiệu quả.

- Nền tảng lý thuyết và kết quả thực nghiệm cho thấy rằng các IIDS là một

chiến lược đầy hứa hẹn cho khai thác hữu ích IIDS cũng có thể được áp

dụng cho khai thác truyền thống giống như Apriori.

 mở rộng phạm vi ứng dụng IIDS cho một số mô hình phân lớp.

Trang 41

Tài Liệu Tham Khảo

40

[1] Yu-Chiang Li, Jieh-Shan Yeh, Chin-Chen Chang, “Isolated items discarding strategy for discovering high utility itemsets”, Data

& Knowledge Engineering, 64 (2008) 198–217.

[2] Vinutha C, Yogish H.K, “Survey On: Mining High Utility Itemsets from Transactional Database”, IOSR Journal of Computer

Engineering (IOSR-JCE), Volume 16, Issue 2, Ver I (Mar-Apr 2014).

[3] H Yao, H.J Hamilton, “Mining itemset utilities from transaction databases”, Data & Knowledge Engineering 59 (2006) 603– 626.

Trang 42

CHÂN THÀNH CẢM ƠN

SỰ CHÚ Ý THEO DÕI CỦA THẦY,

CÁC ANH CHỊ VÀ CÁC BẠN

Trang 43

Thảo Luận

Ngày đăng: 14/06/2015, 10:32

TỪ KHÓA LIÊN QUAN