1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

tiểu luận thuật toán hiệu quả trong việc khai thác những luật kết hợp thời gian - itarm

20 344 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu luận thuật toán hiệu quả trong việc khai thác những luật kết hợp thời gian - itarm
Tác giả Vũ Hoàng Hải Sơn
Người hướng dẫn PGS.TS Lê Hoài Bắc
Trường học University of Information Technology
Chuyên ngành Computer Science
Thể loại tiểu luận
Năm xuất bản 2023
Thành phố Hồ Chí Minh
Định dạng
Số trang 20
Dung lượng 0,95 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô tả thuật toán 3.. Đánh giá và kết quả của thuật toán... Giới thiệu Có rất nhiều thuật toán được đề xuất tìm kiếm các luật kết hợp association rules trong trường dữ liệu như:  Aprio

Trang 1

PGS.TS Lê Hoài Bắc Học viên:

Vũ Hoàng Hải Sơn - 1211061

1

Trang 2

Nội Dung

1 Giới Thiệu

2 Mô tả thuật toán

3 Đánh giá và kết quả của thuật toán

Trang 3

Giới thiệu

 Có rất nhiều thuật toán được đề xuất tìm kiếm các luật kết hợp (association rules) trong trường dữ liệu như:

 Apriori

 TreeProjection

 FP-growth

 Mining of generalized and multi-level rules

 Mining of quantitative rules

3

Trang 4

Giới thiệu

 Dữ liệu thời gian tồn tại rộng rãi trong kinh tế, tài chính, truyền thông, và các lĩnh vực khác như dự báo thời tiết

 Temporal Association Rules(TAR) là sự thể hiện của các luật kết hợp bằng việc kết hợp với thời gian

 Đặc trưng của dữ liệu thời gian là sự cập nhật liên tục do

đó các giải thuật được đề xuất để giải quyết các vấn đề

xử lý chỗi thời gian:

 Progressive Partition Miner(PPM)

Trang 5

Giới thiệu

• Incremental Temporal Association Rules Mining (ITARM)

 Dựa trên nền của thuật toán Sliding-Window Filtering

 Duy trì những tập tập phổ biến sau khi dữ liệu đã được cập nhật

5

Trang 6

Mô tả thuật toán

1 Mô tả dữ liệu

2 Giải thuật

Trang 7

Mô tả dữ liệu

 Dữ liệu thời gian sẽ được phân vùng theo các mốc thời gian như theo tháng, quý, năm

 Các ký hiệu được sử dụng:

 Dbs,e :1 phần của dữ liệu bắt đầu từ Ps đến Pe

 Ys,e : đối tượng có Ps là phân vùng bắt đầu và Pe là kết

thúc

 MCP (Y): là thời gian thể hiện tối đa của đối tượng Y

7

Trang 8

Mô tả dữ liệu

 Các ký hiệu được sử dụng(tt):

 Supp(xMCP(x)) là relative support của tập x

 Conf(XY)MCP(XY) là độ tin cậy

Trang 9

Mô tả dữ liệu

MCP(DE) = (2,3) do MCP(D) = (1,3) và MCP(E) = (2,3)

Supp(DE) = 2/8 = 25%

Conf(DE) = 2/3 = 66,66%

Trang 10

Giải thuật

Trang 11

Thuật toán ITARM

 Input: DB, db, C2DB , min_sup

 Output: L’, C2DB+db

 B1: tìm tất cả các ứng cử

viên(UCV) trong db (C2db)

11

P1+P2

p3

Trang 12

Thuật toán ITARM

 B2 :

 Cập nhật support của

các UCV X trong C2DB:

x.suppDB+db = x.suppDB + x.suppdb

 Cập nhật X vào C2DB+db

 Cập nhật các UCV còn

lại trong C2DB và C2db

vào C DB+db

Trang 13

Thuật toán ITARM

 B3: Lọc các UCV có supp > min_supp

 Trong thuật toán này, supp được tính bằng số các trường trong database có chứ X và min_supp được tính theo

công thức:

 Các UCV được lọc lại là BC, BF, CE

13

Trang 14

Thuật toán ITARM

 B4:

 Tìm các UCV gồm có k+1 đối tượng từ tập UCV thứ k

bằng phép kết Apriori (bắt đầu bằng k=2)

 Cập nhật vào tập các UCV CDB+db

 Dừng quá trình tìm kiếm khi tập CkDB+db = Ø

Trang 15

Thuật toán ITARM

 B5:

 Tìm các tập thời gian(TI) từ tập UCV CDB+db

 Tìm các tập thời gian con(SI) từ tập TI

15

C 1,3

F 3,3

E 2,3

Trang 16

Thuật toán ITARM

 B6:

 Tính toán lại support count và lọc lại các UCV

SI’s B 1,3 8 12 x 30% = 4

C 1,3 6 12 x 30% = 4

B 3,3 3 4 x 30% = 2

F 3,3 3 4 x 30% = 2

C 2,3 4 8 x 30% = 3

Frequent itemsets

C 1,3

B 3,3

F 3,3

C 2,3

Trang 17

Thuật toán Update C2

 Input: C2DB ,Pn ,min_sup

 Output: C2DB

 Với mỗi UCV X thuộc C2DB , nếu tồn tại X trong n

transaction T thuộc Pn:

X.supportDB = X.supportDB - n

 VD:

 Trong trường hợp P3 không nằm trong tháng 3 mà là phần

thêm của tháng 2, tức là P2 = P2 + P3, và P2 được xem là db

17

Trang 18

Đánh giá và kết quả thuật toán

 So sánh với hai thuật toán SPF và Twain, tất cả đều chạy

trên nền máy Win Xp, code C#, 1.8 GHz Intel Core 2 Duo, 1GB ram

 Tx: x là chiều dài trung bình của 1 transaction trong DB

 Ly: y là chiều dài trung bình lớn nhất có thể có của 1 tập phổ

biến

 Dz: z là số các transaction trong DB ban đầu (tính theo hàng nghìn)

 dr: r là số các transaction trong DB cập nhật (tính theo hàng nghìn)

Trang 19

Đánh giá và kết quả thuật toán

19

Trang 20

CÁM ƠN THẦY VÀ CÁC BẠN

Ngày đăng: 07/04/2014, 21:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w