1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu - Chương 3: Dãy phổ biến doc

37 534 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dãy phổ biến
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Khai phá dữ liệu
Thể loại Chương
Thành phố Hà Nội
Định dạng
Số trang 37
Dung lượng 656 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu – Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10 THEN sẽ mua sản phẩm B với số lượng 20.. Tên của phương pháp WIN

Trang 1

Dãy phổ biến

Chương 3:

Trang 2

Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong

dữ liệu

– Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10

THEN sẽ mua sản phẩm B với số lượng 20.

Các luật dãy phổ biến mô tả quan hệ thời gian giữa các

sự kiện

– Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN

sau 1 tuần khách hàng sẽ mua tiếp sản phẩm B và C”

1 CÁC KHÁI NiỆM CƠ BẢN

Chương 3: Dãy phổ biến

Trang 3

– Tập R các loại sự kiện.

– M ỗi sự kiện là một cặp (A, t), với

• A  R là loại sự kiện (ví dụ loại tín hiệu báo động )

• t là một số nguyên xác định thời điểm xuất hiện của sự kiện

– C huỗi sự kiện S trên R là bộ ba (s, T s , T e )

• T s là thời điểm bắt đầu và T e là thời điểm kết thúc

• T s < T e là các số nguyên

• S = (AA 1 , t 1 ), (AA 2 , t 2 ), …, (AA n , t n )

• A i R và T s t i < T e với mọi i=1, …, n`

1 CÁC KHÁI NiỆM CƠ BẢN

(tt)

Trang 4

Ví dụ chuỗi sự kiện:

Trong đó :

– A, B, C, D: là các loại sự kiện

– 10…150 là các thời điểm xảy ra sự kiện

– S = (AD, 10), (AC, 20), …, (AA, 150)

– T (thời điểm bắt đầu) = 10 and T (thời điểm kết thúc) = 150

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

D C A B D A B C A D C A B D A

1 CÁC KHÁI NIỆM CƠ BẢN

(tt)

Trang 5

định bằng quan hệ thứ tự.

2 DÃY PHỔ BiẾN TRONG MỘT CHUỖI

(Episode)

Trang 6

Các thứ tự riêng phần phổ dụng như:

Thứ tự toàn phần

• Các vị từ của mỗi episode có thứ tự cố định

• Các episodes như vậy được gọi là tuần tự (hay “có thứ tự")

Các thứ tự riêng phần hiển nhiên

Trang 7

Ví dụ:

Episode tuần tự

A

B

Episode song song

Trang 8

Tên của phương pháp WINEPI xuất phát từ kỹ thuật

dùng cửa sổ truợt

Nhận xét:

– Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện

– Mỗi cửa sổ là một “khung ảnh" giống như một dòng của

CSDL

– Tập các “khung ảnh" tạo thành các dòng của CSDL

3 THUẬT TOÁN

WINEPI

Trang 9

Ví dụ chuỗi dữ liệu sự kiện:

Bề rộng cửa sổ là 40 giây

Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối

3 THUẬT TOÁN WINEPI

(tt)

0 10 20 30 40 50 60 70 80 90

D C A B D A B C

Trang 10

Cho tập E các loại sự kiện, chuỗi sự kiện S =

(s,T s ,T e) là một chuỗi có thứ tự các sự kiện )

event i sao cho event i  event i+1 với mọi i=1, …,

n-1, và T s  event i < T e với mọi i=1, …, n

Ts Te

t1 t2 t3 … … tn

event1 event2 event3 … … eventn

3 THUẬT TOÁN WINEPI

(tt)

Trang 11

Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện chuỗi sự kiện S

S w =(w,t s ,t e ), với t s < T e , t e > T s , và w chứa các cặp (event, t) của s mà t s  t < t e

Giá trị t s  t < t e được gọi là bề rộng cửa sổ W

Trang 12

Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi có thể vuơn ra ngoài chuỗi, do vậy cửa sổ đầu tiên chỉ chứa thời điểm đầu và cửa sổ cuối cùng chỉ chứa thời điểm cuối

Trang 13

Tần suất (độ hỗ trợ với luật kết hợp) của episode  là tỷ số giữa các cửa sổ có xuất hiện với tổng số các cửa sổ khả dĩ

|Sw  W(S, W) |  xuất hiện trong Sw |

Trang 14

Khi tìm episodes cần sử dụng một ngưỡng tần

suất min_fr

Episode  là phổ biến nếu fr(A, s, win)  min_fr

Ví dụ, “nếu tần suất của  vượt quá ngưỡng tần

suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với

bề rộng cửa sổ win"

F(s, win, min_fr): tập hợp các episodes phổ biến trong

s ứng với win và min_fr

s, thì tất cả các episodes con là phổ biến

3 THUẬT TOÁN WINEPI

(tt)

Trang 15

Luật

Luật episode rule là biểu thức   , với  và  là

các episodes sao cho  là episode con của 

Episode  là episode con của  (  ), nếu đồ thị biểu diễn  là đồ thị con của đồ thị biểu diễn 

Trang 16

Phân số

fr(, S, W) : tần suất của toàn bộ episode

fr(, S, W) : tần suất của episode vế trái

là độ tin cậy của luật   

Độ tin cậy được xem như xác suất điều kiện của toàn bộ của 

xảy ra trong cửa sổ khi cho trước  xảy ra trong cửa sổ đó.

3 THUẬT TOÁN WINEPI

(tt)

Trang 17

Nhận xét:

– Các luật WINEPI giống luật kết hợp nhưng có thêm yếu tố thời gian:

Nếu sự kiện thỏa về trái của luật xuất hiện theo thứ

tự bên phải trong phạm vi W đơn vị thời gian, thì

cũng xuất hiện trong phần kết luận (vế phải ) xuất hiện trong vị trí được mô tả bởi quan hệ thứ tự ,

trong phạm vi W đơn vị thời gian.

3 THUẬT TOÁN WINEPI

(tt)

Trang 18

Input: Tập R các loại sự kiện, chuỗi sự kiện S trên R, tập E các episodes, bề rộng

cửa sổ win, và nguỡng tần suất min_fr

Trang 19

Bài toán: cho chuỗi sự kiện và episode, xác định episode có xuất

hiện trong chuỗi sự kiện đó không Tìm số các cửa sổ có chứa một lần xuất hiện của episode

Cách xử lý?

– Giống ý tưởng luật kết hợp

– Episode ứng viên là tổ hợp của hai episodes có kích thước nhỏ hơn

– Các episodes song song, episodes tuần tự

3 THUẬT TOÁN WINEPI

(tt)

Trang 20

Ví dụ chuỗi dữ liệu sự kiện:

Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây

Chiều dài của chuỗi là 70 (10-80)

3 THUẬT TOÁN WINEPI

(tt)

0 10 20 30 40 50 60 70 80 90

D C A B D A B C

Trang 21

Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U 1 -U 11 ):

Nguỡng tần số được ấn định là 40%, ví dụ episode xảy ra

tối thiểu trong 5 của 11 cửa sổ.

3 THUẬT TOÁN WINEPI

Trang 22

WINEPI Approach

3 THUẬT TOÁN WINEPI

(tt)

Trang 23

Giả sử cần tìm tất cả các episodes song song:

– Đầu tiên, tạo singletons, ví dụ episodes song song có kích thuớc là 1 (AA,

B, C, D)

– Tiếp đến nhận dạng các singletons phổ biến (ở đây là tất cả )

– Từ các episodes phổ biến này, tạo các episodes ứng viên có kích thước

là 2: AB, AC, AD, BC, BD, CD

– Tiếp đến nhận dạng các episodes song song phổ biến(ở đây là tất cả)

– Từ các episodes phổ biến này, tạo các episodes phổ biến có kích thước

là 3: ABC, ABD, ACD, BCD

– Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn 4

cửa sổ

– Không có episodes ứng viên có kích thước là 4.

3 THUẬT TOÁN WINEPI

(tt)

Trang 24

Tần suất Episode và các luật ví dụ với WINEPI:

Trang 25

Một cách tiếp cận khác để khám phá episodes

– Không dùng cửa sổ trượt

– Đối với từng episode quan tâm tiền năng, tìm số lần xuất

hiện chính xác của episode.

Các tiện lợi:

Các tiện lợi: dễ sửa đổi các giới hạn thời gian, nhiều giới hạn

thời gian cho một luật :

“Nếu A và B xảy ra trong phạm vi 15 giây, thì C sẽ theo

sau trong phạm vi 30 giây"

Bất tiện:

Bất tiện: dùng nhiều khoảng trống

4 THUẬT TOÁN MINEPI

Trang 26

Cho episode  và chuỗi sự kiện S, khoảng [t s ,t e] là xuất

4 THUẬT TOÁN MINEPI

(tt)

Trang 27

Ví dụ: Episode song song  chứa các loại sự kiện

A và B có ba lần xuất hiện nhỏ nhất trong s là :

{[30,40], [40,60], [60,70]},  có một lần xuất hiện

trong s là : {[60,80]}

D C A B D A B C

A B

A B

C

4 THUẬT TOÁN MINEPI

(tt)

Trang 28

• Luật Episode MINEPI cho xác suất điều kiện để tổ hợp các sự kiện ( tín hiệu báo động) xảy ra trong một thời khoảng khi cho trước tổ hợp khác các sự kiện khác đã xuất hiện trong thời khoảng

4 THUẬT TOÁN MINEPI

(tt)

Trang 29

Độ tin cậy của luật  [win1]   [win2] là xác suất điều kiện để 

được chỉ định bởi các luật:

4 THUẬT TOÁN MINEPI

(tt)

Trang 30

Tần suất của luật  [win1]   [win2] là |mo()|,

với số lần luật thỏa trong CSDL

Xét ví dụ:

– Bài toán: tìm tất cả các episodes tuần tự

bằng cách dùng thời khoảng cực đại là 40

giây và kích thuớc cửa sổ là 10, 20, 30

and 40 giây Ngưỡng tần suất được gán

cho một lần xuất hiện

D C A B D A B C

0 10 20 30 40 50 60 70 80 90

4 THUẬT TOÁN MINEPI

(tt)

Trang 31

– Sau đó, nhận dạng các singletons phổ biến (với ví dụ này là tất cả)

– Từ các episodes phổ biến này, tạo các episodes ứng viên có kích

thước là 2: AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC

4 THUẬT TOÁN MINEPI

(tt)

Trang 32

Tìm tất cả các episodes tuần tự (2/3):

– Sau đó, dùng bảng đảo ngược để tạo xuất hiện nhỏ nhất

cho các ứng viên Ví dụ cho AB nhận tất cả các episodes con, có tên là A và B, rồi tính mo(AB) như sau:

• Đọc xuất hiện đầu tiên của A (30-30), và tìm xuất hiện đầu tiên theo sau B (40-40)

• Sau đó lấy xuất hiện thứ hai của A (60-60) và tìm xuất hiện đầu tiên sau B (70-70)

• Rồi tiếp tục với BA

4 THUẬT TOÁN MINEPI

(tt)

Trang 33

Tìm tất cả các episodes tuần tự (3/3):

– Trong giai đoạn nhận dạng, chúng ta tìm tất cả episodes phổ biến và tạo các episodes ứng viên có kích thước 3 Lần nữa, hầu như tất cả các ứng viên đều phổ biến.

– Cuối cùng, thủ tục tương tự được lặp cho các ứng viên

có kích thước là 4 và tìm được các episodes xảy ra là

DCAB trong 10-40, DABC trong 50-80, CABD trong

20-50, CBDA trong 20-60, và BDAC trong 40-80

– Không tìm thấy các ứng viên có kích thước 5, do vậy thuật toán kết thúc.

4 THUẬT TOÁN MINEPI

(tt)

Trang 34

Các xuất hiện (tuần tự ) tối thiểu + các tần suất trong dữ liệu ví dụ

D C A B D A B C

0 10 20 30 40 50 60 70 80 90

Trang 35

IF D

THEN C

WITH [0] [10] 0.00 (0/2)

[0] [20] 0.50 (1/2) [0] [40] 1.00 (2/2)

Trang 36

IF D

A B

Trang 37

Khai phá luật Episode:

Khai phá luật Episode:

– Dựa trên kỹ thuật luật kết hợp

– Dữ liệu hướng thời gian

Hai cách tiếp cận:

– WINEPI với cửa sổ trượt

– MINEPI với việc tìm sự xuất hiện nhỏ nhất

Các tiếp cận được dùng cho các mục tiêu khác nhau

KẾT LUẬN

Ngày đăng: 29/03/2014, 08:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN