1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng khai phá dữ liệu chương 3 phan mạnh thường

39 334 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 0,93 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Episodes: Episode là cặp V,  • V là tập hợp các loại sự kiện,ví dụ loại tín hiệu báo động •  là thứ tự riêng phần trên V  Cho chuỗi S các tín hiệu báo động, episode  = V,  xảy ra

Trang 2

Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu

 Ví dụ: "IF khách hàng mua sản phẩm A với số lượng

10 THEN sẽ mua sản phẩm B với số lượng 20

sự kiện

 Ví dụ: IF hôm nay khách hàng mua sản phẩm ATHEN sau 1 tuần khách hàng sẽ mua tiếp sản phẩm

B và C”

Trang 3

 Dữ liệu là tập R các biến cố

 Mỗi biến cố là một cặp (A, t), với

• A  R là loại biến cố (ví dụ loại tín hiệu báo động )

• t là một số nguyên xác định thời điểm xuất hiện của biến cố

C ác chuỗi biến cố s trên R là bộ ba (s, T s , T e )

• T s là thời điểm bắt đầu và T e là thời điểm kết thúc

• T s < T e là các số nguyên

• s = (A 1 , t 1 ), (A 2 , t 2 ), …, (A n , t n ) 

• A iR và T st i < T e với mọi i=1, …, n

Trang 4

Ví dụ chuỗi dữ liệu tín hiệu báo động:

Trang 5

Episodes:

Episode là cặp (V, )

• V là tập hợp các loại sự kiện,ví dụ loại tín hiệu báo động

•  là thứ tự riêng phần trên V

Cho chuỗi S các tín hiệu báo động, episode= (V, )

xảy ra trong phạm vi S nếu có cách thỏa loại sự kiện (ví dụ loại tín hiệu báo động) trong V dùng các tín hiệu báo động của S để thứ tự riêng phần  được tôn trọng

các tính chất nào đó và xảy ra theo một thứ tự riêngphần nào đó

Trang 6

Các thứ tự riêng phần phổ dụng như:

• Các vị từ của mỗi episode có thứ tự cố định

• Các episodes như vậy được gọi là tuần tự (hay “có thứ tự")

• Không xét trật tự của các vị từ

• Các episodes này được gọi là song song (hay “không có

thứ tự")

Trang 7

Ví dụ:

Episode tuần tự

A

B

Episode song song

Trang 8

Tên của phương pháp WINEPI xuất phát từ

kỹ thuật dùng cửa sổ truợt

Nhận xét:

 Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện

 Mỗi cửa sổ là một “khung ảnh" giống như một dòng của CSDL

 Tập các “khung ảnh" tạo thành các dòng của CSDL

Trang 10

là một chuỗi có thứ tự các sự kiện event i sao cho event i

 event i+1 với mọi i=1, …, n-1, và T s  event i < T e với

mọi i=1, …, n

t1 t2 t3 … … tnevent1 event2 event3 … … eventn

Trang 11

Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện S=(w,t s ,t e),

với t s < T e , t e > T s , và w chứa các cặp (event, t) của s mà

Trang 12

 Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi vuơn ra ngoài chuỗi, do vậy cửa sổ đầu tiên chỉ chứa thời điểm đầu và cửa sổ cuối cùng chỉ chứa thời điểm cuối

Trang 13

 Tần suất (độ hỗ trợ với luật kết hợp) của

episode  là tỷ số giữa các cửa sổ có xuất hiện với tổng số các cửa sổ khả dĩ

|Sw  W(S, W) |  xuất hiện trong Sw |

fr(, S, W) =

|W(S, W)|

Với W(S, W) là tập tất cả các cửa sổ Sw của

chuỗi S sao cho bề rộng cửa sổ là W

Trang 14

tần suất min_fr

 Episode  là phổ biến nếu fr( , s, win)  min_fr

Ví dụ, “nếu tần suất của  vượt quá ngưỡng tần suất

nhỏ nhất trong phạm vi chuỗi dữ liệu s và với bề

rộng cửa sổ win"

F(s, win, min_fr): tập hợp các episodes phổ biến

trong s ứng với win và min_fr

sự kiện s, thì tất cả các episodes con    là phổ biến

Trang 15

Luật episode rule là biểu thức   , với  và  là các

episodes sao cho  là episode con của 

 Episode  là episode con của  (  ), nếu đồ thị biểudiễn  là đồ thị con của đồ thị biểu diễn 

Trang 16

 Phân số

fr(, S, W) = tần suất của toàn bộ episode fr(, S, W) = tần suất của episode vế trái

là độ tin cậy của luật WINEPI episode

 Độ tin cậy được xem như xác suất điều kiện của toàn bộ của  xảy ra trong cửa sổ khi cho trước

 xảy ra trong cửa sổ đó.

Trang 17

Nhận xét:

 Các luật WINEPI giống luật kết hợp nhưng có thêmyếu tố thời gian:

Nếu sự kiện (tín hiệu báo động) thỏa về trái của luật

xuất hiện theo thứ tự bên phải trong phạm vi W đơn

vị thời gian, thì cũng xuất hiện trong phần kết luận (vếphải ) xuất hiện trong vị trí được mô tả bởi quan hệ

thứ tự , trong phạm vi W đơn vị thời gian.

phần thân  kết luận [bề rộng cửa sổ ] (f, c)

Trang 18

s trên R, tập E các episodes, bề rộng cửa sổ win, và nguỡng tần suất min_fr

Output: Tập hợp F(s, win, min_fr)

Trang 19

episode có xuất hiện trong chuỗi.

 Tìm số các cửa sổ có episode xuất hiện

 Các cửa sổ liền nhau có nhiều phần chung

 Cách xử lý?

 Thuật toán tăng cường (incremental algorithm)

 Giống ý tưởng luật kết hợp

 Episode ứng viên là tổ hợp của hai episodes có kích thước nhỏ hơn

 Các episodes song song, episodes tuần tự

Trang 20

Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây

Chiều dài của chuỗi là 70 giây (10-80)

0 10 20 30 40 50 60 70 80 90

D C A B D A B C

Trang 21

Nguỡng tần số được ấn định là 40%, ví dụ episode xảy ra tối thiểu trong 5 của 11 cửa sổ.

Trang 23

 Đầu tiên, tạo singletons, ví dụ episodes song song có

kích thuớc là 1 (A, B, C, D)

 Tiếp đến nhận dạng các singletons phổ biến (ở đây

là tất cả )

 Từ các episodes phổ biến này, tạo các episodes ứng

viên có kích thước là 2: AB, AC, AD, BC, BD, CD

 Tiếp đến nhận dạng các episodes song song phổ

biến(ở đây là tất cả)

 Từ các episodes phổ biến này, tạo các episodes phổ

biến có kích thước là 3: ABC, ABD, ACD, BCD

 Khi nhận dạng các episodes phổ biến, chỉ có ABD

xuất hiện trong hơn 4 cửa sổ

 Không có episodes ứng viên có kích thước là 4

Trang 24

Tần suất Episode và các luật ví dụ với WINEPI:

Trang 25

Một cách tiếp cận khác để khám phá episodes

 Không dùng cửa sổ trượt

 Đối với từng episode quan tâm tiền năng, tìm số lần xuất hiện chính xác của episode

giới hạn thời gian cho một luật :

“Nếu A và B xảy ra trong phạm vi 15 giây, thì C sẽ

theo sau trong phạm vi 30 giây"

Trang 26

  s e

là xuất hiện nhỏ nhất  của S,

 Nếu  xảy ra trong cửa sổ ứng với khoảng

 Nếu  không xảy ra trong bất kỳ khoảng con đúng

Trang 27

Ví dụ: Episode song song chứa các loại sự kiện A và

B có ba lần xuất hiện nhỏ nhất trong s là : {[30,40],

[40,60], [60,70]},  có một lần xuất hiện trong s là :

Trang 28

 Luật Episode MINEPI cho xác suất điều kiện để tổhợp các sự kiện ( tín hiệu báo động) xảy ra trong mộtthời khoảng khi cho trước tổ hợp khác các sự kiệnkhác đã xuất hiện trong thời khoảng

 Luật episode là  [win1]   [win2]

  và  là các episodes sao cho    ( là episodecon của )

 Nếu episode  có xuất hiện nhỏ nhất trong khoảng

[t s ,t e ] với t e - t swin1, thì episode  xảy ra trong

khoảng [t s ,t' e ] ứng với vài t' e sao cho t' e - t swin2

Trang 29

 Độ tin cậy của luật  [win1]   [win2] là xác suất điều kiện để  xảy ra khi cho trước  xảy ra, dưới các ràng buộc thời gian được chỉ định bởi các luật:

|mo()| / |mo()|

với |mo()| là số các xuất hiện nhỏ nhất [t s ,t e] của  sao

cho t e - t s win1 và |mo()| là số các xuất hiện như thế

và cũng có một xuất hiện của  trong phạm vi khoảng

[t s ,t s +win2]

Trang 30

 Tần suất của luật  [win1]   [win2] là |mo()|, với

số lần luật thỏa trong CSDL

 Xét ví dụ:

 Bài toán: tìm tất cả các episodes tuần tự bằngcách dùng thời khoảng cực đại là 40 giây và kíchthuớc cửa sổ là 10, 20, 30 and 40 giây Ngưỡngtần suất được gán cho một lần xuất hiện

D C A B D A B C

0 10 20 30 40 50 60 70 80 90

Trang 31

 Đầu tiên, tạo singletons, ví dụ episodes có kích thước

 Từ các episodes phổ biến này, tạo các episodes ứng

viên có kích thước là 2: AB, BA, AC, CA, AD, DA,

BC, CB, BD, DB, CD, DC

Trang 32

Tìm tất cả các episodes tuần tự(2/3):

 Sau đó, dùng bảng đảo ngược để tạo xuất hiện nhỏ

nhất cho các ứng viên ví dụ cho AB nhận tất cả các episodes con, có tên là A và B, rồi tính mo(AB) như

Trang 33

 Trong giai đoạn nhận dạng, chúng ta tìm tất cảepisodes phổ biến và tạo các episodes ứng viên cókích thước 3 Lần nữa, hầu như tất cả các ứng viênđều phổ biến.

 Cuối cùng, thủ tục tương tự được lặp cho các ứngviên có kích thước là 4 và tìm được các episodes

xảy ra là DCAB trong 10-40, DABC trong 50-80,

CABD trong 20-50, CBDA trong 20-60, và BDAC

trong 40-80

 Không tìm thấy các ứng viên có kích thước 5, do vậythuật toán kết thúc

Trang 35

IF D

THEN C

WITH [0] [10] 0.00 (0/2)

[0] [20] 0.50 (1/2)[0] [40] 1.00 (2/2)

Trang 36

IF D

AB

Trang 37

Khai phá luật Episode:

 Dựa trên kỹ thuật luật kết hợp

 Dữ liệu hướng thời gian

Hai cách tiếp cận:

 WINEPI với cửa sổ trượt

 MINEPI với việc tìm sự xuất hiện nhỏ nhất

Các tiếp cận được dùng cho các mục tiêu khác nhau

Cần nghiên cứu thêm

 Bài toán khám phá mẫu tuần tự (sequential pattern mining )

 Thuật toán tăng cường cho bài toán sequential pattern mining

Trang 38

1 Cho chuỗi sự kiện sau đây:

A B R A K A D A B R A

 Có bao nhiêu cửa sổ có bề rộng là 4 được xử lý để

tìm các episodes phổ biến theo tiếp cận WINEPI ?

 Giả sử nguỡng min_fr là 0.3 Tìm các episode phổ

biến tuần tự và song song trong chuỗi trên ?

 Tìm các epsiode tối đại ?

Trang 39

1 Cho chuỗi sự kiện sau đây:

A B R A K A D A B R A

 Có bao nhiêu cửa sổ có bề rộng là 4 được xử lý để

tìm các episodes phổ biến theo tiếp cận WINEPI ?

 Giả sử nguỡng min_fr là 0.3 Tìm các episode phổ

biến tuần tự và song song trong chuỗi trên ?

 Tìm các epsiode tối đại ?

Ngày đăng: 03/12/2015, 05:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm