Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu – Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10 THEN sẽ mua sản phẩm B với số lượng 20.. Tên của phương pháp WIN
Trang 1Dãy phổ biến
Chương 3:
Trang 2Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau trong
dữ liệu
– Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10
THEN sẽ mua sản phẩm B với số lượng 20.
Các luật dãy phổ biến mô tả quan hệ thời gian giữa các
sự kiện
– Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN
sau 1 tuần khách hàng sẽ mua tiếp sản phẩm B và C”
1 CÁC KHÁI NiỆM CƠ BẢN
Chương 3: Dãy phổ biến
Trang 3– Tập R các loại sự kiện.
– M ỗi sự kiện là một cặp (A, t), với
• A R là loại sự kiện (ví dụ loại tín hiệu báo động )
• t là một số nguyên xác định thời điểm xuất hiện của sự kiện
– C huỗi sự kiện S trên R là bộ ba (s, T s , T e )
• T s là thời điểm bắt đầu và T e là thời điểm kết thúc
• T s < T e là các số nguyên
• S = (AA 1 , t 1 ), (AA 2 , t 2 ), …, (AA n , t n )
• A i R và T s t i < T e với mọi i=1, …, n`
1 CÁC KHÁI NiỆM CƠ BẢN
(tt)
Trang 4Ví dụ chuỗi sự kiện:
• Trong đó :
– A, B, C, D: là các loại sự kiện
– 10…150 là các thời điểm xảy ra sự kiện
– S = (AD, 10), (AC, 20), …, (AA, 150)
– T (thời điểm bắt đầu) = 10 and T (thời điểm kết thúc) = 150
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
D C A B D A B C A D C A B D A
1 CÁC KHÁI NIỆM CƠ BẢN
(tt)
Trang 5định bằng quan hệ thứ tự.
2 DÃY PHỔ BiẾN TRONG MỘT CHUỖI
(Episode)
Trang 6Các thứ tự riêng phần phổ dụng như:
– Thứ tự toàn phần
• Các vị từ của mỗi episode có thứ tự cố định
• Các episodes như vậy được gọi là tuần tự (hay “có thứ tự")
– Các thứ tự riêng phần hiển nhiên
Trang 7Ví dụ:
Episode tuần tự
A
B
Episode song song
Trang 8Tên của phương pháp WINEPI xuất phát từ kỹ thuật
dùng cửa sổ truợt
Nhận xét:
– Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện
– Mỗi cửa sổ là một “khung ảnh" giống như một dòng của
CSDL
– Tập các “khung ảnh" tạo thành các dòng của CSDL
3 THUẬT TOÁN
WINEPI
Trang 9Ví dụ chuỗi dữ liệu sự kiện:
• Bề rộng cửa sổ là 40 giây
• Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối
3 THUẬT TOÁN WINEPI
(tt)
0 10 20 30 40 50 60 70 80 90
D C A B D A B C
Trang 10Cho tập E các loại sự kiện, chuỗi sự kiện S =
(s,T s ,T e) là một chuỗi có thứ tự các sự kiện )
event i sao cho event i event i+1 với mọi i=1, …,
n-1, và T s event i < T e với mọi i=1, …, n
Ts Te
t1 t2 t3 … … tn
event1 event2 event3 … … eventn
3 THUẬT TOÁN WINEPI
(tt)
Trang 11Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện chuỗi sự kiện S
S w =(w,t s ,t e ), với t s < T e , t e > T s , và w chứa các cặp (event, t) của s mà t s t < t e
Giá trị t s t < t e được gọi là bề rộng cửa sổ W
Trang 12Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi có thể vuơn ra ngoài chuỗi, do vậy cửa sổ đầu tiên chỉ chứa thời điểm đầu và cửa sổ cuối cùng chỉ chứa thời điểm cuối
Trang 13Tần suất (độ hỗ trợ với luật kết hợp) của episode là tỷ số giữa các cửa sổ có xuất hiện với tổng số các cửa sổ khả dĩ
|Sw W(S, W) | xuất hiện trong Sw |
Trang 14Khi tìm episodes cần sử dụng một ngưỡng tần
suất min_fr
Episode là phổ biến nếu fr(A, s, win) min_fr
Ví dụ, “nếu tần suất của vượt quá ngưỡng tần
suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với
bề rộng cửa sổ win"
F(s, win, min_fr): tập hợp các episodes phổ biến trong
s ứng với win và min_fr
s, thì tất cả các episodes con là phổ biến
3 THUẬT TOÁN WINEPI
(tt)
Trang 15Luật
Luật episode rule là biểu thức , với và là
các episodes sao cho là episode con của
Episode là episode con của ( ), nếu đồ thị biểu diễn là đồ thị con của đồ thị biểu diễn
Trang 16Phân số
fr(, S, W) : tần suất của toàn bộ episode
fr(, S, W) : tần suất của episode vế trái
là độ tin cậy của luật
Độ tin cậy được xem như xác suất điều kiện của toàn bộ của
xảy ra trong cửa sổ khi cho trước xảy ra trong cửa sổ đó.
3 THUẬT TOÁN WINEPI
(tt)
Trang 17Nhận xét:
– Các luật WINEPI giống luật kết hợp nhưng có thêm yếu tố thời gian:
Nếu sự kiện thỏa về trái của luật xuất hiện theo thứ
tự bên phải trong phạm vi W đơn vị thời gian, thì
cũng xuất hiện trong phần kết luận (vế phải ) xuất hiện trong vị trí được mô tả bởi quan hệ thứ tự ,
trong phạm vi W đơn vị thời gian.
3 THUẬT TOÁN WINEPI
(tt)
Trang 18Input: Tập R các loại sự kiện, chuỗi sự kiện S trên R, tập E các episodes, bề rộng
cửa sổ win, và nguỡng tần suất min_fr
Trang 19Bài toán: cho chuỗi sự kiện và episode, xác định episode có xuất
hiện trong chuỗi sự kiện đó không Tìm số các cửa sổ có chứa một lần xuất hiện của episode
Cách xử lý?
– Giống ý tưởng luật kết hợp
– Episode ứng viên là tổ hợp của hai episodes có kích thước nhỏ hơn
– Các episodes song song, episodes tuần tự
3 THUẬT TOÁN WINEPI
(tt)
Trang 20Ví dụ chuỗi dữ liệu sự kiện:
• Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây
• Chiều dài của chuỗi là 70 (10-80)
3 THUẬT TOÁN WINEPI
(tt)
0 10 20 30 40 50 60 70 80 90
D C A B D A B C
Trang 21Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U 1 -U 11 ):
• Nguỡng tần số được ấn định là 40%, ví dụ episode xảy ra
tối thiểu trong 5 của 11 cửa sổ.
3 THUẬT TOÁN WINEPI
Trang 22WINEPI Approach
3 THUẬT TOÁN WINEPI
(tt)
Trang 23Giả sử cần tìm tất cả các episodes song song:
– Đầu tiên, tạo singletons, ví dụ episodes song song có kích thuớc là 1 (AA,
B, C, D)
– Tiếp đến nhận dạng các singletons phổ biến (ở đây là tất cả )
– Từ các episodes phổ biến này, tạo các episodes ứng viên có kích thước
là 2: AB, AC, AD, BC, BD, CD
– Tiếp đến nhận dạng các episodes song song phổ biến(ở đây là tất cả)
– Từ các episodes phổ biến này, tạo các episodes phổ biến có kích thước
là 3: ABC, ABD, ACD, BCD
– Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn 4
cửa sổ
– Không có episodes ứng viên có kích thước là 4.
3 THUẬT TOÁN WINEPI
(tt)
Trang 24Tần suất Episode và các luật ví dụ với WINEPI:
Trang 25Một cách tiếp cận khác để khám phá episodes
– Không dùng cửa sổ trượt
– Đối với từng episode quan tâm tiền năng, tìm số lần xuất
hiện chính xác của episode.
Các tiện lợi:
Các tiện lợi: dễ sửa đổi các giới hạn thời gian, nhiều giới hạn
thời gian cho một luật :
“Nếu A và B xảy ra trong phạm vi 15 giây, thì C sẽ theo
sau trong phạm vi 30 giây"
Bất tiện:
Bất tiện: dùng nhiều khoảng trống
4 THUẬT TOÁN MINEPI
Trang 26Cho episode và chuỗi sự kiện S, khoảng [t s ,t e] là xuất
4 THUẬT TOÁN MINEPI
(tt)
Trang 27Ví dụ: Episode song song chứa các loại sự kiện
A và B có ba lần xuất hiện nhỏ nhất trong s là :
{[30,40], [40,60], [60,70]}, có một lần xuất hiện
trong s là : {[60,80]}
D C A B D A B C
A B
A B
C
4 THUẬT TOÁN MINEPI
(tt)
Trang 28• Luật Episode MINEPI cho xác suất điều kiện để tổ hợp các sự kiện ( tín hiệu báo động) xảy ra trong một thời khoảng khi cho trước tổ hợp khác các sự kiện khác đã xuất hiện trong thời khoảng
4 THUẬT TOÁN MINEPI
(tt)
Trang 29Độ tin cậy của luật [win1] [win2] là xác suất điều kiện để
được chỉ định bởi các luật:
4 THUẬT TOÁN MINEPI
(tt)
Trang 30Tần suất của luật [win1] [win2] là |mo()|,
với số lần luật thỏa trong CSDL
Xét ví dụ:
– Bài toán: tìm tất cả các episodes tuần tự
bằng cách dùng thời khoảng cực đại là 40
giây và kích thuớc cửa sổ là 10, 20, 30
and 40 giây Ngưỡng tần suất được gán
cho một lần xuất hiện
D C A B D A B C
0 10 20 30 40 50 60 70 80 90
4 THUẬT TOÁN MINEPI
(tt)
Trang 31– Sau đó, nhận dạng các singletons phổ biến (với ví dụ này là tất cả)
– Từ các episodes phổ biến này, tạo các episodes ứng viên có kích
thước là 2: AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC
4 THUẬT TOÁN MINEPI
(tt)
Trang 32Tìm tất cả các episodes tuần tự (2/3):
– Sau đó, dùng bảng đảo ngược để tạo xuất hiện nhỏ nhất
cho các ứng viên Ví dụ cho AB nhận tất cả các episodes con, có tên là A và B, rồi tính mo(AB) như sau:
• Đọc xuất hiện đầu tiên của A (30-30), và tìm xuất hiện đầu tiên theo sau B (40-40)
• Sau đó lấy xuất hiện thứ hai của A (60-60) và tìm xuất hiện đầu tiên sau B (70-70)
• Rồi tiếp tục với BA
4 THUẬT TOÁN MINEPI
(tt)
Trang 33Tìm tất cả các episodes tuần tự (3/3):
– Trong giai đoạn nhận dạng, chúng ta tìm tất cả episodes phổ biến và tạo các episodes ứng viên có kích thước 3 Lần nữa, hầu như tất cả các ứng viên đều phổ biến.
– Cuối cùng, thủ tục tương tự được lặp cho các ứng viên
có kích thước là 4 và tìm được các episodes xảy ra là
DCAB trong 10-40, DABC trong 50-80, CABD trong
20-50, CBDA trong 20-60, và BDAC trong 40-80
– Không tìm thấy các ứng viên có kích thước 5, do vậy thuật toán kết thúc.
4 THUẬT TOÁN MINEPI
(tt)
Trang 34Các xuất hiện (tuần tự ) tối thiểu + các tần suất trong dữ liệu ví dụ
D C A B D A B C
0 10 20 30 40 50 60 70 80 90
Trang 35IF D
THEN C
WITH [0] [10] 0.00 (0/2)
[0] [20] 0.50 (1/2) [0] [40] 1.00 (2/2)
Trang 36IF D
A B
Trang 37Khai phá luật Episode:
Khai phá luật Episode:
– Dựa trên kỹ thuật luật kết hợp
– Dữ liệu hướng thời gian
Hai cách tiếp cận:
– WINEPI với cửa sổ trượt
– MINEPI với việc tìm sự xuất hiện nhỏ nhất
Các tiếp cận được dùng cho các mục tiêu khác nhau
KẾT LUẬN