ÔN TẬP LÝ THUYẾT VÀ BÀI TẬPBÀI 3: Episode và Luật Episode o Cho chuỗi S các tín hiệu báo động, episode a = V, £ xảy ra trong phạm vi S nếu có cách thỏa loại sự kiện ví dụ loại tín hiệu
Trang 1ÔN TẬP LÝ THUYẾT VÀ BÀI TẬP
BÀI 3: Episode và Luật Episode
o Cho chuỗi S các tín hiệu báo động, episode a = (V, £) xảy ra trong phạm vi S nếu
có cách thỏa loại sự kiện (ví dụ loại tín hiệu báo động) trong V dùng các tín hiệu báo động của S để thứ tự riêng phần £ được tôn trọng
o Nhận xét: episodes chứa các tín hiệu báo động có các tính chất nào đó và xày ra theo một thứ tự riêng phần nào đó.
Các thứ tự riêng phần phổ dụng như:
o Thứ tự toàn phần
Các vị từ của mỗi episode có thứ tự cố định
Các episodes như vậy được gọi là tuần tự (hay “có thứ tự")
o Các thứ tự riêng phần hiển nhiên
C
Episode vừa tuần
tự vừa song song
Episode
tuần tự
A B Episode song song
Trang 2Thuật toán WINEPI
• Cho tập E các loại sự kiện, chuỗi sự kiện S = (s,Ts,Te) là một chuỗi có thứ tự các sự kiện eventi sao cho eventi £ eventi+1 với mọi i=1, …, n-1, và Ts £ eventi < Te với mọi i=1, …, n
• Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện S=(w,ts,te), với ts < Te, te > Ts, và w chứa các cặp (event, t) của s mà ts £ t < te
• Giá trị ts £ t < te được gọi là bề rộng cửa sổ W
Trang 3• Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi vuơn ra ngoài chuỗi, do vậy cửa sổ đầu tiên chỉ chứa thời điểm đầu và cửa sổ cuối cùng chỉ chứa thời điểm cuối
• Tần suất (độ hỗ trợ với luật kết hợp) của episode a là tỷ số giữa các cửa số có xuất hiện với
tổng sổ các cửa sổ khả dĩ
Với W(S, W) là tập tất cả các cửa số Sw của chuỗi S sao cho bề rộng cửa sổ là W
• Khi tìm episodes cần sử dụng một ngưỡng tần suât min_fr
• Episode a là phổ biến nếu fr(a, s, win) ³ min_fr, ví dụ, “nếu tần suất của a vượt quá nguỡng tần suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với bề rộng cửa sổ win"
• F(s, win, min_fr): tập hợp các episodes phổ biến trong s ứng với win và min_fr
• Meo Apriori: Nếu episode a là phổ biến trong chuỗi sự kiện s, thì tất cả các episodes con b p
a là phổ biến
• Luật episode rule là biểu thức b Þ g, với b và g là các episodes sao cho b là episode con của g
• Episode b là episode con của g (b p g), nếu đồ thị biểu diễn b là đồ thị con của đồ thị biểu diễng
A B
C
g :
A B b:
A B b:
A B
C
g :
A B
C
g :
Trang 4• Nhận xét:
– Các luật WINEPI giống luật kết hợp nhưng có thêm yếu tố thời gian:
Nếu sự kiện (tín hiệu báo động) thỏa về trái của luật xuất hiện theo thứ tự bên phải trong phạm
vi W đơn vị thời gian, thì cũng xuất hiện trong phần kết luận (vế phải ) xuất hiện trong vị trí được
mô tả bởi quan hệ thứ tự £, trong phạm vi W đơn vị thời gian.
phần thân Þ kết luận [bề rộng cửa sổ ] (f, c)
Bài toán đầu tiên: cho chuỗi và episode, xác định episode có xuất hiện trong chuỗi.
• Tìm số các cửa sổ có episode xuất hiện
• Các cửa sổ liền nhau có nhiều phần chung
• Cách xử lý?
– Thuật toán tăng cường (incremental algorithm)
– Giống ý tưởng luật kết hợp
Phân số
fr(g, S, W) = tần suất của toàn bộ episode
fr(b, S, W) = tần suất của episode về trái
là độ tin cậy của luật WINEPI episode
Độ tin cậy được xem như xác suất điều kiện của toàn bộ của g xảy ra trong cửa sổ khi cho trước b xảy
ra trong cửa sổ đó
Thuật toán winEpi
• Input : Tập R các loại sự kiện/th báo động , chuỗi sự kiện s trên R, tập E các episodes, bề
rộng cửa sổ win, và nguỡng tần suất min_fr
• Output : Tập hợp F(s, win, min_fr)
Trang 5Bài tập 1 :
Ví dụ về WINEPI (slide 22 – tài liệu giảng của Thầy Phúc)
Chiều dài chuổi là 70 giây, bắt đầu từ giây 10, kết thúc giây 80
Bề rộng cửa sổ là 40 giây, mỗi bước di chuyển khoảng cách 10 giây, cửa sổ đầu tiên chỉ chứa 1 sự kiện đầu tiên và cửa sổ cuối cùng chỉ chứa 1 sự kiện cuối cùng
Minfr=0.4
Giải
1 Tìm các cửa sổ trượt qua chuỗi tín hiệu
W6 W7 W8 W9
W11 W10
Trang 6Bề rộng cửa số là 40 giây, bước dịch chuyển là 10 giây Chiều dài của chuỗi sự kiện là 70 giây (10 đến 80) Bằng cách trượt cửa sổ, ta thu được 11 cửa sổ :
Cửa sổ Wi Khoảng thời gian/cửa sổ Nội dung của Wi
2 Tìm các Eps song song phổ biến và luật Eps
Cửa sổ Wi Khoảng thời gian/cửa sổ Nội dung của Wi
W3 [ 0, 40 ] [ _, D, C, A ] { A,C,D}, { AC, AD, CD},{ACD}
W4 [ 10, 50 ] [ D, C, A, B ] {A, B, C, D},{AB, AC, AD, BC, BD, CD},
{ABC, ABD, ACD, BCD}, {ABCD}W5 [ 20, 60] [ C, A, B, D ] {A, B, C, D},{AB, AC, AD, BC, BD, CD},
{ABC, ABD, ACD, BCD}, {ABCD}
W8 [ 50, 90] [ D, A, B, C ] {A, B, C, D},{AB, AC, AD, BC, BD, CD},
{ABC, ABD, ACD, BCD}, {ABCD}
Dựa vào bảng trên ta thấy Eps một phần tử đều xuất hiện nhiều hơn 5 cửa sổ và thỏa minfr
Tập các Eps phổ biến một phần tử L1 = {A,B,C,D}
Trang 7Tập cá Eps 2 phần tử được tạo ra từ tập Eps phổ biến 1 phần tử
Dựa vào bảng trên thì các Eps 2 phần tử đều thỏa vì xuất hiện từ 5 cửa sổ trở lên thỏa minfr
Tập các Eps phổ biến 2 phần tử L2 = {AB, AC, AD, BC,BD,CD}
Từ L2 ta có C3 = {ABC, ABD, ACD, BCD}
Số lần xuất hiện trong cửa sổ 3 5 4 3Tương tự ta thấy chỉ có {ABD} xuất hiện trong 5 cửa số nên tập các Eps phổ biến 3 phần tử
Để tìm ra những luật có độ tin cậy là 100% thì (vế trái) (vế phải) nghĩa là tập các cửa
sổ có chứa vế trái là tập con của các cửa sổ chứa vế phải
Luật Kết Hợp (S1) (vế trái) (S2} (vế phải) (S1) (S2) Kết quả
Trang 8B Þ AD W4,5,6,7,8,9,10 W3,4,5,6,7,8 (B) (AD) Loại
D Þ AB W1,2,3,4,5,6,7,8 W4,5,6,7,8,9 (D) (AB) Loại
Chỉ có duy nhất một luật Eps song song thỏa minconf = 1 là : BD Þ A
3 Tìm các Eps tuần tự phổ biến và luật Eps (bài giải của Lâm Bình)
a Tìm các Eps tuần tự
Tương tự cách tìm Eps song song, nhưng Eps tuần tự quan tâm đến thứ tự trước sau giữa các sự kiện
Ban đầu cũng có 4 Eps tuần tự phổ biến một phần tử giống như Eps phổ biến song song một phần
tử (đương nhiên vì một phần tử thì không phân biệt trước hay sau)
Trong đó có 3 ứng viên ADB, BAD và DBA không xuất hện ở cửa sổ nào => loại
Tiếp tục vẽ các ứng viên còn lại lên hình 2, ta có hình 3
Hình 3 cho thấy tất cả các ứng viên đều tham gia ít hơn 5 cửa sổ, không thỏa minsupp
Trang 9b Tìm luật Eps tuần tự
Từ các Eps tuần tự phổ biến tối đại, rút ra các luật dạng vế_trái => vế_phải
- Có 11 cửa sổ duyệt qua chuỗi tín hiệu có 8 sự kiện.
- Tập các Eps song song phổ biến L={A, B, C, D, AB,AC,AD,BC,BD,CD, ABD} với {ABD} là Eps song song phổ biên tối đại.
- Có duy nhất một luật BD => A được dẫn ra từ Eps song song phổ biến tối đại có độ tin cậy
Trang 10BÀI 4: Phân lớp dữ liệu
1 Phân lớp là gì ?
Phân lớp dữ liệu là tiến trình có 2 bước
Hu ấ n luy ệ n : Dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp ( có thuộc tính nhãn lớp)
Phân l ớ p : Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp Nếu
độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới
Đ ộ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng
2 Phân lớp trên cây quyết định (ID3)
a Cây quyết định là cấu trúc cây sao cho:
Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính
Mỗi nhánh biểu diễn kết quả phép kiểm tra
Các nút lá biểu diễn các lớp hay các phân bố lớp
Nút cao nhất trong cây là nút gốc
ví dụ
sampl test of number total
sample test
classified correctly
Accuracy
Trang 11HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 11/26
Trang 12Đặt
P và N là hai lớp (P có n phần tử và N có n phần tử)
S là tập học
Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác định bởi:
Giả sử thuộc tính A được chọn để phân hoạch S thành các tập hợp {S1 , S2,… Sv} Nếu Si chứa pi
mẫu của lớp P và ni mẫu của lớp N thì Entropy (E) cần để phâ loại các đối tượng trong cây con Si
là :
Độ lợi thông tin của nhánh A là :
b Thuật toán ID3
Ý nghĩa : thuật toán ID3 là một thuật toán học trên cây quyết định dược phát triển bởi Ross
Quilan(1983) Ý tưởng cơ bản của thuật toán ID3 là tạo cây quyết định bằng việc sử dụng cách tìm kiếm từ trên xuống trên tập học Độ lợi thông tin đựoc sử dụng để chọn thuộc tính có khả năng phânloại tốt nhất Thuật toán ID3 được trình bày sau đây :
Thuật toán tạo cây quyết định bao gồm các bước sau ( Sách Giáo trình khai thác dữ liệu)
Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia để trị
Bước 2: Ban đầu các mẫu học đều nằm ở gốc
Bước 3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạc hóa )
Bước 4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọn lựa
Bước 5: Kiểm tra những thuộc tính được chọn dựa trên Heristic hay của một tiêu chuẩn
thống kê
Điều kiện dừng để phân chia tập học :
a Tất cả những mẫu học đối với một nút cho trước đều cùng một lớp
b Không còn thuộc tính nào để phân chia tiếp
c Không còn mẫu học
Độ lợi thông tin (information gain) :
Là đại lượng được dùng để chọn thuộc tính nhằm phân chia tập học Thuộc tính được chọn
là thuộc tính có độ lợi thông tin lớn nhất
n p
n n
p
p n
p I
n log
n p
p - ) , (
),I(pnp
np )
1 i
i i
i
n A
Trang 13HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 13/26
Thuật toán ID3(S, D, A)
Vào : Tập học S ; Thuộc tính quyết định D, tập thuộc tính A
Ra : nút gốc cùa Cây_Quyết_định
Begin
Tạo “nút gốc” cho cây quyết định
if tất cả mẫu học của S đều có trị của D là P, trả về cây có một nút duy nhất là Nút_gốc với nhãn “P”
if tất cả mẫu học của S đều có trị của D là N, trả về cây có một nút duy nhất là Nút_gốc với nhãn “N”
if A là rỗng, trả về cây có nút duy nhất là Nút_gốc với nhãn là trị phổ biến nhất của
D trong tập mẫu
Gọi X là thuộc tính của A phân lớp S tốt nhất //tính độ lợi
Gán X vào thuộc tính quyết định D của Nút_gốc
For each trị v của X
Thêm một nhánh cây mới dưới Nút_gốc ứng với X = v
Gọi Sv là tập con của v trị của X là v
Trang 14Bài tập 1: Câu 2: Cho bảng quyết định sau (4 điểm) (đề thi khóa 1)
S={o1, o2, o3, o4, o5, o6, o7, o8}
Thuộc tính quyết định D là {A, B}
Tập thuộc Vóc dáng có miền giá trị {nhỏ, lớn}
Tập thuộc Quốc tịch có miền giá trị {Đức, Pháp, Ý}
Tập thuộc Gia cảnh có miền giá trị {Độc thân, Có gia đình}
0.53 5
3
5 log 5 3
5 5
3
3 log 5 3
3 - ) 5 , 3
E(Vóc dáng) = 3/8 * I(1,2) + 5/8 * I(2,3) = 0.891
Gain(Vóc dáng) = I(3,5) - E(Vóc dáng) = 0.06
Trang 15Bước 2 : Bảng quyết định của thuộc tính “Vóc dáng” và “Gia cảnh” theo Quốc tịch có miền giá trị
b Tính Entropy cho thuộc tính
Chọn thuộc tính có độ lợi thông tin lớn nhất đó là “Gia cảnh”
Cây quyết định cho thuật toán ID3 tạo ra
2 log 2 2
2 2
2
2 log 2 2
2 - ) 2 , 2
Trang 16Rút luật từ cây quyết định :
a IF Quốctịch Pháp THEN nhóm A
b IF Quốctịch Ý THEN nhóm B
c IF Quốctịch Đức và Giacảnh độc thân THEN nhóm A
d IF Quốctịch Đức và Giacảnh có gia đình THEN nhóm B
Ta có thể rút gọn lại luật như sau :
a IF Quốctịch Pháp THEN nhóm A
b ELSE IF Quốctịch Ý THEN nhóm B
c ELSE IF Giacảnh độc thân THEN nhóm A ELSE nhóm B
Bài tập 2:
Sử dụng cây định danh để tìm các luật phân lớp từ bảng quyết định sau đây:
Bạn có suy nghĩ gì về việc dùng luật kết hợp để làm luật phân lớp
Bảng dữ liệu lúc đó sẽ có các cột <Trời, Trong>, <Trời, mây>, < Ápsuất, Cao> < Ápsuất,trungbình>, <Ápsuất, Thấp>
Giải :
S={1, 2, 3, 4, 5, 6, 7, 8}
Thuộc tính quyết định D là {Mưa, Không mưa}
Tập thuộc Trời có miền giá trị {Trong, Mây}
Tập thuộc Áp suất có miền giá trị {Cao, Trung bình, Thấp }
Tập thuộc Gió có miền giá trị {Bắc, Nam}
Đặt P là lớp {Mưa} , N là lớp {Không mưa}
Trang 17Bước 1:
a Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác địnhbởi :
b Tính Entropy cho thuộc tính
Chọn thuộc tính có độ lợi thông tin lớn nhất đó là “Trời”
Cây quyết định cho thuật toán ID3 tạo ra : nútgốc là “Trời”
Bước 2 : Bảng quyết định của thuộc tính “Áp suất” và “Gió” theo Trời có miền giá trị {mây} là :
a Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác
định bởi :
.Cả hai thuộc tính đều có độ lợi thông tin bằng nhau nên chọn ngẫu nhiên thuộc tính đó là “Gió”
1 4 4
4 log 4 4
4 4
4
4 log 4 4
4 - ) 4 , 4
E(Trời) = 3/8 * I(0,3) + 5/8 * I(4,1) = 0.74
Gain(Trời) = I(4,4) - E(Trời) = 0.26
4
1 log 1 4
1 1
4
4 log 1 4
4 - ) 1 , 4
E(Gió) = 3/5 * I(3,0) + 2/5 * I(1,1) = 0.4
Gain(Gió) = I(4,1) - E(Gió) = 0.34
Trang 18Cây quyết định cho thuật toán ID3 tạo ra : nútgốc là “Gió”
Tương tự ta còn 2 tập học đó là 2 và 7 nên ta dựa vào thuộc tính Áp suất Do đó ta có cây quyết định dựa vào thuật toán ID3 như sau :
Rút luật từ cây quyết định :
a IF Trời trong THEN Không mưa
b IF Trời mây và Gió Bắc THEN mưa
c IF Trời mây và Gió Nam và Áp suất cao THEN mưa
d IF Trời mây và Gió Nam và Áp suất thấp THEN không mưa
Ta có thể rút gọn lại luật như sau :
a IF Trời mây AND (Gió Bắc OR Áp Suất cao) THEN Mưa
b ELSE Không mưa
Trang 193 Phân lớp Bayes
X là mẫu dữ liệu chưa biết nhãn lớp
H là giả thuyết sao cho X thuộc về lớp C
Ấn định xác suất hậu nghiệm posterior probability P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X)
Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tả bằng màu sắc và hình dáng
- Giả sử X là màu đỏ và tròn
- H là gỉa thuyết mà X là quả táo
- Thì P(H|X) phản ánh độ tin cậy X là quả táo khi biết trước X có màu đỏ và tròn
Khi có n giả thuyết :
Mỗi mẫu dữ liệu được biểu diễn bằng X = (x1, x2,…, xn) với các thuộc tính A1, A2,
Nếu m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci) NBC giả định độc lớp điều kiện lớp
Có thể phỏng tính P(x1|Ci), …, P(xn|Ci) từ các mẫu huấn luyện
Nếu Ak được phân lớp thì P(xk|Ci) = sik/si với sik là số mẫu huấn luyện của Ci có trị xkcho Ak và si là số các mẫu thuộc về lớp Ci
Nếu Ak là liên tục thì nó được giả định có phân bố Gaussian
Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci Sau đó mẫu X được gán vào Ci if P(Ci|X) > P(Cj|X) for 1 £ j £ m, j ¹ i
Nói cách khác, NBC gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại
))P(HH
|P(X
))P(HH
|P(XX)
|P(H
P(X)
))P(CC
|P(XX)
|
)C
|P(x)
2 i C k
i i
i
2σ ) μ (x
C C
C k i
2
1)σ,μ,g(x)C
|P(x
Trang 20Bài tập 1: dùng thuật toán Bayes
Giải bài tập 2 đề thi khóa 1
tìm các luật phân lớp của bảng quyết định trên với
- Tập thuộc tính điều kiện là {Vóc dáng, Quốc tịch, Gia cảnh}
R3: IF Gia cảnh có gia đình THEN nhóm B
Áp Dụng định lý bayes, Tính xác suất có điều kiện và lấy tổng các trở ngại các mẫu
X1= <Nhỏ, Đức, Độc Thân>
Trang 21 Do P(X1|p) P(p) > P(X1|n) P(n) nên mẫu X1 được đưa vào nhĩm A
X2= <Lớn , Đức, Độc Thân>
P(X2|p) P(p) = P(Lớn | p) P(Đức | p) P(Độc thân | p) P(p) = 1/3 2/3 3/3 3/8 = 0.17
P(X2|n) P(n) = P(Lớn | n) P(Đức | n) P(Độc thân | n) P(n) = 2/5 2/5 2/5 5/8 = 0.06
Do P(X2 |p) P(p) > P(X2 |n) P(n) nên mẫu X2 được đưa vào nhĩm A
Ta rút ra được các luật như sau :
R1: IF Quốc tịch Pháp THEN nhĩm A
R2: IF Quốc tịch Ý THEN nhĩm B
R3: IF Gia cảnh cĩ gia đình THEN nhĩm B
R4: IF Vĩc dáng nhỏ AND Quốc tịch Đức AND Gia cảnh cĩ gia đình THEN nhĩm A
R5: IF Vĩc dáng lớn AND Quốc tịch Đức AND Gia cảnh cĩ gia đình THEN nhĩm A
Bài tập 2: Nạve Bayes để tìm luật phân lớp trong bảng sau đây.
T T
Màu tĩc
Chiều cao Cân nặng Dùng
thuốc?
Kết quả
1 Đen Tầm thước Nhẹ Khơng Bị rám
2 Đen Cao Vừa phải Cĩ Khơng
3 Râm Thấp Vừa phải Cĩ Khơng
4 Đen Thấp Vừa phải Khơng Bị rám
5 Bạc Tầm thước Nặng Khơng Bị rám
7 Râm Tầm thước Nặng Khơng Khơng
Trang 22Xét các mẫu chưa thấy:
X1= <Đen, tầm thước, nhẹ, không dùng thuốc)
P(X1/rám).P(p)=P(đen/rám).P(tầm thước/rám).P(nhẹ/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 * 2/3 * 1/3 * 3/3 * 3/8 = 0.55
P(đen/không rám).P(tầm thước/ không rám).P(nhẹ/không rám).P(không dùng thuốc/không
rám).P(không rám)
= 2/5 * 1/5 * 1/5 * 2/5 * 5/8 = 0.004
Mẫu X1 được phân vào lớp rám
X2= <Đen, tầm thước, nặng vừa, không dùng thuốc)
P(X1/rám).P(p)=P(đen/rám).P(tầm thước/rám).P(nặng vừa/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 * 2/3 * 1/3 * 3/3 * 3/8 = 0.55
P(đen/không rám).P(tầm thước/ không rám).P(nặng vừa/không rám).P(không dùng thuốc/không rám).P(không rám)
= 2/5 * 1/5 * 2/5 * 2/5 * 5/8 = 0.008
Mẫu X2 được phân vào lớp rám
X3= <Đen, tầm thước, nặng, không dùng thuốc)
P(X1/rám).P(p)=P(đen/rám).P(tầm thước/rám).P(nặng/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 * 2/3 * 1/3 * 3/3 * 3/8 = 0.55
P(đen/không rám).P(tầm thước/ không rám).P(nặng /không rám).P(không dùng thuốc/không
rám).P(không rám)
= 2/5 * 1/5 * 2/5 * 2/5 * 5/8 = 0.008
Mẫu X3 được phân vào lớp rám
X4= <Đen, thấp, nhẹ, không dùng thuốc)
Mẫu X4 được phân vào lớp rám
X5= <Đen, thấp, nặng vừa, không dùng thuốc)
Mẫu X5 được phân vào lớp rám
X6= <Đen, thấp, nặng, không dùng thuốc)