Phân OӟS : Cho WұS các PүX ÿm phân OӟS WUѭӟF xây GӵQJ mô hình cho WӯQJ OӟS... khi có yêu FҫX phân OӟS PүXÿӕL WѭӧQJ PӟLz Ĉ́D P̓XÿͩL ẂͻQJ vào OͳS mà J̿Q YͳL chúng QK̽W... z 6ӵ phân Eӕ FӫD
Trang 3*,Ӟ,7+,ӊ8
1 Phân OӟS :
Cho WұS các PүX ÿm phân OӟS WUѭӟF xây
GӵQJ mô hình cho WӯQJ OӟS
Trang 41 Phân OӟS theo mô hình xác VXҩW :
'ӵ ÿRiQ xác VXҩW hay Gӵ ÿRiQ xác
VXҩW là thành viên FӫD OӟS
1͙Q W̻QJ : GΉD trên ÿͣQK lý Bayes
Cho X, Y là các EL͗Q E̽W NǤ ( U͵L U̹F
Vͩ F̽X trúc, «) 'Ή ÿRiQ Y W X
/ѭӧQJ giá các tham Vӕ FӫD P(X | Y) , P(Y)
WUӵF WLӃS Wӯ WұS DL KXҩQ OX\ӋQ
6ӱ GөQJ ÿӏQK lý Bayes ÿӇ tính P(Y | X=x)
Trang 52 ĈӏQKOê%D\HV
) x ( P
) y ( P ) y
| x ( P ) x
| y ( P
Trang 6ĈӏQK QJKƭD : X ÿӝF OұS ÿLӅX NLӋQ YӟL Y khi cho Z QӃX
phân Eӕ xác VXҩW trên X ÿӝF OұS YӟL các giá WUӏ FӫD Y
khi cho các giá WUӏ FӫD Z
9tGͽ
36̽PVpW| 0́D&KͳS 36̽PVpW| &KͳS
*,Ӟ,7+,ӊ8
Trang 7ÿ{L PͱW YͳL nhau khi cho OͳS C
Khi ÿy : ta FҫQ xác ÿӏQK xác VXҩW P(Ci|X) OӟQ
)
|()
|(1
)
|()
|
(
2
1 Ci P x Ci P x Ci x
P n
k P x Ci Ci
P
n k
X
)(
)()
|()
|(
X
X X
C P i C P i
C P
( max arg
Trang 8( max arg
16
7UѭӡQJKӧS;± JLiWUӏUӡLUҥF
*Lҧ Vӱ :
X = <x1, ,xn>
xi QKұQ các giá WUӏ UӡL UҥF
Khi ÿy : /ѭӧQJ giá P(Ci) và OѭӧQJ giá
P(Xk|Ci) theo công WKӭF
D i C
k
x D i
C i
C k x P
,
} { ,
# )
| (
D
D i
C i
C
Trang 9x D i
C i
C k x P
,
1 } { ,
# )
| (
m D
D i
C i
C
P
1 ,
Cho WұS Gӳ OLӋX KXҩQ OX\ӋQ :
Outlook Temperature Humidity Windy Play?
sunny hot high strong No
overcast hot high weak Yes
rain cool Normal weak Yes
rain cool normal strong No
overcast cool normal strong Yes
sunny cool normal weak Yes
rain mild normal weak Yes
sunny mild normal strong Yes
overcast mild high strong Yes
overcast hot normal weak Yes
rain mild high strong No
Trang 10B1 : ѬӟF OѭӧQJ P(C i ) YӟL C 1 = ³\HV´ C 2 = ³QR´ và
P(x k |C i )
Ta thu ÿѭӧF P(C i ) :
9ӟL WKXӝF tính Outlook, ta có các giá WUӏ : sunny,
overcast, rain Trong ÿy P(sunny|C i ) là :
P(C 1 ) = 9/14=0.643 P(C 2 ) = 5/14=0.357
Trang 11B2 : Phân OӟS
X new = < Outlook=sunny, Temp = cool, Humidity =
high, Windy = strong>
Hãy xác ÿӏQK OӟS cho PүX PӟL sau :
Humidity = high, Windy = strong>
%jLWұSFiQKkQ
Trang 12P(hot | y) = 3/12 P(hot | n) = 3/8 P(mild | y) = 5/12 P(mild | n) = 3/8 P(cool | y) = 4/12 P(cool | n) = 2/8
Humidity
P(high | y) = 4/11 P(high | n) = 5/7 P(normal | y) = 7/11 P(normal | n) = 2/7
Windy
P(strong | y) = 4/11 P(strong | n) = 4/7 P(weak | y) = 7/11 P(weak | n) = 3/7
X new = < Outlook =overcast , Temp = cool, Humidity
= high, Windy = strong>
Ta tính theo công WKӭF làm WUѫQ Laplace :
Trang 13) (
2
1 )
, , (
x
e x
g
) ,
, ( )
|
(
i
i C C
k x g Ci
Trang 14khi có yêu FҫX phân OӟS PүXÿӕL WѭӧQJ PӟL
z Ĉ́D P̓XÿͩL ẂͻQJ vào OͳS mà J̿Q YͳL chúng QK̽W
Trang 16X D
1
2) (
) , (
Các WKXӝF tính có PLӅQ giá WUӏ khác nhau
-> &̿Q FKX́Q hóa giá WUͣ WKXͱF tính
No of credit cards=2
Trang 17z &ҫQ SKҧL FKXҭQ hoá Gӳ OLӋX : ánh [ҥ các giá WUӏ
vào ÿRҥQ [0,1] theo công WKӭF :
YͳL : v i là giá WUͣ WKΉF W͗ FͿD WKXͱF tính i
a i là giá WUͣ FͿD WKXͱF tính ÿm FKX́Q hóa
i i
i i
i
v v
v v
a
minmax
Trang 19z 6ӵ phân Eӕ FӫD các OӟS
z Chi phí phân OR̹L sai
zĈiQK giá WKӵF thi
z 7ұS trung vào NKҧ QăQJ Gӵ ÿRiQ FӫD mô
hình KѫQ là WӕF ÿӝ phân ORҥL hay xây GӵQJ
a: TP (true positive) b: FN (false negative)
c: FP (false positive) d: TN (true negative)
Trang 20d (TN)
FN FP
TN TP
TN TP d
c b a
d a
a p
r rp
b a a
c a a
2
2 2
(F) measure -
F
(r) Recall
(p) Precision
Trang 21 Dùng SKѭѫQJ pháp Oҩ\ PүX sao cho PӛL OӟS ÿѭӧF
phân Eӕ ÿӅX trong Fҧ 2 WұS DL KXҩQ OX\ӋQ và WKӱ
QJKLӋP
/ҩ\ PүX QJүX nhiên : WKӵF KLӋQ holdout k OҫQ và ÿӝ
chính xác acc(M) = trung bình FӝQJ k giá WUӏ chính
xác
Trang 22pháp Oҩ\ PүX ÿӇ phân Eӕ các OӟS trong
WӯQJ WұS con QKѭ trên toàn Eӝ DL.
44
7Ï07Ҳ7
¾ Phân O͛S là hình WKͩF phân tích DL ÿʀ rút ra
các mô hình mô Wɠ các O͛S DL quan WU͍QJ
¾ 1KLɾX WKXɪW toán KLʄX TXɠ ÿɉͣF phát WULʀQ.
¾ Không WKXɪW toán nào YɉͣW WU͙L QKɢW cho P͍L
WɪS DL
¾ Các YɢQ ÿɾ QKɉ ÿ͙ chính xác, WK͝L gian KXɢQ
OX\ʄQ tính linh KRɞW NKɠ QăQJ co giãn,« FɤQ
quân tâm và nghiên FͩX sâu KɇQ
Trang 233. &KXҭQ Eӏ bài 5 : Gom nhóm Gӳ OLӋX
6ӱGөQJWKXұWWRiQN-N Yj6ӱGөQJWKXұWWRiQN-N ÿӇ[iF
ÿӏQKOӟSFKR³&KkX´
6RViQKNӃWTXҧ
Trang 241. Cho WұS KXҩQ OX\ӋQ QKѭ trong ví Gө 1 FӫD bài 5-P1
³PXD´´NK{QJ mua máy WtQK´ Áp GөQJ WKXұW tốn
Nạve Bayes cho ví Gө 1 và xác ÿӏQK OӟS cho PүX
PӟL : X= (<=30, medium, yes, fair)
So sánh YӟL NӃW TXҧ phân OӟS Vӱ GөQJ cây TX\ӃW
>40 low yes excellent no
« low yes excellent yes
>40 medium yes fair yes
<=30 medium yes excellent yes
« medium no excellent yes
>40 medium no excellent no
7ұS'/KXҩQOX\ӋQYtGө± bài 5-P1
Trang 253 Cho WұS KXҩQ OX\ӋQ sau :
a) 6ӱ GөQJ WKXұW tốn k-NN ÿӇ xác ÿӏQK OӟS cho ³7X\ӃQ´ YӟL
k = 3, KRһF 5, KRһF 7 So sánh NӃW TXҧ thu ÿѭӧF.
b) &KXҭQ hĩa DL và xác ÿӏQK OӟS cho ³'NJQJ´ So sánh NӃW TXҧ
YӟL câu a).
c) Tìm SKѭѫQJ pháp ELӃQ ÿәL WұS DL bên YӅ GҥQJ cĩ WKӇ áp
GөQJ SKѭѫQJ pháp cây TX\ӃW ÿӏQK ILA, Nạve Bayes Áp
GөQJ PӝW trong 3 SKѭѫQJ pháp ÿy lên DL ÿm ELӃQ ÿәL ÿӇ
xác ÿӏQK OӟS cho ³'NJQJ´ So sánh NӃW TXҧ YӟL câu a).
4 So sánh ѭX ÿLӇP NKX\ӃW ÿLӇP FӫD các SKѭѫQJ pháp phân
OӟS GӵD trên cây TX\ӃW ÿӏQK GӵD trên OXұW xác VXҩW và GӵD
trên WKӇ KLӋQ
Trang 262. J.Han, M.Kamber, &KѭѫQJ 7 ± Data mining :
Concepts and Techniques
http://www.cs.sfu.ca/~han/dmbook
2 nd
3. P.-N Tan, M Steinbach, V Kumar, &KѭѫQJ 4
-Introduction to Data Mining
http://www-users.cs.umn.edu/~kumar/dmbook/ch4.pdf
Trang 27Q & A
... class="page_container" data- page="22">pháp Oҩ\ PүX ÿӇ phân Eӕ OӟS trong
WӯQJ WұS QKѭ tồn Eӝ DL.
44
7Ï07Ҳ7
¾ Phân O͛S hình WKͩF phân. .. class="text_page_counter">Trang 19
z 6ӵ phân Eӕ FӫD OӟS
z Chi phí phân OR̹L sai
zĈiQK... class="text_page_counter">Trang 26
2. J.Han, M.Kamber, &KѭѫQJ ± Data mining :
Concepts and Techniques
http://www.cs.sfu.ca/~han/dmbook