9Ë'Ө Name Blood Type Give Birth Can Fly Live in Water Class &KRWұS'/KXҩQOX\ӋQVDX 46 9Ë'Ө z 7ͅSOXͅW R1: Give Birth = no Can Fly = yes Birds R2: Give Birth = no Live in Water = yes Fishes
Trang 2Cho WұS các PүX ÿm phân OӟS WUѭӟF xây
GӵQJ mô hình cho WӯQJ OӟS
Trang 3*,Ӟ,7+,ӊ8
Ví Gͽ Phân OͳS :
Phân OӟS khách hàng (trong
ngân hàng) ÿӇ cho vay hay
không
'Ή ÿRiQ W͗ bào NKͩL u là lành
tính hay ác tính
Phân ORҥL giao GӏFK WKҿ tín GөQJ
là KӧS pháp hay gian OұQ
Phân OR̹L tin WF WKXͱF OƭQK YΉF
tài chính, WK͵L WL͗W JL̻L trí, WK͛
thao, «
'ӵ ÿRiQ khi nào sông có ONJ
&KX́Q ÿRiQ y khoa
ÿӏQK QJKƭD WUѭӟF
Tìm OXͅW phân OͳS cây TX\͗W ÿͣQK
KR͏F công WKF toán mô W̻ OͳS
Trang 4Mike Assistant Prof 3 no
Mary Assistant Prof 7 yes
Bill Professor 2 yes
Jim Associate Prof 7 yes
Dave Assistant Prof 6 no
Anne Associate Prof 3 no
Classification Algorithms
,)UDQN µSURIHVVRU¶
OR years > 6 7+(1WHQXUHG µ\HV¶
Classifier (Model)
Trang 59tGө6ӱGөQJP{KuQK
Classifier
Testing Data
Tom Assistant Prof 2 no
Merlisa Associate Prof 7 no
Joseph Assistant Prof 7 yes
Unseen Data (Jeff, Professor, 4)Tenured?
Trang 89Ë'Ө&Æ<48<ӂ7Ĉӎ1+
age?
<=30 >40
yes
31 40
Trang 10QK̽W có OͻL QK̽W cho quá trình phân OͳS
z Ĉӝ ÿR ÿӇ ÿiQK giá FKҩW OѭӧQJ phân chia là ÿӝ
ÿR Vӵ ÿӗQJ QKҩW
z Entropy (Information Gain)
z Information Gain Ratio
z Gini Index
Trang 11 C i,D WɪSFiFPɨXFͧD'WKX͙FO͛S& i Y͛LL ^«P`
|C i, D __'_OͱFOɉͣQJFͧDWɪS& i,D Yj'WɉɇQJͩQJ
p i Oj[iFVX̽Wÿ͛PͱWP̓XE̽WNǤFͿD'WKXͱFY͙OͳS& i
Thông tin NƒY͍QJÿʀSKkQO͛S P͙WPɨXWURQJ'Oj
) ( log )
1
i m
i
p D
Trang 125 log 14
5 14
9 log 14
9 )
5 , 9
Info(D)
24
&Æ<48<ӂ7Ĉӎ1+
7KX͙F tính A có các giá WUʈ :{a 1 , a 2 , «,a v }
Dùng WKX͙F tính A ÿʀ phân chia WɪS KXɢQ OX\ʄQ D
thành v WɪS con {D 1 , D 2 , «, D v }
Thông tin FɤQ WKLɼW ÿʀ phân chia D theo WKX͙F tính A :
) ( )
(
1
j v
Info
Ĉ͙ OͣL thông tin (information gain) GͱD trên phân
chia theo WKX͙F tính A :
) ( )
( D Info D Info
Trang 1335
2log5
2)3,2
I
04
0log4
04
4log4
4)0,4
I
971.05
2log5
25
3log5
3)2,3
5 ) 0 , 4 ( 14
4 ) 3 , 2 ( 14
5 )
Infoage
246 0 ) ( )
( )
( age Info D Info D
Suy ra :
Trang 14no yes excellent fair
yes
31 40
Trang 15&Æ<48<ӂ7Ĉӎ1+
Information Gain Ratio: C4.5
WKXӝF tính có QKLӅX giá WUӏ -> FҫQ FKXҭQ hóa ÿӝ
|
|
|
| )
D
D D
D D
SplitInfo v Dj
j j
&K͡ PͽF Gini FӫD WұS D ± gini(D) là :
YͳLSi OjW̿QVX̽WFͿDOͳS&i trong D
&KRWұS'/FӫDYtGөWDFygini(D) là :
459 0 14
5 14
9 )
(
2 2
D gini( (
Trang 16&Æ<48<ӂ7Ĉӎ1+
&Kʆ PͥF Gini (Gini index) :
7KXӝF tính A có các giá WUӏ :{a 1 , a 2 , «,a v}
Dùng WKXӝF tính A ÿӇ phân chia WұS KXҩQ OX\ӋQ D
thành v WұS con {D 1 , D 2 , «, D v }
&K͡ PͽF Gini FӫD phân chia D theo WKXӝF tính
A :
) ( )
( gini( ( Djj
D
D D
j
j A
) 2 , 3
( 14
5 ) 0 , 4
( 14
4 ) 3 , 2
( 14
5 )
giniage
Trang 179tGө*,1,,1'(;
Sau khi tính ÿӝ ÿR FKӍ PөF Gini GӵD
trên phân chia theo WKXӝF tính :
low yes fair yes
medium yes excellent yes
income student credit_rating buys_computer medium no fair yes
low yes excellent no medium yes fair yes medium no excellent no
Trang 18&Æ<48<ӂ7Ĉӎ1+
5 9ɢQÿɾTXiSKKͣSY͛L'/ (overfitting)
Overfitting
Trang 239Ë'Ө
Name Blood Type Give Birth Can Fly Live in Water Class
&KRWұS'/KXҩQOX\ӋQVDX
46
9Ë'Ө
z 7ͅSOXͅW
R1: (Give Birth = no) (Can Fly = yes) Birds
R2: (Give Birth = no) (Live in Water = yes) Fishes
R3: (Give Birth = yes) (Blood Type = warm) Mammals
R4: (Give Birth = no) (Can Fly = no) Reptiles
R5: (Live in Water = sometimes) Amphibians
z 6΅GͽQJWͅSOXͅWÿ͛[iFÿͣQKOͳSFKRFiFP̓XPͳL
sau :
Name Blood Type Give Birth Can Fly Live in Water Class
turtle cold no no sometimes ?
dogfish shark cold yes no yes ?
Trang 249Ë'Ө
Name Blood Type Give Birth Can Fly Live in Water Class
turtle cold no no sometimes ?
dogfish shark cold yes no yes ?
z 0үX ³OHPXU´ SKӫ EӣL OXұW R3, nên ÿѭӧF phân vào OӟS
³0DPPDOV´
z 0үX ³WXUWOH´ SKӫ EӣL Fҧ OXұW R4 và R5
z 0үX ³GRJILVK VKDUN´ không ÿѭӧF SKӫ EӣL EҩW NǤ OXұW
z Theo kích WḰͳF FͿD OXͅW : các OXͅW có WͅS ÿL͙X NL͟Q
OͳQ K˿Q V͕ có ÿͱ ́X tiên cao K˿Q
z Theo OXұW : các OXұW ÿѭӧF [ӃS KҥQJ theo ÿӝ ÿR FKҩW
OѭӧQJ OXұW KRһF theo ý NLӃQ chuyên gia
z Theo OͳS : gom các OXͅW WKXͱF cùng PͱW OͳS
z 1ӃX PӝW PүX ÿѭӧF SKӫ EӣL QKLӅX OXұW thì FKӑQ
OXұW có WKӭ KҥQJ cao QKҩW
z 1ӃX không SKӫ EӣL EҩW NǤ OXұW nào thì gán vào
OӟS PһF ÿӏQK
Trang 25*,Ӟ,7+,ӊ8
z 3Ḱ˿QJ pháp WUΉF WL͗S :
Trang 269Ë'Ө&Æ<48<ӂ7Ĉӎ1+
age?
no yes excellent fair
IF age ³ ´$1' student ³ yes ´
THEN buys_computer ³ yes ´
IF age ³«´
THEN buys_computer ³ yes ´
IF age ³!´$1' credit_rating ³ excellent ´7+(1
IF age ³!´$1' credit_rating ³ fair ´
THEN buys_computer ³\HV´
Trang 27*LӞ,7+,ӊ8
3KɉɇQJ pháp WUͱF WLɼS :
Rút trích OXɪW WUͱF WLɼS Wͫ DL : WKɪW toán SKͧ WXɤQ Wͱ
Các OXɪW ÿɉͣF K͍F WXɤQ Wͱ 0͗L OXɪW trong O͛S C i Vɺ SKͧ QKLɾX
PɨX FͧD C i QKɉQJ không SKͧ KRɴF SKͧ ít) PɨX FͧD các O͛S khác
Xây GͱQJ OXɪW :
%ɬW ÿɤX Wͫ OXɪW U͗QJ
6ͭ GͥQJ hàm Learn-One-Rule ÿʀ phát WULʀQ OXɪW
Thêm WKX͙F tính làm WăQJ FKɢW OɉͣQJ FͧD OXɪW ÿ͙ SKͧ
ÿ͙ chính xác)
/RɞL các PɨX Eʈ SKͧ E͟L OXɪW ra NK͏L DL
/ɴS OɞL quá trình trên cho ÿɼQ khi JɴS ÿLɾX NLʄQ GͫQJ (không
Trang 29/8Ұ748,1Ҥ3- ILA
z M.Tolun, 1998, ILA ± inductive learning
algorithm
z Xác ÿͣQK các OXͅW IF-THEN WUΉF WL͗S W WͅS
KX̽Q OX\͟Q (phát WUL͛Q OXͅW theo ḰͳQJ W
WͭQJ quát -> Fͽ WK͛
z 7ḰF KL͟Q YL͟F so sánh các giá WUͣ FͿD
WKXͱF tính trong WQJ E̻QJ con và tính Vͩ
O̿Q [X̽W KL͟Q.
z 7KXӝF tính có GҥQJ phi Vӕ giá WUӏ UӡL UҥF
58
7+8Ұ772È1,/$
z %ѭӟF 1 : Chia EҧQJ có FKӭD m PүX thành n EҧQJ con
( %ѭӟF 2 ÿӃQ EѭӟF 8 VӁ ÿѭӧF OһS OҥL cho PӛL EҧQJ
con)
z %ѭӟF 2 : KӣL WҥR Vӕ OѭӧQJ WKXӝF tính NӃW KӧS j=1
z %́ͳF 3 : Xét WQJ E̻QJ con, W̹R danh sách các WKXͱF
tính N͗W KͻS SK̿Q W΅ danh sách có j WKXͱF tính)
z %ѭӟF 4 : 9ӟL PӛL SKҫQ Wӱ trong danh sách trên, ÿӃP
Vӕ OҫQ [XҩW KLӋQ các giá WUӏ FӫD WKXӝF tính ӣ các dòng
FKѭD ÿiQK GҩX FӫD EҧQJ con ÿDQJ xét, QKѭQJ giá WUӏ
không ÿѭӧF [XҩW KLӋQ ӣ QKӳQJ EҧQJ con khác.
&KͥQ SK̿Q W΅ N͗W KͻS ÿҫX tiên có Vͩ O̿Q [X̽W KL͟Q
FͿD giá WUͣ WKXͱF tính QKL͙X QK̽W và ÿ͏W tên là
max-combination
Trang 307+8Ұ772È1,/$
z %ѭӟF 5 : 1ӃX max-combination = 0 thì j=j+1 và quay OҥL
EѭӟF 3
z %́ͳF 6 : Trong E̻QJ con ÿDQJ xét, ÿiQK G̽X các dòng
có [X̽W KL͟Q giá WUͣ FͿD max-combination
z %ѭӟF 7 : WҥR OXұW
z IF $1'WKXӝF tính = giá WUӏ (WKXͱF max-combination)
THEN giá WUӏ FӫD WKXӝF tính OӟS ӭQJ YӟL EҧQJ con ÿDQJ
xét
z %ѭӟF 8 :
z 1ӃX WҩW Fҧ các dòng ÿӅX ÿiQK GҩX
z 1ӃX còn EҧQJ con thì FKX\ӇQ qua EҧQJ con WLӃS theo
và OұS OҥL Wӯ EѭӟF 2
Trang 313 (5) /ӟQ Xanh lá cây 7Uө Yes
4 (7) /ӟQ Xanh lá cây &ҫX Yes
Trang 323 (5) /ӟQ Xanh lá cây 7Uө Yes
4 (7) /ӟQ Xanh lá cây &ҫX Yes
3 (5) /ӟQ Xanh lá cây 7Uө Yes
4 (7) /ӟQ Xanh lá cây &ҫX Yes
B4 : max-FRPELQDWLRQ ³FҫX´
%ÿiQKGҩXGzQJ
B7 : 5,)VKDSH ³FҫX´7+(1GHFLVLRQ ³<HV´
%FKX\ӇQTXDEҧQJFRQY às EҵWGҫXWӯ%
Trang 352. &KXҭQ Eӏ bài 4 : Phân OӟS Gӳ OLӋX
1 Hãy cho ELӃW chi WLӃW các EѭӟF FӫD SKѭѫQJ pháp phân OӟS GӵD trên
cây TX\ӃW ÿӏQK GӵD trên OXұW (ILA).
2 Cho cây TX\ӃW ÿӏQK EҥQ có 2 OӵD FKӑQ :
a) %LӃQ ÿәL cây thành OXұW sau ÿy ORҥL EӟW OXұW NӃW TXҧ
b) /RҥL EӟW nhánh FӫD cây, sau ÿy ELӃQ ÿәL cây thành OXұW.
Hãy cho ELӃW các ѭX WKӃ FӫD a) so YӟL b) ?
3 Cho WұS KXҩQ OX\ӋQ QKѭ trong ví Gө 1 ³PXD¶ ³NK{QJ mua máy
WtQK´
a) 6ӱ GөQJ chi PөF gini ÿӇ xây GӵQJ cây TX\ӃW ÿӏQK So sánh NӃW
TXҧ YӟL cây Vӱ GөQJ ÿӝ OӧL thông tin.
b) Áp GөQJ WKXұW toán ILA cho ví Gө 1, so sánh NӃW TXҧ YӟL WұS OXұW
rút ra Wӯ SKѭѫQJ pháp cây TX\ӃW ÿӏQK
c) Xác ÿӏQK OӟS cho PүXX = < age =<=30, income = medium,
ÿѭӧF.
Trang 364. Cho WұS KXҩQ OX\ӋQ QKѭ trong ví Gө 2.
a) Áp GөQJ SKѭѫQJ pháp cây TX\ӃW ÿӏQK lên ví Gө 2
(không V΅ GͽQJ FͱW WKXͱF tính name ÿ͛ phân chia
DL) và rút WұS OXұW Wӯ cây So sánh YӟL WұS OXұW ÿm có,
QKұQ xét
b) 6ӱ GөQJ WұS OXұW thu ÿѭӧF Wӯ cây TX\ӃW ÿӏQK ÿӇ xác
ÿӏQK OӟS cho các PүX PӟL sau So sánh NӃW TXҧ YӟL
YLӋF Vӱ GөQJ WұS OXұW ÿm có trong bài JLҧQJ
Name Blood Type Give Birth Can Fly Live in Water Class
Name Blood Type Give Birth Can Fly Live in Water Class
72
OӟS
Trang 37%¬,7Ұ33+Ҫ1
74
7¬,/,ӊ87+$0.+Ҧ2
1 C Apte and S Weiss Data mining with decision trees
and decision rules Future Generation Computer
Systems, 13, 1997
2 M Kamber, L Winstone, W Gong, S Cheng, and J
Han Generalization and decision tree induction:
Efficient classification in data mining In Proc 1997
Int Workshop Research Issues on Data Engineering
(RIDE'97), pages 111-120, Birmingham, England, April
1997
3 Mehmet R Tolun, Saleh M Abu-Soud ILA, an
inductive learning algorithm for rule extraction ESA
14(3), 4/1998, 361-370
Trang 38Q & A
... 352. &KXҭQ Eӏ : Phân OӟS Gӳ OLӋX
1 Hãy cho ELӃW chi WLӃW EѭӟF FӫD SKѭѫQJ pháp phân OӟS GӵD trên
cây... class="page_container" data- page="37">
%¬,7Ұ33+Ҫ1
74
7¬,/,ӊ87+$0.+Ҧ2
1 C Apte and S Weiss Data mining with decision... induction:
Efficient classification in data mining< /b> In Proc 1997
Int Workshop Research Issues on Data Engineering
(RIDE''97), pages 111-120, Birmingham,