ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT
Trang 1B ăGIÁOăD CăVÀOă ÀOăT O
NGăD NGăKHAIăPHỄăD ăLI U
CH NăNGÀNHăNGH ăCHOăH CăSINHăTHPT
LU NăV NăTH CăS ăKHOAăH CăMỄYăTệNH
TP.ăH ăCHệăMINHă- 2014
Trang 2B ăGIÁOăD CăVÀOă ÀOăT O
NGăD NGăKHAI PHÁ D ăLI U
CH NăNGÀNHăNGH CHOăH CăSINHăTHPT
CHUYểNăNGÀNH:ăKHOAăH CăMÁYăTệNH
MẩăS :ă60.48.01
LU NăV NăTH CăS KHOAăH CăMỄYăTệNH
TS.ăVÕă ÌNHăB Y
TP.ăH ăCHệăMINHă- N M 2014
Trang 3CHU NăYăC AăH Iă NGăB OăV ăLU NăV N
Lu năv năt aăđ : ắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ăchoăh căsinhă
THPT” công trình đ căắNguy nă ngăTh ăVinh” th căhi năvƠăn pănh măth a
m tăph năyêuăc uăt tănghi păth căs ăchuyên ngƠnhăKhoaăH căMáyăTính
Ch ăt chăH iăđ ng Gi ngăviênăh ngăd n
………
………
TS.ăBùiăV năMinh TS.ăVõă ìnhăB y
Ngày… tháng … n m 2014 Ngày… tháng … n m 2014
Ngày b o v lu n v n, Tp.HCM, Ngày 11 tháng 5 n m 2014
Vi nă ƠoăT oăSauă iăH c
Tr ngă iăh căQu căt ăH ngăBƠng
………
Trang 4Th iăgian N iăcôngătác Ch căv
2003-2004 Công ty CP máy tính Scitec P.Tr ngăphòngăk ăthu t
2005-2009 Tr ngăCaoăđ ngăGTVTă3 Qu nălýăgiáoăv ăvƠăgi ngăd yăt iătrungă
Trang 5Khôngăcóăs năph m/ănghiênăc uănƠoăc aăng iăkhácăđ căs ăd ngătrongălu năv nănƠyămƠăkhôngăđ cătríchăd nătheoăđúngăquyăđ nh
Trang 6L IăC Mă N
L iăđ uătôiăxinăchơnăthƠnhăc mă năTS.ăVõă ìnhăB yăđưăt nătìnhăh ngăd n,ăch ă
b oătôiătrongăsu tăth iăgianăth căhi nălu năv n
TôiăxinăbƠyăt ălòngăbi tă năđ năcácăth yăcôătrongăVi n Ơoăt oăSauă iăh că
tr ngă iăh c Qu căt ăH ngăBƠngăđưăcungăc pănh ngăki năth căquýăbáuăchoătôiătrongăsu tăquáătrìnhăh căt păvƠănghiênăc uăt iătr ng
Tôiăc ngăxinăg iăl iăc mă năđ năgiaăđình,ăb năbèăvƠănh ngăng iăthơnăluônăquanătơmăvƠăgiúpăđ ătôiătrongăsu tăth iăgianăh căt păvƠălƠmălu năv n.ăă
Doăth iăgianăvƠăki năth căcóăh nănênălu năv năch căkhôngătránhăkh iănh ngăthi uăsótănh tăđ nh.ăTôiăr tămongănh năđ căs ăgópăýăquýăbáuăc aăth yăcô.ăăă
Trang 7TĨM T T
Phơnăl păd ăli uălƠăm tătrongănh ngăh ngănghiênăc uăchínhăc aăKPDL Cơng ngh ănƠyăcĩănhi uă ngăd ngătrongăl nhăv căth ngăm i,ăngơnăhƠng,ăyăt ,ăgiáoăd c, … Trongăcácămơăhìnhăphơnăl păđưăđ căđ ăxu t,ăcơyăquy tăđ nhăđ căcoiălƠăm tăcơngăc ăm nh,ăph ăbi năvƠăđ căbi tăthíchăh păv iăcácă ngăd ngăKPDL
Quaătìmăhi uănh ngăch căn ngăc aăKPDL,ălu năv năt pătrungăvƠoănghiênăc uăcácăk ăthu tăphơnăl păb ngăcơyăquy tăđ nh.ăHi uăđ căcácăthu tătốnăhi uăqu ăg năđơy,ăt ăđĩăn măđ cănh ngăđi măchínhăc năquanătơmăgi iăquy tătrongăm iăk ăthu tăkhaiăpháătriăth cătrênăCSDLăkh oăsátăl aăch năngƠnhăh c
Trongăs ăcácăthu tătốn th ngădùngăchoăbƠiătốnăphơnăl p,ăthu tătốnăC4.5ăcĩă
đ ăchínhăxácăkháăcao,ăch yănhanhăvƠăd ăhi uăđ iăv iăng iădùng,ănh ngăn uăt păd ă
li uăcĩănhi uăthu cătínhăthìăcơyăquy tăđ nhăthuăđ căc ngăs ăkhĩăhi u;ăthu tătốnăNạveăBayesăthi uăchínhăxácăđ iăv iăcácăthu cătínhăph ăthu căl nănhauăvƠăkhĩăhi u.ăKhiăápăd ng k tăh păcácăbi năphápăti năx ălý l yăm uăd đ iăv iăl păthi uăs ăvƠ l yă
m uăthi u đ iăv iăl păđaăs ,ăk tăqu ăphơnăl păs ăt tăh n,ănh ngăvi căti năx ălýănƠyăđịiăh iăph iăcĩăki năth căsơu,ăkhơngăphùăh păv iăng iădùngăkhơngăchuyên;ăthu tă
tốn Neural Network cĩăđ ăchínhăxácăcaoănh ngămơăhìnhăkhĩăhi uăđ iăv iăng iădùngăvƠăth iăgianăch yăth ngăl n
Lu năv năs ăd ngăthu tătốn ID3,ăchoăraămơăhìnhăphơnăl pălƠăm tăt pălu tăd iă
d ngăcơyăr tăđ năgi năvƠăd ăhi u,ăcĩăđ ăchínhăxácăkháăcaoăvƠăth iăgianăch yăch pă
nh n đ c.ăThu tătốn đ căxơyăd ngătrênăn năwebsite,ăthu năti năchoăng iăs ăd ngă
ăb tăc ăn iăđơuăcĩăk tăn iăinternet
Trang 8ABSTRACT
Classification is one of the main research directions of data mining This technology has many applications in the fields of commerce, banking, health, education, etc
In the classification model has been proposed, decision trees are considered powerful tool, common and suitable particularly for data mining applications
By studying the basic functions of data mining, thesis focused on the research techniques by decision tree classifier Understand the recent efficient algorithms, which understand the main points of interest in each technique solving exploration database knowledge on the education
Among the mostly used algorithms for the classification task, C4.5 can provide decision trees which be easy to interpret, yet their interpretability may diminish the more they become complex; Nạve Bayes networks are both inaccuracy for interdependence attributes and difficult to understand When we combine oversampling the rare classes and undersampling the majority ones, classification performance will be better, but this preprocessing technique requires thorough knowledge, not suitable to non-professional users; Neural Networks have high classification accuracy but cannot produce easy to understand classification models for users and its running time is usually long
This thesis using ID3 algorithm whose resulting classification models are set of classification rules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable run time The algorithm is built on the web,
convenient for user in anywhere with an internet connection
Trang 9M CăL C
L IăCAMă OAN ii
L IăC Mă N iii
TịMăT T iv
ABSTRACT v
M CăL C vi
DANHăM CăHỊNHăV ix
DANHăM CăB NG x
DANHăM CăT ăVI T T T xi
CH NGă1:ăT NGăQUAN 1
1.1 Lýădoăch nălu năv n 1
1.2 M cătiêuănghiênăc u 2
1.3 iăt ngăvƠăph măviănghiênăc u 2
1.3.1 iăt ngănghiênăc u 2
1.3.2 Ph măviănghiênăc u 2
1.4 Nhi măv ănghiênăc u 3
1.5 Ph ngăphápănghiênăc u 3
1.6 ụăngh aăc aălu năv n 3
1.6.1 ụăngh aăkhoaăh c 3
1.6.2 ụăngh aăth căti n 3
1.7 C uătrúcălu năv n 4
CH NGă2:ăC ăS ăLụăTHUY T 5
2.1 T ngăquanăv ăkhaiăpháăd ăli u 5
2.1.1 Khaiăpháăd ăli uălƠăgì? 5
2.1.2 Quá trình KPDL 5
Trang 102.2 Phơnăl pătrongăKPDL 7
2.2.1 Phơnăl păd ăli u 7
2.2.2 Phơnăl păd ăli uăb ngăcơyăquy tăđ nh 9
2.2.3 Phơnăl păd ăli uăb ngăgi iăthu tăh căILA 10
2.2.4 Phơnăl păd ăli uăb ngăm ngăNạveăBayes 11
2.2.5 Phơnăl păd ăli uăb ngăNeuralăNetwork 12
2.3 KPDLăs ăd ngălu tăk tăh p 13
2.4 K ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh 15
2.4.1 Gi iăthi uăk ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh 15
2.4.2 Cácăv năđ ătrongăKPDLăs ăd ngăcơyăquy tăđ nh 15
2.4.3 Xơyăd ngăcơyăquy tăđ nh 19
2.4.4 Thu tătốnăs ăd ngăxơyăd ngăcơyăquy tăđ nh 20
2.4.5 C tăt aăcơyăquy tăđ nh 26
2.4.6 ánhăgiáăđ ăchínhăxácăc aămơăhìnhăphơnăl p 28
2.4.7 Cácăcơngătrìnhănghiênăc uătr căđơyăliênăquanăđ nălu năv n 29
CH NGă3:ăXỂYăD NGă NGăD NG 30
3.1 Gi iăthi uăbƠiătốn 30
3.2 Mơăhìnhăc uătrúcăh ăth ng 30
3.2.1.ăMơăt ăđ uăvƠo/ăđ uăra 30
3.2.2.ăPh ngăphápăxơyăd ngăh ăth ng 31
3.3 PhơnătíchăvƠăthi tăk ăh ăth ng 31
3.3.1 Thi tăk ăCSDL 31
3.3.2 X ălýăvƠăhu năluy năd ăli u 40
3.3.3 Xơyăd ngăvƠăthi tăk ăgiaoădi năc aăch ngătrình 41
CH NGă4:ăTH CăNGHI MăVÀă ÁNHăGIÁ 50
4.1 D ăli uăth cănghi m 50
Trang 114.2 Môiătr ngăth cănghi m 51
4.3 ánhăgiáăđ ăchínhăxácăc aăcơyăquy tăđ nh 51
4.4 Phơnătích,ăsoăsánhăk tăqu ăvƠănh năxét 52
CH NGă5:ăK TăLU NăVÀăH NGăPHÁTăTRI N 57
5.1 K tăqu ăđ tăđ căt ănghiênăc u 57
5.2 óngăgópălu năv n 57
5.3 H năch 57
5.4 H ngăphátătri nălu năv n 58
K ăHO CHăNGHIểNăC U 59
TÀIăLI U THAMăKH O 60
PH ăL C 63
A B ăcôngăc ătr cănghi măđ nhăh ngăngh ănghi păc aăJohnăHolland 63
B Thôngătinăv ăngƠnhăh c,ătr ngăđƠoăt o,ăb căh c,ăkh iăthi,ăđi măchu n 64
Trang 12DANHăM CăHÌNH V
Hình 2.1: Quá trình KPDL [6] 5
Hình 2.2 (a): B căh c/ăhu năluy nătrongăquáătrìnhăphơnăl păhaiăb că[7] 7
Hình 2.2 (b): B căphơnăl pătrongăquáătrìnhăphơnăl păhaiăb că[7] 7
Hìnhă2.3:ăM tăvíăd ăv ăcơyăquy tăđ nhă[7] 10
Hìnhă2.4:ăMôăhìnhă ngăd ngălu t 14
Hình 2.5: k-fold cross ậvalidation [3] 28
Hìnhă3.1:ăMôăhìnhăc uătrúcăh ăth ngăt ăv năch năngƠnhăh c 30
Hìnhă3.2:ăGiaoădi năch ngătrình 41
Hìnhă3.3:ăGiaoădi năPhi uăđ ngăkýătƠiăkho năs ăd ng 41
Hìnhă3.4:ăGiaoădi năPhi uăkh oăsátăthôngătinăv ăs ăthích,ătíchăcách 44
Hìnhă3.5:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthích 45
Hìnhă3.6:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthíchă(thôngătină đ ngăkýăbanăđ uăkhácăv iăk tăqu ăth căhi năkh oăsát) 46
Hìnhă3.7:ăGiaoădi năk tăqu ăngƠnhăh căc aă2ănhómăcóăđi măs ăcaoănh t 47
Hìnhă3.8:ăGiaoădi năk tăqu ăt ăv năch năngƠnhăh căc aăch ngătrình 48
Hình 3.9: K tăqu ătr ngă H,ăC ăcóăđƠoăt oăngƠnhăh căđ căt ăv n 49
Hìnhă4.1:ăB ngăphơnăchiaăd ăli uătestă10-fold cross ậ validation 51
Hìnhă4.2:ăCh ngătrìnhămôăph ngăch năngƠnh,ătr ngăc aă HQGăTp.HCM 53
Hìnhă4.3:ăK tăqu ăt ăv năch năngƠnhăc aălu năv n 54
Trang 13DANHăM CăB NG
B ngă3.1:ăB ngăthôngătinăcácătr ngă H,ăC 31
B ngă3.2:ăB ngăl uăcácăngƠnh h căc aăcácătr ngă H,ăC 32
B ngă3.3:ăB ngăl uăđi mătrungăbình 32
B ngă3.4:ăB ngăl uă6ănhómăs ăthích 33
B ngă3.5:ăB ngăMưăngƠnhăthu cănhómăngƠnh 33
B ngă3.6:ăB ngăl uăk tăqu ăkh oăsátăsinhăviên 33
B ngă3.7:ăB ngăkh iăthi 34
B ngă3.8:ăB ngăNgƠnhăh c 34
B ngă3.9:ăB ngăNhóm ngành 34
B ngă3.10:ăB ngăch aăthôngătinăt nh 35
B ngă3.11:ăB ngăcơuăh iătr cănghi m 35
B ngă3.12:ăB ngăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên 36
B ngă3.13:ăB ngăchiăti tăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên 37
B ngă3.14:ăB ngăthôngătinăphi uăkh oăsát 38
B ngă3.15:ăB ngăthôngătinătr ngăTHPT 39
B ngă4.1:ăS ăli uăth căhi năkh oăsátăsinhăviên 50
B ngă4.2:ăS ăli uăchiăti tăt ngăngƠnh 51
B ngă4.3:ăK tăqu ăđánhăgiáă10-fold cross - validation 52
B ngă4.4:ăK tăqu ăch năngƠnh,ătr ngăc aă HQGăTp.HCM 54
B ngă4.5:ăTh iăgianăth căhi năt ăv năch năngƠnh 54
B ngă4.6:ăB ngăsoăsánhăk tăqu 55
Trang 14DANHăM CăT ăVI TăT T
KPDL Khaiăpháăd ăli u
THPT Trungăh căph ăthông
CLS Concept Learning System
CSDL C ăs ăd ăli u
Trang 15CH NGă1:ăT NGăQUAN
1.1 Lýădoăch nălu năv n
M cădùăch aăcóăs ăli uăth ngăkêăc ăth ,ănh ngăcóăth ăth yăr ngăh uăh tăh căsinhăsauăkhiăhoƠnăt tăch ngătrìnhăl pă12ăđ uăti păt căl aăch năchoămìnhănh ngătr ngăH,ăC ,ăTCCN.ăThôngăquaăvi căch nătr ng,ăch năngƠnhăngh ăs ăgiúpăcácăemăcóă
đ căki năth c,ăb ngăc p,ăk ăn ngălƠmăvi căđ ăđápă ngănhuăc uălaoăđ ngăc aăxưăh iăsauăkhiăcácăemăt tănghi p.ăVi căch năđúngăngƠnhăngh ăgiúpăcácăemăđ nhăh ngăđiăphùăh păv iăkh ăn ngăc aăb năthơnămìnhăvƠătránhăkh iănh ngăl aăch năv iăvƠngăđ ă
r iăph iăb ăl ăr tănhi uăc ăh iămƠ đángăraăn uăch năvƠăđ nhăh ngăs măvƠăđúngăcácăemăs ăthƠnhăcông.ăDoăr tănhi uăy uăt ăkháchăquan,ăch ăquanăkhácăvƠăđaăph năcácăemăăcácăt nhăthƠnh,ăvi căti păc năcácăthôngătinăv ăch năngƠnhăngh ăc ngăh năch ăvƠăthi uăthôngătinăđ ăl aăch năvƠăđ nhăh ngăcho mình
Vi căch năđúngăngƠnhăh cătrongăb iăc nhăkinhăt ,ăxưăh iăhi nănayănh mătránhă
vi căcóănhi uăcáănhơnăl aăch năsaiăngh ăs ăd năt iăgi măsútăch tăl ngăđƠoăt o,ăgơyălưngăphíăchoăcôngătácăđƠoăt oăvƠăđƠoăt oăl i.ăCh tăl ngăngu nănhơnăl căsauăđƠoăt oă
khôngăđ măb oăd năt iăn ngăsu tălaoăđ ngăkhôngăcao,ăn yăsinhănhi uăxáoătr năchoă
ho tăđ ngăc aăcácăt ăch c,ădoanhănghi păb iăcácăhi năt ngănh :ăb ăngh ,ăchuy năngh , …ăCácădoanhănghi păm tăthêmăchiăphíăđƠoăt oăvƠăđƠoăt oăl iăchoăđ iăng ăc aă
mình
H c t p lƠăm tăquáătrìnhădƠiăvƠăkhóăkh n,ăđòiăh iăsinhăviênăph iăđ uăt ănhi uăcôngăs c,ăti năb căc aăcáănhơnăc ngănh ăgiaăđình,ăn uăth tăb iătrongăvi căch năngƠnhăngh ăs ăd năđ nănh ngăt năth tăl năv ăc ătinhăth năl năv tăch tăchoăsinhăviênăvƠăgiaăđìnhăh ăVi căđ nhăh ngăch năđúngăngƠnhăngh ăs ăgiúpăcácăemătránhăkh iănh ngă
v năđ ătrên
Vìăv y,ăcôngătácăh ngănghi păch năngƠnhăngh ăchoăh căsinhăTHPTălƠăđi uăh tă
s căc năthi t
Tr cănh ngăth căt ăđó,ătôiăch nălu năv năắ ng d ng khai phá d li u ch n
ngành ngh cho h c sinh THPT”.ăLu năv năth căhi năvi căKPDLăt ăvi căkh oăsátă
ch năngƠnhăh căc aăsinhăviênăcácătr ngă H,ăC ăđ ăd ăđoánăngƠnhăh căcho h căsinhăTHPT.ăD aăvƠoăk tăqu ăd ăđoánăđóăs ăgiúpăh căsinhăl aăch năchoămìnhăm tăngƠnhă
h căphùăh păv iăđi uăki năvƠăn ngăl căc aăb năthơnăđ ăđ tăđ căk tăqu ăt tănh t
Trang 161.2 M cătiêuănghiênăc u
- Tìm hi uăcácăk ăthu tăKPDL,ă ngăd ngăcácăk ăthu tăKPDLătrongăphơnătíchă
s ăli u,ăxơyăd ngăcácăt pălu tăch năngƠnhăh c d aăvƠoăk tăqu ăkh oăsátăth că
t ăsinhăviên
- Xơyăd ngă ngăd ngăh ătr ăh căsinhăcácătr ngăTHPTătrênăđ aăbƠnăt nhăNinhăThu năcóănh ngăl aăch năv ăngƠnhăh căphùăh păv iăb năthơnăvƠăh ătr ăcácăcánăb ăchuyênătráchătuy năsinhăc aăcácătr ngăTHPTătrênăđ aăbƠnăt nhăNinhăThu nănh năđ nhăvƠăđ ăraănh ngăbi năphápăphùăh pănh măt ăv năthêm cho cácăemătrongăvi căxácăđ nhăngh ănghi păchoăb năthơn
1.3 iăt ngăvƠăph măviănghiênăc u
1.3.1 iăt ngănghiênăc u
- Cácăk ăthu tăKPDL
- D ăli uăkh oăsátăk tăqu ăch năngƠnhăh c
- H ăth ngăt ăv n
1.3.2 Ph măviănghiênăc u
- Cácăph ngăphápăphơnăl p.ă ngăd ngăcácăh ăh ătr quy tăđ nhăvƠoăbƠiătoán
- D ăli uăkh oăsátăth căt ăvi căch năngƠnhăh căc aăsinhăviênăthôngăquaăb ngă
cơuăh iătr cănghi măch năngƠnhăngh ăc aăTi năs Tơmălýăh căJohnăHolland,ă
nh măphátăhi năraăcácăđ căđi măchungăc aăHSSVătrongăvi căl aăch năngƠnhăngh ăh căt p t i m tăs ătr ngă iăh căvƠăcaoăđ ngăt iăTP.HCMăt pătrungă
vào 11 ngƠnhăh cănh :ăQu nătr ăkinhădoanh,ăNgônăng ăAnh,ăS ăph măToánă
h c,ăGiáoăd căti uăh c,ăCôngăngh ăk ăthu tăcôngătrìnhăxơyăd ng,ăQu nălýăcôngănghi p,ăVi tăNamăh c,ăCôngăngh ăthôngătin,ăK ătoán, Tài chính Ngân hƠng,ăKhoaăh căth ăvi n
- Xơyăd ngă ngăd ngăd ăđoánăngƠnhăh căđ ăh ătr ăt ăv năch năngƠnhăh că
choăh căsinhăcácătr ngăTHPTăt iăt nhăNinhăThu n
Trang 171.4 Nhi măv ănghiênăc u
- Nghiênăc uălýăthuy tăv ăKPDL,ăc ăth ălƠăcácăk ăthu tăphơnăl păvƠăcơyăquy tă
đ nh
- Xácăđ nhăbƠiătoánăc ăth ălƠăxơyăd ngăcôngăc ăl aăch năngƠnhăh căvƠăchu nă
b ăngu năd ăli uăđ ăxơyăd ngăch ngătrình
- Xơyăd ngămôăhìnhăd ăđoánăngƠnhăh căc aăsinhăviênătheoăcácăk ăthu tăkhácă
nhauănh ăcơyăquy tăđ nh,ălu tăk tăh păvƠăki mătraăcácămôăhình
- Xơyăd ngăch ngătrìnhă ngăd ngămôăhìnhăđ căl aăch năđ ăd ăđoánăngƠnhă
h căc aăh căsinhăd aăvƠoăcácăthôngătinăđ uăvƠo,ăt ăđóăth căhi năt ăv năch năngƠnhăh căchoăh căsinhănh măđ tăđ căk tăqu ăt tănh t.ăăă
- Ph ngăphápănghiênăc uăth cănghi m:ăPhơnătíchăthi tăk ăh ăth ng,ătri năkhaiăxơyăd ngă ngăd ng
1.6 ụăngh aăc aălu năv n
1.6.1 ụăngh aăkhoaăh c
Áp d ng các thu t toán KPDL trên d li u kh o sát l a ch n ngành h c (D
li uăđ c thu th p t cácătr ngă H,ăC ăt i TP.HCM)
1.6.2 ụăngh aăth căti n
là m t công c h tr đ h c sinh ch năđúng ngành h c K t qu , kinh nghi m thuăđ c khi th c hi n lu năv n này s giúp các t ch c giáo d c, nh ng cá
nhân làm công tác giáo d c ( Vi t Nam) phân lu ng l i h th ngăcácătr ng
Trang 18H,ăC ,ăTCCN,ăgiaoăch tiêuăđƠoăt oăchoăcácătr ng, nh m tránh vi c lãng phí trongăđƠoăt o
1.7 C uătrúcălu năv n
Ch ngă1:ăT ngăquan
Ch ngă2:ăC ăs ălýăthuy t
Ch ngă3:ăXơyăd ngă ngăd ng
Ch ngă4:ăTh cănghi măvƠăđánhăgiá
Ch ngă5:ăK tălu năvƠăh ngăphátătri n
Trang 19CH NGă2:ăC ăS ăLụăTHUY T
2.1 T ngăquanăv khaiăpháăd ăli u
N mă1989ăFayyad,ăSmythăvƠăPiatestsky-Shapiroăđưădùngăkháiăni măPhátăhi nătriăth căt ăCSDL (Knowledge Discovery in Database - KDD) trongăđóăKPDL lƠăm tăgiaiăđo năr tăđ căbi tătrongătoƠnăb ăquáătrình,ănóăs ăd ngăcácăk ăthu tăđ ătìmăraăcácă
m uăt ăd ăli u
KPDL lƠăquáătrìnhăphátăhi năcácămôăhình,ăcácăt ngăk tăkhácănhauăvƠăcácăgiáătr ă
đ căl yăt ăt păd ăli uăchoătr c [11] Hay,ăKPDLălƠăs ăth mădòăvƠăphơnătíchăl ngă
d ăli uăl năđ ăkhámăpháăt ăd ăli uăraăcácăm uăh păl ,ăm iăl , cóăíchăvƠăcóăth ăhi uă
Mô hình
Tríchăl căd ăli u
Trang 20B tăđ uăc aăquáătrìnhălƠăkhoăd ăli uăthôăvƠăk tăthúcăv iătriăth căđ căchi tăxu tăra.ăV ălýăthuy tăthìăcóăv ăr tăđ năgi nănh ngăth căs ăđơyălƠăm tăquáătrìnhăr tăkhóăkh nă
g păph iăr tănhi uăv ngăm cănh :ăqu nălýăcácăt păd ăli u,ăph iăl păđiăl păl iătoƠnăb ă
quá trình, …
2.1.2.1 T păh p d ăli uă(Data)
ơy là giaiăđo n đ uătiênătrongăquáătrìnhăKPDL Giaiăđo n nƠyăl yăd ăli u trong
m tăCSDL,ăm tăkhoăd ăli uăvƠăd ăli uăt ăcácăngu năInternet
2.1.2.2 Tríchăl căd ăli uă(Selection)
Giaiăđo nănƠyăd ăli uăđ căl aăch năho căphơnăchiaătheoăm tăs ătiêuăchu nănƠoă
đó
2.1.2.3 Ti năx ălýăvƠăchu năb d ăli uă(Preprocessing)
Giaiăđo n này r tăquanătr ngătrongăquáătrìnhăKPDL M tăs ăl iăth ngăm căph iă
trong khi thuăth p d ăli uănh ăthi uăthông tin, không logic ăVìăv y,ăd ăli uăth ngă
ch aăcácăgiáătr ăvôăngh aăvƠăkhôngăcóăkh ăn ngăk tăn iăd ăli u.ă
Giaiăđo nănƠyăti năhƠnhăx ălýănh ngăd ngăd ăli uănóiătrên.ăNh ngăd ăli uăd ngănƠyăđ căxemănh ăthôngătinăd ăth a,ăkhôngăcóăgiáătr ăVì v y,ăđơyălƠăm tăgiaiăđo n
r tăquanătr ngăvìăd ăli uănƠyăn uăkhôngăđ călƠmăs chă- ti năx ălýă- chu năb ătr căthìăs ăgơyănênănh ngăk tăqu ăsaiăl chănghiêmătr ng trong KPDL
2.1.2.4 Chuy năđ iăd ăli uă(Transformation)
Giaiăđo năchuy năđ iăd ăli u,ăd ăli uăđ aăraăcóăth ăs d ngăvƠăđi uăkhi năđ că
b iăvi căt ăch căl iănó.ăD ăli uăđưăđ căchuy năđ iăphùăh păv iăm căđíchăkhaiăthác
2.1.2.5 Khaiăpháăd ăli u (Data Mining)
Giaiăđo n mangătínhăt ăduyătrongăKPDL.ă ăgiaiăđo nănƠyănhi uăthu tătoánăkhácănhauăđưăđ căs ăd ngăđ ăxu tăra cácăm u t ăd ăli u.ăThu tătoánăth ngădùngălƠăthu tă
toán phơnălo i d ăli u, k tăh păd ăli uăho căcácămôăhìnhăhóa d ăli uătu năt
ơyălƠăgiaiăđo năđ cănhi uăng iănghiênăc uănh t.ă
2.1.2.6 ánhăgiáăk tăqu ăm uă(Interpretation/ Evaluation)
Giaiăđo năcu iătrongăquáătrìnhăKPDL Trong giaiăđo nănƠy,ăcácăm uăd ăli uă
đ căchi tăxu tăraăb iăph năm măKPDL.ăKhôngăph iăb tăc ăm uăd ăli uănƠoăc ngă
Trang 21đ uăh uăích,ăđôiăkhiănóăcònăb ăsaiăl ch.ăVìăv y,ăc năph iă uătiênănh ngătiêuăchu năđánhăgiáăđ ăđ a raăcácătriăth căc năthi tăvƠăs ăd ng đ c
2.2 Phơnăl pătrong KPDL
2.2.1 Phơnăl păd ăli u
Phơnăl păd ăli u lƠăm tăquáătrìnhăg măhaiăb c:ăm t b căh c (trongăđóăxơyă
d ngănênăm tămôăhìnhăphơnăl p)ăvƠăm t b căphơnăl p (trongăđóămôăhìnhăv aăxơyă
d ngăđ căs ăd ngăđ ăd ăđoánăcácănhưnăl păchoănh ngăd ăli u nƠoăđó).ă
Hình 2.2 minhăh aăquáătrìnhănƠyăchoătr ngăh păd ăli uăxinăvayăti n.ăD ăli uăyăđưăđ căđ năgi năhóaăđ ăd ăminhăh a.ăTrongăth căt ,ăcóăth ătaăc năxemăxétănhi uăthu cătínhăh n
Hình 2.2 (a): B c h c/ hu n luy n trong quá trình phân l p hai b c [7]
Hình 2.2 (b): B c phân l p trong quá trình phân l p hai b c [7]
Trang 22ăb căth ănh t,ătaăxơyăd ngăm tămôăhìnhăphơnăl pămôăt ăm tăb ăxácăđ nhă
tr c cácăl păd ăli uăhayăkháiăni m.ă ơyălƠ b căh c (hayăgiaiăđo năhu năluy n),ă ă
đóăm t thu tătoán phân l păxơyăd ngănênămôăhìnhăphơnăl păb ngăcáchăphơnătíchăho că
ắh căh iăt ”ăm t t p hu n luy n hìnhăthƠnhăt ăcácăb năghiătrongăCSDL và các nhãn
l păliênăk tăv iăchúng.ăM iăb năghi X đ căbi uădi năb iăm t vector thu c tính g m
n-chi u, X = (x1, x2,ă…, xn), mô t n giáătr ăđoăđưăth căhi n trênăb năghiăđóăt n thu cătínhăt ngă ngăc aăCSDL A1, A2, …, An.ăM iăb năghi X đ căgi ăđ nhălƠăthu căv ăm tă
l păđ căquyăđ nhătr c,ănh ăđ căxácăđ nhăb iăm t thu cătínhăkhácăc aăCSDL g iă
là thu c tính nhãn l p
Thu cătínhănhưnăl pănƠyăcóătr ăr iăr căvƠăkhôngăcóăth ăt ăNó có tính phân lo i ăch ăm iăgiáătr ăc aănóăđóngăvaiătròăm t lo i ho c l p.ăCácăb năghiăriêngăt oăthƠnhă
t păhu năluy năđ căg iălƠăcác b n ghi hu n luy n vƠăđ căl yăm uăng uănhiênăt ă
CSDL đangăphơn tích.ăTrongăng ăc nhăphơnăl p,ăcácăb năghiăc aăCSDL cóăth ăđ că
cácătƠiăli u khácănhauăg iălƠ m u, ví d , th hi n, đi m d li u,ăho c đ i t ng
Doănhưnăl păc aăm iăb năghiăhu năluy năđ uăđ căcungăc păs n,ănênăb cănƠy
cònăđ căg iălƠ h c có giám sát,ăt călƠăvi căh căc aămôăhìnhăphơn l pălƠăắcóăgiámă
sát”ă ăch ănóăđ căchoăbi tălƠăm iăb năghiăhu năluy năthu căv ăl p nƠo.ăNóătráiăv i
h c không giám sát,ătrongăđóătaăkhôngăbi tănhưnăl păc aăm iăb năghiăhu năluy năvƠă
cóăth ăc s ăl ngăho căt păh păcácăl păc n h căn a
M iăthu cătínhăđ iădi năchoăm tăắđ c đi m”ăc a X.ăDoăđóăcácătƠiăli uăv ănh nă
d ngăm uădùngăthu tăng vector đ c đi m thay cho vector thu c tính.ăTrongălu năv nă
này, tácăgi dùngăthu tăng ăvectorăthu cătính,ăvƠătrongăcáchăkýăhi uăc aătácăgi ,ăb tă
k ă bi nă nƠoă đ iă di nă choă m tă vectoră đ uă đ că trìnhă bƠyă b ngă ki uă ch ă đ mă vƠă
nghiêng,ăcácăgiáătr ăđoămôăt ăvectorăđóăđ cătrìnhăbƠyăb ngăki uăch ănghiêngă(víăd :
X = (x1, x2, x3))
TrongăcácătƠiăli uăv ămáy h c,ăcácăb năghiăhu năluy năth ngăđ căg iălƠ m u
hu n luy n ho c ví d hu n luy n
B căth ănh tăc aăquáătrìnhăphơnăl păcònăcóăth ăđ căxemănh ălƠăvi căh că(hay
tìmăki m)ăm tăánhăx ăhayăhƠm y = f (X)ămƠăcóăth ăd ăđoánăđ cănhưnăl p y liênăk tă
v i m tăb năghi X choătr c.ăTheoăcáchăquanăsátănƠy,ăchúngătaămu nătìmăraăm tăánhă
x hayăhƠmămƠăchiaătáchăcácăl păd ăli u.ăThôngăth ng,ăánhăx ănƠyăđ căbi uădi nă
Trang 23d i d ngăcácălu tăphơnăl p,ăcácăcơyăquy tăđ nh,ăho căcácăcôngăth cătoánăh c.ăTrongăvíăd d ăli uăxinăvayăngơnăhƠngăbênătrên,ăánhăx ănƠyăđ căbi uădi năd iăd ngăcácă
lu tăphơn l păgiúpănh nădi nănh ngăđ năxinăvayăti nănƠoălƠăanătoƠnăho căr iăroă(Hình
2.2 (a)) Các lu tănƠyăcóăth ăđ cădùngăđ ăphơnălo iăcácăb năghiăd ăli uătrongăt ngălaiăc ngănh giúpătaăhi uăbi tăsơuăh nătrongăn iădungăd ăli u.ăChúngăc ngăcungăc pă
m t cáchăbi uădi năd ăli uăng năg n,ăcôăđ ng
ăb căth ăhaiă(Hình 2.2 (b)),ămôăhìnhătìmăđ că ăb căth ănh tăs ăđ cădùngă
cho vi căphơnălo iănh ngăd ăli uăm i.ăTr căh t,ătaăđánhăgiá đ chính xác d đoán
(predictiveăaccuracy)ăc aămôăhìnhăphơnălo iă y.ăN uănh ătaădùngăt păhu năluy năđ đánhăgiáăđ ăchínhăxácăc aămôăhìnhăphơnăl păthìăvi căđánhăgiáănƠyănhi uăkh ăn ngălƠ
quáăl căquan,ăb iăvìămôăhìnhă yăcóăkhuynhăh ng quá kh p d ăli uă(t călƠ trong quá
trìnhăh c,ănóăcóăth ăsápănh păluônăm tăs ătr ngăh păb tăth ngăc aăd ăli u hu nă
luy n,ăv năkhôngăhi nădi nătrongăt ngăth ăt păd ăli uănóiăchung).ăVìăth ,ătaădùng m t
t p ki m tra,ăbaoăg măcác b n ghi ki m tra vƠăcácănhưnăl p liênăk tăv iăchúng,ăđ ă
th căhi năvi căđánhăgiáănƠy.ăCácăb năghiăki mătraănƠyăđ căl p v iăcácăb năghiăhu năluy n,ăngh aălƠăchúngăkhôngăđ cădùngăđ ăxơyăd ngămôăhình phơnăl p
chính xác c aăm tămôăhìnhăphơnăl pătrênăm tăt păki mătraăxác đ nhălƠăt ăl ă
cácăb năghiăc aăt păki mătraăđ căphơnălo iăđúngăđ năb iămôăhìnhăphơn l pă y.ăNhãn
l păliênăk tăc aăm iăb năghiăki mătraăđ căsoăsánhăv iăs ăd ăđoánăl păc a mô hình phơnăl păh că ngăv iăb năghiăđó.ă
M că2.4.6.1 (Trongăch ngă2) môăt ăvƠiăph ngăpháp đ ăđánhăgiáăđ ăchínhăxácă
c aămôăhìnhăphơnăl p.ăN uăđ ăchínhăxácăc aămôăhìnhăphơn l p đ căxemălƠăch pă
nh năđ c,ăthìămôăhìnhăphơnăl păcóăth ăđ cădùngăđ ăphơnălo iănh ngăb năghiăd ă
li uătrongăt ngălaiămƠănhưnăl păch aăbi t.ă
Víăd ,ăcácălu tăphơnăl păh căđ cătrongăHình 2.2 (a) t ăvi căphơnătíchăd ăli u
c aănh ngăđ năxinăvayăti nălúcătr c,ăn uăcóăđ ăchínhăxácăcaoăkhiăphơnăl păt păki m tra,ăthìăcóăth ăđ cădùngăđ ăchu năthu năho căbácănh ngăđ năxinăvayăti năm iăho că
s cóătrongăt ngălai,ănh ăđ căminhăh aătrongăHình 2.2 (b)
2.2.2 Phơnăl păd ăli uăb ngăcơyăquy tăđ nh
Quy n p cây quy t đ nh (decisionătreeăinduction)ălƠăvi cătìmăki măcácăcơyăquy t
đ nhăt ănh ngăb năghiăhu năluy năđưăcóănhưnăl p.ăM i cơyăquy tăđ nh (decision tree)
Trang 24lƠăm tăc uătrúcăcơyăki uăl uăđ ,ătrongăđóăm i nút trong bi uăth ăm tăs ki mătraătrênă
m tăthu cătínhănƠoăđó,ăm i nhánh bi uădi năm tăk tăqu ăc aăs ki mătraăđó,ăcònăm i
nút lá ch aăm tănhưnăl p.ăNútă trênăcùngăc aăcơyălƠ nút g c,ăch aătênăc aăthu cătínhă
c năki mătra.ăHìnhă2.3 choăth yăm tăcơyăquy tăđ nhătiêuăbi u.ăCácănútătrong đ căbi uă
di năb ngăcácăhìnhăch ănh t,ăcònăcácănútăláăđ căbi u di năb ngăcácăhìnhăb uăd c.ă
M tăs ăthu tătoán cơyăquy tăđ nhăch ăsinhăraăcác cây nh phân (trongăđóăm iănútătrong
r ănhánhăđ năhaiănútăkhác),ătrongăkhiănh ngăthu tătoán cơyăquy tăđ nhăkhácăcóăth ăsinhăraănh ngăcơyăkhôngănh ăphơn
Cácăcơyăquy tăđ nhăđ cădùngăchoăphơnăl pănh ăth ănƠo?ăChoăm tăb năghi X
nào đóămƠătaăch aăbi tănhưnăl păliênăk tăv iănó,ăcácăgiáătr ăthu cătínhăc aăb năghiăđóă
đ c ki mătraăsoăv iăcơyăquy tăđ nh.ăD aătheoănh ngăcu căki mătraăđó,ătaăl năraăm tă
đ ng điăt ăg căđ năm tănútăláăch aăk tăqu ăd ăđoánăl pădƠnhăchoăb năghiă y.ăCácă
cơyăquy tăđ nhăcóăth ăd ădƠngăđ căchuy năđ iăthƠnhăcác lu t phân l p,ăt c hìnhăth că
phơnălo iăđ năgi năvƠăd ăhi uănh tăđ iăv iăconăng i [30]
Hình 2.3: M t ví d v cây quy t đ nh [7]
2.2.3 Phơnăl păd ăli uăb ngăgi iăthu tăh căILA
- Thu t gi iăILAăđ cădùngăđ xácăđ nh các lu t phân lo i cho t p h p các m u
h c Thu t gi i này th c hi nătheoăc ăch l p,ăđ tìm lu tăriêngăđ i di n cho t p
m u c a t ng l p.ăSauăkhiăxácăđ nhăđ c lu t, thu t gi i s lo i b các m u mà
lu tănƠyăbaoăhƠm,ăđ ng th i thêm lu t m i này vào t p lu t K t qu cóăđ c là
m t danh sách có th t các lu t [26], [28]
- Mô t thu t gi i ILA [27]
Trang 25+ B c 1: Chia b ng con cĩ ch a m m u thành n b ng con M t b ng con ng
v i m t giá tr c a thu c tính phân l p (L p l i t b că2ăđ năb c 8 cho
xu t hi n các giá tr cho các thu c tính trong k t h păđĩă cácădịngăch aăb
khĩa c a b ngăđangăxétănh ngănĩăkhơngăđ c xu t hi n cùng giá tr nh ng
b ng con khác Ch n ra m t k t h p trong danh sách sao cho nĩ cĩ giá tr
t ngă ng xu t hi n nhi u nh tăvƠăđ c g i là Max_combination
+ B c 5: N u Max_combination = 0 thì j = j+1 quay l iăb c 3
+ B c 6: Khĩa các dịng b ngăconăđangăxétămƠăt iăđĩăgiáătr b ng v i giá
2.2.4 Phơnăl păd ăli uăb ngăm ngăNạveăBayes
Cácămơăhìnhăphơnăl păd aătheoăBayesă(Bayesianăclassifier)ălƠălo iămơăhình phân
l pătheoălýăthuy tăth ngăkê.ăChúngăcĩăth ăd ăđốnăxácăsu tăc aăcácăthƠnhăviênăl p,
ch ngăh năxácăsu tăđ ăm tăb năghiănh tăđ nhăthu căv ăm tăl păc ăth ănƠoăđĩ.ăPhơnă
l p d aătheoăBayesăc năc ăvƠoăn năt ngălýăthuy tălƠăđ nhălýăBayesă(đ căđ tătheoătên
c a ThomasăBayes,ănhƠătốnăh căAnhăvƠoăth ăk ă18)
Thu tătốn phơnăl păNạveăBayesă(NB)ăgi ăđ nhăr ngă nhăh ngăc aăm tăgiáătr thu cătínhănƠoăđĩătrênăm tăl pănh tăđ nhălƠăđ căl păv iăcácăgiáătr ăc aăcácăthu cătính
khác.ă Gi ă đ nhă nƠyă đ că g iă lƠ s đ c l p theo đi u ki n l p (class-conditional
Trang 26independence).ăNg iătaăgi ăđ nhănh ăv yăđ ăđ năgi năhĩaăkh iăl ngătínhătốnăc n thi t,ăvƠăvìălýădoănƠy,ănĩăđ căg iălƠăắngơyăth ”ă(nạve)
Chiăti tăc aăvi căphơnăl păd ăli uăb ngăm ngăNBăcĩăth ăđ căthamăkh oă ă[7]
+ V th i gian h c (t c th i gian xây d ngămơăhình):ăítăh năsoăv iăph ng
pháp quy n p cây quy tăđ nh,ăvƠăítăh năr t nhi u so v i m ngăn -rơn, nh t lƠăđ i v i d li u r i r c
+ Hi uăn ngăphơnăl pă(đ chính xác và t căđ ) cao khi dùng v i CSDL l n + Thu t tốn d hi u và d hi n th c
- Nh căđi m
+ Do NB gi đ nh là các thu cătínhăđ c l p v i nhau, nên khi các thu c tính
cĩ s ph thu c l n nhau (ví d , trong giáo d c cĩ m t s mơn h c cĩ ý
ngh aătiênăquy tăđ i v i m t s mơn h căkhác)ăthìăph ngăphápăNB tr
nên thi u chính xác
+ NBăkhơngăsinhăraăđ c nh ng mơ hình phân l p d hi uăđ i v iăng i
dùng khơng chuyên v KPDL
2.2.5 Phơnăl păd ăli uăb ngăNeural Network
L nhăv căh căb ngăcác m ng n -rơn nhân t o (artificial neural network ậ ANN),
lúcăđ uăđ căkh iăx ngăb iăcácănhƠătơmălýăh căvƠăcácănhƠăsinhăh căth năkinhămu n tìmăcáchăxơyăd ngăvƠăki mătraănh ngămơăhìnhătínhătốnăt ngăt ăv iăm ngăl iăcácă
t bƠoăth năkinhă(neuron)ăc aăconăng i.ăM tăm ngăn -rơnănhơnăt o,ăhayăch ăv năt tă
là m ngăn -rơnă(NN),ăđơiăkhi cịnăđ căg iălƠ multilayer perceptron (MLP),ălƠăm tă
t p h păcác nút xu t/nh păn iăk tăv iănhau,ătrongăđĩăm iăđ ngăn iăk tăcĩăm t tr ngă
s ăliênăk tăv iănĩ.ăTrongăgiaiăđo năh c,ăm ngănƠyăh căb ngăcáchăđi uăch nhăcác tr ngă
s ăđ ăd ăđốnăđ cănhưnăl păđúngăđ năc aăcácăb năghiănh păvƠo
+ Các mơ hình h căđ c t NN cĩ kh n ngăch uăđ ngăđ i v i d li u nhi u
t ngăđ c hu n luy n
+ Chúng r t thích h păđ i v i d li u nh p và xu t cĩ tr liên t c
Trang 27+ Các thu t toán m ngăn -rôn v n có s n tính song song; có th dùng các k thu tăsongăsongăhóaăđ t ngăt c quá trình tính toán
+ Ngoài ra, g năđơyăđưăcóănhi u k thu tăđ c xây d ngăđ rút trích ra các
lu t phân l p d hi u t các m ngăn -rôn h căđ c
Chiăti tăc aăvi căphơnăl păd ăli uăb ngăcácăNNăcóăth ăđ căthamăkh oă ă[7],
[30]
- Nh căđi m
+ H c b ngăNNăđòiăh i th i gian hu n luy n ph i dài, vì th thích h păh nă
v i các ng d ng nào ch p nh năđi u này
+ Thu t toán xây d ng NN c n m t s tham s mƠăth ng thì ch đ c xác
đ nh t t nh t thông qua thí nghi m,ănh ăc u trúc
+ Các mô hình h c b ngăNNăđưăb ch trích vì tính khó hi u c a chúng; con
ng i khó di n gi iăđ căýăngh aăbi uăt ngăđ ng sau các tr ng s h c và
ý ngh aăc aăcácăắđ năv n”ătrongăm ng
2.3 KPDL s ăd ng lu tăk tăh p
2.3.1 Lu tăk tăh pătrongăCSDL
G iăI = {I1, I2… Im}ălƠăt pămăthu cătínhăriêngăbi t,ăm iăthu cătínhăg iălƠăm tăm c.ă
G iăDălƠăm tăCSDL,ătrongăđóăm iăb năghiăt lƠăm tăgiaoăd chăvƠăch aăcácăt păm c,ăt
I
nhăngh aă1: M tălu t k t h p lƠăm tăbi uăth căcóăd ngăX Y,ătrongăđóăX, Y
I lƠăcácăt păm căg iălƠăcác itemset, vàXY.ă ăđơy,ăX đ căg iălƠăti năđ ,ăY là
m nhăđ ăk tăqu
Haiăthôngăs ăquanătr ngăc aălu tăk tăh pălƠăđ h tr (s) và đ tin c y (c)
nhăngh aă2: h tr c aălu tăk tăh păX Y lƠăt ăl ăph nătr măcácăb năghiă
Y
X v iăt ngăs ăcácăgiaoăd chăcóătrongăCSDL
nhăngh aă3: iăv iăm tăs ăgiaoăd chăđ căđ aăra,ăđ tin c y lƠăt ăl ăc aăs ă
giaoăd chăcóăch aăXY v iăs ăgiaoăd chăcóăch aăX.ă năv ătínhă%
Vi căkhaiăthácăcácălu tăk tăh păt ăCSDL chínhălƠăvi cătìmăt tăc ăcácălu tăcóăđ ă
h ătr ăvƠăđ ătinăc yăl năh năng ngăc aăđ ăh ătr ăvƠăđ ătinăc yădoăng iăs ăd ngăxácă
Trang 28Vi căkhaiăthácăcácălu tăk tăh păcóăth ăđ căphơnătíchăthƠnhăhaiăv năđ ăsauăđơy:ă
- Tìmăt tăc ăcácăt păph ăbi n cóăđ ăh ătr ăl năh năho căb ngăminsup
- T oăraăcácălu tămongămu năs ăd ngăcácăt păph ăbi n cóăđ ătinăc yăl năh nă
ho căb ngăminconf [5]
2.3.2 Tínhă ngăd ng
Lu tăk tăh păcóă ngăd ngătrongănhi uăl nhăv căkhácănhauăc aăđ iăs ngănh :ăkhoaăh c,ăho tăđ ngăkinhădoanh,ăti păth ,ăth ngăm i,ăphơnătíchăth ătr ngăch ngăkhoán,ătƠiăchínhăvƠăđ uăt , ă ngăd ngălu tăk tăh păph iăch ărõăcácăđ căđi măv :ăngu năg c,ăđi uăki năápăd ng,ăph măviă ngăd ng,ăm căđíchă ngăd ng.ăNh ngăđ că
đi mănƠyăđ căth ăhi năb ngămôăhìnhăsau:
Hình 2.4: Mô hình ng d ng lu t
Trongăđó:ă
- Yêuăc uăs ăd ng: lƠăph măviătínhă ngăd ngăc aăt pălu tăvíăd ănh ăv ăkhoaă
h c,ăkinhădoanh,ăti păth ,ăth ngăm i,ăphơnătíchăth ătr ngăch ngăkhoán, …
- Thamăchi uăđ năt pălu tăR: ăgiaiăđo nănƠyăcácăt pălu tăđ căthamăchi uăt iăđơyălƠăcácăt pălu tăđ căsinhăraăt ăCSDL ch aătácănhơnăyêuăc uăs ăd ng
- L aăch nălu t: ăb cănƠyăchúngătaăti năhƠnhăl căcácălu tăh uăíchănh tăph că
v ăchoăph măviăs ăd ng
- ngăd ng: đơyălƠăk tăqu ămongăđ iănh tăt ăkhiăb tăđ uăkhaiăthácăchoăđ năkhiăthiăhƠnhălu t
Môăhìnhă ngăd ngălu tăđưălƠmăsáng t ătínhă ngăd ngăc aăvi căkhaiăthácălu tăk tă
h pătrongăCSDL
Trang 29Th căt ,ă ngăd ngăc aăkhaiăthácălu tăk tăh pătrongăCSDL giáoăd c lƠăm tăph mătrùăc aăKPDL nênă ngăd ngăc aănóăr tăr ngăl n,ănh tălƠătrongăs ăphátătri năc aăxưăh iă
hi nănay NgoƠiăra,ăm tăt păh p conăđ căbi tăc aălu tăk tăh păg iălƠălu tăk tăh păl pă
(Class Association rules ậCARs) [13], [14], [16] dùngăđ ătíchăh păphơnălo iăvƠăkhaiăpháălu tăk tăh p
Tómăl i,ătínhă ngăd ngăc aăkhaiăthácălu tăk tăh pătrongăCSDL giáoăd c lƠăvi căngăd ngăcácăt pălu t tìmăth yătrongăđóănh măvƠoănh ngăm căđíchăc ăth ăvƠăđ tăđ că
k tăqu ăt t
2.4 K ăthu tăKPDL s ăd ngăcơyăquy tăđ nh
2.4.1 Gi iăthi uăk ăthu tăKPDL s ăd ngăcơyăquy tăđ nh
Trongănh ngăn măqua,ănhi uămôăhìnhăphơnăl păd ăli uăđưăđ căcácănhƠăkhoaă
h cătrongănhi uăl nhăv căkhácănhauăđ ăxu tănh ăNN, mô hình th ngăkêătuy nătínhăb că2,ăcơyăquy tăđ nh,ădiătruy n,ă….ăTrongăs ănh ngămôăhìnhăđó,ăcơyăquy tăđ nhăv iă
nh ngă uăđi măc aămìnhăđ căđánhăgiáălƠăm tăcôngăc ăm nh,ăph ăbi năvƠăđ căbi tăthíchăh păchoăKPDL nóiăchungăvƠăphơnăl păd ăli uănóiăriêngă[25]
Cóăth ăk ăraănh ngă uăđi măc aăcơyăquy tăđ nhănh :ăxơyăd ngăt ngăđ iănhanh;ă
đ năgi n,ăd ăhi u.ăH năn aăcácăcơyăcóăth ăd ădƠngăđ căchuy năđ iăsangăcácăcơuăl nhăSQLăđ ăcóăth ăđ căs ăd ngăđ ătruyănh păCSDL m tăcáchăhi uăqu ăCu iăcùng,ăvi căphơnăl păd aătrênăcơyăquy tăđ nhăđ tăđ căs ăt ngăt ăvƠăđôiăkhiălƠăchínhăxácăh năsoă
v iăcácăph ngăphápăphơnăl păkhácă[31]
2.4.2 Cácăv năđ ătrongăKPDL s ăd ngăcơyăquy tăđ nhă
Cácăv năđ ăđ căthùătrongăkhiăh căhayăphơnăl păd ăli uăb ngăcơyăquy tăđ nhăg m:ăxácăđ nhăđ ăsơuăđ ăphátătri năcơyăquy tăđ nh,ăx ălýăv iănh ngăthu cătínhăliênăt c,ăch năphépăđoăl aăch năthu cătínhăthíchăh p,ăs ăd ngăt păd ăli uăhu năluy n v iănh ngăgiáă
tr ăthu cătínhăb ăthi u,ăs ăd ngăcácăthu cătínhăv iănh ngăchiăphíăkhácănhau,ăvƠăc iăthi năhi uăn ngătínhătoán.ă
2.4.2.1 Tránhăắquáăkh p”ăd li u
Th ănƠoălƠăắquáăkh p”ăd ăli u?ăCóăth ăhi uăđơyălƠăhi năt ngăcơyăquy tăđ nhă
ch aăm tăs ăđ cătr ngăriêngăc aăt păd ăli uăhu năluy n,ăn uăl yăchínhăt păd ăli uă
hu năluy n đ ăki mătraăl iămôăhìnhăphơnăl păthìăđ ăchínhăxácăs ăr tăcao,ătrongăkhiăđ iă
Trang 30v iănh ngăd ăli uăt ngălaiăkhácăn uăs ăd ngăcơyăđóăl iăkhôngăđ tăđ căđ ăchínhăxácă
cao
Quá kh păd ăli uălƠăm tăkhóăkh năđángăk ăđ iăv iăh căb ngăcơyăquy tăđ nhăvƠă
nh ngăph ngăphápăh căkhác.ă căbi tăkhiăs ăl ngăm u trongăt păd ăli uăhu năluy n
quá ít, hay có nhi u trongăd ăli u.ă
Cóăhaiăph ngăphápătránhăắquáăkh p”ăd ăli uătrongăcơyăquy tăđ nh:ă
- D ng phát tri n cây s măh năbìnhăth ng,ătr căkhiăđ t t iăđi m phân l p
hoàn h o t p d li u hu n luy n V iăph ngăphápănƠy,ăm t thách th căđ t
ra là ph iă căl ng chính xác th iăđi m d ng phát tri n cây
- Cho phép cây có th ắquáăkh p”ăd li u,ăsauăđóăs c t, t a cây
M cădùăph ngăphápăth ănh tăcóăv ătr căti păh n,ănh ngăv iăph ngăphápăth ăhaiăthìăcơyăquy tăđ nhăđ căsinhăraăđ căth cănghi măch ngăminhălƠăthƠnhăcôngăh nătrongăth căt ăH năn aăvi căc tăt aăcơyăquy tăđ nhăcònăgiúpăt ngăquátăhóa,ăvƠăc iăthi nă
đ ăchínhăxácăc aămôăhìnhăphơnăl p.ăDùăth căhi năph ngăphápănƠoăthìăv năđ ăm uă
ch tă ăđơyălƠătiêuăchu nănƠoăđ căs ăd ngăđ ăxácăđ nhăkíchăth căh pălýăc aăcơyăcu iă
cùng
2.4.2.2 Thao tác v i thu c tính liên t c
Vi căthaoătácăv iăthu cătínhăliênăt cătrênăcơyăquy tăđ nhăhoƠn toƠnăkhôngăđ nă
gi nănh ăv iăthu cătínhăr iăr c
Thu cătínhăr iăr căcóăt p giá tr (domain)ăxácăđ nhăt ătr căvƠălƠăt păh păcácă giáătr ăr iăr c.ăVíăd ălo i ô tô lƠăm tăthu cătínhăr iăr căv iăt păgiáătr ălƠ:ă{xeăt i,ăxeă
khách,ăxeăcon,ătaxi}.Vi căphơnăchiaăd ăli uăd aăvƠoăphépăki mătraăgiáătr ăc aăthu cătínhăr iăr căđ căch năt iăm tăvíăd ăc ăth ăcóăthu căt păgiáătr ăc aăthu cătínhăđóăhayă
không: value (A) X v i X domain (A).ă ơyălƠăphépăki mătraălogicăđ năgi n,ăkhôngă
t nănhi uătƠiănguyênătínhătoán.ăTrongăkhiăđó,ăv iăthu cătínhăliênăt că(thu cătínhăd ngă
s )ăthìăt păgiáătr ălƠăkhôngăxácăđ nhătr c.ăChínhăvìăv y,ătrongăquáătrìnhăphátătri năcơy,ă
c nă s ă d ngă ki mă traă d ngă nh ă phơn:ă value (A) ≤ ă V iă ă lƠă h ng s ng ng
(threshold)ăđ căl năl tăxácăđ nhăd aătrênăt ngăgiáătr ăriêngăbi tăhayăt ngăc păgiáătr ă
li nănhauă(theoăth ăt ăđưăs păx p)ăc aăthu cătínhăliênăt căđangăxemăxétătrongăt păd ă
li uăhu năluy n.ă i uăđóăcóăngh aălƠăn uăthu cătínhăliênăt căA trongăt păd ăli uăhu nă
Trang 31luy n có d giáătr ăphơnăbi tăthìăc năth căhi năd-1 l năki mătraăvalue (A) ≤ i v iăi =
1 d-1 đ ătìmăraăng ngă bestt tănh tăt ngă ngăv iăthu cătínhăđó.ăVi căxácăđ nhăgiáă
tr ăc aă vƠătiêuăchu nătìmă t tănh tătùyăvƠoăchi năl căc aăt ngăthu tătoán [12], [24]
2.4.2.3 ánhăgiáăcơyăquy tăđ nhătrongăl nhăv c KPDL
2.4.2.3.1 uăđi m c a cây quy tăđ nh [4]:
- Kh n ngăsinhăraăcácălu t d hi u
Cơyăquy tăđ nhăcóăkh ăn ngăsinhăraăcácălu t cóăth ăchuy năđ iăđ căsangăd ngă
ti ngăAnh,ăho căcácăcơuăl nhăSQL,ăđơyălƠă uăđi măn iăb tăc aăk ăthu tănƠy.ăTh măchíă
v iănh ngăt păd ăli uăl năkhi năchoăhìnhădángăcơyăquy tăđ nhăl năvƠăph căt p,ăvi căđiătheoăb tăc ăđ ngănƠoătrênăcơyălƠăd ădƠngătheoăngh aăph ăbi năvƠărõărƠng.ăDoăv yă
s ăgi iăthíchăchoăb tăc ăm tăs ăphơnăl păhayăd ăđoánănƠoăđ uăt ngăđ iăminhăb ch
- Kh n ngăth c thi trong nh ngăl nhăv căh ng s d ng lu t
i uănƠyăcóăngheăcóăv ăhi nănhiên,ănh ngălu t quyăn pănóiăchungăvƠăcơyăquy tă
đ nhănóiăriêngălƠăl aăch năhoƠnăh oăchoănh ngăl nhăv cămang tính quyăt c.ăR tănhi uă
l nhăv căt ădiătruy năt iăcácăquáătrìnhăcôngănghi păth căs ăch aăcácăquyăt că n,ăkhôngă
rõ ràng (underlying rules)ădoăkháăph căt păvƠăt iăngh aăb iănh ngăd ăli uăl i,ănhi u Cơyăquy tăđ nhălƠăm tăs ăl aăch năt ănhiênăkhiăchúngătaănghiăng ăs ăt năt iăc aăcác quyăt că n,ăkhôngărõăràng
- D dàng tính toán trong khi phân l p
M cădùănh ăchúngătaăđưăbi t,ăcơyăquy tăđ nhăcóăth ăch aănhi uăđ nhăd ng,ănh ngătrongăth căt ,ăcácăthu tătoánăs ăd ngăđ ăt oăraăcơyăquy tăđ nhăth ngăt oăraănh ngăcơyăv iăs ăphơnănhánhăth păvƠăcácătestăđ năgi năt i t ngănode.ăNh ngătestăđi năhìnhălƠ:ăsoăsánhăs ,ăxemăxétăph năt ăc aăm tăt păh p,ăvƠăcácăphépăn iăđ năgi n.ăKhiăth căthiătrênămáyătính,ănh ngătestănƠyăchuy năthƠnhăcácătoánăhƠmălogicăvƠăs ănguyênălƠă
nh ngătoánăh ngăth căthiănhanhăvƠăkhôngăđ t.ă ơyălƠăm tă uăđi măquanătr ngăb iătrongămôiătr ngăth ngăm i,ăcácămôăhìnhăd ăđoánăth ngăđ căs ăd ngăđ ăphơnăl păhƠngătri uăth mătríăhƠngăt ăb năghi.ă
- Kh n ngăx lý v i c thu c tính liên t c và thu c tính r i r c
Cơyăquy tăđ nhăx ălýăắt t”ănh ănhauăv iăthu cătính liênăt căvƠăthu cătínhăr iă
r c.ăTuyăr ngăv iăthu cătínhăliênăt căc nănhi uătƠiănguyênătínhătoánăh n.ăNh ngăthu că
Trang 32tínhăr iăr căđưăt ngăgơyăraănh ngăv năđ ăv iăm ngăneuralăvƠăcácăk ăthu tăth ngăkêăl iă
th căs ăd ădƠngăthaoătácăv iăcácătiêu chu n phân chia (splittingăcriteria)ătrênăcơyăquy tă
đ nh:ăm iănhánhăt ngă ngăv iăt ngăphơnătáchăt păd ăli uătheoăgiáătr ăc aăthu cătínhă
đ căch năđ ăphátătri năt iănodeăđó.ăCácăthu cătínhăliênăt căc ngăd ădƠngăphơnăchiaă
b ngăvi căch năraăm tăs ăg iălƠăng ngătrongăt păcácăgiáătr ăđưăs păx păc aăthu cătínhăđó.ăSauăkhiăch năđ căng ngăt tănh t,ăt păd ăli uăphơnăchiaătheoătestănh ăphơnăc aă
ng ngăđó
- Th hi n rõ ràng nh ng thu c tính t t nh t
Cácăthu tătoánăxơyăd ngăcơyăquy tăđ nhăđ aăraăthu cătínhămƠăphơnăchiaăt tănh tă
t păd ăli uăđƠoăt oăb tăđ uăt ănodeăg căc aăcơy.ăT ăđóăcóăth ăth yănh ngăthu cătínhănƠoălƠăquanătr ngănh t choăvi căd ăđoánăhayăphơnăl p
2.4.2.3.2 Nh căđi m c a cây quy tăđ nh
Dùăcóănh ngăs căm nhăn iăb tătrên,ăcơyăquy tăđ nhăv năkhôngătránhăkh iăcóă
nh ngănh căđi m.ă óălƠăcơyăquy tăđ nhăkhôngăthíchăh păl măv iănh ngăbƠiătoánăv iă
m cătiêuălƠăd ăđoánăgiáătr ăc aăthu cătínhăliênăt cănh ăthuănh p,ăhuy tăápăhayălưiăsu tăngơnăhƠng…ăCơyăquy tăđ nhăc ngăkhóăgi iăquy tăv iănh ngăd ăli uăth iăgianăliênăt că
n uăkhôngăb ăra nhi uăcôngăs căchoăvi căđ tăraăs ăbi uădi năd ăli uătheoăcácăm uăliênă
t c.ă
- D x y ra l i khi có quá nhi u l p
M tăs ăcơyăquy tăđ nhăch ăthaoătácăv iănh ngăl păgiáătr ănh ăphơnăd ngăyes/no
hay accept/reject.ăS ăkhácăl iăcóăth ăch ăđ nhăcácăb năghiăvƠoăm tăs ăl păb tăk ,ănh ngă
d ăx yăraăl iăkhiăs ăvíăd ăhu năluy n ngăv iăm tăl pălƠănh ă i uănƠyăx y ra càng nhanhăh năv iăcơyămƠăcóănhi uăt ngăhayăcóănhi uănhánhătrênăm tănode.ă
- Chiăphíătínhătoánăđ tăđ hu n luy n
i uănƠyăngheăcóăv ămơuăthu năv iăkh ngăđ nhă uăđi măc aăcơyăquy tăđ nhă ătrên.ăNh ngăquáătrìnhăphátătri năcơyăquy tăđ nhăđ tăv ăm tătínhătoán.ăVìăcơyăquy tă
đ nhăcóăr tănhi uănodeătrongătr căkhiăđiăđ năláăcu iăcùng.ăT iăt ngănode,ăc nătínhă
m tăđ đo (hay tiêu chu n phân chia) trênăt ngăthu cătính, v iăthu cătínhăliênăt căph iă
thêm thao tác s păx păl iăt păd ăli uătheoăth ăt ăgiáătr ăc aăthu cătínhăđó.ăSauăđóăm iăcóăth ăch năđ căm tăthu cătínhăphátătri năvƠăt ngă ngălƠăm tăphơnăchiaăt tănh t.ă
Trang 33M tăvƠiăthu tătoánăs ăd ngăt ăh păcácăthu cătínhăk tăh păv iănhauăcóătr ngăs ăđ ăphátătri năcơyăquy tăđ nh.ăQuáătrìnhăc tăt a cơyăc ngăắđ t”ăvìănhi uăcơyăconă ngăc ăph iă
đ căt oăraăvƠăsoăsánh
2.4.3 Xơyăd ngăcơyăquy tăđ nhă
Quáătrìnhăxơyăd ngăcơyăquy tăđ nhăg măhaiăgiaiăđo n:
- Giaiăđo năth ănh t: phátătri năcơyăquy tăđ nh:ăGiaiăđo nănƠyăphátătri năb tă
đ uăt ăg c,ăđ năt ngănhánhăvƠăphátătri năquyăn pătheoăcáchăth căchiaăđ ătr ăchoăt iăkhiăđ tăđ căcơyăquy tăđ nhăv iăt tăc ăcácăláăđ căgánănhưnăl p
- Giaiăđo năth ăhai: c t,ăt aăb tăcácănhánhătrênăcơy quy tăđ nh.ăGiaiăđo nănƠyă
nh măm căđíchăđ năgi năhóaăvƠăkháiăquátăhóaăt ăđóălƠmăt ngăđ ăchínhăxácă
c aăcơyăquy tăđ nhăb ngăcáchălo iăb ăs ăph ăthu căvƠoăm căđ ănhi u,ăl i c aă
d ăli uăhu năluy n mangătínhăch tăth ngăkê,ăhayănh ngăs ăbi năđ iămƠăcóăth ălƠăđ cătínhăriêngăbi tăc aăd ăli uăhu năluy n.ăGiaiăđo nănƠyăch ătruyăc păd ă
li uătrênăcơyăquy tăđ nhăđưăđ căphátătri nătrongăgiaiăđo nătr căvƠăquáătrìnhă
th cănghi măchoăth yăgiaiăđo nănƠyăkhôngăt nănhi uătƠiănguyênătínhătoán,ă
nh ăv iăph năl năcácăthu tătoán,ăgiaiăđo nănƠyăchi măkho ngăd iă1%ăt ngă
th iăgianăxơyăd ngămôăhìnhăphơnăl pă[24], [25]
Doăv y,ă ăđơyătôi ch ăt pătrungăvƠoănghiênăc u giaiăđo năphátătri năcơyăquy tă
đ nh.ăD iăđơyălƠăkhungăcôngăvi căc aăgiaiăđo nănƠy:ă
- B că1:ăCh năthu cătínhăắt t”ănh tăb ngăm tăđ ăđoăđưăđ nhătr c
- B că2:ăPhátătri năcơyăb ngăvi căthêmăcácănhánhăt ngă ngăv iăt ng giáătr ă
c aăthu cătínhăđưăch n
- B că3:ăS păx p,ăphơnăchiaăt păd ăli uăhu năluy năt iănodeăcon
- B că4:ăN uăcácăvíăd ăđ căphơnăl părõărƠngăthìăd ng.ăNg căl i:ăl păl iă
b c 1ăt iăb că4ăchoăt ngănodeăcon
Trang 342.4.4 Thu tătoánăs ăd ngăxơyăd ngăcơyăquy tăđ nh
2.4.4.1 Thu tătoánăCLS
Thu tă toánă nƠyă đ că Hoveland và Huntă gi iă thi uă trongă Conceptă Learningă
System (CLS) vƠoănh ngăn mă50ăc aăth ăk ă20.ăSauăđóăg iăt tălƠăthu tătoánăCLS.ăThu tătoánănƠyăđ căthi tăk ătheoăchi năl căchiaăđ ătr ăt ătrênăxu ng
Thu tătoánăCLSălƠăm tătrongănh ngăthu tătoánăraăđ iăs mănh t.ăNóăch ăápăd ngă
cho các CSDL ch aăít thu cătính,ăgiáătr ăcácăthu cătínhăd ngăphơnălo iăhayăr iăr c.ăCònăđ iăv iăcácăCSDLăl năvƠăcóăch aăcácăthu cătínhămƠăgiáătr ăc aănóălƠăliênăt căthìăCLSălƠmăvi căkhôngăhi uăqu ăThu tătoánăcóăth ăchoăcácăk tăqu ăkhácănhauăv iăcùngă
m tăt păd ăli uăđ uăvƠo.ăB iăvì,ăthu tătoánănƠyăch aăcóătiêuăchíăđ ăl aăch năthu cătínhătrongăquáătrìnhăxơyăd ngăcơy.ăNh ngăđơyălƠăthu tătoánăđ năgi n,ăd ăcƠiăđ t,ăphùăh pătrongăvi căhìnhăthƠnhăýăt ngăvƠăgi iăquy tănh ngănhi măv ăđ năgi n
Chiăti tăv ăthu tătoánăxemătrongă[7]
2.4.4.2 Thu tătoánăID3 (Interactive Dichotomizer 3)
Thu tătoánăID3ăđ căphátătri năb iăQuinlanăvƠăđ căcôngăb ăvƠoăcu iăth păniênă70ăc aăth ăk ă20.ăSauăđó,ăthu tătoánăID3ăđ căgi iăthi uăvƠătrìnhăbƠyătrongăm căInductionăonăDecitionăTrees,ăMachineăLearningăn mă1986.ăID3ăđ căxemănh ălƠăm tă
c iăti năc aăCLSăv iăkh ăn ngăl aăch năthu cătínhăt tănh tăđ ăti păt cătri năkhaiăcơyă
t iăm iăb c.ăID3ăxơyăd ngăcơyăquy tăđ nhăt ătrênăxu ngă(top-down) [18]
- Entropy:ădùngăđ ădoătínhăthu nănh tăc aăm tăt păd ăli u.ăEntropyăc aăm tăt pă
Săđ cătínhătheoăcôngăth că(2.1) [18]
+ Trong tr ngăh păcácăm uăd ăli uăcóăhaiăthu cătínhăphơnăl păắYes”ă(+),ăắNo”ă
(-).ăKýăhi uă lƠăđ ăch ăt ăl ăcácăm uăcóăgiáătr ăc aăthu cătínhăquy tăđ nhălƠăắYes”,ăvƠăhi uă lƠăđ ăch ăt ăl ăcácăm uăcóăgiáătr ăc aăthu cătínhăquy tăđ nhălƠăắNo”ătrongăt păS
+ Tr ngăh păt ngăquát,ăđ iăv iăt păconăSăcóănăphơnăl păthìătaăcóăcôngăth că
sau:
Trang 35Entropy S (2.2)
Trongăđó lƠăt ăl ăcácăm uăthu căl păi trênăt păh păSăcácăm uăki mătra
+ Cácătr ngăh păđ căbi t
N uăt tăc ăcácăm uăthƠnhăviênătrongăt păSăđ u thu căcùngăm tăl păthìă
Entropy (S) = 0
N uătrongăt păSăcóăs ăm uăphơnăb ăđ uănhauăvƠoăcácăl păthìăEntropy(S)=1 Cácătr ngăh păcònăl iă0ă<ăEntropyă(S)ă<ă1
- Information Gain (vi tăt tălƠăGain):ăGainălƠăđ iăl ngădùngăđ ăđoătínhăhi uăqu ă
c aăm tăthu cătínhăđ căl aăch năchoăvi căphơnăl p.ă iăl ngănƠyăđ cătínhă
thông qua hai giáătr ăInformation và Entropy [7]
+ Choăt păd ăli uăSăg măcóănăthu cătínhă giáătr ăInformationă
(2.3) + Giáătr ăGainăc aăthu cătínhăAătrongăt păSăkýăhi uălƠăGaină(S,ăA)ăvƠăđ cătínhătheoăcôngăth căsau
Trong đó:
SălƠăt păh păbanăđ uăv iăthu cătínhăA.ăCácăgiáătr ăc aăvăt ngă ngălƠăcácăgiáătr ăc aăthu cătínhăA
b ngăt păh păconăc aăt păSămƠăcóăthu cătínhăAămangăgiáătr ăv
lƠăs ăph năt ăc aăt pă
là s ph n t c a t p Trong quá trình xây d ngăcơyăquy tăđ nhătheoăthu tătoánăID3ăt iăm iăb cătri năkhaiăcơy,ăthu cătínhăđ căch năđ ătri năkhaiălƠăthu cătínhăcóăgiáătr ăGainăl nănh t
Trang 36Thu tătoánăID3ă[2] [18]
ID3 (Examples, Target_attribute, Attributes)
Examples lƠăt păhu năluy n.ăTarget_attribute lƠăthu cătínhăcóăgiáătr ăđ ăd ăđoánă
cho cây Attributes lƠăm tădanhăsáchăcácăthu cătínhăkhácădùngăki mătraăvi căh căc aăcơyăquy tăđ nh.ăK tăqu ătr ăv ăm tăcơyăquy tăđ nhăđ căphơnălo iăchínhăxácăb iănh ngă
t păhu năluy n
T o m t nút Root cho cây
If t t c t p Examples có trong cây, Return cây có nút Root duy nh tăđ c
gán v iănhưnăắ+”
If t t c t p Examples không có trong cây, Return cây có nút Root duy nh t
đ c gán v iănhưnăắ-”
If t p Attributes r ng, Return cây có nút Root duy nh tăđ c gán v i nhãn
là giá tr ph bi n nh t c a t p Target_attribute trong t p Examples
N u không Begin
o A Thu c tính trong t p Attributes có kh n ngăphơnălo i t t nh tăđ i v i
t p Examples
o Thu c tính quy tăđ nh cho nút Root A
o For each giá tr có trong cây, vi c a thu c tính A
Thêm m t nhánh cây m iăd i nút Root,ăt ngă ng v iătr ng h p A
= vi
c a A
• D i nhánh m i này thêm m t nút lá v i nhãn là giá tr ph bi n nh t
c a t p Target_attribute trong t p Examples
• Else d i nhánh m i này thêm cây con
ID3 ( , Target_attribute, Attributes – {A})
End
Return Root
Trang 37V iăvi cătínhătoánăgiáătr Gainăđ ăl aăch năthu cătínhăt iă uăchoăvi cătri năkhaiăcơy,ăthu tătoánăID3ăđ căxemălƠăm tăc iăti năc aăthu tătoánăCLS
Khiăápăd ngăthu tătoánăID3ăchoăcùngăm tăt păd ăli uăđ uăvƠoăvƠăth ănhi uăl năthìăchoăcùngăm tăk tăqu ăB iăvì,ăthu cătínhă ngăviênăđ c l aăch nă ăm iăb cătrongăquáătrìnhăxơyăd ngăcơyăđ căl aăch nătr c.ă
Tuyănhiên,ăthu tătoánănƠyăc ngăch aăgi iăquy tăđ căv năđ ăthu cătínhăs ,ăliênă
t c,ăs ăl ngăcácăthu cătínhăcònăb ăh năch ăvƠăgi iăquy tăh năch ăv iăv năđ ăd ăli uă
b ăthi u ho cănhi u
2.4.4.3 Thu tătoánăC4.5
Thu tătoánăC4.5ăđ căphátătri năvƠăcôngăb ăb iăQuinlanăvƠoăn mă1996.ăThu tătoánăC4.5ălƠăm tăthu tătoánăđ căc iăti năt ăthu tătoánăID3ăv iăvi căchoăphépăx ălýătrênăt păd ăli uăcóăcácăthu cătínhăs ăvƠălƠmăvi căđ căv iăt păd ăli uăthi uăvƠăd ăli uănhi u.ăNóăth căhi năphơnăl păt păm uăd ăli uătheoăchi năl că uătiênătheoăchi uăsơu.ăThu tătoánăxétăt tăc ăcácăphépăth ăcóăth ăđ ăphơnăchiaăt păd ăli uăđưăchoăvƠăch năraă
m tăphépăth ăcóăgiáătr ăGainRatioăt tănh t.ăGainRatioălƠăm tăđ iăl ngăđ ăđánh giá
đ ăhi uăqu ăc aăthu cătính,ădùngăđ ăth căhi năphépătáchătrongăthu tătoánăđ ăphátătri năcơyăquy tăđ nh.ăGainRatioăđ cătínhăd aătrênăk tăqu ătínhătoánăđ iăl ngăInformationăGainătheoăcôngăth căsau
(2.5)
V iă
Trongăđó:
- Valueă(X)ălƠăt păcácăgiáătr ăc aăthu cătínhăX
- lƠăt păconăc aăt păTă ngăv iăthu c tínhăXă=ăgiáătr ălƠă
iăv iăcácăthu cătính liênăt c,ăchúngătaăti năhƠnhăphépăth ănh ăphơnăchoăm iăgiáătr ăc aăthu cătínhăđó.ă ăthuăth păđ căgiáătr ăEntropyăGainăc aăt tăc ăcácăphépă
th ănh ăphơnăm tăcáchăh uăhi uătaăti năhƠnhăs păx păcácăd ăli uătheoăgiáătr ăc aăthu cătínhăliênăt căđóăb ngăthu tătoán Quicksort
Trang 38Thu tătoánăxơyăd ngăcơyăquy tăđ nhăC4.5ăxem thêm trong [7], [19]
M tăs ăcôngăth căđ căs ăd ng
(2.7) (2.8)
Côngăth că(2.8)ăđ c s ăd ngălƠmătiêuăchu năđ ăl aăch năthu cătínhăkhiăphơnă
l p.ăThu cătínhăđ căch nălƠăthu cătínhăcóăgiáătr ăGainătínhătheoă(2.8)ăđ tăgiáătr ăl nă
nh t
M tăs ăc iăti năc aăthu tătoánăC4.5
- LƠmăvi căv iăthu cătínhăđaătr
Tiêuăchu nă(2.8)ăcóăm tăkhuy tăđi mălƠăkhôngăch pănh năcácăthu cătínhăđaătr ăVìă v y,ă thu tă toánă C4.5ă đưă đ aă raă cácă đ iă l ngă GainRatioă vƠă SplitInfoă(SplitInformation),ăchúngăđ căxácăđ nhătheoăcácăcôngăth căsau:
Giáătr ăSplitInfoălƠăđ iăl ngăđánhăgiáăthôngătinăti măn ngăthuănh p đ căkhiăphơnăchiaăt păTăthƠnhănăt păh păcon
GainRatioălƠătiêuăchu năđ ăđánhăgiáăvi căl aăch năthu cătínhăphơnălo i
- LƠmăvi căv iăd ăli uăthi u
Thu tătoánăv aăxơyăd ngăd aăvƠoăgi ăthuy tăt tăc ăcácăm uăd ăli uăcóăđ ăcácăthu cătính.ăNh ngătrongăth căt ,ăx yăraăhi năt ngăd ăli uăb ăthi u,ăt călƠă ăm tăs ă
m uăd ăli uăcóănh ngăthu cătínhăkhôngăđ căxácăđ nh,ăho cămơuăthu n,ăkhôngăbìnhă
th ng.ăTaăxemăxétăk ăh năv iătr ngăh păd ăli uăb ăthi u.ă năgi nănh tălƠăkhôngă
đ aăcácăm uăv iăcácăgiáătr ăb ăthi uăvƠo,ăn uălƠmănh ăv yăthìăcóăth ăd năđ nătìnhătr ngăthi uăcácăm uăh c.ăGi ăs ăTălƠăm tăt păh păg măcácăm uăc năđ căphơnălo i,ăXălƠăphépăki mătraătheoăthu cătínhăL,ăUălƠăs ăl ngăcácăgiáătr ăb ăthi uăc aăthu cătínhăL.ăKhiăđóătaăcó:
Trang 39(2.13),ătaăc năx ălýănh ăth ănƠoăv iăcácăd ăli uăb ăthi u.ăGi ăs ăm uăt ăt păh păTăv iă
đ uăraălƠă cóăliênăquanăđ năt păh pă thìăkh ăn ngăm uăđóăthu căt păh pă là 1
Gi ăs ăm iăm uătrongă cóăm tăch ăs ăxácăđ nhăxácăsu tăthu căt păh p ăN uă
m uăcóăcácăgiáătr ăthu cătínhăLăthìăcóătr ngăs ăb ngă1.ăN uătrongătr ngăh păng că
Taăcóăth ăd ădƠngăth yăđ căr ng t ngăcácăxácăsu tănƠyăb ngă1
(2.15)
Tómăl iăgi iăphápănƠyăđ căphátăbi uănh ăsau:ăXácăsu tăxu tăhi năc aăcácăgiáă
tr ăb ăthi uăt ăl ăthu năv iăxácăsu tăxu tăhi năc aăcácăgiáătr ăkhôngăthi u
Trongăthu tătoánănƠyăđưăgi iăquy tăđ căv năđ ălƠmăvi căv iăthu cătínhăs ă(liênă
t c),ăthu cătínhăcóănhi uăgiáătr ăvƠăv năđ ăd ăli uăb ăthi u,ănhi u.ăTrongăC4.5ăth că
hi năvi căphơnăng ngăv iăthu cătínhăs ăb ngăphépătáchănh ăphơnăđ aăvƠoăđ iăl ngă
GainRatio thayăth ăchoăđ iăl ngăGainăc aăID3.ă ăgi iăquy tăđ căv năđ ăthu cătínhăcóănhi uăgiáătr ă