1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT

78 810 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 1,45 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPTỨNG DỤNG KHAI PHÁ DỮ LIỆU CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT

Trang 1

B ăGIÁOăD CăVÀOă ÀOăT O

NGăD NGăKHAIăPHỄăD ăLI U

CH NăNGÀNHăNGH ăCHOăH CăSINHăTHPT

LU NăV NăTH CăS ăKHOAăH CăMỄYăTệNH

TP.ăH ăCHệăMINHă- 2014

Trang 2

B ăGIÁOăD CăVÀOă ÀOăT O

NGăD NGăKHAI PHÁ D ăLI U

CH NăNGÀNHăNGH CHOăH CăSINHăTHPT

CHUYểNăNGÀNH:ăKHOAăH CăMÁYăTệNH

MẩăS :ă60.48.01

LU NăV NăTH CăS KHOAăH CăMỄYăTệNH

TS.ăVÕă ÌNHăB Y

TP.ăH ăCHệăMINHă- N M 2014

Trang 3

CHU NăYăC AăH Iă NGăB OăV ăLU NăV N

Lu năv năt aăđ : ắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ăchoăh căsinhă

THPT” công trình đ căắNguy nă ngăTh ăVinh” th căhi năvƠăn pănh măth a

m tăph năyêuăc uăt tănghi păth căs ăchuyên ngƠnhăKhoaăH căMáyăTính

Ch ăt chăH iăđ ng Gi ngăviênăh ngăd n

………

………

TS.ăBùiăV năMinh TS.ăVõă ìnhăB y

Ngày… tháng … n m 2014 Ngày… tháng … n m 2014

Ngày b o v lu n v n, Tp.HCM, Ngày 11 tháng 5 n m 2014

Vi nă ƠoăT oăSauă iăH c

Tr ngă iăh căQu căt ăH ngăBƠng

………

Trang 4

Th iăgian N iăcôngătác Ch căv

2003-2004 Công ty CP máy tính Scitec P.Tr ngăphòngăk ăthu t

2005-2009 Tr ngăCaoăđ ngăGTVTă3 Qu nălýăgiáoăv ăvƠăgi ngăd yăt iătrungă

Trang 5

Khôngăcóăs năph m/ănghiênăc uănƠoăc aăng iăkhácăđ căs ăd ngătrongălu năv nănƠyămƠăkhôngăđ cătríchăd nătheoăđúngăquyăđ nh

Trang 6

L IăC Mă N

L iăđ uătôiăxinăchơnăthƠnhăc mă năTS.ăVõă ìnhăB yăđưăt nătìnhăh ngăd n,ăch ă

b oătôiătrongăsu tăth iăgianăth căhi nălu năv n

TôiăxinăbƠyăt ălòngăbi tă năđ năcácăth yăcôătrongăVi n Ơoăt oăSauă iăh că

tr ngă iăh c Qu căt ăH ngăBƠngăđưăcungăc pănh ngăki năth căquýăbáuăchoătôiătrongăsu tăquáătrìnhăh căt păvƠănghiênăc uăt iătr ng

Tôiăc ngăxinăg iăl iăc mă năđ năgiaăđình,ăb năbèăvƠănh ngăng iăthơnăluônăquanătơmăvƠăgiúpăđ ătôiătrongăsu tăth iăgianăh căt păvƠălƠmălu năv n.ăă

Doăth iăgianăvƠăki năth căcóăh nănênălu năv năch căkhôngătránhăkh iănh ngăthi uăsótănh tăđ nh.ăTôiăr tămongănh năđ căs ăgópăýăquýăbáuăc aăth yăcô.ăăă

Trang 7

TĨM T T

Phơnăl păd ăli uălƠăm tătrongănh ngăh ngănghiênăc uăchínhăc aăKPDL Cơng ngh ănƠyăcĩănhi uă ngăd ngătrongăl nhăv căth ngăm i,ăngơnăhƠng,ăyăt ,ăgiáoăd c, … Trongăcácămơăhìnhăphơnăl păđưăđ căđ ăxu t,ăcơyăquy tăđ nhăđ căcoiălƠăm tăcơngăc ăm nh,ăph ăbi năvƠăđ căbi tăthíchăh păv iăcácă ngăd ngăKPDL

Quaătìmăhi uănh ngăch căn ngăc aăKPDL,ălu năv năt pătrungăvƠoănghiênăc uăcácăk ăthu tăphơnăl păb ngăcơyăquy tăđ nh.ăHi uăđ căcácăthu tătốnăhi uăqu ăg năđơy,ăt ăđĩăn măđ cănh ngăđi măchínhăc năquanătơmăgi iăquy tătrongăm iăk ăthu tăkhaiăpháătriăth cătrênăCSDLăkh oăsátăl aăch năngƠnhăh c

Trongăs ăcácăthu tătốn th ngădùngăchoăbƠiătốnăphơnăl p,ăthu tătốnăC4.5ăcĩă

đ ăchínhăxácăkháăcao,ăch yănhanhăvƠăd ăhi uăđ iăv iăng iădùng,ănh ngăn uăt păd ă

li uăcĩănhi uăthu cătínhăthìăcơyăquy tăđ nhăthuăđ căc ngăs ăkhĩăhi u;ăthu tătốnăNạveăBayesăthi uăchínhăxácăđ iăv iăcácăthu cătínhăph ăthu căl nănhauăvƠăkhĩăhi u.ăKhiăápăd ng k tăh păcácăbi năphápăti năx ălý l yăm uăd đ iăv iăl păthi uăs ăvƠ l yă

m uăthi u đ iăv iăl păđaăs ,ăk tăqu ăphơnăl păs ăt tăh n,ănh ngăvi căti năx ălýănƠyăđịiăh iăph iăcĩăki năth căsơu,ăkhơngăphùăh păv iăng iădùngăkhơngăchuyên;ăthu tă

tốn Neural Network cĩăđ ăchínhăxácăcaoănh ngămơăhìnhăkhĩăhi uăđ iăv iăng iădùngăvƠăth iăgianăch yăth ngăl n

Lu năv năs ăd ngăthu tătốn ID3,ăchoăraămơăhìnhăphơnăl pălƠăm tăt pălu tăd iă

d ngăcơyăr tăđ năgi năvƠăd ăhi u,ăcĩăđ ăchínhăxácăkháăcaoăvƠăth iăgianăch yăch pă

nh n đ c.ăThu tătốn đ căxơyăd ngătrênăn năwebsite,ăthu năti năchoăng iăs ăd ngă

ăb tăc ăn iăđơuăcĩăk tăn iăinternet

Trang 8

ABSTRACT

Classification is one of the main research directions of data mining This technology has many applications in the fields of commerce, banking, health, education, etc

In the classification model has been proposed, decision trees are considered powerful tool, common and suitable particularly for data mining applications

By studying the basic functions of data mining, thesis focused on the research techniques by decision tree classifier Understand the recent efficient algorithms, which understand the main points of interest in each technique solving exploration database knowledge on the education

Among the mostly used algorithms for the classification task, C4.5 can provide decision trees which be easy to interpret, yet their interpretability may diminish the more they become complex; Nạve Bayes networks are both inaccuracy for interdependence attributes and difficult to understand When we combine oversampling the rare classes and undersampling the majority ones, classification performance will be better, but this preprocessing technique requires thorough knowledge, not suitable to non-professional users; Neural Networks have high classification accuracy but cannot produce easy to understand classification models for users and its running time is usually long

This thesis using ID3 algorithm whose resulting classification models are set of classification rules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable run time The algorithm is built on the web,

convenient for user in anywhere with an internet connection

Trang 9

M CăL C

L IăCAMă OAN ii

L IăC Mă N iii

TịMăT T iv

ABSTRACT v

M CăL C vi

DANHăM CăHỊNHăV ix

DANHăM CăB NG x

DANHăM CăT ăVI T T T xi

CH NGă1:ăT NGăQUAN 1

1.1 Lýădoăch nălu năv n 1

1.2 M cătiêuănghiênăc u 2

1.3 iăt ngăvƠăph măviănghiênăc u 2

1.3.1 iăt ngănghiênăc u 2

1.3.2 Ph măviănghiênăc u 2

1.4 Nhi măv ănghiênăc u 3

1.5 Ph ngăphápănghiênăc u 3

1.6 ụăngh aăc aălu năv n 3

1.6.1 ụăngh aăkhoaăh c 3

1.6.2 ụăngh aăth căti n 3

1.7 C uătrúcălu năv n 4

CH NGă2:ăC ăS ăLụăTHUY T 5

2.1 T ngăquanăv ăkhaiăpháăd ăli u 5

2.1.1 Khaiăpháăd ăli uălƠăgì? 5

2.1.2 Quá trình KPDL 5

Trang 10

2.2 Phơnăl pătrongăKPDL 7

2.2.1 Phơnăl păd ăli u 7

2.2.2 Phơnăl păd ăli uăb ngăcơyăquy tăđ nh 9

2.2.3 Phơnăl păd ăli uăb ngăgi iăthu tăh căILA 10

2.2.4 Phơnăl păd ăli uăb ngăm ngăNạveăBayes 11

2.2.5 Phơnăl păd ăli uăb ngăNeuralăNetwork 12

2.3 KPDLăs ăd ngălu tăk tăh p 13

2.4 K ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh 15

2.4.1 Gi iăthi uăk ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh 15

2.4.2 Cácăv năđ ătrongăKPDLăs ăd ngăcơyăquy tăđ nh 15

2.4.3 Xơyăd ngăcơyăquy tăđ nh 19

2.4.4 Thu tătốnăs ăd ngăxơyăd ngăcơyăquy tăđ nh 20

2.4.5 C tăt aăcơyăquy tăđ nh 26

2.4.6 ánhăgiáăđ ăchínhăxácăc aămơăhìnhăphơnăl p 28

2.4.7 Cácăcơngătrìnhănghiênăc uătr căđơyăliênăquanăđ nălu năv n 29

CH NGă3:ăXỂYăD NGă NGăD NG 30

3.1 Gi iăthi uăbƠiătốn 30

3.2 Mơăhìnhăc uătrúcăh ăth ng 30

3.2.1.ăMơăt ăđ uăvƠo/ăđ uăra 30

3.2.2.ăPh ngăphápăxơyăd ngăh ăth ng 31

3.3 PhơnătíchăvƠăthi tăk ăh ăth ng 31

3.3.1 Thi tăk ăCSDL 31

3.3.2 X ălýăvƠăhu năluy năd ăli u 40

3.3.3 Xơyăd ngăvƠăthi tăk ăgiaoădi năc aăch ngătrình 41

CH NGă4:ăTH CăNGHI MăVÀă ÁNHăGIÁ 50

4.1 D ăli uăth cănghi m 50

Trang 11

4.2 Môiătr ngăth cănghi m 51

4.3 ánhăgiáăđ ăchínhăxácăc aăcơyăquy tăđ nh 51

4.4 Phơnătích,ăsoăsánhăk tăqu ăvƠănh năxét 52

CH NGă5:ăK TăLU NăVÀăH NGăPHÁTăTRI N 57

5.1 K tăqu ăđ tăđ căt ănghiênăc u 57

5.2 óngăgópălu năv n 57

5.3 H năch 57

5.4 H ngăphátătri nălu năv n 58

K ăHO CHăNGHIểNăC U 59

TÀIăLI U THAMăKH O 60

PH ăL C 63

A B ăcôngăc ătr cănghi măđ nhăh ngăngh ănghi păc aăJohnăHolland 63

B Thôngătinăv ăngƠnhăh c,ătr ngăđƠoăt o,ăb căh c,ăkh iăthi,ăđi măchu n 64

Trang 12

DANHăM CăHÌNH V

Hình 2.1: Quá trình KPDL [6] 5

Hình 2.2 (a): B căh c/ăhu năluy nătrongăquáătrìnhăphơnăl păhaiăb că[7] 7

Hình 2.2 (b): B căphơnăl pătrongăquáătrìnhăphơnăl păhaiăb că[7] 7

Hìnhă2.3:ăM tăvíăd ăv ăcơyăquy tăđ nhă[7] 10

Hìnhă2.4:ăMôăhìnhă ngăd ngălu t 14

Hình 2.5: k-fold cross ậvalidation [3] 28

Hìnhă3.1:ăMôăhìnhăc uătrúcăh ăth ngăt ăv năch năngƠnhăh c 30

Hìnhă3.2:ăGiaoădi năch ngătrình 41

Hìnhă3.3:ăGiaoădi năPhi uăđ ngăkýătƠiăkho năs ăd ng 41

Hìnhă3.4:ăGiaoădi năPhi uăkh oăsátăthôngătinăv ăs ăthích,ătíchăcách 44

Hìnhă3.5:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthích 45

Hìnhă3.6:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthíchă(thôngătină đ ngăkýăbanăđ uăkhácăv iăk tăqu ăth căhi năkh oăsát) 46

Hìnhă3.7:ăGiaoădi năk tăqu ăngƠnhăh căc aă2ănhómăcóăđi măs ăcaoănh t 47

Hìnhă3.8:ăGiaoădi năk tăqu ăt ăv năch năngƠnhăh căc aăch ngătrình 48

Hình 3.9: K tăqu ătr ngă H,ăC ăcóăđƠoăt oăngƠnhăh căđ căt ăv n 49

Hìnhă4.1:ăB ngăphơnăchiaăd ăli uătestă10-fold cross ậ validation 51

Hìnhă4.2:ăCh ngătrìnhămôăph ngăch năngƠnh,ătr ngăc aă HQGăTp.HCM 53

Hìnhă4.3:ăK tăqu ăt ăv năch năngƠnhăc aălu năv n 54

Trang 13

DANHăM CăB NG

B ngă3.1:ăB ngăthôngătinăcácătr ngă H,ăC 31

B ngă3.2:ăB ngăl uăcácăngƠnh h căc aăcácătr ngă H,ăC 32

B ngă3.3:ăB ngăl uăđi mătrungăbình 32

B ngă3.4:ăB ngăl uă6ănhómăs ăthích 33

B ngă3.5:ăB ngăMưăngƠnhăthu cănhómăngƠnh 33

B ngă3.6:ăB ngăl uăk tăqu ăkh oăsátăsinhăviên 33

B ngă3.7:ăB ngăkh iăthi 34

B ngă3.8:ăB ngăNgƠnhăh c 34

B ngă3.9:ăB ngăNhóm ngành 34

B ngă3.10:ăB ngăch aăthôngătinăt nh 35

B ngă3.11:ăB ngăcơuăh iătr cănghi m 35

B ngă3.12:ăB ngăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên 36

B ngă3.13:ăB ngăchiăti tăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên 37

B ngă3.14:ăB ngăthôngătinăphi uăkh oăsát 38

B ngă3.15:ăB ngăthôngătinătr ngăTHPT 39

B ngă4.1:ăS ăli uăth căhi năkh oăsátăsinhăviên 50

B ngă4.2:ăS ăli uăchiăti tăt ngăngƠnh 51

B ngă4.3:ăK tăqu ăđánhăgiáă10-fold cross - validation 52

B ngă4.4:ăK tăqu ăch năngƠnh,ătr ngăc aă HQGăTp.HCM 54

B ngă4.5:ăTh iăgianăth căhi năt ăv năch năngƠnh 54

B ngă4.6:ăB ngăsoăsánhăk tăqu 55

Trang 14

DANHăM CăT ăVI TăT T

KPDL Khaiăpháăd ăli u

THPT Trungăh căph ăthông

CLS Concept Learning System

CSDL C ăs ăd ăli u

Trang 15

CH NGă1:ăT NGăQUAN

1.1 Lýădoăch nălu năv n

M cădùăch aăcóăs ăli uăth ngăkêăc ăth ,ănh ngăcóăth ăth yăr ngăh uăh tăh căsinhăsauăkhiăhoƠnăt tăch ngătrìnhăl pă12ăđ uăti păt căl aăch năchoămìnhănh ngătr ngăH,ăC ,ăTCCN.ăThôngăquaăvi căch nătr ng,ăch năngƠnhăngh ăs ăgiúpăcácăemăcóă

đ căki năth c,ăb ngăc p,ăk ăn ngălƠmăvi căđ ăđápă ngănhuăc uălaoăđ ngăc aăxưăh iăsauăkhiăcácăemăt tănghi p.ăVi căch năđúngăngƠnhăngh ăgiúpăcácăemăđ nhăh ngăđiăphùăh păv iăkh ăn ngăc aăb năthơnămìnhăvƠătránhăkh iănh ngăl aăch năv iăvƠngăđ ă

r iăph iăb ăl ăr tănhi uăc ăh iămƠ đángăraăn uăch năvƠăđ nhăh ngăs măvƠăđúngăcácăemăs ăthƠnhăcông.ăDoăr tănhi uăy uăt ăkháchăquan,ăch ăquanăkhácăvƠăđaăph năcácăemăăcácăt nhăthƠnh,ăvi căti păc năcácăthôngătinăv ăch năngƠnhăngh ăc ngăh năch ăvƠăthi uăthôngătinăđ ăl aăch năvƠăđ nhăh ngăcho mình

Vi căch năđúngăngƠnhăh cătrongăb iăc nhăkinhăt ,ăxưăh iăhi nănayănh mătránhă

vi căcóănhi uăcáănhơnăl aăch năsaiăngh ăs ăd năt iăgi măsútăch tăl ngăđƠoăt o,ăgơyălưngăphíăchoăcôngătácăđƠoăt oăvƠăđƠoăt oăl i.ăCh tăl ngăngu nănhơnăl căsauăđƠoăt oă

khôngăđ măb oăd năt iăn ngăsu tălaoăđ ngăkhôngăcao,ăn yăsinhănhi uăxáoătr năchoă

ho tăđ ngăc aăcácăt ăch c,ădoanhănghi păb iăcácăhi năt ngănh :ăb ăngh ,ăchuy năngh , …ăCácădoanhănghi păm tăthêmăchiăphíăđƠoăt oăvƠăđƠoăt oăl iăchoăđ iăng ăc aă

mình

H c t p lƠăm tăquáătrìnhădƠiăvƠăkhóăkh n,ăđòiăh iăsinhăviênăph iăđ uăt ănhi uăcôngăs c,ăti năb căc aăcáănhơnăc ngănh ăgiaăđình,ăn uăth tăb iătrongăvi căch năngƠnhăngh ăs ăd năđ nănh ngăt năth tăl năv ăc ătinhăth năl năv tăch tăchoăsinhăviênăvƠăgiaăđìnhăh ăVi căđ nhăh ngăch năđúngăngƠnhăngh ăs ăgiúpăcácăemătránhăkh iănh ngă

v năđ ătrên

Vìăv y,ăcôngătácăh ngănghi păch năngƠnhăngh ăchoăh căsinhăTHPTălƠăđi uăh tă

s căc năthi t

Tr cănh ngăth căt ăđó,ătôiăch nălu năv năắ ng d ng khai phá d li u ch n

ngành ngh cho h c sinh THPT”.ăLu năv năth căhi năvi căKPDLăt ăvi căkh oăsátă

ch năngƠnhăh căc aăsinhăviênăcácătr ngă H,ăC ăđ ăd ăđoánăngƠnhăh căcho h căsinhăTHPT.ăD aăvƠoăk tăqu ăd ăđoánăđóăs ăgiúpăh căsinhăl aăch năchoămìnhăm tăngƠnhă

h căphùăh păv iăđi uăki năvƠăn ngăl căc aăb năthơnăđ ăđ tăđ căk tăqu ăt tănh t

Trang 16

1.2 M cătiêuănghiênăc u

- Tìm hi uăcácăk ăthu tăKPDL,ă ngăd ngăcácăk ăthu tăKPDLătrongăphơnătíchă

s ăli u,ăxơyăd ngăcácăt pălu tăch năngƠnhăh c d aăvƠoăk tăqu ăkh oăsátăth că

t ăsinhăviên

- Xơyăd ngă ngăd ngăh ătr ăh căsinhăcácătr ngăTHPTătrênăđ aăbƠnăt nhăNinhăThu năcóănh ngăl aăch năv ăngƠnhăh căphùăh păv iăb năthơnăvƠăh ătr ăcácăcánăb ăchuyênătráchătuy năsinhăc aăcácătr ngăTHPTătrênăđ aăbƠnăt nhăNinhăThu nănh năđ nhăvƠăđ ăraănh ngăbi năphápăphùăh pănh măt ăv năthêm cho cácăemătrongăvi căxácăđ nhăngh ănghi păchoăb năthơn

1.3 iăt ngăvƠăph măviănghiênăc u

1.3.1 iăt ngănghiênăc u

- Cácăk ăthu tăKPDL

- D ăli uăkh oăsátăk tăqu ăch năngƠnhăh c

- H ăth ngăt ăv n

1.3.2 Ph măviănghiênăc u

- Cácăph ngăphápăphơnăl p.ă ngăd ngăcácăh ăh ătr quy tăđ nhăvƠoăbƠiătoán

- D ăli uăkh oăsátăth căt ăvi căch năngƠnhăh căc aăsinhăviênăthôngăquaăb ngă

cơuăh iătr cănghi măch năngƠnhăngh ăc aăTi năs Tơmălýăh căJohnăHolland,ă

nh măphátăhi năraăcácăđ căđi măchungăc aăHSSVătrongăvi căl aăch năngƠnhăngh ăh căt p t i m tăs ătr ngă iăh căvƠăcaoăđ ngăt iăTP.HCMăt pătrungă

vào 11 ngƠnhăh cănh :ăQu nătr ăkinhădoanh,ăNgônăng ăAnh,ăS ăph măToánă

h c,ăGiáoăd căti uăh c,ăCôngăngh ăk ăthu tăcôngătrìnhăxơyăd ng,ăQu nălýăcôngănghi p,ăVi tăNamăh c,ăCôngăngh ăthôngătin,ăK ătoán, Tài chính Ngân hƠng,ăKhoaăh căth ăvi n

- Xơyăd ngă ngăd ngăd ăđoánăngƠnhăh căđ ăh ătr ăt ăv năch năngƠnhăh că

choăh căsinhăcácătr ngăTHPTăt iăt nhăNinhăThu n

Trang 17

1.4 Nhi măv ănghiênăc u

- Nghiênăc uălýăthuy tăv ăKPDL,ăc ăth ălƠăcácăk ăthu tăphơnăl păvƠăcơyăquy tă

đ nh

- Xácăđ nhăbƠiătoánăc ăth ălƠăxơyăd ngăcôngăc ăl aăch năngƠnhăh căvƠăchu nă

b ăngu năd ăli uăđ ăxơyăd ngăch ngătrình

- Xơyăd ngămôăhìnhăd ăđoánăngƠnhăh căc aăsinhăviênătheoăcácăk ăthu tăkhácă

nhauănh ăcơyăquy tăđ nh,ălu tăk tăh păvƠăki mătraăcácămôăhình

- Xơyăd ngăch ngătrìnhă ngăd ngămôăhìnhăđ căl aăch năđ ăd ăđoánăngƠnhă

h căc aăh căsinhăd aăvƠoăcácăthôngătinăđ uăvƠo,ăt ăđóăth căhi năt ăv năch năngƠnhăh căchoăh căsinhănh măđ tăđ căk tăqu ăt tănh t.ăăă

- Ph ngăphápănghiênăc uăth cănghi m:ăPhơnătíchăthi tăk ăh ăth ng,ătri năkhaiăxơyăd ngă ngăd ng

1.6 ụăngh aăc aălu năv n

1.6.1 ụăngh aăkhoaăh c

Áp d ng các thu t toán KPDL trên d li u kh o sát l a ch n ngành h c (D

li uăđ c thu th p t cácătr ngă H,ăC ăt i TP.HCM)

1.6.2 ụăngh aăth căti n

là m t công c h tr đ h c sinh ch năđúng ngành h c K t qu , kinh nghi m thuăđ c khi th c hi n lu năv n này s giúp các t ch c giáo d c, nh ng cá

nhân làm công tác giáo d c ( Vi t Nam) phân lu ng l i h th ngăcácătr ng

Trang 18

H,ăC ,ăTCCN,ăgiaoăch tiêuăđƠoăt oăchoăcácătr ng, nh m tránh vi c lãng phí trongăđƠoăt o

1.7 C uătrúcălu năv n

Ch ngă1:ăT ngăquan

Ch ngă2:ăC ăs ălýăthuy t

Ch ngă3:ăXơyăd ngă ngăd ng

Ch ngă4:ăTh cănghi măvƠăđánhăgiá

Ch ngă5:ăK tălu năvƠăh ngăphátătri n

Trang 19

CH NGă2:ăC ăS ăLụăTHUY T

2.1 T ngăquanăv khaiăpháăd ăli u

N mă1989ăFayyad,ăSmythăvƠăPiatestsky-Shapiroăđưădùngăkháiăni măPhátăhi nătriăth căt ăCSDL (Knowledge Discovery in Database - KDD) trongăđóăKPDL lƠăm tăgiaiăđo năr tăđ căbi tătrongătoƠnăb ăquáătrình,ănóăs ăd ngăcácăk ăthu tăđ ătìmăraăcácă

m uăt ăd ăli u

KPDL lƠăquáătrìnhăphátăhi năcácămôăhình,ăcácăt ngăk tăkhácănhauăvƠăcácăgiáătr ă

đ căl yăt ăt păd ăli uăchoătr c [11] Hay,ăKPDLălƠăs ăth mădòăvƠăphơnătíchăl ngă

d ăli uăl năđ ăkhámăpháăt ăd ăli uăraăcácăm uăh păl ,ăm iăl , cóăíchăvƠăcóăth ăhi uă

Mô hình

Tríchăl căd ăli u

Trang 20

B tăđ uăc aăquáătrìnhălƠăkhoăd ăli uăthôăvƠăk tăthúcăv iătriăth căđ căchi tăxu tăra.ăV ălýăthuy tăthìăcóăv ăr tăđ năgi nănh ngăth căs ăđơyălƠăm tăquáătrìnhăr tăkhóăkh nă

g păph iăr tănhi uăv ngăm cănh :ăqu nălýăcácăt păd ăli u,ăph iăl păđiăl păl iătoƠnăb ă

quá trình, …

2.1.2.1 T păh p d ăli uă(Data)

ơy là giaiăđo n đ uătiênătrongăquáătrìnhăKPDL Giaiăđo n nƠyăl yăd ăli u trong

m tăCSDL,ăm tăkhoăd ăli uăvƠăd ăli uăt ăcácăngu năInternet

2.1.2.2 Tríchăl căd ăli uă(Selection)

Giaiăđo nănƠyăd ăli uăđ căl aăch năho căphơnăchiaătheoăm tăs ătiêuăchu nănƠoă

đó

2.1.2.3 Ti năx ălýăvƠăchu năb d ăli uă(Preprocessing)

Giaiăđo n này r tăquanătr ngătrongăquáătrìnhăKPDL M tăs ăl iăth ngăm căph iă

trong khi thuăth p d ăli uănh ăthi uăthông tin, không logic ăVìăv y,ăd ăli uăth ngă

ch aăcácăgiáătr ăvôăngh aăvƠăkhôngăcóăkh ăn ngăk tăn iăd ăli u.ă

Giaiăđo nănƠyăti năhƠnhăx ălýănh ngăd ngăd ăli uănóiătrên.ăNh ngăd ăli uăd ngănƠyăđ căxemănh ăthôngătinăd ăth a,ăkhôngăcóăgiáătr ăVì v y,ăđơyălƠăm tăgiaiăđo n

r tăquanătr ngăvìăd ăli uănƠyăn uăkhôngăđ călƠmăs chă- ti năx ălýă- chu năb ătr căthìăs ăgơyănênănh ngăk tăqu ăsaiăl chănghiêmătr ng trong KPDL

2.1.2.4 Chuy năđ iăd ăli uă(Transformation)

Giaiăđo năchuy năđ iăd ăli u,ăd ăli uăđ aăraăcóăth ăs d ngăvƠăđi uăkhi năđ că

b iăvi căt ăch căl iănó.ăD ăli uăđưăđ căchuy năđ iăphùăh păv iăm căđíchăkhaiăthác

2.1.2.5 Khaiăpháăd ăli u (Data Mining)

Giaiăđo n mangătínhăt ăduyătrongăKPDL.ă ăgiaiăđo nănƠyănhi uăthu tătoánăkhácănhauăđưăđ căs ăd ngăđ ăxu tăra cácăm u t ăd ăli u.ăThu tătoánăth ngădùngălƠăthu tă

toán phơnălo i d ăli u, k tăh păd ăli uăho căcácămôăhìnhăhóa d ăli uătu năt

ơyălƠăgiaiăđo năđ cănhi uăng iănghiênăc uănh t.ă

2.1.2.6 ánhăgiáăk tăqu ăm uă(Interpretation/ Evaluation)

Giaiăđo năcu iătrongăquáătrìnhăKPDL Trong giaiăđo nănƠy,ăcácăm uăd ăli uă

đ căchi tăxu tăraăb iăph năm măKPDL.ăKhôngăph iăb tăc ăm uăd ăli uănƠoăc ngă

Trang 21

đ uăh uăích,ăđôiăkhiănóăcònăb ăsaiăl ch.ăVìăv y,ăc năph iă uătiênănh ngătiêuăchu năđánhăgiáăđ ăđ a raăcácătriăth căc năthi tăvƠăs ăd ng đ c

2.2 Phơnăl pătrong KPDL

2.2.1 Phơnăl păd ăli u

Phơnăl păd ăli u lƠăm tăquáătrìnhăg măhaiăb c:ăm t b căh c (trongăđóăxơyă

d ngănênăm tămôăhìnhăphơnăl p)ăvƠăm t b căphơnăl p (trongăđóămôăhìnhăv aăxơyă

d ngăđ căs ăd ngăđ ăd ăđoánăcácănhưnăl păchoănh ngăd ăli u nƠoăđó).ă

Hình 2.2 minhăh aăquáătrìnhănƠyăchoătr ngăh păd ăli uăxinăvayăti n.ăD ăli uăyăđưăđ căđ năgi năhóaăđ ăd ăminhăh a.ăTrongăth căt ,ăcóăth ătaăc năxemăxétănhi uăthu cătínhăh n

Hình 2.2 (a): B c h c/ hu n luy n trong quá trình phân l p hai b c [7]

Hình 2.2 (b): B c phân l p trong quá trình phân l p hai b c [7]

Trang 22

ăb căth ănh t,ătaăxơyăd ngăm tămôăhìnhăphơnăl pămôăt ăm tăb ăxácăđ nhă

tr c cácăl păd ăli uăhayăkháiăni m.ă ơyălƠ b căh c (hayăgiaiăđo năhu năluy n),ă ă

đóăm t thu tătoán phân l păxơyăd ngănênămôăhìnhăphơnăl păb ngăcáchăphơnătíchăho că

ắh căh iăt ”ăm t t p hu n luy n hìnhăthƠnhăt ăcácăb năghiătrongăCSDL và các nhãn

l păliênăk tăv iăchúng.ăM iăb năghi X đ căbi uădi năb iăm t vector thu c tính g m

n-chi u, X = (x1, x2,ă…, xn), mô t n giáătr ăđoăđưăth căhi n trênăb năghiăđóăt n thu cătínhăt ngă ngăc aăCSDL A1, A2, …, An.ăM iăb năghi X đ căgi ăđ nhălƠăthu căv ăm tă

l păđ căquyăđ nhătr c,ănh ăđ căxácăđ nhăb iăm t thu cătínhăkhácăc aăCSDL g iă

thu c tính nhãn l p

Thu cătínhănhưnăl pănƠyăcóătr ăr iăr căvƠăkhôngăcóăth ăt ăNó có tính phân lo i ăch ăm iăgiáătr ăc aănóăđóngăvaiătròăm t lo i ho c l p.ăCácăb năghiăriêngăt oăthƠnhă

t păhu năluy năđ căg iălƠăcác b n ghi hu n luy n vƠăđ căl yăm uăng uănhiênăt ă

CSDL đangăphơn tích.ăTrongăng ăc nhăphơnăl p,ăcácăb năghiăc aăCSDL cóăth ăđ că

cácătƠiăli u khácănhauăg iălƠ m u, ví d , th hi n, đi m d li u,ăho c đ i t ng

Doănhưnăl păc aăm iăb năghiăhu năluy năđ uăđ căcungăc păs n,ănênăb cănƠy

cònăđ căg iălƠ h c có giám sát,ăt călƠăvi căh căc aămôăhìnhăphơn l pălƠăắcóăgiámă

sát”ă ăch ănóăđ căchoăbi tălƠăm iăb năghiăhu năluy năthu căv ăl p nƠo.ăNóătráiăv i

h c không giám sát,ătrongăđóătaăkhôngăbi tănhưnăl păc aăm iăb năghiăhu năluy năvƠă

cóăth ăc s ăl ngăho căt păh păcácăl păc n h căn a

M iăthu cătínhăđ iădi năchoăm tăắđ c đi m”ăc a X.ăDoăđóăcácătƠiăli uăv ănh nă

d ngăm uădùngăthu tăng vector đ c đi m thay cho vector thu c tính.ăTrongălu năv nă

này, tácăgi dùngăthu tăng ăvectorăthu cătính,ăvƠătrongăcáchăkýăhi uăc aătácăgi ,ăb tă

k ă bi nă nƠoă đ iă di nă choă m tă vectoră đ uă đ că trìnhă bƠyă b ngă ki uă ch ă đ mă vƠă

nghiêng,ăcácăgiáătr ăđoămôăt ăvectorăđóăđ cătrìnhăbƠyăb ngăki uăch ănghiêngă(víăd :

X = (x1, x2, x3))

TrongăcácătƠiăli uăv ămáy h c,ăcácăb năghiăhu năluy năth ngăđ căg iălƠ m u

hu n luy n ho c ví d hu n luy n

B căth ănh tăc aăquáătrìnhăphơnăl păcònăcóăth ăđ căxemănh ălƠăvi căh că(hay

tìmăki m)ăm tăánhăx ăhayăhƠm y = f (X)ămƠăcóăth ăd ăđoánăđ cănhưnăl p y liênăk tă

v i m tăb năghi X choătr c.ăTheoăcáchăquanăsátănƠy,ăchúngătaămu nătìmăraăm tăánhă

x hayăhƠmămƠăchiaătáchăcácăl păd ăli u.ăThôngăth ng,ăánhăx ănƠyăđ căbi uădi nă

Trang 23

d i d ngăcácălu tăphơnăl p,ăcácăcơyăquy tăđ nh,ăho căcácăcôngăth cătoánăh c.ăTrongăvíăd d ăli uăxinăvayăngơnăhƠngăbênătrên,ăánhăx ănƠyăđ căbi uădi năd iăd ngăcácă

lu tăphơn l păgiúpănh nădi nănh ngăđ năxinăvayăti nănƠoălƠăanătoƠnăho căr iăroă(Hình

2.2 (a)) Các lu tănƠyăcóăth ăđ cădùngăđ ăphơnălo iăcácăb năghiăd ăli uătrongăt ngălaiăc ngănh giúpătaăhi uăbi tăsơuăh nătrongăn iădungăd ăli u.ăChúngăc ngăcungăc pă

m t cáchăbi uădi năd ăli uăng năg n,ăcôăđ ng

ăb căth ăhaiă(Hình 2.2 (b)),ămôăhìnhătìmăđ că ăb căth ănh tăs ăđ cădùngă

cho vi căphơnălo iănh ngăd ăli uăm i.ăTr căh t,ătaăđánhăgiá đ chính xác d đoán

(predictiveăaccuracy)ăc aămôăhìnhăphơnălo iă y.ăN uănh ătaădùngăt păhu năluy năđ đánhăgiáăđ ăchínhăxácăc aămôăhìnhăphơnăl păthìăvi căđánhăgiáănƠyănhi uăkh ăn ngălƠ

quáăl căquan,ăb iăvìămôăhìnhă yăcóăkhuynhăh ng quá kh p d ăli uă(t călƠ trong quá

trìnhăh c,ănóăcóăth ăsápănh păluônăm tăs ătr ngăh păb tăth ngăc aăd ăli u hu nă

luy n,ăv năkhôngăhi nădi nătrongăt ngăth ăt păd ăli uănóiăchung).ăVìăth ,ătaădùng m t

t p ki m tra,ăbaoăg măcác b n ghi ki m tra vƠăcácănhưnăl p liênăk tăv iăchúng,ăđ ă

th căhi năvi căđánhăgiáănƠy.ăCácăb năghiăki mătraănƠyăđ căl p v iăcácăb năghiăhu năluy n,ăngh aălƠăchúngăkhôngăđ cădùngăđ ăxơyăd ngămôăhình phơnăl p

chính xác c aăm tămôăhìnhăphơnăl pătrênăm tăt păki mătraăxác đ nhălƠăt ăl ă

cácăb năghiăc aăt păki mătraăđ căphơnălo iăđúngăđ năb iămôăhìnhăphơn l pă y.ăNhãn

l păliênăk tăc aăm iăb năghiăki mătraăđ căsoăsánhăv iăs ăd ăđoánăl păc a mô hình phơnăl păh că ngăv iăb năghiăđó.ă

M că2.4.6.1 (Trongăch ngă2) môăt ăvƠiăph ngăpháp đ ăđánhăgiáăđ ăchínhăxácă

c aămôăhìnhăphơnăl p.ăN uăđ ăchínhăxácăc aămôăhìnhăphơn l p đ căxemălƠăch pă

nh năđ c,ăthìămôăhìnhăphơnăl păcóăth ăđ cădùngăđ ăphơnălo iănh ngăb năghiăd ă

li uătrongăt ngălaiămƠănhưnăl păch aăbi t.ă

Víăd ,ăcácălu tăphơnăl păh căđ cătrongăHình 2.2 (a) t ăvi căphơnătíchăd ăli u

c aănh ngăđ năxinăvayăti nălúcătr c,ăn uăcóăđ ăchínhăxácăcaoăkhiăphơnăl păt păki m tra,ăthìăcóăth ăđ cădùngăđ ăchu năthu năho căbácănh ngăđ năxinăvayăti năm iăho că

s cóătrongăt ngălai,ănh ăđ căminhăh aătrongăHình 2.2 (b)

2.2.2 Phơnăl păd ăli uăb ngăcơyăquy tăđ nh

Quy n p cây quy t đ nh (decisionătreeăinduction)ălƠăvi cătìmăki măcácăcơyăquy t

đ nhăt ănh ngăb năghiăhu năluy năđưăcóănhưnăl p.ăM i cơyăquy tăđ nh (decision tree)

Trang 24

lƠăm tăc uătrúcăcơyăki uăl uăđ ,ătrongăđóăm i nút trong bi uăth ăm tăs ki mătraătrênă

m tăthu cătínhănƠoăđó,ăm i nhánh bi uădi năm tăk tăqu ăc aăs ki mătraăđó,ăcònăm i

nút lá ch aăm tănhưnăl p.ăNútă trênăcùngăc aăcơyălƠ nút g c,ăch aătênăc aăthu cătínhă

c năki mătra.ăHìnhă2.3 choăth yăm tăcơyăquy tăđ nhătiêuăbi u.ăCácănútătrong đ căbi uă

di năb ngăcácăhìnhăch ănh t,ăcònăcácănútăláăđ căbi u di năb ngăcácăhìnhăb uăd c.ă

M tăs ăthu tătoán cơyăquy tăđ nhăch ăsinhăraăcác cây nh phân (trongăđóăm iănútătrong

r ănhánhăđ năhaiănútăkhác),ătrongăkhiănh ngăthu tătoán cơyăquy tăđ nhăkhácăcóăth ăsinhăraănh ngăcơyăkhôngănh ăphơn

Cácăcơyăquy tăđ nhăđ cădùngăchoăphơnăl pănh ăth ănƠo?ăChoăm tăb năghi X

nào đóămƠătaăch aăbi tănhưnăl păliênăk tăv iănó,ăcácăgiáătr ăthu cătínhăc aăb năghiăđóă

đ c ki mătraăsoăv iăcơyăquy tăđ nh.ăD aătheoănh ngăcu căki mătraăđó,ătaăl năraăm tă

đ ng điăt ăg căđ năm tănútăláăch aăk tăqu ăd ăđoánăl pădƠnhăchoăb năghiă y.ăCácă

cơyăquy tăđ nhăcóăth ăd ădƠngăđ căchuy năđ iăthƠnhăcác lu t phân l p,ăt c hìnhăth că

phơnălo iăđ năgi năvƠăd ăhi uănh tăđ iăv iăconăng i [30]

Hình 2.3: M t ví d v cây quy t đ nh [7]

2.2.3 Phơnăl păd ăli uăb ngăgi iăthu tăh căILA

- Thu t gi iăILAăđ cădùngăđ xácăđ nh các lu t phân lo i cho t p h p các m u

h c Thu t gi i này th c hi nătheoăc ăch l p,ăđ tìm lu tăriêngăđ i di n cho t p

m u c a t ng l p.ăSauăkhiăxácăđ nhăđ c lu t, thu t gi i s lo i b các m u mà

lu tănƠyăbaoăhƠm,ăđ ng th i thêm lu t m i này vào t p lu t K t qu cóăđ c là

m t danh sách có th t các lu t [26], [28]

- Mô t thu t gi i ILA [27]

Trang 25

+ B c 1: Chia b ng con cĩ ch a m m u thành n b ng con M t b ng con ng

v i m t giá tr c a thu c tính phân l p (L p l i t b că2ăđ năb c 8 cho

xu t hi n các giá tr cho các thu c tính trong k t h păđĩă cácădịngăch aăb

khĩa c a b ngăđangăxétănh ngănĩăkhơngăđ c xu t hi n cùng giá tr nh ng

b ng con khác Ch n ra m t k t h p trong danh sách sao cho nĩ cĩ giá tr

t ngă ng xu t hi n nhi u nh tăvƠăđ c g i là Max_combination

+ B c 5: N u Max_combination = 0 thì j = j+1 quay l iăb c 3

+ B c 6: Khĩa các dịng b ngăconăđangăxétămƠăt iăđĩăgiáătr b ng v i giá

2.2.4 Phơnăl păd ăli uăb ngăm ngăNạveăBayes

Cácămơăhìnhăphơnăl păd aătheoăBayesă(Bayesianăclassifier)ălƠălo iămơăhình phân

l pătheoălýăthuy tăth ngăkê.ăChúngăcĩăth ăd ăđốnăxácăsu tăc aăcácăthƠnhăviênăl p,

ch ngăh năxácăsu tăđ ăm tăb năghiănh tăđ nhăthu căv ăm tăl păc ăth ănƠoăđĩ.ăPhơnă

l p d aătheoăBayesăc năc ăvƠoăn năt ngălýăthuy tălƠăđ nhălýăBayesă(đ căđ tătheoătên

c a ThomasăBayes,ănhƠătốnăh căAnhăvƠoăth ăk ă18)

Thu tătốn phơnăl păNạveăBayesă(NB)ăgi ăđ nhăr ngă nhăh ngăc aăm tăgiáătr thu cătínhănƠoăđĩătrênăm tăl pănh tăđ nhălƠăđ căl păv iăcácăgiáătr ăc aăcácăthu cătính

khác.ă Gi ă đ nhă nƠyă đ că g iă lƠ s đ c l p theo đi u ki n l p (class-conditional

Trang 26

independence).ăNg iătaăgi ăđ nhănh ăv yăđ ăđ năgi năhĩaăkh iăl ngătínhătốnăc n thi t,ăvƠăvìălýădoănƠy,ănĩăđ căg iălƠăắngơyăth ”ă(nạve)

Chiăti tăc aăvi căphơnăl păd ăli uăb ngăm ngăNBăcĩăth ăđ căthamăkh oă ă[7]

+ V th i gian h c (t c th i gian xây d ngămơăhình):ăítăh năsoăv iăph ng

pháp quy n p cây quy tăđ nh,ăvƠăítăh năr t nhi u so v i m ngăn -rơn, nh t lƠăđ i v i d li u r i r c

+ Hi uăn ngăphơnăl pă(đ chính xác và t căđ ) cao khi dùng v i CSDL l n + Thu t tốn d hi u và d hi n th c

- Nh căđi m

+ Do NB gi đ nh là các thu cătínhăđ c l p v i nhau, nên khi các thu c tính

cĩ s ph thu c l n nhau (ví d , trong giáo d c cĩ m t s mơn h c cĩ ý

ngh aătiênăquy tăđ i v i m t s mơn h căkhác)ăthìăph ngăphápăNB tr

nên thi u chính xác

+ NBăkhơngăsinhăraăđ c nh ng mơ hình phân l p d hi uăđ i v iăng i

dùng khơng chuyên v KPDL

2.2.5 Phơnăl păd ăli uăb ngăNeural Network

L nhăv căh căb ngăcác m ng n -rơn nhân t o (artificial neural network ậ ANN),

lúcăđ uăđ căkh iăx ngăb iăcácănhƠătơmălýăh căvƠăcácănhƠăsinhăh căth năkinhămu n tìmăcáchăxơyăd ngăvƠăki mătraănh ngămơăhìnhătínhătốnăt ngăt ăv iăm ngăl iăcácă

t bƠoăth năkinhă(neuron)ăc aăconăng i.ăM tăm ngăn -rơnănhơnăt o,ăhayăch ăv năt tă

là m ngăn -rơnă(NN),ăđơiăkhi cịnăđ căg iălƠ multilayer perceptron (MLP),ălƠăm tă

t p h păcác nút xu t/nh păn iăk tăv iănhau,ătrongăđĩăm iăđ ngăn iăk tăcĩăm t tr ngă

s ăliênăk tăv iănĩ.ăTrongăgiaiăđo năh c,ăm ngănƠyăh căb ngăcáchăđi uăch nhăcác tr ngă

s ăđ ăd ăđốnăđ cănhưnăl păđúngăđ năc aăcácăb năghiănh păvƠo

+ Các mơ hình h căđ c t NN cĩ kh n ngăch uăđ ngăđ i v i d li u nhi u

t ngăđ c hu n luy n

+ Chúng r t thích h păđ i v i d li u nh p và xu t cĩ tr liên t c

Trang 27

+ Các thu t toán m ngăn -rôn v n có s n tính song song; có th dùng các k thu tăsongăsongăhóaăđ t ngăt c quá trình tính toán

+ Ngoài ra, g năđơyăđưăcóănhi u k thu tăđ c xây d ngăđ rút trích ra các

lu t phân l p d hi u t các m ngăn -rôn h căđ c

Chiăti tăc aăvi căphơnăl păd ăli uăb ngăcácăNNăcóăth ăđ căthamăkh oă ă[7],

[30]

- Nh căđi m

+ H c b ngăNNăđòiăh i th i gian hu n luy n ph i dài, vì th thích h păh nă

v i các ng d ng nào ch p nh năđi u này

+ Thu t toán xây d ng NN c n m t s tham s mƠăth ng thì ch đ c xác

đ nh t t nh t thông qua thí nghi m,ănh ăc u trúc

+ Các mô hình h c b ngăNNăđưăb ch trích vì tính khó hi u c a chúng; con

ng i khó di n gi iăđ căýăngh aăbi uăt ngăđ ng sau các tr ng s h c và

ý ngh aăc aăcácăắđ năv n”ătrongăm ng

2.3 KPDL s ăd ng lu tăk tăh p

2.3.1 Lu tăk tăh pătrongăCSDL

G iăI = {I1, I2 Im}ălƠăt pămăthu cătínhăriêngăbi t,ăm iăthu cătínhăg iălƠăm tăm c.ă

G iăDălƠăm tăCSDL,ătrongăđóăm iăb năghiăt lƠăm tăgiaoăd chăvƠăch aăcácăt păm c,ăt

 I

nhăngh aă1: M tălu t k t h p lƠăm tăbi uăth căcóăd ngăX  Y,ătrongăđóăX, Y

 I lƠăcácăt păm căg iălƠăcác itemset, vàXY.ă ăđơy,ăX đ căg iălƠăti năđ ,ăY là

m nhăđ ăk tăqu

Haiăthôngăs ăquanătr ngăc aălu tăk tăh pălƠăđ h tr (s) và đ tin c y (c)

nhăngh aă2: h tr c aălu tăk tăh păX  Y lƠăt ăl ăph nătr măcácăb năghiă

Y

X v iăt ngăs ăcácăgiaoăd chăcóătrongăCSDL

nhăngh aă3: iăv iăm tăs ăgiaoăd chăđ căđ aăra,ăđ tin c y lƠăt ăl ăc aăs ă

giaoăd chăcóăch aăXY v iăs ăgiaoăd chăcóăch aăX.ă năv ătínhă%

Vi căkhaiăthácăcácălu tăk tăh păt ăCSDL chínhălƠăvi cătìmăt tăc ăcácălu tăcóăđ ă

h ătr ăvƠăđ ătinăc yăl năh năng ngăc aăđ ăh ătr ăvƠăđ ătinăc yădoăng iăs ăd ngăxácă

Trang 28

Vi căkhaiăthácăcácălu tăk tăh păcóăth ăđ căphơnătíchăthƠnhăhaiăv năđ ăsauăđơy:ă

- Tìmăt tăc ăcácăt păph ăbi n cóăđ ăh ătr ăl năh năho căb ngăminsup

- T oăraăcácălu tămongămu năs ăd ngăcácăt păph ăbi n cóăđ ătinăc yăl năh nă

ho căb ngăminconf [5]

2.3.2 Tínhă ngăd ng

Lu tăk tăh păcóă ngăd ngătrongănhi uăl nhăv căkhácănhauăc aăđ iăs ngănh :ăkhoaăh c,ăho tăđ ngăkinhădoanh,ăti păth ,ăth ngăm i,ăphơnătíchăth ătr ngăch ngăkhoán,ătƠiăchínhăvƠăđ uăt , ă ngăd ngălu tăk tăh păph iăch ărõăcácăđ căđi măv :ăngu năg c,ăđi uăki năápăd ng,ăph măviă ngăd ng,ăm căđíchă ngăd ng.ăNh ngăđ că

đi mănƠyăđ căth ăhi năb ngămôăhìnhăsau:

Hình 2.4: Mô hình ng d ng lu t

Trongăđó:ă

- Yêuăc uăs ăd ng: lƠăph măviătínhă ngăd ngăc aăt pălu tăvíăd ănh ăv ăkhoaă

h c,ăkinhădoanh,ăti păth ,ăth ngăm i,ăphơnătíchăth ătr ngăch ngăkhoán, …

- Thamăchi uăđ năt pălu tăR: ăgiaiăđo nănƠyăcácăt pălu tăđ căthamăchi uăt iăđơyălƠăcácăt pălu tăđ căsinhăraăt ăCSDL ch aătácănhơnăyêuăc uăs ăd ng

- L aăch nălu t: ăb cănƠyăchúngătaăti năhƠnhăl căcácălu tăh uăíchănh tăph că

v ăchoăph măviăs ăd ng

- ngăd ng: đơyălƠăk tăqu ămongăđ iănh tăt ăkhiăb tăđ uăkhaiăthácăchoăđ năkhiăthiăhƠnhălu t

Môăhìnhă ngăd ngălu tăđưălƠmăsáng t ătínhă ngăd ngăc aăvi căkhaiăthácălu tăk tă

h pătrongăCSDL

Trang 29

Th căt ,ă ngăd ngăc aăkhaiăthácălu tăk tăh pătrongăCSDL giáoăd c lƠăm tăph mătrùăc aăKPDL nênă ngăd ngăc aănóăr tăr ngăl n,ănh tălƠătrongăs ăphátătri năc aăxưăh iă

hi nănay NgoƠiăra,ăm tăt păh p conăđ căbi tăc aălu tăk tăh păg iălƠălu tăk tăh păl pă

(Class Association rules ậCARs) [13], [14], [16] dùngăđ ătíchăh păphơnălo iăvƠăkhaiăpháălu tăk tăh p

Tómăl i,ătínhă ngăd ngăc aăkhaiăthácălu tăk tăh pătrongăCSDL giáoăd c lƠăvi căngăd ngăcácăt pălu t tìmăth yătrongăđóănh măvƠoănh ngăm căđíchăc ăth ăvƠăđ tăđ că

k tăqu ăt t

2.4 K ăthu tăKPDL s ăd ngăcơyăquy tăđ nh

2.4.1 Gi iăthi uăk ăthu tăKPDL s ăd ngăcơyăquy tăđ nh

Trongănh ngăn măqua,ănhi uămôăhìnhăphơnăl păd ăli uăđưăđ căcácănhƠăkhoaă

h cătrongănhi uăl nhăv căkhácănhauăđ ăxu tănh ăNN, mô hình th ngăkêătuy nătínhăb că2,ăcơyăquy tăđ nh,ădiătruy n,ă….ăTrongăs ănh ngămôăhìnhăđó,ăcơyăquy tăđ nhăv iă

nh ngă uăđi măc aămìnhăđ căđánhăgiáălƠăm tăcôngăc ăm nh,ăph ăbi năvƠăđ căbi tăthíchăh păchoăKPDL nóiăchungăvƠăphơnăl păd ăli uănóiăriêngă[25]

Cóăth ăk ăraănh ngă uăđi măc aăcơyăquy tăđ nhănh :ăxơyăd ngăt ngăđ iănhanh;ă

đ năgi n,ăd ăhi u.ăH năn aăcácăcơyăcóăth ăd ădƠngăđ căchuy năđ iăsangăcácăcơuăl nhăSQLăđ ăcóăth ăđ căs ăd ngăđ ătruyănh păCSDL m tăcáchăhi uăqu ăCu iăcùng,ăvi căphơnăl păd aătrênăcơyăquy tăđ nhăđ tăđ căs ăt ngăt ăvƠăđôiăkhiălƠăchínhăxácăh năsoă

v iăcácăph ngăphápăphơnăl păkhácă[31]

2.4.2 Cácăv năđ ătrongăKPDL s ăd ngăcơyăquy tăđ nhă

Cácăv năđ ăđ căthùătrongăkhiăh căhayăphơnăl păd ăli uăb ngăcơyăquy tăđ nhăg m:ăxácăđ nhăđ ăsơuăđ ăphátătri năcơyăquy tăđ nh,ăx ălýăv iănh ngăthu cătínhăliênăt c,ăch năphépăđoăl aăch năthu cătínhăthíchăh p,ăs ăd ngăt păd ăli uăhu năluy n v iănh ngăgiáă

tr ăthu cătínhăb ăthi u,ăs ăd ngăcácăthu cătínhăv iănh ngăchiăphíăkhácănhau,ăvƠăc iăthi năhi uăn ngătínhătoán.ă

2.4.2.1 Tránhăắquáăkh p”ăd li u

Th ănƠoălƠăắquáăkh p”ăd ăli u?ăCóăth ăhi uăđơyălƠăhi năt ngăcơyăquy tăđ nhă

ch aăm tăs ăđ cătr ngăriêngăc aăt păd ăli uăhu năluy n,ăn uăl yăchínhăt păd ăli uă

hu năluy n đ ăki mătraăl iămôăhìnhăphơnăl păthìăđ ăchínhăxácăs ăr tăcao,ătrongăkhiăđ iă

Trang 30

v iănh ngăd ăli uăt ngălaiăkhácăn uăs ăd ngăcơyăđóăl iăkhôngăđ tăđ căđ ăchínhăxácă

cao

Quá kh păd ăli uălƠăm tăkhóăkh năđángăk ăđ iăv iăh căb ngăcơyăquy tăđ nhăvƠă

nh ngăph ngăphápăh căkhác.ă căbi tăkhiăs ăl ngăm u trongăt păd ăli uăhu năluy n

quá ít, hay có nhi u trongăd ăli u.ă

Cóăhaiăph ngăphápătránhăắquáăkh p”ăd ăli uătrongăcơyăquy tăđ nh:ă

- D ng phát tri n cây s măh năbìnhăth ng,ătr căkhiăđ t t iăđi m phân l p

hoàn h o t p d li u hu n luy n V iăph ngăphápănƠy,ăm t thách th căđ t

ra là ph iă căl ng chính xác th iăđi m d ng phát tri n cây

- Cho phép cây có th ắquáăkh p”ăd li u,ăsauăđóăs c t, t a cây

M cădùăph ngăphápăth ănh tăcóăv ătr căti păh n,ănh ngăv iăph ngăphápăth ăhaiăthìăcơyăquy tăđ nhăđ căsinhăraăđ căth cănghi măch ngăminhălƠăthƠnhăcôngăh nătrongăth căt ăH năn aăvi căc tăt aăcơyăquy tăđ nhăcònăgiúpăt ngăquátăhóa,ăvƠăc iăthi nă

đ ăchínhăxácăc aămôăhìnhăphơnăl p.ăDùăth căhi năph ngăphápănƠoăthìăv năđ ăm uă

ch tă ăđơyălƠătiêuăchu nănƠoăđ căs ăd ngăđ ăxácăđ nhăkíchăth căh pălýăc aăcơyăcu iă

cùng

2.4.2.2 Thao tác v i thu c tính liên t c

Vi căthaoătácăv iăthu cătínhăliênăt cătrênăcơyăquy tăđ nhăhoƠn toƠnăkhôngăđ nă

gi nănh ăv iăthu cătínhăr iăr c

Thu cătínhăr iăr căcóăt p giá tr (domain)ăxácăđ nhăt ătr căvƠălƠăt păh păcácă giáătr ăr iăr c.ăVíăd ălo i ô tô lƠăm tăthu cătínhăr iăr căv iăt păgiáătr ălƠ:ă{xeăt i,ăxeă

khách,ăxeăcon,ătaxi}.Vi căphơnăchiaăd ăli uăd aăvƠoăphépăki mătraăgiáătr ăc aăthu cătínhăr iăr căđ căch năt iăm tăvíăd ăc ăth ăcóăthu căt păgiáătr ăc aăthu cătínhăđóăhayă

không: value (A) X v i X domain (A).ă ơyălƠăphépăki mătraălogicăđ năgi n,ăkhôngă

t nănhi uătƠiănguyênătínhătoán.ăTrongăkhiăđó,ăv iăthu cătínhăliênăt că(thu cătínhăd ngă

s )ăthìăt păgiáătr ălƠăkhôngăxácăđ nhătr c.ăChínhăvìăv y,ătrongăquáătrìnhăphátătri năcơy,ă

c nă s ă d ngă ki mă traă d ngă nh ă phơn:ă value (A) ≤ ă V iă ă lƠă h ng s ng ng

(threshold)ăđ căl năl tăxácăđ nhăd aătrênăt ngăgiáătr ăriêngăbi tăhayăt ngăc păgiáătr ă

li nănhauă(theoăth ăt ăđưăs păx p)ăc aăthu cătínhăliênăt căđangăxemăxétătrongăt păd ă

li uăhu năluy n.ă i uăđóăcóăngh aălƠăn uăthu cătínhăliênăt căA trongăt păd ăli uăhu nă

Trang 31

luy n có d giáătr ăphơnăbi tăthìăc năth căhi năd-1 l năki mătraăvalue (A) ≤ i v iăi =

1 d-1 đ ătìmăraăng ngă bestt tănh tăt ngă ngăv iăthu cătínhăđó.ăVi căxácăđ nhăgiáă

tr ăc aă vƠătiêuăchu nătìmă t tănh tătùyăvƠoăchi năl căc aăt ngăthu tătoán [12], [24]

2.4.2.3 ánhăgiáăcơyăquy tăđ nhătrongăl nhăv c KPDL

2.4.2.3.1 uăđi m c a cây quy tăđ nh [4]:

- Kh n ngăsinhăraăcácălu t d hi u

Cơyăquy tăđ nhăcóăkh ăn ngăsinhăraăcácălu t cóăth ăchuy năđ iăđ căsangăd ngă

ti ngăAnh,ăho căcácăcơuăl nhăSQL,ăđơyălƠă uăđi măn iăb tăc aăk ăthu tănƠy.ăTh măchíă

v iănh ngăt păd ăli uăl năkhi năchoăhìnhădángăcơyăquy tăđ nhăl năvƠăph căt p,ăvi căđiătheoăb tăc ăđ ngănƠoătrênăcơyălƠăd ădƠngătheoăngh aăph ăbi năvƠărõărƠng.ăDoăv yă

s ăgi iăthíchăchoăb tăc ăm tăs ăphơnăl păhayăd ăđoánănƠoăđ uăt ngăđ iăminhăb ch

- Kh n ngăth c thi trong nh ngăl nhăv căh ng s d ng lu t

i uănƠyăcóăngheăcóăv ăhi nănhiên,ănh ngălu t quyăn pănóiăchungăvƠăcơyăquy tă

đ nhănóiăriêngălƠăl aăch năhoƠnăh oăchoănh ngăl nhăv cămang tính quyăt c.ăR tănhi uă

l nhăv căt ădiătruy năt iăcácăquáătrìnhăcôngănghi păth căs ăch aăcácăquyăt că n,ăkhôngă

rõ ràng (underlying rules)ădoăkháăph căt păvƠăt iăngh aăb iănh ngăd ăli uăl i,ănhi u Cơyăquy tăđ nhălƠăm tăs ăl aăch năt ănhiênăkhiăchúngătaănghiăng ăs ăt năt iăc aăcác quyăt că n,ăkhôngărõăràng

- D dàng tính toán trong khi phân l p

M cădùănh ăchúngătaăđưăbi t,ăcơyăquy tăđ nhăcóăth ăch aănhi uăđ nhăd ng,ănh ngătrongăth căt ,ăcácăthu tătoánăs ăd ngăđ ăt oăraăcơyăquy tăđ nhăth ngăt oăraănh ngăcơyăv iăs ăphơnănhánhăth păvƠăcácătestăđ năgi năt i t ngănode.ăNh ngătestăđi năhìnhălƠ:ăsoăsánhăs ,ăxemăxétăph năt ăc aăm tăt păh p,ăvƠăcácăphépăn iăđ năgi n.ăKhiăth căthiătrênămáyătính,ănh ngătestănƠyăchuy năthƠnhăcácătoánăhƠmălogicăvƠăs ănguyênălƠă

nh ngătoánăh ngăth căthiănhanhăvƠăkhôngăđ t.ă ơyălƠăm tă uăđi măquanătr ngăb iătrongămôiătr ngăth ngăm i,ăcácămôăhìnhăd ăđoánăth ngăđ căs ăd ngăđ ăphơnăl păhƠngătri uăth mătríăhƠngăt ăb năghi.ă

- Kh n ngăx lý v i c thu c tính liên t c và thu c tính r i r c

Cơyăquy tăđ nhăx ălýăắt t”ănh ănhauăv iăthu cătính liênăt căvƠăthu cătínhăr iă

r c.ăTuyăr ngăv iăthu cătínhăliênăt căc nănhi uătƠiănguyênătínhătoánăh n.ăNh ngăthu că

Trang 32

tínhăr iăr căđưăt ngăgơyăraănh ngăv năđ ăv iăm ngăneuralăvƠăcácăk ăthu tăth ngăkêăl iă

th căs ăd ădƠngăthaoătácăv iăcácătiêu chu n phân chia (splittingăcriteria)ătrênăcơyăquy tă

đ nh:ăm iănhánhăt ngă ngăv iăt ngăphơnătáchăt păd ăli uătheoăgiáătr ăc aăthu cătínhă

đ căch năđ ăphátătri năt iănodeăđó.ăCácăthu cătínhăliênăt căc ngăd ădƠngăphơnăchiaă

b ngăvi căch năraăm tăs ăg iălƠăng ngătrongăt păcácăgiáătr ăđưăs păx păc aăthu cătínhăđó.ăSauăkhiăch năđ căng ngăt tănh t,ăt păd ăli uăphơnăchiaătheoătestănh ăphơnăc aă

ng ngăđó

- Th hi n rõ ràng nh ng thu c tính t t nh t

Cácăthu tătoánăxơyăd ngăcơyăquy tăđ nhăđ aăraăthu cătínhămƠăphơnăchiaăt tănh tă

t păd ăli uăđƠoăt oăb tăđ uăt ănodeăg căc aăcơy.ăT ăđóăcóăth ăth yănh ngăthu cătínhănƠoălƠăquanătr ngănh t choăvi căd ăđoánăhayăphơnăl p

2.4.2.3.2 Nh căđi m c a cây quy tăđ nh

Dùăcóănh ngăs căm nhăn iăb tătrên,ăcơyăquy tăđ nhăv năkhôngătránhăkh iăcóă

nh ngănh căđi m.ă óălƠăcơyăquy tăđ nhăkhôngăthíchăh păl măv iănh ngăbƠiătoánăv iă

m cătiêuălƠăd ăđoánăgiáătr ăc aăthu cătínhăliênăt cănh ăthuănh p,ăhuy tăápăhayălưiăsu tăngơnăhƠng…ăCơyăquy tăđ nhăc ngăkhóăgi iăquy tăv iănh ngăd ăli uăth iăgianăliênăt că

n uăkhôngăb ăra nhi uăcôngăs căchoăvi căđ tăraăs ăbi uădi năd ăli uătheoăcácăm uăliênă

t c.ă

- D x y ra l i khi có quá nhi u l p

M tăs ăcơyăquy tăđ nhăch ăthaoătácăv iănh ngăl păgiáătr ănh ăphơnăd ngăyes/no

hay accept/reject.ăS ăkhácăl iăcóăth ăch ăđ nhăcácăb năghiăvƠoăm tăs ăl păb tăk ,ănh ngă

d ăx yăraăl iăkhiăs ăvíăd ăhu năluy n ngăv iăm tăl pălƠănh ă i uănƠyăx y ra càng nhanhăh năv iăcơyămƠăcóănhi uăt ngăhayăcóănhi uănhánhătrênăm tănode.ă

- Chiăphíătínhătoánăđ tăđ hu n luy n

i uănƠyăngheăcóăv ămơuăthu năv iăkh ngăđ nhă uăđi măc aăcơyăquy tăđ nhă ătrên.ăNh ngăquáătrìnhăphátătri năcơyăquy tăđ nhăđ tăv ăm tătínhătoán.ăVìăcơyăquy tă

đ nhăcóăr tănhi uănodeătrongătr căkhiăđiăđ năláăcu iăcùng.ăT iăt ngănode,ăc nătínhă

m tăđ đo (hay tiêu chu n phân chia) trênăt ngăthu cătính, v iăthu cătínhăliênăt căph iă

thêm thao tác s păx păl iăt păd ăli uătheoăth ăt ăgiáătr ăc aăthu cătínhăđó.ăSauăđóăm iăcóăth ăch năđ căm tăthu cătínhăphátătri năvƠăt ngă ngălƠăm tăphơnăchiaăt tănh t.ă

Trang 33

M tăvƠiăthu tătoánăs ăd ngăt ăh păcácăthu cătínhăk tăh păv iănhauăcóătr ngăs ăđ ăphátătri năcơyăquy tăđ nh.ăQuáătrìnhăc tăt a cơyăc ngăắđ t”ăvìănhi uăcơyăconă ngăc ăph iă

đ căt oăraăvƠăsoăsánh

2.4.3 Xơyăd ngăcơyăquy tăđ nhă

Quáătrìnhăxơyăd ngăcơyăquy tăđ nhăg măhaiăgiaiăđo n:

- Giaiăđo năth ănh t: phátătri năcơyăquy tăđ nh:ăGiaiăđo nănƠyăphátătri năb tă

đ uăt ăg c,ăđ năt ngănhánhăvƠăphátătri năquyăn pătheoăcáchăth căchiaăđ ătr ăchoăt iăkhiăđ tăđ căcơyăquy tăđ nhăv iăt tăc ăcácăláăđ căgánănhưnăl p

- Giaiăđo năth ăhai: c t,ăt aăb tăcácănhánhătrênăcơy quy tăđ nh.ăGiaiăđo nănƠyă

nh măm căđíchăđ năgi năhóaăvƠăkháiăquátăhóaăt ăđóălƠmăt ngăđ ăchínhăxácă

c aăcơyăquy tăđ nhăb ngăcáchălo iăb ăs ăph ăthu căvƠoăm căđ ănhi u,ăl i c aă

d ăli uăhu năluy n mangătínhăch tăth ngăkê,ăhayănh ngăs ăbi năđ iămƠăcóăth ălƠăđ cătínhăriêngăbi tăc aăd ăli uăhu năluy n.ăGiaiăđo nănƠyăch ătruyăc păd ă

li uătrênăcơyăquy tăđ nhăđưăđ căphátătri nătrongăgiaiăđo nătr căvƠăquáătrìnhă

th cănghi măchoăth yăgiaiăđo nănƠyăkhôngăt nănhi uătƠiănguyênătínhătoán,ă

nh ăv iăph năl năcácăthu tătoán,ăgiaiăđo nănƠyăchi măkho ngăd iă1%ăt ngă

th iăgianăxơyăd ngămôăhìnhăphơnăl pă[24], [25]

Doăv y,ă ăđơyătôi ch ăt pătrungăvƠoănghiênăc u giaiăđo năphátătri năcơyăquy tă

đ nh.ăD iăđơyălƠăkhungăcôngăvi căc aăgiaiăđo nănƠy:ă

- B că1:ăCh năthu cătínhăắt t”ănh tăb ngăm tăđ ăđoăđưăđ nhătr c

- B că2:ăPhátătri năcơyăb ngăvi căthêmăcácănhánhăt ngă ngăv iăt ng giáătr ă

c aăthu cătínhăđưăch n

- B că3:ăS păx p,ăphơnăchiaăt păd ăli uăhu năluy năt iănodeăcon

- B că4:ăN uăcácăvíăd ăđ căphơnăl părõărƠngăthìăd ng.ăNg căl i:ăl păl iă

b c 1ăt iăb că4ăchoăt ngănodeăcon

Trang 34

2.4.4 Thu tătoánăs ăd ngăxơyăd ngăcơyăquy tăđ nh

2.4.4.1 Thu tătoánăCLS

Thu tă toánă nƠyă đ că Hoveland và Huntă gi iă thi uă trongă Conceptă Learningă

System (CLS) vƠoănh ngăn mă50ăc aăth ăk ă20.ăSauăđóăg iăt tălƠăthu tătoánăCLS.ăThu tătoánănƠyăđ căthi tăk ătheoăchi năl căchiaăđ ătr ăt ătrênăxu ng

Thu tătoánăCLSălƠăm tătrongănh ngăthu tătoánăraăđ iăs mănh t.ăNóăch ăápăd ngă

cho các CSDL ch aăít thu cătính,ăgiáătr ăcácăthu cătínhăd ngăphơnălo iăhayăr iăr c.ăCònăđ iăv iăcácăCSDLăl năvƠăcóăch aăcácăthu cătínhămƠăgiáătr ăc aănóălƠăliênăt căthìăCLSălƠmăvi căkhôngăhi uăqu ăThu tătoánăcóăth ăchoăcácăk tăqu ăkhácănhauăv iăcùngă

m tăt păd ăli uăđ uăvƠo.ăB iăvì,ăthu tătoánănƠyăch aăcóătiêuăchíăđ ăl aăch năthu cătínhătrongăquáătrìnhăxơyăd ngăcơy.ăNh ngăđơyălƠăthu tătoánăđ năgi n,ăd ăcƠiăđ t,ăphùăh pătrongăvi căhìnhăthƠnhăýăt ngăvƠăgi iăquy tănh ngănhi măv ăđ năgi n

Chiăti tăv ăthu tătoánăxemătrongă[7]

2.4.4.2 Thu tătoánăID3 (Interactive Dichotomizer 3)

Thu tătoánăID3ăđ căphátătri năb iăQuinlanăvƠăđ căcôngăb ăvƠoăcu iăth păniênă70ăc aăth ăk ă20.ăSauăđó,ăthu tătoánăID3ăđ căgi iăthi uăvƠătrìnhăbƠyătrongăm căInductionăonăDecitionăTrees,ăMachineăLearningăn mă1986.ăID3ăđ căxemănh ălƠăm tă

c iăti năc aăCLSăv iăkh ăn ngăl aăch năthu cătínhăt tănh tăđ ăti păt cătri năkhaiăcơyă

t iăm iăb c.ăID3ăxơyăd ngăcơyăquy tăđ nhăt ătrênăxu ngă(top-down) [18]

- Entropy:ădùngăđ ădoătínhăthu nănh tăc aăm tăt păd ăli u.ăEntropyăc aăm tăt pă

Săđ cătínhătheoăcôngăth că(2.1) [18]

+ Trong tr ngăh păcácăm uăd ăli uăcóăhaiăthu cătínhăphơnăl păắYes”ă(+),ăắNo”ă

(-).ăKýăhi uă lƠăđ ăch ăt ăl ăcácăm uăcóăgiáătr ăc aăthu cătínhăquy tăđ nhălƠăắYes”,ăvƠăhi uă lƠăđ ăch ăt ăl ăcácăm uăcóăgiáătr ăc aăthu cătínhăquy tăđ nhălƠăắNo”ătrongăt păS

+ Tr ngăh păt ngăquát,ăđ iăv iăt păconăSăcóănăphơnăl păthìătaăcóăcôngăth că

sau:

Trang 35

Entropy S (2.2)

Trongăđó lƠăt ăl ăcácăm uăthu căl păi trênăt păh păSăcácăm uăki mătra

+ Cácătr ngăh păđ căbi t

N uăt tăc ăcácăm uăthƠnhăviênătrongăt păSăđ u thu căcùngăm tăl păthìă

Entropy (S) = 0

N uătrongăt păSăcóăs ăm uăphơnăb ăđ uănhauăvƠoăcácăl păthìăEntropy(S)=1 Cácătr ngăh păcònăl iă0ă<ăEntropyă(S)ă<ă1

- Information Gain (vi tăt tălƠăGain):ăGainălƠăđ iăl ngădùngăđ ăđoătínhăhi uăqu ă

c aăm tăthu cătínhăđ căl aăch năchoăvi căphơnăl p.ă iăl ngănƠyăđ cătínhă

thông qua hai giáătr ăInformation và Entropy [7]

+ Choăt păd ăli uăSăg măcóănăthu cătínhă giáătr ăInformationă

(2.3) + Giáătr ăGainăc aăthu cătínhăAătrongăt păSăkýăhi uălƠăGaină(S,ăA)ăvƠăđ cătínhătheoăcôngăth căsau

Trong đó:

SălƠăt păh păbanăđ uăv iăthu cătínhăA.ăCácăgiáătr ăc aăvăt ngă ngălƠăcácăgiáătr ăc aăthu cătínhăA

b ngăt păh păconăc aăt păSămƠăcóăthu cătínhăAămangăgiáătr ăv

lƠăs ăph năt ăc aăt pă

là s ph n t c a t p Trong quá trình xây d ngăcơyăquy tăđ nhătheoăthu tătoánăID3ăt iăm iăb cătri năkhaiăcơy,ăthu cătínhăđ căch năđ ătri năkhaiălƠăthu cătínhăcóăgiáătr ăGainăl nănh t

Trang 36

Thu tătoánăID3ă[2] [18]

ID3 (Examples, Target_attribute, Attributes)

Examples lƠăt păhu năluy n.ăTarget_attribute lƠăthu cătínhăcóăgiáătr ăđ ăd ăđoánă

cho cây Attributes lƠăm tădanhăsáchăcácăthu cătínhăkhácădùngăki mătraăvi căh căc aăcơyăquy tăđ nh.ăK tăqu ătr ăv ăm tăcơyăquy tăđ nhăđ căphơnălo iăchínhăxácăb iănh ngă

t păhu năluy n

 T o m t nút Root cho cây

 If t t c t p Examples có trong cây, Return cây có nút Root duy nh tăđ c

gán v iănhưnăắ+”

 If t t c t p Examples không có trong cây, Return cây có nút Root duy nh t

đ c gán v iănhưnăắ-”

 If t p Attributes r ng, Return cây có nút Root duy nh tăđ c gán v i nhãn

là giá tr ph bi n nh t c a t p Target_attribute trong t p Examples

 N u không Begin

o A Thu c tính trong t p Attributes có kh n ngăphơnălo i t t nh tăđ i v i

t p Examples

o Thu c tính quy tăđ nh cho nút Root  A

o For each giá tr có trong cây, vi c a thu c tính A

 Thêm m t nhánh cây m iăd i nút Root,ăt ngă ng v iătr ng h p A

= vi

c a A

• D i nhánh m i này thêm m t nút lá v i nhãn là giá tr ph bi n nh t

c a t p Target_attribute trong t p Examples

Else d i nhánh m i này thêm cây con

ID3 ( , Target_attribute, Attributes – {A})

 End

 Return Root

Trang 37

V iăvi cătínhătoánăgiáătr Gainăđ ăl aăch năthu cătínhăt iă uăchoăvi cătri năkhaiăcơy,ăthu tătoánăID3ăđ căxemălƠăm tăc iăti năc aăthu tătoánăCLS

Khiăápăd ngăthu tătoánăID3ăchoăcùngăm tăt păd ăli uăđ uăvƠoăvƠăth ănhi uăl năthìăchoăcùngăm tăk tăqu ăB iăvì,ăthu cătínhă ngăviênăđ c l aăch nă ăm iăb cătrongăquáătrìnhăxơyăd ngăcơyăđ căl aăch nătr c.ă

Tuyănhiên,ăthu tătoánănƠyăc ngăch aăgi iăquy tăđ căv năđ ăthu cătínhăs ,ăliênă

t c,ăs ăl ngăcácăthu cătínhăcònăb ăh năch ăvƠăgi iăquy tăh năch ăv iăv năđ ăd ăli uă

b ăthi u ho cănhi u

2.4.4.3 Thu tătoánăC4.5

Thu tătoánăC4.5ăđ căphátătri năvƠăcôngăb ăb iăQuinlanăvƠoăn mă1996.ăThu tătoánăC4.5ălƠăm tăthu tătoánăđ căc iăti năt ăthu tătoánăID3ăv iăvi căchoăphépăx ălýătrênăt păd ăli uăcóăcácăthu cătínhăs ăvƠălƠmăvi căđ căv iăt păd ăli uăthi uăvƠăd ăli uănhi u.ăNóăth căhi năphơnăl păt păm uăd ăli uătheoăchi năl că uătiênătheoăchi uăsơu.ăThu tătoánăxétăt tăc ăcácăphépăth ăcóăth ăđ ăphơnăchiaăt păd ăli uăđưăchoăvƠăch năraă

m tăphépăth ăcóăgiáătr ăGainRatioăt tănh t.ăGainRatioălƠăm tăđ iăl ngăđ ăđánh giá

đ ăhi uăqu ăc aăthu cătính,ădùngăđ ăth căhi năphépătáchătrongăthu tătoánăđ ăphátătri năcơyăquy tăđ nh.ăGainRatioăđ cătínhăd aătrênăk tăqu ătínhătoánăđ iăl ngăInformationăGainătheoăcôngăth căsau

(2.5)

V iă

Trongăđó:

- Valueă(X)ălƠăt păcácăgiáătr ăc aăthu cătínhăX

- lƠăt păconăc aăt păTă ngăv iăthu c tínhăXă=ăgiáătr ălƠă

iăv iăcácăthu cătính liênăt c,ăchúngătaăti năhƠnhăphépăth ănh ăphơnăchoăm iăgiáătr ăc aăthu cătínhăđó.ă ăthuăth păđ căgiáătr ăEntropyăGainăc aăt tăc ăcácăphépă

th ănh ăphơnăm tăcáchăh uăhi uătaăti năhƠnhăs păx păcácăd ăli uătheoăgiáătr ăc aăthu cătínhăliênăt căđóăb ngăthu tătoán Quicksort

Trang 38

Thu tătoánăxơyăd ngăcơyăquy tăđ nhăC4.5ăxem thêm trong [7], [19]

M tăs ăcôngăth căđ căs ăd ng

(2.7) (2.8)

Côngăth că(2.8)ăđ c s ăd ngălƠmătiêuăchu năđ ăl aăch năthu cătínhăkhiăphơnă

l p.ăThu cătínhăđ căch nălƠăthu cătínhăcóăgiáătr ăGainătínhătheoă(2.8)ăđ tăgiáătr ăl nă

nh t

M tăs ăc iăti năc aăthu tătoánăC4.5

- LƠmăvi căv iăthu cătínhăđaătr

Tiêuăchu nă(2.8)ăcóăm tăkhuy tăđi mălƠăkhôngăch pănh năcácăthu cătínhăđaătr ăVìă v y,ă thu tă toánă C4.5ă đưă đ aă raă cácă đ iă l ngă GainRatioă vƠă SplitInfoă(SplitInformation),ăchúngăđ căxácăđ nhătheoăcácăcôngăth căsau:

Giáătr ăSplitInfoălƠăđ iăl ngăđánhăgiáăthôngătinăti măn ngăthuănh p đ căkhiăphơnăchiaăt păTăthƠnhănăt păh păcon

GainRatioălƠătiêuăchu năđ ăđánhăgiáăvi căl aăch năthu cătínhăphơnălo i

- LƠmăvi căv iăd ăli uăthi u

Thu tătoánăv aăxơyăd ngăd aăvƠoăgi ăthuy tăt tăc ăcácăm uăd ăli uăcóăđ ăcácăthu cătính.ăNh ngătrongăth căt ,ăx yăraăhi năt ngăd ăli uăb ăthi u,ăt călƠă ăm tăs ă

m uăd ăli uăcóănh ngăthu cătínhăkhôngăđ căxácăđ nh,ăho cămơuăthu n,ăkhôngăbìnhă

th ng.ăTaăxemăxétăk ăh năv iătr ngăh păd ăli uăb ăthi u.ă năgi nănh tălƠăkhôngă

đ aăcácăm uăv iăcácăgiáătr ăb ăthi uăvƠo,ăn uălƠmănh ăv yăthìăcóăth ăd năđ nătìnhătr ngăthi uăcácăm uăh c.ăGi ăs ăTălƠăm tăt păh păg măcácăm uăc năđ căphơnălo i,ăXălƠăphépăki mătraătheoăthu cătínhăL,ăUălƠăs ăl ngăcácăgiáătr ăb ăthi uăc aăthu cătínhăL.ăKhiăđóătaăcó:

Trang 39

(2.13),ătaăc năx ălýănh ăth ănƠoăv iăcácăd ăli uăb ăthi u.ăGi ăs ăm uăt ăt păh păTăv iă

đ uăraălƠă cóăliênăquanăđ năt păh pă thìăkh ăn ngăm uăđóăthu căt păh pă là 1

Gi ăs ăm iăm uătrongă cóăm tăch ăs ăxácăđ nhăxácăsu tăthu căt păh p ăN uă

m uăcóăcácăgiáătr ăthu cătínhăLăthìăcóătr ngăs ăb ngă1.ăN uătrongătr ngăh păng că

Taăcóăth ăd ădƠngăth yăđ căr ng t ngăcácăxácăsu tănƠyăb ngă1

(2.15)

Tómăl iăgi iăphápănƠyăđ căphátăbi uănh ăsau:ăXácăsu tăxu tăhi năc aăcácăgiáă

tr ăb ăthi uăt ăl ăthu năv iăxácăsu tăxu tăhi năc aăcácăgiáătr ăkhôngăthi u

Trongăthu tătoánănƠyăđưăgi iăquy tăđ căv năđ ălƠmăvi căv iăthu cătínhăs ă(liênă

t c),ăthu cătínhăcóănhi uăgiáătr ăvƠăv năđ ăd ăli uăb ăthi u,ănhi u.ăTrongăC4.5ăth că

hi năvi căphơnăng ngăv iăthu cătínhăs ăb ngăphépătáchănh ăphơnăđ aăvƠoăđ iăl ngă

GainRatio thayăth ăchoăđ iăl ngăGainăc aăID3.ă ăgi iăquy tăđ căv năđ ăthu cătínhăcóănhi uăgiáătr ă

Ngày đăng: 26/11/2016, 11:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w