4.4.2ă ăchínhăxácăc aăb ăphânăl păkhiăt ngăd năt păd ăli uăh cError!. M U Ngàyă nayă v iă s ă phátă tri nă nh ă v ă bãoă c aă cácă ngànhă khoaă h că k ă thu t,ăđ căbi tălàăs ăphátătri nă
Trang 1I H C QU C GIA HÀ N I
Ngô Th ng Huy n
PHÂN L P TH I N T
S D NG MÁY VECTOR H TR
LU N V N TH C S
HÀ N I – 2007
Trang 2M C L C
I H C QU C GIA HÀ N I
Ngô Th ng Huy n
PHÂN L P TH I N T
S D NG MÁY VECTOR H TR
NgƠnh: Công ngh thông tin
Mƣ s : 1.01.10
LU NăV NăTH CăS
Ng i h ng d n khoa h c: PGS TS HƠ Quang Th y
HÀ N I – 2007
Trang 3Lêi c¶m ¬n
Trongăquáătrìnhăth căhi năđ ătài,ătôiăđãăg păr tănhi uăkhóăkh năphátăsinhă màăn uăkhôngăcóăs ăgiúpăđ ,ăđ ngăviênăc aăgiaăđình,ăcácăth yăcôăgiáoăcùngă cácăb năbè,ăđ ngănghi păthìăcóăl ătôiăkhóăcóăth ăhoànăthànhăđ căkhóaălu nă này
L iăđ uătiên,ătôiăxinăchânăthànhăc mă năcácăth yăcôăgiáoăgi ng d y t i
Tr ngă iăh căCôngăngh ă- iăh căQu căgiaăHàăN iăđãătr căti păch ăb o,ă truy năth ăchoătôiănh ngăki năth căquýăbáu.ă căbi tătrânătr ngăc mă năth yă
giáoăPGS TS Hà Quang Th y,ăng iăth yăđãăt nătìnhătr căti păh ngăd n,ă
giúpăđ ăvàăđ ngăviênătôiăr tănhi uătrongăsu tăquáătrìnhăhoànăthànhălu năv n
Vàăcu iăcùng,ăm iăl iăyêuăth ngănh tăxinăg iăđ năgiaăđình,ăb năbèăvàă
đ ngănghi p,ănh ngăng iăluônă ăbênăc nhătôi,ămangăl iăchoătôiăngu năđ ngă viênătinhăth năl nălaoăvàăt oăm iăđi uăki năthu năl iăchoătôiăhoànăthànhălu nă
v n nàyătrongăkh ăn ngăt tănh tăcóăth
Doă s ă h nă ch ă v ă th iă gian,ă trìnhă đ ă vàă kinhă nghi mă nênă đ ă tàiă s ă khôngătránhăkh iănh ngăthi uăsót.ăTôiăr tămongănh năđ căýăki năđóngăgópă quýăbáuăc aăcácăth yăcôăgiáoăvàăcácăb n, đ ng nghi p đ ălu n v n đ căngàyă càngăhoànăthi năh n
Trânătr ngăc mă n!ă
HàăN i,ăngàyăăăăăăthángă12ăn mă2007
H căviên
NgôăTh ngăHuy n
Trang 4M C L C
L iăc mă n i
Danhăm căhìnhăv Error! Bookmark not defined Danhăm căb ngăbi u Error! Bookmark not defined. M ă U 1
Ch ng 1 KHÁI QUÁT V ăKHAIăPHÁăD ăLI U V N B N 3
1.1 M t s ki n th c v khaiăpháăd ăli u 3
1.1.1 Khái ni m khai pháăd ăli u 3 1.1.2ă Cácă h ngă ti pă c nă vàă cácă d ngă d ă li uă trongă khaiă pháă d ă li u
Error! Bookmark not defined.
1.2 Cácăbàiătoánătrongăkhaiăpháăd ăli uăv năb nError! Bookmark not
defined.
1.2.1ăTìmăki măv năb n Error! Bookmark not defined 1.2.2ăPhânăl păv năb n Error! Bookmark not defined 1.2.3ăM tăs ăbàiătoánăkhác Error! Bookmark not defined 1.3.ăKhaiăpháăd ăli uăWeb Error! Bookmark not defined 1.3.1ăNhuăc u Error! Bookmark not defined 1.3.2ă căđi m Error! Bookmark not defined 1.3.3ăCácăh ngăti păc n Error! Bookmark not defined.
Ch ng 2.ăPHÂNăL PăV NăB N Error! Bookmark not defined 2.1.ăBàiătoánăphânăl p Error! Bookmark not defined 2.1.1ăNhuăc u,ăýăt ng Error! Bookmark not defined 2.1.2ăQuáătrìnhăphânăl p Error! Bookmark not defined 2.2.ăCácăgi iăphápăphânăl păđi năhình Error! Bookmark not defined 2.2.1ăThu tătoánăphânăl păBayes Error! Bookmark not defined 2.2.2ăThu tătoánăk-ng iălángăgi ngăg nănh t.Error! Bookmark not
defined.
Trang 52.2.3ăPhânăl păd aăvàoăcâyăquy tăđ nh Error! Bookmark not defined 2.2.4ăChi tăl căthôngătinătheoămôăhìnhăMarkovă nError! Bookmark not
defined.
Ch ngă3.ăB ăPHÂNăL PăS ăD NGăMÁYăVECTORăH ăTR Error!
Bookmark not defined.
3.1.ăBi uădi năv năb năd aătrênămôăhìnhăkhôngăquanăvector Error!
Bookmark not defined.
3.1.1ăGi iăthi u Error! Bookmark not defined 3.1.2ăMôăhìnhăBoolean Error! Bookmark not defined 3.1.3ăMôăhìnhăt năs Error! Bookmark not defined 3.2.ăB ăphânăl păs ăd ngăvectorăh ătr Error! Bookmark not defined 3.2.1ăVectorăh ătr Error! Bookmark not defined 3.2.2ăThu tătoánăt oăsiêuăph ngăphânăcáchError! Bookmark not defined.
Ch ng 4.ă NGăD NGăVĨăTH CăNGHI MError! Bookmark not defined.
4.1.ăGi iăthi uăbàiătoánăth cănghi m Error! Bookmark not defined 4.2.ăD ăli uăvàăch ngătrình Error! Bookmark not defined 4.3.ăMôiătr ngăth cănghi m Error! Bookmark not defined 4.4.ăK tăqu ăth cănghi măvàăđánhăgiá Error! Bookmark not defined.
4.4.1ă ă chínhă xácă c aă b ă phână l pă khiă th ă nghi mă v iă t pă ki mă tra
Error! Bookmark not defined.
4.4.2ă ăchínhăxácăc aăb ăphânăl păkhiăt ngăd năt păd ăli uăh cError!
Bookmark not defined.
K TăLU N Error! Bookmark not defined.
TĨIăLI UăTHAMăKH O 5
Trang 6M U
Ngàyă nayă v iă s ă phátă tri nă nh ă v ă bãoă c aă cácă ngànhă khoaă h că k ă thu t,ăđ căbi tălàăs ăphátătri nănhanhăchóngăc aăm ngămáyătínhătoànăc u,ăm tă
kh iăl ngăd ăli uăkh ngăl ăv năhàngăngàyăđ căc pănh tăliênăt c,ăth ngă xuyên,ănh măđápă ngăm tătrongănh ngănhuăc uăkhôngăth ăthi uăđ căc aăconă
ng i,ăđóălàăthôngătin.ăVàăvìăth ăchúngătaăđangăđ căs ngătrongăm tăxãăh iă bùngăn ăthôngătin,ăkhiăcácă ngăd ngăcôngăngh ăthôngătinăđãăđiăvàoăt iăt ngă
l nhăv căc aăđ iăs ngăxãăh i.ăTrongăđóăInternetăngàyăcàngăkh ngăđ nhăm tăs că
m nhăv tătr iăvàăđóngăm tăvaiătròăquanătr ngătrongăđ iăs ngăxãăh i,ăkinhăt ,ă chínhătr ,ăv năhoá,ăgiáoăd cầăc aăconăng i.ăCùngăv iăs ăphátătri năkhôngă
ng ngăđó,ăInternetăđãăvàăđangătr ăthànhăm tăkhoăthôngătinăkh ngăl ăv ăc ăs ă
l ngăc ngănh ăs ăbi năđ iănhanhăchóngăc aănó,ătheoă căđoánăthìăc ăsauăhaiă
n măl ngăthôngătinăl iăt ngăthêmăg păđôi.ă
Th ăđi năt ălàăm tăd chăv ăph ăbi nănh tătrênăInternet,ănóăgiúpăchoăm iă
ng iă s ă d ngă máyă tínhă k tă n iă Internetă đ uă cóă th ă traoă đ iă thôngă tină v iă
Trang 7nhau.ăNgàyănay,ăkhiămàăInternetăđãăcóăm tă ăkh păm iăn iăthìăvi căs ăd ngă
d chăv ăth ăđi năt ălàăvi căhàngăngàyăđ iăv iăr tănhi uăng iătrênăkh păth ă
gi i.ăTaăbi tăr ngăkhiăm ngăInternetăraăđ i,ănh ngăng iăs ăd ngăđ uătiênălàă cácăchuyênăgiaămáyătính,ăh ăcùngăg iănhi uăemailăđ năcácănhómăng iădùngă khácănhau,ăsauăđóăm iăcóătìnhătr ngăkhôngăth ăki măsoátăđ căcácăemailăg iă
đ n.ăVìăv yăc năph iăcóăcácăch ngătrìnhăphânăl păcácăemailătheoăth ăm că
ng iădùngăho căl căhayăng năch nănh ngăemailămàăng iădùngăkhôngămu nă
nh nănh măt ngăch tăl ngăs ăd ng
Trongăl nhăv căth ăđi năt ăcáănhân,ăcácăk ăthu tăphânăl păv năb năc ngă
đ căápăd ngăr tăr ngărãiăvàoăbàiătoánăl căth ărác.ăM tăs ăv năđ ăkhácăliênă quanăđ năth ăđi năt ănh ăl căcácălu ngăth ăđi năt ,ăt ăđ ngăt oăcácăth ăm că
m iăc ngăđ cănghiênăc uăvàăgi iăquy t.ăHi nănay,ăbàiătoánăphânăl păth ăđi nă
t ăvàoăcácăth ăm căc ngăđangăđ cănhi uănhàănghiênăc uăquanătâm.ă
Trongălu năv nănày,ăchúngătôiă ngăd ngăphânăl păv năb năvàoăl nhăv că
th ăđi năt ănh măgi iăquy tăbàiătoánăphânăl păt ăđ ngăth ăđi năt ăvàoăcácăl pă doăng iădùngăđ nhăngh a.ăL aăch năthu tătoánămáyăvectorăh ătr ă(SVMs)ăv iă
nh ngă uăđi măvàăhi uăqu ăđãăđ căch ngăminhăquaănhi uăth cănghi măv ă phânăl păv năb n,ăchúngătôiăhyăv ngăSVMsăcóăth ăgi iăquy tăcácăkhóăkh nă
c aăbàiătoánăphânăl păemailăvàăđemăl iăk tăqu ăkh ăquan.ă
Lu n v n đ c t ch c thành 4 ch ng nh sau:
Ch ngă 1ă trìnhă bàyă kháiă quátă v ă khaiă pháă d ă li u,ă cácă k ă thu tă vàă
h ngăti păc năchínhătrongăkhaiăpháăd ăli uăvàăphânălo iăcácăh ăth ngăkhai pháătheoănhi uătiêuăchíăkhácănhau.ăCh ngănàyăc ngăgi iăthi uăv ăcácăbàiătoánă trongăkhaiăpháăd ăli uăv năb năvàăkhaiăpháăd ăli uăWeb
Ch ngă2ătrìnhăbàyăbàiătoánăvàăquáătrìnhăphânăl păv năb n,ăđ ngăth iă
gi iăthi uăm tăs ăgi iăphápăphânăl păđi năhình
Trang 8Ch ngă3ăgi iăthi uăph ngăphápăbi uădi năv năb năd aătrênămôăhìnhă khôngăquanăvectorăvàăt pătrungănghiênăc u,ăkh oăsátăph ngăphápămáyăvectoră
h ătr ,ăđâyălàăti năđ ăđ ăth căhi năvi căth cănghi măchoălu năv nănày
Ch ngă4ătrìnhăbàyăv ămôăhìnhăphânăl păth ăđi năt ăvàăápăd ngăđ iăv iă
m tăb ăd ăli uăđãăđ căcôngăb ăT ăcácăk tăqu ăth cănghi m,ăđ aăraăđánhăgiáă
h ăth ngăphânăl pănóiătrên
CH NG 1 KHÁI QUÁT V KHAI PHÁ D LI U V N B N
1.1 M t s ki n th c v khai phá d li u
1.1.1 Khái ni m khai phá d li u
Trongănh ngăth păk ăg năđây,ăl ngăthôngătinăđ căl uătr ătrênăcácă thi tăb ăđi năt ă(đ aăc ng,ăCD-ROM,ăb ngăt ,ă v.v.)ăkhôngăng ngăt ngălên.ă
S ătíchăl yăd ăli uănàyăx yăraăv iăm tăt căđ ăbùngăn ăNg iătaă căđoánă
r ng,ăl ngăthôngătinătrênătoànăc uăt ngăg păđôiăsauăkho ngăhaiăn măvàătheoă đóăs ăl ngăc ngănh ăkíchăc ăc aăcácăc ăs ăd ăli uăc ngăt ngălênăm tăcáchă nhanhăchóngă[5]
Hình 1 - L ng d li u đ c tích l y t ng m nh theo th i gian
Trang 9Chúngătaăqu ăth căđangăs ăh uăm tăkh iăl ngăd ăli uăkh ngăl ,ănh ngă
l iăluônăc măth yăthi uănh ngăthôngătinăh uăích.ăL ngăd ăli uăkh ngăl ănàyă
th căs ălàăm tăngu nă“tàiănguyên”ăr tăgiáătr ăb iăthôngătinălàăy uăt ăthenăch tă trongă m iă ho tăđ ngă tr că khiă raăquy tă đ nh.ăKhaiăpháăd ă li uăậ khaiăthácă
nh ngăthôngătinăti mă năcóătínhăd ăđoánăt ănh ngăc ăs ăd ăli uăl năậ làăm tă
h ngăti păc năm iăv iăkh ăn ngăgiúpăcácăcôngătyăchúătr ngăvàoănh ngăthôngă tină cóă nhi uăýăngh aă t ă nh ngă t păd ă li uă l nă (databases,ădataă warehouses,ă
data repositories)ămangătínhăl chăs ăNh ngăcôngăc ăkhaiăpháăd ăli uăcóăth ă
d ăđoánănh ngăxuăh ngătrongăt ngălaiăvàădoăđóăchoăphépădoanhănghi păraă
nh ngăquy tăđ nhăk păth iăđ căđ nhăh ngăb iătriăth cămàăkhaiăpháăd ăli uă đemăl i.ăS ăphânătíchăd ăli uăm tăcáchăt ăđ ngăvàămangătínhăd ăbáoăc aăkhaiă pháă d ă li uă cóă uă th ă h nă h nă soă v iă s ă phână tíchă thôngă th ngă d aă trênă
nh ngă s ă ki nă trongă quáă kh ă c aă cácă h ă h ă tr ă raă quy tă đ nhă (Decisionă
Support Systems - DSSs)ătruy năth ngătr căđây.ăCôngăc ăkhaiăpháăd ăli uă
c ng cóăth ătr ăl iă nh ngă câuăh iătrongăl nhăv căkinhă doanhămàă tr că đâyă
đ căxemălàăt nănhi uăth iăgianăđ ăx ălý.ăV iăt tăc ănh ngă uăth ătrên,ăkhaiă pháăd ăli uăđãăch ngăt ăđ cătínhăh uăd ngăc aănóătrongămôiătr ngăkinhă doanhăđ yătínhăc nhătranhăngàyănay.ăGi ăđây,ăkhaiăpháăd ăli uăđãăvàăđangătr ă thànhăm tătrongănh ngăh ngănghiênăc uăchínhăc aăl nhăv căkhoaăh cămáyă tínhăvàăcôngăngh ătriăth c
a) nh ngh a Khai phá d li u
Cóăth ăhi uă m tă cáchăs ăl că r ngă khaiăpháăd ă li u làăquáătrìnhătìmă
ki mănh ngăthôngătină(triăth c)ăh uăích,ăti mă năvàămangătínhăd ăbáoătrongă cácăt păd ăli uăl n.ăNh ăv y,ăcácănhàăkhoaăh căchoăr ngănênăg iăquáătrìnhănàyă
làăkhám phá tri th c (Knowledge Discovery in Databases ậ KDD)ăthayăvìălàă
khaiăpháăd ăli u.ăTuyănhiênăcácănhàăkhoaăh cătrongăl nhăv cănàyăđ ngăýăv iă nhauăr ngăhaiăthu tăng ătrênălàăt ngăđ ngăvàăcóăth ăthayăth ăchoănhau.ăH ă
Trang 10lýăgi iăr ng,ăm căđíchăchínhăc aăquáătrìnhăkhámăpháătriăth călàăthôngătinăvàătriă
th căcóăích,ănh ngăđ iăt ngămàăc năph iăx ălýăr tănhi uătrongăsu tăquáătrìnhă đóăl iăchínhălàăd ăli u
M tăkhác,ăkhiăchiaăcácăb cătrongăquáătrìnhăkhámăpháătriăth c,ăm tăs ă nhàănghiênăc uăl iăchoăr ng,ăkhaiăpháăd ăli u ch ălàăm tăb cătrongăquáătrìnhă
khám phá tri th c [21].
Nh ăv y,ăkhiăxétă ăm căt ngăquanăthìăhaiăthu tăng ănàyălàăt ngăđ ngă nhau,ănh ngăkhiăxétăc ăth ăthìăkhaiăpháăd ăli u đ căxemălàăm tăb cătrongă
quáătrìnhăkhám phá tri th c
TÀI LI U THAM KH O
Ti ng Vi t
[1].ă oànăS nă(2002),ăM t s gi i pháp cho bài toán tìm ki m trong c s d
li u Hypertext Lu năv năth căs ăCôngăngh ăthôngătină2002ăKhoaăCôngă
Ngh ă- iăH căQu căGiaăHàăN i.ă
[2].ăNguy năTh ăThùyăLinh,ăNguy năThuăTrang,ăNguy năTh ăH ngăTh o,
HàăQuangăTh yă(2007),ăM t gi i pháp h c bán giám sát SVM phân l p
trang web ti ng Vi t Báoăcáoăt iăH iăth oăFAIR'07,ăNhaăTrang,ă8-2007
[3].ăPhanăXuânăHi uă(2003),ăKhai phá song song lu t k t h p m Lu năv nă
th căs ăCôngăngh ăthôngătină2003ă- KhoaăCôngăNgh ă- iăH căQu căGiaă HàăN i.ă
[4] HàăQuangăThu ,ă ng Thanh H i, Nguy n C măTú,ăNguy n Vi tăC ng,
Nguy n Thu Trang, Nguy n Th Thùyă Linh,ăNguy n Th H ngă Th o,
Tr n Th Oanh (2007) Nghiên c u, phân tích và đánh giá các thu t toán
KC.01.02/06-10, 10-2007
Trang 11Ti ng Anh
[5] Alan Rea (1996) Data Mining – An Introduction
http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_1.html
[6] C.C Chang and C.J Lin (2007) LIBSVM: a library for support vector machines http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley,
2003, ISBN: 0-470-84906-1
[8] Enron dataset: http://www.cs.cmu.edu/~enron/
[9] Greg Kochanski (2005), Markov Models, Hidden and Otherwise http://www.kochanski.org/gpk 2005/02/28
[10] Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers 2001 [11] J.D.Brutlag, C.Meek (2000) Challenges of the Email Domain for Text Classification ICML 2000 : 103-110
[12] Manoel Mendonca (2000), Mining Software Engineering Data: A Survey University of Maryland, Department of Computer Science, A V Williams Building #3225 College Park, MD 20742 2000
[13] Nancy R Zhang (2001), Hidden Markov Models for Information
Extraction June, 2001
[14] P.S.Keila, D.B.Skillicorn (2005) Structure in the enron email dataset Proceeding of SIAM international conference on data mining, 2005
[15] R Agrawal, M Mehta, J Shafer, R Srikant, A Arning, T Bollinger (1996) The Quest Data Mining System Proceedings of 1996 International Conference on Data Mining and Knowledge Discovery (KDD’96),ăPortland,ăOregon,ăAugustă1996.ă
Trang 12[16] Ron Bekkerman, Andrew McCallum, Gary Huang (2004) Automatic Categorization of Email into Folders : Benchmark Experiments on enron and SRI corpora Technical report IR-418 2004
[17] Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers, 2003
[18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph (2005) Analyzing behaviorial features for email classification Second conference on email and antispam (CEAS 2005)
[19] Svetlana Kiritchenko, Stan Matwin (2001) Email classification with co-training Proceedings of the 2001 conference of the centre of advanced studies on collaborative research
[20] U M Fayyad, G Piatetsky-Shapio, P Smyth, and R Uthurusamy (eds.) (1996), Advances in Knowledge Discovery and Data Mining AAAI/MIT Press, 1996
[21] Sen Slattery (2002) Hypertext Classification Doctoral dissertation (CMU-CS-02-142) School of Computer Science Carnegie Mellon University, 2002
[22] Y Yang and J.O Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization Proceeding of the 14th International
ConferenceăonăMachineăLearningă(ICML’97)
[23] http://en.wikipedia.org/wiki/