Giớithiệu Táchtừlàvấnđềquant â m nhấtkhilọc thư ráctiếngViệtdotiếng Việtcĩcácđặctrưngriê ngmặcdùtiếngViệtcũngdùngkýtựlatinhnhưtiếngAnh.TiếngViệtcĩ2thànhphầncơbản[1]: tiếngvàtừ.. 2 Trongb
Trang 11
PHƯƠNGPHÁPLỌCTHƯRÁCTIẾNGVIỆTDỰATRÊNTỪ
GHÉPVÀTHEOVẾTNGƯỜISỬDỤNG
PhanHữuTiếp1, VũĐứcLung2,CaoNguyễnThủyTiên1,LâmThànhHiển1
1 Đại họcLạcHồng
2 Đại họcCơngnghệthơngtin,ĐạihọcQuốcGiaTp.HồChíMinh
Tĩmtắtbáocáo.“Lọcthưspam”làbàitốnđangđượccácnhànghiêncứuquantâmvàđãxuấthiện
nhiềuhướngtiếpcậnđểxâydựngcáchệthốnglọcchohiệuquảcao.Tuynhiên,cĩn h ữ n g vấnđềkhĩk hăntháchthứckhácđốivớibàitốnnày:xâydựngbộlọcthưspamtiếngV i ệ t Trongbàibáonày,chú
NạveBayesđểlọcthưs p a m tiếngViệtthơngquaviệcxửlýngơnngữtiếngViệt.
Từkhĩa:Lọcthưrác;anti-spam;spamtiếngViệt.
1 Giớithiệu
Táchtừlàvấnđềquant â m nhấtkhilọc thư ráctiếngViệtdotiếng Việtcĩcácđặctrưngriê ngmặcdùtiếngViệtcũngdùngkýtựlatinhnhưtiếngAnh.TiếngViệtcĩ2thànhphầncơbản[1]: tiếngvàtừ Một số mối liênquangiữatừvàtiếngnhưsau
Vềngữpháp,tiếng làđơnvịcấutạocủatừ.Từlàđơnvịn h ỏ nhấtđểtạocâu,hìnht h ứ c v
àýnghĩacủatừđộclậpvớicúpháp.Cĩ2loạitừphổbiến:từmộttiếng(từđơn)vàtừntiếngtrởlên(n
<5)gọilàtừphức.TrongđặtcâutiếngViệt,sửdụngtừchứkhơngsửd ụ n g tiếng.
TrongtiếngAnh,từđượcđịnhnghĩanhưsau:“Từlàmộtnhĩmkýtựcĩnghĩa,đượcp h â n c áchbởikýtựkhoảngtrắngtrongcâu”(từđiểnWebter).Vídụ:“Iamastudent”sẽtáchđược4từ:I ,am,a,student.TrongtiếngViệt,vídụ:“Tơilàhọcsinh”sẽtáchđược3t ừ : tơi,là,họcsinh.Tron gđĩtừghép“họcsinh”làtừđượchìnhthànhbởi2tiếng:“học”,“sinh”.Do sựkhácbiệt này,khi
tách mơṭt ừghép trongcácthưrácthànhcáctừđ ơ n t h i ̀laị
đươ
c̣ dùngphởbiến trongcácthưtớt .C ụ thể, từ“ khuyếnmãi”làtừt h ườngđượcdùng trongthưrácnhưngkhi táchrathành từ“ khuyến”vàtừ“mãi”thìnhữngtừn àylaịđươc̣ sử
dụngnhiều trongcácthưtốt.Nhưvâỵ,đới với thưráctiếngViêṭhướngtiếpcâṇ phântích dư
ạ vào từghép haytừcónghĩachứk h ơ n g phải dưạ vào từđ ơ n n h ư trongtiếngAnh.Vấn đềhàngđầuđăṭralàchưa cĩbộ từtiếngViệtnàohồnhảochoviệc làmtrên
Trang 22
Trongbài báo này,chúngtôigiới thiêụ môṭk ỹ thuật lọcthưráctiếngViệt đó làáp
Trang 3dụngthuậttốnNạveBayestiếng Việt.Đồngthời,cũngđưa ra mộtgiảipháptáchtừtiếngViệthồntồnmớilàdựavàotầnsốxuấthiệncủatừmàkhơngquantâ mđếnngữnghĩacủatừ.Phầntiếptheosẽtrìnhbày:phươngpháptiếpcận,quytrìnhthựchiệnlọcthư
&kếtq u ả thửnghiệm,cuốicùnglà kết luận
2 Phươngpháptiếpcận
TrongtiếngViệt,tùytheolĩnhvực,chủđềkhácnhaunêncĩnhiềutừ,tiếngkhácnhauv ề mặtph átâmcũngnhưýnghĩa.Trongbàibàobáonày,chỉtậptrungvàolĩnhvựcthưráctiếngViệtnênc ĩsựgiớihạnvềsốlượngvềtừvàtiếngsửdụng.Bàibáokhơngtậpt r u n g vàom ặ t ý nghĩac ũ n
g n h ư n h ữ n g đ ặ c t r ư n g p h ứ c t ạ p củat i ế n g Việtn h ư t ừ đ ồ n g nghĩa,từláy,sựnhậpnhằngn gữnghĩa…
màchỉxácđịnhtầnsốcủatừđơn,từghéptiếngViệtxuấthiệntrongthưrácnênhướngtiếpcậnkh ácbiệtvớicácphươngphápxácđịnhngữnghĩatừ tiếngViệt
Hiệntại,chưacĩmộtthốngkêchínhxácnàođểxácđịnhnhữngđặcđiểmchungcủat h ư ráct iếngViệt.Theokhảosáttổngquát,đaphầnthưráctiếngViệttậptrungvàoquảngcáo,raovặtmuab ánvàmờithamgiacácdiễnđàn,mạngxãhội.Phầndướisẽtrìnhbàyn h ữ n g mục
tiêuchínhcủaphươngpháptiếpcậnnày
2.1 Mụctiêuchính
Xétmộtvănbảnugồmntiếngt=s 1 s 2 s n Mụctiêuchínhlàphântíchvănbảnuthànhm câuđơn t=z 1 z 2 …z mvới z k =s i …
s j(1≤ k≤m,1≤i,j≤n)cĩthểchứatừđơnhaytừphức.Ứ n g vớimỗicâu,phântíchthànhtừngtừđơnt
hể.Đâylàbướcđầutiênđểxâydựngmộtdanhsáchcáctừghépđượcsửdụngnhiềutrongthưráctiế ngViệt,theoưutiênxéttầnsốx u ấ t hiệncủatừ.Từđĩ,sửdụngthuậttốnNạveBayesdựatrê ntậphợpcáctừvừatìmđ ư ợ c đểtiếnhànhphân loại thư
Quytrìnhlọcthưrác tiếngViêṭ chocảquátrìnhhuấnluyệnvànhậndạngcĩthểđược
nhưhìnhdưới Trongmơhìnhthểhiệnrõtiếntrìnhtừkhinhậnt h ư , xửlývàphânloạibứcthưnh ậnđược,đồngthờicũngcậpnhậtlạitậphuấnluyệnchov i ệ c họctừ
Trang 4Mơhìnhgồm3tiếntrìnhnhỏ.Tiếntrình 1làmnhiệm vụtiềnxửlývàphântíchtừđ ơ n , t ừghépcĩtrongmỗithưtiếngViệttruyềnvào,trongtiếntrình2ápdụngthuậttốnNạveBayesd ựatrêndanhsáchcáctừđơnlẫntừghépđãphântíchtrongtiếntrình1đểx á c địnhtầnsốxuấthi ệncủacáctừ,quađĩphânlớpbứcthưthuộclớpthưbìnhthường,thư ráchaythư trungtín Trongtiếntrìnhcuốicùng,cáctừghép,từđơnmớisẽtựđộngđượchọcvàcậpnhậtvàotrongt ậphuấnluyệncơsở,cịncáctừđãtồntạisẽthayđổitầnsốxuấthiệntrongthưrác,thưbìnhthường vàthưtrungtín.Quytrìnhhọctừnàydiễnramộtcáchtựđộng.Sốl ượ ng từhọcđượcphảiqu aquytrìnhkiểmtrađểxácđịnhlàtừcĩtrọngsốđángtincậyh a y khơng.Phầntiếptheo sẽ mơ tảrõquytrình 1 trongmơ hình đềxuất
2.2 TiềnxửlývàtáchcâutiếngViệt
Trongmơhìnhtrên,tiếntrình1gồm2giaiđoạntiềnxử
lývàtáchthànhtừngcâuđơncủahệthống.Tiếntrìnhnàycĩthểkháiquát nhưsau:
ĐưavàotậpT sgồm nhữngtàiliệuhuấnluyện,trongđĩmỗitàiliệuT i T s(1≤ i≤s)t h u ộ c về
mộttrongbalớp:thưrác,thưbìnhthườnghaythưtrungtín.Tàiliệuhuấnluyệnn ày đượcchọntr onggiaiđoạnkhởitạovàđượccậpnhậttronggiaiđoạnphânlớpthànhcơngmột
bứcthưđầuvào(tiếntrình thứ 3, họctừđơn vàtừghéptrongmơhình)
VớimỗitàiliệuTT s ,mộtvectorhỗtrợV tcủaquanhệtầnsuấttừsẽđượcxâydựngd ự a vàocácbư ớcsauđây:
+Xửlýloại bỏ cácđịnhdạng của ngơnngữHTMLcĩtrongbứcthư
Trang 5vàcáctừdù ng đểnốicâunhư“tuynhiên”,“mặcdù”,“vìthế”,“khôngnhững”,“màcòn”,…
nhữngkýtựđặcbiệtnhư“@”,“#”,“$”,“?”,“&”,…đểlàmtăngtốcđộxử
lýcủaviệctáchtừdon h ữ n g từloạinàyxuấthiệnnhiềutrongcáctàiliệuhuấnluyện,đồngthờisựxu ấthiệncủacáctừnàykhônglàm ảnh hưởngđến quátrình phân loại thư
+Chuyểntoànbộvănbảnthànhcáccâuđơnchuẩn,mỗitừtrongcâuđơnchuẩncáchnhaubởi
mộtkhoảngtrắngduynhất.Đểtăngtốcđộxửlýcóthểthaythếcácdấucâunhưdấuhỏi(?),dấuchấm than(!),dấynháy…
thànhdấuchấmcâu(.).Dokhôngxétđếnnộid u n g từmàchỉxétsốlượngtừtìmđượcvàxácđ
ịnhtầnsốxuấthiệncủachúngcótrongnộidungthưnênphầnthayđổinàykhônglàmmấtđití nhchấtcủabứcthưcầnlọc.Saugiaiđoạntiềnxửlývàtáchnộidungthư,tasẽtiếnhànhphântíc htừđơn,từghéptrongn ộ i d u n g thư
2.3 Phântíchtừđơn
Sauquátrìnhtrên,mỗitàiliệuT it h u ộ c tậptàiliệuT sđược chuẩnhóathànhtậpS ncâuđ ơ n
c h u ẩ n ,ứngvới mỗicâuđơnS j(1≤ j≤n)sẽchứaktừđơn,mỗitừđơnW m(1≤ m≤k)vàW m+1(1≤ m≤k)được phâncáchnhau bởi mộtkýtự
khoảngtrắng.Dựavàođặctínhnày,dễdàngxâydựngđượccơsởdữliệucáctừđơnchuẩnvàtầnsố xuấthiệncủachúngtrongt ừ n g bứcthưcủatậphuấnluyện.Do
tiếpcậntheohướngkhôngđềcậpđếnýnghĩacủatừđ ơ n ,nênđểtăngđộ tincậycủatừ đơn
trongthư,chúngtôixéttầnsố xuấthiệncủatừđơn
theohaicơchế:
+Họctừvựngbìnhthường:tầnsốxuấthiệncủatừđơntrêntoànbộtậphuấnluyệnđ ư ợ c tínhbằngsốlầnxuấthiệncủachínhtừđó,cóphânbiệttrongmộtthưxuấthiệnbaon h i ê u lần +Họctừvựngchoquátrìnhlọcspam:tầnsốxuấthiệncủatừđơnđượctínhtrêntừngb ứ c thư, mỗilầnxuấthiệntrongthưđượctínhlàxuấthiện1lần,nếutrongthư,từđóxuấth i ệ n nhiềulần thì cũngtính là 1lần
Cụthểhóa,trongcâuđơn“Họcsinhhọcsinhhọc”sẽđượctáchlàm2từđơn:“học”,“sinh”vớit
ầnsố xuấthiệntínhtheohaicơchếtrênlầnlượtlà“học”(3lần),“sinh”(2lần)v à “học” (1lần),“sinh”(1lần).
Quátrìnhhọctừđơnnàylầnlượtdiễnratrênhaitậphuấnluyệnthưrácvàthưbìnhthường Kếtthúcquátrìnhphântíchtừđơn,sẽhìnhthànhđượcmộttậphợpgồmnhiềutừđ ơ n , mỗitừđơn
sẽcó01mãđịnhdanh(id)nhấtđịnhtrongcơsởdữliệu.Ứngvớimỗi
Trang 6địnhdanhi d trênmỗitậphuấnluyệnsẽcó2tầnsốxuấthiện:tầnsốtổngtrêntậphuấnluyệnvàtầ
n sốtrêntừngbứcthư thuộctậphuấnluyệnnhư đãtrìnhbàynhưcáchtínhtrên
2.4 Phântíchtừghép
TrongtiếngViệt,bêncạnhtừđơncòncótừgồm2tiếngtrởlên.Hiệntại,dochưacót ừ điểnchu ẩnnàochoviệcxửlýngônngữtiếngViệt,nênchúng tôiquyếtđịnhdựavàobảngt h ố n g k ê củab
ộ t ừ đ i ể n s ử d ụ n g bênd ư ớ i ( http://
dict.vietfun.com)đ ể bắtđầuq u á tr ìn h phântíchtừghéptừtậphợpcáctừđơnđãtìmđượctrongp hầncuốigiaiđoạn1.Dot í n h chấtphứctạpcủatừghépvềđộdàicóthểgồm 2tiếng,3tiếng,4tiếng… nên
đểthuậntiệnchoq u á t r ì n h nghiêncứu,đ ã t h ố n g k ê d ự a trênwebsitehttp://dict.vietfun.com ,s ố l ư ợ n g từghépdựavàosốtiếngnhư bảng1
Tầnsố Tỉlệ%
Bảng1 -Thốngkêđộ dàicủatừtrongtừđiển(http://dict.vietfun.com)
Dựavàobảngtrên,hơn67.1%từtrongtừđiểncóđộdàilà2tiếng,khoảng20%làtừđ ơ n vàtừc
óđộdàigồm3-4tiếng.Cáctừdàihơnchỉchiếmkhoảng3%trongtựđiển.Quađ ó , thấyrõsovớitừđơnvàcáctừg hépcóđộdàilớnhơnthìtừghép2tiếngchiếmsốl ư ợ n g
k h á lớn.Vìvậy,đểđơngiảnvấnđề,banđầutậptrungvàoviệcphântíchtừghépcó2 tiếngnhưngkhô ngxétvềmặtnghĩacủatừ.Quytrìnhphântíchtừghépcóthểkháiquáth ó a nhưsau:
+Xéttrong1câutiếngViệtS(Sentence)sẽgồmW 1 ,W 2 ,W 3 ,…
W n t ừ , mỗitừW i (1≤i ≤ n)làmộttừđơntiếngViệt.Doviệcphântíchchỉtậptrungtừghépcó2tiếng nênmỗit ừ ghépCW(CompoundWord)đượctạobởihaitừđơnđứnggầnnhauW i , W i+1 (1≤i≤n)v à
đượccáchnhaubởi 1khoảngtrắng
+Dokhôngxétmặtngữnghĩacủatừnêntrongquátrìnhtạotừghéptheocáchtrênsẽdẫnđếncáct
ừvônghĩa.Cụthể,xéttrong1câuđơn“Khuyếnmãicao ”sẽtáchđượccác
Trang 7bộtừ:“khuyếnmãi ”và“mãicao”,nhưvậytừghép“khuyếnmãi ”cógiátrị,còntừ“mãicao”không
cógiátrị trongquátrình lọcthưrác
Đểgiảiquyếtv ấ n đ ề này,q u a k ế t q u ả q u á t r ì n h t h ự c nghiệmt á c h t ừ , đ ã s ử d ụ n g
ngưỡngαdùngđểđánhgiáđộchínhxáccủatừghéptìmđược.Ngưỡngαđược
địnhnghĩab ở i ngườisửdụng.Mỗitừghépđềucóriêngmộtngưỡngα.Khingưỡngαthayđổigiátr
ịt h ì đ ộ chínhxáccủatừghépcũngbị thayđổi theo
Đểgiảmthờigianlọcthưspam,chúng tôiđãxâydựngbộtừđiểncác từghéptheocác
htrên.GiảsửcótậpthưspamSD(SpamDocument),mỗithưD iSDsẽcótậpcáccâuđ ơ n S n.Tron
gmỗicâuđơnS iS n(1≤ i≤n)sẽgồmcáctừđơnW 1 ,W 2 ,W 3 ,…
W n Vậnd ụ n g cơchếtáchtừghépnêutrênthỏamỗi từghépCWchứa1bộgồm2từđơn{W j ,W j+1 } (1≤j≤m),trongđóW jvà W j+1l àhaitừđơnliêntiếpđứnggầnnhauvàcáchnhaubởidấukhoảngcách
ỨngvớimỗitừghépCWtìmđượcsẽđượcđưavàotậptừghépnếutừghépchưatồ n t ạ i t r o n g tậpt
ừ ghépv à t ăn g tầns ố xuấth i ệ n nếut ừ ghépt ì m được đã tồ n t ạ i t r o n g tập từghép
Kếtquảcủaquátrìnhtiềnxử lýnêutrên,sẽcóđược 1tậptừghépchứacảtừcógiátrịs ử d ụ n g
v à n h ữ n g từ 2tiếngkhôngcóýnghĩa.Mỗi từ trongtập từnàysẽcó1
tầnsốkbiểud i ễ n tầnsốxuấthiệncủatừtrongtậphuấnluyện.Tầnsốkthểhiệntổngsốlầnxuấth iệncủatừtrêntoàn bộ tập huấnluyện,mỗi lần từ xuấthiệnthì tăngtrọngsốklên 1 đơn vị.
Tínhgiátrị củangưỡngαcủamỗi từCWtrongbộtừghép
Trongđóklàtầnsố xuấthiệncủatừghépCWtrongtập huấnluyện.
Dựavàokếtquảthửnghiệmtáchtừ,ngưỡngαlớnhơn0.2thìđộchínhxáccủatừcót h ể chấp nhậnđược.Nhữngtừcóngưỡngαnằmngoàikhoảngcậntrênđượcxếpvàotậpcáctừcầnđượchu
ấn luyệntiếptục
2.5 QuytrìnhcậpnhậttừvựngtiếngViệt
Trongmôhìnhlọcthưrácđãtrìnhbàyởtrên(Hình1),saukhiđãphânlớpthưthuộct h ư rách aythưbìnhthường,quytrìnhhọctừtựđộngđượctiếnhành.Đốivớinhữngtừđ ơ n haytừghé pmớichưacótrongbộtựđiểnsẽđượccậpnhậtvào.Ngượclại,đốivớinhữngtừđãcó,hệt hốngsẽcậpnhậttầnsốxuấthiệncủatừđó,đồngthờithayđổitỷlệspam,hamcủacáctừ đó
Trang 8Vớiq u á t rì nh t ự h ọ c này,ứ n g v ớ i s ố l ư ợ n g thư tiếngViệtc à n g lớn t h ì s ố l ư ợ n g từt r o
n g bộtự điểncàngcao, đồngthời sẽtăngđộchínhxácchoviệc tính xácsuất thư ráchayt h ư
b ì n h thường,hỗ trợ rấtnhiềukhi áp dụngcơngthứcNạveBayes
Phầntrên,c h ú n g tơi đ ã đ ề xu ất p h ư ơ n g phápt i ế p cậnv i ệ c t ác h t ừ t r o n g tiếngViệt.Ph ầntiếpt h e o , c h ú n g t ơ i s ẽ đ ư a r a quyt r ì n h l ọ c t h ư r á c t i ế n g Việtd ự a vàot h u ậ t t o á n Na ïveBayes
3 QuytrìnhlọcthƣráctiếngViệt
3.1.ÁpdụngthuậttốnNạveBayes
DựatrêncơngthứcNạveBayes,ápdụngnguyêntắctínhxácsuấtchocácidtừđơnởphần(2.3)
haytừghép(2.4) bằngthuật tốn NạveBayesnhưsau:
Giảsử nội dungcủamỗibứcthư điện tửlà:content
Lớpthư ráckýhiệulà:spam
Lớpthư hợp lệkýhiệu là:ham
Xácsuất đểmột thư điệntử là thưrác:P(spam|content)
Word 1 ,Word 2 ,Word 3 , Wordmlàcáctừ đặctrưngxuấthiệntrongcontent.
P(spam|content) P ( content | spam Total ) * P ( spam ) (2)
TrongđĩTotalđượcxácđịnh bằng
TotalP(content|spam)*P(spam)P(content|ham)*P(ham) VớiP(content|ham)vàP(content|spam)đượctínhbằng
P(content|ham)P(word i | ham)
P(content|spam)P(word i | spam)
Cuốicùng,P(spam)vàP(ham)đượctính bởi cơng thức
(3)
(4) (5)
P(spam)
P(ham)
TotalSpamT otalMessage TotalHam
(6)
(7)
TotalMessage
Trongquátrìnhphânlớpthư,ngồilớpthưrácvàthưhợplệ,nếuxácsuấtspamlà
>0.7sẽđượcphânvàol ớ p thưspam, nếuxácsuất s p a m là<0.3thì đượcphânvàothư
Trang 9bìnhthường,cịntrongtrườnghợpngượclạithìsẽđượcđưavàophânlớpthứba:lớpthưt r u n g tín.
Nhữngthưthuộclớpnàysẽchờngườiduyệtthưquyếtđịnhphânloạilàthưhợpl ệ haythưrác.Xác
suấtxácđịnhthưráccĩthểthayđổiđểlàmtăngđộtincậychoquát r ì n h l ọ c thư spam,
nhữngtỉ lệnêutrên đượcxácđịnh trongquátrình thửnghiệm
Trongmơhìnhđãđềcậpởtrên,trongphầnthứ2,saukhicĩdanhsáchtừđơnvàtừghép,ápd
ụngthuậttốnNạveBayesdựatrêndanhsáchcáctừđểtìmcáctokencĩgiátrịt ố t nhấttrongdanh
sách.Thửnghiệmcủađềtàidựatrêncácdạngtokencácnhau:tokent o à n từđơn,tokentồntừ
ghépvàtokenvừatừđơnvàtừghép.Dướiđâylàvídụápdụngcơngthứctính tỉ lệspamvà tỉ
lệhamtheocơngthứcBayes
Bảng2 - Vídụminhhọaphântíchtừđơn
Áp dụngcơngthứctính
P(spam|token) ( spam P ) * P P(token) ( token | spam )
Thuđượccácgiátrịsauđây
P(spam|“bán”)=P(600/1000) *P(300/600)/ P(400/1000)
=0.6*0.5/0.4=0.75=75%P(ham|“bán”)=P(400/1000)*
P(100/400)/P(400/1000)=0.4*0.25/0.4=0.25=25%P(spam|“mua”)=P(600/1000)*
P(90/600)/
P(100/1000)=0.6*0.15/0.1=0.9=90%P(ham|“mua”)=P(400/1000)*P(10/400)/
P(100/1000)=0.4*0.025/0.1=0.1=10%
3.2.Kếtquảthựcnghiệm
ĐểviệclọcthưráctiếngViệtđạthiệuquảcao,việctáchtừchiếmmộttrítrírấtquantrọng.Tu
ynhiên,việcđánhgiáđộchínhxáccủaviệctáchtừrấtphứctạp,đặcbiệt đối
vớit ừ ghép.Dođóbàibáonàythựchiệncácthử nghiệm sau đây:
Táchcâu,táchtừ(cảtừđơnlẫntừghép)dựatrênmộttậphuấnluyệngồmnhiềuthơngt i n
t h u ộ c nhiềulĩnh vựckhác nhautrên mạngInternet
P hân loạ ith ưs pa má pd ụn gth uật tố nN ạv eB aye sd ựat rên tập
Trang 10hợptừđơn,từghépv à dựatrêntừđơnlẫntừghép.Ngoàira,bộlọcthưspamcòncóchứcnăngtheov ếtngười
(8)
Trang 11sửdụng,nghĩalànếungườidùngđăngnhậpsaumộtsốlầnnàođĩthìnhữngemailkhơngđ ọ c sẽđư ợcgánlàthưspamvàtựđộngchuyểnsanghộpSpam.Nĩimộtcáchkhác,nếu1emailnằmtronghộp Inboxsaubaonhiêulầncheckmailmàngưởidùngkhơngmởraxemt h ì mặcđịnhemailđĩsẽchuy ểnsanghộpSpammàkhơngcầnhỏingườisửdụng,giảmt h ờ i giancheckmail củangườidùng ThửnghiệmlọcthưráctiếngViệtbằngNạveBayes,sửdụngtậphuấnluyệnlàbộtừđ ơ n vàt
ừghépđãnêutrên:dữliệuthửnghiệmlà01tậphợpgồmnhiềuemailtiếngViệtD={d 1 ,d 2 ,
…,d n )t r o n g đ ĩ m ỗ i emails ẽ t h u ộ c vàom ộ t t r o n g b a l o ạ i : t h ư rác,t h ư b ì n h t h ư ờ n g v àthưtrungtín.Vớimỗitàiliệud i(1≤ i≤n),sauquacácphươngphápxửlýnêutrên,kếtquảcuốicù ngdiđượcbiểudiễnd i =g 1 g 2 …g mvới g k(1≤ k≤m)làtừđơnhaytừghépđãxửlý.
Chúngtơixâydựngtậpdữliệuhuấnluyệnđểthựchiệncácthínghiệmtrên.Đốivớit h ử nghi ệmđầutiên,đãthu thậpgần800 dữ liệu đểtriểnkhaivàchokếtquảnhưsau
Sốlượng Tỉlệtừđúng
Bảng3 - Kếtquảtáchtừtrên800dữliệumẫu
Đốivớithửnghiệm2và3,chúngtơixâydựngxâydựngtậphuấnluyệnđểthựchiện.D o tậphu ấnluyệnphảilàthưtiếngViệtnênchúngtơiphảisửdụngthốngkêtrêInternet,m ộ t mặttìmemai ltiếngViệt,mặtkhácxinsựgiúpđỡcủacácdiễnđànđểthuthậpemailtiếngViệt.Đểtiếntrìnhhu ấnluyệnđượcthuậnlợi,chúngtơichiadữliệuthuthậpđượct h à n h 2loại:thưrácvàthưbình thường.Tổngdữliệuthửnghiệmgồm384thưrácvà500
thư bình thường đểbắt đầutiếntrìnhhuấnluyện.Vớitậphuấnluyện như trên,chúngtơi
đãtáchđược1042 từ đơn và5914 từghép
LĩnhvựcnghiêncứutiếngViệtphongphúnhưkinhtế,khoahọc,xãhội,sứckhỏe,thểt h a o … nênviệcnghiêncứungữnghĩacáctừ,cáccâusẽrấtphứctạpvà đểxử lýchínhxáccũngmấtnhiềuthờigian.Ngồira,theothốngkêtrongbảng1chothấytừghéptiếngViệ tchủyếulàloạitừcĩđộdài2tiếng,dovậyviệc
táchtừchúngtơicũngchỉthựchiệnchotừghépcĩđộdàitốiđa2tiếng.Tronggiớihạnđĩ,kếtquảt hựcnghiệmphânloại100thưtiếngViệtbằngcáchdựavàotậphuấnluyệntừđơnvàtừghépđư ợcthểhiệnbằngbảngt h ố n g kêbên dưới