1. Trang chủ
  2. » Luận Văn - Báo Cáo

một số vấn đề chọn lọc của công nghệ thông tin và truyền thông

14 599 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 170,08 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giớithiệu Táchtừlàvấnđềquant â m nhấtkhilọc thư ráctiếngViệtdotiếng Việtcĩcácđặctrưngriê ngmặcdùtiếngViệtcũngdùngkýtựlatinhnhưtiếngAnh.TiếngViệtcĩ2thànhphầncơbản[1]: tiếngvàtừ.. 2 Trongb

Trang 1

1

PHƯƠNGPHÁPLỌCTHƯRÁCTIẾNGVIỆTDỰATRÊNTỪ

GHÉPVÀTHEOVẾTNGƯỜISỬDỤNG

PhanHữuTiếp1, VũĐứcLung2,CaoNguyễnThủyTiên1,LâmThànhHiển1

1 Đại họcLạcHồng

2 Đại họcCơngnghệthơngtin,ĐạihọcQuốcGiaTp.HồChíMinh

Tĩmtắtbáocáo.“Lọcthưspam”làbàitốnđangđượccácnhànghiêncứuquantâmvàđãxuấthiện

nhiềuhướngtiếpcậnđểxâydựngcáchệthốnglọcchohiệuquảcao.Tuynhiên,cĩn h ữ n g vấnđềkhĩk hăntháchthứckhácđốivớibàitốnnày:xâydựngbộlọcthưspamtiếngV i ệ t Trongbàibáonày,chú

NạveBayesđểlọcthưs p a m tiếngViệtthơngquaviệcxửlýngơnngữtiếngViệt.

Từkhĩa:Lọcthưrác;anti-spam;spamtiếngViệt.

1 Giớithiệu

Táchtừlàvấnđềquant â m nhấtkhilọc thư ráctiếngViệtdotiếng Việtcĩcácđặctrưngriê ngmặcdùtiếngViệtcũngdùngkýtựlatinhnhưtiếngAnh.TiếngViệtcĩ2thànhphầncơbản[1]: tiếngvàtừ Một số mối liênquangiữatừvàtiếngnhưsau

Vềngữpháp,tiếng làđơnvịcấutạocủatừ.Từlàđơnvịn h ỏ nhấtđểtạocâu,hìnht h ứ c v

àýnghĩacủatừđộclậpvớicúpháp.Cĩ2loạitừphổbiến:từmộttiếng(từđơn)vàtừntiếngtrởlên(n

<5)gọilàtừphức.TrongđặtcâutiếngViệt,sửdụngtừchứkhơngsửd ụ n g tiếng.

TrongtiếngAnh,từđượcđịnhnghĩanhưsau:“Từlàmộtnhĩmkýtựcĩnghĩa,đượcp h â n c áchbởikýtựkhoảngtrắngtrongcâu”(từđiểnWebter).Vídụ:“Iamastudent”sẽtáchđược4từ:I ,am,a,student.TrongtiếngViệt,vídụ:“Tơilàhọcsinh”sẽtáchđược3t ừ : tơi,là,họcsinh.Tron gđĩtừghép“họcsinh”làtừđượchìnhthànhbởi2tiếng:“học”,“sinh”.Do sựkhácbiệt này,khi

tách mơṭt ừghép trongcácthưrácthànhcáctừđ ơ n t h i ̀laị

đươ

c̣ dùngphởbiến trongcácthưtớt .C ụ thể, từ“ khuyếnmãi”làtừt h ườngđượcdùng trongthưrácnhưngkhi táchrathành từ“ khuyến”vàtừ“mãi”thìnhữngtừn àylaịđươc̣ sử

dụngnhiều trongcácthưtốt.Nhưvâỵ,đới với thưráctiếngViêṭhướngtiếpcâṇ phântích dư

ạ vào từghép haytừcónghĩachứk h ơ n g phải dưạ vào từđ ơ n n h ư trongtiếngAnh.Vấn đềhàngđầuđăṭralàchưa cĩbộ từtiếngViệtnàohồnhảochoviệc làmtrên

Trang 2

2

Trongbài báo này,chúngtôigiới thiêụ môṭk ỹ thuật lọcthưráctiếngViệt đó làáp

Trang 3

dụngthuậttốnNạveBayestiếng Việt.Đồngthời,cũngđưa ra mộtgiảipháptáchtừtiếngViệthồntồnmớilàdựavàotầnsốxuấthiệncủatừmàkhơngquantâ mđếnngữnghĩacủatừ.Phầntiếptheosẽtrìnhbày:phươngpháptiếpcận,quytrìnhthựchiệnlọcthư

&kếtq u ả thửnghiệm,cuốicùnglà kết luận

2 Phươngpháptiếpcận

TrongtiếngViệt,tùytheolĩnhvực,chủđềkhácnhaunêncĩnhiềutừ,tiếngkhácnhauv ề mặtph átâmcũngnhưýnghĩa.Trongbàibàobáonày,chỉtậptrungvàolĩnhvựcthưráctiếngViệtnênc ĩsựgiớihạnvềsốlượngvềtừvàtiếngsửdụng.Bàibáokhơngtậpt r u n g vàom ặ t ý nghĩac ũ n

g n h ư n h ữ n g đ ặ c t r ư n g p h ứ c t ạ p củat i ế n g Việtn h ư t ừ đ ồ n g nghĩa,từláy,sựnhậpnhằngn gữnghĩa…

màchỉxácđịnhtầnsốcủatừđơn,từghéptiếngViệtxuấthiệntrongthưrácnênhướngtiếpcậnkh ácbiệtvớicácphươngphápxácđịnhngữnghĩatừ tiếngViệt

Hiệntại,chưacĩmộtthốngkêchínhxácnàođểxácđịnhnhữngđặcđiểmchungcủat h ư ráct iếngViệt.Theokhảosáttổngquát,đaphầnthưráctiếngViệttậptrungvàoquảngcáo,raovặtmuab ánvàmờithamgiacácdiễnđàn,mạngxãhội.Phầndướisẽtrìnhbàyn h ữ n g mục

tiêuchínhcủaphươngpháptiếpcậnnày

2.1 Mụctiêuchính

Xétmộtvănbảnugồmntiếngt=s 1 s 2 s n Mụctiêuchínhlàphântíchvănbảnuthànhm câuđơn t=z 1 z 2 …z mvới z k =s i …

s j(1≤ k≤m,1≤i,j≤n)cĩthểchứatừđơnhaytừphức.Ứ n g vớimỗicâu,phântíchthànhtừngtừđơnt

hể.Đâylàbướcđầutiênđểxâydựngmộtdanhsáchcáctừghépđượcsửdụngnhiềutrongthưráctiế ngViệt,theoưutiênxéttầnsốx u ấ t hiệncủatừ.Từđĩ,sửdụngthuậttốnNạveBayesdựatrê ntậphợpcáctừvừatìmđ ư ợ c đểtiếnhànhphân loại thư

Quytrìnhlọcthưrác tiếngViêṭ chocảquátrìnhhuấnluyệnvànhậndạngcĩthểđược

nhưhìnhdưới Trongmơhìnhthểhiệnrõtiếntrìnhtừkhinhậnt h ư , xửlývàphânloạibứcthưnh ậnđược,đồngthờicũngcậpnhậtlạitậphuấnluyệnchov i ệ c họctừ

Trang 4

Mơhìnhgồm3tiếntrìnhnhỏ.Tiếntrình 1làmnhiệm vụtiềnxửlývàphântíchtừđ ơ n , t ừghépcĩtrongmỗithưtiếngViệttruyềnvào,trongtiếntrình2ápdụngthuậttốnNạveBayesd ựatrêndanhsáchcáctừđơnlẫntừghépđãphântíchtrongtiếntrình1đểx á c địnhtầnsốxuấthi ệncủacáctừ,quađĩphânlớpbứcthưthuộclớpthưbìnhthường,thư ráchaythư trungtín Trongtiếntrìnhcuốicùng,cáctừghép,từđơnmớisẽtựđộngđượchọcvàcậpnhậtvàotrongt ậphuấnluyệncơsở,cịncáctừđãtồntạisẽthayđổitầnsốxuấthiệntrongthưrác,thưbìnhthường vàthưtrungtín.Quytrìnhhọctừnàydiễnramộtcáchtựđộng.Sốl ượ ng từhọcđượcphảiqu aquytrìnhkiểmtrađểxácđịnhlàtừcĩtrọngsốđángtincậyh a y khơng.Phầntiếptheo sẽ mơ tảrõquytrình 1 trongmơ hình đềxuất

2.2 TiềnxửlývàtáchcâutiếngViệt

Trongmơhìnhtrên,tiếntrình1gồm2giaiđoạntiềnxử

lývàtáchthànhtừngcâuđơncủahệthống.Tiếntrìnhnàycĩthểkháiquát nhưsau:

ĐưavàotậpT sgồm nhữngtàiliệuhuấnluyện,trongđĩmỗitàiliệuT i T s(1≤ i≤s)t h u ộ c về

mộttrongbalớp:thưrác,thưbìnhthườnghaythưtrungtín.Tàiliệuhuấnluyệnn ày đượcchọntr onggiaiđoạnkhởitạovàđượccậpnhậttronggiaiđoạnphânlớpthànhcơngmột

bứcthưđầuvào(tiếntrình thứ 3, họctừđơn vàtừghéptrongmơhình)

VớimỗitàiliệuTT s ,mộtvectorhỗtrợV tcủaquanhệtầnsuấttừsẽđượcxâydựngd ự a vàocácbư ớcsauđây:

+Xửlýloại bỏ cácđịnhdạng của ngơnngữHTMLcĩtrongbứcthư

Trang 5

vàcáctừdù ng đểnốicâunhư“tuynhiên”,“mặcdù”,“vìthế”,“khôngnhững”,“màcòn”,…

nhữngkýtựđặcbiệtnhư“@”,“#”,“$”,“?”,“&”,…đểlàmtăngtốcđộxử

lýcủaviệctáchtừdon h ữ n g từloạinàyxuấthiệnnhiềutrongcáctàiliệuhuấnluyện,đồngthờisựxu ấthiệncủacáctừnàykhônglàm ảnh hưởngđến quátrình phân loại thư

+Chuyểntoànbộvănbảnthànhcáccâuđơnchuẩn,mỗitừtrongcâuđơnchuẩncáchnhaubởi

mộtkhoảngtrắngduynhất.Đểtăngtốcđộxửlýcóthểthaythếcácdấucâunhưdấuhỏi(?),dấuchấm than(!),dấynháy…

thànhdấuchấmcâu(.).Dokhôngxétđếnnộid u n g từmàchỉxétsốlượngtừtìmđượcvàxácđ

ịnhtầnsốxuấthiệncủachúngcótrongnộidungthưnênphầnthayđổinàykhônglàmmấtđití nhchấtcủabứcthưcầnlọc.Saugiaiđoạntiềnxửlývàtáchnộidungthư,tasẽtiếnhànhphântíc htừđơn,từghéptrongn ộ i d u n g thư

2.3 Phântíchtừđơn

Sauquátrìnhtrên,mỗitàiliệuT it h u ộ c tậptàiliệuT sđược chuẩnhóathànhtậpS ncâuđ ơ n

c h u ẩ n ,ứngvới mỗicâuđơnS j(1≤ j≤n)sẽchứaktừđơn,mỗitừđơnW m(1≤ m≤k)vàW m+1(1≤ m≤k)được phâncáchnhau bởi mộtkýtự

khoảngtrắng.Dựavàođặctínhnày,dễdàngxâydựngđượccơsởdữliệucáctừđơnchuẩnvàtầnsố xuấthiệncủachúngtrongt ừ n g bứcthưcủatậphuấnluyện.Do

tiếpcậntheohướngkhôngđềcậpđếnýnghĩacủatừđ ơ n ,nênđểtăngđộ tincậycủatừ đơn

trongthư,chúngtôixéttầnsố xuấthiệncủatừđơn

theohaicơchế:

+Họctừvựngbìnhthường:tầnsốxuấthiệncủatừđơntrêntoànbộtậphuấnluyệnđ ư ợ c tínhbằngsốlầnxuấthiệncủachínhtừđó,cóphânbiệttrongmộtthưxuấthiệnbaon h i ê u lần +Họctừvựngchoquátrìnhlọcspam:tầnsốxuấthiệncủatừđơnđượctínhtrêntừngb ứ c thư, mỗilầnxuấthiệntrongthưđượctínhlàxuấthiện1lần,nếutrongthư,từđóxuấth i ệ n nhiềulần thì cũngtính là 1lần

Cụthểhóa,trongcâuđơn“Họcsinhhọcsinhhọc”sẽđượctáchlàm2từđơn:“học”,“sinh”vớit

ầnsố xuấthiệntínhtheohaicơchếtrênlầnlượtlà“học”(3lần),“sinh”(2lần)v à “học” (1lần),“sinh”(1lần).

Quátrìnhhọctừđơnnàylầnlượtdiễnratrênhaitậphuấnluyệnthưrácvàthưbìnhthường Kếtthúcquátrìnhphântíchtừđơn,sẽhìnhthànhđượcmộttậphợpgồmnhiềutừđ ơ n , mỗitừđơn

sẽcó01mãđịnhdanh(id)nhấtđịnhtrongcơsởdữliệu.Ứngvớimỗi

Trang 6

địnhdanhi d trênmỗitậphuấnluyệnsẽcó2tầnsốxuấthiện:tầnsốtổngtrêntậphuấnluyệnvàtầ

n sốtrêntừngbứcthư thuộctậphuấnluyệnnhư đãtrìnhbàynhưcáchtínhtrên

2.4 Phântíchtừghép

TrongtiếngViệt,bêncạnhtừđơncòncótừgồm2tiếngtrởlên.Hiệntại,dochưacót ừ điểnchu ẩnnàochoviệcxửlýngônngữtiếngViệt,nênchúng tôiquyếtđịnhdựavàobảngt h ố n g k ê củab

ộ t ừ đ i ể n s ử d ụ n g bênd ư ớ i ( http://

dict.vietfun.com)đ ể bắtđầuq u á tr ìn h phântíchtừghéptừtậphợpcáctừđơnđãtìmđượctrongp hầncuốigiaiđoạn1.Dot í n h chấtphứctạpcủatừghépvềđộdàicóthểgồm 2tiếng,3tiếng,4tiếng… nên

đểthuậntiệnchoq u á t r ì n h nghiêncứu,đ ã t h ố n g k ê d ự a trênwebsitehttp://dict.vietfun.com ,s ố l ư ợ n g từghépdựavàosốtiếngnhư bảng1

Tầnsố Tỉlệ%

Bảng1 -Thốngkêđộ dàicủatừtrongtừđiển(http://dict.vietfun.com)

Dựavàobảngtrên,hơn67.1%từtrongtừđiểncóđộdàilà2tiếng,khoảng20%làtừđ ơ n vàtừc

óđộdàigồm3-4tiếng.Cáctừdàihơnchỉchiếmkhoảng3%trongtựđiển.Quađ ó , thấyrõsovớitừđơnvàcáctừg hépcóđộdàilớnhơnthìtừghép2tiếngchiếmsốl ư ợ n g

k h á lớn.Vìvậy,đểđơngiảnvấnđề,banđầutậptrungvàoviệcphântíchtừghépcó2 tiếngnhưngkhô ngxétvềmặtnghĩacủatừ.Quytrìnhphântíchtừghépcóthểkháiquáth ó a nhưsau:

+Xéttrong1câutiếngViệtS(Sentence)sẽgồmW 1 ,W 2 ,W 3 ,…

W n t ừ , mỗitừW i (1≤i ≤ n)làmộttừđơntiếngViệt.Doviệcphântíchchỉtậptrungtừghépcó2tiếng nênmỗit ừ ghépCW(CompoundWord)đượctạobởihaitừđơnđứnggầnnhauW i , W i+1 (1≤i≤n)v à

đượccáchnhaubởi 1khoảngtrắng

+Dokhôngxétmặtngữnghĩacủatừnêntrongquátrìnhtạotừghéptheocáchtrênsẽdẫnđếncáct

ừvônghĩa.Cụthể,xéttrong1câuđơn“Khuyếnmãicao ”sẽtáchđượccác

Trang 7

bộtừ:“khuyếnmãi ”và“mãicao”,nhưvậytừghép“khuyếnmãi ”cógiátrị,còntừ“mãicao”không

cógiátrị trongquátrình lọcthưrác

Đểgiảiquyếtv ấ n đ ề này,q u a k ế t q u ả q u á t r ì n h t h ự c nghiệmt á c h t ừ , đ ã s ử d ụ n g

ngưỡngαdùngđểđánhgiáđộchínhxáccủatừghéptìmđược.Ngưỡngαđược

địnhnghĩab ở i ngườisửdụng.Mỗitừghépđềucóriêngmộtngưỡngα.Khingưỡngαthayđổigiátr

ịt h ì đ ộ chínhxáccủatừghépcũngbị thayđổi theo

Đểgiảmthờigianlọcthưspam,chúng tôiđãxâydựngbộtừđiểncác từghéptheocác

htrên.GiảsửcótậpthưspamSD(SpamDocument),mỗithưD iSDsẽcótậpcáccâuđ ơ n S n.Tron

gmỗicâuđơnS iS n(1≤ i≤n)sẽgồmcáctừđơnW 1 ,W 2 ,W 3 ,…

W n Vậnd ụ n g cơchếtáchtừghépnêutrênthỏamỗi từghépCWchứa1bộgồm2từđơn{W j ,W j+1 } (1≤j≤m),trongđóW jvà W j+1l àhaitừđơnliêntiếpđứnggầnnhauvàcáchnhaubởidấukhoảngcách

ỨngvớimỗitừghépCWtìmđượcsẽđượcđưavàotậptừghépnếutừghépchưatồ n t ạ i t r o n g tậpt

ừ ghépv à t ăn g tầns ố xuấth i ệ n nếut ừ ghépt ì m được đã tồ n t ạ i t r o n g tập từghép

Kếtquảcủaquátrìnhtiềnxử lýnêutrên,sẽcóđược 1tậptừghépchứacảtừcógiátrịs ử d ụ n g

v à n h ữ n g từ 2tiếngkhôngcóýnghĩa.Mỗi từ trongtập từnàysẽcó1

tầnsốkbiểud i ễ n tầnsốxuấthiệncủatừtrongtậphuấnluyện.Tầnsốkthểhiệntổngsốlầnxuấth iệncủatừtrêntoàn bộ tập huấnluyện,mỗi lần từ xuấthiệnthì tăngtrọngsốklên 1 đơn vị.

Tínhgiátrị củangưỡngαcủamỗi từCWtrongbộtừghép

Trongđóklàtầnsố xuấthiệncủatừghépCWtrongtập huấnluyện.

Dựavàokếtquảthửnghiệmtáchtừ,ngưỡngαlớnhơn0.2thìđộchínhxáccủatừcót h ể chấp nhậnđược.Nhữngtừcóngưỡngαnằmngoàikhoảngcậntrênđượcxếpvàotậpcáctừcầnđượchu

ấn luyệntiếptục

2.5 QuytrìnhcậpnhậttừvựngtiếngViệt

Trongmôhìnhlọcthưrácđãtrìnhbàyởtrên(Hình1),saukhiđãphânlớpthưthuộct h ư rách aythưbìnhthường,quytrìnhhọctừtựđộngđượctiếnhành.Đốivớinhữngtừđ ơ n haytừghé pmớichưacótrongbộtựđiểnsẽđượccậpnhậtvào.Ngượclại,đốivớinhữngtừđãcó,hệt hốngsẽcậpnhậttầnsốxuấthiệncủatừđó,đồngthờithayđổitỷlệspam,hamcủacáctừ đó

Trang 8

Vớiq u á t rì nh t ự h ọ c này,ứ n g v ớ i s ố l ư ợ n g thư tiếngViệtc à n g lớn t h ì s ố l ư ợ n g từt r o

n g bộtự điểncàngcao, đồngthời sẽtăngđộchínhxácchoviệc tính xácsuất thư ráchayt h ư

b ì n h thường,hỗ trợ rấtnhiềukhi áp dụngcơngthứcNạveBayes

Phầntrên,c h ú n g tơi đ ã đ ề xu ất p h ư ơ n g phápt i ế p cậnv i ệ c t ác h t ừ t r o n g tiếngViệt.Ph ầntiếpt h e o , c h ú n g t ơ i s ẽ đ ư a r a quyt r ì n h l ọ c t h ư r á c t i ế n g Việtd ự a vàot h u ậ t t o á n Na ïveBayes

3 QuytrìnhlọcthƣráctiếngViệt

3.1.ÁpdụngthuậttốnNạveBayes

DựatrêncơngthứcNạveBayes,ápdụngnguyêntắctínhxácsuấtchocácidtừđơnởphần(2.3)

haytừghép(2.4) bằngthuật tốn NạveBayesnhưsau:

Giảsử nội dungcủamỗibứcthư điện tửlà:content

Lớpthư ráckýhiệulà:spam

Lớpthư hợp lệkýhiệu là:ham

Xácsuất đểmột thư điệntử là thưrác:P(spam|content)

Word 1 ,Word 2 ,Word 3 , Wordmlàcáctừ đặctrưngxuấthiệntrongcontent.

P(spam|content) P ( content | spam Total ) * P ( spam ) (2)

TrongđĩTotalđượcxácđịnh bằng

TotalP(content|spam)*P(spam)P(content|ham)*P(ham) VớiP(content|ham)vàP(content|spam)đượctínhbằng

P(content|ham)P(word i | ham)

P(content|spam)P(word i | spam)

Cuốicùng,P(spam)vàP(ham)đượctính bởi cơng thức

(3)

(4) (5)

P(spam)

P(ham)

TotalSpamT otalMessage TotalHam

(6)

(7)

TotalMessage

Trongquátrìnhphânlớpthư,ngồilớpthưrácvàthưhợplệ,nếuxácsuấtspamlà

>0.7sẽđượcphânvàol ớ p thưspam, nếuxácsuất s p a m là<0.3thì đượcphânvàothư

Trang 9

bìnhthường,cịntrongtrườnghợpngượclạithìsẽđượcđưavàophânlớpthứba:lớpthưt r u n g tín.

Nhữngthưthuộclớpnàysẽchờngườiduyệtthưquyếtđịnhphânloạilàthưhợpl ệ haythưrác.Xác

suấtxácđịnhthưráccĩthểthayđổiđểlàmtăngđộtincậychoquát r ì n h l ọ c thư spam,

nhữngtỉ lệnêutrên đượcxácđịnh trongquátrình thửnghiệm

Trongmơhìnhđãđềcậpởtrên,trongphầnthứ2,saukhicĩdanhsáchtừđơnvàtừghép,ápd

ụngthuậttốnNạveBayesdựatrêndanhsáchcáctừđểtìmcáctokencĩgiátrịt ố t nhấttrongdanh

sách.Thửnghiệmcủađềtàidựatrêncácdạngtokencácnhau:tokent o à n từđơn,tokentồntừ

ghépvàtokenvừatừđơnvàtừghép.Dướiđâylàvídụápdụngcơngthứctính tỉ lệspamvà tỉ

lệhamtheocơngthứcBayes

Bảng2 - Vídụminhhọaphântíchtừđơn

Áp dụngcơngthứctính

P(spam|token) ( spam P ) * P P(token) ( token | spam )

Thuđượccácgiátrịsauđây

P(spam|“bán”)=P(600/1000) *P(300/600)/ P(400/1000)

=0.6*0.5/0.4=0.75=75%P(ham|“bán”)=P(400/1000)*

P(100/400)/P(400/1000)=0.4*0.25/0.4=0.25=25%P(spam|“mua”)=P(600/1000)*

P(90/600)/

P(100/1000)=0.6*0.15/0.1=0.9=90%P(ham|“mua”)=P(400/1000)*P(10/400)/

P(100/1000)=0.4*0.025/0.1=0.1=10%

3.2.Kếtquảthựcnghiệm

ĐểviệclọcthưráctiếngViệtđạthiệuquảcao,việctáchtừchiếmmộttrítrírấtquantrọng.Tu

ynhiên,việcđánhgiáđộchínhxáccủaviệctáchtừrấtphứctạp,đặcbiệt đối

vớit ừ ghép.Dođóbàibáonàythựchiệncácthử nghiệm sau đây:

Táchcâu,táchtừ(cảtừđơnlẫntừghép)dựatrênmộttậphuấnluyệngồmnhiềuthơngt i n

t h u ộ c nhiềulĩnh vựckhác nhautrên mạngInternet

P hân loạ ith ưs pa má pd ụn gth uật tố nN ạv eB aye sd ựat rên tập

Trang 10

hợptừđơn,từghépv à dựatrêntừđơnlẫntừghép.Ngoàira,bộlọcthưspamcòncóchứcnăngtheov ếtngười

(8)

Trang 11

sửdụng,nghĩalànếungườidùngđăngnhậpsaumộtsốlầnnàođĩthìnhữngemailkhơngđ ọ c sẽđư ợcgánlàthưspamvàtựđộngchuyểnsanghộpSpam.Nĩimộtcáchkhác,nếu1emailnằmtronghộp Inboxsaubaonhiêulầncheckmailmàngưởidùngkhơngmởraxemt h ì mặcđịnhemailđĩsẽchuy ểnsanghộpSpammàkhơngcầnhỏingườisửdụng,giảmt h ờ i giancheckmail củangườidùng ThửnghiệmlọcthưráctiếngViệtbằngNạveBayes,sửdụngtậphuấnluyệnlàbộtừđ ơ n vàt

ừghépđãnêutrên:dữliệuthửnghiệmlà01tậphợpgồmnhiềuemailtiếngViệtD={d 1 ,d 2 ,

…,d n )t r o n g đ ĩ m ỗ i emails ẽ t h u ộ c vàom ộ t t r o n g b a l o ạ i : t h ư rác,t h ư b ì n h t h ư ờ n g v àthưtrungtín.Vớimỗitàiliệud i(1≤ i≤n),sauquacácphươngphápxửlýnêutrên,kếtquảcuốicù ngdiđượcbiểudiễnd i =g 1 g 2 …g mvới g k(1≤ k≤m)làtừđơnhaytừghépđãxửlý.

Chúngtơixâydựngtậpdữliệuhuấnluyệnđểthựchiệncácthínghiệmtrên.Đốivớit h ử nghi ệmđầutiên,đãthu thậpgần800 dữ liệu đểtriểnkhaivàchokếtquảnhưsau

Sốlượng Tỉlệtừđúng

Bảng3 - Kếtquảtáchtừtrên800dữliệumẫu

Đốivớithửnghiệm2và3,chúngtơixâydựngxâydựngtậphuấnluyệnđểthựchiện.D o tậphu ấnluyệnphảilàthưtiếngViệtnênchúngtơiphảisửdụngthốngkêtrêInternet,m ộ t mặttìmemai ltiếngViệt,mặtkhácxinsựgiúpđỡcủacácdiễnđànđểthuthậpemailtiếngViệt.Đểtiếntrìnhhu ấnluyệnđượcthuậnlợi,chúngtơichiadữliệuthuthậpđượct h à n h 2loại:thưrácvàthưbình thường.Tổngdữliệuthửnghiệmgồm384thưrácvà500

thư bình thường đểbắt đầutiếntrìnhhuấnluyện.Vớitậphuấnluyện như trên,chúngtơi

đãtáchđược1042 từ đơn và5914 từghép

LĩnhvựcnghiêncứutiếngViệtphongphúnhưkinhtế,khoahọc,xãhội,sứckhỏe,thểt h a o … nênviệcnghiêncứungữnghĩacáctừ,cáccâusẽrấtphứctạpvà đểxử lýchínhxáccũngmấtnhiềuthờigian.Ngồira,theothốngkêtrongbảng1chothấytừghéptiếngViệ tchủyếulàloạitừcĩđộdài2tiếng,dovậyviệc

táchtừchúngtơicũngchỉthựchiệnchotừghépcĩđộdàitốiđa2tiếng.Tronggiớihạnđĩ,kếtquảt hựcnghiệmphânloại100thưtiếngViệtbằngcáchdựavàotậphuấnluyệntừđơnvàtừghépđư ợcthểhiệnbằngbảngt h ố n g kêbên dưới

Ngày đăng: 06/10/2014, 14:57

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w