- Thuc nghiem và phuorng phàp tàch tù tiéng Viét vói CRFs và SVMs - Xày dung còng cu tàch tù tiéng Viét trong java dira trén CRFs - Càc thành vién cùa De tài thuòc Bó mòn CHTTT và Phòng
Trang 1f DAI HOC QUOC GIÀ HA NÓI
GIÀ! QUYÉT MOT SÓ VÀN DE NÈN TÀNG TRONG Xlf LY
NGON NGlT TIÉNG VIÉT VÓI CÀC MÒ HÌNH HOC MÀY
THÓNG KÉ HIÉN DAI
(Bào cào tòng hgp de tài nghién cùn khoa hgc càp DHQGHN)
Ma sò: QC.06.07 Chù nhiem de tài: CN Nguyen Cam Tù
DA! HOC QUOC GIÀ HA NOI TRUNG TÀM THÒNG TIN THU VIÈN
DT/ >03
Trang 21 l^v MUC LUC
1 Phàn mò' dau 3
LL Giài thich nhung chù viét tàt 3
L2 Danh sàch nhùng nguói tham già thuc hien de tài 3
1.3 Bào cào de tài 4 L4 Project Report 6
2 Phàn noi dung chinh 8
2.1 Dat vàn de 8 2.2 Tóng quan càc vàn de nghién cuu 8
2.3 Dja diém, thói gian và phuong phàp nghién cùu 9
2.4.1 Càc nguyen tàc co bàn trong tiéng Viét 9
2.4.2 Mot sò phuong phàp hgc mày thòng ké 13
2.4.3 Bg dù liéu thù nghiem 15
'2.4.4 Két qua thuc nghiem 15
a Bài toàn tàch tù tiéng Viét 16
b Bài toàn xàc dinh thuc thé tiéng Viét 16
2.5 Thào luan 18 2.6 Két luan và Kién nghi 18
TÀI LIÉU THAM KHÀO 19
A Tài liéu tiéng Viet 19
B Tài lieu tiéng Anh 19
PHU LUC 21
Trang 31.2 Danh sàch nhiPng ngw&i tham già thiFC hién de tài
Nguyen Viét Cuàng
Nguyen Thi Huong Thào
Nguyen Thu Trang
Nguyen Trung Kién
Hoc hàm, hoc vi, noi còng tàc
DH Tohoku Vién KH&CN tién tién Nhàt Bàn Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé
3
Trang 41.3 Bào cào de tài
Tén de tài: Giài quyét mot so bài toàn nén tàng trong xù ly ngon ngù tiéng
Viet vói càc mò hinh hgc mày thòng ké hién dai
Ma sòde tài: QC.06.07
Thòi gian thirc hien: 03/2006 dén 03/2007
Co" quan chii tri: Dai hgc Quòc già Ha Nói
Co' quan thu'c hien: Dai hgc Còng nghé
Chi! nhiem de tài: CN Nguyen Càm Tù
Càn bo tham già thuc hien:
Nguyen Viét Cuòng
Nguyen Thi Huong Thào
Nguyen Thu Trang
Nguyen Trung Kién
Hoc hàm, hoc vi, noi cong tàc
DH Tohoku Vién KH&CN tién tién Nhàt Bàn Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé
Két qua dào tao: 02 khóa luàn tòt nghiép Dai hgc
1 Sinh vién: Nguyen Trung Kién
Càn bg huó'ng dan: TS Nguyen Lé Minh, PGS TS Ha Quang Thuy
Tén de tài: Phàn doan tù tiéng Viet sù dung mò hinh CRFs
2 Sinh vién: Nguyen Thi Huong Thào
Càn bò huó'ng dàn: PGS TS Ha Quang Thuy, ThS Dàng Thanh Hai
Tén de tài: Phàn lóp phàn cap Taxonomy vàn bàn Web và ùng dung
Két qua khoa hgc và Còng nghé
Tòni tot nói dung và két qua nghién cim
' Tim hiéu vé càu trùc àm tiét, càc loai tù tiéng Viét, càu trùc cum danh tù và tèn
riéng trong tiéng Viét
- Tìm hiéu \è càc phucng phàp hoc mày tliòng kc, trong dó lap trung vào hai mò
hinh mó'i \à manh là Condilional Random Fields và Support Vector Machines
Trang 5- Trong khuòn khò de tài, chùng tòi thu thàp và xày dung mot bò dù liéu trung bình (khoàng 8000 càu) cho viéc thù nghiem, dành già
- Thuc nghiem và phuorng phàp tàch tù tiéng Viét vói CRFs và SVMs
- Xày dung còng cu tàch tù tiéng Viét trong java dira trén CRFs
- Càc thành vién cùa De tài (thuòc Bó mòn CHTTT và Phòng thi nghiem "Còng nghé tri thùc và Tuonj tàc nguói-mày") dà có thém kinh nghiem vé viec xù ly ngón ngù mang dàc trung cua tiéng Viét
Càc bài bào khoa hoc dà cóng bó trong pham vi de tài
' Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.Cam-Tu
Nguyen, Tning-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and
Quang-Thuy Ha (2006) The 20th Pacific Asia Conference on Language, Information
and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222
Trang 61.4 Project Report
Project name: Fundamental Vietnamese Shallow Processing with Modem
Statistica! Machine Leaming Methods
Project code: QC.06.07
Duration: From 03/2006 to 03/2007
Management Organization: Vietnam National University
Performing Organization: College of Technology
Project leader: Nguyen Cam Tu, BA
Project team members:
Nguyen Viet Cuong
Nguyen Thi Huong Thao
Nguyen Thu Trang
Nguyen Trung Kien
College of Technology College of Technology College of Technology College of Technology
Training results: 02 Bachelor Thesises
3 Student: Nguyen Trung Kien
Advisors: Dr Nguyen Le Minh, Asso.Prof Dr Ha Quang Thuy
Titile: Vietnamese Word Segmentation using CRFs
4 Student: Nguyen Thi Huong Thao
Ad\isors: Asso.Prof Dr Ha Quang Thuy, Ms Dang Thanh Hai
Title: Hierarchical Classification for Web and Application
Scientic results:
Content and research results summary:
- Research syllable structure and types o^ vvords as well as structures of noun
phrases and proper names in Vietnamese
Trang 7- Research statistica! machine leaming methods, particularly the two porwerful methods - Conditional Random Fields (CRFs) and Support Vector Machine (SVMs)
- Build up a moderate corpus of about 8000 sentence for experiments and estimations of our methods
- Make experiments of using CRFs and SVMs in Vietnamese word segmentation
- Build a tool for Vietnamese word segmentation using CRFs
- Provides more experiences in naturai language processing and text mining for members in projects
Papers supported by project:
' Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.Cam-Tu
Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and
Quang-Thuy Ha (2006) The 20th Pacific Asia Conference on Language, Information
and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222
7
Trang 82 Phàn nói dung chinh
2.1 Dat vàn de
Càc bài toàn nén tàng nhu tàch càu (sentence segmentation), tàch tù (word segmentation), tàch cum danh tù (noun phrase chunking) và trich chgn thuc thé (Named Entity Recognition) giù vai trò tién de cho càc buóc xù ly ngón ngù tu nhién nhu dich mày (machine translation), tóm tàt vàn bàn (documentation sumarization), hiéu vàn bàn (massage understanding) hay khai phà dù liéu text (Text Mining) Màc
dù xù ly ngòn ngù tu nhién trong tiéng Anh, Phàp, Nhat, Trung Quòc, dà dugc giài quyét tuang dòi tòt, vàn de xù ly tiéng Viét con là bài toàn de ngò
Càc mò hình hgc mày thòng ké hién dai nhu HMMs, MEMMs, và dac biét là CRFs[14] và SVMs[ 19,20] dà chùng minh dugc thé manh trong viéc gàn nhàn và phàn doan dù liéu dang chuòi và mò hình hóa ngòn ngù Nghién cùu và giài quyét càc bài toàn nén tàng theo huóng tiép can hgc mày thòng ké hién dai là mot huóng nhiéu trién vgng và hùa ben sé dem lai nhùng két qua khà quan
2.2 Tong quan càc vàn de nghién CLPU
Nhùng nghién cùu dugc còng bò gàn day vé xù ly tiéng Viét thuòng chi giài quyét mot vàn de co* bàn riéng biét và chi dùng ó mùc ly thuyét ma chua có mot còng cu hay mot phàn mém xù ly tiéng Viét nào dugc còng bò ròng rài Dòi vói bài toàn tàch
tù tiéng Viet, màc dù dà có mot sò còng trinh khoa hgc dugc còng bò [8,21,22], nhung
da phàn déu khòng so sành vó'i baseline , hoac khòng dat két qua mong muòn Riéng dòi vói bài toàn nhan dang thuc thé tiéng Viét, có rat it nghién cùu tap trung vào bài toàn này và cho dén nay nghién cùu cùa nhóm vàn là mot trong nhùng nghién cùu dàu tién
Trong khuòn khò de tài này, chùng tòi tap trung vào càc vàn de vé ngòn ngù trong tiéng Viét \'à càc phuong phàp hgc mày dòng thói nghién cùu ùng dung càc phuong phàp hgc mày trong viéc xù ly càc bài toàn ngòn ngù co bàn mot càch tu dgng bang mày tinh
Lién quan dén ngòn ngù, chùng tòi tim hiéu vé càu trùc àm tiét, càc loai tù tiéng Vici, càu trùc cum danh tù và tén riéng trong tiéng Viet Nhùng vàn de này se dugc de
càp trong phàn Càc nguyen tàc co bàn trong tiéng Viet
Càc mò hinh hgc mày, chùng tòi tim hiéu \'é càc phuong phàp hgc mày thóng
ké, trong dó tap trung \ào hai mò hinh mai \à manh là Conditional Random Fields \à
8
Trang 9Support Vector Machines Nhùng vàn de này sé dugc trinh bay trong phàn Mot sò mò hinh hgc mày thòng ké
Thù nghiem càc phuang phàp hgc mày cho viec xù ly ngòn ngù tu dóng dòi hòi phài có mot kho ngù liéu dù lón, dù tin cay Trong khuòn khò de tài, chùng tòi thu thap và xày dung mot bó dù lieu trung bình (khoàng 8000 càu) cho viéc thù nghiem, dành già Càc buóc xày dung tap dù lieu thù nghiem se dugc trinh bay trong phàn 2.4.4
Phàn 2.4 5 trinh bay phuang phàp cùa chùng tòi trong viéc giài quyét mot sò bài toàn nén tàng và mot sò két qua dòi vói bài toàn tàch tù, và trich chgn thuc thé tiéng Viét Cuòi cùng là mot sò dành già chung vé de tài, dua ra nhung két luan cu thé cung nhu nhùng huóng nghién cùu tiép theo
2.3 Dja dièm, th&l gian và phipang phàp nghién CLPU
• De tài thuc hién trong mot nàm tù thàng 03/2006 dén thàng 03/2007 tai Bò mòn
Càc He thòng Thòng tin, Khoa Còng nghé Thòng tin và tai phòng thi nghiem muc tiéu "Còng nghé Tri thùc và Tuong tàc nguói mày"
• • Thu thap và khào sàt càc noi dung lién quan tù Internet và càc co* quan dòi tàc trong cùng ITnh vuc ngòn ngù hgc và xù ly ngòn ngù tu nhién
• Két hgp nghién cùu còng nghé và ly thuyét
• Tò chùc seminar, tham già càc bòi nghi, bòi thào lién quan dén ITnh vuc xù ly ngòn ngù' tu nhién
2.4 Nói dung và i<ét qua nghién cùu
2.4.1 Cac nguyen tàc c e bàn trong tiéng Viet
a Cau tao àm tiét tiéng Viet (lj
Àm tiét tiéng Viét khòng phài là mot khòi khòng thé chia càt dugc ma là mot càu trùc
Mò hình càu trùc tòng quàt cùa tàt cà càc àm tiét tiéng Viét là:
THANH DIEU
Am cuòi
Thành phàn thù nhàt "thanh diéu" có chùc nàng phàn biét càc àm tiét \'ó"i nhau
vé cao dò Thành phàn thù hai có chùc nàng mó dàu mot àm tiét Càc àm tiét khàc
9
Trang 10nhau có thé phàn biét vói nhau bang nhùng càch mó dàu khàc nhau Dó là àm dàu
Thành phàn thù ba có chùc nàng làm thay dòi àm sàc cùa àm diéu sau lue ma dàu, cu
1 % f y I
thè là làm tram hóa àm tiét Dó là àm dém Thành phàn thù tu ''àm chinh" quyét dinh
àm sàc chù yéu cùa àm tiét, là hat nhàn cùa àm tiét Thành phàn này bao gió cùng do
mot nguyen àm dàm nhiém Thành phàn cuòi cùng dàm nhiém chùc nàng két thùc àm
tiét Nguói ta ggi thành phàn này là àm cuòi
b Tu'và càc tir loai trong tiéng Viet [1)
Tir trong tiéng Viet
Tu' là don vi nhò nhàt có nghTa, có két càu vò ngù àm ben vùng, hoàn chinh, có chùc
nàng ggi tén, dugc van dung dòc lap, tài hién tu do trong lói nói de tao càu
Vi du: nhà, nguói, ào, cùng, néu, se thì
Dan vi càu tao tù trong tiéng Viét là càc tiéng, cài ma ngù àm hgc vàn ggi là àm
tiét, Tiéng cùa tiéng Viét có già tri tuang duaiig nhu hinh vi cùa càc ngòn ngù
khàc
- Có nhùng tiéng tu nò mang nghTa, dugc qui chiéu vào mot dòi tugng, mot khài
niém nhu: cày, trói, co, nuóc, son, thùy, ài,
Có nhùng tiéng tu thàn nò khòng quy chiéu dugc vào mot dòi tugng, mot khài
niem; nhung có su hién dién cùa nò trong càu trùc tù hay khòng sé làm cho tinh
hình rat khàc Vi du: (dai) nhàch, (xanh) le, (tre) pheo, (co) rà,
Tir lotti trong tiéng Viét
Chùng ta hiéu phàn dinh tù loai là xép tàt cà càc tù cùa mot ngòn ngù thành nhùng
lóp, nhùng nhóm càn cù \'ào dac trung ngù phàp cùa chùng Theo dó vòn tù tiéng Viet
có thé xép vào 10 loai sau day: danh tir, dóng tù, tinh tir, so tir, dai tir, phu tir, két tir,
tra tir
- Danh tù: khài quàt chi vat (hiéu ròng bao gòm cà nguói, dgng vàt, thuc vat, dò
vat, càc chat, nhùng khài niém trùu tugng vé vàt tuong duong vói nhùng thù
vùa ké Danh tù gòm danh tù vat thé, danh tù chat thé, danh tù tugng thé (chi
càc vat chi có trong tuóng tugng), danh tù tap thé (vi du dàn, bay, lù, bon, ),
danh tù chi loai (cài, con, cày, nguói, tàm, bue, tó, sgi, cuc, hòn, hat, giot, ),
danh tù chi don vi dai lugng (vi du: màu, sào, thuóc, ); danh tù chi dan vi
hành chinh {\\ du nuó'c, tinh, xà, ban, he, ), Danh tù chi tap thé nhu bon, tui,
dàn, bò, bó, nàm, vòc,
10
Trang 11- Dòng tù có y nghTa khài quàt chi hành dòng Càc loai dòng tù: dòng tù tàm ly (yéu/ghét, ); dòng tù tinh thài (càn, nén phài, ); dòng tù chi trang thài thu dòng (bi, dugc, màc ); dòng tù chi càc trang thài khàc nhu có, con, hét, thòi, màt, - Tinh tù: Tinh tù thuòng dugc chia thành hai lóp con: tinh tù tinh chat và tinh tù quan he Tinh tù tinh chat xuàt hién sau rat, qua, hoàc truóc làm, qua Tinh tù quan he có khà nàng két hgp nhu tinh tù tinh chat, vi du: tàp quàn rat Viét nam; cù chj rat con dò
- Dai tù: dai tù nhàn xung, dai tù thay thé (thè, vay), dai tù chi dinh, chi lugng (tàt cà, cà),
- Phu tù: nhùng tù chuyén làm thành tò phu cho danh tù nhu nhùng, càc, mot, mgi, mòi, tùng ,
- Két tù: và, con, ma, thi, vi,,
e Cum danh tù trong tieng Viet (Ngu-danh tù/Danh ngu) |1]
Càc tù trong chuòi lói nói khòng phài là mot chuòi ké tiép giàn don ma co nhùng quan
he nhàt dinh vói nhau Mòi tù khòng phài cùng mot lue có lién he vói tàt cà càc tù trong càu ma truc tiép lién he vói mot tù dgc lap nào dò Mot nhóm nhùng tù có lién
he truc tiép vói nhau a trong càu ggi là tó hap tir, Xét theo mòi quan he giùa càc bò
phàn càu thành tò hgp tù, nguò'i ta phàn biét tò hgp tù có quan he chù vi, tò hgp tù có quan he binh dang (con ggi là lién hgp) và tò hgp tù có quan he chinh phu Loai tò hgp
tù thù ba này dugc ggi là doàn ngu:
Danh ngù hay cum danh tù là doàn ngù có danh tù làm thành tò chinh Càc
thành tò phu trong danh ngù chiém mot vi tri khà òn dinh trong lugc dò sau
Thành tó chinh cua danh ngù
Tai phàn trung tàm cùa danh ngù chùng ta có thé gap mày kiéu thành tò chinh sau day:
- Thành tò chinh là danh tù hay dang ghép gòm mot danh tù chi loai \'à mot danh
tù, vi du: mèo, con mèo,
11
Trang 12- Thành tó chinh trong kién trùc "danh tù chi loai + tò hgp tù tu do miéu tà": trong truóng hgp này danh tù chi loai là thành tò chinh, con tó hgp tù miéu tà là
thành tò phu sau (vi tri 1)
Vi du: hai ngtrài dang ngòi dgc sàch dàng kia; nhùng viec nói hòm ng
- Thành tò chinh là tù dai dién: Khi có mot tù khàc loai vói danh tù, dai dién cho danh tù vàng màt dùng trong thành phàn trong tàm thì tù dai dién se dugc coi là
thành tò chinh hién hién cùa nhóm, và day vàn là nhóm danh tù Vi du: ba sói, hai lanh (baphàn nuóc sòi, hai phan nuóc lanh); hai den (hai cóc cà phé den)
Thành tó phu triróc cùa danh ngù
- Vj tri -1 : thuòng là tù chi loai nhu cài, con,
Vi du: cài thép này, cài dot này, cài vài này,
- Vi tri -2: 0 vi tri -2 là nhùng lóp con tù sau day:
o Tù chi sò lugng xàc dinh hay là sò tù: tnót, hai, ba, bón, muòi, hai tram,
o Tù chi sò phòng doàn: vài, vài ba, dam, muoi,
o Tù hàm y phàn phòi: mòi, mgi, tùng,
o Quàn tù: nhùng, càc, mot
Vj tri -3: Vj tri -3 là vi tri càc tù chi tòng lugng tàt cà, hét thày, tàt thày, hét cà,
cà (^toàn bg)
Thành tó phu sau cua danh ngù:
- Vi tri 1 là vi tri cùa nhùng thuc tù néu dac trung cùa vat biéu thj bang danh tù ò"
vi tri trung tàm Sò lugng thirc tù có mat dòng thò'i de néu nhùng dac trung khàc nhau tai vi tria này là khòng han che, tuy nhién thuòng gap tù mot dén ba
Vé màt tù loai, tai vi tri này có thé xuàt hién tàt cà càc loai tù thuc, vé càu tao,
co thé là mot tù hoac mot tò hgp tù, ké cà tò hgp tù chù-vi, và a vj tri này cùng
có thé gap ngù co dinh Vi du: phòng top chi, phòng doc, phòng (cùa) chùng
tói,
- Vi tri 2 chuyén dùng cho càc tù chi dinh ày, ng, kia, này, day, dó nhu là dàu hiéu duòng bién giói cuòi cua danh ngù (trù truòng hgp có thành tò chùa két tù
cùa thuòc vi tri 1, so sành: \iec ày/ cùa anh \à \'iec/cùa anh ày) Vói tu càch
này càc tù chi dinh ò" \'i tri 2 thuòng giùp \'ach duòng ranh giói giùa càc thành
12
Trang 13phàn càu, so sành: bài tha hay (danh ngù) và bài tha này/ hay (càu có chù ngù,
vi ngù rò rét)
2.4.2 Mot SÓ phiFcng phàp hoc mày thóng ké
Trong phàn này, chùng tòi trình bay hai phuang phàp hgc mày thòng ké dugc nghién cùu ùng dung trong khuòn khò de tài, dó là hai phuang phàp hgc mày dua trén CRFs (Conditional Random Fields) và SVMs (Support Vector Machines) Day là hai phuang phàp hgc mày dua trén thòng ké hién rat manh trong viéc phàn lóp và phàn doan vàn bàn, day cùng là hai phuang phàp dugc chùng tòi sù dung nhàm giài quyét càc bài toàn xù ly tiéng Viét
a Conditional Random Fields
Trong mò hình mày trang thài hùu han, CRFs gòm càc trang thài mò hình dang chuòi tuyén thinh, vò huóng, hay mot mày trang thài hùu hanh dugc huàn luyén dòc làp thòng qua tinh chat first Markove
Ggi 0 = (O), 02, , Ox) là mot chuòi dù liéu quan sàt nào dò Ggi S là mot tap
càc trang thài hùu han, mòi mot trang thài két hgp vói mot nhàn lei Già sù s === (Si,
S2,.'M ST) là mot chuòi trang thài nào dó, CRFs[2,3,14] xàc dinh xàc suàt diéu kién cùa mot chuòi trang thài khi biét chuòi quan sàt và
P / ; ( S | 0 )
2 ( 0 exp Z Z - ^ A / J - ^ , M^-,0,/)
I k
(1
Ò day Z(o) == ^ , , e x p ^ ^ ; i ^ / / ( 5 \ _ , ,5', ,0./) là thùa sò tòng hgp trén tàt càc
càc chuòi tòng thé /^ xàc dinh mot hàm feature theo ngòng ngù cùa phuong phàp cuc
dai entropy \'à X^ là mot trgng sò dugc hgc vói feature/k 0 dày,/^ là có thé là edge
feature hoàc vertex feature
/ {s,,o,l) = ò{s,,l)x^{o,l) (2)
/ {iransiitolì) ^ ^ e*/ 7\ c/ j\
J^ {s,^,,s,,i) = 5{s,_,J)5{s,.l) (3)
13
Trang 14Ò day ^chi Kronecker-c5 Mot per-state feature (2) két hgp nhàn / tai trang
thài hién tai Sj và mot vj tù ngù cành Vi tù ngù cành là mot hàm nhi phàn x/,{oj) xàc
dinh mot dac tinh nào dò cùa chuòi quan sàt o tai vi tri / Vi du: nhàn hién tai là B_PER và tù hién tai là "Nguyen" Mot transition feature (3) biéu dién nhùng su phu
thuòc có tinh chat chuòi bang càch két hgp nhàn / ' cùa trang thài truóc dó s,./ và nhàn /
cùa trang thài hien tai s-,, , vi du nhàn truóc là /'=B_PER và nhan hién tai là /=I_PER Huàn luyén CRFs thuòng dugc thuc hién bang càch làm cuc dai hóa hàm likelihood theo dù luyén huàn luyén sù dung kT thuat tòi uu hóa hàm lòi nhu L-BFGs Viéc làp luan trong CRFs, hay nói càch khàc là tim chuòi nhàn dàu ra hgp ly nhàt cùa mòi chuòi quan sàt, có thé dùng thuat Viterbi
b Support Vector Machine
Xét phàn lóp nhi phàn, nghTa là nhàn chi nhan hay già tri là +1 hoac -1 Già sù chùng
ta có mot tap dù liéu huàn luyén D = (x^, yi), , (xi, yi) (XJG R,J, y,- e {+1, -1}) ó day X/
là mot vector feature cùa màu thù i-th dugc biéu dién bòi mot vector n chiéu, y/ là nhàn lóp cùa màu thù i (nhàn này nhan già tri (+1) hoac àm (-1)) / là sò càc màu huàn luyén Y tuóng chinh cùa SVMs là tàch càc màu duang và àm bòi mot siéu phàng biéu dién duói dang (w.x) + b == 0 SVMs [19,20] tìm siéu phang phàn chia dù liéu bang càch làm cuc dai hóa margin (canh) Nói càch khàc, bài toàn này tuang dang vói giài quyét bài toàn tòi uu hóa sau:
Làm cuc dai: A/==2/||w||
Biét:y,{(AY.Xi) + b] > 1
Khòng chi phàn lóp tuyén tinh, SVMs cùng có thé thuc hien phàn lóp khòng tuyén tinh bang càch giói thiéu hàm kernel, hàm này se nhùng dù liéu vào mot khóng gian feature ó dó càc màu khòng tuyén tinh se tra thành tuyén tinh Mac dù chùng tòi khòng mò tà cu thé hàm kernel ó day, nhung tu tuòng chù dao cua càc hàm kernel là chùng bào tòn tich vò huóng giùa càc càp vector trong khi bò bót nhùng ràng buòc vé tga dò cùa càc diém
Vé ca bàn, SVMs là phàn lóp nhj phàn, vi thé chùng ta phài ma ròng SVMs cho
phàn lóp da lóp Phàn ìóip painvise là mot trong càc càch phò bién nhàt de mò' ròng bài toàn phàn lóp nhi phàn sang phàn lóp K lóp Cu thé \^é phuong phàp này có thé tham khào a [19,20], y tuòng chinh cùa phàn ìóip painvis là xày dung K.(K-I) 2 bò phàn lóp
14
Trang 15de xem xét tàt cà càc càp lóp và quyét dinh phàn lóp cuòi cùng có thé dugc xàc dinh
^ bang phuong phàp bó phiéu có trgng sò (weighted voting)
2.4.3 Bo di> lieu thLF nghiém
Trong khuòn khò de tài, chùng tòi dà thu thàp và xày dung bò dù liéu cho bài toàn tàch càu, tàch tù tiéng Viét, và mot phàn bài toàn doàn nhan thuc thè dinh danh trong tiéng Viét
Xày dung he thòng xù ly tiéng Viét phùc tap hon xày dung he thòng tuong tu trong tiéng Anh do khòng có mot bó dù liéu chuàn dugc còng bò Trong khuòn khò de tài, chùng tòi dà thu thàp và xày dung mot bò dù liéu khoàng 305 bài bào tù càc trang bào dién tù, càc bài bào này thuòc nhiéu ITnh vuc khàc nhau nhu kinh té, chinh tri, vàn hóa Sau khi thu thap, dù liéu dugc tién xù ly, bò càc thé html, chuyén vé dinh dang UTF-8 và sau dó là dugc gàn nhàn bàn tu dòng
Ben canh bò dù liéu, chùng tòi cùng thu thàp càc tài nguyen khàc dugc sù dung
de tra cùu: tù dién tiéng Viét, danh sàch gòm 2000 tén tiéng Viet và mot danh sàch gòm 707 tén dia danh trong tiéng Viét
g 1: Mot sò thòng ké vé Corpuì LTnh vuc
Kinh té Còng nghé thòng tin Giào due
Otò-Xe mày Thé thao Luàt Vàn hóa-Xà hgi
305 bài bào (khoàng gàn 8000 càu)
2,4,4 Két qua thipc nghiém
Chùng tòi dà ùng dung thù nghiém SVMs và CRFs cho hai bài toàn tàch tù và xàc dinh thuc thé tiéng Viét \'à dat két qua rat khà quan
Trang 16a Bài toàn tàch tiF tiéng Viét
Dua và nhùng nghién cùu vé tiéng Viét, chùng tòi de xuàt viéc lira chgn dàc trung cho bài toàn theo càc màu vi tù ngù cành dugc cho trong bang sau:
Bang 2: Vi tù ngù cành cho bài toàn tàch tù tiéng Viét
In Location List(-2,2) Is_Regular_Expression(0,0),
Is Initial Capitalization(0,0), ls_All_Capitalization(0,0), Is_First_Observation(0,0),
Is Marks(0,0)
Is Valid Vietnamese Syllable(0,0)
Có 5 loai màu ngù cành gòm SC, Dict, ERS, Mise và VSD Càc màu ngù cành dugc cho a còt ben phài, vi du Syllable_Conjuction(-2,2) có nghTa là ta lày càc àm tiét tai vj tri -2 so dén vi tri sò 2 vói vj tri hién tai và két hgp chùng lai vói nhau Tuang tir In_Lacviet_Dictionary(-2,2) là ta xét mot két hgp àm tiét trong cùa sò tù -2 dén 2'CÓ là mot tò hgp dugc cho trong tù dién hay khòng
Vói càc màu ngù cành này, chùng tòi lira chgn càc dac trung khàc nhau và tién hành tàch tù vói hai phuong phàp SVMs và CRFs Két qua tàch tù cao nhàt dat già tri
FI khoàng 94.23% vói SVMs [3]
b Bài toàn xàc djnh thtFc thè tiéng Viet
Chùng tòi thù nghiém dùng CRFs cho bài toàn xàc dinh thuc thé tiéng Viét Càc màu ngù cành dugc cho trong càc bang sau:
Trang 17Bang 3: Vj tù ngù cành cho bài tòan xàc dinh thuc thé tiéng Viét ( 1 )
Bang 5: Vi tù ngù cành cho bài tóan xàc dinh thuc thé tiéng Viét (3)
Ngày trong tuàn
Phàn tram Tén còng ty
17 DAI HOC QUOC GIÀ HA NÓI
TRUNG TÀM THÓNG TIN THU VIÉN
DT/ ì-03
Trang 18Bang 6: Vi tù ngù cành cho bài tòan xàc dinh thuc thé tiéng Viét (4)
2.5 Thào luan
Bài toàn tàch tù tiéng Viét là bài toàn co so, rat có y nghTa trong xù ly tiéng Viét
Nhùng két qua thuc nghiem cho thày phuang phàp SVMs vói viéc lira chgn thuòc tinh
tòt se cho két qua cao hon dòi chùt so vói CRFs Han thé nùa, viéc lua chgn thuóc tinh
cho CRFs cùng giù vai trò hét sue quan trgng, càng tich hgp nhiéu thòng tin ngù cành
dac trung thì két qua tàch tù càng tòt [2]
Nhùng két qua cùa bài toàn xàc dinh thuc thé [3] tuy mai chi là két qua ban dàu
nhung nò có y nghTa là ca sò' so sành (baseline) cho nhùng nghién cùu sau này Càc
màu ngù cành chùng tòi dua ra là ggi y cho viéc xày dung he thòng tàch tù hoàn thién
trong tuong lai ^
2.6 Két luan và Kién nghi
De tài dà dat dugc càc muc tiéu dat ra vé san phàm khoa hgc, san phàm ùng dung và
san phàìn dào tao Nhùng kèt qua nghién cùu co thé dugc dùng cho viéc dành già,
phàn tich và có y nghTa cho viec phàt trién càc he thòng xù ly tiéng Viet mùc cao
Màc dù vày do \'iec xày dung kho dù lieu cho càc bài toàn này màt nhiéu thòi gian và
còng sue hon chùng tòi du dinh ban dàu, do vày vói kinh phi cùa de tài chi ho trg mot
phàn trong viéc xày dung kho dù liéu
San phàm thuc nghiem cùa de tài (kho dù liéu, còng cu tàch càu, tàch tù ) có thé
dugc sù dung trong nhièu hoàn cành khàc nhau và tich hgp vói càc ùng dung xù ly
ngòn ngù mùc cao hon
Qua wèc thuc hién de tài, càc càn bò tham eia de tài duac nànp cao nane lue
nshién cùu, có thém kinh nehiém trong hoc mày, xù Iv neon neù và kién thùc \ é càc
dac trung ngù phàp co bàn trong tiéng Viét
18
Trang 19TÀI LIÉU THAM KHÀO
A Tài lieu tiéng Viet
[1] Mai Nggc Chù; Vù Due Nghieu & Hoàng Trgng Phién Ca sa ngón ngù
hoc và tiéng Viet, Nhà Xuàt bàn Giào due (1997)
B Tài lieu tiéng Anh
[2] Nguyen Cam Tu (2007) Named Entity Recognition in Vietnamese
FreeText arid Web Documents Using Conditional Random Fields Workshop on
Asian Applied NLP and language resource development March 13, 2007, Sirindhorn Internationa Institute of Technology, Pathumthani, Thailand
[3] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh
Nguyen and Quang-Thuy Ha (2006) Vietnamese Word Segmentation with
CRFs and SVMs: An Investigation In The 20th Pacific Asia Conference on
Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222
[4] Berger, A.D.Pietra, and J.D.Pietra (1996) A maximum entropy approach
to naturai langauge processing In Computational Linguistics, 22(1):39-71,
1996
[5] Andrew Boithwick (1999) A maximum entropy approach to Named Entity Recognition New York University, 1999
[6] McCallum, D.Freitag, and F Pereira (2000) Maximum entropy markov
models for ìnformation extraction and segmentation In Proc ICML, 591-598,
2000
[7] Ratnaparkhi (1996) A maximum entropy model for part-of-speech tagging In Proc EMNLP, 1996,
[8] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001) Vietnamese Word
Segmentation Proceedings of the Sixth Naturai Language Processing Pacific
Rim Symposium NLPRS2001), Tokyo (Japan), 27-30 November 2001,
749-756
[9] Dong C.Liu and Jorge Nocedal (1989) On the limited memoiy BFGS
method for large scale optimizatìon Mathematical Programming 45 (1989),
503-528
[10] F.Sha and F.Pereira (2003) Shallow parsìng with conditional random
fields In Proc HLT/N^AACL, 2003
19
Trang 20[11] Hammersley, J., & Clifford, P {\91\) Markov fields on finite graphs and
lattices Unpublished manuscript, 1971
[12] Hanna Wallach (2002) Effiicierit Training of Conditional Random Fields,
[15] L.R.Rabiner A tutoria! on hidden markov models and selected applications in speech recognition In Proc the IEEE, 77(2):257-286, 1989
[16] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the
Iiiteiiiet and the Web: Probabilistic Methods and Algorithms, Wiley, ISBN:
0-470-84906-1 2003,
[17] Soumen Chakrabaiti (2003) Mining the Web: Discovering Knowledge
from Hypei^text Data Morgan Kaufmann Publishers, 2003
[18] William W Cohen and Andrew McCallum (2003) Information
Extraction from the World Wide Web KDD 2003
[19] Vapnik, V.N Statistical Leaming Theoiy Wiley-Interscience
[20] Kudo, T., Matsumoto, Y Chunking with Support Vector Machines, The
Second Meeting of the North American Chapter of the Association for Computational Linguistics (2001)
[21] Ha, L.A A method for word segmentation in Vietnamese Coipus
Linguistics, Lancaster, UK (2003)
[22] Nguyen, T.V., Tran, H.K., Nguyen, T.T.T., Nguyen, H Word
segmentation for Vietnamese text categorization: an online corpus approach
Research, Innovation and Vision for the Future, The 4th Intemational Conference on Computer Sciences (2006)
20
Trang 21PHU LUC
• •
Phu lue gom có:
I bào cào tai bòi thào PACLIC20 (The 20^^ Pacific Asia Conference on Language, Information and Computation) in VV^han, Trung Quòc, thàng
Trang 22Proceedings of the Conference
Wuhan, China 1-3 November, 2006
Tsinahua University Press