1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giải quyết một số vấn đề nền tảng trong xử lý ngôn ngữ tiếng Việt với các mô hình học máy thống kê hiện đại

45 416 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 45
Dung lượng 24,49 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

- Thuc nghiem và phuorng phàp tàch tù tiéng Viét vói CRFs và SVMs - Xày dung còng cu tàch tù tiéng Viét trong java dira trén CRFs - Càc thành vién cùa De tài thuòc Bó mòn CHTTT và Phòng

Trang 1

f DAI HOC QUOC GIÀ HA NÓI

GIÀ! QUYÉT MOT SÓ VÀN DE NÈN TÀNG TRONG Xlf LY

NGON NGlT TIÉNG VIÉT VÓI CÀC MÒ HÌNH HOC MÀY

THÓNG KÉ HIÉN DAI

(Bào cào tòng hgp de tài nghién cùn khoa hgc càp DHQGHN)

Ma sò: QC.06.07 Chù nhiem de tài: CN Nguyen Cam Tù

DA! HOC QUOC GIÀ HA NOI TRUNG TÀM THÒNG TIN THU VIÈN

DT/ >03

Trang 2

1 l^v MUC LUC

1 Phàn mò' dau 3

LL Giài thich nhung chù viét tàt 3

L2 Danh sàch nhùng nguói tham già thuc hien de tài 3

1.3 Bào cào de tài 4 L4 Project Report 6

2 Phàn noi dung chinh 8

2.1 Dat vàn de 8 2.2 Tóng quan càc vàn de nghién cuu 8

2.3 Dja diém, thói gian và phuong phàp nghién cùu 9

2.4.1 Càc nguyen tàc co bàn trong tiéng Viét 9

2.4.2 Mot sò phuong phàp hgc mày thòng ké 13

2.4.3 Bg dù liéu thù nghiem 15

'2.4.4 Két qua thuc nghiem 15

a Bài toàn tàch tù tiéng Viét 16

b Bài toàn xàc dinh thuc thé tiéng Viét 16

2.5 Thào luan 18 2.6 Két luan và Kién nghi 18

TÀI LIÉU THAM KHÀO 19

A Tài liéu tiéng Viet 19

B Tài lieu tiéng Anh 19

PHU LUC 21

Trang 3

1.2 Danh sàch nhiPng ngw&i tham già thiFC hién de tài

Nguyen Viét Cuàng

Nguyen Thi Huong Thào

Nguyen Thu Trang

Nguyen Trung Kién

Hoc hàm, hoc vi, noi còng tàc

DH Tohoku Vién KH&CN tién tién Nhàt Bàn Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé

3

Trang 4

1.3 Bào cào de tài

Tén de tài: Giài quyét mot so bài toàn nén tàng trong xù ly ngon ngù tiéng

Viet vói càc mò hinh hgc mày thòng ké hién dai

Ma sòde tài: QC.06.07

Thòi gian thirc hien: 03/2006 dén 03/2007

Co" quan chii tri: Dai hgc Quòc già Ha Nói

Co' quan thu'c hien: Dai hgc Còng nghé

Chi! nhiem de tài: CN Nguyen Càm Tù

Càn bo tham già thuc hien:

Nguyen Viét Cuòng

Nguyen Thi Huong Thào

Nguyen Thu Trang

Nguyen Trung Kién

Hoc hàm, hoc vi, noi cong tàc

DH Tohoku Vién KH&CN tién tién Nhàt Bàn Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé Khoa CNTT - DH Còng Nghé

Két qua dào tao: 02 khóa luàn tòt nghiép Dai hgc

1 Sinh vién: Nguyen Trung Kién

Càn bg huó'ng dan: TS Nguyen Lé Minh, PGS TS Ha Quang Thuy

Tén de tài: Phàn doan tù tiéng Viet sù dung mò hinh CRFs

2 Sinh vién: Nguyen Thi Huong Thào

Càn bò huó'ng dàn: PGS TS Ha Quang Thuy, ThS Dàng Thanh Hai

Tén de tài: Phàn lóp phàn cap Taxonomy vàn bàn Web và ùng dung

Két qua khoa hgc và Còng nghé

Tòni tot nói dung và két qua nghién cim

' Tim hiéu vé càu trùc àm tiét, càc loai tù tiéng Viét, càu trùc cum danh tù và tèn

riéng trong tiéng Viét

- Tìm hiéu \è càc phucng phàp hoc mày tliòng kc, trong dó lap trung vào hai mò

hinh mó'i \à manh là Condilional Random Fields và Support Vector Machines

Trang 5

- Trong khuòn khò de tài, chùng tòi thu thàp và xày dung mot bò dù liéu trung bình (khoàng 8000 càu) cho viéc thù nghiem, dành già

- Thuc nghiem và phuorng phàp tàch tù tiéng Viét vói CRFs và SVMs

- Xày dung còng cu tàch tù tiéng Viét trong java dira trén CRFs

- Càc thành vién cùa De tài (thuòc Bó mòn CHTTT và Phòng thi nghiem "Còng nghé tri thùc và Tuonj tàc nguói-mày") dà có thém kinh nghiem vé viec xù ly ngón ngù mang dàc trung cua tiéng Viét

Càc bài bào khoa hoc dà cóng bó trong pham vi de tài

' Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.Cam-Tu

Nguyen, Tning-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and

Quang-Thuy Ha (2006) The 20th Pacific Asia Conference on Language, Information

and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222

Trang 6

1.4 Project Report

Project name: Fundamental Vietnamese Shallow Processing with Modem

Statistica! Machine Leaming Methods

Project code: QC.06.07

Duration: From 03/2006 to 03/2007

Management Organization: Vietnam National University

Performing Organization: College of Technology

Project leader: Nguyen Cam Tu, BA

Project team members:

Nguyen Viet Cuong

Nguyen Thi Huong Thao

Nguyen Thu Trang

Nguyen Trung Kien

College of Technology College of Technology College of Technology College of Technology

Training results: 02 Bachelor Thesises

3 Student: Nguyen Trung Kien

Advisors: Dr Nguyen Le Minh, Asso.Prof Dr Ha Quang Thuy

Titile: Vietnamese Word Segmentation using CRFs

4 Student: Nguyen Thi Huong Thao

Ad\isors: Asso.Prof Dr Ha Quang Thuy, Ms Dang Thanh Hai

Title: Hierarchical Classification for Web and Application

Scientic results:

Content and research results summary:

- Research syllable structure and types o^ vvords as well as structures of noun

phrases and proper names in Vietnamese

Trang 7

- Research statistica! machine leaming methods, particularly the two porwerful methods - Conditional Random Fields (CRFs) and Support Vector Machine (SVMs)

- Build up a moderate corpus of about 8000 sentence for experiments and estimations of our methods

- Make experiments of using CRFs and SVMs in Vietnamese word segmentation

- Build a tool for Vietnamese word segmentation using CRFs

- Provides more experiences in naturai language processing and text mining for members in projects

Papers supported by project:

' Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.Cam-Tu

Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and

Quang-Thuy Ha (2006) The 20th Pacific Asia Conference on Language, Information

and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222

7

Trang 8

2 Phàn nói dung chinh

2.1 Dat vàn de

Càc bài toàn nén tàng nhu tàch càu (sentence segmentation), tàch tù (word segmentation), tàch cum danh tù (noun phrase chunking) và trich chgn thuc thé (Named Entity Recognition) giù vai trò tién de cho càc buóc xù ly ngón ngù tu nhién nhu dich mày (machine translation), tóm tàt vàn bàn (documentation sumarization), hiéu vàn bàn (massage understanding) hay khai phà dù liéu text (Text Mining) Màc

dù xù ly ngòn ngù tu nhién trong tiéng Anh, Phàp, Nhat, Trung Quòc, dà dugc giài quyét tuang dòi tòt, vàn de xù ly tiéng Viét con là bài toàn de ngò

Càc mò hình hgc mày thòng ké hién dai nhu HMMs, MEMMs, và dac biét là CRFs[14] và SVMs[ 19,20] dà chùng minh dugc thé manh trong viéc gàn nhàn và phàn doan dù liéu dang chuòi và mò hình hóa ngòn ngù Nghién cùu và giài quyét càc bài toàn nén tàng theo huóng tiép can hgc mày thòng ké hién dai là mot huóng nhiéu trién vgng và hùa ben sé dem lai nhùng két qua khà quan

2.2 Tong quan càc vàn de nghién CLPU

Nhùng nghién cùu dugc còng bò gàn day vé xù ly tiéng Viét thuòng chi giài quyét mot vàn de co* bàn riéng biét và chi dùng ó mùc ly thuyét ma chua có mot còng cu hay mot phàn mém xù ly tiéng Viét nào dugc còng bò ròng rài Dòi vói bài toàn tàch

tù tiéng Viet, màc dù dà có mot sò còng trinh khoa hgc dugc còng bò [8,21,22], nhung

da phàn déu khòng so sành vó'i baseline , hoac khòng dat két qua mong muòn Riéng dòi vói bài toàn nhan dang thuc thé tiéng Viét, có rat it nghién cùu tap trung vào bài toàn này và cho dén nay nghién cùu cùa nhóm vàn là mot trong nhùng nghién cùu dàu tién

Trong khuòn khò de tài này, chùng tòi tap trung vào càc vàn de vé ngòn ngù trong tiéng Viét \'à càc phuong phàp hgc mày dòng thói nghién cùu ùng dung càc phuong phàp hgc mày trong viéc xù ly càc bài toàn ngòn ngù co bàn mot càch tu dgng bang mày tinh

Lién quan dén ngòn ngù, chùng tòi tim hiéu vé càu trùc àm tiét, càc loai tù tiéng Vici, càu trùc cum danh tù và tén riéng trong tiéng Viet Nhùng vàn de này se dugc de

càp trong phàn Càc nguyen tàc co bàn trong tiéng Viet

Càc mò hinh hgc mày, chùng tòi tim hiéu \'é càc phuong phàp hgc mày thóng

ké, trong dó tap trung \ào hai mò hinh mai \à manh là Conditional Random Fields \à

8

Trang 9

Support Vector Machines Nhùng vàn de này sé dugc trinh bay trong phàn Mot sò mò hinh hgc mày thòng ké

Thù nghiem càc phuang phàp hgc mày cho viec xù ly ngòn ngù tu dóng dòi hòi phài có mot kho ngù liéu dù lón, dù tin cay Trong khuòn khò de tài, chùng tòi thu thap và xày dung mot bó dù lieu trung bình (khoàng 8000 càu) cho viéc thù nghiem, dành già Càc buóc xày dung tap dù lieu thù nghiem se dugc trinh bay trong phàn 2.4.4

Phàn 2.4 5 trinh bay phuang phàp cùa chùng tòi trong viéc giài quyét mot sò bài toàn nén tàng và mot sò két qua dòi vói bài toàn tàch tù, và trich chgn thuc thé tiéng Viét Cuòi cùng là mot sò dành già chung vé de tài, dua ra nhung két luan cu thé cung nhu nhùng huóng nghién cùu tiép theo

2.3 Dja dièm, th&l gian và phipang phàp nghién CLPU

• De tài thuc hién trong mot nàm tù thàng 03/2006 dén thàng 03/2007 tai Bò mòn

Càc He thòng Thòng tin, Khoa Còng nghé Thòng tin và tai phòng thi nghiem muc tiéu "Còng nghé Tri thùc và Tuong tàc nguói mày"

• • Thu thap và khào sàt càc noi dung lién quan tù Internet và càc co* quan dòi tàc trong cùng ITnh vuc ngòn ngù hgc và xù ly ngòn ngù tu nhién

• Két hgp nghién cùu còng nghé và ly thuyét

• Tò chùc seminar, tham già càc bòi nghi, bòi thào lién quan dén ITnh vuc xù ly ngòn ngù' tu nhién

2.4 Nói dung và i<ét qua nghién cùu

2.4.1 Cac nguyen tàc c e bàn trong tiéng Viet

a Cau tao àm tiét tiéng Viet (lj

Àm tiét tiéng Viét khòng phài là mot khòi khòng thé chia càt dugc ma là mot càu trùc

Mò hình càu trùc tòng quàt cùa tàt cà càc àm tiét tiéng Viét là:

THANH DIEU

Am cuòi

Thành phàn thù nhàt "thanh diéu" có chùc nàng phàn biét càc àm tiét \'ó"i nhau

vé cao dò Thành phàn thù hai có chùc nàng mó dàu mot àm tiét Càc àm tiét khàc

9

Trang 10

nhau có thé phàn biét vói nhau bang nhùng càch mó dàu khàc nhau Dó là àm dàu

Thành phàn thù ba có chùc nàng làm thay dòi àm sàc cùa àm diéu sau lue ma dàu, cu

1 % f y I

thè là làm tram hóa àm tiét Dó là àm dém Thành phàn thù tu ''àm chinh" quyét dinh

àm sàc chù yéu cùa àm tiét, là hat nhàn cùa àm tiét Thành phàn này bao gió cùng do

mot nguyen àm dàm nhiém Thành phàn cuòi cùng dàm nhiém chùc nàng két thùc àm

tiét Nguói ta ggi thành phàn này là àm cuòi

b Tu'và càc tir loai trong tiéng Viet [1)

Tir trong tiéng Viet

Tu' là don vi nhò nhàt có nghTa, có két càu vò ngù àm ben vùng, hoàn chinh, có chùc

nàng ggi tén, dugc van dung dòc lap, tài hién tu do trong lói nói de tao càu

Vi du: nhà, nguói, ào, cùng, néu, se thì

Dan vi càu tao tù trong tiéng Viét là càc tiéng, cài ma ngù àm hgc vàn ggi là àm

tiét, Tiéng cùa tiéng Viét có già tri tuang duaiig nhu hinh vi cùa càc ngòn ngù

khàc

- Có nhùng tiéng tu nò mang nghTa, dugc qui chiéu vào mot dòi tugng, mot khài

niém nhu: cày, trói, co, nuóc, son, thùy, ài,

Có nhùng tiéng tu thàn nò khòng quy chiéu dugc vào mot dòi tugng, mot khài

niem; nhung có su hién dién cùa nò trong càu trùc tù hay khòng sé làm cho tinh

hình rat khàc Vi du: (dai) nhàch, (xanh) le, (tre) pheo, (co) rà,

Tir lotti trong tiéng Viét

Chùng ta hiéu phàn dinh tù loai là xép tàt cà càc tù cùa mot ngòn ngù thành nhùng

lóp, nhùng nhóm càn cù \'ào dac trung ngù phàp cùa chùng Theo dó vòn tù tiéng Viet

có thé xép vào 10 loai sau day: danh tir, dóng tù, tinh tir, so tir, dai tir, phu tir, két tir,

tra tir

- Danh tù: khài quàt chi vat (hiéu ròng bao gòm cà nguói, dgng vàt, thuc vat, dò

vat, càc chat, nhùng khài niém trùu tugng vé vàt tuong duong vói nhùng thù

vùa ké Danh tù gòm danh tù vat thé, danh tù chat thé, danh tù tugng thé (chi

càc vat chi có trong tuóng tugng), danh tù tap thé (vi du dàn, bay, lù, bon, ),

danh tù chi loai (cài, con, cày, nguói, tàm, bue, tó, sgi, cuc, hòn, hat, giot, ),

danh tù chi don vi dai lugng (vi du: màu, sào, thuóc, ); danh tù chi dan vi

hành chinh {\\ du nuó'c, tinh, xà, ban, he, ), Danh tù chi tap thé nhu bon, tui,

dàn, bò, bó, nàm, vòc,

10

Trang 11

- Dòng tù có y nghTa khài quàt chi hành dòng Càc loai dòng tù: dòng tù tàm ly (yéu/ghét, ); dòng tù tinh thài (càn, nén phài, ); dòng tù chi trang thài thu dòng (bi, dugc, màc ); dòng tù chi càc trang thài khàc nhu có, con, hét, thòi, màt, - Tinh tù: Tinh tù thuòng dugc chia thành hai lóp con: tinh tù tinh chat và tinh tù quan he Tinh tù tinh chat xuàt hién sau rat, qua, hoàc truóc làm, qua Tinh tù quan he có khà nàng két hgp nhu tinh tù tinh chat, vi du: tàp quàn rat Viét nam; cù chj rat con dò

- Dai tù: dai tù nhàn xung, dai tù thay thé (thè, vay), dai tù chi dinh, chi lugng (tàt cà, cà),

- Phu tù: nhùng tù chuyén làm thành tò phu cho danh tù nhu nhùng, càc, mot, mgi, mòi, tùng ,

- Két tù: và, con, ma, thi, vi,,

e Cum danh tù trong tieng Viet (Ngu-danh tù/Danh ngu) |1]

Càc tù trong chuòi lói nói khòng phài là mot chuòi ké tiép giàn don ma co nhùng quan

he nhàt dinh vói nhau Mòi tù khòng phài cùng mot lue có lién he vói tàt cà càc tù trong càu ma truc tiép lién he vói mot tù dgc lap nào dò Mot nhóm nhùng tù có lién

he truc tiép vói nhau a trong càu ggi là tó hap tir, Xét theo mòi quan he giùa càc bò

phàn càu thành tò hgp tù, nguò'i ta phàn biét tò hgp tù có quan he chù vi, tò hgp tù có quan he binh dang (con ggi là lién hgp) và tò hgp tù có quan he chinh phu Loai tò hgp

tù thù ba này dugc ggi là doàn ngu:

Danh ngù hay cum danh tù là doàn ngù có danh tù làm thành tò chinh Càc

thành tò phu trong danh ngù chiém mot vi tri khà òn dinh trong lugc dò sau

Thành tó chinh cua danh ngù

Tai phàn trung tàm cùa danh ngù chùng ta có thé gap mày kiéu thành tò chinh sau day:

- Thành tò chinh là danh tù hay dang ghép gòm mot danh tù chi loai \'à mot danh

tù, vi du: mèo, con mèo,

11

Trang 12

- Thành tó chinh trong kién trùc "danh tù chi loai + tò hgp tù tu do miéu tà": trong truóng hgp này danh tù chi loai là thành tò chinh, con tó hgp tù miéu tà là

thành tò phu sau (vi tri 1)

Vi du: hai ngtrài dang ngòi dgc sàch dàng kia; nhùng viec nói hòm ng

- Thành tò chinh là tù dai dién: Khi có mot tù khàc loai vói danh tù, dai dién cho danh tù vàng màt dùng trong thành phàn trong tàm thì tù dai dién se dugc coi là

thành tò chinh hién hién cùa nhóm, và day vàn là nhóm danh tù Vi du: ba sói, hai lanh (baphàn nuóc sòi, hai phan nuóc lanh); hai den (hai cóc cà phé den)

Thành tó phu triróc cùa danh ngù

- Vj tri -1 : thuòng là tù chi loai nhu cài, con,

Vi du: cài thép này, cài dot này, cài vài này,

- Vi tri -2: 0 vi tri -2 là nhùng lóp con tù sau day:

o Tù chi sò lugng xàc dinh hay là sò tù: tnót, hai, ba, bón, muòi, hai tram,

o Tù chi sò phòng doàn: vài, vài ba, dam, muoi,

o Tù hàm y phàn phòi: mòi, mgi, tùng,

o Quàn tù: nhùng, càc, mot

Vj tri -3: Vj tri -3 là vi tri càc tù chi tòng lugng tàt cà, hét thày, tàt thày, hét cà,

cà (^toàn bg)

Thành tó phu sau cua danh ngù:

- Vi tri 1 là vi tri cùa nhùng thuc tù néu dac trung cùa vat biéu thj bang danh tù ò"

vi tri trung tàm Sò lugng thirc tù có mat dòng thò'i de néu nhùng dac trung khàc nhau tai vi tria này là khòng han che, tuy nhién thuòng gap tù mot dén ba

Vé màt tù loai, tai vi tri này có thé xuàt hién tàt cà càc loai tù thuc, vé càu tao,

co thé là mot tù hoac mot tò hgp tù, ké cà tò hgp tù chù-vi, và a vj tri này cùng

có thé gap ngù co dinh Vi du: phòng top chi, phòng doc, phòng (cùa) chùng

tói,

- Vi tri 2 chuyén dùng cho càc tù chi dinh ày, ng, kia, này, day, dó nhu là dàu hiéu duòng bién giói cuòi cua danh ngù (trù truòng hgp có thành tò chùa két tù

cùa thuòc vi tri 1, so sành: \iec ày/ cùa anh \à \'iec/cùa anh ày) Vói tu càch

này càc tù chi dinh ò" \'i tri 2 thuòng giùp \'ach duòng ranh giói giùa càc thành

12

Trang 13

phàn càu, so sành: bài tha hay (danh ngù) và bài tha này/ hay (càu có chù ngù,

vi ngù rò rét)

2.4.2 Mot SÓ phiFcng phàp hoc mày thóng ké

Trong phàn này, chùng tòi trình bay hai phuang phàp hgc mày thòng ké dugc nghién cùu ùng dung trong khuòn khò de tài, dó là hai phuang phàp hgc mày dua trén CRFs (Conditional Random Fields) và SVMs (Support Vector Machines) Day là hai phuang phàp hgc mày dua trén thòng ké hién rat manh trong viéc phàn lóp và phàn doan vàn bàn, day cùng là hai phuang phàp dugc chùng tòi sù dung nhàm giài quyét càc bài toàn xù ly tiéng Viét

a Conditional Random Fields

Trong mò hình mày trang thài hùu han, CRFs gòm càc trang thài mò hình dang chuòi tuyén thinh, vò huóng, hay mot mày trang thài hùu hanh dugc huàn luyén dòc làp thòng qua tinh chat first Markove

Ggi 0 = (O), 02, , Ox) là mot chuòi dù liéu quan sàt nào dò Ggi S là mot tap

càc trang thài hùu han, mòi mot trang thài két hgp vói mot nhàn lei Già sù s === (Si,

S2,.'M ST) là mot chuòi trang thài nào dó, CRFs[2,3,14] xàc dinh xàc suàt diéu kién cùa mot chuòi trang thài khi biét chuòi quan sàt và

P / ; ( S | 0 )

2 ( 0 exp Z Z - ^ A / J - ^ , M^-,0,/)

I k

(1

Ò day Z(o) == ^ , , e x p ^ ^ ; i ^ / / ( 5 \ _ , ,5', ,0./) là thùa sò tòng hgp trén tàt càc

càc chuòi tòng thé /^ xàc dinh mot hàm feature theo ngòng ngù cùa phuong phàp cuc

dai entropy \'à X^ là mot trgng sò dugc hgc vói feature/k 0 dày,/^ là có thé là edge

feature hoàc vertex feature

/ {s,,o,l) = ò{s,,l)x^{o,l) (2)

/ {iransiitolì) ^ ^ e*/ 7\ c/ j\

J^ {s,^,,s,,i) = 5{s,_,J)5{s,.l) (3)

13

Trang 14

Ò day ^chi Kronecker-c5 Mot per-state feature (2) két hgp nhàn / tai trang

thài hién tai Sj và mot vj tù ngù cành Vi tù ngù cành là mot hàm nhi phàn x/,{oj) xàc

dinh mot dac tinh nào dò cùa chuòi quan sàt o tai vi tri / Vi du: nhàn hién tai là B_PER và tù hién tai là "Nguyen" Mot transition feature (3) biéu dién nhùng su phu

thuòc có tinh chat chuòi bang càch két hgp nhàn / ' cùa trang thài truóc dó s,./ và nhàn /

cùa trang thài hien tai s-,, , vi du nhàn truóc là /'=B_PER và nhan hién tai là /=I_PER Huàn luyén CRFs thuòng dugc thuc hién bang càch làm cuc dai hóa hàm likelihood theo dù luyén huàn luyén sù dung kT thuat tòi uu hóa hàm lòi nhu L-BFGs Viéc làp luan trong CRFs, hay nói càch khàc là tim chuòi nhàn dàu ra hgp ly nhàt cùa mòi chuòi quan sàt, có thé dùng thuat Viterbi

b Support Vector Machine

Xét phàn lóp nhi phàn, nghTa là nhàn chi nhan hay già tri là +1 hoac -1 Già sù chùng

ta có mot tap dù liéu huàn luyén D = (x^, yi), , (xi, yi) (XJG R,J, y,- e {+1, -1}) ó day X/

là mot vector feature cùa màu thù i-th dugc biéu dién bòi mot vector n chiéu, y/ là nhàn lóp cùa màu thù i (nhàn này nhan già tri (+1) hoac àm (-1)) / là sò càc màu huàn luyén Y tuóng chinh cùa SVMs là tàch càc màu duang và àm bòi mot siéu phàng biéu dién duói dang (w.x) + b == 0 SVMs [19,20] tìm siéu phang phàn chia dù liéu bang càch làm cuc dai hóa margin (canh) Nói càch khàc, bài toàn này tuang dang vói giài quyét bài toàn tòi uu hóa sau:

Làm cuc dai: A/==2/||w||

Biét:y,{(AY.Xi) + b] > 1

Khòng chi phàn lóp tuyén tinh, SVMs cùng có thé thuc hien phàn lóp khòng tuyén tinh bang càch giói thiéu hàm kernel, hàm này se nhùng dù liéu vào mot khóng gian feature ó dó càc màu khòng tuyén tinh se tra thành tuyén tinh Mac dù chùng tòi khòng mò tà cu thé hàm kernel ó day, nhung tu tuòng chù dao cua càc hàm kernel là chùng bào tòn tich vò huóng giùa càc càp vector trong khi bò bót nhùng ràng buòc vé tga dò cùa càc diém

Vé ca bàn, SVMs là phàn lóp nhj phàn, vi thé chùng ta phài ma ròng SVMs cho

phàn lóp da lóp Phàn ìóip painvise là mot trong càc càch phò bién nhàt de mò' ròng bài toàn phàn lóp nhi phàn sang phàn lóp K lóp Cu thé \^é phuong phàp này có thé tham khào a [19,20], y tuòng chinh cùa phàn ìóip painvis là xày dung K.(K-I) 2 bò phàn lóp

14

Trang 15

de xem xét tàt cà càc càp lóp và quyét dinh phàn lóp cuòi cùng có thé dugc xàc dinh

^ bang phuong phàp bó phiéu có trgng sò (weighted voting)

2.4.3 Bo di> lieu thLF nghiém

Trong khuòn khò de tài, chùng tòi dà thu thàp và xày dung bò dù liéu cho bài toàn tàch càu, tàch tù tiéng Viét, và mot phàn bài toàn doàn nhan thuc thè dinh danh trong tiéng Viét

Xày dung he thòng xù ly tiéng Viét phùc tap hon xày dung he thòng tuong tu trong tiéng Anh do khòng có mot bó dù liéu chuàn dugc còng bò Trong khuòn khò de tài, chùng tòi dà thu thàp và xày dung mot bò dù liéu khoàng 305 bài bào tù càc trang bào dién tù, càc bài bào này thuòc nhiéu ITnh vuc khàc nhau nhu kinh té, chinh tri, vàn hóa Sau khi thu thap, dù liéu dugc tién xù ly, bò càc thé html, chuyén vé dinh dang UTF-8 và sau dó là dugc gàn nhàn bàn tu dòng

Ben canh bò dù liéu, chùng tòi cùng thu thàp càc tài nguyen khàc dugc sù dung

de tra cùu: tù dién tiéng Viét, danh sàch gòm 2000 tén tiéng Viet và mot danh sàch gòm 707 tén dia danh trong tiéng Viét

g 1: Mot sò thòng ké vé Corpuì LTnh vuc

Kinh té Còng nghé thòng tin Giào due

Otò-Xe mày Thé thao Luàt Vàn hóa-Xà hgi

305 bài bào (khoàng gàn 8000 càu)

2,4,4 Két qua thipc nghiém

Chùng tòi dà ùng dung thù nghiém SVMs và CRFs cho hai bài toàn tàch tù và xàc dinh thuc thé tiéng Viét \'à dat két qua rat khà quan

Trang 16

a Bài toàn tàch tiF tiéng Viét

Dua và nhùng nghién cùu vé tiéng Viét, chùng tòi de xuàt viéc lira chgn dàc trung cho bài toàn theo càc màu vi tù ngù cành dugc cho trong bang sau:

Bang 2: Vi tù ngù cành cho bài toàn tàch tù tiéng Viét

In Location List(-2,2) Is_Regular_Expression(0,0),

Is Initial Capitalization(0,0), ls_All_Capitalization(0,0), Is_First_Observation(0,0),

Is Marks(0,0)

Is Valid Vietnamese Syllable(0,0)

Có 5 loai màu ngù cành gòm SC, Dict, ERS, Mise và VSD Càc màu ngù cành dugc cho a còt ben phài, vi du Syllable_Conjuction(-2,2) có nghTa là ta lày càc àm tiét tai vj tri -2 so dén vi tri sò 2 vói vj tri hién tai và két hgp chùng lai vói nhau Tuang tir In_Lacviet_Dictionary(-2,2) là ta xét mot két hgp àm tiét trong cùa sò tù -2 dén 2'CÓ là mot tò hgp dugc cho trong tù dién hay khòng

Vói càc màu ngù cành này, chùng tòi lira chgn càc dac trung khàc nhau và tién hành tàch tù vói hai phuong phàp SVMs và CRFs Két qua tàch tù cao nhàt dat già tri

FI khoàng 94.23% vói SVMs [3]

b Bài toàn xàc djnh thtFc thè tiéng Viet

Chùng tòi thù nghiém dùng CRFs cho bài toàn xàc dinh thuc thé tiéng Viét Càc màu ngù cành dugc cho trong càc bang sau:

Trang 17

Bang 3: Vj tù ngù cành cho bài tòan xàc dinh thuc thé tiéng Viét ( 1 )

Bang 5: Vi tù ngù cành cho bài tóan xàc dinh thuc thé tiéng Viét (3)

Ngày trong tuàn

Phàn tram Tén còng ty

17 DAI HOC QUOC GIÀ HA NÓI

TRUNG TÀM THÓNG TIN THU VIÉN

DT/ ì-03

Trang 18

Bang 6: Vi tù ngù cành cho bài tòan xàc dinh thuc thé tiéng Viét (4)

2.5 Thào luan

Bài toàn tàch tù tiéng Viét là bài toàn co so, rat có y nghTa trong xù ly tiéng Viét

Nhùng két qua thuc nghiem cho thày phuang phàp SVMs vói viéc lira chgn thuòc tinh

tòt se cho két qua cao hon dòi chùt so vói CRFs Han thé nùa, viéc lua chgn thuóc tinh

cho CRFs cùng giù vai trò hét sue quan trgng, càng tich hgp nhiéu thòng tin ngù cành

dac trung thì két qua tàch tù càng tòt [2]

Nhùng két qua cùa bài toàn xàc dinh thuc thé [3] tuy mai chi là két qua ban dàu

nhung nò có y nghTa là ca sò' so sành (baseline) cho nhùng nghién cùu sau này Càc

màu ngù cành chùng tòi dua ra là ggi y cho viéc xày dung he thòng tàch tù hoàn thién

trong tuong lai ^

2.6 Két luan và Kién nghi

De tài dà dat dugc càc muc tiéu dat ra vé san phàm khoa hgc, san phàm ùng dung và

san phàìn dào tao Nhùng kèt qua nghién cùu co thé dugc dùng cho viéc dành già,

phàn tich và có y nghTa cho viec phàt trién càc he thòng xù ly tiéng Viet mùc cao

Màc dù vày do \'iec xày dung kho dù lieu cho càc bài toàn này màt nhiéu thòi gian và

còng sue hon chùng tòi du dinh ban dàu, do vày vói kinh phi cùa de tài chi ho trg mot

phàn trong viéc xày dung kho dù liéu

San phàm thuc nghiem cùa de tài (kho dù liéu, còng cu tàch càu, tàch tù ) có thé

dugc sù dung trong nhièu hoàn cành khàc nhau và tich hgp vói càc ùng dung xù ly

ngòn ngù mùc cao hon

Qua wèc thuc hién de tài, càc càn bò tham eia de tài duac nànp cao nane lue

nshién cùu, có thém kinh nehiém trong hoc mày, xù Iv neon neù và kién thùc \ é càc

dac trung ngù phàp co bàn trong tiéng Viét

18

Trang 19

TÀI LIÉU THAM KHÀO

A Tài lieu tiéng Viet

[1] Mai Nggc Chù; Vù Due Nghieu & Hoàng Trgng Phién Ca sa ngón ngù

hoc và tiéng Viet, Nhà Xuàt bàn Giào due (1997)

B Tài lieu tiéng Anh

[2] Nguyen Cam Tu (2007) Named Entity Recognition in Vietnamese

FreeText arid Web Documents Using Conditional Random Fields Workshop on

Asian Applied NLP and language resource development March 13, 2007, Sirindhorn Internationa Institute of Technology, Pathumthani, Thailand

[3] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh

Nguyen and Quang-Thuy Ha (2006) Vietnamese Word Segmentation with

CRFs and SVMs: An Investigation In The 20th Pacific Asia Conference on

Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222

[4] Berger, A.D.Pietra, and J.D.Pietra (1996) A maximum entropy approach

to naturai langauge processing In Computational Linguistics, 22(1):39-71,

1996

[5] Andrew Boithwick (1999) A maximum entropy approach to Named Entity Recognition New York University, 1999

[6] McCallum, D.Freitag, and F Pereira (2000) Maximum entropy markov

models for ìnformation extraction and segmentation In Proc ICML, 591-598,

2000

[7] Ratnaparkhi (1996) A maximum entropy model for part-of-speech tagging In Proc EMNLP, 1996,

[8] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001) Vietnamese Word

Segmentation Proceedings of the Sixth Naturai Language Processing Pacific

Rim Symposium NLPRS2001), Tokyo (Japan), 27-30 November 2001,

749-756

[9] Dong C.Liu and Jorge Nocedal (1989) On the limited memoiy BFGS

method for large scale optimizatìon Mathematical Programming 45 (1989),

503-528

[10] F.Sha and F.Pereira (2003) Shallow parsìng with conditional random

fields In Proc HLT/N^AACL, 2003

19

Trang 20

[11] Hammersley, J., & Clifford, P {\91\) Markov fields on finite graphs and

lattices Unpublished manuscript, 1971

[12] Hanna Wallach (2002) Effiicierit Training of Conditional Random Fields,

[15] L.R.Rabiner A tutoria! on hidden markov models and selected applications in speech recognition In Proc the IEEE, 77(2):257-286, 1989

[16] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the

Iiiteiiiet and the Web: Probabilistic Methods and Algorithms, Wiley, ISBN:

0-470-84906-1 2003,

[17] Soumen Chakrabaiti (2003) Mining the Web: Discovering Knowledge

from Hypei^text Data Morgan Kaufmann Publishers, 2003

[18] William W Cohen and Andrew McCallum (2003) Information

Extraction from the World Wide Web KDD 2003

[19] Vapnik, V.N Statistical Leaming Theoiy Wiley-Interscience

[20] Kudo, T., Matsumoto, Y Chunking with Support Vector Machines, The

Second Meeting of the North American Chapter of the Association for Computational Linguistics (2001)

[21] Ha, L.A A method for word segmentation in Vietnamese Coipus

Linguistics, Lancaster, UK (2003)

[22] Nguyen, T.V., Tran, H.K., Nguyen, T.T.T., Nguyen, H Word

segmentation for Vietnamese text categorization: an online corpus approach

Research, Innovation and Vision for the Future, The 4th Intemational Conference on Computer Sciences (2006)

20

Trang 21

PHU LUC

• •

Phu lue gom có:

I bào cào tai bòi thào PACLIC20 (The 20^^ Pacific Asia Conference on Language, Information and Computation) in VV^han, Trung Quòc, thàng

Trang 22

Proceedings of the Conference

Wuhan, China 1-3 November, 2006

Tsinahua University Press

Ngày đăng: 19/03/2015, 08:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[10]. William W.Cohen, Adrew McCallum. Slides "Infonnation Extraction from the World Wide Web", KDD 2003 Sách, tạp chí
Tiêu đề: Infonnation Extraction from the World Wide Web
[11]. P.X.Hieu, N.L.Minh. http://ww\v.ìaist.ac.in/-hieuxuan/ Website: http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ Link
[1]. Andrew Borthwick. A maximum entropy approach to Named Entity Recognition Khác
[2]. A.McCallum, D.Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation. In Proc. Itemational Conference on Mechine Leaming, 2000, pages 591-598 Khác
[3]. A.Ratnaparkhi.A maximum entropy model for part-of-speech tagging.In Proc. Emperical Methods for Naturai Language Processing, 1996 Khác
[4]. Dong C.Liu and Jorge Nocedal. On the limited memory BFGS method for large scale optimization.Mathematical Programming 45 (1989),pp.503-528 Khác
[5]. GuoDong Zhou, Jian Su. Named Entity Recognition using an HMM-based Chunk Tagger Khác
[6]. Hieu Phan, Minh Nguyen, Bao Ho, and Susumu Horiguchi. Improving Discnminative Sequential Leaming with Rare-but-Important Associations. SIGKDD '05 Chicago, II, USA, 2005 Khác
[7]. J.Lafferty, A.McCallum, and F.Pereira.Conditional random fields: probabilistic models for segmenting and labeling sequence data. In Proc. ICML, 2001 Khác
[8]. Rabiner.A tutorial on hidden markov models and selected applications in speech recognition. In Proc. the IEEE, 77(2):257-286, 1989 Khác
[9]. Ronald Schoenberg. Optimization with the Quasi-Newton Method, September 5, 2001 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w