1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 06

27 511 6
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Hình Rút Trích Cụm Từ Đặc Trưng Ngữ Nghĩa Trong Tiếng Việt
Trường học Trường Đại Học Quốc Gia Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn
Năm xuất bản 2006
Thành phố Hà Nội
Định dạng
Số trang 27
Dung lượng 1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

Trang 1

Ph ng pháp h c máy mà lu n án trình bày là ph ng pháp Support Vector

n m 1995 M c dù, SVMs ch là ph ng pháp phân lo i nh phân nh ng do tính

Trang 2

hi u qu v t tr i so v i các ph ng pháp phân lo i d li u khác, nên SVMs ã

r t hi u qu trong nhi u v n th c t nh : nh n d ng ch vi t tay, nh n d ng

gi ng nĩi, nh n d ng khuơn m t, phân tích gen, phân lo i nh vi n thám,…

i u hịa gi a chính xác và bao ph so sánh tính hi u qu vi c phân lo i

v n b n c a SVMs và 4 ph ng pháp h c máy khác K t qu trung bình i u hịa c a 5 ph ng pháp h c (Ph l c G - B ng G.1) cho 10 l p th ng xuyên xu t

hi n trong tồn b 118 l p c a t p ng li u Reuters, ã minh ch ng SVMs là

ph ng pháp chính xác nh t, m c trung bình 92% cho 10 l p th ng xuyên và

ph ng pháp cây quy t nh (Decision Trees) th p h n 3.6%, cịn m ng Bayes

(Bayes Nets) cĩ kh n ng c i ti n h n Nạve Bayes nh ng k t qu v n th p h n

Ngồi ra, trong cơng trình (Mayer và CS, 2002), các tác gi ã ánh giá m t cách tồn di n tính hi u qu c a ph ng pháp SVMs so v i 16 ph ng pháp khác nhau (Ph l c G - B ng G.2) trong vi c phân lo i trên 21 t p ng li u K t qu

th c nghi m trên 21 t p ng li u ( Ph l c G - B ng G.3 và G.4) th hi n ph ng pháp SVMs cĩ sai s th p h n so v i các ph ng pháp khác M c dù khơng ph i luơn t t nh t, nh ng SVMs th ng xuyên trong nhĩm 3 ph ng pháp cĩ sai s

th p nh t và d n u trong nhĩm 10 trên 21 t p ng li u th nghi m

T! các k t qu ã nêu trong vi c áp d ng SVMs vào v n phân lo i m u

(Pattern Classification) ho c nh n d ng m u (Pattern Recognition) thì ph ng

pháp SVMs luơn t" ra v t tr i so v i các ph ng pháp h c máy khác c#ng nh tính hi u qu khi áp d ng vào các v n x lý ngơn ng t nhiên

bài tốn phân lo i hay nh n di n m u d a vào m t s các tính ch t c tr ng c a

m u.V i hi u qu v t tr i c a SVMs trong vi c phân lo i d li u (Mayer, 2002),

qua các cơng trình áp d ng SVMs (Cheng, 2002; Hearst, 1998; Joachims,

Trang 3

1998;…), so v i các công trình áp d ng ph ng pháp khác ó là lý do lu n án áp

d ng ph ng pháp SVMs th c hi n giai o n xác nh các c m danh t! c

tr ng ng ngh$a trong câu ti ng Vi t cho mô hình ViKEe

quát ph ng pháp SVMs; Ph n 5.3 là phát bi u bài toán rút trích c m danh t! c

tr ng ng ngh$a; Ph n 5.4 trình bày mô hình xu t cho bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu ti ng Vi t; Ph n 5.5 trình bày k t qu th c nghi m và ánh giá; Ph n 5.6 là ph n k t ch ng

5.2 Ph ng pháp Support Vector Machines

C s toán h c c a ph ng pháp phân lo i SVMs là d a trên n n t ng lý thuy t

h c th ng kê (statistical learning theory) và lý thuy t không gian vect (vector space) n&m b&t ph ng pháp SVMs, tr c tiên c n kh o sát các khái ni m và nguyên lý sau

a VC-Dimension: là m t giá tr vô h ng dùng tính s c ch a c a t p các

m i m (v i m>n) th"a mãn i u ki n trên Giá tr c a VC-Dimension là n+1 (Gunn, 1998)

b Nguyên lý c c ti u r i ro c u trúc (Structural Risk Minimization) Ý

t ng c a nguyên lý là tìm m t m t gi thuy t h có th m b o sai s th c

th p nh t Sai s th c c a gi thuy t h là xác su t mà h s% t o ra m t l(i sai trên

th c c a gi thuy t h v i v i sai s c a h trên t p hu n luy n và ph c t p c a H

c o b i VC-Dimension, v i H là không gian các gi thuy t h SVMs tìm các

gi thuy t h sao cho các gi thuy t này làm t i thi u hóa gi i h n trên sai s th c b)ng cách i u khi n có hi u qu VC-Dimension c a không gian gi thuy t H (Gunn, 1998)

Trang 4

Hình 5.1 Nguyên lý c c ti u r i ro c u trúc

r i ro theo kinh nghi m (Empirical Risk Minimization)nh)m làm t i thi u hóa sai

s hu n luy n Tuy nhiên, m t v n x y ra là n u ch n không gian gi thuy t h càng l n (VC-Dimension l n – H3) thì sai s hu n luy n s% càng nh" và sai s

t ng Ng c l i n u ch n không gian gi thuy t h càng nh" (VC-Dimension nh"

- H1) thì sai s th c và sai s hu n luy n c#ng s% cao hay còn g i là d i m c i u

ch nh lý t ng Trong c hai tr ng h p, vì có sai s th c cao nên mô hình s% thi u kh n ng d oán các m u m i Ph ng pháp SVMs có nhi m v cân b)ng

SVMs bao g'm ph ng pháp tuy n tính và ph ng pháp phi tuy n

h

tin c y thu t ng Sai s th c

Mô hình t t

nh t V t m c i u ch nh lý t ng

Trang 5

a Tr ng h p phân bi t c

ây là mô hình phân lo i nh phân và c#ng là mô hình n gi n nh t c a SVMs Xét m t t p hu n luy n S nh sau:

S = {(x1,y1), (x2,y2),… (xN,yN)} ⊆ (RN × {+1,-1}) Trong ó :

- xi là vect thành ph n i (i:1 N)

- N là s chi u trong không gian vector

_

_

_ _

+

+

+ +

+ +

x f(x)

Trang 6

b là d i (bias)

a.1 r ng biên c c i c a m t ph ng phân tách

Có r t nhi u b giá tr (w, b) sinh ra các m t ph*ng phân tách t ng ng khác nhau Do ó, SVMs c n ph i tìm ra duy nh t m t m t ph*ng phân tách có

r ng biên gi a hai t p S+ và S- là l n nh t H0 (nh Hình 5.3)

w•x - b = -1 v i i u ki n không có i m nào n)m trong kho ng H+ và H-

vect h tr (support vectors) vì có tham gia vào vi c xác nh nên m t ph*ng

phân tách, nh ng i m khác có th không c n xem xét

Bài toán yêu c u xác nh kho ng cách l n nh t gi a hai m t ph*ng phân tách

Trang 7

b x w d d

=

• +

tìm giá tr c c ti u c a ||w||, bài toán t i u (Gunn và CS, 1998) a v tìm c c

a.2 Công th c Lagrange

i y w x b w

1

2

P || || [ 1]2

1L

2 2 0

|

B A

C By Ax

+

++

b x w

=

Trang 8

1 , 1

2

1 L

(min( x ) 1 max( ) 1)2

(5.11)

(5.12)

ph*ng phân tách H+ và H- Ng c l i, i v i các giá tr n)m trên H+ và H- thì ,i >

nh" h n t+ng s m u hu n luy n T! ó, ph ng pháp này có tên là SVMs

Vì v y, có th nói vect h( tr là s mô t cô ng c a d li u SVMs b" qua

nh ng d li u không cung c p thông tin và ch quan tâm n các i m d li u cung c p nhi u thông tin, ó là các vect h( tr Ý t ng b" qua d li u mà không làm gi m i ch t l ng c a s c l ng là r t hi u qu trong tr ng h p áp d ng SVMs trên các t p d li u l n

a.3 Phân lo i d li u

Trang 9

( )= ( • − )= −

=

b x x y sign

b sign

x

i1 i i i

,x

D a vào hàm phân lo i này gán giá tr m c tiêu +1 ho c -1 cho t t c nh ng

i m trong t p d li u c n phân lo i

(noise)

b Tr ng h p không phân bi t c

c (non-separable) Trong tr ng h p này c n m r ng tr ng h p phân bi t

c b)ng cách thêm gia s ξ ≥ 0 vào cho m(i i m trong t p hu n luy n (ξ c xem nh m t tham s i u ch nh l i s phân l p sai)

-c vi t l i nh sau:

w•xi - b ≥ +1 - ξi v i m i m u có y i = +1

Hình 5.4 Ví d v m t tr ng h p không phân bi t c

ph m Tuy nhiên, lúc này m t v n m i phát sinh là tìm giá tr c c ti u c a t+ng

+ +

+

+ + + + +

xf(x)

Trang 10

1 , 1

2

1L

k l

1 1

x y C

1 , 1

,2

1)

Trang 11

s mô hình hóa sai s c a biên gi a hai l p

m t cách tuy n tính Theo ó Vapnik s d ng m t ánh x

Φ : RN→ F

V i N là s chi u c a không gian nh p; F là không gian a chi u hay còn g i

là không gian c tr ng

Trang 12

K thu t này cho phép ánh x d li u trong không gian nh p vào trong không gian c tr ng Sau ó dùng các ph ng pháp SVMs trong tr ng h p phân lo i tuy n tính ã nêu trên phân lo i Cu i cùng là ánh x ng c tr l i không

qu trong không gian nh p s% là phi tuy n

Hình 5.5 Quá trình ánh x t! không gian nh p vào không gian c tr ng

a Hàm Kernel

Vi c tìm ra m t ph*ng phân tách t i u th ng tính toán r t ph c t p và m t nhi u th i gian cho n khi Vapnik, Boser và Guyon xu t ra gi i thu t tính g i

là kernel Cách tính này k t h p các b c trên l i thành m t M t khác, trong công

h ng trong không gian vect Vì th , m t ánh x t! không gian nh p vào không

xi •xj→ Φ(xi).Φ(xj) (5.23)

h ng trong không gian c tr ng nh là m t thao tác tr c ti p trên không gian d

li u nh p nh công th c (5.24)

D i ây là m t s hàm kernel thông d ng:

- Kernel a th c (polynomial kernel)

_ _

_ _

+ + + + +

_

_ _

+ + + + +

+

+ +

+ + + + +

Φ: x Φ(x)

Trang 13

Quá trình hu n luy n t p m u theo ph ng pháp SVMs có th s d ng m t

V i các ràng bu c:

(5.27)

c dùng trong quá trình phân lo i các m u m i sau này

x K

1 , 1

, 2

f

1

, αα

Trang 14

ph n t c n hu n luy n quá l n Vì v y, c n s d ng gi i thu t Chunking, gi i thu t Osuna và gi i thu t SMO gi i quy t bài toán hu n luy n c a SVMs (Hearst, 1998)

a Gi i thu t Chunking:Ý t ng chính c a gi i thu t Chunking là chia nh" v n

x lý M c tiêu là gi l i các h s nhân Lagrange αi > 0 và lo i b" các h s

i u ki n Karush Kuhn Tucker (KKT) N u có ít h n M ph n t vi ph m thì t t c

αi >0 B c cu i cùng c a gi i thu t s% tìm ra t t c các h s nhân Lagrange αi >0

b Gi i thu t Osuna: Ý t ng c a gi i thu t này c#ng t ng t nh gi i thu t

Chunking Ngh$a là chia nh" v n x lý Osuna ngh gi m t kích th c

c nh c a ma tr n các ph n t c n t i u hóa m(i b c Do ó, t i m(i b c

c Gi i thu t SMO: Ý t ng c a gi i thu t t i u hóa c c ti u tu n t (SMO

-Sequential Minimal Optimisation) này là trong m(i b c hu n luy n l y 2 i m

Trang 15

t ng ng c p nh t vào vect , sao cho th"a ràng bu c tuy n tính trong su t quá trình th c hi n gi i thu t

ph ng pháp SVMs Tuy nhiên, gi i thu t SMO có th i gian hu n luy n nhanh

nh t so v i gi i thu t Chunking và Osuna Gi i thu t SMO có th nhanh g p 1000

l n so v i gi i thu t Chunking (Platt, 1998) và không gian b nh c n thi t ch là tuy n tính v i kích th c t p d li u hu n luy n Do ó gi i thu t SMO có th thao tác trên t p d li u r t l n

V m t hình th c, bài toán rút trích c m danh t! c tr ng ng ngh$a trong câu

=

0

1k)

B n ch t c a SVMs là ph ng pháp phân lo i nh phân, t p d li u ban u

khi áp d ng vào bài toán xác nh c m danh t! c tr ng ng ngh$a d a trên th

hi n nhãn gom c m IOB (trong ó nhãn I: cho bi t t! trong c m t!; nhãn O: cho

bi t t! ngoài c m t!; nhãn B: cho bi t t! b&t u c a c m t! n u tr c ó có

c m t! khác li n k ) V i c t bài toán nh trên, ý t ng c a ph ng pháp

nh sau

n u c và k có quan h , hay c là CDT TNN

tr ng h p ng c l i

Trang 16

V ij (x) = 1 n u gij(x) = +1 hay x là CDT TNN

Cho C là t p các c m t! c n phân lo i có kích th c là N, ch n t!ng c p c m

tham gia (N - 1) l n phân lo i Sau khi hu n luy n y N(N-1)/2 mô hình, vi c

ti n x lý nh)m phân o n và gán nhãn t! lo i, (b) mô- un rút trích c m danh t!

j ij i

f

1 1 1

1 argmax

Trang 17

C ch rút trích c m danh t! c tr ng ng ngh$a th c hi n d a trên ph ng

trong ph n 3.4.1 c a Ch ng 3) và có ý ngh$a nh sau:

• Mô- un phân o n t!: tách v n b n thành các t! có ngh$a trong ti ng Vi t

• Mô- un gán nhãn t! lo i: xác nh các lo i t! (danh t!, ng t!, tính t!, i

t!, ph t!, ) nh)m cung c p các thông tin v vai trò cú pháp c a t! xu t

hi n trong câu

áp d ng ph ng pháp h c máy SVMs, c th là áp d ng gi i thu t SMO hu n

lo i D a vào t p các tính ch t c a t! trung tâm nh giá tr c a v trí t!, nhãn t!

lo i và thông tin ng c nh (nh giá tr c a v trí t!, nhãn t! lo i) c a các t! lân

o n hu n luy n và rút trích CDT TNN

5.2.5 MÔ UN RÚT TRÍCH C M DANH T C TR NG NG NGH A TRONG TI NG VI T

SVMs (Gi i thu t hu n luy n SMO)

Trang 18

c nh khác nhau

- Ví d : Chúng tôi suy ngh ch a th t chín ch!n (1)

Nh ng suy ngh ch a th t chín ch!n c a chúng tôi (2)

V i suy ngh trong câu (1) óng vai trò cú pháp là ng t! n i ng, còn suy

ngh trong câu (2) là danh t! tr!u t ng

Do ó, n u ch d a vào vai trò cú pháp c a t! (v trí c a t! trong câu) xác

vào nhãn t! lo i c a t! mà không quan tâm vai trò cú pháp c a t! thì c#ng không

chính xác u ra c a mô- un phân o n t! và gán nhãn t! lo i (Chau Q Nguyen

và Tuoi T Phan, 2006) M t khác, v i ph ng pháp SVMs, s tính ch t c a m u càng nhi u thì thông tin s% càng chi ti t và chính xác, s phân bi t gi a các m u s%

rõ ràng h n Tuy nhiên, khi ó s% òi h"i t p d li u hu n luy n càng l n, th i gian hu n luy n c#ng nh th i gian phân lo i s% lâu h n Vì v y, lu n án s d ng

b n tính ch t c tr ng là vai trò cú pháp c a t và nhãn t lo i nh ã nêu trên (Nguy n Quang Châu, H'ng Thanh Lu n, Phan Th T i, 2008) cùng c u trúc cú

pháp c a c m danh t và t quan h gi a các c m danh t cân b)ng gi a các

y u t trên

Trang 19

i v i các ph ng pháp h c máy khác nhau thì lo i d li u u vào òi h"i

ph i khác nhau Do d li u u vào c a SVMs là các vect s nên các giá tr nêu

vnlex40K.lst (Chau Q.Nguyen và Tuoi T.Phan, 2007) v i kho ng 102.000 t!

tính v trí c a t! trong danh sách Tuy nhiên, vì s l ng t! lo i t ng i l n, s%

Tuoi T.Phan, 2006) v i 50 nhãn t! lo i

Ví d : Câu “ Vi t Nam tr thành thành viên c a WTO khi nào?” N u vect s

hóa t! “ tr thành” v i dài vect m c nh là 3 t! thì có vect s th c v i d ng

tham gia tr c ti p trong b c xác nh các nhãn gom c m IOB, là nhãn cho bi t t!

ó n)m trong ho c ngoài c m danh t! c tr ng ng ngh$a và 'ng th i là tên l p trong SVMs

c u trúc c m danh t!

V i h ng gi i quy t này, d li u u vào c a SVMs là các vect s ch có hai

giá tr c a tính ch t t và nhãn t lo i thay vì b n tính ch t, nên th i gian hu n

Trang 20

luy n c#ng nh th i gian phân lo i nhanh h n 'ng th i hai tính ch t c u trúc

c m danh t , và t quan h gi a các c m danh t c tham gia tr c ti p trong

b c xác nh các nhãn gom c m IOB trong quá trình hu n luy n c#ng nh phân

lo i Do ó, thông tin s% càng chi ti t và chính xác, s phân bi t gi a các m u s% rõ ràng h n

5.2.5.2 Xây d ng kho ng li u

Theo h ng ti p c n b)ng ph ng pháp th ng kê thì chính xác c a h th ng hoàn toàn ph thu c vào kho ng li u Tuy nhiên, h u h t các công trình nghiên

c u x lý ngôn ng ti ng Vi t u ch a có m t kho ng li u chu0n nh kho ng

c u c a tài, lu n án ã xây d ng th công kho ng li u qua các công o n sau:

- Các t p m u câu c l y t! ngu'n TREC07(446 câu h"i); TREC06 (492 câu

là t p m u C1

- Ngoài ra, v i m c ích a d ng hóa ch b)ng các bài báo thu c nhi u l$nh

c g i là t p m u C2

- Hai t p m u C1 và C2 g'm 6216 câu c ti n x lý, là phân o n t! và gán nhãn t! lo i (Chau Q Nguyen và Tuoi T Phan, 2007) t o thành kho ng

li u

- Cu i cùng kho ng li u c th c hi n gán nhãn gom c m t! (IOB) theo nh

d ng XML, m(i t! n)m trên m t hàng theo th t g'm nhãn t! lo i (pos), nhãn gom c m IOB (chunk) và t! Kho ng li u XML này có d ng nh sau:

! " #

$%& ' # (

Trang 21

ã ch ng t" tính hi u qu so v i các cách bi u di n d li u khác trong vi c rút trích các thu t ng (Cheng, 2002; Kudo, 2001)

M t khác, v i cách bi u di n d li u theo t!ng t! nh trên s% thu n ti n trong

vi c thay +i các tham s c a ch ng trình ( dài vect , s tính ch t tham gia,… ) c#ng nh d dàng trong vi c th nghi m, ánh giá tính hi u qu c a s thay +i

5.2.5.3 Xây d ng mô hình cho SVMs

Do các u i m c a gi i thu t SMO trong vi c hu n luy n cho SVMs (Jones, 2001), nên lu n án ã áp d ng hu n luy n t p d li u t o ra m t mô hình dùng trong quá trình phân l p Gi i thu t g'm ba th t c chính:

Th t c svmLearn(): quét trên t p các m u tìm các m u vi ph m

ràng bu c

Th t c examineExample(i 2 ): ch n h s nhân Lagrange

Ngày đăng: 07/11/2012, 12:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w