Hu nh Công Pháp.. Tác gi Nguy n Thanh Th nh... HI N TR NG TI NG JRAI TRÊN MÁY TÍNH.... Lý do ch n ph ng pháp dùng thu t toán Maximum Matching và các lu t kh nh p nh ng ..... 63 QUY Tă NH
Trang 1Ng iăh ng d n khoa h c: TS HU NH CÔNG PHÁP
ƠăN ng - N mă2012
Trang 2L IăCAMă OAN
Tôi xin cam đoan k t qu đ t đ c trong lu n v n là trung th c, s n ph m c a
cá nhân đ c th c hi n d i s h ng d n c a TS Hu nh Công Pháp
Trong toàn b n i dung c a lu n v n, nh ng đi u đ c trình bày ho c là c a
cá nhân ho c là đ c t ng h p t nhi u ngu n tài li u
Tác gi
Nguy n Thanh Th nh
Trang 3M CăL C
L IăCAMă OAN ii
M C L C iii
DANH M C CÁC KÝ HI U, CH VI T T T vi
DANH M C CÁC HÌNH vii
M U 1
CH NGă1ă- T NG QUAN V TÁCH T T NG 3
1.1 GI I THI U 3
1.2 T NG QUAN V TÁCH T T NG 4
1.2.1 Bài toán tách t t đ ng 4
1.2.2 B i c nh tách t t đ ng hi n nay 4
1.2.2.1 H ng ti p c n d a trên t v ng 5
1.2.2.2 H ng ti p c n d a trên âm ti t 7
1.2.3 M t s ph ng pháp tách t t đ ng hi n nay 8
1.2.3.1 Ph ng pháp Maximum Matching k t h p v i lu t kh nh p nh ng 9 1.2.3.2 Ph ng pháp tách t ti ng Vi t b ng FnTBL 13
1.2.3.3 Ph ng pháp tách t b ng mô hình WFST và m ng Neural 16
1.2.3.4 Ph ng pháp tách tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t di truy n ậ IGATEC 21
1.3 K T LU N 24
CH NGă2ă- TÁCH T T NG TRONG TI NG JRAI 25
2.1 GI I THI U V DÂN T C JRAI 25
2.1.1 V ng i Jrai 25
2.1.2 S khác nhau gi a các nhóm ph ng ng Jrai 27
2.2 NGÔN NG JRAI 28
2.2.1 L ch s hình thành ch vi t 28
2.2.2 Gi i thi u v b ch cái, h th ng âm, v n ti ng Jrai 30
2.2.2.1 B ch cái 30
2.2.2.2 H th ng âm 30
Trang 42.2.2.3 V trí c a ph âm trong t 31
2.2.2.4 V n 32
2.2.2.5 Ti n âm ti t 32
2.2.2.6 D u 32
2.2.3 c đi m c a ti ng Jrai 32
2.3 HI N TR NG TI NG JRAI TRÊN MÁY TÍNH 33
2.4 TÁCH T TRONG TI NG JRAI 36
2.4.1 Áp d ng thu t toán Maximum Matching và các lu t kh nh p nh ng đ tách t ti ng Jrai 37
2.4.1.1 Lý do ch n ph ng pháp dùng thu t toán Maximum Matching và các lu t kh nh p nh ng 37
2.4.1.2 Áp d ng cho ti ng Jrai 38
2.4.2 V n đ khi tách t t đ ng ti ng Jrai 39
2.5 K T LU N 41
CH NGă3ă- CĨIă T VÀ TH NGHI M 42
3.1 GI I THI U 42
3.1.1 Ch ng trình ng d ng 42
3.1.2 Các công ngh và công c s d ng trong khi xây d ng ng d ng 43
3.1.2.1 L p trình ng d ng trên n n t ng NET Framework 43
3.1.2.2 Ngôn ng l p trình C# 44
3.1.2.3 Th vi n mã ngu n m VietkeyInput.dll, VnkeyInput.dll 45
3.1.2.4 B phông ch Vnk 45
3.1.2.5 Môi tr ng phát tri n ng d ng 45
3.2 THI T K VÀ XÂY D NG CH NG TRÌNH 46
3.2.1 Công c tách t t đ ng ti ng Jrai 46
3.2.1.1 Hàm h tr x lý chu i 46
3.2.1.2 Các hàm x lý chính trong công c tách t 47
3.2.2 Ch ng trình h tr ch nh s a câu sau khi tách t 57
3.3 TH NGHI M 57
Trang 53.4 ÁNH GIÁ 59
3.5 K T LU N 60
K T LU N 62
DANH M C TÀI LI U THAM KH O 63 QUY Tă NHăGIAOă TÀI LU NăV NăTH CăS ă(B N SAO)
Trang 6DANHăM CăCỄCăKụăHI U, CH ăVI TăT T
CÁC KÝ HI U
f t n s t
k t thúc t
CÁC CH VI T T T CLR Common Language Runtime
DLL Dynamic Link Library
FnTBL Fast Transformation-Based Learning
IGATEC Internet and Genetics Algorithm based Text Categorization
for Documents in Vietnamese
MI Mutual information
MSIL Microsoft Intermediate Language
WFST Weighted finitậstate Transducer
Trang 8M ă U
1 Lý do ch năđ tài
Trong th i đ i bùng n thông tin nh hi n nay, công ngh thông tin đóng m t
vai trò h t s c quan tr ng trong quá trình nơng cao đ i s ng v t ch t tinh th n, gìn
gi và phát huy n n v n hoá tiên ti n đ m đƠ b n s c dân t c c a vùng đ ng bào
dân t c thi u s và mi n núi n c ta
Vi t Nam có kho ng 54 dân t c anh em H u nh m i dân t c đ u có ngôn
ng c a riêng mình, dân t c ng i Jrai c ng không ngo i l Dân t c Jrai là m t
trong nh ng dân t c có dân s khá đông, ngôn ng chính th c c a h là ti ng Jrai
H s ít nhi u g p khó kh n trong vi c ti p nh n thông tin, tri th c ti ng Vi t do s
tr ng i v m t ngôn ng Cho nên, vi c t ng b c xây d ng các công đo n x lý
ngôn ng Jrai ậ Vi t là r t c n thi t đ góp ph n giúp cho dân t c ng i Jrai có th
d dàng trong vi c ti p c n ti ng Vi t h n, t o thu n l i cho công tác nghiên c u,
d ch thu t, tra c u, qu n lỦ, đƠo t o ti ng dân t c, c ng nh góp ph n vào vi c gi
gìn và phát huy b n s c v n hóa dơn t c thi u s trong th i đ i công ngh thông tin Công đo n tách các đ n v t v ng t đ ng là khơu đ u tiên không th thi u
đ i v i h u h t các l nh v c x lý t đ ng ngôn ng t nhiên Ti ng Jrai có khá
nhi u t ph c nên ranh gi i gi các t không ch là kho ng tr ng, d n đ n tách t t
đ ng s t ng đ i ph c t p Gi i quy t bài toán tách t t đ ng trong ti ng Jrai s là
b c ti n x lý t o đi u ki n đ ti p t c nghiên c u và xây d ng các h th ng x lý
ti ng Jrai nh d ch thu t t đ ng, tìm ki m thông tin, …
2 M căđíchănghiênăc u
M c đích c a đ tài t p trung nghiên c u các h ng ti p c n, các ph ng pháp
tách t t đ ng hi n nay và m t s đ c tr ng c a ngôn ng Jrai, qua đó ng d ng
ph ng pháp tách t t đ ng đ xây d ng công c tách t t đ ng trong ti ng Jrai
Trang 93.ă iăt ng và ph m vi nghiên c u
Nghiên c u v ti ng Jrai c ng nh các đ c đi m c a ngôn ng này thông qua
các tài li u ti ng Jrai, t đi n Jrai, Các ph ng pháp vƠ công c tách t t đ ng
mang l i hi u qu cao
4.ăPh ngăphápănghiênăc u
Nghiên c u lý thuy t: Các tài li u lý thuy t v tách t , các báo cáo k t qu công trình nghiên c u khoa h c v tách t , các bài báo trên các t p chí khoa h c
trong vƠ ngoƠi n c Tìm hi u các tài li u v ti ng Jrai
Nghiên c u th c nghi m: Xây d ng công c tách t t đ ng trong ti ng Jrai ánh giá k t qu đ t đ c c a đ tài
5.ăụăngh aăkhoaăh c và th c ti n c aăđ tài
tài xây d ng công c tách t t đ ng trong ti ng Jrai lƠ b c ti n x lý
ngôn ng Jrai trên máy tính Có th ng d ng công c tách t t đ ng ti ng Jrai đ
xây d ng các h th ng x lý ti ng Jrai nh d ch t đ ng, tìm ki m thông tin, …
6 C u trúc c a lu năv n
Lu n v n g m có ph n m đ u, k t lu n vƠ ba ch ng
Ch ng 1 – T ng quan v tách t t đ ng: Trình bày các n i dung t ng quan
v bài toán tách t t đ ng
Ch ng 2 – Tách t t đ ng trong ti ng Jrai: Trình bày m t cách khái quát v
dân t c và ngôn ng Jrai, các đ c đi m c a lo i hình ngôn ng nƠy, sau đó l a ch n
ph ng pháp tách t thích h p đ áp d ng cho ti ng Jrai
Ch ng 3 – Cài đ t và th nghi m: T nh ng lý thuy t đư nghiên c u các
ch ng tr c, ti n hành xây d ng ng d ng tách t t đ ng trong ti ng Jrai
Trang 10CH NGă1ă- T NGăQUANăV ăTỄCHăT ăT ă NG
Ch ng đ u tiên gi i thi u khái quát v bài toán tách t t đ ng trong l nh v c
x lý ngôn ng t nhiên Chúng tôi trình bày v vai trò c a tách t và m t s
ph ng pháp tách t t đ ng đư mang l i nh ng thành công nh t đ nh, t đó có
nh ng đánh giá v các u đi m, nh c đi m c a t ng ph ng pháp
1.1 GI IăTHI U
X lý ngôn ng t nhiên là m t l nh v c nghiên c u nh m giúp cho các h
th ng máy tính có th x lỦ đ c ngôn ng ph c t p c a con ng i Trong đó d ch
t đ ng là m t trong nh ng ng d ng chính c a x lý ngôn ng t nhiên vƠ đơy
c ng chính lƠ bƠi toán g p nhi u khó kh n do ngôn ng c a con ng i đa d ng và
Tách t t đ ng là m t công đo n ti n x lý h t s c quan tr ng trong d ch t
đ ng nói riêng c ng nh x lý ngôn ng t nhiên nói chung Nó có nh h ng l n
đ n các giai đo n sau nó c ng nh lƠ k t qu c a cu i cùng c a h d ch t đ ng
Tách nh ng đ n v t v ng chính xác không ch nh h ng đ n k t qu c a bài toán
d ch t đ ng mà còn nh h ng l n đ n các bài toán khác trong x lý ngôn ng t
nhiên nh bƠi toán tìm ki m thông tin, phân lo i v n b n, toán t t v n b n, l p ch
m c…
V trí c a tách t trong h d ch t đ ng:
Trang 11V n b n
nh p vƠo Ti n x lỦ Gán nhãn t lo i Phân tích cú pháp
K t qu
d ch Tách t
Hình 1.1: V trí c a tách t trong h d ch t đ ng
1.2 T NGăQUANăV ăTỄCHăT ăT ă NG
1.2.1 Bài toán táchăt ăt ăđ ng
Tách t t đ ng lƠ b c ti n x lý không th thi u đ i v i h u h t các l nh v c
c a x lý t đ ng ngôn ng t nhiên i v i các ngôn ng châu Âu thì vi c tách t
này có ph n đ n gi n là ch y u là d a vào kho ng tr ng Nh ng v i các ngôn ng chơu Á trong đó có Vi t Nam nh ti ng Vi t, ti ng Jrai, … thì vi c tách ra nh ng
đ n v t v ng sao cho chính xác nh t t ng đ i khó kh n, không ch đ n thu n là
d a vào kho ng tr ng
Do trong m t s ngôn ng t i các n c châu Á trong đó có ti ng Vi t, ti ng
Jrai, … là nh ng ngôn ng phi hình thái, đ n l p, t trong câu có th đ c c u
thành t m t hay nhi u hình v còn g i là âm ti t v i ti ng Vi t, đa ph n là hai hình
v tr lên, cho nên ranh gi i c a t không đ c xác đ nh m c nhiên b ng kho ng
tr ng d n đ n vi c tách t tr nên t ng đ i khó kh n Do v y mà khi ta tách t ch
d a vào kho ng tr ng không thôi thì ch tách ra đ c các âm ti t, có th nó là m t
t có ngh a ho c không mang Ủ ngh a nào
1.2.2 B iăc nhătáchăt t ăđ ng hi nănay
Trong nh ng n m g n đơy thì đư có nhi u công trình nghiên c u đ gi i quy t
Trang 12các khó kh n c a bài toán tách t t đ ng và đư mang l i nhi u k t qu kh quan
[2], [3], [5], [6], [7], [8], [9] Nh ng nghiên c u nƠy đ u t p trung gi i quy t bài
toán tách t t đ ng theo hai h ng ti p c n l n c a tách t t đ ng đó là:
Tách t d a trên đ n v t v ng
Tách t d a trên âm ti t (hình v ) đ i v i các ngôn ng dùng m u t
Latinh nh ti ng Vi t, còn các ngôn ng t ng hình thì các âm ti t này
H ng ti p c n d a trên t v ng v i m c tiêu lƠ tách đ c nh ng t hoàn
ch nh trong câu V i h ng ti p c n này có th chia lƠm ba h ng:
D a trên t đi n (dictionary ậ based)
D a trên th ng kê (statistics ậ based)
H ng k t h p (hydird) là k t h p nhi u ph ng pháp l i v i m c đích
t n d ng đ c u đi m c a t ng ph ng pháp đ cho ra k t qu chính
xác nh t
a H ng ti p c n d a trên th ng kê
D a vƠo các thông tin nh lƠ t n s xu t hi n c a t v ng trong t p d li u
hu n luy n ban đ u H ng ti p c n nƠy đ c bi t d a vào t p ng li u hu n luy n,
cho nên trong m t s tr ng h p h ng ti p c n này t ra r t linh ho t và h u d ng
Trang 13b H ng ti p c n d a trên t đi n
Th ng đ c s d ng trong tách t t đ ng H ng ti p c n này là so kh p
nh ng t ho c c m t đ c tách ra t v n b n v i nh ng t có trong t đi n V i
nh ng h ng ti p c n khác nhau s s d ng nh ng lo i t đi n khác nhau H ng
ti p c n d a trên c m t ho c t thì c n s d ng t đi n hoàn ch nh đ có th tách
đ c đ y đ các t ho c ng trong v n b n, trong khi đó h ng ti p c n thành ph n
l i s d ng t đi n thành ph n V i t đi n hoàn ch nh thì ch a t t c các t và ng
trong ngôn ng , trong khi t đi n thành ph n l i ch ch a thành ph n c a t ho c
ng nh hình v ho c nh ng t đ n gi n trong ngôn ng
V i h ng ti p c n d a vào t đi n thì vi c so kh p tùy vào cách ch n đ so
kh p t , h ng ti p c n t ho c c m t có th đ c chia thành kh p dài nh t, kh p
ng n nh t và k t h p
Kh p dài nh t (longest match): Th c hi n b ng cách duy t v n b n
tu n t t đ u và tìm ra t dài nh t có trong t đi n r i tách ra thành
m t t
Kh p ng n nh t (shortest match): Th c hi n b ng cách duy t v n b n
tu n t và ch n t đ u tiên có trong t đi n r i tách ra thành m t t
Kh p k t h p (overlap): Ngoài hai cách kh p t trên còn có cách th ba
là k t h p hai cách trên l i v i nhau, v i cách này m i chu i tách ra t
v n b n có th ch ng l p lên chu i khác n u nó có trong t đi n (ví d :
“h c sinh h c”, ta s tách ra đ c hai t “h c sinh” và “sinh h c”)
Nh v y cách này s cho ra nhi u nh p nh ng
Tuy có nhi u cách kh p t nh ng cách kh p t dài nh t đ c xem là cách
quan tr ng và hi u qu nh t trong h ng ti p c n d a trên t đi n vƠ đ c áp d ng
r t nhi u trong tách r t đ ng Cách kh p t này cho ra k t qu v i đ chính xác
khá cao
Trang 14H ng ti p c n này thì vi c tách t là d a hoàn toàn vào t đi n nên nó v n có
h ng ti p c n khác nh m mang l i k t qu t i u nh t H ng ti p c n nƠy th ng
là k t h p gi a h ng d a trên th ng kê vƠ h ng d a trên t đi n vƠ c ng đư mang
m t s thành công nh t n d ng đ c các m t m nh c a m i h ng ti p c n trên
Tuy r ng h ng ti p c n k t h p nƠy có đ c nh ng u đi m c a các h ng ti p
c n khác nh ng l i g p ph i nh ng v n đ ph c t p khác nh đòi h i nhi u chi phí
và th i gian x lý
Trong ti ng Vi t, ng i ta đư có g ng xây d ng đ c t p ng li u hu n luy n
riêng (kho ng 10MB) d a trên các thông tin trên Internet, sách báo, e-book, … Tuy
nhiên t p ng li u ch đ m b o m t ph n cho vi c tách t
1.2.2.2 H ng ti p c n d a trên âm ti t
Trong ti ng Vi t hay ti ng Jrai thì đ n v c u thành t là hình v , v i riêng
ti ng Vi t còn g i là ti ng hay âm ti t H ng ti p c n nƠy đ n thu n là rút ra m t
s l ng nh t đ nh các âm ti t trong v n b n nh rút trích ra m t âm ti t (uni-gram)
hay nhi u âm ti t (n-gram) M c dù h ng ti p c n này t ng đ i đ n gi n h n so
v i các h ng ti p c n khác, nh ng nó c ng đư mang l i nhi u k t qu kh quan
H ng ti p c n d a trên m t âm ti t: H ng ti p c n nƠy chia v n b n ra
thành nh ng âm ti t đ n l đ th c hi n vi c tách t t đ ng Hi n nay, ng i ta
Trang 15không s d ng ph ng pháp nƠy nh m t h ng ti p c n chính trong vi c tách t t
đ ng
H ng ti p c n d a trên nhi u âm ti t: h ng ti p c n nƠy chia v n b n ra
thành nhi u chu i, m i chu i g m hai hay nhi u âm ti t So v i h ng ti p c n d a
trên m t âm ti t thì h ng ti p c n này cho ra k t qu t t h n Trong các ngôn ng
phi hình thái t i chơu Á nh ti ng Trung Qu c, ti ng Vi t, … thì t g m nhi u âm
ti t chi m ph n l n trong ngôn ng , cho nên vi c tách t theo h ng ti p c n d a
trên nhi u âm ti t, c th là hai âm ti t s cho k t qu đúng h n lƠ d a vào m t âm
ti t Ví d , ta có cơu ABCDEFGH, thì theo h ng ti p c n trên s đ c chia ra
thành AB CD EF GH Trong h ng ti p c n này có m t bi n th lƠ h ng ti p c n
có cách chia các âm ti t ch ng lên nhau Ví d , cơu ABCDEFGH, h ng ti p c n
này s chia thành AB BC CD DF FG GH
Trong h ng ti p c n d a trên âm ti t thì h ng ti p c n d a trên nhi u âm
ti t có nhi u u đi m n i b t nh tính đ n gi n, d ng d ng, chi phí không cao
Vi c áp d ng h ng ti p c n d a trên nhi u âm ti t thì h ng l a ch n chia v n b n
ra thành t ng chu i, m i chu i là hai âm ti t đ c cho lƠ h ng l a ch n thích h p
nh t
Trong ti ng Vi t h ng ti p c n nƠy c ng có m t s công trình nghiên c u
đ c ph bi n Công trình c a Lê An HƠ n m 2003 [8] đư xây d ng t p ng li u thô
10MB và s d ng ph ng pháp qui ho ch đ ng đ c a đ i hóa xác su t xu t hi n
c a các ng Ti p sau đó, thay vì s d ng b ng li u thô, ng i ta xem Internet
nh m t kho ng li u, sau đó l y thông tin thông kê t Internet và s d ng gi i
Trang 161.2.3.1 Ph ng pháp Maximum Matching k t h p v i lu t kh nh p nh ng
Ph ng pháp Maximum Matching, ta s duy t m t câu ho c m t ng t trái
sang ph i và ch n t có trong t đi n sau đó k t h p v i m t s lu t kh nh p
nh ng đ ch n đ c t chính xác, r i c nh th ti p t c cho t k ti p cho đ n h t
câu Ph ng pháp dùng các thu t toán Maximum Matching d ng đ n gi n, d ng
ph c t p và m t s lu t kh nh p nh ng
a Thu t toán Maximum Matching đ n gi n
ây là d ng c b n đ gi i quy t nh p nh ng t , đ c s d ng ch y u trong
vi c gi i quy t nh p nh ng t đ n mô t thu t toán, gi s có chu i các âm ti t
nh sau A1, A2, …, An Ta b t đ u duy t t đ u chu i đ xác đ nh đơu lƠ t u tiên
chúng ta tìm trong t đi n xem A1 có ph i là t m t âm ti t hay không, sau đó ti p
t c tìm trong t đi n xem A1A2 có ph i là t hay không Ti p t c cho đ n khi tìm
đ c t có nhi u âm ti t nh t T h p lý nh t s là chu i dài nh t có trong t đi n
Chúng ta ch n t nƠy, sau đó c ti p t c quy trình này cho nh ng t còn l i cho đ n khi xác đ nh đ c t cu i cùng trong chu i
b Thu t toán Maximum Matching ph c t p
ơy lƠ m t bi n th c a thu t toán Maximum Matching đ n gi n Thu t toán
phát bi u nh sau: Phơn đo n h p lý nh t là b ba t có chi u dài l n nh t [6]
Thu t toán b t đ u nh d ng đ n gi n, t đ u chu i ta xác đ nh đơu lƠ t N u phát
hi n ra phơn đo n t có s nh p nh ng (ví d : A1 là m t t , nh ng A1A2 c ng là
Trang 173 A1A2 A3A4 A5A6
B ba có chi u dài dài nh t s là b th ba Nh v y, t đ u tiên là A1A2 s là
t đ c ch n Chúng ta l y t này và ti p t c t âm ti t ti p theo là A3 cho đ n khi xác đ nh đ c t cu i cùng c a câu Thu t toán này áp d ng trong tách t đ t đ c
Lu t 1: Thu t toán Maximum Matching
Maximum Matching đ n gi n: L y ra t có chi u dài dài nh t
Maximum Matching ph c t p: L y t đ u tiên t b có chi u dài dài
nh t N u có nhi u h n m t b dài nh t thì áp d ng lu t ti p theo đ
Lu t 2 cho phép l y t đ u tiên c a b có trung bình đ dài t l n nh t
Trong ví d trên, ta s l y t A1A2A3 t b th hai Gi thuy t c a lu t này
ta g p tr ng h p t nhi u âm ti t nhi u h n là t m t âm ti t
Lu t này t ra hi u qu khi thi u m t ho c m t vài v trí trong b Khi b là
b ba thì lu t nƠy không đ c hi u qu l m B i vì b ba t có cùng t ng
Trang 18đ dƠi d nhiên s có cùng đ dài trung bình Cho nên c n có m t gi i pháp
Lu t 3 cho phép l y b đ u tiên v i đ bi n đ i chi u dài t nh nh t
Trong ví d trên, ta l y t A1A2 t b đ u tiên Gi thuy t c a lu t này là
nh ng chi u dài t đ u b ng nhau N u có h n m t b có cùng đ bi n đ i
nh nh t chi u dài t thì áp d ng lu t ti p theo
Nh v y sau khi qua các lu t thì các nh p nh ng s đ c gi i quy t và ch n
đ c cách tách t t i u
Trang 19Ph ng pháp Maximum Matching lƠ ph ng pháp đ n gi n, nhanh, d a ch
y u vào t đi n và mang l i đ chính xác khá cao
Ph ng pháp ch y u d a vào t đi n cho nên vi c xây d ng t đi n càng
hoàn ch nh s mang l i đ chính xác càng cao V i ph ng pháp nƠy ta d dàng nơng cao đ chính xác b ng cách c p nh p t đi n
Trang 201.2.3.2 Ph ng pháp tách t ti ng Vi t b ng FnTBL
h c d a trên s bi n đ i, gi i quy t m t v n đ nƠo đó b ng cách áp d ng các phép
bi n đ i, t i m i b c, phép bi n đ i nào cho k t qu t t nh t s đ c ch n và đ c
áp d ng l i v i v n đ đư đ t ra [3] Thu t toán k t thúc khi không còn phép bi n
đ i nƠo đ c ch n H th ng FnTBL g m hai t p tin chính
T p tin d li u h c: T p tin d li u h c đ c làm th công, đòi h i đ chính
xác M i m u (template) đ c đ t trên m t dòng riêng bi t
Trang 21đang B
làm B
ki m B tra I
Các ký t B, I g i lƠ các chunk có Ủ ngh a nh sau:
Ti ng có chunk = B ngh a lƠ ti ng đó b t đ u m t t (begin)
Ti ng có chunk = I ngh a lƠ ti ng đó n m trong m t t (inside)
Xây d ng t p tin ch a các m u lu t: Trong ti ng Vi t, ng i ta xây d ng đ c
3 lu t áp d ng cho tách t trong ti ng Vi t [3] nh sau:
chunk_0 word_0 => chunk chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk
b Quá trình h c
(1) T t p d li u h c xây d ng t đi n các ti ng
(2) Kh i t o các t
Trang 22(3) Rút ra t p lu t
b c (1) t t p d li u h c đư có s n, s d ng ph ng pháp th ng kê ta s
có t đi n các ti ng Các ti ng có th xu t hi n trong các t v i các chunk khác
nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng
Ví d : i v i t “h c sinh” thì ti ng “h c” có chunk = B nh ng trong
t “sinh h c” thì ti ng “h c” có chunk=I
b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách
xoá h t các chunk t ng ng T p d li u m i này s đ c s d ng đ kh i t o l i
các chunk thông d ng nh t d a vào t đi n
b c (3) so sánh t p d li u h c v i t p d li u đang xét, d a vào các m u
lu t đư cho, ta s rút ra đ c các lu t ng viên, ng v i m i lu t ng viên ta l i áp
d ng vào t p d li u đang xét vƠ tính đi m cho nó (d a vào s l i phát sinh khi so
sánh v i t p d li u h c là t p d li u chu n) Ch n lu t có đi m cao nh t và l n
h n m t ng ng cho tr c đ đ a vƠo danh sách lu t đ c ch n
K t qu ta s đ c m t t p các lu t đ c ch n Các lu t có d ng nh sau:
SCORE: 350 RULE: chunk_0=B word_0=tr => chunk=I
SCORE: 315 RULE: chunk_0=B word_-1=h c word_0=sinh => chunk=I SCORE: 250 RULE: chunk_0=B word_0=tra => chunk=I
SCORE: 220 RULE: chunk_0=B word_0=đ ng => chunk=I
SCORE: 205 RULE: chunk_0=B word_0=nghi p => chunk=I
SCORE: 165 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I SCORE: 113 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I
SCORE: 107 RULE: chunk_0=B word_-1=sinh word_0=h c=> chunk=I
Trang 23dòng 2 ta có lu t: n u t hi n hƠnh lƠ ắsinh” (word_0=sinh) và t tr c đó
lƠ ắh c” (word_-1=h c) và chunk c a t hi n hành là B (chunk_0=B) thì chuy n
chunk c a t hi n hƠnh lƠ I, ngh a lƠ ắh c sinh” ph i là m t t
c Xác đ nh t cho tài li u m i
Tài li u m i đ a vƠo ph i có đ nh d ng gi ng nh t p tin d li u h c, ngh a lƠ
m i ti ng trên m t dòng
D a vào t đi n, gán chunk thông d ng nh t cho các ti ng trong tài li u m i
Áp d ng các lu t có đ c t giai đo n h c vào tài li u đang xét ta s tách đ c
các t hoàn ch nh
d ánh giá
Ph ng pháp FnTBL th i gian h c và t n nhi u không gian nh do nó ph i
sinh ra các lu t trung gian trong quá trình h c Vì đ h c đ c m t b lu t thì
FnTBL ch y m t nhi u th i gian và dùng t i nhi u b nh , nên vi c xây d ng đ c
m t b lu t đ y đ dùng cho phân đo n t là r t khó kh n Vì th khi áp d ng
ph ng pháp nƠy, s có khá nhi u nh p nh ng
Tuy nhiên sau khi có b lu t thì FnTBL l i ti n hƠnh phơn đo n khá nhanh
H n n a, Ủ t ng c a ph ng pháp rút ra các quy lu t t ngôn ng và liên t c ắs a sai” cho lu t thông qua quá trình l p là phù h p v i bài toán x lý ngôn ng t
nhiên
1.2.3.3 Ph ng pháp tách t b ng mô hình WFST và m ng Neural
Mô hình m ng d ch chuy n tr ng thái h u h n có WFST (Weighted finitậstate
Transducer) c a Richard W Sproat đ a ra n m 1996 [2] t ra khá hi u qu trong
tách t ti ng Trung Qu c ụ t ng c b n c a mô hình này là áp d ng WFST k t
h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u Dùng WFST duy t qua câu câu c n tách t và cách duy t nào có tr ng s l n nh t s đ c ch n
Trang 24Nh ng trên th c th , có nh ng cách duy t có mà tr ng s c a nh ng cách này x p
x ngang nhau, có chênh l nh không đáng k thì các t l tách đúng c ng t ng
đ ng nhau kh c ph c các nh p nh ng này công trình c a inh i n n m 2001
[2], [7] k t h p WFST v i m ng neural Mô hình k t h p này g m các t ng sau:
ti n x lý, WFST, m ng neural T ng ti n x lỦ lƠ đ gi i quy t đ nh d ng v n b n
nh đo n, câu, chu n hóa chính t ti ng Vi t (cách b d u, cách vi t các kí t y,
i,…), sau đó chuy n sang t ng WFST đ tách t và cu i cùng chuy n qua t ng
Trong mô hình WFST, vi c phân đo n t đ c xem nh là m t s chuy n d ch
tr ng thái có xác su t (Stochastic Transduction) Chúng ta miêu t t đi n D là m t
đ th bi n đ i tr ng thái h u h n có tr ng s Gi s :
Trang 25Nói cách khác, m i t đ c miêu t trong t đi n là m t dãy tu n t các cung:
b t đ u m t tr ng thái ban đ u D, đ c gán nhãn b ng m t ph n t S thu c H và k t
thúc b i m t cung gán nhãn là ph n t t c a x P Nhưn nƠy bi u th m t chi phí
c l ng (estimated cost) Chúng ta bi u di n câu c n tách là m t máy nh n
(acceptor) tr ng thái h u h n không có (FSA ậ Finite State Acceptor) tr ng s I trên
H Gi s t n t i m t hƠm Id mƠ đ u vƠo lƠ FSA A vƠ đ u ra là m t chuy n d ch
(transducer) mà các ph n t trong đó ch bao g m các ph n t thu c A (g i là D*)
M i t k t thúc b i m t cung bi u di n s chuy n đ i gi a vƠ t lo i c a chúng
Xác su t chuy n đ i đ c tính b ng cách l y log c a xác su t trong m t t p m u l n
[2] theo công th c sau:
Trang 26p(unseen(C)): là xác xu t trong tr ng h p này c a C (tr ng h p mà C đ ng
thêm các xác su t c a C khi C đ ng li u sau m t t lo i nh t đ nh
Xây d ng các kh n ng phân đo n t :
V n đ đơy lƠ lƠm sao gi m đ c s bùng n t h p khi sinh các dãy các t
có th có t m t dãy các âm ti t (hình v ) có trong câu Th t v y, gi s ta có m t câu g m có n âm ti t, mà trong ti ng Vi t thì m t t có t i đa kho ng 4 âm ti t V i
câu có n âm ti t ta s có t i đa lƠ 2n-1cách phơn đo n t khác nhau Trong ti ng Vi t
thì m t câu trung bình có 24 âm ti t thì lúc đó ta ph i gi i quy t kho ng 8.000.000
tr ng h p phơn đo n t có th trong m t câu
đơy, tác gi đ xu t m t ph ng pháp m i là k t h p s d ng t đi n đ h n
ch sinh ra các bùng n t h p này Khi phát hi n th y m t cách phơn đo n t nào
đó không phù h p (không có trong t đi n, không ph i t láy, không ph i danh t
riêng,…) thì tác gi b các nhánh xu t phát t cách phơn đo n t đó i v i
ph ng pháp nƠy tác gi s thu đ c m t danh sách g m ch vƠi tr m tr ng h p phơn đo n t có th , nó gi m thi u r t nhi u so v i kho ng 8.000.000 phân đo n
Trang 27Sau khi phơn đo n t qua t ng WFST xác đ nh k t qu phơn đo n t trên
có th c s h p l hay không, tác gi đ nh ngh a m t ng ng giá tr t0 [2] v i Ủ ngh a
nh sau:
N u s chênh l ch v tr ng s ( gi a các phơn đo n khác nhau v i phân
đo n có tr ng s nh nh t) l n h n t0 thì đó lƠ k t qu phơn đo n t có
tr ng s nh nh t đó đúng c a cơu vƠ đ c ch p nh n
N u s chênh l ch đó không l n h n t0 thì k t qu phơn đo n có tr ng
s nh nh t đó ch a đ c xem là k t qu phơn đo n đúng c a câu Nh
Trang 28Th c t trong ti ng Vi t có nh ng dãy t lo i không th nào tu n t đ ng g n
nhau theo ng pháp ti ng Vi t Mô hình m ng neural đ c dùng đ đánh giá s phù
h p c a các nhãn t lo i c a m t câu Xét ví d trên, mô hình m ng neural đ c đ
xu t dùng đ c l ng giá ba dãy t lo i: NVN, NNV, VNN (N: danh t , V: đ ng
t ) V i nhi u nh p nh ng qua t ng m ng neural s ch n phơn đo n t nào có dãy
t lo i phù h p nh t ngh a lƠ phơn đo n có các t đ c tách phù h p nh t
c ánh giá
Mô hình nƠy đ t đ chính xác r t cao, kho ng 97% trong ti ng Vi t, t l này
còn tùy thu c vào t ng lo i v n b n Nh có t ng m ng neural nên mô hình đư kh
đ c các nh p nh ng mà t ng WFST đư cho ra các ng viên nganh nhau
mô hình đ t k t qu chính xác c n ph i xây d ng t đi n m t cách công
phu, phong phú v m c t
1.2.3.4 Ph ng pháp tách tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t di truy n – IGATEC
Ph ng pháp tách t ti ng Vi t d a trên th ng kê t Internet và thu t gi i di
truy n ậ IGATEC (Internet and Genetics Algorithm based Text Categorization for
Trang 29Documents in Vietnamese) do H Nguy n đ xu t n m 2005 nh m t h ng ti p
c n m i trong tách t v i m c đích phơn lo i v n b n mà không c n dùng đ n m t
t đi n hay t p ng li u h c nào Trong h ng ti p c n này, tác gi k t h p gi a
thu t toán di truy n GA (Genetics Algorithm) v i các d li u th ng kê đ c l y t
Internet [5], [9]
a Th ng kê d a vào Internet
Thành ph n Th ng kê trên Internet có tác d ng l y thông tin v t n s xu t
hi n c a các đ n v t v ng trong v n b n b ng cách s d ng m t trong các máy
tìm ki m ( search engine ) n i ti ng nh Google, Yahoo, Bing ch ng h n Thông
qua các b máy tìm ki m này ta có th l y đ c thông tin h u ích t Internet ó lƠ
t n s tài li u ( document frequency – df ), s l ng các tài li u đư có ch a đ n v t
v ng mƠ ta xét đ n Sau đó ta chu n hóa giá tr df b ng cách chia cho m t h ng s
MAX ( là s l ng các tài li u ti ng Vi t ) đ tính xác su t xu t hi n c a m t t trên
Internet
Tính xác su t các t xu t hi n trên Internet [5] :
MAX
wdfw
Trên th c t , chúng ta khó có th bi t đ c chính xác s l ng các tài li u
ti ng Vi t trên Internet, do đó, thông qua th c nghi m v i các máy tìm ki m giá tr
df c a các t thông d ng, giá tr MAX đ c ch n là 109 [5], [9]
Do t trong ti ng Vi t g m m t s ti ng liên ti p nhau, ta c n đo đ th ng kê
m c đ liên k t gi a các ti ng MI ( Mutual information ) là m t khái ni m quan
tr ng trong lý thuy t thông tin, đ c dùng trong x lý ngôn ng t nhiên [5] đ th
hi n quan h gi a hai t c th x và y
)()(
)
;(log)
;(
ypxp
yxpy
xMI
Trang 30Tuy nhiên, v i ti ng Vi t thì ng i ta không ch xét tính ph thu c c a các c p
ti ng mà còn xét n ti ng do c ng có nhi u t 3 hay 4 ti ng, cho nên công th c tính
MI cho n ti ng [5], [9] là:
)()()(
)()
(
cwprwplwp
cwpcw
rw có khuynh h ng cùng xu t hi n chung trong tài li u trên Internet (t c là cw có
kh n ng cao lƠ t ghép) V i ti ng Vi t thì r t nhi u t 4 ti ng đ c ghép t t có
hai ti ng (Ví d : “khoa h c máy tính” là ghép t “khoa h c” và “máy tính”) cho
nên đ phù h p v i ti ng Vi t thì ng i ta đ xu t lw và rw là hai chu i con c a cw
v i đ dài là n/2
b Gi i thu t di truy n
Gi i thu t di truy n dùng đ xác đ nh MI t i u toƠn c c, t c là cách tách t
h p lý nh t M i cá th trong quan th đ c bi u di n b i chu i các bit 0,1, trong
đó, m i bit đ i di n cho m t ti ng trong v n b n, m i nhóm bit cùng lo i đ i di n
cho cho m t t Các cá th trong qu n th đ c kh i t o ng u nhiên, trong đó m i
t đ c gi i h n trong kho ng 4 Gi i thu t di truy n sau đó th c hi n các b c đ t
bi n và lai ghép nh m m c đích làm c i thi n đ thích nghi c a cá th trong qu n
th đ đ t đ c cách tách t t t nh t có th [5], [9]
c ánh giá
V i Ph ng pháp tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t
di truy n, chúng ta không c n b t c t p ng li u hu n luy n hay t đi n nào
Nh ng so v i các ph ng pháp khác thì đ chính xác th p h n r t nhi u, th i gian
đ u ch y có th lâu do còn ph thu c vào t c đ đ ng truy n Internet
Ph ng pháp nƠy t ra phù h p v i vi c tách t đ tìm ki m thông tin trên
Trang 31Internet, còn đ i v i tách t cho m c đích d ch t đ ng thì ch a phù h p do đ
chính xác không cao
1.3 K TăLU N
Nhìn m t cách t ng quát, trong các ph ng pháp tách t t đ ng thì các
ph ng pháp d a trên h ng ti p c n t v ng cho đ chính xác khá cao (trên 95%)
nh vào t p ng li u l n, đ c đánh d u chính xác, tuy nhiên hi u su t c a các
ph ng pháp nƠy ph thu c hoàn toàn vào t đi n, ng li u hu n luy n
V i các ph ng pháp c n ph i s d ng t đi n ho c t p hu n luy n, ngoài vi c
tách t th t chính xác, ta còn nh vƠo các thông tin đánh d u trong t p ng li u đ
th c hi n các m c đính khác nhau Do v y, m c dù th i gian hu n luy n khác lâu, cƠi đ t ph c t p, chi phí t o t p ng li u hu n luy n r t t n kém, nh ng k t qu
h ng ti p c n d a trên t mang l i đ chính xác khá cao
H ng ti p c n d a trên ký t có u đi m là d th c hi n, th i gian th c thi
t ng đ i nhanh, tuy nhiên l i có đ chính xác không cao b ng ph ng pháp d a
trên t H ng ti p c n này thích h p cho m c đích nghiên c u không c n đ n đ
chính xác tuy t đ i c ng nh các thông tin v t lo i nh phơn lo i v n b n
Nhìn chung, h ng ti p c n d a trên t có nhi u u đi m đáng k vƠ đem l i
k t qu kh quan đ ti p t c nghiên c u nơng cao đ chính xác c a công đo n tách
t
Trang 32CH NGă2ă- TỄCHăT T ă NG TRONGăTI NGăJRAI
V i các c s lý thuy t v các ph ng pháp tách t t đ ng đ c trình bày
ch ng tr c đư cho chúng ta cái nhìn t ng quan v tách t t đ ng Trong ch ng nƠy, chúng tôi trình bƠy s l c v dân t c Jrai, ngu n g c và s phát tri n c a
ngôn ng Jrai Phân tích nh ng đ c đi m c a ngôn ng này đư cho th y r ng ranh
gi i c a các t trong ch vi t Jrai không ch là kho ng tr ng, cho nên ph i l a ch n
ph ng pháp phù h p đ tách t t đ ng trong ti ng Jrai
2.1 GI IăTHI UăV ăDÂNăT CăJRAI
2.1.1 V ăng iăJrai
Ng i Jrai là m t trong nh ng c dơn sinh s ng lơu đ i nh t trên m nh đ t
Tây Nguyên V ngu n g c t c ng i Jrai, các nhà khoa h c x p ng i Jrai vào
nhóm Malayo Polynésien ậ Mư Lai a o Cùng v i nhóm ng i này Vi t Nam
còn có các t c ng i nh Êđê, Ch m, Chru, Raglai NgoƠi tên g i Jrai ra thì t c
ng i này còn có các tên g i khác n a lƠ Gia Rai, Jarai, Djarai, Gi Rai, Ch
Rai, T Bu n, H bau và Hdrung, tuy r ng có nhi u tên g i khác nhau nh v y
nh ng đ có s th ng nh t trong công tác qu n lỦ thì tên Jrai đ c s d ng chính
d ng trong giao ti p là ti ng Jrai thu c h ngôn ng Nam o và ti ng Vi t nh lƠ
ngôn ng chính th c th hai V y nên, trong giao ti p hi n nay h ch y u s d ng hai ngôn ng
Ng i Jrai s ng theo t ng làng ( plei, pl i, ôn, uôn ) M i làng có kho ng t
Trang 33Nguyên Ð a bàn c trú c a ng i Jrai trãi dài t Nam t nh Kon Tum đ n B c t nh
Ð k L k ( theo chi u Nam - B c) và t Tây B c tnh Phú Yên đ n mi n biên gi i
ti p giáp v i Campuchia ( theo chi u Ðông - Tây ) Trong s các khu v c sinh s ng này thì tnh Gia Lai là đ a bàn mà ng i Jrai sinh s ng t p trung nh t
Ng i Jrai sinh s ng vƠ c trú t i t nh Gia Lai chi m đ n 90% t ng s ng i
Jrai, m t b ph n sinh s ng t nh Kon Tum chi m 5%, phía b c t nh k L k chi m 4% và s ít còn l i sinh s ng r i rác m t vài t nh thành khác
Theo t ng đi u tra dân s và nhà n m 2009 c a c c th ng kê, ng i Jrai
Vi t Nam có dân s 411.275 ng i, c trú t i 47 trên t ng s 64 t nh, thành ph
Ng i Jrai c trú t p trung t i t nh Gia Lai là 372.302 ng i, chi m 29,2 % dân s
toàn t nh và 90 % t ng s ng i Jrai t i Vi t Nam, ngoài ra còn có Kon Tum là 20.606 ng i, k L k là 16.129 ng i
Do đ c đi m c trú trên nhi u t nh thành trong c n c và b n s c v n hóa mang tính đ a ph ng, ng i Jrai đ c phân thành n m nhóm c ng đ ng
Nhóm ng i Jrai Chor: Nhóm Jrai Chor hay còn g i làm Jrai phun (Jrai
g c ) Nhóm Jrai nƠy c trú Th xã Ayun Pa, huy n Ia Pa, huy n Phú
Thi n và m t s ng i Jrai sinh s ng phía Nam huy n Ch Se, t nh
Gia Lai Ðây là nhóm Jrai gi đ c nh ng s c thái ngôn ng vƠ nét v n
hóa c a th i xa x a rõ nét nh t, ch a b lai t p, ch a b phân hóa nhi u
Nhóm Jrai này g n g i v i ngôn ng c a t c ng i Êđê vƠ nhóm Jrai
M thur
Nhóm ng i Jrai M thur: C trú huy n Krông Pa, m t ph n huy n
Hinh, t nh Phú Yên, nhóm này còn m t s nhánh nh nh Hruai,
K preh,…
Nhóm ng i Jrai H drung: C trú thành ph Pleiku, xung quanh
thành ph Pleiku Nhóm này còn có nhóm nh n a g i lƠ H bơo, s ng
Trang 34xã Hà B u, thành ph Pleiku
Nhóm ng i Jrai T buan: Ð a bàn c trú c a nhóm T buan ch y u là
Grai, thu c t nh Gia Lai
Nhóm ng i Jrai Arap: Arap là tên m t con voi có b n ngòi trong truy n thuy t c a ng i Jrai Nhóm Arap s ng huy n Sa Th y, t nh Kon Tom và huy n Ch Pah thu c t nh Gia Lai
2.1.2 S ăkhácănhauăgi aăcácănhómăph ngăng ăJrai
Tuy vi c phân chia trên lí thuy t m t cách r ch ròi nh đư trình nƠy trên,
nh ng c n c vƠo nhóm ph ng ng vƠ đ i s ng th c t dân t c Jrai ch có hai
nhóm chính [4]: Jrai Chor vƠ Jrai M thur g p l i thành m t nhóm ( Jrai nhóm 1 hay
CM ); Jrai H drung, Jrai T buan, Jrai Arap g p l i thành m t nhóm ( Jrai nhóm 2
hay HTA)
Khác nhau v ti n âm ti t: Jrai nhóm 1 th ng gi l i đ y đ các ti n âm ti t
(ti n t ) ợ ng nhiên, Jrai nhóm 2 c ng có m t s t ng mang ti n âm ti t,
nh ng không nhi u b ng so v i Jrai nhóm 1 Ðây là tiêu chí d nh n ra nh t khi
mu n phân bi t đơu lƠ Jrai nhóm 1 vƠ đơu lƠ Jrai nhóm 2
Ví d : k bao (trâu), t g i ( r ng), m nuih (ng i), … trong khi Jrai nhóm 2 th ng nói t t, m t đi ti n âm ti t
Ví d : bao (trâu), g i (r ng), muih (ng i),…
Khác nhau hoàn toàn v t ng : Jrai nhóm 1 nói chuy n v i Jrai nhóm 2
có khi h không hi u nhau, do khác nhau v cách g i tên m t s v t, m t hi n
t ng nƠo đó
Ví d :
Trang 35Nhóm 1 Nhóm 2 Ngh a ti ng Vi t
Ti ng Jrai có các ph ng ng trên Ph ng ng nhóm 1 trong vùng Ayun Pa
đ c s d ng ph bi n h n c Trên th c t toàn vùng Jrai, đơu, ng i Jrai c ng
có th s d ng đ c ph ng ng nhóm 1 Cho nên ph ng ng nhóm 1 đ c dùng lƠm c s [1], [4] cho các tài li u gi ng d y, h c t p ti ng Jrai
2.2 NGỌNăNG ăJRAI
2.2.1 L chăs ăhìnhăthƠnhăch ăvi t
Ti ng Jrai là m t ngôn ng thu c ng t c Mã Lai - Polynesia c a nhóm ng
h Nam o Ng i Jrai sinh s ng ch y u t i khu v c Tây Nguyên cho nên ít
nhi u c ng đư ch u nh h ng c a nhóm ngôn ng Môn - Khmer Ch vi t Jrai ngƠy nay ng i ta s d ng b t đ u đ c hình thành t cu i th k 19, cho nên ch u
nh h ng l n c a ngôn ng ph ng Tơy vì v y mà h th ng ch vi t Jrai đ c xây
d ng d a trên b ng ch cái Latinh
Kh i đ u t b ch vi t Bahnar do giáo s Pháp Dourisboure xơy d ng n m
1861 d a theo m u t La tinh Quy n t đi n th i danh ắVocabularium apud barbaros Bahnars” n m 1870, dƠy 268 trang, c sách 20×26 cm g m 3 th ti ng:
Bahnar-Vi t-Pháp, và t đi n ắDictionnaire bahnar-francais” in t i H ng Kông n m
1889 c ng đư đ nh hình m u t và m t s phiên âm ti ng Bahnar ra ch vi t
Ti p sau đó lƠ b ch vi t Jrai T p tài li u đ u tiên b ng ti ng Jrai đ c linh
m c Nicolas so n th o t i Habâu - Tiên S n vƠo n m 1915 n n m 1922, b ch
vi t Jrai đư đ c công b vƠ đ c s d ng r ng rãi trong c ng đ ng ng i Jrai Tuy