1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI

70 414 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 1,29 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hu nh Công Pháp.. Tác gi Nguy n Thanh Th nh... HI N TR NG TI NG JRAI TRÊN MÁY TÍNH.... Lý do ch n ph ng pháp dùng thu t toán Maximum Matching và các lu t kh nh p nh ng ..... 63 QUY Tă NH

Trang 1

Ng iăh ng d n khoa h c: TS HU NH CÔNG PHÁP

ƠăN ng - N mă2012

Trang 2

L IăCAMă OAN

Tôi xin cam đoan k t qu đ t đ c trong lu n v n là trung th c, s n ph m c a

cá nhân đ c th c hi n d i s h ng d n c a TS Hu nh Công Pháp

Trong toàn b n i dung c a lu n v n, nh ng đi u đ c trình bày ho c là c a

cá nhân ho c là đ c t ng h p t nhi u ngu n tài li u

Tác gi

Nguy n Thanh Th nh

Trang 3

M CăL C

L IăCAMă OAN ii

M C L C iii

DANH M C CÁC KÝ HI U, CH VI T T T vi

DANH M C CÁC HÌNH vii

M U 1

CH NGă1ă- T NG QUAN V TÁCH T T NG 3

1.1 GI I THI U 3

1.2 T NG QUAN V TÁCH T T NG 4

1.2.1 Bài toán tách t t đ ng 4

1.2.2 B i c nh tách t t đ ng hi n nay 4

1.2.2.1 H ng ti p c n d a trên t v ng 5

1.2.2.2 H ng ti p c n d a trên âm ti t 7

1.2.3 M t s ph ng pháp tách t t đ ng hi n nay 8

1.2.3.1 Ph ng pháp Maximum Matching k t h p v i lu t kh nh p nh ng 9 1.2.3.2 Ph ng pháp tách t ti ng Vi t b ng FnTBL 13

1.2.3.3 Ph ng pháp tách t b ng mô hình WFST và m ng Neural 16

1.2.3.4 Ph ng pháp tách tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t di truy n ậ IGATEC 21

1.3 K T LU N 24

CH NGă2ă- TÁCH T T NG TRONG TI NG JRAI 25

2.1 GI I THI U V DÂN T C JRAI 25

2.1.1 V ng i Jrai 25

2.1.2 S khác nhau gi a các nhóm ph ng ng Jrai 27

2.2 NGÔN NG JRAI 28

2.2.1 L ch s hình thành ch vi t 28

2.2.2 Gi i thi u v b ch cái, h th ng âm, v n ti ng Jrai 30

2.2.2.1 B ch cái 30

2.2.2.2 H th ng âm 30

Trang 4

2.2.2.3 V trí c a ph âm trong t 31

2.2.2.4 V n 32

2.2.2.5 Ti n âm ti t 32

2.2.2.6 D u 32

2.2.3 c đi m c a ti ng Jrai 32

2.3 HI N TR NG TI NG JRAI TRÊN MÁY TÍNH 33

2.4 TÁCH T TRONG TI NG JRAI 36

2.4.1 Áp d ng thu t toán Maximum Matching và các lu t kh nh p nh ng đ tách t ti ng Jrai 37

2.4.1.1 Lý do ch n ph ng pháp dùng thu t toán Maximum Matching và các lu t kh nh p nh ng 37

2.4.1.2 Áp d ng cho ti ng Jrai 38

2.4.2 V n đ khi tách t t đ ng ti ng Jrai 39

2.5 K T LU N 41

CH NGă3ă- CĨIă T VÀ TH NGHI M 42

3.1 GI I THI U 42

3.1.1 Ch ng trình ng d ng 42

3.1.2 Các công ngh và công c s d ng trong khi xây d ng ng d ng 43

3.1.2.1 L p trình ng d ng trên n n t ng NET Framework 43

3.1.2.2 Ngôn ng l p trình C# 44

3.1.2.3 Th vi n mã ngu n m VietkeyInput.dll, VnkeyInput.dll 45

3.1.2.4 B phông ch Vnk 45

3.1.2.5 Môi tr ng phát tri n ng d ng 45

3.2 THI T K VÀ XÂY D NG CH NG TRÌNH 46

3.2.1 Công c tách t t đ ng ti ng Jrai 46

3.2.1.1 Hàm h tr x lý chu i 46

3.2.1.2 Các hàm x lý chính trong công c tách t 47

3.2.2 Ch ng trình h tr ch nh s a câu sau khi tách t 57

3.3 TH NGHI M 57

Trang 5

3.4 ÁNH GIÁ 59

3.5 K T LU N 60

K T LU N 62

DANH M C TÀI LI U THAM KH O 63 QUY Tă NHăGIAOă TÀI LU NăV NăTH CăS ă(B N SAO)

Trang 6

DANHăM CăCỄCăKụăHI U, CH ăVI TăT T

CÁC KÝ HI U

f t n s t

k t thúc t

CÁC CH VI T T T CLR Common Language Runtime

DLL Dynamic Link Library

FnTBL Fast Transformation-Based Learning

IGATEC Internet and Genetics Algorithm based Text Categorization

for Documents in Vietnamese

MI Mutual information

MSIL Microsoft Intermediate Language

WFST Weighted finitậstate Transducer

Trang 8

M ă U

1 Lý do ch năđ tài

Trong th i đ i bùng n thông tin nh hi n nay, công ngh thông tin đóng m t

vai trò h t s c quan tr ng trong quá trình nơng cao đ i s ng v t ch t tinh th n, gìn

gi và phát huy n n v n hoá tiên ti n đ m đƠ b n s c dân t c c a vùng đ ng bào

dân t c thi u s và mi n núi n c ta

Vi t Nam có kho ng 54 dân t c anh em H u nh m i dân t c đ u có ngôn

ng c a riêng mình, dân t c ng i Jrai c ng không ngo i l Dân t c Jrai là m t

trong nh ng dân t c có dân s khá đông, ngôn ng chính th c c a h là ti ng Jrai

H s ít nhi u g p khó kh n trong vi c ti p nh n thông tin, tri th c ti ng Vi t do s

tr ng i v m t ngôn ng Cho nên, vi c t ng b c xây d ng các công đo n x lý

ngôn ng Jrai ậ Vi t là r t c n thi t đ góp ph n giúp cho dân t c ng i Jrai có th

d dàng trong vi c ti p c n ti ng Vi t h n, t o thu n l i cho công tác nghiên c u,

d ch thu t, tra c u, qu n lỦ, đƠo t o ti ng dân t c, c ng nh góp ph n vào vi c gi

gìn và phát huy b n s c v n hóa dơn t c thi u s trong th i đ i công ngh thông tin Công đo n tách các đ n v t v ng t đ ng là khơu đ u tiên không th thi u

đ i v i h u h t các l nh v c x lý t đ ng ngôn ng t nhiên Ti ng Jrai có khá

nhi u t ph c nên ranh gi i gi các t không ch là kho ng tr ng, d n đ n tách t t

đ ng s t ng đ i ph c t p Gi i quy t bài toán tách t t đ ng trong ti ng Jrai s là

b c ti n x lý t o đi u ki n đ ti p t c nghiên c u và xây d ng các h th ng x lý

ti ng Jrai nh d ch thu t t đ ng, tìm ki m thông tin, …

2 M căđíchănghiênăc u

M c đích c a đ tài t p trung nghiên c u các h ng ti p c n, các ph ng pháp

tách t t đ ng hi n nay và m t s đ c tr ng c a ngôn ng Jrai, qua đó ng d ng

ph ng pháp tách t t đ ng đ xây d ng công c tách t t đ ng trong ti ng Jrai

Trang 9

3.ă iăt ng và ph m vi nghiên c u

Nghiên c u v ti ng Jrai c ng nh các đ c đi m c a ngôn ng này thông qua

các tài li u ti ng Jrai, t đi n Jrai, Các ph ng pháp vƠ công c tách t t đ ng

mang l i hi u qu cao

4.ăPh ngăphápănghiênăc u

Nghiên c u lý thuy t: Các tài li u lý thuy t v tách t , các báo cáo k t qu công trình nghiên c u khoa h c v tách t , các bài báo trên các t p chí khoa h c

trong vƠ ngoƠi n c Tìm hi u các tài li u v ti ng Jrai

Nghiên c u th c nghi m: Xây d ng công c tách t t đ ng trong ti ng Jrai ánh giá k t qu đ t đ c c a đ tài

5.ăụăngh aăkhoaăh c và th c ti n c aăđ tài

tài xây d ng công c tách t t đ ng trong ti ng Jrai lƠ b c ti n x lý

ngôn ng Jrai trên máy tính Có th ng d ng công c tách t t đ ng ti ng Jrai đ

xây d ng các h th ng x lý ti ng Jrai nh d ch t đ ng, tìm ki m thông tin, …

6 C u trúc c a lu năv n

Lu n v n g m có ph n m đ u, k t lu n vƠ ba ch ng

Ch ng 1 – T ng quan v tách t t đ ng: Trình bày các n i dung t ng quan

v bài toán tách t t đ ng

Ch ng 2 – Tách t t đ ng trong ti ng Jrai: Trình bày m t cách khái quát v

dân t c và ngôn ng Jrai, các đ c đi m c a lo i hình ngôn ng nƠy, sau đó l a ch n

ph ng pháp tách t thích h p đ áp d ng cho ti ng Jrai

Ch ng 3 – Cài đ t và th nghi m: T nh ng lý thuy t đư nghiên c u các

ch ng tr c, ti n hành xây d ng ng d ng tách t t đ ng trong ti ng Jrai

Trang 10

CH NGă1ă- T NGăQUANăV ăTỄCHăT ăT ă NG

Ch ng đ u tiên gi i thi u khái quát v bài toán tách t t đ ng trong l nh v c

x lý ngôn ng t nhiên Chúng tôi trình bày v vai trò c a tách t và m t s

ph ng pháp tách t t đ ng đư mang l i nh ng thành công nh t đ nh, t đó có

nh ng đánh giá v các u đi m, nh c đi m c a t ng ph ng pháp

1.1 GI IăTHI U

X lý ngôn ng t nhiên là m t l nh v c nghiên c u nh m giúp cho các h

th ng máy tính có th x lỦ đ c ngôn ng ph c t p c a con ng i Trong đó d ch

t đ ng là m t trong nh ng ng d ng chính c a x lý ngôn ng t nhiên vƠ đơy

c ng chính lƠ bƠi toán g p nhi u khó kh n do ngôn ng c a con ng i đa d ng và

Tách t t đ ng là m t công đo n ti n x lý h t s c quan tr ng trong d ch t

đ ng nói riêng c ng nh x lý ngôn ng t nhiên nói chung Nó có nh h ng l n

đ n các giai đo n sau nó c ng nh lƠ k t qu c a cu i cùng c a h d ch t đ ng

Tách nh ng đ n v t v ng chính xác không ch nh h ng đ n k t qu c a bài toán

d ch t đ ng mà còn nh h ng l n đ n các bài toán khác trong x lý ngôn ng t

nhiên nh bƠi toán tìm ki m thông tin, phân lo i v n b n, toán t t v n b n, l p ch

m c…

V trí c a tách t trong h d ch t đ ng:

Trang 11

V n b n

nh p vƠo Ti n x lỦ Gán nhãn t lo i Phân tích cú pháp

K t qu

d ch Tách t

Hình 1.1: V trí c a tách t trong h d ch t đ ng

1.2 T NGăQUANăV ăTỄCHăT ăT ă NG

1.2.1 Bài toán táchăt ăt ăđ ng

Tách t t đ ng lƠ b c ti n x lý không th thi u đ i v i h u h t các l nh v c

c a x lý t đ ng ngôn ng t nhiên i v i các ngôn ng châu Âu thì vi c tách t

này có ph n đ n gi n là ch y u là d a vào kho ng tr ng Nh ng v i các ngôn ng chơu Á trong đó có Vi t Nam nh ti ng Vi t, ti ng Jrai, … thì vi c tách ra nh ng

đ n v t v ng sao cho chính xác nh t t ng đ i khó kh n, không ch đ n thu n là

d a vào kho ng tr ng

Do trong m t s ngôn ng t i các n c châu Á trong đó có ti ng Vi t, ti ng

Jrai, … là nh ng ngôn ng phi hình thái, đ n l p, t trong câu có th đ c c u

thành t m t hay nhi u hình v còn g i là âm ti t v i ti ng Vi t, đa ph n là hai hình

v tr lên, cho nên ranh gi i c a t không đ c xác đ nh m c nhiên b ng kho ng

tr ng d n đ n vi c tách t tr nên t ng đ i khó kh n Do v y mà khi ta tách t ch

d a vào kho ng tr ng không thôi thì ch tách ra đ c các âm ti t, có th nó là m t

t có ngh a ho c không mang Ủ ngh a nào

1.2.2 B iăc nhătáchăt t ăđ ng hi nănay

Trong nh ng n m g n đơy thì đư có nhi u công trình nghiên c u đ gi i quy t

Trang 12

các khó kh n c a bài toán tách t t đ ng và đư mang l i nhi u k t qu kh quan

[2], [3], [5], [6], [7], [8], [9] Nh ng nghiên c u nƠy đ u t p trung gi i quy t bài

toán tách t t đ ng theo hai h ng ti p c n l n c a tách t t đ ng đó là:

Tách t d a trên đ n v t v ng

Tách t d a trên âm ti t (hình v ) đ i v i các ngôn ng dùng m u t

Latinh nh ti ng Vi t, còn các ngôn ng t ng hình thì các âm ti t này

H ng ti p c n d a trên t v ng v i m c tiêu lƠ tách đ c nh ng t hoàn

ch nh trong câu V i h ng ti p c n này có th chia lƠm ba h ng:

D a trên t đi n (dictionary ậ based)

D a trên th ng kê (statistics ậ based)

H ng k t h p (hydird) là k t h p nhi u ph ng pháp l i v i m c đích

t n d ng đ c u đi m c a t ng ph ng pháp đ cho ra k t qu chính

xác nh t

a H ng ti p c n d a trên th ng kê

D a vƠo các thông tin nh lƠ t n s xu t hi n c a t v ng trong t p d li u

hu n luy n ban đ u H ng ti p c n nƠy đ c bi t d a vào t p ng li u hu n luy n,

cho nên trong m t s tr ng h p h ng ti p c n này t ra r t linh ho t và h u d ng

Trang 13

b H ng ti p c n d a trên t đi n

Th ng đ c s d ng trong tách t t đ ng H ng ti p c n này là so kh p

nh ng t ho c c m t đ c tách ra t v n b n v i nh ng t có trong t đi n V i

nh ng h ng ti p c n khác nhau s s d ng nh ng lo i t đi n khác nhau H ng

ti p c n d a trên c m t ho c t thì c n s d ng t đi n hoàn ch nh đ có th tách

đ c đ y đ các t ho c ng trong v n b n, trong khi đó h ng ti p c n thành ph n

l i s d ng t đi n thành ph n V i t đi n hoàn ch nh thì ch a t t c các t và ng

trong ngôn ng , trong khi t đi n thành ph n l i ch ch a thành ph n c a t ho c

ng nh hình v ho c nh ng t đ n gi n trong ngôn ng

V i h ng ti p c n d a vào t đi n thì vi c so kh p tùy vào cách ch n đ so

kh p t , h ng ti p c n t ho c c m t có th đ c chia thành kh p dài nh t, kh p

ng n nh t và k t h p

Kh p dài nh t (longest match): Th c hi n b ng cách duy t v n b n

tu n t t đ u và tìm ra t dài nh t có trong t đi n r i tách ra thành

m t t

Kh p ng n nh t (shortest match): Th c hi n b ng cách duy t v n b n

tu n t và ch n t đ u tiên có trong t đi n r i tách ra thành m t t

Kh p k t h p (overlap): Ngoài hai cách kh p t trên còn có cách th ba

là k t h p hai cách trên l i v i nhau, v i cách này m i chu i tách ra t

v n b n có th ch ng l p lên chu i khác n u nó có trong t đi n (ví d :

“h c sinh h c”, ta s tách ra đ c hai t “h c sinh” và “sinh h c”)

Nh v y cách này s cho ra nhi u nh p nh ng

Tuy có nhi u cách kh p t nh ng cách kh p t dài nh t đ c xem là cách

quan tr ng và hi u qu nh t trong h ng ti p c n d a trên t đi n vƠ đ c áp d ng

r t nhi u trong tách r t đ ng Cách kh p t này cho ra k t qu v i đ chính xác

khá cao

Trang 14

H ng ti p c n này thì vi c tách t là d a hoàn toàn vào t đi n nên nó v n có

h ng ti p c n khác nh m mang l i k t qu t i u nh t H ng ti p c n nƠy th ng

là k t h p gi a h ng d a trên th ng kê vƠ h ng d a trên t đi n vƠ c ng đư mang

m t s thành công nh t n d ng đ c các m t m nh c a m i h ng ti p c n trên

Tuy r ng h ng ti p c n k t h p nƠy có đ c nh ng u đi m c a các h ng ti p

c n khác nh ng l i g p ph i nh ng v n đ ph c t p khác nh đòi h i nhi u chi phí

và th i gian x lý

Trong ti ng Vi t, ng i ta đư có g ng xây d ng đ c t p ng li u hu n luy n

riêng (kho ng 10MB) d a trên các thông tin trên Internet, sách báo, e-book, … Tuy

nhiên t p ng li u ch đ m b o m t ph n cho vi c tách t

1.2.2.2 H ng ti p c n d a trên âm ti t

Trong ti ng Vi t hay ti ng Jrai thì đ n v c u thành t là hình v , v i riêng

ti ng Vi t còn g i là ti ng hay âm ti t H ng ti p c n nƠy đ n thu n là rút ra m t

s l ng nh t đ nh các âm ti t trong v n b n nh rút trích ra m t âm ti t (uni-gram)

hay nhi u âm ti t (n-gram) M c dù h ng ti p c n này t ng đ i đ n gi n h n so

v i các h ng ti p c n khác, nh ng nó c ng đư mang l i nhi u k t qu kh quan

H ng ti p c n d a trên m t âm ti t: H ng ti p c n nƠy chia v n b n ra

thành nh ng âm ti t đ n l đ th c hi n vi c tách t t đ ng Hi n nay, ng i ta

Trang 15

không s d ng ph ng pháp nƠy nh m t h ng ti p c n chính trong vi c tách t t

đ ng

H ng ti p c n d a trên nhi u âm ti t: h ng ti p c n nƠy chia v n b n ra

thành nhi u chu i, m i chu i g m hai hay nhi u âm ti t So v i h ng ti p c n d a

trên m t âm ti t thì h ng ti p c n này cho ra k t qu t t h n Trong các ngôn ng

phi hình thái t i chơu Á nh ti ng Trung Qu c, ti ng Vi t, … thì t g m nhi u âm

ti t chi m ph n l n trong ngôn ng , cho nên vi c tách t theo h ng ti p c n d a

trên nhi u âm ti t, c th là hai âm ti t s cho k t qu đúng h n lƠ d a vào m t âm

ti t Ví d , ta có cơu ABCDEFGH, thì theo h ng ti p c n trên s đ c chia ra

thành AB CD EF GH Trong h ng ti p c n này có m t bi n th lƠ h ng ti p c n

có cách chia các âm ti t ch ng lên nhau Ví d , cơu ABCDEFGH, h ng ti p c n

này s chia thành AB BC CD DF FG GH

Trong h ng ti p c n d a trên âm ti t thì h ng ti p c n d a trên nhi u âm

ti t có nhi u u đi m n i b t nh tính đ n gi n, d ng d ng, chi phí không cao

Vi c áp d ng h ng ti p c n d a trên nhi u âm ti t thì h ng l a ch n chia v n b n

ra thành t ng chu i, m i chu i là hai âm ti t đ c cho lƠ h ng l a ch n thích h p

nh t

Trong ti ng Vi t h ng ti p c n nƠy c ng có m t s công trình nghiên c u

đ c ph bi n Công trình c a Lê An HƠ n m 2003 [8] đư xây d ng t p ng li u thô

10MB và s d ng ph ng pháp qui ho ch đ ng đ c a đ i hóa xác su t xu t hi n

c a các ng Ti p sau đó, thay vì s d ng b ng li u thô, ng i ta xem Internet

nh m t kho ng li u, sau đó l y thông tin thông kê t Internet và s d ng gi i

Trang 16

1.2.3.1 Ph ng pháp Maximum Matching k t h p v i lu t kh nh p nh ng

Ph ng pháp Maximum Matching, ta s duy t m t câu ho c m t ng t trái

sang ph i và ch n t có trong t đi n sau đó k t h p v i m t s lu t kh nh p

nh ng đ ch n đ c t chính xác, r i c nh th ti p t c cho t k ti p cho đ n h t

câu Ph ng pháp dùng các thu t toán Maximum Matching d ng đ n gi n, d ng

ph c t p và m t s lu t kh nh p nh ng

a Thu t toán Maximum Matching đ n gi n

ây là d ng c b n đ gi i quy t nh p nh ng t , đ c s d ng ch y u trong

vi c gi i quy t nh p nh ng t đ n mô t thu t toán, gi s có chu i các âm ti t

nh sau A1, A2, …, An Ta b t đ u duy t t đ u chu i đ xác đ nh đơu lƠ t u tiên

chúng ta tìm trong t đi n xem A1 có ph i là t m t âm ti t hay không, sau đó ti p

t c tìm trong t đi n xem A1A2 có ph i là t hay không Ti p t c cho đ n khi tìm

đ c t có nhi u âm ti t nh t T h p lý nh t s là chu i dài nh t có trong t đi n

Chúng ta ch n t nƠy, sau đó c ti p t c quy trình này cho nh ng t còn l i cho đ n khi xác đ nh đ c t cu i cùng trong chu i

b Thu t toán Maximum Matching ph c t p

ơy lƠ m t bi n th c a thu t toán Maximum Matching đ n gi n Thu t toán

phát bi u nh sau: Phơn đo n h p lý nh t là b ba t có chi u dài l n nh t [6]

Thu t toán b t đ u nh d ng đ n gi n, t đ u chu i ta xác đ nh đơu lƠ t N u phát

hi n ra phơn đo n t có s nh p nh ng (ví d : A1 là m t t , nh ng A1A2 c ng là

Trang 17

3 A1A2 A3A4 A5A6

B ba có chi u dài dài nh t s là b th ba Nh v y, t đ u tiên là A1A2 s là

t đ c ch n Chúng ta l y t này và ti p t c t âm ti t ti p theo là A3 cho đ n khi xác đ nh đ c t cu i cùng c a câu Thu t toán này áp d ng trong tách t đ t đ c

Lu t 1: Thu t toán Maximum Matching

 Maximum Matching đ n gi n: L y ra t có chi u dài dài nh t

 Maximum Matching ph c t p: L y t đ u tiên t b có chi u dài dài

nh t N u có nhi u h n m t b dài nh t thì áp d ng lu t ti p theo đ

Lu t 2 cho phép l y t đ u tiên c a b có trung bình đ dài t l n nh t

Trong ví d trên, ta s l y t A1A2A3 t b th hai Gi thuy t c a lu t này

ta g p tr ng h p t nhi u âm ti t nhi u h n là t m t âm ti t

Lu t này t ra hi u qu khi thi u m t ho c m t vài v trí trong b Khi b là

b ba thì lu t nƠy không đ c hi u qu l m B i vì b ba t có cùng t ng

Trang 18

đ dƠi d nhiên s có cùng đ dài trung bình Cho nên c n có m t gi i pháp

Lu t 3 cho phép l y b đ u tiên v i đ bi n đ i chi u dài t nh nh t

Trong ví d trên, ta l y t A1A2 t b đ u tiên Gi thuy t c a lu t này là

nh ng chi u dài t đ u b ng nhau N u có h n m t b có cùng đ bi n đ i

nh nh t chi u dài t thì áp d ng lu t ti p theo

Nh v y sau khi qua các lu t thì các nh p nh ng s đ c gi i quy t và ch n

đ c cách tách t t i u

Trang 19

Ph ng pháp Maximum Matching lƠ ph ng pháp đ n gi n, nhanh, d a ch

y u vào t đi n và mang l i đ chính xác khá cao

Ph ng pháp ch y u d a vào t đi n cho nên vi c xây d ng t đi n càng

hoàn ch nh s mang l i đ chính xác càng cao V i ph ng pháp nƠy ta d dàng nơng cao đ chính xác b ng cách c p nh p t đi n

Trang 20

1.2.3.2 Ph ng pháp tách t ti ng Vi t b ng FnTBL

h c d a trên s bi n đ i, gi i quy t m t v n đ nƠo đó b ng cách áp d ng các phép

bi n đ i, t i m i b c, phép bi n đ i nào cho k t qu t t nh t s đ c ch n và đ c

áp d ng l i v i v n đ đư đ t ra [3] Thu t toán k t thúc khi không còn phép bi n

đ i nƠo đ c ch n H th ng FnTBL g m hai t p tin chính

T p tin d li u h c: T p tin d li u h c đ c làm th công, đòi h i đ chính

xác M i m u (template) đ c đ t trên m t dòng riêng bi t

Trang 21

đang B

làm B

ki m B tra I

Các ký t B, I g i lƠ các chunk có Ủ ngh a nh sau:

Ti ng có chunk = B ngh a lƠ ti ng đó b t đ u m t t (begin)

Ti ng có chunk = I ngh a lƠ ti ng đó n m trong m t t (inside)

Xây d ng t p tin ch a các m u lu t: Trong ti ng Vi t, ng i ta xây d ng đ c

3 lu t áp d ng cho tách t trong ti ng Vi t [3] nh sau:

chunk_0 word_0 => chunk chunk_0 word_-1 word_0 => chunk chunk_0 word_0 word_1 => chunk

b Quá trình h c

(1) T t p d li u h c xây d ng t đi n các ti ng

(2) Kh i t o các t

Trang 22

(3) Rút ra t p lu t

b c (1) t t p d li u h c đư có s n, s d ng ph ng pháp th ng kê ta s

có t đi n các ti ng Các ti ng có th xu t hi n trong các t v i các chunk khác

nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng

Ví d : i v i t “h c sinh” thì ti ng “h c” có chunk = B nh ng trong

t “sinh h c” thì ti ng “h c” có chunk=I

b c (2) t t p d li u h c, t o ra t p d li u h c không có chunk b ng cách

xoá h t các chunk t ng ng T p d li u m i này s đ c s d ng đ kh i t o l i

các chunk thông d ng nh t d a vào t đi n

b c (3) so sánh t p d li u h c v i t p d li u đang xét, d a vào các m u

lu t đư cho, ta s rút ra đ c các lu t ng viên, ng v i m i lu t ng viên ta l i áp

d ng vào t p d li u đang xét vƠ tính đi m cho nó (d a vào s l i phát sinh khi so

sánh v i t p d li u h c là t p d li u chu n) Ch n lu t có đi m cao nh t và l n

h n m t ng ng cho tr c đ đ a vƠo danh sách lu t đ c ch n

K t qu ta s đ c m t t p các lu t đ c ch n Các lu t có d ng nh sau:

SCORE: 350 RULE: chunk_0=B word_0=tr => chunk=I

SCORE: 315 RULE: chunk_0=B word_-1=h c word_0=sinh => chunk=I SCORE: 250 RULE: chunk_0=B word_0=tra => chunk=I

SCORE: 220 RULE: chunk_0=B word_0=đ ng => chunk=I

SCORE: 205 RULE: chunk_0=B word_0=nghi p => chunk=I

SCORE: 165 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=I SCORE: 113 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=I

SCORE: 107 RULE: chunk_0=B word_-1=sinh word_0=h c=> chunk=I

Trang 23

dòng 2 ta có lu t: n u t hi n hƠnh lƠ ắsinh” (word_0=sinh) và t tr c đó

lƠ ắh c” (word_-1=h c) và chunk c a t hi n hành là B (chunk_0=B) thì chuy n

chunk c a t hi n hƠnh lƠ I, ngh a lƠ ắh c sinh” ph i là m t t

c Xác đ nh t cho tài li u m i

Tài li u m i đ a vƠo ph i có đ nh d ng gi ng nh t p tin d li u h c, ngh a lƠ

m i ti ng trên m t dòng

D a vào t đi n, gán chunk thông d ng nh t cho các ti ng trong tài li u m i

Áp d ng các lu t có đ c t giai đo n h c vào tài li u đang xét ta s tách đ c

các t hoàn ch nh

d ánh giá

Ph ng pháp FnTBL th i gian h c và t n nhi u không gian nh do nó ph i

sinh ra các lu t trung gian trong quá trình h c Vì đ h c đ c m t b lu t thì

FnTBL ch y m t nhi u th i gian và dùng t i nhi u b nh , nên vi c xây d ng đ c

m t b lu t đ y đ dùng cho phân đo n t là r t khó kh n Vì th khi áp d ng

ph ng pháp nƠy, s có khá nhi u nh p nh ng

Tuy nhiên sau khi có b lu t thì FnTBL l i ti n hƠnh phơn đo n khá nhanh

H n n a, Ủ t ng c a ph ng pháp rút ra các quy lu t t ngôn ng và liên t c ắs a sai” cho lu t thông qua quá trình l p là phù h p v i bài toán x lý ngôn ng t

nhiên

1.2.3.3 Ph ng pháp tách t b ng mô hình WFST và m ng Neural

Mô hình m ng d ch chuy n tr ng thái h u h n có WFST (Weighted finitậstate

Transducer) c a Richard W Sproat đ a ra n m 1996 [2] t ra khá hi u qu trong

tách t ti ng Trung Qu c ụ t ng c b n c a mô hình này là áp d ng WFST k t

h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u Dùng WFST duy t qua câu câu c n tách t và cách duy t nào có tr ng s l n nh t s đ c ch n

Trang 24

Nh ng trên th c th , có nh ng cách duy t có mà tr ng s c a nh ng cách này x p

x ngang nhau, có chênh l nh không đáng k thì các t l tách đúng c ng t ng

đ ng nhau kh c ph c các nh p nh ng này công trình c a inh i n n m 2001

[2], [7] k t h p WFST v i m ng neural Mô hình k t h p này g m các t ng sau:

ti n x lý, WFST, m ng neural T ng ti n x lỦ lƠ đ gi i quy t đ nh d ng v n b n

nh đo n, câu, chu n hóa chính t ti ng Vi t (cách b d u, cách vi t các kí t y,

i,…), sau đó chuy n sang t ng WFST đ tách t và cu i cùng chuy n qua t ng

Trong mô hình WFST, vi c phân đo n t đ c xem nh là m t s chuy n d ch

tr ng thái có xác su t (Stochastic Transduction) Chúng ta miêu t t đi n D là m t

đ th bi n đ i tr ng thái h u h n có tr ng s Gi s :

Trang 25

Nói cách khác, m i t đ c miêu t trong t đi n là m t dãy tu n t các cung:

b t đ u m t tr ng thái ban đ u D, đ c gán nhãn b ng m t ph n t S thu c H và k t

thúc b i m t cung gán nhãn là ph n t t c a x P Nhưn nƠy bi u th m t chi phí

c l ng (estimated cost) Chúng ta bi u di n câu c n tách là m t máy nh n

(acceptor) tr ng thái h u h n không có (FSA ậ Finite State Acceptor) tr ng s I trên

H Gi s t n t i m t hƠm Id mƠ đ u vƠo lƠ FSA A vƠ đ u ra là m t chuy n d ch

(transducer) mà các ph n t trong đó ch bao g m các ph n t thu c A (g i là D*)

M i t k t thúc b i m t cung bi u di n s chuy n đ i gi a vƠ t lo i c a chúng

Xác su t chuy n đ i đ c tính b ng cách l y log c a xác su t trong m t t p m u l n

[2] theo công th c sau:

Trang 26

p(unseen(C)): là xác xu t trong tr ng h p này c a C (tr ng h p mà C đ ng

thêm các xác su t c a C khi C đ ng li u sau m t t lo i nh t đ nh

Xây d ng các kh n ng phân đo n t :

V n đ đơy lƠ lƠm sao gi m đ c s bùng n t h p khi sinh các dãy các t

có th có t m t dãy các âm ti t (hình v ) có trong câu Th t v y, gi s ta có m t câu g m có n âm ti t, mà trong ti ng Vi t thì m t t có t i đa kho ng 4 âm ti t V i

câu có n âm ti t ta s có t i đa lƠ 2n-1cách phơn đo n t khác nhau Trong ti ng Vi t

thì m t câu trung bình có 24 âm ti t thì lúc đó ta ph i gi i quy t kho ng 8.000.000

tr ng h p phơn đo n t có th trong m t câu

đơy, tác gi đ xu t m t ph ng pháp m i là k t h p s d ng t đi n đ h n

ch sinh ra các bùng n t h p này Khi phát hi n th y m t cách phơn đo n t nào

đó không phù h p (không có trong t đi n, không ph i t láy, không ph i danh t

riêng,…) thì tác gi b các nhánh xu t phát t cách phơn đo n t đó i v i

ph ng pháp nƠy tác gi s thu đ c m t danh sách g m ch vƠi tr m tr ng h p phơn đo n t có th , nó gi m thi u r t nhi u so v i kho ng 8.000.000 phân đo n

Trang 27

Sau khi phơn đo n t qua t ng WFST xác đ nh k t qu phơn đo n t trên

có th c s h p l hay không, tác gi đ nh ngh a m t ng ng giá tr t0 [2] v i Ủ ngh a

nh sau:

N u s chênh l ch v tr ng s ( gi a các phơn đo n khác nhau v i phân

đo n có tr ng s nh nh t) l n h n t0 thì đó lƠ k t qu phơn đo n t có

tr ng s nh nh t đó đúng c a cơu vƠ đ c ch p nh n

N u s chênh l ch đó không l n h n t0 thì k t qu phơn đo n có tr ng

s nh nh t đó ch a đ c xem là k t qu phơn đo n đúng c a câu Nh

Trang 28

Th c t trong ti ng Vi t có nh ng dãy t lo i không th nào tu n t đ ng g n

nhau theo ng pháp ti ng Vi t Mô hình m ng neural đ c dùng đ đánh giá s phù

h p c a các nhãn t lo i c a m t câu Xét ví d trên, mô hình m ng neural đ c đ

xu t dùng đ c l ng giá ba dãy t lo i: NVN, NNV, VNN (N: danh t , V: đ ng

t ) V i nhi u nh p nh ng qua t ng m ng neural s ch n phơn đo n t nào có dãy

t lo i phù h p nh t ngh a lƠ phơn đo n có các t đ c tách phù h p nh t

c ánh giá

Mô hình nƠy đ t đ chính xác r t cao, kho ng 97% trong ti ng Vi t, t l này

còn tùy thu c vào t ng lo i v n b n Nh có t ng m ng neural nên mô hình đư kh

đ c các nh p nh ng mà t ng WFST đư cho ra các ng viên nganh nhau

mô hình đ t k t qu chính xác c n ph i xây d ng t đi n m t cách công

phu, phong phú v m c t

1.2.3.4 Ph ng pháp tách tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t di truy n – IGATEC

Ph ng pháp tách t ti ng Vi t d a trên th ng kê t Internet và thu t gi i di

truy n ậ IGATEC (Internet and Genetics Algorithm based Text Categorization for

Trang 29

Documents in Vietnamese) do H Nguy n đ xu t n m 2005 nh m t h ng ti p

c n m i trong tách t v i m c đích phơn lo i v n b n mà không c n dùng đ n m t

t đi n hay t p ng li u h c nào Trong h ng ti p c n này, tác gi k t h p gi a

thu t toán di truy n GA (Genetics Algorithm) v i các d li u th ng kê đ c l y t

Internet [5], [9]

a Th ng kê d a vào Internet

Thành ph n Th ng kê trên Internet có tác d ng l y thông tin v t n s xu t

hi n c a các đ n v t v ng trong v n b n b ng cách s d ng m t trong các máy

tìm ki m ( search engine ) n i ti ng nh Google, Yahoo, Bing ch ng h n Thông

qua các b máy tìm ki m này ta có th l y đ c thông tin h u ích t Internet ó lƠ

t n s tài li u ( document frequency – df ), s l ng các tài li u đư có ch a đ n v t

v ng mƠ ta xét đ n Sau đó ta chu n hóa giá tr df b ng cách chia cho m t h ng s

MAX ( là s l ng các tài li u ti ng Vi t ) đ tính xác su t xu t hi n c a m t t trên

Internet

Tính xác su t các t xu t hi n trên Internet [5] :

MAX

wdfw

Trên th c t , chúng ta khó có th bi t đ c chính xác s l ng các tài li u

ti ng Vi t trên Internet, do đó, thông qua th c nghi m v i các máy tìm ki m giá tr

df c a các t thông d ng, giá tr MAX đ c ch n là 109 [5], [9]

Do t trong ti ng Vi t g m m t s ti ng liên ti p nhau, ta c n đo đ th ng kê

m c đ liên k t gi a các ti ng MI ( Mutual information ) là m t khái ni m quan

tr ng trong lý thuy t thông tin, đ c dùng trong x lý ngôn ng t nhiên [5] đ th

hi n quan h gi a hai t c th x và y

)()(

)

;(log)

;(

ypxp

yxpy

xMI

Trang 30

Tuy nhiên, v i ti ng Vi t thì ng i ta không ch xét tính ph thu c c a các c p

ti ng mà còn xét n ti ng do c ng có nhi u t 3 hay 4 ti ng, cho nên công th c tính

MI cho n ti ng [5], [9] là:

)()()(

)()

(

cwprwplwp

cwpcw

rw có khuynh h ng cùng xu t hi n chung trong tài li u trên Internet (t c là cw có

kh n ng cao lƠ t ghép) V i ti ng Vi t thì r t nhi u t 4 ti ng đ c ghép t t có

hai ti ng (Ví d : “khoa h c máy tính” là ghép t “khoa h c” và “máy tính”) cho

nên đ phù h p v i ti ng Vi t thì ng i ta đ xu t lw và rw là hai chu i con c a cw

v i đ dài là n/2

b Gi i thu t di truy n

Gi i thu t di truy n dùng đ xác đ nh MI t i u toƠn c c, t c là cách tách t

h p lý nh t M i cá th trong quan th đ c bi u di n b i chu i các bit 0,1, trong

đó, m i bit đ i di n cho m t ti ng trong v n b n, m i nhóm bit cùng lo i đ i di n

cho cho m t t Các cá th trong qu n th đ c kh i t o ng u nhiên, trong đó m i

t đ c gi i h n trong kho ng 4 Gi i thu t di truy n sau đó th c hi n các b c đ t

bi n và lai ghép nh m m c đích làm c i thi n đ thích nghi c a cá th trong qu n

th đ đ t đ c cách tách t t t nh t có th [5], [9]

c ánh giá

V i Ph ng pháp tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t

di truy n, chúng ta không c n b t c t p ng li u hu n luy n hay t đi n nào

Nh ng so v i các ph ng pháp khác thì đ chính xác th p h n r t nhi u, th i gian

đ u ch y có th lâu do còn ph thu c vào t c đ đ ng truy n Internet

Ph ng pháp nƠy t ra phù h p v i vi c tách t đ tìm ki m thông tin trên

Trang 31

Internet, còn đ i v i tách t cho m c đích d ch t đ ng thì ch a phù h p do đ

chính xác không cao

1.3 K TăLU N

Nhìn m t cách t ng quát, trong các ph ng pháp tách t t đ ng thì các

ph ng pháp d a trên h ng ti p c n t v ng cho đ chính xác khá cao (trên 95%)

nh vào t p ng li u l n, đ c đánh d u chính xác, tuy nhiên hi u su t c a các

ph ng pháp nƠy ph thu c hoàn toàn vào t đi n, ng li u hu n luy n

V i các ph ng pháp c n ph i s d ng t đi n ho c t p hu n luy n, ngoài vi c

tách t th t chính xác, ta còn nh vƠo các thông tin đánh d u trong t p ng li u đ

th c hi n các m c đính khác nhau Do v y, m c dù th i gian hu n luy n khác lâu, cƠi đ t ph c t p, chi phí t o t p ng li u hu n luy n r t t n kém, nh ng k t qu

h ng ti p c n d a trên t mang l i đ chính xác khá cao

H ng ti p c n d a trên ký t có u đi m là d th c hi n, th i gian th c thi

t ng đ i nhanh, tuy nhiên l i có đ chính xác không cao b ng ph ng pháp d a

trên t H ng ti p c n này thích h p cho m c đích nghiên c u không c n đ n đ

chính xác tuy t đ i c ng nh các thông tin v t lo i nh phơn lo i v n b n

Nhìn chung, h ng ti p c n d a trên t có nhi u u đi m đáng k vƠ đem l i

k t qu kh quan đ ti p t c nghiên c u nơng cao đ chính xác c a công đo n tách

t

Trang 32

CH NGă2ă- TỄCHăT T ă NG TRONGăTI NGăJRAI

V i các c s lý thuy t v các ph ng pháp tách t t đ ng đ c trình bày

ch ng tr c đư cho chúng ta cái nhìn t ng quan v tách t t đ ng Trong ch ng nƠy, chúng tôi trình bƠy s l c v dân t c Jrai, ngu n g c và s phát tri n c a

ngôn ng Jrai Phân tích nh ng đ c đi m c a ngôn ng này đư cho th y r ng ranh

gi i c a các t trong ch vi t Jrai không ch là kho ng tr ng, cho nên ph i l a ch n

ph ng pháp phù h p đ tách t t đ ng trong ti ng Jrai

2.1 GI IăTHI UăV ăDÂNăT CăJRAI

2.1.1 V ăng iăJrai

Ng i Jrai là m t trong nh ng c dơn sinh s ng lơu đ i nh t trên m nh đ t

Tây Nguyên V ngu n g c t c ng i Jrai, các nhà khoa h c x p ng i Jrai vào

nhóm Malayo Polynésien ậ Mư Lai a o Cùng v i nhóm ng i này Vi t Nam

còn có các t c ng i nh Êđê, Ch m, Chru, Raglai NgoƠi tên g i Jrai ra thì t c

ng i này còn có các tên g i khác n a lƠ Gia Rai, Jarai, Djarai, Gi Rai, Ch

Rai, T Bu n, H bau và Hdrung, tuy r ng có nhi u tên g i khác nhau nh v y

nh ng đ có s th ng nh t trong công tác qu n lỦ thì tên Jrai đ c s d ng chính

d ng trong giao ti p là ti ng Jrai thu c h ngôn ng Nam o và ti ng Vi t nh lƠ

ngôn ng chính th c th hai V y nên, trong giao ti p hi n nay h ch y u s d ng hai ngôn ng

Ng i Jrai s ng theo t ng làng ( plei, pl i, ôn, uôn ) M i làng có kho ng t

Trang 33

Nguyên Ð a bàn c trú c a ng i Jrai trãi dài t Nam t nh Kon Tum đ n B c t nh

Ð k L k ( theo chi u Nam - B c) và t Tây B c tnh Phú Yên đ n mi n biên gi i

ti p giáp v i Campuchia ( theo chi u Ðông - Tây ) Trong s các khu v c sinh s ng này thì tnh Gia Lai là đ a bàn mà ng i Jrai sinh s ng t p trung nh t

Ng i Jrai sinh s ng vƠ c trú t i t nh Gia Lai chi m đ n 90% t ng s ng i

Jrai, m t b ph n sinh s ng t nh Kon Tum chi m 5%, phía b c t nh k L k chi m 4% và s ít còn l i sinh s ng r i rác m t vài t nh thành khác

Theo t ng đi u tra dân s và nhà n m 2009 c a c c th ng kê, ng i Jrai

Vi t Nam có dân s 411.275 ng i, c trú t i 47 trên t ng s 64 t nh, thành ph

Ng i Jrai c trú t p trung t i t nh Gia Lai là 372.302 ng i, chi m 29,2 % dân s

toàn t nh và 90 % t ng s ng i Jrai t i Vi t Nam, ngoài ra còn có Kon Tum là 20.606 ng i, k L k là 16.129 ng i

Do đ c đi m c trú trên nhi u t nh thành trong c n c và b n s c v n hóa mang tính đ a ph ng, ng i Jrai đ c phân thành n m nhóm c ng đ ng

Nhóm ng i Jrai Chor: Nhóm Jrai Chor hay còn g i làm Jrai phun (Jrai

g c ) Nhóm Jrai nƠy c trú Th xã Ayun Pa, huy n Ia Pa, huy n Phú

Thi n và m t s ng i Jrai sinh s ng phía Nam huy n Ch Se, t nh

Gia Lai Ðây là nhóm Jrai gi đ c nh ng s c thái ngôn ng vƠ nét v n

hóa c a th i xa x a rõ nét nh t, ch a b lai t p, ch a b phân hóa nhi u

Nhóm Jrai này g n g i v i ngôn ng c a t c ng i Êđê vƠ nhóm Jrai

M thur

Nhóm ng i Jrai M thur: C trú huy n Krông Pa, m t ph n huy n

Hinh, t nh Phú Yên, nhóm này còn m t s nhánh nh nh Hruai,

K preh,…

Nhóm ng i Jrai H drung: C trú thành ph Pleiku, xung quanh

thành ph Pleiku Nhóm này còn có nhóm nh n a g i lƠ H bơo, s ng

Trang 34

xã Hà B u, thành ph Pleiku

Nhóm ng i Jrai T buan: Ð a bàn c trú c a nhóm T buan ch y u là

Grai, thu c t nh Gia Lai

Nhóm ng i Jrai Arap: Arap là tên m t con voi có b n ngòi trong truy n thuy t c a ng i Jrai Nhóm Arap s ng huy n Sa Th y, t nh Kon Tom và huy n Ch Pah thu c t nh Gia Lai

2.1.2 S ăkhácănhauăgi aăcácănhómăph ngăng ăJrai

Tuy vi c phân chia trên lí thuy t m t cách r ch ròi nh đư trình nƠy trên,

nh ng c n c vƠo nhóm ph ng ng vƠ đ i s ng th c t dân t c Jrai ch có hai

nhóm chính [4]: Jrai Chor vƠ Jrai M thur g p l i thành m t nhóm ( Jrai nhóm 1 hay

CM ); Jrai H drung, Jrai T buan, Jrai Arap g p l i thành m t nhóm ( Jrai nhóm 2

hay HTA)

Khác nhau v ti n âm ti t: Jrai nhóm 1 th ng gi l i đ y đ các ti n âm ti t

(ti n t ) ợ ng nhiên, Jrai nhóm 2 c ng có m t s t ng mang ti n âm ti t,

nh ng không nhi u b ng so v i Jrai nhóm 1 Ðây là tiêu chí d nh n ra nh t khi

mu n phân bi t đơu lƠ Jrai nhóm 1 vƠ đơu lƠ Jrai nhóm 2

Ví d : k bao (trâu), t g i ( r ng), m nuih (ng i), … trong khi Jrai nhóm 2 th ng nói t t, m t đi ti n âm ti t

Ví d : bao (trâu), g i (r ng), muih (ng i),…

Khác nhau hoàn toàn v t ng : Jrai nhóm 1 nói chuy n v i Jrai nhóm 2

có khi h không hi u nhau, do khác nhau v cách g i tên m t s v t, m t hi n

t ng nƠo đó

Ví d :

Trang 35

Nhóm 1 Nhóm 2 Ngh a ti ng Vi t

Ti ng Jrai có các ph ng ng trên Ph ng ng nhóm 1 trong vùng Ayun Pa

đ c s d ng ph bi n h n c Trên th c t toàn vùng Jrai, đơu, ng i Jrai c ng

có th s d ng đ c ph ng ng nhóm 1 Cho nên ph ng ng nhóm 1 đ c dùng lƠm c s [1], [4] cho các tài li u gi ng d y, h c t p ti ng Jrai

2.2 NGỌNăNG ăJRAI

2.2.1 L chăs ăhìnhăthƠnhăch ăvi t

Ti ng Jrai là m t ngôn ng thu c ng t c Mã Lai - Polynesia c a nhóm ng

h Nam o Ng i Jrai sinh s ng ch y u t i khu v c Tây Nguyên cho nên ít

nhi u c ng đư ch u nh h ng c a nhóm ngôn ng Môn - Khmer Ch vi t Jrai ngƠy nay ng i ta s d ng b t đ u đ c hình thành t cu i th k 19, cho nên ch u

nh h ng l n c a ngôn ng ph ng Tơy vì v y mà h th ng ch vi t Jrai đ c xây

d ng d a trên b ng ch cái Latinh

Kh i đ u t b ch vi t Bahnar do giáo s Pháp Dourisboure xơy d ng n m

1861 d a theo m u t La tinh Quy n t đi n th i danh ắVocabularium apud barbaros Bahnars” n m 1870, dƠy 268 trang, c sách 20×26 cm g m 3 th ti ng:

Bahnar-Vi t-Pháp, và t đi n ắDictionnaire bahnar-francais” in t i H ng Kông n m

1889 c ng đư đ nh hình m u t và m t s phiên âm ti ng Bahnar ra ch vi t

Ti p sau đó lƠ b ch vi t Jrai T p tài li u đ u tiên b ng ti ng Jrai đ c linh

m c Nicolas so n th o t i Habâu - Tiên S n vƠo n m 1915 n n m 1922, b ch

vi t Jrai đư đ c công b vƠ đ c s d ng r ng rãi trong c ng đ ng ng i Jrai Tuy

Ngày đăng: 10/04/2016, 20:00

HÌNH ẢNH LIÊN QUAN

Hình 1.1:  V  trí c a tách t  trong h  d ch t   đ ng - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 1.1 V trí c a tách t trong h d ch t đ ng (Trang 11)
Hình 1.2:   Ph ng pháp Maximum Matching và các lu t kh  nh p nh ng - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 1.2 Ph ng pháp Maximum Matching và các lu t kh nh p nh ng (Trang 19)
Hình 1.3:  Mô hình WFST và m ng Neural - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 1.3 Mô hình WFST và m ng Neural (Trang 24)
Hình 2.1:  Ph n m m Taynguyenkey - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 2.1 Ph n m m Taynguyenkey (Trang 41)
Hình 2.2:  B  gõ ti ng dân t c Vi t Vnkey - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 2.2 B gõ ti ng dân t c Vi t Vnkey (Trang 42)
Hình 3.1:  Microsoft Visual Studio 2010 - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 3.1 Microsoft Visual Studio 2010 (Trang 53)
Hình 3.2:  Giao di n tách t  và ch nh s a - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 3.2 Giao di n tách t và ch nh s a (Trang 65)
Hình 3.3:  Ch nh s a l i câu sau khi tách t   đ ng - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 3.3 Ch nh s a l i câu sau khi tách t đ ng (Trang 66)
Hình 3.4:  ánh giá - Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI
Hình 3.4 ánh giá (Trang 67)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w