Phương pháp thêm dấu tiếng việt vào văn bàn tiếng việt không dấu
Trang 1TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C
Trang 2TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C
Trang 3i c m n
i u tiên, em xin chân thành c m n cô Ph m Ph m Tuy t Trinh, cô ã tr c
ti p h ng d n và t o u ki n cho em nghiên c u và hoàn thành lu n v n này
Em c ng xin chân thành c m n th y inh n, th y ã h tr , giúp em r tnhi u trong quá trình th c hi n Và em c ng xin c m n t t c các th y cô trong khoaCông ngh thông tin ã t n tình ch b o và giúp em trong su t quá trình h c t ptrong tr ng
Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ình
ã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trình
th c hi n lu n v n
Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b nSinh, b n Kh ng …, nh ng ng i ã h tr và giúp tôi hoàn thi n lu n v n này
c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phép
nh ng ch c ch n s không tránh kh i nh ng thi u sót Em kính mong nh n c s
m thông và t n tình ch b o c a quý Th y Cô và các b n
TP H Chí Minh, tháng 7 n m 2005
Phan Qu c Lân – 0112267
Trang 4NH N XÉT C A GIÁO VIÊN H NG D N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005
Giáo viên h ng d n
Th.S Ph m Ph m Tuy t Trinh
Trang 5NH N XÉT C A GIÁO VIÊN PH N BI N
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005
Giáo viên ph n bi n
Trang 6Vi t vào v n b n không d u là vi c r t c n thi t và thú v
tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m t
ng m i, do ó, ch ng trình không chú tr ng chuyên sâu vào l nh v c nào Vi cthêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c utrúc c a mô hình mà ch ng trình áp d ng
Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :
§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b nkhông d u, và các công trình ã có liên quan n tài
§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng
§ Ch ng 3 nh n xét các mô hình ã có tr c ây, và a ra mô hình cài tchính
§ Ch ng 4 c th hóa mô hình cài t
§ Ch ng 5 t ng k t và ra h ng phát tri n
Trang 7C L C
Ch ng 1 NG QUAN 9
1.1 Gi i thi u v bài toán Thêm d u ti ng Vi t vào v n b n không d u 10
1.1.1 Phát bi u bài toán 10
1.1.2 c m 10
1.1.3 ng gi i quy t 11
1.2 Gi i thi u các công trình ã có 11
1.2.1 AMPad 11
1.2.2 VietPad 12
1.2.3 www.EasyVn.com 13
1.2.4 VnMark 14
Ch ng 2 S LÝ THUY T TIN H C 15
2.1 Lý thuy t v ngôn ng h c 16
2.1.1 Âm ti t (còn g i là “ti ng”) 16
2.1.1.1 nh ngh a và c m âm ti t ti ng Vi t 16
2.1.1.2 Thanh là thành ph n c a âm ti t ti ng Vi t 16
2.1.1.3 T i sao l i ph i dùng d u thanh ? 17
2.1.2 .18
2.1.2.1 Các quan ni m v t 18
2.1.2.2 Tiêu chí nh n di n “t ” ti ng Vi t 18
2.1.2.2.1 Các tiêu chu n v hình th c 19
2.1.2.2.2 Các tiêu chu n v n i dung 19
2.2 Tách t 20
2.2.1 Kh p t i a (LRMM – Left Right Max Matching) 21
2.2.2 Mô hình m ng WFST và m ng n -ron 22
2.3 Tách câu 22
2.3.1 Tách câu b ng Heristics .23
2.3.1.1 X lý d u ch m .23
2.3.1.2 X lý d u ch m trong ngo c .24
Ch ng 3.MÔ HÌNH CÀI T 25
3.1 Các mô hình thêm d u ã c s d ng 26
3.1.1 VietPad 26
3.1.1.1 Mô hình thêm d u ti ng Vi t 26
3.1.1.1.1 Ti n x lý 26
3.1.1.1.2 Tách token 27
3.1.1.1.3 L y ra các t không d u, chuy n thành t có d u 27
3.1.2 VnMark 28
Trang 83.1.2.1 Mô hình thêm d u ti ng Vi t 28
3.1.2.1.1 Ti n x lý 30
3.1.2.1.2 Tách câu 30
3.1.2.1.3 Tìm các kh n ng ánh d u c a t , câu 30
3.1.2.2 Mô hình hu n luy n 31
3.2 Mô hình xu t 32
3.2.1 Mô hình 32
3.2.1.1 Tách câu 33
3.2.1.2 Tách t b ng ph ng pháp LRMM 34
3.2.1.3 Ch n t thích h p 34
3.2.2 Mô hình hu n luy n 36
3.2.2.1 Th ng kê t n su t xu t hi n c a t 36
3.2.2.1.1 Xây d ng kho ng li u 36
3.2.2.1.2 Th ng kê t n su t xu t hi n c a t 37
3.2.2.1.3 T o t n chuy n i 38
3.2.2.2 Trích xu t các c m t th ng s d ng 39
3.2.3 So sánh mô hình này v i 2 mô hình trên 41
Ch ng 4.CÀI T TH NGHI M 43
4.1 Th ng kê t n s xu t hi n c a t 44
4.1.1 Xây d ng kho ng li u text t báo n t 44
4.1.2 Tách câu 48
4.1.3 Tách t và th ng kê 50
4.2 o t p tin t n chính 52
4.3 o t p tin t n c m t 55
4.3.1 o kho d li u tinh gi n m i 55
4.3.2 o t p tin t n c m t 58
4.4 Ch ng trình chính 58
4.4.1 Ch ng trình VietEditor 59
4.4.2 Ch ng trình thêm d u qua Clipboard 60
4.5 Th nghi m 62
Ch ng 5 T QU , H NG PHÁT TRI N 63
5.1 n ch và h ng phát tri n 64
5.2 t lu n 64
Ph l c : C u trúc kho ng li u 67
Trang 9DANH M C HÌNH
Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad 12
Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad 12
Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad 13
Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn 14
Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn 14
Hình 1.2.4-6 : S k t c u âm ti ng Vi t 17
Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad 26
Hình 3.1.2-8 : L u th c hi n c a mô hình n-gram 29
Hình 3.2-9: L u th c hi n c a mô hình xu t 33
Hình 3.2-10 : T p tin m u sau khi th ng kê t n su t t 38
Hình 3.2-11 : Trích t p tin TuDienChinh.txt 39
Hình 3.2-12 : Trích t p tin CumTu.txt 41
Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT 44
Hình 4.1.1-14: C u hình c a ch ng trình HTML2TXT 45
Hình 4.1.1-15 : M t trang báo thanh niên 47
Hình 4.1.1-16 : li u c tách t trang báo Thanh niên 48
Hình 4.1.2-17: Giao di n ch ng trình Tách Câu 49
Hình 4.1.2-18: T vi t t t cung c p cho ch ng trình Tách Câu 49
Hình 4.1.2-19: N i dung file k t xu t c a ch ng trình Tách Câu 50
Hình 4.1.3-20: Giao di n module tách t 51
Hình4.1.3-21: N i dung t p tin th m c ngu n 51
Hình 4.1.3-22: N i dung t p tin t n 52
Hình 4.1.3-23: N i dung t p tin k t qu 52
Hình 4.1.3-24: Giao di n ch ng trình t o t n chính 53
Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt 54
Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt 54
Hình 4.1.3-27: Trích 1 ph n KhoCau.txt 55
Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n 56
Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t 57
Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t 57
Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t 58
Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor 59
Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard 60
Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard 61
Hình 5.2-35 : T p tin kho ng li u m u 69
Trang 10Ch ng 1. NG QUAN
Trang 11Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
1.1 Gi i thi u v bài toán Thêm d u ti ng Vi t vào
n b n không d u
1.1.1 Phát bi u bài toán
Bài toán có th c phát bi u nh sau : Cho m t v n b n ti ng Vi t không
u Chuy n v n b n không d u này thành có d u v i chính xác cao
Ch s d ng t n t và kho ng li u thô làm u vào
u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8] Khi
lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v inhau, tr nên khó kh n và d gây hi u l m
thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t Bài toán xác
nh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khikhông có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ngChâu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n
n i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các t
c phân cách b i kho ng tr ng u này l i không úng v i ti ng Vi t.Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b ikho ng tr ng, ch không ph i t
Trang 12Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t có
u nào có d ng th hi n không d u nh v y Vi c xác nh này c ng gây nhi ukhó kh n, khi 1 t không d u có th có nhi u t có d u t ng ng v i nó
Ví d 1-1 : T không d u “toi” có 3 t có d u t ng ng là “tôi”, “t i” và
“t i”
Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, ta
n ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d u
ó ây chính là 2 bài toán c n gi i quy t chính c a mô hình
1.1.3 ng gi i quy t
i v i tách t có d u, có nhi u mô hình c s d ng và t k t qu cao
nh MM (Maximum Matching : forward / backward hay còn g i là LRMM:Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h n
có tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén(compression) [1] … H ng gi i quy t c xu t là s d ng ph ng pháptách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2
n c a bài toán này Ph ng pháp ch m i c áp d ng cho mô hình thêm
u offine, nh ng có th c cài t gán d u online
1.2 Gi i thi u các công trình ã có
AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)
a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này
Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi u nàycho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t là
có nhu c u, và nhu c u này s ngày càng t ng cao Ch ng trình AMPad có
Trang 13Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
m hay là vi c áp d ng mô hình x lý thêm d u ch online, t o s tr cquan, thân thi n cho ng i s d ng
Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad
1.2.2 VietPad
Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri n
i Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net Ngoài
ch c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad còn
là 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m
Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad
Trang 14Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad
Trang 15Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn
Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn
1.2.4 VnMark
VnMark [2] c tác gi Nguy n V n Toàn phát tri n Do tác gi ã làm
th t l c ch ng trình, do ó, không có hình nh minh ho ch ng trình
Trang 16Ch ng 2 S LÝ THUY T
TIN H C
Trang 17Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
2.1 Lý thuy t v ngôn ng h c
2.1.1 Âm ti t (còn g i là “ti ng”)2.1.1.1 nh ngh a và c m âm ti t ti ng Vi t
“Ti ng” là “ n v c b n” trong ti ng Vi t [1] M t “ti ng” trong ti ng
Vi t c nói lên là m t n v ng âm, và c ng là m t n v ng pháp
t “ti ng” là m t n v phát ngôn, và là m t n v c a l i nói t o ra
nh ng k t c u l i nói trong ho t ng nói n ng giao ti p c tính này c a
ti ng chính là m t tính cách lo i hình c a ti ng Vi t, trong ó m i n vphát âm trùng khít v i n v ng pháp (hình v , và t ) Khi xét trên bình
di n ng âm, ti ng là m t n v c a ng âm, t c là m t âm ti t [9]
Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiên
i v i m i ng i mà không c n m t trình ngôn ng gì cao, vì : trong l inói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m t
ti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ngkho ng tr ng hay các d u ng t) n v “ti ng” i v i ng i Vi t là m t
n v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng s
ng nó tr c khi hi u và s d ng khái ni m “t ”
Ví d 2-1:
Câu “Cái bàn này hình bán nguy t” có 6 ti ng
2.1.1.2 Thanh là thành ph n c a âm ti t ti ng Vi t
Khi phát âm ti ng Vi t, chúng ta phát âm t ng n v l i nói c t r i nhau,
i là âm ti t Khi phát âm ch m m t âm ti t, có th nh n th y khá rõ là m i
âm ti t u có th k t h p nhi u nh t là ba n v phát âm : âm u + âm chính + âm cu i Ba thành ph n trên g m nh ng âm v xu t hi n t ng itheo th t tr c sau, nên g i là nh ng âm v tuy n tính
Trang 18Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh u.
Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh Thanh này xu t
hi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m tthành ph n b t kh phân c a âm ti t Thanh là thành ph n âm v phi tuy ntính c a m t âm ti t ti ng Vi t Thanh là m t s c thái c a âm thanh các âm
ti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c achu i l i nói Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,
th ng ch vi t kh i vuông nh ch Hán và ch Nôm c ng không có kí hi u
ch thanh Nh ng tr ng h p ch qu c ng có khác Khi dùng b ng ch cáiLatin, các v con ch ch a phân bi t ý ngh a m t t c vi t ra, vì
có n sáu thanh ph i phân bi t Ðã ành thanh ch là y u t ng âm khôngthu c v thành ph n âm v tuy n tính, nh ng thanh ti ng Vi t không h n ch
là m t y u t ngôn u mang tính cách hoa m cho âm ti t, mà là m t thành
ph n không th thi u c khi phát âm m t âm ti t Nói cách khác, âm ti t
ti ng Vi t ch a hoàn ch nh khi ch a c nh thanh Có l các nhà sáng ch
ra ch vi t theo b ng ch cái Latin mà ta th ng g i quen là "ch qu c ng "
Trang 19Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, chonên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng Và
ây c ng là c m n i b t c a ti ng Vi t
2.1.2.
2.1.2.1 Các quan ni m v t
Có 1 s nh ngh a n hình v t nh sau [1] :
- Theo L.Bloomfield, thì t là t hình thái t do nh nh
- Theo Solncev thì là n v ngôn ng có tính hai m t: âm và ngh a.
có kh n ng c l p v cú pháp khi s d ng trong l
- Theo B.Golovin, thì t là n v nh nh t có ngh a c a ngôn ng , c
n d ng c l p, tái hi n t do trong l i nói xây d ng nên câu ây
ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng
Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ng
Trang 20Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
ti ng Vi t [3] Các tiêu chu n này chung qui ta có th phân thành : các tiêuchu n v hình th c và các tiêu chu n v n i dung
2.1.2.2.1 Các tiêu chu n v hình th c
Tính c nh : tính v ng ch c v c u t o, không th chêm – xen cTính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a vàkhông c l p) Tính c l p còn c g i là kh n ng k t h p (t do – h n
ch )
Tính t lo i và quan h cú pháp : trong ng /câu, t m nh n nh ng
ch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,còn hình v thì không có tính ch t t lo i Quan h gi a các t là quan h cúpháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp
2.1.2.2.2 Các tiêu chu n v n i dung
Ch c n ng nh danh : ch c n ng này c dùng xác nh t cách c a (t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”
Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái
ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m
Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì
y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp
Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, c a s các nhà
Vi t ng h c ch p nh n trong vi c xác nh t cách c a t Tiêu chu n nàyliên quan n tính thành ng và tính võ oán
Trang 21Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
2.2 Tách t
Bài toán tách t cho ngôn ng n l p ã c t ra t lâu, ch y u gi i quy tcho ti ng Trung Qu c, ti ng Nh t Các thu t toán tách t có th c phân lo i nhsau:
v a theo lu t Bao g m các cách sau:
- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; SampanRarurom, 1991)
- Mô hình kh p t i a Mô hình này c chia thành “Kh p t i a ti n và kh p t i
a lùi” i v i ph ng pháp này thì m t t n hoàn ch nh là không th thi u
t t n không hoàn ch nh s gi m hi u su t c a thu t toán Tuy nhiên, d
th y là khó có th có m t t n hoàn ch nh ( c bi t khi các ngôn ng v n còn
c ti p t c phát tri n h ng ngày trong th i i ngày nay) Mô hình này tuthu c nhi u vào t n
v Dùng th ng kê:
Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p
Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp
ng th ng kê Ng c nh càng r ng thì thu t toán càng ph c t p
Cho dù r ng ng c nh th nào, luôn có th áp d ng mô hình first-order HMM.Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n K t qu hu nluy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ngpháp, làm gi m vai trò c a xác su t
v Cách khác:
u h t các gi i pháp khác là s lai t o gi a các mô hình trên và các mô hìnhngôn ng h c nh WFST, TBL Th i gian x lý các gi i pháp này tr nên áng k ,
nh ng chính xác t c khá cao
Trang 22Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Tri th c v ngôn ng , th ng áp d ng cho các mô hình d a trên lu t, hi m khi
c áp d ng cho nh ng mô hình trên
i ây là mô t 2 ph ng pháp tách t th ng s d ng :
2.2.1 Kh p t i a (LRMM – Left Right Max Matching)
Thu t toán so kh p t i a ho t ng nh tên c a chính nó Thu t toán gi i quy tbài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t) Thu t toán c áp
ng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG Thu t toán này cónhi u bi n th khác nhau
Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n Gi s có
t chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C1, C2,…C3 Ta b t u t u chu i u tiên, ki m tra xem C1có ph i là t không,sau ó ki m tra xem C1C2có ph i là t hay không Ti p t c làm cho n khi tìm
c t dài nh t T có v h p lý nh t là t dài nh t Ch n t ó, sau ó tìm ti p
nh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u
Ø ng ph c t p Quy t c c a d ng này là phân n có v h p lý nh t là n 3
v i chi u dài t i a Thu t toán b t u nh d ng n gi n N u phát hi n ra
nh ng cách tách t gây nh p nh ng (ví d C1là t và C1C2 ng là t ), ta xemcác ch k ti p tìm t t c các n ba t có th có b t u v i C1ho c C1C2.
Ví d 2-2 : ta c nh ng n sau:
- C1 C2 C3C4.
- C1C2 C3C4 C5
- C1C2 C3C4 C5C6
Chu i dài nh t s là chu i th ba V y t u tiên c a chu i th ba (C1C2) s
c ch n Th c hi n l i các b c cho n khi c chu i t hoàn ch nh Cách này t
c chính xác 99.69%
Mô hình s d ng ph ng pháp tách t LRMM d ng n gi n Mô hình này v a
n gi n, nh ng mang l i chính xác cao
Trang 23Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
2.2.2 Mô hình m ng WFST và m ng n -ron
WFST ã c áp d ng tách t ti ng Trung Qu c Ý t ng c b n là áp d ngWFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u DùngWFST duy t qua câu c n xét Cách duy t có tr ng s l n nh t s là cách tách t
c ch n Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron
kh nh p nh ng
Mô hình tách t trong VnMark s d ng chính là mô hình WFST này (Xem chi ti t
n trong [1] trang 99-104, hay trong [5])
2.3 Tách câu
Trong m t v n b n ti ng Anh hay b ng b t k m t ngôn ng thông d ng nàokhác, thông th ng thì ta ch dùng d u ch m (.), ch m than (!), ch m h i(?) và m t s
u khác n a nh n bi t k t thúc câu (Ta g i nh ng d u này là nh ng d u báo hi u
t thúc câu hay d u ch m câu) Tuy nhiên, do tính nh p nh ng c a d u báo hi u k tthúc câu (ch ng h n nh d u k t thúc câu trong t vi t t t,…) nên vi c xác nh ranh
gi i câu không n gi n nh chúng ta ngh Ví d nh d u ch m, nó có th bi u th nh
t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi t
t n m cu i câu M t d u ch m h i hay d u ch m than có th xu t hi n trong d ungo c n, ngo c kép hay c ng nh cu i câu S m p m c a các d u câu này c
th hi n qua các ví d sau:
Ví d 2-3:
1 The group included Dr J.M Freeman and T Boone Pickens Jr.
2 “This issue crosses party lines and crosses philosophical lines!” said Rep John Rowland (R., Conn.).
3 It was due Friday 5 p.m Saturday would be too late.
4 She has an appointment at 5 p.m Saturday to get her car fixed.
Trang 24Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho ta
nh ng thông tin quan tr ng v vai trò c a d u trong câu Tuy nhiên, b ph n tách câu
n ph i có nhi u thông tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n
m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khi
ch vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4 nh n di n d u ch mcâu, ng i ta có th dùng các heuristics ho c các mô hình h c ph c t p h n, nh :
ng neural, TBL, Maximum Entropy
có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ngriêng trong cách trình bày c a t ng tr ng h p
1 u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u
nh n bi t k t thúc câu s là : “luôn luôn có ít nh t m t kho ng tr ng sau d u
ch m và ký t ti p theo s là ch cái s c vi t hoa”
2 Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr c
và ph n li n sau d u ch m phát hi n s có d u ch m th p phân
Trang 25Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
3 nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danhsách các t vi t t t tra c u khi c n
4 Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n cótính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký tnào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi tc
Nh ng qui lu t trên ây là nh ng qui lu t chung nh t trong cách trình bày v n b n
ti ng Anh i v i v n b n ti ng Vi t, các tr ng h p c ng g n nh th Do d a ch
u vào cách trình bày v n b n nên có m y u là d nh m l n khi v n b n a vào cócách trình bày khác chu n và do không hi u ngh a câu nên không th phân bi t m t s
tr ng h p m h nh trong ví d sau:
1 It was due Friday 5p.m Saturday would be too late.
2 She has an appointment at 5 p.m Saturday to get her car fixed.
xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch m
t câu hay không c ng là m t vi c không n gi n i v i máy Th m chí i v i
ng i mà trình ti ng Anh ch a v ng Trong c hai tr ng h p, t ngay tr c ho cngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h ntrong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1
2.3.1.2 lý d u ch m trong ngo c.
Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s quét trong
n v n ang xét tìm d u óng t ng ng N u tìm th y, toàn b ph n trong ngo c
c gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c N u không tìm
th y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bình
th ng
Trang 26Ch ng 3. MÔ HÌNH CÀI T
Trang 27Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
3.1 Các mô hình thêm d u ã c s d ng
3.1.1 VietPad3.1.1.1 Mô hình thêm d u ti ng Vi t
Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad
3.1.1.1.1 Ti n x lý
Chu n hoá v n b n theo nh d ng mà VietPad quy nh
Trang 28Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
3.1.1.1.2 Tách token
Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng token
t … Token có th g m 1 chu i các kí t không ph i là kí t (nh : , ; “ @
# $ … ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t
3.1.1.1.3 y ra các t không d u, chuy n thành t có d u
i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách tLRMM (t có t i a 3 ti ng), VietPad l y ra các t không d u, sau ó thôngqua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i), chuy n t không d u thành có d u
Trang 29Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Ví d 3-2:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” s c VietPad chuy nthành câu có d u sau thông qua t n (d u / th hi n s tách t c a VietPad)
“Nh ng v n / / liên quan / tôi ng i / ng t nh / luy n ái / c /
n b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua /”
3.1.2 VnMark3.1.2.1 Mô hình thêm d u ti ng Vi t
n c vào mô hình n-gram, mô hình ánh d u t ng ti ng Vi t ctác gi th c hi n theo l u sau:
Trang 30Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 3.1.2-8 : u th c hi n c a mô hình n-gram
Trang 31Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
3.1.2.1.1 Ti n x lý
Xóa các kho ng tr ng th a Th c hi n các công vi c chu n hóa d li u nh pvào… Thay th các ký t t ng t
Theo các th ng kê v tâm lý, tác gi nh n th y khi ng i s d ng ánh ch
Vi t không d u thì ng i ta v n ánh c các ký t vi t hoa nh các danh t riêng
Do ó, các t vi t hoa s không “th ng hóa” (lowercase) và các t vi t hoa này s
lý chính trong ch ng trình Vi c quy t nh câu là n v c b n là do nhi u khi ngh a
a câu s c quy t nh s l a ch n v d u trong câu
3.1.2.1.3 Tìm các kh n ng ánh d u c a t , câu
File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a cácnhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t File t n này s ctrình bày k h n trong ph n sau
n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ng
p có th ánh d u c a các t trong câu T h p các thành ph n này s t o nên cáccâu trong câu ng viên ã c ánh d u trong ti ng Vi t Tuy nhiên, do c n c vào
p tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên không nhi um
Ví d 3-4:
Câu c n gán d u = “Toc do truyen thong se tang cao”.
Trang 32Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Thông qua t p tin t n VNMarkDic.txt , tác gi có các thông tin sau:
- toc do = “t c ” 8.68
- truyen = “truy n” 12.31
- truyen thong = “truy n th ng” 12.31
- thong tin = “thông tin” 7.24
- tin = “tin” 7.33
- se = “s ” 6.09
- tang = “t ng” 7.43
- cao = “cao” 6.95
Sau khi t h p các t ta s c 2 tr ng h p sau:
Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,791
Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.702
1
8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79
2
8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70 _
t qu = “T c truy n thông tin s t ng cao.” 48,70(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)
3.1.2.2 Mô hình hu n luy n
Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n
VNMarkDic.txt T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong
n b n ti ng Vi t Xác su t này c tính d a trên vi c th ng kê d li u c a h n1.5GB file HTML c l y t trangwww.vnexpress.net
Khác v i các mô hình gán d u ti ng Vi t tr c ây, t p tin t n không
nh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t u này giúpcho mô hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t
Trang 33Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
tr nên chính xác h n Ví d : tôi c ng l u thêm dãy âm ti t “tr c vi c”, … vào file
n này
Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r t
n (x p x 10MB) u này khi n cho vi c tìm ki m s r t ch m gi i quy t v n này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a
n :Heuristic này c mô t nh sau:
i d li u text t c l y t trangwww.vnexpress.net là C1
i d li u text t c l y t trang www.vnexpress.net là b b h t d uthanh là C2
d li u C1, tác gi s t o ra file VNMarkDicPre.txt File này s ch athông tin v xác su t c a các dãy âm ti t trong ti ng Vi t
Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li uC2 Khi ó, tác gi s so sánh v i các d li u nguyên g c C1 Qua ó, tác gi ánh giácác dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng
thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file
VNMarkDicPre.txt t o t p tin VNMarkDic.txt.
3.2 Mô hình xu t
3.2.1 Mô hình
n c vào mô hình Bigram, và d a vào ý t ng c a vi c th ng kê các
m t c a mô hình VnMark c a tác gi Nguy n V n Toàn, tôi xu t mô hìnhthêm d u t ng sau :
Trang 34Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Hình 3.2-9: u th c hi n c a mô hình xu t
d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n2.3, m c 2.3.1 Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s
Trang 35Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t o
c câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có th
ch p nh n c trong 1 ph m vi nào ó
Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n vàtách các t tên riêng ra d a trên 1 t n tên riêng Vi c xác nh các tênriêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c n