1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp thêm dấu tiếng việt vào văn bàn tiếng việt không dấu

70 661 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Thêm Dấu Tiếng Việt Vào Văn Bản Tiếng Việt Không Dấu
Tác giả Phan Quốc Lân
Người hướng dẫn Th.S Phạm Phương Tuyết Trinh
Trường học Nhân Văn
Chuyên ngành Công Nghệ Thông Tin
Thể loại Khóa Luận
Năm xuất bản 2005
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 70
Dung lượng 1,85 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương pháp thêm dấu tiếng việt vào văn bàn tiếng việt không dấu

Trang 1

TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C

Trang 2

TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C

Trang 3

i c m n

i u tiên, em xin chân thành c m n cô Ph m Ph m Tuy t Trinh, cô ã tr c

ti p h ng d n và t o u ki n cho em nghiên c u và hoàn thành lu n v n này

Em c ng xin chân thành c m n th y inh n, th y ã h tr , giúp em r tnhi u trong quá trình th c hi n Và em c ng xin c m n t t c các th y cô trong khoaCông ngh thông tin ã t n tình ch b o và giúp em trong su t quá trình h c t ptrong tr ng

Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ình

ã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trình

th c hi n lu n v n

Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b nSinh, b n Kh ng …, nh ng ng i ã h tr và giúp tôi hoàn thi n lu n v n này

c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phép

nh ng ch c ch n s không tránh kh i nh ng thi u sót Em kính mong nh n c s

m thông và t n tình ch b o c a quý Th y Cô và các b n

TP H Chí Minh, tháng 7 n m 2005

Phan Qu c Lân – 0112267

Trang 4

NH N XÉT C A GIÁO VIÊN H NG D N

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005

Giáo viên h ng d n

Th.S Ph m Ph m Tuy t Trinh

Trang 5

NH N XÉT C A GIÁO VIÊN PH N BI N

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005

Giáo viên ph n bi n

Trang 6

Vi t vào v n b n không d u là vi c r t c n thi t và thú v

tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m t

ng m i, do ó, ch ng trình không chú tr ng chuyên sâu vào l nh v c nào Vi cthêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c utrúc c a mô hình mà ch ng trình áp d ng

Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :

§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b nkhông d u, và các công trình ã có liên quan n tài

§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng

§ Ch ng 3 nh n xét các mô hình ã có tr c ây, và a ra mô hình cài tchính

§ Ch ng 4 c th hóa mô hình cài t

§ Ch ng 5 t ng k t và ra h ng phát tri n

Trang 7

C L C

Ch ng 1 NG QUAN 9

1.1 Gi i thi u v bài toán Thêm d u ti ng Vi t vào v n b n không d u 10

1.1.1 Phát bi u bài toán 10

1.1.2 c m 10

1.1.3 ng gi i quy t 11

1.2 Gi i thi u các công trình ã có 11

1.2.1 AMPad 11

1.2.2 VietPad 12

1.2.3 www.EasyVn.com 13

1.2.4 VnMark 14

Ch ng 2 S LÝ THUY T TIN H C 15

2.1 Lý thuy t v ngôn ng h c 16

2.1.1 Âm ti t (còn g i là “ti ng”) 16

2.1.1.1 nh ngh a và c m âm ti t ti ng Vi t 16

2.1.1.2 Thanh là thành ph n c a âm ti t ti ng Vi t 16

2.1.1.3 T i sao l i ph i dùng d u thanh ? 17

2.1.2 .18

2.1.2.1 Các quan ni m v t 18

2.1.2.2 Tiêu chí nh n di n “t ” ti ng Vi t 18

2.1.2.2.1 Các tiêu chu n v hình th c 19

2.1.2.2.2 Các tiêu chu n v n i dung 19

2.2 Tách t 20

2.2.1 Kh p t i a (LRMM – Left Right Max Matching) 21

2.2.2 Mô hình m ng WFST và m ng n -ron 22

2.3 Tách câu 22

2.3.1 Tách câu b ng Heristics .23

2.3.1.1 X lý d u ch m .23

2.3.1.2 X lý d u ch m trong ngo c .24

Ch ng 3.MÔ HÌNH CÀI T 25

3.1 Các mô hình thêm d u ã c s d ng 26

3.1.1 VietPad 26

3.1.1.1 Mô hình thêm d u ti ng Vi t 26

3.1.1.1.1 Ti n x lý 26

3.1.1.1.2 Tách token 27

3.1.1.1.3 L y ra các t không d u, chuy n thành t có d u 27

3.1.2 VnMark 28

Trang 8

3.1.2.1 Mô hình thêm d u ti ng Vi t 28

3.1.2.1.1 Ti n x lý 30

3.1.2.1.2 Tách câu 30

3.1.2.1.3 Tìm các kh n ng ánh d u c a t , câu 30

3.1.2.2 Mô hình hu n luy n 31

3.2 Mô hình xu t 32

3.2.1 Mô hình 32

3.2.1.1 Tách câu 33

3.2.1.2 Tách t b ng ph ng pháp LRMM 34

3.2.1.3 Ch n t thích h p 34

3.2.2 Mô hình hu n luy n 36

3.2.2.1 Th ng kê t n su t xu t hi n c a t 36

3.2.2.1.1 Xây d ng kho ng li u 36

3.2.2.1.2 Th ng kê t n su t xu t hi n c a t 37

3.2.2.1.3 T o t n chuy n i 38

3.2.2.2 Trích xu t các c m t th ng s d ng 39

3.2.3 So sánh mô hình này v i 2 mô hình trên 41

Ch ng 4.CÀI T TH NGHI M 43

4.1 Th ng kê t n s xu t hi n c a t 44

4.1.1 Xây d ng kho ng li u text t báo n t 44

4.1.2 Tách câu 48

4.1.3 Tách t và th ng kê 50

4.2 o t p tin t n chính 52

4.3 o t p tin t n c m t 55

4.3.1 o kho d li u tinh gi n m i 55

4.3.2 o t p tin t n c m t 58

4.4 Ch ng trình chính 58

4.4.1 Ch ng trình VietEditor 59

4.4.2 Ch ng trình thêm d u qua Clipboard 60

4.5 Th nghi m 62

Ch ng 5 T QU , H NG PHÁT TRI N 63

5.1 n ch và h ng phát tri n 64

5.2 t lu n 64

Ph l c : C u trúc kho ng li u 67

Trang 9

DANH M C HÌNH

Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad 12

Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad 12

Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad 13

Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn 14

Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn 14

Hình 1.2.4-6 : S k t c u âm ti ng Vi t 17

Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad 26

Hình 3.1.2-8 : L u th c hi n c a mô hình n-gram 29

Hình 3.2-9: L u th c hi n c a mô hình xu t 33

Hình 3.2-10 : T p tin m u sau khi th ng kê t n su t t 38

Hình 3.2-11 : Trích t p tin TuDienChinh.txt 39

Hình 3.2-12 : Trích t p tin CumTu.txt 41

Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT 44

Hình 4.1.1-14: C u hình c a ch ng trình HTML2TXT 45

Hình 4.1.1-15 : M t trang báo thanh niên 47

Hình 4.1.1-16 : li u c tách t trang báo Thanh niên 48

Hình 4.1.2-17: Giao di n ch ng trình Tách Câu 49

Hình 4.1.2-18: T vi t t t cung c p cho ch ng trình Tách Câu 49

Hình 4.1.2-19: N i dung file k t xu t c a ch ng trình Tách Câu 50

Hình 4.1.3-20: Giao di n module tách t 51

Hình4.1.3-21: N i dung t p tin th m c ngu n 51

Hình 4.1.3-22: N i dung t p tin t n 52

Hình 4.1.3-23: N i dung t p tin k t qu 52

Hình 4.1.3-24: Giao di n ch ng trình t o t n chính 53

Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt 54

Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt 54

Hình 4.1.3-27: Trích 1 ph n KhoCau.txt 55

Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n 56

Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t 57

Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t 57

Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t 58

Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor 59

Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard 60

Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard 61

Hình 5.2-35 : T p tin kho ng li u m u 69

Trang 10

Ch ng 1. NG QUAN

Trang 11

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

1.1 Gi i thi u v bài toán Thêm d u ti ng Vi t vào

n b n không d u

1.1.1 Phát bi u bài toán

Bài toán có th c phát bi u nh sau : Cho m t v n b n ti ng Vi t không

u Chuy n v n b n không d u này thành có d u v i chính xác cao

Ch s d ng t n t và kho ng li u thô làm u vào

u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8] Khi

lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v inhau, tr nên khó kh n và d gây hi u l m

thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t Bài toán xác

nh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khikhông có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ngChâu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n

n i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các t

c phân cách b i kho ng tr ng u này l i không úng v i ti ng Vi t.Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b ikho ng tr ng, ch không ph i t

Trang 12

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t có

u nào có d ng th hi n không d u nh v y Vi c xác nh này c ng gây nhi ukhó kh n, khi 1 t không d u có th có nhi u t có d u t ng ng v i nó

Ví d 1-1 : T không d u “toi” có 3 t có d u t ng ng là “tôi”, “t i” và

“t i”

Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, ta

n ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d u

ó ây chính là 2 bài toán c n gi i quy t chính c a mô hình

1.1.3 ng gi i quy t

i v i tách t có d u, có nhi u mô hình c s d ng và t k t qu cao

nh MM (Maximum Matching : forward / backward hay còn g i là LRMM:Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h n

có tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén(compression) [1] … H ng gi i quy t c xu t là s d ng ph ng pháptách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2

n c a bài toán này Ph ng pháp ch m i c áp d ng cho mô hình thêm

u offine, nh ng có th c cài t gán d u online

1.2 Gi i thi u các công trình ã có

AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)

a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này

Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi u nàycho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t là

có nhu c u, và nhu c u này s ngày càng t ng cao Ch ng trình AMPad có

Trang 13

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

m hay là vi c áp d ng mô hình x lý thêm d u ch online, t o s tr cquan, thân thi n cho ng i s d ng

Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad

1.2.2 VietPad

Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri n

i Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net Ngoài

ch c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad còn

là 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m

Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad

Trang 14

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad

Trang 15

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn

Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn

1.2.4 VnMark

VnMark [2] c tác gi Nguy n V n Toàn phát tri n Do tác gi ã làm

th t l c ch ng trình, do ó, không có hình nh minh ho ch ng trình

Trang 16

Ch ng 2 S LÝ THUY T

TIN H C

Trang 17

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

2.1 Lý thuy t v ngôn ng h c

2.1.1 Âm ti t (còn g i là “ti ng”)2.1.1.1 nh ngh a và c m âm ti t ti ng Vi t

“Ti ng” là “ n v c b n” trong ti ng Vi t [1] M t “ti ng” trong ti ng

Vi t c nói lên là m t n v ng âm, và c ng là m t n v ng pháp

t “ti ng” là m t n v phát ngôn, và là m t n v c a l i nói t o ra

nh ng k t c u l i nói trong ho t ng nói n ng giao ti p c tính này c a

ti ng chính là m t tính cách lo i hình c a ti ng Vi t, trong ó m i n vphát âm trùng khít v i n v ng pháp (hình v , và t ) Khi xét trên bình

di n ng âm, ti ng là m t n v c a ng âm, t c là m t âm ti t [9]

Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiên

i v i m i ng i mà không c n m t trình ngôn ng gì cao, vì : trong l inói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m t

ti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ngkho ng tr ng hay các d u ng t) n v “ti ng” i v i ng i Vi t là m t

n v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng s

ng nó tr c khi hi u và s d ng khái ni m “t ”

Ví d 2-1:

Câu “Cái bàn này hình bán nguy t” có 6 ti ng

2.1.1.2 Thanh là thành ph n c a âm ti t ti ng Vi t

Khi phát âm ti ng Vi t, chúng ta phát âm t ng n v l i nói c t r i nhau,

i là âm ti t Khi phát âm ch m m t âm ti t, có th nh n th y khá rõ là m i

âm ti t u có th k t h p nhi u nh t là ba n v phát âm : âm u + âm chính + âm cu i Ba thành ph n trên g m nh ng âm v xu t hi n t ng itheo th t tr c sau, nên g i là nh ng âm v tuy n tính

Trang 18

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh u.

Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh Thanh này xu t

hi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m tthành ph n b t kh phân c a âm ti t Thanh là thành ph n âm v phi tuy ntính c a m t âm ti t ti ng Vi t Thanh là m t s c thái c a âm thanh các âm

ti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c achu i l i nói Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,

th ng ch vi t kh i vuông nh ch Hán và ch Nôm c ng không có kí hi u

ch thanh Nh ng tr ng h p ch qu c ng có khác Khi dùng b ng ch cáiLatin, các v con ch ch a phân bi t ý ngh a m t t c vi t ra, vì

có n sáu thanh ph i phân bi t Ðã ành thanh ch là y u t ng âm khôngthu c v thành ph n âm v tuy n tính, nh ng thanh ti ng Vi t không h n ch

là m t y u t ngôn u mang tính cách hoa m cho âm ti t, mà là m t thành

ph n không th thi u c khi phát âm m t âm ti t Nói cách khác, âm ti t

ti ng Vi t ch a hoàn ch nh khi ch a c nh thanh Có l các nhà sáng ch

ra ch vi t theo b ng ch cái Latin mà ta th ng g i quen là "ch qu c ng "

Trang 19

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, chonên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng Và

ây c ng là c m n i b t c a ti ng Vi t

2.1.2.

2.1.2.1 Các quan ni m v t

Có 1 s nh ngh a n hình v t nh sau [1] :

- Theo L.Bloomfield, thì t là t hình thái t do nh nh

- Theo Solncev thì là n v ngôn ng có tính hai m t: âm và ngh a.

có kh n ng c l p v cú pháp khi s d ng trong l

- Theo B.Golovin, thì t là n v nh nh t có ngh a c a ngôn ng , c

n d ng c l p, tái hi n t do trong l i nói xây d ng nên câu ây

ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng

Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ng

Trang 20

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

ti ng Vi t [3] Các tiêu chu n này chung qui ta có th phân thành : các tiêuchu n v hình th c và các tiêu chu n v n i dung

2.1.2.2.1 Các tiêu chu n v hình th c

Tính c nh : tính v ng ch c v c u t o, không th chêm – xen cTính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a vàkhông c l p) Tính c l p còn c g i là kh n ng k t h p (t do – h n

ch )

Tính t lo i và quan h cú pháp : trong ng /câu, t m nh n nh ng

ch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,còn hình v thì không có tính ch t t lo i Quan h gi a các t là quan h cúpháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp

2.1.2.2.2 Các tiêu chu n v n i dung

Ch c n ng nh danh : ch c n ng này c dùng xác nh t cách c a (t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”

Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái

ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m

Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì

y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp

Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, c a s các nhà

Vi t ng h c ch p nh n trong vi c xác nh t cách c a t Tiêu chu n nàyliên quan n tính thành ng và tính võ oán

Trang 21

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

2.2 Tách t

Bài toán tách t cho ngôn ng n l p ã c t ra t lâu, ch y u gi i quy tcho ti ng Trung Qu c, ti ng Nh t Các thu t toán tách t có th c phân lo i nhsau:

v a theo lu t Bao g m các cách sau:

- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; SampanRarurom, 1991)

- Mô hình kh p t i a Mô hình này c chia thành “Kh p t i a ti n và kh p t i

a lùi” i v i ph ng pháp này thì m t t n hoàn ch nh là không th thi u

t t n không hoàn ch nh s gi m hi u su t c a thu t toán Tuy nhiên, d

th y là khó có th có m t t n hoàn ch nh ( c bi t khi các ngôn ng v n còn

c ti p t c phát tri n h ng ngày trong th i i ngày nay) Mô hình này tuthu c nhi u vào t n

v Dùng th ng kê:

Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p

Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp

ng th ng kê Ng c nh càng r ng thì thu t toán càng ph c t p

Cho dù r ng ng c nh th nào, luôn có th áp d ng mô hình first-order HMM.Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n K t qu hu nluy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ngpháp, làm gi m vai trò c a xác su t

v Cách khác:

u h t các gi i pháp khác là s lai t o gi a các mô hình trên và các mô hìnhngôn ng h c nh WFST, TBL Th i gian x lý các gi i pháp này tr nên áng k ,

nh ng chính xác t c khá cao

Trang 22

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Tri th c v ngôn ng , th ng áp d ng cho các mô hình d a trên lu t, hi m khi

c áp d ng cho nh ng mô hình trên

i ây là mô t 2 ph ng pháp tách t th ng s d ng :

2.2.1 Kh p t i a (LRMM – Left Right Max Matching)

Thu t toán so kh p t i a ho t ng nh tên c a chính nó Thu t toán gi i quy tbài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t) Thu t toán c áp

ng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG Thu t toán này cónhi u bi n th khác nhau

Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n Gi s có

t chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C1, C2,…C3 Ta b t u t u chu i u tiên, ki m tra xem C1có ph i là t không,sau ó ki m tra xem C1C2có ph i là t hay không Ti p t c làm cho n khi tìm

c t dài nh t T có v h p lý nh t là t dài nh t Ch n t ó, sau ó tìm ti p

nh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u

Ø ng ph c t p Quy t c c a d ng này là phân n có v h p lý nh t là n 3

v i chi u dài t i a Thu t toán b t u nh d ng n gi n N u phát hi n ra

nh ng cách tách t gây nh p nh ng (ví d C1là t và C1C2 ng là t ), ta xemcác ch k ti p tìm t t c các n ba t có th có b t u v i C1ho c C1C2.

Ví d 2-2 : ta c nh ng n sau:

- C1 C2 C3C4.

- C1C2 C3C4 C5

- C1C2 C3C4 C5C6

Chu i dài nh t s là chu i th ba V y t u tiên c a chu i th ba (C1C2) s

c ch n Th c hi n l i các b c cho n khi c chu i t hoàn ch nh Cách này t

c chính xác 99.69%

Mô hình s d ng ph ng pháp tách t LRMM d ng n gi n Mô hình này v a

n gi n, nh ng mang l i chính xác cao

Trang 23

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

2.2.2 Mô hình m ng WFST và m ng n -ron

WFST ã c áp d ng tách t ti ng Trung Qu c Ý t ng c b n là áp d ngWFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u DùngWFST duy t qua câu c n xét Cách duy t có tr ng s l n nh t s là cách tách t

c ch n Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron

kh nh p nh ng

Mô hình tách t trong VnMark s d ng chính là mô hình WFST này (Xem chi ti t

n trong [1] trang 99-104, hay trong [5])

2.3 Tách câu

Trong m t v n b n ti ng Anh hay b ng b t k m t ngôn ng thông d ng nàokhác, thông th ng thì ta ch dùng d u ch m (.), ch m than (!), ch m h i(?) và m t s

u khác n a nh n bi t k t thúc câu (Ta g i nh ng d u này là nh ng d u báo hi u

t thúc câu hay d u ch m câu) Tuy nhiên, do tính nh p nh ng c a d u báo hi u k tthúc câu (ch ng h n nh d u k t thúc câu trong t vi t t t,…) nên vi c xác nh ranh

gi i câu không n gi n nh chúng ta ngh Ví d nh d u ch m, nó có th bi u th nh

t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi t

t n m cu i câu M t d u ch m h i hay d u ch m than có th xu t hi n trong d ungo c n, ngo c kép hay c ng nh cu i câu S m p m c a các d u câu này c

th hi n qua các ví d sau:

Ví d 2-3:

1 The group included Dr J.M Freeman and T Boone Pickens Jr.

2 “This issue crosses party lines and crosses philosophical lines!” said Rep John Rowland (R., Conn.).

3 It was due Friday 5 p.m Saturday would be too late.

4 She has an appointment at 5 p.m Saturday to get her car fixed.

Trang 24

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho ta

nh ng thông tin quan tr ng v vai trò c a d u trong câu Tuy nhiên, b ph n tách câu

n ph i có nhi u thông tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n

m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khi

ch vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4 nh n di n d u ch mcâu, ng i ta có th dùng các heuristics ho c các mô hình h c ph c t p h n, nh :

ng neural, TBL, Maximum Entropy

có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ngriêng trong cách trình bày c a t ng tr ng h p

1 u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u

nh n bi t k t thúc câu s là : “luôn luôn có ít nh t m t kho ng tr ng sau d u

ch m và ký t ti p theo s là ch cái s c vi t hoa”

2 Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr c

và ph n li n sau d u ch m phát hi n s có d u ch m th p phân

Trang 25

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

3 nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danhsách các t vi t t t tra c u khi c n

4 Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n cótính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký tnào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi tc

Nh ng qui lu t trên ây là nh ng qui lu t chung nh t trong cách trình bày v n b n

ti ng Anh i v i v n b n ti ng Vi t, các tr ng h p c ng g n nh th Do d a ch

u vào cách trình bày v n b n nên có m y u là d nh m l n khi v n b n a vào cócách trình bày khác chu n và do không hi u ngh a câu nên không th phân bi t m t s

tr ng h p m h nh trong ví d sau:

1 It was due Friday 5p.m Saturday would be too late.

2 She has an appointment at 5 p.m Saturday to get her car fixed.

xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch m

t câu hay không c ng là m t vi c không n gi n i v i máy Th m chí i v i

ng i mà trình ti ng Anh ch a v ng Trong c hai tr ng h p, t ngay tr c ho cngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h ntrong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1

2.3.1.2 lý d u ch m trong ngo c.

Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s quét trong

n v n ang xét tìm d u óng t ng ng N u tìm th y, toàn b ph n trong ngo c

c gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c N u không tìm

th y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bình

th ng

Trang 26

Ch ng 3. MÔ HÌNH CÀI T

Trang 27

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

3.1 Các mô hình thêm d u ã c s d ng

3.1.1 VietPad3.1.1.1 Mô hình thêm d u ti ng Vi t

Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad

3.1.1.1.1 Ti n x lý

Chu n hoá v n b n theo nh d ng mà VietPad quy nh

Trang 28

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

3.1.1.1.2 Tách token

Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng token

t … Token có th g m 1 chu i các kí t không ph i là kí t (nh : , ; “ @

# $ … ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t

3.1.1.1.3 y ra các t không d u, chuy n thành t có d u

i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách tLRMM (t có t i a 3 ti ng), VietPad l y ra các t không d u, sau ó thôngqua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i), chuy n t không d u thành có d u

Trang 29

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Ví d 3-2:

Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban

bac soi noi trong buoi hop nhom toi hom qua” s c VietPad chuy nthành câu có d u sau thông qua t n (d u / th hi n s tách t c a VietPad)

“Nh ng v n / / liên quan / tôi ng i / ng t nh / luy n ái / c /

n b c / sôi n i / trong / bu i / h p / nhóm / tôi / hôm qua /”

3.1.2 VnMark3.1.2.1 Mô hình thêm d u ti ng Vi t

n c vào mô hình n-gram, mô hình ánh d u t ng ti ng Vi t ctác gi th c hi n theo l u sau:

Trang 30

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 3.1.2-8 : u th c hi n c a mô hình n-gram

Trang 31

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

3.1.2.1.1 Ti n x lý

Xóa các kho ng tr ng th a Th c hi n các công vi c chu n hóa d li u nh pvào… Thay th các ký t t ng t

Theo các th ng kê v tâm lý, tác gi nh n th y khi ng i s d ng ánh ch

Vi t không d u thì ng i ta v n ánh c các ký t vi t hoa nh các danh t riêng

Do ó, các t vi t hoa s không “th ng hóa” (lowercase) và các t vi t hoa này s

lý chính trong ch ng trình Vi c quy t nh câu là n v c b n là do nhi u khi ngh a

a câu s c quy t nh s l a ch n v d u trong câu

3.1.2.1.3 Tìm các kh n ng ánh d u c a t , câu

File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a cácnhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t File t n này s ctrình bày k h n trong ph n sau

n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ng

p có th ánh d u c a các t trong câu T h p các thành ph n này s t o nên cáccâu trong câu ng viên ã c ánh d u trong ti ng Vi t Tuy nhiên, do c n c vào

p tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên không nhi um

Ví d 3-4:

Câu c n gán d u = “Toc do truyen thong se tang cao”.

Trang 32

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Thông qua t p tin t n VNMarkDic.txt , tác gi có các thông tin sau:

- toc do = “t c ” 8.68

- truyen = “truy n” 12.31

- truyen thong = “truy n th ng” 12.31

- thong tin = “thông tin” 7.24

- tin = “tin” 7.33

- se = “s ” 6.09

- tang = “t ng” 7.43

- cao = “cao” 6.95

Sau khi t h p các t ta s c 2 tr ng h p sau:

Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,791

Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.702

1

8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79

2

8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70 _

t qu = “T c truy n thông tin s t ng cao.” 48,70(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)

3.1.2.2 Mô hình hu n luy n

Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n

VNMarkDic.txt T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong

n b n ti ng Vi t Xác su t này c tính d a trên vi c th ng kê d li u c a h n1.5GB file HTML c l y t trangwww.vnexpress.net

Khác v i các mô hình gán d u ti ng Vi t tr c ây, t p tin t n không

nh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t u này giúpcho mô hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t

Trang 33

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

tr nên chính xác h n Ví d : tôi c ng l u thêm dãy âm ti t “tr c vi c”, … vào file

n này

Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r t

n (x p x 10MB) u này khi n cho vi c tìm ki m s r t ch m gi i quy t v n này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a

n :Heuristic này c mô t nh sau:

i d li u text t c l y t trangwww.vnexpress.net là C1

i d li u text t c l y t trang www.vnexpress.net là b b h t d uthanh là C2

d li u C1, tác gi s t o ra file VNMarkDicPre.txt File này s ch athông tin v xác su t c a các dãy âm ti t trong ti ng Vi t

Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li uC2 Khi ó, tác gi s so sánh v i các d li u nguyên g c C1 Qua ó, tác gi ánh giácác dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng

thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file

VNMarkDicPre.txt t o t p tin VNMarkDic.txt.

3.2 Mô hình xu t

3.2.1 Mô hình

n c vào mô hình Bigram, và d a vào ý t ng c a vi c th ng kê các

m t c a mô hình VnMark c a tác gi Nguy n V n Toàn, tôi xu t mô hìnhthêm d u t ng sau :

Trang 34

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Hình 3.2-9: u th c hi n c a mô hình xu t

d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n2.3, m c 2.3.1 Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s

Trang 35

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t o

c câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có th

ch p nh n c trong 1 ph m vi nào ó

Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n vàtách các t tên riêng ra d a trên 1 t n tên riêng Vi c xác nh các tênriêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c n

Ngày đăng: 10/11/2012, 08:13

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w