Việc phát triển 1 công cụ›giúp thêm dấu tiếng Việt vào văn bản không dấu là việc rất cần thiết và thú vị.. Luận văn được tổ chức thành 5 chương với nội dung như sau : Chương 1 giới tiiệu
Trang 1
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
PHAN QUOC LAN
PHUONG PHAP THEM DAU TIENG VIET VÀO VAN BAN:‘TIENG VIET KHONG DAU
KHOA LUAN CU NHAN TIN HOC
TP HCM, NĂM 2005
Trang 2
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
PHAN QUOC LAN - 0112267
PHUONG PHAP THEM DAU TIENG VIET
VÀO VĂN BẢN TIÉNG VIỆT KHÔNG DẤU
KHOÁ LUẬN CỬ NHÂN TIN HỌC
GIÁO VIÊN HƯỚNG DẪN
Th.S PHẠM PHẠM TUYET TRINH
NIÊN KHÓA 2001 - 2005
Trang 3Lời đầu tiên, em xin chân thành cảm ơn cô Phạm Phạm Tuyết Trinh, cô đã trực
tiếp hướng dẫn và tạo điều kiện cho em nghiên cứu và hoàn thành luận văn này
Em cũng xin chân thành cảm ơn thầy Đinh Điền, thầy đã hỗ trợ, giúp đỡ em rất
nhiều trong quá trình thực hiện Và em cũng xin cảm ơn tất cả các thầy cô trong khoa
Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ em trong suốt quá trình học tập trong trường
Con xin chân thành cảm ơn ba mẹ, ông bà, anh em và người thân trong gia đình
đã tạo mọi điều kiện tốt nhất cho con học tập và động viên; khích lệ con trong quá trình thực hiện luận văn
Và cuối cùng, tôi xin gửi lời cảm ơn đến tất cả bạn bè, đặc biệt là anh Toàn, bạn
Sinh, bạn Khương ., những người đã hỗ trợ và giúp tôi hoàn thiện luận văn này
Mặc dù em đã cỗ gắng hoàn thành luận Vấn trong phạm vi và khả năng cho phép
nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em kính mong nhận được sự
cảm thông và tận tình chỉ báo củã quý Thầy Cô và các bạn
TP Hồ Chí Minh, tháng 7 năm 2005 Phan Quốc Lân - 0112267
Trang 4NHAN XET CUA GIAO VIEN HUONG DAN
Thành phố Hồ Chí Minh, tháng 07 năm 2005
Giáo viên hướng dẫn
Th.S Phạm Phạm Tuyết Trinh
Trang 5Thành phố Hồ Chí Minh, tháng 07 năm 2005
Giáo viên phản biện
TS Đinh Điền
Trang 6
LOI NOI DAU
Chữ viết tiếng Việt của chúng ta có 1 đặc điểm rất hay là có sự xuất hiện của các
dấu thanh cũng như dấu của các ký tự Điều này giúp cho tiếng Việt “thêm thanh, thêm
điệu” Tuy nhiên, cũng chính việc “thêm thanh, thêm điệu” đó làm cho việc gõ tiếng
Việt trở nên tốn nhiều thời gian hơn 1 vấn đề khác, khi việc sử dụng Internet trở nên
thông dụng, 1 tiện ích được mọi người ưa chuộng là dịch vụ Email Nhưng, cho đến hiện nay, hầu hết các mail server vẫn chưa hỗ trợ tốt tiếng Việt, do đó, tình trạng các lá mail trên mạng hầu như không có dấu Việc phát triển 1 công cụ›giúp thêm dấu tiếng
Việt vào văn bản không dấu là việc rất cần thiết và thú vị
Đề tài này hướng đến việc giải quyết bài toán.thêm dấu tiếng Việt theo một
hướng mới, do đó, chương trình không chú trọng chuyên sâu vào lĩnh vực nào Việc
thêm chức năng hỗ trợ các lĩnh vực chuyên sâu khác không ảnh hưởng nhiều đến cấu trúc của mô hình mà chương trình áp dụng
Luận văn được tổ chức thành 5 chương với nội dung như sau :
Chương 1 giới tiiệu tổng quan về bài toán Thêm dấu tiếng Việt vào văn bản
không dấu, và các công trình đã có liên quan đến đề tài
Chương2 giới thiệu các cơ sở lý thuyết _ tin học cần sử đụng
Chương 3 nhận xét các mô hình đã có trước đây, và đưa ra mô hình cài đặt
chính
Chương 4 cụ thể hóa mô hình cài đặt
Chương 5 tông kết và dé ra hướng phát triển
Trang 7
Churong 1 TONG QUANN -5-5 5° 55s csscsessessesessesseseesesse
1.1 - Giới thiệu về bài toán Thêm dấu tiếng Việt vào văn bản không dấu 10 1.1.1 Phát biểu bài toán s-s-sssss©+seEvsetvseevssereersserseersssse 10 1.12 Đặc điểm
1.1.3 Hướng giải quyêt
1.2 Giới thiệu các công trình đã có
2.1.1 Âm tiết (còn gọi là “tiếng”) -eee- đỀn
2.1.1.1 Định nghĩa và đặc diém âm tiệt tiêng Việt
2.1.1.2 Thanh là thành phân của âm tiết tiếng, Việt
2.1.1.3 Tại sao lại phải dùng dâu thanh ? -
2.3.1.2 Xử lý dâu châm trong ngoặc
Chương 3.MO HĨNH CÀI ĐẠTT < 5=
3.1 _ Các mô hình thêm dấu đã được sử dụng
Trang 83.1.2.1 Mô hình thêm dấu tiếng Việt
3.1.2.1.1 Tiền xử lý
3.1.2.1.2 Tách câu
3.1.2.1.3 Tìm các khả năng đánh dấu của từ, câu
3.1.2.2 Mô hình huấn luyện
3.2.2 Mô hình huấn luyện
3.2.2.1 Thống kê tần suất xuất hiện của từ
3.2.2.1.1 Xây dựng kho ngữ liệu
3.2.2.1.2 Thống kê tần suất xuất hiện của từ
3.2.2.1.3 Tạo từ điển chuyển đổi
3.2.2.2 Trích xuất các cụm từ thường sử dụng
3.2.3 So sánh mô hình này với 2 mô hình trên
Chương 4.CAI ĐẶT THU NGHIỆM
4.1 Thống kê tần số xuất hiện của từ
4.1.1 Xây dựng kho ngữ liệu text từ báo điện tử
4.1.2 Tach cau
4.1.3 Tach tir va thong ké
4.2 Tao tap tin từ điển chính
4.3 Tạo tập tin từ điển cụm từ
4.3.1 Tạo kho dữ liệu tỉnh giản mới
4.3.2 Tao tap tin tir dién cụm từ
Trang 9
Hinh 1.2.1-1 : Thêm dấu tiếng Việt tự động bằng AMPAd e.ccesseescessesseessessecseesseeseessessesseesees 12 Hình 1.2.2-2 : Gõ tiếng Việt không dấu trên VietPad
Hình 1.2.2-3 : Văn bản sau khi thực hiện chức năng thêm dấu tiếng Việt của VietPad
Hình 1.2.3-4 : Gõ tiếng Việt không dấu trên EasyVn
Hình 1.2.3-5 : Văn bản sau khi tự động thêm dấu trên EasyVn
Hình 1.2.4-6 : Sơ đô kết cấu âm tiếng Việt . -
Hình 3.1.1-7 : Lưu đồ thực hiện của mô hình ứng dụng trong VietPad
Hình 3.1.2-8 : Lưu đồ thực hiện của mô hình n-gram
Hình 3.2-9: Lưu đô thực hiện của mô hình đề xuất
Hình 3.2-10 : Tập tin mẫu sau khi thống kê tần suất từ
Hình 3.2-11 : Trích tập tin TuDienChỉinh.txt
Hình 3.2-12 : Trích tập tin CumTiu.txt
Hình 4.1.1-13: Giao diện chương trình HTML2TXT
Hình 4.1.1-14: Cấu hình của chương trình HTML2TXT
Hình 4.1.1-15 : Một trang báo thanh niên -.e -
Hình 4.].1-16 : Dữ liệu được tách từ trang báo Thanh niên
Hình 4.1.2-17: Giao diện chương trình Tách Câu
Hình 4.1.2-18: Từ viết tắt cung cấp cho chương trình Tách Câu
Hình 4.1.2-19: Nội dung file kết xuất của chương ffình Tách Câu
Hình 4.1.3-20: Giao diện module tach tie
Hình4.1.3-21: Nội dung tập tin thư mục nguồn
Hình 4.1.3-22: Nội dung tập tin từ điển
Hình 4.1.3-23: Nội dung tập tin kết quả
Hình 4.1.3-24: Giao diện chương trình tạo từ điên chính
Hình 4.1.3-25 : Trích 1 phần TuĐïenChinh.txt
Hình 4.1.3-26 : Trích Lphần TuDienPhanLop.txt
Hình 4.1.3-27: Trích I phan KhoCau.tt
Hình 4.3.1-28: Giao diện chương trình tạo kho dữ liệu tỉnh giản
Hình 4.3.1-29 : Trích I phân thư mục kết xuất
Hình 4.3.1-30 : Thự mục con _a trong thư mục kết xudi
Hình 4.3.2-31: Giao diện chương trình tạo tập tin cum t
Hình 4.4.1-32: Giao diện chương trình chính VietEditor
Hình 4.4.2-33: Giao diện chương trình chính thêm dấu Clipboard
Hình 4.4.2-34: Test chương trình thêm dấu Clipboard
Hình 5.2-35 : Tập tin kho ngữ liệu mẫu
Trang 10
Chương 1 TONG QUAN
Trang 111.1 Giới thiệu về bài toán Thêm dấu tiếng Việt vào
văn bản khong dau
1.1.1 Phát biếu bài toán
Bài toán có thể được phát biêu như sau : Cho một văn bản tiếng Việt không
dấu Chuyén van ban không dấu này thành có dấu với độ chính xác cao
Chỉ sử dụng từ điển từ và kho ngữ liệu thô làm đầu vào
Khái niệm từ ở đây là “từ từ điển” — tức là các từ đơn, từ ghép và cụm từ
được lưu trong từ điển
Chỉ xử lý các văn bản tiếng Việt có mã Unicode
1.1.2 Đặc điểm
Chữ viết tiếng Việt có 1 đặc điểm rất hay là sự xuất hiện của các dấu thanh
cũng như dấu của các ký tự Việc có dấu thanh và dấu của ký tự này làm phong phú thêm cho ngôn từ tiếng Việt, và eũnø góp phần tăng độ biểu cảm của tiếng
Việt
Dấu thanh là 1.thằnh phần “bat kha phân” trong âm tiết tiếng Việt [8] Khi loại bỏ dấu thanh, việc hiểu nghĩa của từ, gồm 1 hay nhiều âm tiết kết hợp với
nhau, trở nên khớ Khăn và dễ gây hiểu lầm
Đề thêm dấu, trước tiên, ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ đối với văn bản tiếng Việt có dấu đã là 1 việc thử thách, thì khi không có dấu, việc nhận diện ranh giới từ càng trở nên khó khăn hơn Vấn đề này lại càng khó khăn, khi ranh giới từ trong tiếng Việt cũng như 1 số ngôn ngữ Châu Á khác, một từ chính tả có thể không tương ứng với một “từ” trên văn bản Đối với các thứ tiếng Châu Âu, ta có thé dé dàng nhận ra một từ, đo các từ
được phân cách bởi khoảng trắng Điều này lại không đúng với tiếng Việt Trong tiếng Việt, các tiếng _ hay còn gọi là âm tiết _ được phân cách bởi
khoảng trắng, chứ không phải từ
10
Trang 12Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu
Sau khi đã nhận diện được ranh giới từ, ta cần phải xác định cho đúng từ có dau nao cé dang thé hiện không dẫu như vậy Việc xác định này cũng gây nhiều
khó khăn, khi I từ không dấu có thể có nhiều từ có dấu tương ứng với nó
Ví dụ 1-1 : Từ không dấu “toi” có 3 từ có dấu tương ứng là “tôi”, “tới” và
“tối”,
Do đó, sau khi đã giải quyết xong bài toán tách từ tiếng Việt không dấu, ta
cần phải giải quyết thêm bài toán xác định từ có dấu thích hợp với từ không dấu
đó Đây chính là 2 bài toán cần giải quyết chính của mô.hình
1.1.3 Hướng giải quyết
Đối với tách từ có dấu, có nhiều mô hình:được sử dụng và đạt kết quả cao
như MM (Maximum Matching : forward / backward hay còn gọi là LRMM:
Left RighÐ; giải thuật học cải biến TBL; mạng chuyên dịch trạng thái hữu hạn
có trọng sé WEST (Weighted finite-state-Transducer); giai thuat dua trén nén
(compression) [1] Hướng giải quyết được đề xuất là sử dụng phương pháp
tách từ LRMM [1][7] kết hợp:với mô hình Bigram đã giải quyết khá hiệu quả 2
vân đề của bài toán này: Phướng pháp chỉ mới được áp dụng cho mô hình thêm
dau offine, nhưng có thê được cài dat dé gan dau online
1.2 Giới thiệu các công trình đã có
1.2.1 \ AMPad
AMPad [12] (tên version cũ và thông dụng với mọi người là AutoMark)
của tác giả Trần Triết Tâm là sản phẩm đầu tiên nghiên cứu về lĩnh vực này
Chương trình đã được nhiều người biết đến và được sử dụng rộng rãi Điều này
cho thấy việc phát triển ứng dụng hoàn thiện hơn nữa về thêm dấu tiếng Việt là
có nhu cầu, và nhu cầu này sẽ ngày càng tăng cao Chương trình AMPad có
11
Trang 13điểm hay là việc áp dụng mô hình xử lý thêm dấu ở chế độ online, tạo sự trực
quan, thân thiện cho người sử dụng
ntitled - AMPad
File Edit Search Function Options Help
| Chu viết tiếng Viet của chúng ta có một đặc diem rất hay là có sự xuất
| hiện của các ciấu thành cũng như đâu của các ký tự Dieu này giúp cho
| tiếng Viet thềm thành, thêm điểu" Tuy nhiên, cũng chính việc thêm
| thành, thêm điểu" do đã làm cho việc qỗ tiếng Viettrở nên tân nhiều thời
| gian hon Mot vấn để khắc, khi việc sử dụng intenettrở nan thang dung]
| abo >>> | AutoMark-5) AutoMark
Hinh 1.2.1-1 : Thêm dấu tiếng Việt tự động bằng AMPad 1.2.2 VietPad
Vietpad [11] là trình soạn thảo hỗ trợ tiếng Việt Unicode, được phát triển
bởi Quân Nguyễn và nhóïñ'phát triển trên http://vietpad.sourceforge.net Ngoài
chức năng thêm dấu tự động 6ffline mà luận văn đang nghiên cứu, VietPad còn
là 1 trình soạn thảo tiếng Việt hỗ trợ rất tốt Unicode và là mã nguồn mở
E5 Untitled - VietPad.HET
File Edit view Format Keyboard Tools Help
chu viet tieng Viet cua chung ta co mot dac diern rat hay la co su
xuat hien cua cac dau thanh cung nhụ đau cua cac ky tu Dieu nay
Jgiup cho tieng Viet hern thanh, them dieu" Tuy nhien, cung chính
Iviec "them thanh, them dieu" do lam cho viec go tieng Viet tro nen
jton nhieu thoi gian hon
Niet Telex (On „
Hinh 1.2.2-2 : Gõ tiếng Việt không dấu trên VietPad
12
Trang 14Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu
EBl Untitled - VietPad.MET:
|Chữi viết tiếng Việt của chúng ta có một đặc điểm rất hay là có sự xuất hiện
|cùa các dầu thánh cũng như đâu của các ký tự Điều nảy giúp cho tiếng Việt
| thêm thành, thêm điều" Tuy nhiên, cùng chính việc "thêm thành, thêm điều"
|đó làm cho việc gỗ tiếng Việt trä nên tốn nhiều thồi gian hản
Wiet Telex On „
Hinh 1.2.2-3 : Van bản sau khi thực hiện chức năng thêm dấu tiếng Việt của VietPad
1.2.3 www.EasyVn.com
Trang web www.easyvn.com [10] cung cấp dịch vụ email điện tử miễn phí
trên mạng, với sự hỗ trợ n8ười dùng rất tốt về ngôn ngữ Việt 1 chức năng nỗi bật của www.easyvn.com là :sau khi soạn thảo xong bức mail, người dùng có
thể chọn chức năng Thêm dấu tiếng Việt để biến văn bản không dấu thành có
dau Do day là địch vụ-được cung cấp và thu phí trên NET (cho sử dụng thử trong 2 tháng),nô hình thêm dấu tự động của www.easyvn.com được giữ kín
13
Trang 15Chon địa chỉ in Lưu thự nhập | Gai di
Thêm dấu j
Tai rat vui vi duoc gap cac ban
Hình 1.2.3-4 : Gõ tiếng Việt không đấu trên EasyVn
Nhấp vào chữ bö dẫu sai để chọn dấu đúng Hướng Dẫn Sữa Dâu -308V ổ lại ;
Chao cac ban
Tôi rất vui vị được gặp các bạn
VnMark [2] được tác giả Nguyễn Văn Toàn phát triển Do tác giả đã làm
thất lạc chương trình, do đó, không có hình ảnh minh hoạ chương trình
14
Trang 16
Chương 2 CƠ SỞ LÝ THUYÉT TIN HỌC
Trang 172.1 Lý thuyết về ngôn ngữ học
2.1.1 Âm tiết (còn gọi là “tiếng”)
2.1.1.1 Định nghĩa và đặc điểm âm tiết tiếng Việt
“Tiếng” là “đơn vị cơ bản” trong tiếng Việt [1] Một “tiếng” trong tiếng
Việt được nói lên là một đơn vị ngữ âm, và cũng là một đơn vị ngữ pháp
Một “tiếng” là một đơn vị phát ngôn, và là một đơn vị của lời nói đề tạo ra
những kết cấu lời nói trong hoạt động nói năng giao tiếp Đặc tính này của
tiếng chính là một tính cách loại hình của tiếng.Việt, trong đó mỗi đơn vị
phát âm trùng khít với đơn vị ngữ pháp (hình vị, và từ) Khi xét trên bình
diện ngữ âm, tiếng là một đơn vị của ngữ:âm, tức là một âm tiết [9]
Việc nhận diện “tiếng” đối với người Việt là điều quá đễ dàng, tự nhiên
đối với mọi người mà không cần một trình độ ngôn ngữ gì cao, vì : trong lời nói (mặt ngữ âm), mỗi “tiếng” bao giờ cũng phát ra một hơi, nghe thành một
tiếng, và có mang một thanh điệu nhất điệu; còn trong chữ viết (mặt chính
tả), mỗi tiếng bao giờ cũng được viết rời thành từng chữ (ngăn cách bằng
khoảng trắng háy các dấu ngắt) Đơn vị “tiếng” đối với người Việt là một đơn vị tự nhiên, khái niệm “tiếng” đã có từ lâu và được người bản ngữ sử
dụng nó trước khi hiểu và sử dụng khái niệm “từ”
Câu “Cái bàn này hình bán nguyệt” có 6 tiếng
2.1.1.2 Thanh là thành phần của âm tiết tiếng Việt
Khi phát âm tiếng Việt, chúng ta phát âm từng đơn vị lời nói cắt rời nhau, gọi là âm tiết Khi phát âm chậm một âm tiết, có thể nhận thấy khá rõ là mỗi
âm tiết đều có thể kết hợp nhiều nhất là ba đơn vị phát âm : âm đầu + âm
chính + âm cuối Ba thành phần trên gồm những âm vị xuất hiện tương đối
theo thứ tự trước sau, nên gọi là những âm vị tuyến tính
16
Trang 18Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu
Ngoài ra, mỗi âm tiết được định một bậc cao thấp, gọi là thanh điệu
Trong lời nói, mỗi âm tiết tiếng Việt đều mang một thanh Thanh này xuất
hiện lập tức khi âm tiết được phát ra, cho nên có thể nói rằng thanh là một thành phần bắt khả phân của âm tiết Thanh là thành phần âm vị phi tuyến tính của một âm tiết tiếng Việt Thanh là một sắc thái của âm thanh các âm
tiết, qua đó khi phát âm sẽ định bậc cao thấp khác nhau của mỗi đơn vị của
chuỗi lời nói Có sáu thanh làm tiêu chuẩn định bậc cao thấp khác nhau,
thường gọi là ngang, hỏi, sắc, huyền, ngã, nặng
Như vậy thì mỗi âm tiết tiếng Việt đầy đủ cófối đa bốn đơn vị cấu thành Tối thiểu thì mỗi âm tiết cũng phải có hai thanh phan : âm chính + thanh
Thanh
âm đầu am chính âm cuối
Hình 1.2.4-6 : Sơ đồ kết cấu âm tiếng Việt
2.1.1.3 Tại sao lại phải đùng dấu thanh ?
Các ngôn ngữ dùng bảng chữ cái Latin không dùng thêm kí hiệu chỉ
thanh, mà chỉ ghi.lại‹€ác âm vị tuyến tính bằng các đồ vị là con chữ Hệ
thống.chữ viết khói vuông như chữ Hán và chữ Nôm cũng không có kí hiệu
chỉ thanh Nhưng trường hợp chữ quốc ngữ có khác Khi dùng bảng chữ cái
Latin, các đồ vị con chữ chưa đủ đề phân biệt ý nghĩa một từ được viết ra, vì
có đến sáu thanh phải phân biệt Đã đành thanh chỉ là yếu tố ngữ âm không thuộc về thành phần âm vị tuyến tính, nhưng thanh tiếng Việt không hẳn chỉ
là một yếu tố ngôn điệu mang tính cách hoa mĩ cho âm tiết, mà là một thành
phần không thể thiếu được khi phát âm một âm tiết Nói cách khác, âm tiết tiếng Việt chưa hoàn chỉnh khi chưa được định thanh Có lẽ các nhà sáng chế
ra chữ viết theo bảng chữ cái Latin mà ta thường gọi quen là "chữ quốc ngữ"
17
Trang 19đã hiệu rất rõ tính cách bat khả phân của thanh đối với âm tiết tiếng Việt, cho nên các vị đã đùng đến những kí hiệu để chỉ thị các bậc thanh tương ứng Và đây cũng là đặc điểm nỗi bật của tiếng Việt
2.1.2 Từ
2.1.2.1 Các quan niệm về từ
Có 1 số định nghĩa điển hình về từ như sau [1] :
- Theo L.Bloomfield, thi tir 14 “mt hinh thái tự do đhỏ nhất”
- Theo Solncev thi “Tir la don vi ngôn ngữ có tính hai mặt: âm và nghĩa
Từ có khả năng độc lập về cú pháp khi sử đụng trong lời”
- Theo B.Golovin, thi từ là “đơn vị nhỏ nhất có nghĩa của ngôn ngữ, được vận dụng độc lập, tái hiện tự do trong lời nói để xây dựng nên câu ” Đây cũng chính là định nghĩa mà trong ngôn ngữ học đại cương hay sử dụng
Trong nội dung luận văn này, ta quan tâm tới 3 thuật ngữ trong ngôn ngữ
đại cương đề nhận:diện tir:
1 Từ ngữ âm : đó là những đơn vị được thống nhất với hiện tượng ngữ âm nầø đó Đối với tiếng Việt, đó chính là những âm tiết, hay
cồn gọi là “tiếng”, “tiếng một”
2 Từ chính tả : đó là những khoảng cách giữa 2 chỗ trên văn tự, tức là
những đơn vị được viết liền thành khối, đối với tiếng Việt, đó chính
là “chữ”
3 Từ từ điển học : đó là đơn vị mà căn cứ vào đặc điểm ý nghĩa của
nó phải xếp riêng trong từ điển
2.1.2.2 Tiêu chí nhận diện “từ” tiếng Việt
Từ rất nhiều quan niệm cũng như các định nghĩa về “từ tiếng Việt”, ta có
thể rút ra tiêu chuẩn mà các nhà Việt ngữ học đã dựa vào đó khi nhận diện từ
18
Trang 20Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu
tiếng Việt [3] Các tiêu chuẩn này chung qui ta có thể phân thành : các tiêu
chuẩn về hình thức và các tiêu chuẩn về nội dung
2.1.2.2.1 Các tiêu chuẩn về hình thức
Tính cố định : tính vững chắc về cấu tạo, không thể chêm — xen được
Tính độc lập : các nhà Việt ngữ học hay dùng tiêu chuẩn tính độc lập để
phân biệt từ (đơn vị có nghĩa và độc lập) với hình vị (đơn vị có nghĩa và không độc lập) Tính độc lập còn được gọi là khả năng kết hợp (tự đo — hạn chế)
Tính từ loại và quan hệ cú pháp : trong ngũ/cầu, từ đảm nhận những chức năng cú pháp nhất định, nên mọi từ đề phải mang một từ loại nào đó, còn hình vị thì không có tính chất từ loại Quan hệ giữa các từ là quan hệ cú
pháp, còn quan hệ giữa các hình vị của từ không phải là quan hệ cú pháp
2.1.2.2.2 Các tiêu chuẩn về nội dung
Chức năng định danh : chức năng nầy được dùng đê xác định tư cách của
từ (từ thực), coi đó là đặc: trưng phân biệt giữa “từ” với “hình vị”
Biểu thị khái niệm : vì với khái niệm không phải là một: có những khái
niệm cần biểu thị bằng nhiều từ, và có những từ không biểu thị khái niệm
Ý nghĩa biểu niệm? vì ý nghĩa của từ và khái niệm không trùng nhau, vì
vậy, người fa cần phân biệt ý nghĩa từ vựng và ý nghĩa ngữ pháp
Hoàn chỉnh về nghĩa : đây là tiêu chuẩn quan trọng, được đa số các nhà Việt ngữ học chấp nhận trong việc xác định tư cách của từ Tiêu chuẩn này
liên quan đến tính thành ngữ và tính võ đoán
19
Trang 212.2 Tách từ
Bài toán tách từ cho ngôn ngữ đơn lập đã được đặt ra từ lâu, chủ yếu đề giải quyết
cho tiếng Trung Quốc, tiếng Nhật Các thuật toán tách từ có thể được phân loại như
Sau:
s* Dựa theo luật Bao gồm các cách sau:
- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan Rarurom, 1991)
- _ Mô hình khớp tối đa Mô hình này được chia thành “KHớp tối đa tiến và khớp tối
đa lùi” Đối với phương pháp này thì một từ điển Hoàn chỉnh là không thể thiếu
Một từ điển không hoàn chỉnh sẽ giảm hiệu suất của thuật toán Tuy nhiên, dễ
thấy là khó có thể có một từ điển hoàn chỉnh (đặc biệt khi các ngôn ngữ vẫn còn
được tiếp tục phát triển hằng ngày trong thời đại ngày nay) Mô hình này tuỳ
thuộc nhiều vào từ điển
s* Dùng thống kê:
Giải pháp này dựa vào ngữ cảnh từ-xung quanh để đưa ra quyết định thích hợp
Có hai vấn đề cần được giải quyết đối với giải pháp này : độ rộng ngữ cảnh, và cách áp
dụng thống kê Ngữ cảnh càng rộng thì thuật toán càng phức tạp
Cho dù độ rộng ngữ eảnh thé nao, luôn có thể áp dụng mô hình first-order HMM
Tuy nhiên giải pháp này phụ thuộc rất nhiều vào ngữ liệu huấn luyện Kết quả huấn luyện trên ngữ liệu chính trị khó có thể áp dụng trên các tài liệu văn học và ngược lại Thêm vào đó, có những từ có xác suất rất cao, nhung chỉ có thể chức năng về mặt ngữ pháp, làm giảm vai trò của xác suất
s Cách khác:
Hầu hết các giải pháp khác là sự lai tạo giữa các mô hình trên và các mô hình ngôn ngữ học như WFST, TBL Thời gian xử lý các giải pháp này trở nên đáng kẻ, nhưng độ chính xác đạt được khá cao
20
Trang 22Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu
Tri thức về ngôn ngữ, thường áp dụng cho các mô hình dựa trên luật, hiếm khi
được áp dụng cho những mô hình trên
Dưới đây là mô tả 2 phương pháp tách từ thường sử dụng :
2.2.1 Khớp tối đa (LRMM - Left Right Max Matching)
Thuật toán so khớp tối đa hoạt động như tên của chính nó Thuật toán giải quyết
bài toán tách từ nào có nhiều từ nhất (so khớp được nhiều nhất) Thuật toán được áp
dụng để xây dựng chương trình tách từ tiếng Trung Quốc MMSEG Thuật toán này có
nhiều biến thể khác nhau
> Dạng đơn giản, được dung để giải quyết vấn đề nHập nhằng từ đơn Giả sử có
một chuỗi ký tự (tương đương với chuỗi tiếng Việt trong tiếng Việt) C¡, Cạ , Cs Ta bắt đầu từ đầu chuỗi Đầu tiên, kiểm tra xem C¡ có phải là từ không,
sau đó kiểm tra xem C¡C; có phải là từ hay không: Tiếp tục làm cho đến khi tìm
được từ dài nhất Từ có vẽ hợp lý nhất là từ dầi nhất Chọn từ đó, sau đó tìm tiếp
như trên trên những từ còn lại, cho đến khi xác định được toàn bộ chuỗi dữ liệu
> Dạng phức tạp Quy tắc của đạng này là phân đoạn có vẽ hợp lý nhất là đoạn 3
từ với chiều dài tối đaz Thuật toán bắt đầu như dạng đơn giản Nếu phát hiện ra
những cách tách từ gây nhập nhằng (ví dụ C¡ là từ và C¡C; cũng là từ), ta xem
các chữ kế tiếp để tìm tấế cả các đoạn ba từ có thể có bắt đầu với C¡ hoặc C¡C¿,
Ví dụ 2-2 : ta được những đoạn sau:
-C, G, Ge,
- C¡C¿ C;Œ¿ Cs
-C¡C; C;C¿ CC
Chuỗi dài nhất sẽ là chuỗi thứ ba Vậy từ đầu tiên của chuỗi thứ ba (C¡C;) sẽ
được chọn Thực hiện lại các bước cho đến khi được chuỗi từ hoàn chỉnh Cách này đạt được độ chính xdc 99.69%
Mô hình sử dụng phương pháp tách từ LRMM dạng đơn giản Mô hình này vừa
đơn giản, nhưng mang lại độ chính xác cao
21
Trang 232.2.2 Mô hình mạng WEST và mạng nơ-ron
WFST đã được áp dụng để tách từ tiếng Trung Quốc Ý tưởng cơ bản là áp dụng WEST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu Dùng
WEST để duyệt qua câu cần xét Cách duyệt có trọng số lớn nhất sẽ là cách tách từ
được chọn Giải pháp này cũng đã được áp dụng trong [5] kèm với mạng nơ-ron để
khử nhập nhằng
Mô hình tách từ trong VnMark sử dụng chính là mô hình WFST này (Xem chỉ tiết hon trong [1] trang 99-104, hay trong [5])
2.3 Tach cau
Trong một văn bản tiếng Anh hay bằng bất kỳ một.ngôn ngữ thông dụng nào
khác, thông thường thì ta chỉ đùng dấu chấm (2);:chấm than (!), cham hoi(?) và một số dấu khác nữa để nhận biết kết thúc câu (Tấ gọi những dấu này là những dấu báo hiệu kết thúc câu hay dấu chấm câu) Tuy nhiên, do tính nhập nhằng của dấu báo hiệu kết
thúc câu (chăng hạn như dấu kết thúc câu trong từ viết tắt, ) nên việc xác định ranh
giới câu không đơn giản như chúng tangiĩ Ví dụ như dấu chấm, nó có thé biéu thị như
một dấu chấm thập phân, một cụm từ kết thúc, sự kết thúc câu văn hoặc ngay cả từ viết tắt nằm ở cuối câu Một dấu chấm hỏi hay dấu chấm than có thể xuất hiện trong dấu
ngoặc đơn, ngoặc kép.Hay cũng như ở cuối câu Sự mập mờ của các dấu câu này được thể hiện qua các ví dụ Sau:
Ví dụ 2-3:
1 The group included Dr J.M Freeman and T Boone Pickens Jr
2 “This issue crosses party lines and crosses philosophical lines!” said Rep John Rowland (R., Conn.)
3 It was due Friday 5 p.m Saturday would be too late
4 She has an appointment at 5 p.m Saturday to get her car fixed
22