Mục tiêu và nhiệm vụ Mục tiêu của đề tài: chuyên sâu vấn đề xử lý tiếng Khmer, từ đó đề xuất giải pháp ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer, xây dựng kho ngữ liệ
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
SƠN PHÚ QUÝ
ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ
TRONG VĂN BẢN TIẾNG KHMER
LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2017
Trang 2ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
SƠN PHÚ QUÝ
ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ
TRONG VĂN BẢN TIẾNG KHMER
Chuyên ngành : Khoa học máy tính
Mã số : 60.48.01.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS TS PHAN HUY KHÁNH
Đà Nẵng - Năm 2017
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác
Tác giả luận văn
SƠN PHÚ QUÝ
Trang 4TÓM TẮT LUẬN VĂN
ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN
TIẾNG KHMER
Học viên: Sơn Phú Quý - Chuyên ngành: Khoa học máy tính
Mã số: 60480101 - Trường Đại học Bách khoa
Tóm tắt – Luận văn đề cập việc ứng dụng cây tiền tố nhận diện từ trong văn bản
tiếng Khmer Cây tiền tố (một cấu trúc dữ liệu dùng để lưu trữ một mảng liên kết của các xâu ký tự được ứng dụng rộng rãi trong các thuật toán xử lý xâu bởi nó cung cấp nhiều phép toán giúp giảm thời gian thực hiện giải thuật) Phương pháp này quan trọng trong xử lý ngôn ngữ tiếng Khmer Trong tiếng Khmer không có dấu hiệu để phân biệt các từ trong câu Luận văn này sẽ ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer Giải pháp sử dụng kho ngữ liệu từ vựng phục
vụ việc tách từ Đây là một trong những giải pháp hiệu quả cho bài toán tách từ tiếng Khmer
Từ khóa – cây tiền tố; tách từ; tiếng Khmer; ngôn ngữ; kho ngữ liệu từ vựng
Abstract - Thesis refers to the application of trie identified in the Khmer text The
trie (a data structure used to store an associative array of strings is widely used in string processing algorithms because it provides many mathematical operations that reduce the algorithm execution time) This method is important in the Khmer language processing In Khmer there is no sign to distinguish the words in the sentence This thesis will apply the identification tree from the Khmer text Solution using vocabulary lexicon for word separation This is one of the effective
solutions for the Khmer word separation problem
Keyword - trie; magnetic separator; Khmer language; language; Vocabulary
glossary
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
TÓM TẮT LUẬN VĂN ii
MỤC LỤC iii
DANH MỤC CÁC CHỮ VIẾT TẮT v
DANH MỤC CÁC KÝ HIỆU vi
DANH MỤC CÁC BẢNG vii
DANH MỤC CÁC HÌNH viii
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục tiêu và nhiệm vụ 1
3 Đối tượng và phạm vi nghiên cứu 2
4 Giả thiết nghiên cứu 2
5 Phương pháp nghiên cứu 2
6 Ý nghĩa khoa học và thực tiễn của đề tài 2
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 3
1.1 Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer 3
1.1.1 Xử lý tiếng Việt-Kinh 3
1.1.2 Các bài toán trong xử lý tiếng dân tộc thiểu số (DTTS) 10
1.1.3 Các bài toán trong xử lý tiếng Khmer 11
1.2 Vấn đề nhận diện từ Khmer 11
1.2.1 Các phương pháp tách từ tiếng Việt 11
1.2.2 Tách từ tiếng dân tộc thiểu số (DTTS) 11
1.3 Tìm hiểu tiếng Khmer 12
1.3.1 Giới thiệu tiếng Khmer 12
1.3.2 Những vấn đề về ngôn ngữ 18
1.3.3 Những khó khăn trong xử lý tiếng Khmer 18
1.4 Một số phương pháp tách từ tiếng khmer 19
1.4.1 Phương pháp tách từ Conditional Random File (CRF) 19
1.4.2 Mô hình Bigram và mô hình chính tả âm tiết Bigram 19
1.4.3 Đánh giá hai phương pháp 20
CHƯƠNG 2 VẬN DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ KHMER 21
2.1 Cây tiền tố 21
2.1.1 Khái niệm 21
2.1.2 Các vận dụng cây tiền tố 21
2.1.3 Khả năng vận dụng xử lý tiếng Khmer 21
Trang 62.2 Giải pháp đề xuất 21
2.2.1 Mô hình giải pháp 21
2.2.2 Các bước triển khai 22
2.3 Xây dựng kho văn bản nhận diện từ 23
2.3.1 Xây dựng kho văn bản tiếng Khmer 23
2.3.2 Sử dụng cây tiền tố 23
2.3.3 Thiết kế cơ sở dữ liệu 24
2.3.4 Phân tích use case 25
2.3.5 Hiện thực hóa use case 26
CHƯƠNG 3 CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 27
3.1 Chuẩn bị môi trường thử nghiệm 27
3.1.1 Môi trường và công cụ 27
3.1.2 Chuẩn bị dữ liệu 27
3.1.3 Tiến hành thử nghiệm 27
3.1.4 Xây dựng tiêu chí đánh giá kết quả 29
3.2 Triển khai xây dựng ứng dụng 30
3.2.1 Các bước triển khai 30
3.2.2 Thu thập kết quả 30
3.3 Đánh giá kết quả thử nghiệm 30
3.3.1 Thống kê các kết quả 30
3.3.2 So sánh giải pháp với các giải pháp đã có 31
3.3.3 Đánh giá 31
3.3.4 Đề xuất vận dụng (cho tách từ) 31
KẾT LUẬN 32
TÀI LIỆU THAM KHẢO 33 QUYẾT ĐỊNH GIAO ĐỀ TÀI
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN
Trang 7DANH MỤC CÁC CHỮ VIẾT TẮT
CSGT Cảnh sát giao thông
DTTS Dân tộc thiểu số
ĐHCĐ Đại hội cổ đông
HĐQT Hội đồng quản trị
KHXH Khoa học xã hội
XLNNTN Xử lý ngôn ngữ tự nhiên
Trang 8Recall Tỷ lệ giữa các từ tách đúng trên tổng số từ cần tách
F-score Được sử dụng để đánh giá hiệu quả tổng thể của hệ thống
bằng cách kết hợp hai chỉ số Precision và Recall
UNK Ký hiệu ngoài tập Khmer Unicode
SUB Vị trí gửi chân
Trang 10DANH MỤC CÁC HÌNH
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Tiếng Khmer [kmɛər], hay tiếng Campuchia, tên Khmer ភាសាខ្មែរ [pʰiːəsaː kʰmaːe] Là ngôn ngữ của người Khmer, là ngôn ngữ chính thức của Campuchia Phân bố dân số: Campuchia khoảng 13 triệu người; Đông bắc Thái Lan khoảng 1,4 triệu người; miền nam Việt Nam khoảng 1 triệu người Hiện trạng sử dụng tiếng Khmer
ở Việt Nam: Người Khmer sống theo phum, sóc, xen kẽ với đồng bào Kinh Tại Trà Vinh có khoảng 300.000 người, chiếm tỉ lệ ~30% dân số
Mức độ sử dụng ngôn ngữ Khmer của cộng đồng người Khmer ở Trà Vinh, có khoảng 10% không biết nói, biết nghe tiếng Việt (người lớn tuổi, vùng sâu, vùng xa) 60% chỉ biết giao tiếp tiếng Việt đơn giản như chào hỏi, mời mọc, mua bán lặt vặt… 25% biết nói, biết nghe tiếng Việt trong sinh hoạt hàng ngày ở mức độ thông thạo 5% nói, nghe được tiếng Việt trong lĩnh vực chính trị, KHXH, kinh tế (những người làm việc Nhà Nước) [2]
Thực trạng tiếng Khmer trên mạng hiện nay: tìm kiếm từ khóa “trang tin Khmer”
có 493 000 kết quả bằng tiếng Việt – Kinh tuy nhiên vấn đề có rất ít trang web dùng tiếng Khmer Phát triển tiếng Khmer qua các phương tiện nghe nhìn, xử lý tiếng Khmer trong bối cảnh xử lý ngôn ngữ tự nhiên (XLNNTN) là nhu cầu bức thiết hiện nay
Bối cảnh của đề tài, trong lĩnh vực XLNNTN, xử lý tiếng Việt: Tính mặc nhiên trong suy nghĩ là xử lý tiếng Việt-Kinh Thực tế, các công trình nghiên cứu cho đến nay đều tập trung xử lý tiếng Việt-Kinh, đa dạng, phổ biến Mặc dù xử lý tiếng Việt-Kinh vẫn luôn là miền đất mới, vẫn luôn đặt ra nhiều thách thức Tuy nhiên trong số 55 dân tộc thiểu số Việt Nam: Hiện có rất ít công trình NCKH và ứng dụng liên quan đến
xử lý tiếng Khmer được công bố Có rất ít chuyên gia và tài liệu liên quan đến lĩnh vực
này
2 Mục tiêu và nhiệm vụ
Mục tiêu của đề tài: chuyên sâu vấn đề xử lý tiếng Khmer, từ đó đề xuất giải pháp ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer, xây dựng kho ngữ liệu từ vựng tiếng Khmer Hỗ trợ việc xử lý tiếng Khmer ở mức độ cao hơn
Nhiệm vụ: nghiên cứu ứng dụng XLNNTN, vấn đề xử lý tiếng Khmer Tiếp cận phương pháp nhận diện từ tiếng Khmer dựa vào thành phần tiền tố trong từ vựng tiếng Khmer Cài đặt thử nghiệm giải pháp nhận diện từ và kho ngữ liệu từ vựng Đánh giá giải pháp
Trang 123 Đối tượng và phạm vi nghiên cứu
Vấn đề thành phần tiền tố trong cấu tạo âm tiết Nguyên âm, phụ âm,
nguyên âm độc lập, ký tự đặc biệt Tiếp cận việc ứng dụng cây tiền tố nhận diện từ
trong văn bản tiếng Khmer Tổ chức kho ngữ liệu, cập nhật ngữ liệu từ vựng, vấn đề
tổ chức khai thác, tìm kiếm và xử lý văn bản tiếng Khmer
4 Giả thiết nghiên cứu
Vấn đề từ vựng, từ loại và chữ viết tiếng Khmer Cấu trúc câu đơn và câu phức
trong văn bản Hiện tượng nhập nhằng
5 Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết: Vận dụng các đặc trưng ngữ pháp tiếng Khmer Thành phần tiền tố, cây tiền tố và phương pháp xây dựng cây tiền tố
Phương pháp nghiên cứu thực nghiệm: Xây dựng cây tiền tố và ứng dụng trong
nhận diện từ tiếng Khmer, xây dựng từ điển từ vựng tiếng Khmer
6 Ý nghĩa khoa học và thực tiễn của đề tài
Về mặt ngôn ngữ: Nghiên cứu chuyên sâu về XLNNTN, ngôn ngữ Khmer,
đánh giá những kết quả xử lý tiếng Khmer đã được công bố Đề xuất giải pháp tách từ
dựa vào thành phần tiền tố trong một văn bản tiếng Khmer trên cơ sở xây dựng
mô hình cây tiền tố, xây dựng kho ngữ liệu từ vựng tiếng Khmer
Ý nghĩa: Tìm cách trao đổi chuyên môn, chia sẻ kinh nghiệm xử lý tiếng Khmer
với đồng nghiệp Campuchia (nếu có thể) Ứng dụng kết quả nghiên cứu theo định hướng mở Góp phần phát triển lĩnh vực XLNNTN tiếng Khmer, cụ thể tại
trường Đại học Trà Vinh
Trang 13CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN
1.1 Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer
1.1.1 Xử lý tiếng Việt-Kinh
Phân tách câu
Tiền đề cơ sở để tách câu:
Theo sách ngữ pháp tiếng Việt của Uỷ ban Khoa học Xã hội (1980): “Câu là đơn vị dùng từ hay đúng hơn dùng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp, và có tính chất độc lập” Dựa vào quan điểm này về câu ta sẽ xét một đơn vị ngôn ngữ có phải là câu hay không
Mục tiêu:
• Xác định ranh giới rõ ràng và nhất quán giữa các câu tiếng Việt Phân biệt đơn vị câu với các đơn vị nhỏ hơn câu (từ, ngữ…) và lớn hơn câu (đoạn, văn bản)
• Làm tiêu chí chính để xây dựng nên câu tiếng Việt trong ngữ liệu tiếng Việt
• Làm cơ sở để gán các nhãn ngôn ngữ cao hơn (tách từ, gán nhãn từ loại, phân tích cú pháp )
• Làm tiền đề cho các bài toán khác, như: dóng câu trong song ngữ Anh-Việt,
Pháp-Việt, dịch tự động Việt-Anh
Phân tích và nhận diện câu:
Phân tích câu:
Xét về cấu tạo có câu đơn, câu ghép
Câu đơn:
Một câu đơn cơ bản gồm có một nòng cốt đơn Nòng cốt đơn gồm có hai phần,
phần đề và phần thuyết (theo quan điểm ngữ pháp chức năng) mà quan điểm ngữ pháp
truyền thống gọi là chủ ngữ và vị ngữ
Ví dụ 1:
Bão Lekima cấp 11 / đang hướng vào Nghệ An - Hà Tĩnh
Mọi chuyện / rồi sẽ qua đi
Trong cấu tạo câu đơn có thể có những thành phần ngoài nòng cốt như thành phần than gọi, thành phần chuyển tiếp, thành phần chú thích, thành phần tình huống, thành phần khởi ý
Trang 14Chúng ta đi về đi, bà con ơi!
Khi thành phần than gọi đứng ở đầu câu thì ta xem nó là một câu Vì vốn dĩ thành phần than gọi đã có tính chất độc lập Hơn nữa, nó được ngăn cách với nòng cốt câu bằng dấu (!) nên ta xem nó như một câu đặc biệt
Chỉ còn lại những ngày cuối cùng
Điều chỉnh lại mình đi!
Câu ghép:
Về cấu trúc, câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế là một nòng cốt đơn Câu ghép cũng có thể có những thành phần ngoài nòng cốt như câu đơn Về cấu trúc câu ghép thì có hai loại câu ghép cơ bản là câu ghép song song (câu ghép đẳng lập) và câu ghép qua lại (câu ghép chính phụ)
Câu ghép song song (câu ghép đẳng lập)
Nếu cấu trúc câu đơn giản, ngắn gọn (gồm 2 vế mà mỗi vế là một nòng cốt đơn) thì ta giữ nguyên cấu trúc câu của ngữ liệu
Ví dụ 6:
Giọng của cháu đôi lúc đã nghẹn lại trong quá trình phiên dịch cho tổng thống và Chủ tịch nước, cháu đã cố kiềm chế những giọt nước mắt của mình vì quá xúc động
Trang 15Nếu cấu trúc câu ghép song song có hơn hai vế và quá phức tạp (gồm nhiều nòng cốt đơn) thì ta có thể tách thành những câu đơn Bởi vì quan hệ giữa các vế trong câu ghép song song không thật chặt chẽ và tách ra càng đơn giản thì việc xử lí dữ liệu
sẽ càng dễ dàng
Ví dụ 7:
“Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và sau
đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ, được như vậy thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng thỏa lòng rồi”
→ Câu trên là một câu ghép đẳng lập gồm nhiều nòng cốt đơn Ta có thể tách thành:
Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và sau đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ
Được như vậy thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng thỏa lòng rồi
Ví dụ 8:
Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm và họ sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và cuộc sống sau khi di dời
→ Theo ngữ nghĩa thì câu này có thể tách:
Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm Họ sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và cuộc sống sau khi di dời
Tuy nhiên ta nên hạn chế việc tách câu này, đặc biệt là với những câu ghép đẳng lập mà các vế câu được nối với nhau bằng kết từ (và, rồi, hay, còn).Vì việc tách câu này có thể làm cho câu cú gọn gàng nhưng ý nghĩa tự nhiên của ngữ liệu ít nhiều đã bị thay đổi
Câu ghép qua lại (câu ghép chính phụ)
Câu ghép chính phụ là câu ghép mà các vế trong câu phụ thuộc lẫn nhau, không thể tách ra được
Có thể nhận biết câu ghép chính phụ qua các cặp từ quan hệ như: nếu…thì, tuy…nhưng, do…mà, …
Ví dụ 9:
Trang 16- Dù họ là nhà thầu Nhật Bản nhưng nếu họ vi phạm pháp luật VN thì vẫn xử họ theo qui định của pháp luật VN
- Vả lại, đây là loại tội phạm mới thuộc về lĩnh vực khoa học kỹ thuật, vì vậy ngoài lực lượng điều tra của ngành công an, chúng tôi cần phải phối hợp với các ngành chuyên môn khoa học kỹ thuật khác để tìm ra nguyên nhân
Giả sử mẹ nắm 60% vốn của công ty con; vậy mẹ phải cử đại diện dự các phiên họp của ĐHCĐ của công ty con và biểu quyết theo số vốn góp
Nhận diện câu:
Nhận diện chung:
Với các kiểu câu bình thường như trên ta có thể nhận biết câu qua dấu câu: dấu chấm (câu tả, câu trần thuật, câu kể), dấu chấm than (câu cảm, câu cầu khiến), dấu chấm hỏi (câu hỏi)
Nhận diện câu trong hội thoại:
Trong hội thoại dấu 2 chấm (:) báo hiệu cho lời nói trực tiếp, và lời nói trực tiếp này nằm trong dấu ngoặc kép (“…”) hoặc bắt đầu sau dấu gạch đầu dòng (-) Trong trường hợp này, ta sẽ tách câu (nhận diện câu qua dấu hai chấm (:))
Ví dụ 10:
Ông cho biết:
- Căn cứ vào kết quả kiểm tra, khảo sát và những chứng cứ thu thập ban đầu từ các đơn vị nghiệp vụ, tôi nhận thấy đây là một vụ án đặc biệt nghiêm trọng, gây hậu quả lớn về người và của
Hắn nói: “Mày chạy trước đi.”
→Tách thành hai câu:
Hắn nói:
“Mày chạy trước đi.”
Đối với đoạn hội thoại có vế trích dẫn nằm ở cuối câu thì ta cũng sẽ tách câu Vì trong lời nói trực tiếp có nhiều câu, khi ta tách chúng ra thành những câu riêng biệt,
vế trích dẫn cuối cùng sẽ gắn với câu cuối cùng làm thành một câu khác có ý nghĩa khác thì câu sẽ trở nên sai Vì vậy ta sẽ tách vế này ra thành một câu
Ví dụ 11:
"CSGT có nhìn thấy cũng chịu chết vì đâu có len vào được mà xử phạt Nếu bắt dừng xe thì kẹt đường ngay”, một CSGT chốt tại đây nói
Trang 17→ tách thành 2 câu:
“Điều khác lạ ở VN so với nhiều nước châu Âu là các doanh nghiệp sản xuất
có thể tham gia phân phối, các qui định trong kinh doanh dược hiện có không qui định nhiệm vụ cụ thể của từng tổ chức trong dây chuyền phân phối”
Ông Andre nhận xét
Nhận diện câu sau dấu chấm phẩy (;)
Dấu chấm phẩy (;) thường dùng để chỉ ranh giới giữa các vế trong câu ghép song song Vì vậy ta có thể tách câu giống như câu ghép song song Ngoài những tiêu chí nhận diện câu qua câu ghép song song ta có những trường hợp khác sau:
Không nên tách câu khi sau dấu (;) là “thì”, “và”, “nên”
Ví dụ 13:
Giả sử, theo bản điều lệ, HĐQT có sáu thành viên; thì công ty mẹ phải thuyết phục các cổ đông trong ĐHCĐ bầu bốn người đại diện của họ vào HĐQT → không tách câu Nói một cách khác theo ngôn từ ta thường dùng, cơ quan chủ quản
ra lệnh cho công ty con ( 1 ) qua số vốn mình nắm và theo quyền biểu quyết đa số tương đối hay tuyệt đối trong ĐHCĐ của công ty con; và ( 2 ) có người đại diện của mình nắm đa số thành viên trong HĐQT → không tách câu
Sau dấu (;) không phải là “thì”, “và”, “nên” thì ta có thể tách câu được Riêng trường hợp sau “và” không phải là động từ, không phải là sự liệt kê thì cũng có thể tách được
Ví dụ 14:
Vốn của nó do Nhà nước bỏ vào; nó hoạt động theo chỉ thị của cơ quan chủ quản;
và cơ quan này là người nắm vốn duy nhất
→ Nên tách thành:
Vốn của nó do Nhà nước bỏ vào
Trang 18Nó hoạt động theo chỉ thị của cơ quan chủ quản
Và cơ quan này là người nắm vốn duy nhất
Sau dấu (;) là cặp từ “nhưng (để/ nếu/ muốn)…thì” thì cũng có thể tách câu được vì cặp từ này có khả năng tạo thành một câu có đủ ý nghĩa và hoạt động độc lập được
Ví dụ 15:
Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết; nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM phải họp ĐHCĐ hay HĐQT để ra quyết định
→ Nên tách thành:
Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết Nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM phải họp ĐHCĐ hay HĐQT để ra quyết định
Sau dấu (;) là một cụm từ có đầy đủ chủ vị và có khả năng độc lập thì cũng nên tách câu
Ví dụ 16:
Một nghiên cứu đã chứng minh rằng đối với các nước có trình độ phát triển thấp, mức độ phát triển xã hội là một nhân tố thích ứng với tăng trưởng; ở một trình độ cao hơn, mức độ này dẫn đến thay đổi về phát triển cơ sở hạ tầng và các thể chế kinh tế
Theo đó, chủ xe khách 63L-5796 Võ Hồng Xuân bị phạt 2,1 triệu đồng
Tài xế Đặng Hữu Thành (con bà Xuân) bị phạt 2,6 triệu đồng
Trang 19Tài xế xe khách 63L-5691 Lê Ngọc Trân bị phạt 2,1 triệu đồng
Tài xế xe khách 63L-5634 Nguyễn Văn Thủy bị phạt 430.000 đồng
Nhận diện câu sau dấu ngang (-):
Dấu ngang dùng để chỉ ranh giới của thành phần chú thích, đặt trước những lời đối thoại, liệt kê
Đối với câu có dấu ngang dùng để chỉ thành phần chú thích thì ta không nên tách câu
Ví dụ 18:
Cơn sốt vé trong năm nay không còn nghi ngờ gì nữa phải thuộc về ngôi sao nhạc nhẹ mới 14 tuổi Miley Cyrus, diễn viên ngôi sao của bộ phim truyền hình Hannah Montana trên Disney Channel - bộ phim nói về cuộc sống thú vị của một cô nàng vừa là sinh viên vừa là ngôi sao nhạc nhẹ
TTO - Sau một thời gian chạy thử nghiệm, Công ty VinaGame sẽ chính thức giới thiệu Zing MP3 - công cụ tìm kiếm âm nhạc trực tuyến đầu tiên tại Việt Nam vào đầu tháng tới
Trên đây là những trường hợp thông thường và một số trường hợp đặc biệt
mà công việc tách câu thường gặp phải (đặc biệt là đối với ngữ liệu lấy từ báo chí)
Thực tế nhận diện câu và một số vấn đề lưu ý khác:
Nhận diện câu trong văn bản thơ:
Khi trích dẫn thơ xuất hiện dấu / chúng ta phải tách câu
Tôi muốn buộc gió lại
Cho hương đừng bay đi”
Nhận diện câu qua dấu hai chấm, ngay sau đó có đánh số:
Ví dụ 20:
Người ta tổng kết có năm nguyên nhân bỏ học: (1) kinh tế gia đình khó khăn; (2) cha mẹ không quan tâm; (3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS
Trang 20yếu; (4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên; (5) HS thiếu chuyên cần, học lực kém
Tách thành:
Người ta tổng kết có năm nguyên nhân bỏ học:
(1) kinh tế gia đình khó khăn;
(2) cha mẹ không quan tâm;
(3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS yếu;
(4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên;
Trường hợp này không tách
Phân tách từ
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn,
từ ghép… có trong câu
Tự động thêm dấu: Chữ viết tiếng Việt là chữ viết có dấu thanh Trong các
văn bản chính thống như sách, báo chí, văn bản hành chính, các dấu thanh được viết chính xác Tuy nhiên trong cách tình huống không chính thống như chat, gõ tìm kiếm, người dùng thông thường không gõ các dấu thanh, dẫn tới khó khăn nhất định cho máy tính trong việc hiểu ý nghĩa của văn bản [4]
1.1.2 Các bài toán trong xử lý tiếng ânn ṭc thỉu ố DTTT)
Dịch tự động
Dịch tự động hay còn gọi là dịch là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ
Trang 21nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch
Phân tách từ: Tách từ là một bài toán quan trọng trong các hệ thống đánh chỉ mục
và tìm kiếm văn bản tiếng Khmer Mục đích của bài toán nhằm xác định ranh giới của các từ trong câu
Phân tách câu
1.2 Vấn đề nhận diện từ Khmer
1.2.1 Các phương pháp tác h từ tiếng Việt
Ghép cực đại: Đặt các từ vào câu sao cho phủ hết được câu đó, thoả mãn một số heuristic nhất định Phương pháp này các ưu điểm là rất nhanh, nhưng có rất nhiều hạn chế, ví dụ như độ chính xác thấp, không xử lý được những từ không có trong
1.2.2 Tác h từ tiếng ânn ṭc thỉu ố DTTT)
Tác h từ tiếng Jrai
Ghép cực đại: trong xử lý tách từ tiếng Jrai
Trang 22Tác h từ tiếng Kher
Ghép cực đại
Dựa trên các thành phần ngẫu nhiên có điều kiện
Mô hình tần suất xuất hiện từ liên tiếp hai âm tiết
Hướng tiếp cận dựa trên từ
Tiếp cận dựa trên ký tự
1.3 Tìm hiểu tiếng Khmer
1.3.1 Giới thiệu tiếng Kher
Tiếng Khmer [kmɛər], hay tiếng Campuchia, tên Khmer ភាសាខ្មែរ [phiːəsaː khmaːe]
Là ngôn ngữ của người Khmer, là ngôn ngữ chính thức của Campuchia Phân bố dân số: Campuchia khoảng 13 triệu người; Đông bắc Thái Lan khoảng 1,4 triệu người; miền nam Việt Nam khoảng 1 triệu người