Nghiên cứu và ứng dụng các phương pháp tách từ cho tiếng Lào Nghiên cứu và ứng dụng các phương pháp tách từ cho tiếng Lào Nghiên cứu và ứng dụng các phương pháp tách từ cho tiếng Lào luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
Vixay PHOMMAVONG
NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP
TÁCH TỪ CHO TIẾNG LÀO
Chuyên ngành: KHOA HỌC MÁY TÍNH
LUẬN VĂN THẠC SĨ KHOA HỌC
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
Vixay PHOMMAVONG
NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP
TÁCH TỪ CHO TIẾNG LÀO
Chuyên ngành: KHOA HỌC MÁY TÍNH
Trang 3LỜI CẢM ƠN
Với tất cả tấm lòng, em xin gửi lời cảm ơn sâu sắc nhất đến cô, giáo viên hướng dẫn TS.Nguyễn Thị Thu Hương , người cô đã tận tình hướng dẫn, chỉ bảo
và tạo những điều kiện tốt nhất giúp em hoàn thành luận văn
Đồng thời em xin gửi lời cảm ơn chân thành đến toàn thể quý thầy và cô Trường Đại Học Báck khoa Hà Nội đã trang bị cho em những kiến thức trong học tập và nghiên cứu khoa học
Cuối cùng,em xin gửi lời cảm ơn đến gia đình, bạn bè và các đồng nghiệp
đã luôn động viên và cho em những lời khuyên bổ ích trong suốt quá trình thực hiện luận văn này
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)
Vixay PHOMMAVONG
Trang 4MỤC LỤC
LỜI CẢM ƠN 1
MỤC LỤC 2
DANH MỤC CÁC BẢNG 4
DANH MỤC CÁC HÌNH VẼ ……… 5
MỞ ĐẦU 6
1 Đặt vấn đề 6
2 Lý do chọn đề tài 6
3 Mục đích, phạm vi, đối tượng nghiên cứu của luận văn 7
4 Nội dung luận văn 8
CHƯƠNG 1.GIỚI THIỆU……….……….… 9
1.1 Xử lý ngôn ngữ tự nhiên…… ……… … ………9
1.2 Xử lý tiếng Lào……… ……….9
1.3.Bài toán tách từ, tách từ tiếng Lào, tiếng Thái……….……… ……10
1.4.Đặt bài toán tách từ văn bản tiếng Lào……… ……….10
1.5.Thực trạng và thách thức trong xử lý tiếng Lào……… 11
CHƯƠNG 2 NGÔN NGỮ TIẾNG LÀO 12
2.1 TÌM HIỂU TIẾNG LÀO 12
2.1.1 Giới thiệu tiếng Lào……… ……… ………12
2.1.2 Nguồn gốc của tiếng Lào và tiếng Thái……… 13
2.1.3 Những yếu tố ngữ pháp tiếng Lào ……….…….14
Trang 52.2.Tiếng Lào trong bối cảnh xử lý ngôn ngữ tự nhiên……… ……….23
2.2.1.Xây dựng các trình soạn thảo văn bản tiếng Lào……….……… …….…….23
CHƯƠNG 3 BÀI TOÁN TÁCH TỪ TIẾNG LÀO ……… … ……25
3.1 Bài toán tách từ ……… ………25
3.2 Các phương pháp tách từ……… ….……….………26
3.3 Biểu diễn văn bản tiếng Lào……… ……….……30
3.4 Biểu diễn từ điển 30
3.6 Bài toán tách từ tiếng Lào……… 35
3.6.1 Phương pháp tách từ tiếng Lào sử dụng biểu thức chính quy……….35
3.6.2 Xây dựng mô hình chứa theo cấu trúc ba tầng……… ……….…….…37
3.6.3 Phương pháp nhận diện từ trong câu……… ……41
3.6.4.Các giải pháp tách từ tiếng Lào……… …… 42
3.6.5 Các đại lượng đo độ chính xác………47
CHƯƠNG 4 ỨNG DỤNG TÁCH TỪ CHO TIẾNG LÀO………… … ……49
4.1.Lựa chọn công cụ………….……… ……….49
4.2.So sánh tiếng Lào và tiếng Thái……… … 50
4.3 Thử nghiệm và đánh giá ……… …… …53
KẾT LUẬN……….……… …54
TÀI LIỆU THAM KHẢO 55
Trang 6Bảng 2.1 Bảng cấu trúc âm tiết 7 thành phần ……… 15
Bảng 2.2.Bảng cấu trúc âm tiết ba tầng……….………… ….…16
Bảng 2.3 Bảng chữ cái chính của tiếng Lào……… ….……….….19
ảng 3.1 Vectơ từ đơn tiếng Lào……… ……… ….38
Bảng 3.2 Vai trò các thành phần của V1 và V2……… ……….38
ảng 3.3 Ví dụ cách tạo từ đơn tiếng Lào……… ………… …40
Bảng 4.1 So sánh chữ cái……….……….……50
Bảng 4.2 So sánh cấu trúc âm tiết……… ….…… 51
Bảng 4.3 So sánh cấu trúc từ đơn……… ……….… 52
Bảng 4.4 So sánh cấu trúc câu……….52
Bảng 4.5 bảng so sánh tiếng ……… ……….…53
ảng 4.6 Kết quả phương pháp tách từ……… ….…… 53
Trang 7DANH MỤC HÌNH VẼ
Hình 2.1 Bàn phím gõ tiếng Lào……….………….24
Hình 3.1 Đồ thị v hướng m tả CRF……… ………28
Hình 3.2 Cấu trúc dữ liệu trie……… ……….… 30
H nh 3.3 M h nh tách từ tiếng Lào……… ………35
Hình 3.4 Cấu trúc từ đơn trong tiếng Lào……… ……… ………36
H nh 3.5 Một số cấu tr c câu tiếng Lào……….……….… 40
H nh 3.6 Sơ đồ hối hàm word split……… …….42
H nh 3.7 Sơ đồ hối hàm find first word……… …….43
H nh 3.8 Sơ đồ hối hàm select best word……….……….44
H nh 3.9 Sơ đồ khối hàm is next word……… ……… 45
Trang 8MỞ ĐẦU 1.Đật vấn đề
Nghiên cứu về xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), truy vấn và khai thác thông tin ( IR-IE: Information Retrieval and Extraction), hệ thống hỏi đáp (Q&A: Question and Answer), tóm lược văn bản (ATS: Automatic Text Summarization), nhận dạng tiếng nói (SR: Speech Recognition) v.v từng bước giúp máy tính hiểu được tri thức của con người
Phân đoạn từ (WS:Word Segmention) là bước quan trọng trong xử lý những ngôn nhữ đơn lập như tiếng Việt ,tiếng Trung Quốc, tiếng Hàn , tiếng Thái và tiếng Lào Phân đoạn từ là việc xác định ranh giới giữa các từ trong câu, không giống như tiếng Anh và các ngôn ngữ Âu-Á khác, tiếng Lào không sử dụng khoảng cách làm dấu hiệu xác định ranh giới từ
Ranh giới giữa các từ không có dấu hiệu rõ ràng mà cần phải dựa vào các yếu
tố như: ngữ nghĩa, ngữ cảnh, văn phong, các từ lân cận, v.v Ngoài ra, vấn đề từ đa nghĩa, từ ghép cũng gây nhiều hó hăn trong việc phân đoạn từ tiếng Lào
2 Lý do chọn đề tài
Hiện nay, hoạt động khoa học công nghệ tại nước CHDCND Lào chưa thực sự phát triển, so sánh với các nước trong khối ASEAN, hay so sánh với nước láng giềng Thái Lan Điều này dẫn đến có rất ít chuyên gia về lĩnh vực XLNNTN, đặc biệt là XL tiếng Lào Mặc dù đã có nhiều hoạt động như Tin học hóa,sử dụng internet và các phương tiện truyền th ng hiện đại trong mọi khía cạnh của cuộc sống, các hoạt động này chưa thật sự đều hắp nước Lào và vắng thiếu sự trao đổi chuyên môn, hợp tác nghiên cứu khoa học Một hó hăn hác liên quan đến những đặc điểm chính tả của tiếng Lào trong vần đề xử lý văn bản
Về vấn đề tách từ, các c ng tr nh nghiên cứu tách từ tiếng Lào c n hạn chế, Trong các c ng tr nh nghiên cứu nói trên, hầu hết vẫn tồn tại vấn đề về việc xử l nhập nhằng V tiếng Lào có nhiều cách viết, cách nói và sử dụng từ h ng thống
Trang 9nhất, đặc biệt là đặc trưng của tiếng Lào h ng có dấu cách giữa các từ, do đó việc tách từ tiếng Lào sẽ rất hó hăn Tuy nhiên, tiếng Lào rất giống với một ngôn ngữ hác, đó là tiếng Thái Lan Hiện nay đã có một số công trình nghiên cứu về tách từ tiếng Thái cũng như phần mềm nguồn mở xử lý tiếng Thái Chúng tôi hy vọng với kiến thức học hỏi được trong quá trình thực hiện luận văn, có thể cải tiến công cụ tách từ tiếng Thái cho tiếng Lào để đạt hiệu quả tốt hơn
3.Mục đích , phạm vi , đối tƣợng nghiên cứu của luận văn
Mục đích nghiên cứu của đề tài:
Đề tài tìm hiểu các đặc trưng chính tả của hệ thống viết tiếng Lào, các
phương pháp tách từ , lựa chọn các phương pháp tách từ phù hợp và các điều kiện thử nghiệm cho tiếng Lào hiện tại
Nghiên cứu quá trình ứng dụng phần mềm đã có sẵn trong ngôn ngữ tiếng Thái cho tiếng Lào
Phát triển phần mềm áp dụng cho tiếng Lào để có thể xử lý vần đề nhập nhằng một cách thích hợp
Phạm vi nghiên cứu của luận văn
Phạm vi của đề tài tập trung nghiên cứu các phương pháp phân đoạn từ trên văn bản tiếng Lào.Với mục tiêu nêu trên, luận văn tập trung nghiên cứu các vấn đề sau đây:
1.) Cơ sở lý thuyết về ngôn ngữ bao gồm: các loại hình ngôn
ngữ, đơn vị chủ yếu của ngôn ngữ tiếng Lào, cấu trúc của đơn vị từ trong
tiếng Lào, nghiên cứu về từ vựng và hiện tượng nhập nhằng nghĩa của từ
2.) Các phương pháp phân đoạn từ
3.) Các phần mềm tách từ đã có sẵn trong tiếng Thái và tiếng Lào
Đối tƣợng nghiên cứu của luận văn
1.) Các bài toán liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý tiếng Lào và đặc trưng chính tả và ngữ pháp của hệ thống chữ viết tiếng Lào 2.) Các phương pháp giải quyết bài toán tách từ nói chung, giải quyết bài toán
Trang 104.Nội dung luận văn
Luận văn này gồm 4 chương chính như sau:
Chương 1: Trình bày tổng quan XLNNTN, XL tiếng Lào, Thái, bài toán tách
từ tiếng Lào, thực trạng và thách thức trong xử lý tiếng Lào
Chương 2: Trình bày về cơ sở lý thuyết tìm hiểu tiếng Lào, đặc trưng ngôn ngữ ,hệ thống ngôn ngữ , các âm tiết , các từ , các câu và hình hóa ba tầng của từ tiếng Lào
Chương 3:Trình bày về bài toán tách từ, các phương pháp tách từ, các giải
pháp tách từ ,mô hình tách từ và bài toán hướng tiếp cận như : so khớp tối đa, hay
cực đại MM (Maximum Matching), xác suất có điều kiện CRF (Conditional Random Field) ,vectơ hỗ trợ (Support Vector Machines) , mô hình Markov ẩn HMM (Hidden Markov Models) đã liên quan, giải pháp tách từ cho tiếng Lào
Chương 4 Trình bày về phần mềm tách từ tiếng Thái với giao diện web, việc
sử dụng phần mềm nguồn mở để tách từ tiếng Lào, thử nghiệm và đánh giá sự khác biệt tiếng Lào và tiếng Thái, các so sánh chữ cái, âm tiết ,phụ âm, nguyên âm ,thử nghiệm trên phần mềm, đánh giá và hướng phát triển
Trang 11CHƯƠNG 1 GIỚI THIỆU 1.1 Xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh
của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất,nó4 góp phần trong việc làm cho máy móc có thể hiểu được ngôn ngữ con người, từ đó tạo ra các hệ thống thông minh.V nó liên quan đến việc phải hiểu nghĩa ng n ngữ,công cụ hoàn hảo nhất của tư duy và giao tiếp
Xử l ng n ngữ là một ĩ thuật quan trọng nhằm gi p máy tính hiểu được
ng n ngữ của con người, qua đó hướng dẫn máy tính thực hiện và gi p đỡ con người trong những c ng việc có liên quan đến ng n ngữ như : dịch thuật, phân tích
dữ liệu văn bản, nhận dạng tiếng nói, t m iếm th ng tin
1.2 Xử lý tiếng Lào
XLNN cũng đóng một vai tr quan trọng trong việc đẩy mạnh sự phát triển CNTT ở Lào để sánh ngang với các cường quốc hác Tuy nhiên, XLNN tiếng Lào (XLNNTL) cũng vấp phải v vàn hó hăn, mà lớn nhất phải ể đến sự hó hăn
về nhân sự Những người nắm giữ những iến thức về XLNNTL quả thực h ng nhiều, và cũng h ng có được 1 mạng lưới liên ết, trao đổi và hỗ trợ một cách hiệu quả Ngoài ra, những hó hăn hác như h ng có dữ liệu đủ lớn, thiếu những nghiên cứu nền tảng, cũng hạn chế h ng ít sự phát triển của XLNNTL
Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên là tùy chọn Khi giao dịch với các tài liệu của tiếng Lào, phân đoạn từ là nhiệm vụ đầu tiên cho xử l văn bản tiếng Lào Tài liệu tiếng Lào không có ranh giới hoặc dấu phân cách giữa các từ và cũng như giữa các câu Do đó, để trích xuất nghĩa từ các tài liệu tiếng Lào, chúng ta cần chương tr nh phân đoạn từ
Trang 12Chương tr nh phân đoạn từ, trong luận văn này, ch ng t i đề xuất và triển khai dịch vụ web Người dùng có thể sử dụng dịch vụ này để giảm thời gian học tập của họ để phân đoạn tài liệu tiếng Lào và do đó có thể dành nhiều thời gian hơn để tập trung vào việc giải quyết các vấn đề ngữ nghĩa dịch vụ web của chúng tôi sẽ là dịch vụ web đầu tiên cho phân đoạn từ tiếng Lào hỗ trợ gắn thẻ từng phần dựa trên
ho văn bản hiện có của Lào
1.3.Bài toán tách từ, tách từ tiếng Lào, tiếng Thái
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá tr nh xác định các từ đơn, từ ghép… có trong câu Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết
Chính v l do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng
Đ ng Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ng n ngữ thuộc loại hình hóa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy đối với các ngôn ngữ thuộc vùng Đ ng Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ
1.4 Đặt bài toán tách từ văn bản tiếng Lào
Bài toán XLNNTN cho tiếng Lào lu n đặt ra những khó hăn, thách thức do đặc điểm ngôn ngữ của tiếng Lào Đặc biệt bài toán tách từ và bài toán liên quan là tách từ trong văn bản, hiện vẫn chưa có giải pháp hợp l , đồng bộ và khả thi để có thể áp dụng thực tiễn, cụ thể áp dụng cho xử l văn bản
Trong những chương tiếp theo, luận văn sẽ triển khai nghiên cứu chuyên sâu
về XLNNTN, ngôn ngữ Lào và phân tích, đánh giá những kết quả xử lý tiếng Lào
Trang 13đã được công bố Từ đó luận văn đề xuất giải pháp giải quyết triệt để bài toán tách
từ trong văn bản tiếng Lào trên cơ sở xây dựng cơ sở luật về đặc trưng ngữ pháp, tính chất nguyên âm của chữ viết để nhận diện một từ (âm tiết) tiếng Lào
1.5 Thực trạng và thách thức trong xử lý tiếng Lào
Hiện nay, lĩnh vực ứng dụng CNTT và Truyền thông tại nước CHDCND Lào vẫn còn hạn chế, cả về m i trường lẫn điều kiện Lào còn thiếu nhiều chuyên gia về khoa học công nghệ về CNTT nói chung, về lĩnh vực XLNNTN nói riêng
Cho đến những năm gần đây, vẫn có rất ít công trình NCKH thuộc lĩnh vực XLNNTN được áp dụng thực tiễn Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng internet và các phương tiện truyền thông hiện đại trong nhiều khía cạnh của cuộc sống, nhưng chưa đều khắp nước Lào, vắng thiếu sự trao đổi chuyên môn, hợp tác NCKH
Đặc biệt ở Lào vẫn còn có rất ít công trình nghiên cứu về xử lý tiếng Lào liên quan đến giải quyết bài toán tách từ, thiếu các kho dữ liệu từ vựng, đơn ngữ hoặc đa ngữ, thiếu các công cụ sẵn dùng theo định hướng mã nguồn mở (Open Sourse)
Trang 14CHƯƠNG 2 NGÔN NGỮ TIẾNG LÀO
2.1 TÌM HIỂU TIẾNG LÀO
2.1.1 Giới thiệu tiếng Lào
Nước CHDCND Lào có bốn dòng ngôn ngữ chính là Lào-Tai, MonKhơme, Chin-Tybệt và H'Mông-Miền thuộc 49 dân tộc khác nhau
Dòng ngôn ngữ Lào-Tai (hay hệ ngôn ngữ Lào-Thái) có 8 dân tộc là Lào, Xaek, Nhouan, Tai, Thai-Neua, Phouthai, Yang và Lue, chiếm 55% dân số cả nước.Tám dân tộc này sinh sống ở các vùng đồng bằng dọc sông Mê Kông, các nhánh sông
đổ về MêKông, có nghề nghiệp chủ yếu là trồng lúa nước và đánh bắt cá
Dòng ngôn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang, Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, Ta- Oy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong, Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou và Harak, chiếm 27% của dân số cả nước Những dân tộc này thường sống ở vùng đồng bằng và trung du, có nghề nghiệp chủ yếu là trồng lúa và làm nương
Dòng ngôn ngữ Chin-Tybệt có 7 dân tộc : Singsily, Sila, Lahu, LoLo, Hor, Akha, Hanyi, chiếm 11% của dân số cả nước Những dân tộc này thường sống ở phía Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu là làm nương rẫy
Dòng ngôn ngữ H'Mông-Miền chỉ có hai dân tộc là Hmong và Iewmien, chỉ chiếm 7% của dân số cả nước Hai dân tộc này sinh sống ở vùng núi cao miền Bắc, có nghề nghiệp chủ yếu là làm nương rẫy và chăn nuôi gia súc
Tiếng Lào-Tai là Quốc ngữ, được dùng trong giao tiếp chính thống và trong các văn bản h nh chính của nhà nước
Luận văn tập trung xử lý tiếng Lào-Tai, ngôn ngữ chính thức được dùng
Trang 15trong nước Lào, gọi là tiếng Lào, tương tự tiếng Việt -Kinh ở Việt Nam
2.1.2 Ngôn gốc của tiếng Lào và tiếng Thái
Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai, chịu ảnh hưởng của tiếng Phạn (梵 語; sa saṃskṛtā vā संस्कृता वाक्, một ngôn ngữ
cổ của Ấn Độ), ra đời từ khoảng thế kỷ XVI, là ngôn ngữ truyền thống của Hoàng tộc Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo, một ngôn ngữ hỗn hợp ở
Đ ng Nam Á Tiếng Lào, là ngôn ngữ đơn âm có thanh điệu, đa số vay mượn từ những ngôn ngữ cổ của Ấn Độ, như Paly, Sans rit của Đạo Phật, được phát triển rõ ràng vào giữa thế kỷ XX Cũng có những vay mượn từ tiếng Khơrme, tiếng Pháp, tiếng Anh và cả các ngôn ngữ khác trong khu vực Căn cứ vào nhiều tài liệu của các nhà ngôn ngữ Lào, người Lào đã sử dụng chữ cái Lào từ thế kỷ I (thời đại nước Lào
cổ điển) Chữ cái mà người Lào đã sử dụng trong thời kỳ này là một kiểu chữ kế thừa từ chữ Sanskrit của Đạo Phật trường phái Đại Thừa
Hệ thống chữ viết Lào phát triển trong một thời gian lâu dài, pha trộn với nhiều hệ ngôn ngữ hác như Thái, Ấn Độ, nhưng phần lớn thuộc dòng ngôn ngữ Lào-Tai Nhiều nhà ngôn ngữ, nhiều nhóm nghiên cứu đã thực hiện nhiều công việc
để phát triển và giữ gìn chữ cái Lào Năm 1975, ộ Giáo dục Lào công bố sử dụng tiếng Lào chính thức Vào lúc này chữ cái Lào mới được phát triển rõ ràng, hiện đại
và dễ sử dụng đối với người dân và tồn tại cho đến ngày nay
Tiếng Thái (ภาษาไทย, [phasa thai]) là ngôn ngữ của người Thái, Tiếng Thái chịu những ảnh hưởng của tiếng Phạn, các từ trong câu không có dấu cách Tiếng Lào có những thanh điệu và phát âm giống tiếng Thái đến hơn 80% V vậy, người Thái Lan và người Lào có thể đối thoại hiểu nhau được Dân địa phương ở Đ ng
bắc Thái Lan có thể nói chuyện dễ dàng với người Lào
Tuy có nguồn gốc như nhau, nhưng hai ng n ngữ này lại có nhiều điểm khác nhau Hình loại chữ tiếng Thái khác hình loại chữ tiếng Lào Bảng chữ cái tiếng Thái có nhiều ký tự hơn bảng chữ cái tiếng Lào Cách sử dụng ngôn ngữ và chính tả
Trang 16của hai ngôn ngữ cũng rất khác nhau, mặc dù cả hai hệ thống viết đều không sử dụng dấu phân cách từ, mà viết liền mạch
2.1.3 Những yếu tố ngữ pháp tiếng Lào
1) Âm tiết (Tiếng)
Âm tiết là đơn vị phát âm nhỏ nhất mà cho dù ta có phát âm chậm đến mấy đi nữa cũng h ng thể tách ra thành các phần nhỏ hơn được Tiếng Lào, một âm tiết bao giờ cũng được phát ra với một thanh điệu (dấu) Trên chữ viết, mỗi âm tiết tiếng lào được ghi thành một “ chữ ” và đọc thành một “ tiếng”
Một âm tiết có ít nhất 2 thành phần gồm có âm chính và nguyên âm Âm tiết dài nhất có 7 thành phần gồm có: âm chính, âm trước , âm sau, âm trên , âm dưới, âm cuối và thanh điệu
1 Phụ âm chính ( âm chính )
Phụ âm chính là phụ âm đứng ở vị trí thứ nhất hoặc là vị trí thứ 2 trong âm tiết, nó lu n lu n đặt là phụ âm thân chữ
2 Nguyên âm trước (âm trước )
Nguyên âm trước luôn luôn là yếu tố đứng ở vị trí thứ nhất hoặc là chữ cái đứng đầu âm tiết
3 Nguyên âm sau (âm sau)
Nguyên âm sau là nguyên âm được đặt ở sau phụ âm chính ,xác định bắt đầu âm mới hoặc là từ mới, nhưng âm sau c n có đặc điểm là khi nó hết hợp với nhau chữ
“ ະ ” là chữ kết thực không phải là chữ “ າ ”
4 Nguyên âm trên ( âm trên)
Nguyên âm trên là nguyên âm được đặt ở trên đứng ở vị trí phụ âm chính , nhưng thấp dưới thành điệu
5 Nguyên âm dưới ( âm dưới)
Trang 17Nguyên âm dưới là nguyên âm được đặt ở dưới đứng ở vị trí phụ âm chính
6 Phụ âm cuối ( âm cuối )
Phụ âm cuối có vị trí cuối cùng của âm tiết, nó có chức năng ết th c một âm tiết Do vậy hi có mặt của âm cuối th âm tiết h ng có hả năng ết hợp thêm với
âm (âm vị) nào hác ở phần sau của nó
7 Thanh điệu
Thanh điệu là một yếu tố thể hiện độ cao và sự chuyển biến của độ cao trong mỗi âm tiết Mỗi âm tiết tiếng Lào nhất thiết phải được thể hiện với một thanh điệu Thanh điệu có chức năng phân biệt vỏ âm thanh, phân biệt nghĩa của từ
Chú ý : thành điệu (dấu) trong tiếng Lào lu n lu n đặt ở tầng 1( tóc) đứng ở
vị trí thân chữ
Thành phần cấu trúc tạo âm tiết trong tiếng Lào thì quá khó, do vậy theo cấu trúc ngôn ngữ học tôi sẽ phân tích các thành phần cấu trúc tạo âm tiết bên dưới
là các hướng tiếp cận cấu trúc âm tiết 7 thành phần
Bảng 2.1 bảng cấu trúc âm tiết 7 thành phần :
Âm tiết Các thành phần cấu tạo âm tiết
Trang 18Âm trên
Âm dưới
Âm cuối Thành điệu
Có thể mô hình hóa cấu trúc âm tiết tiếng Lào theo 3 tầng lần lượt âm tiết bên dưới là : chân (tầng 3), thân (tầng 2) và tóc (tầng 1)
Tầng 1: gồm 7 nguyên âm ở trên và 4 thanh điệu
Tầng 2: gồm có 33 phụ âm chính, 5 nguyên âm đứng trước và 2 nguyên âm đứng sau
Tầng 3: gồm có 2 nguyên âm dưới
Dưới đây là m nh họa cấu trúc 3 tầng của âm tiết trong tiếng Lào
Bảng 2.2.bảng cấu trúc âm tiết ba tầng
Tóc ( tầng 1)
Thanh điệu ື
ຖ ບຓ Nguyên âm trên ື
Trang 19Thân chữ ( tầng 2)
Phụ âm chính ຖ Nguyên âm trước Nguyên âm sau ບ Phụ âm cuối ຓ
Chân ( tầng 3) Nguyên âm dưới
2).Bảng chữ cái tiếng Lào
Bảng chữ cái tiếng Lào gồm 3 nhóm : phụ âm, nguyên âm, dấu thanh và chữ số.l
Phụ âm :
Có 33 phụ âm đươc chia ra hai loại : phụ âm đơn và phụ âm ghép
Các phụ âm đơn gồm 27 âm đơn như:
Thứ tự 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Phụ âm ກ ຂ ຄ ຘ ຆ ງ ຈ ຉ ຊ ຌ ຍ ຎ
Trang 20Ngoài ra phụ âm trong tiếng Lào được chia 3 nhóm như: thấp, trung và cao Các phụ âm trung và cao có sự phát âm gần giống nhau
Trang 21Ví dụ: mái ệc ໂຓ ບກ, mái thô ໂຓເ, mái tri ໂຓຉ , mái chặt -ta -wa
Bảng 2.3 bảng chữ cái chính tiếng Lào
xງ, ື ພງ, ື ບ, ື ທ, ໂx, ແx, ື ຟ, ື ຟ
Trang 22Từ đơn
Từ đơn là từ có tổ hợp âm tiết ít nhất 2 âm tiết gồm có phụ âm và nguyên
âm Âm tiết dài nhất là 7 âm tiết (quy ước đặt phát âm IPA của một từ tiếng Lào giữa cặp gạch chéo)
Ví dụ: từ đơn 2 âm tiết :
ໂທ | vai | (nhanh) gồm phụ âm “ ທ ” và nguyên âm “ ໂ ”
Từ đơn 3 âm tiết:
ຂໄຟທ | khao | (tin) gồm phụ âm “ຂ”nguyên âm“ຟ” âm cuối “ທ”và dấu thanh
“່ ”
Từ ghép
Từ ghép được tổ hợp từ hai từ đơn trở lên , mang một nghĩa nào đó xác định
Có năm dạng ghép : ghép hai từ đơn có nghĩa hác nhau, ghép hai từ đơn có nghĩa tương đương, ghép hai từ đơn có nghĩa gần giống nhau, ghép nhiều từ đơn
(cụm/nhóm từ), ghép các từ của tiếng Pali và Sanskrit
Trang 23Ví dụ: ghép hai từ đơn có nghĩa hác nhau
| ຂ້ | ຉ ກ |ຖ ຄ| khor tốc lông| (nghị định) được ghép từ hai từ “ຂ້” khor (cầu)
và “ຉ ກຖ ຄ” tốc lông (đồng ý)
Ví dụ ghép hai từ đơn có nghĩa tương đương :
ຄ|ກຟຌ cheng karn (th ng báo) được ghép từ hai từ “ຄ” cheng (sang )
và “ກຟຌ” karn (các việc)
Ví dụ ghép hai từ đơn có nghĩa gần giống nhau :
ຖຟງ|ຄຟຌ lai ngan (th ng báo) được ghép từ hai từ “ຖຟງ” lai (sóc) và ຄຟຌ ngan (việc)
Ví dụ ghép nhiều từ đơn :
ກຟຌ | ຎຝ | ກຟຈ | ຉໄຄ | ຉພຄ:( Lễ công bố quyết định bổ nhiệm cán bộ )
Ví dụ ghép các từ của tiếng Pali và Sansakrit :
ູ : ູ| chùu chìi (quấy rầy)
Ví dụ láy hoàn toàn :
ໂທໂທ : ໂທ|ໂທ wai wai (nhanh nhanh)
ຆຟຆຟ : ຆຟ|ຆຟ xàa xàa (chậm chậm),
Ngoài ra còn có từ vay mượn của ngôn ngữ khác Ví dụ từ vay mượn :
Trang 24ເບເຉຓຟຉ ກ : ເບ|ເຉ|ຓຟ|ຉ ກ ô-tô-ma-tic (tự động)
2 Câu (The Sentence)
Tiếng Lào có hai loại câu : câu đơn và câu ghép
Câu đơn
Tương tự quan điểm ngữ pháp tiếng Việt, trong ngữ pháp tiếng Lào, câu đơn đơn gồm ba phần : chủ ngữ (danh từ hay đại từ), vị ngữ (động từ) và bổ ngữ Ví dụ câu đơn :
ກຟຌຖ ຄຝຍຽຌປຽຌຑຟກປຽຌ II
( Sinh viên đăng học kỳ II)
Được phân tách tương ứng như sau :
mà dùng dấu phẩy, dấu chấm phẩy hoặc dấu hai chấm và nối bằng quan hệ từ Có hai cách nối bằng quan hệ từ :
- Dùng các từ : và, rồi, th , nhưng, hay, hoặc
Trang 25| ຌ ໄບຄຟກຉຟຉຟຖຟຄປຽຌຓ ກຟຌຎໄຽຌຎຄ | ຈພໄຄຌ ພຌ | ເປຄປຽຌ ໄຄຎຝກຟຈແນ
ຌ ພກປຽຌ |
| Do thời khóa biểu thay đổi| nên | trường đã th ng báo cho sinh viên |
2.2.Tiếng Lào trong bối cảnh xử lý ngôn ngữ tự nhiên
2.2.1 Xây dựng các trình soạn thảo văn bản tiếng Lào
Tiếp cận đầu tiên về xử lý tiếng Lào là xây dựng các trình soạn thảo văn bản tiếng Lào liên quan đến bộ gõ sử dụng bảng mã Unicode và bộ mã cho ký tự Lào Hiện nay đã có nhiều trình soạn thảo văn bản tiếng Lào được phổ biến rộng rãi với nhiều phông chữ, đáp ứng được nhu cầu của NSD Đó là các phần mềm : Keyman, LaoScript for Windows, Lao Word Pro, Lao Pad, Lao Unikey sử dụng các phông chữ Lao95, Lao2000, LaoUnicode, Lào như Alice0, Alice1, Alice2, Phesarath OT, SaysetthaUnicode, Saysettha OT, Chantabuli Lao, Chantabuli 95, v.v Phần mềm soạn thảo văn bản được dùng nhiều nhất là LaoScript for Windows Tuy nhiên trong tất cả các trình soạn thảo văn bản,chưa có c ng tr nh nào được công bố về kiểm tra lỗi chính tả tiếng Lào
Sau đây là ví dụ một vài chữ cái Lào, khi sử dụng bộ gõ và phông chữ khác nhau dẫn đến sự hác nhau như :
Sử dụng bộ gõ LaoUnicode và phông chữ SaysetthaOT
Trang 26Hình 2.1 Bàn phím gõ tiếng Lào
Bộ chữ Lào hiện có mã unicode (The Unicode Standard, Version 9.0, 2016)
là dải mã từ 0E80 đến 0EFF trong hệ 16
Ba loại từ tiếng
Tiếng Lào là ngôn ngữ đơn lập khác ngôn ngữ tiếng nước ngoại bời vì phân chia từ cùng khác nhau và tiếng Lào có nhiều phân chia từ sau đây t i sẽ nói 3 loại tiếng chính như : Từ ngôn(từ tiếng Lào ngày xưa), Từ ghép (từ vay hoặc là từ pali
và sansakit) và Từ nước ngoại( tiếng anh, tiếng pháp)
Trang 27CHƯƠNG 3 BÀI TOÁN TÁCH TỪ TIẾNG LÀO 3.1 Bài toán tách từ
Trong quá trình xử lý bài toán tách từ, trước hết văn bản cần qua bước tiền
xử lí cơ bản như tách từ Bài toán tách từ (Word Segmentation), hay cũng có thể được gọi là tách các thuật ngữ (Tokenizer), là một quá trình xử lý nhằm xác định ranh giới (tách) của các từ trong câu, hoặc chỉ ra những từ nào không có trong từ điển cho trước (phát hiện đơn vị từ vựng mới) của một văn bản đầu vào đã cho Về mặt ngôn ngữ, cũng có thể hiểu đơn giản quá trình tách từ là xác định các từ đơn, từ ghép… có mặt trong câu (được kết thúc bằng các dấu chấm câu) Trong lĩnh vực XLNNTN, tách từ có vai trò quan trọng trong việc xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu
Tách từ quen thuộc, đơn giản với con người do tính trực quan, nhưng trong XLNNTN, bài toán tách từ rất khó giải quyết, đặc biệt là đối với các ngôn ngữ thuộc vùng Đ ng Á Các ng n ngữ này thường theo loại hình ngôn ngữ đơn lập, dựa trên các từ đơn âm tiết (tiếng) Ví dụ : tiếng Trung Quốc và các ngôn ngữ đồng văn như tiếng Việt, tiếng Nhật, tiếng Hàn, các ngôn ngữ như tiếng Thái, tiếng Lào Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ng n ngữ thuộc loại hình hòa kết (đa âm tiết) như tiếng Anh, các ngôn ngữ sử dụng chữ cái La Tinh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy đối với các ngôn ngữ thuộc vùng Đ ng Á, vấn đề của bài toán tách từ là khử bỏ được sự nhập nhằng trong ranh giới các từ
Bài toán tách từ là bài toán cơ bản đầu tiên trong các bài toán đặt ra cho XL NNTN Cũng có thể nói hầu hết các bài toán XL NNTN đều ứng dụng bài toán tách
từ Đó là phân tích h nh thái (Morphological Analysis), gán nhãn từ loại (POS tagging), nhận diện tên riêng, nhận diện ranh giới ngữ, gán nhãn ranh giới ngữ, gán nhãn quan hệ cú pháp, phân tích phụ tố (Affixes Analysis), phân tích ngữ pháp (Parser) xử l văn bản, kiểm lỗi chính tả, kiểm lỗi văn phạm, tóm tắt văn bản, phân
Trang 283.2 Các phương pháp tách từ
Để giải quyết bài toán tách từ, hay phân đoạn từ, cho đến nay đã nhiều phương pháp hác nhau, hướng tiếp cận hác nhau Đa số là các m h nh này đã được áp dụng thành công cho các ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Thái… và đều được tiếp tục cải tiến để phù hợp với đặc điểm của các ngôn ngữ khác Về tách từ tiếng Thái có các công trình tách từ của các công trình tách từ tiếng Việt các công trình tách từ tiếng Lào các công trình tách từ tiếng Trung
Sau đây là một số hướng tiếp cận :
- So khớp tối đa, hay cực đại MM (Maximum Matching)
- Sử dụng trường xác xuất có điều kiện CRF (Conditional Random
Field)
- Phương pháp máy học sử dụng vectơ hỗ trợ (Support Vector
Machines)
- Sử dụng mô hình Markov ẩn HMM (Hidden Markov Models)
- Sử dụng phương pháp máy học dựa trên sự cải biến TBL
(Transformation-Based Learning)
- Chuyển đổi trạng thái trọng số hữu hạn WFST (Weighted Finite
State Transducer)
- Độ hỗn loạn cực đại ME (Maximum Entropy)
Ngoài ra còn có thể kết hợp những phương pháp trên
Sau đây, ch ng t i sẽ tr nh bày hai phương pháp tách từ có thể vận dụng để giải quyết hiệu quả cho bài toán tách từ tiếng Lào
1) Phương pháp so khớp tối đa
Ý tưởng của phương pháp so hớp tối đa (Maximum Matching), hay còn được gọi là so khớp tối đa từ trái qua phải (From Left to Right Maximum Matching)
là duyệt một câu vào từ trái qua phải và chọn cụm từ dài nhất có mặt trong một từ
Trang 29điển từ vựng đã cho Quá tr nh này tiếp tục được lặp lại cho đến khi cụm từ tìm được có độ dài giảm dần cho đến hết câu
Thuật toán được trình bày có hai dạng sau :
Dạng đơn giản : Giả sử có một chuỗi các từ đơn trong câu là Thuật toán sẽ kiểm tra xem t1 có mặt trong từ điển hay h ng, sau đó iểm tra tiếp từ ghép
t1t2 có trong từ điển hay không Tiếp tục như vậy cho đến hi t m được cụm từ có nhiều từ nhất có mặt trong từ điển, và đánh dấu cụm từ đó Sau đó tiếp tục quá trình trên với tất các từ còn lại trong câu và trong toàn bộ văn bản Dạng này há đơn giản nhưng nó gặp phải rất nhiều nhập nhằng trong tiếng Lào
Dạng phức tạp : dạng này có thể tránh được một số nhập nhằng gặp phải
trong dạng đơn giản Đầu tiên thuật toán kiểm tra xem t1 có mặt trong từ điển
h ng, sau đó iểm tra tiếp có mặt trong từ điển không Nếu đều có mặt trong từ điển thì thuật toán thực hiện chiến thuật chọn 3-từ tốt nhất Hai tiêu chuẩn 3-từ tốt nhất được đề xuất liên quan đến độ dài trung bình và chênh lệch độ dài của
3 từ :
Độ dài trung bình của 3 từ là lớn nhất Ví dụ với chuỗi “quản lý nhân sự” sẽ được phân đoạn đ ng thành “quản lý | nhân sự”, tránh được việc phân đoạn sai thành “quản | lý nhân | sự” v cách phân đ ng phải có độ dài trung bình lớn nhất
Sự chênh lệch độ dài của 3 từ là ít nhất Ví dụ với chuỗi “hoạt động khoa học công nghệ” sẽ được phân đoạn đ ng thành “hoạt động | khoa học | công nghệ” thay v phân đoạn sai thành “hoạt động khoa | học công nghệ” Cả hai cách phần đoạn từ này đều có độ dài trung bình bằng nhau, nhưng cách phân đoạn từ đ ng có sự chênh lệch độ dài 3 từ ít hơn
Tuy hai tiêu chuẩn trên có thể hạn chế được một số nhập nhằng, nhưng không phải tất cả Ví dụ với câu “Ông X làm chủ nhiệm hoa” th cả 2 cách phân đoạn sau đều có cùng độ dài trung b nh và độ chênh lệch giữa các từ : “Ông X làm | chủ nhiệm hoa” và “Ông X | làm chủ nhiệm | hoa”, do đó thuật toán không thể chỉ ra cách phân tách đ ng được
Trang 302) Phương pháp sử dụng trường ngẫu nhiên có điều kiện CRF
Trong khi giải quyết các vấn đề trên nhiều lĩnh vực khoa học, người ta thường bắt gặp các bài toán về phân đoạn và gán nhãn dữ liệu dạng chuỗi Các mô hình xác suất phổ biến để giải quyết bài toán này là mô hình Markov ẩn (HMMs) và văn phạm thống kê (Stochastic Grammar, hay Statistical Grammar) Trong sinh học,
mô hình Markov ẩn và văn phạm thống ê đã thành c ng trong việc sắp xếp các chuỗi sinh học, tìm kiếm chuỗi tương đồng với một quần thể tiến hóa cho trước, và phân tích cấu trúc DNA Trong khoa học máy tính, mô hình Markov ẩn được ứng dụng rộng rãi trong hàng loạt vấn đề về xử l văn bản và tiếng nói, như là trích chọn
th ng tin, phân đoạn từ
Sau đây ch ng t i sẽ tr nh bày định nghĩa CRF, nguyên l cực đại hóa Entropy với việc xác định hàm tiềm năng cho CRF Sau đó là phương pháp huấn luyện mô hình CRF và thuật toán Viterbi dùng để suy diễn trong CRF
Định nghĩa xác xuất có điều kiện CRF
Kí hiệu X là biến ngẫu nhiên có tương ứng với chuỗi dữ liệu cần gán nhãn và
là biến ngẫu nhiên tương ứng với chuỗi nhãn Mỗi thành phần của là một biến ngẫu nhiên nhận trá trị trong một tập hợp hữu hạn các trạng thái Ví dụ trong bài toán phân đoạn từ, nhận giá trị là các câu trong ngôn ngữ tự nhiên, còn là chuỗi nhãn tương ứng với các câu này Mỗi thành phần của là một nhãn xác định phạm vi của một từ trong câu (bắt đầu một từ, ở trong một từ và kết thúc một từ)
Cho một đồ thị v hướng không có chu trình , trong đó :
- là tập hợp các cạnh v hướng của đồ thị
- là tập hợp các đỉnh của đồ thị sao cho
Khi đó, là tồn tại một ánh xạ một-một giữa một đỉnh đồ thị và một thành phần của Nếu mỗi biễn ngẫu nhiên tuân theo tính chất Mar ov đối với đồ thị , nghĩa là xác suất của biến ngẫu nhiên cho bởi và tất cả các biến ngẫu