1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào

99 395 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 2,51 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu, đối tượng và phạm vi nghiên cứu Mục đích của đề tài : Đề tài tìm hiểu các đặc trưng chính tả của hệ viết tiếng Lào, các phương pháp tách từ và PLVB đã được đề xuất cho tiếng

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC ĐÀ NẴNG

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC ĐÀ NẴNG

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học : PGS TS PHAN HUY KHÁNH

ĐÀ NẴNG, NĂM 2017

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu khoa học của cá nhân tôi dưới sự hướng dẫn trực tiếp của PGS.TS Phan Huy Khánh

Các dữ liệu, ví dụ và trích dẫn tham khảo trong luận án đảm bảo

độ tin cậy, chuẩn xác và trung thực

Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án

chưa từng được ai công bố trong bất kỳ công trình nào khác cho đến nay

Tác giả luận án,

VILAVONG SOUKSAN

Trang 4

MỤC LỤC

LỜI CAM ĐOAN iii

MỤC LỤC iv

DANH MỤC CHỮ VIẾT TẮT vii

DANH MỤC CÁC BẢNG viii

DANH MỤC CÁC HÌNH ix

MỞ ĐẦU 1

1.Mục tiêu, đối tượng và phạm vi nghiên cứu 3

2.Nhiệm vụ nghiên cứu và kết quả đạt được 4

3.Cấu trúc của luận án 4

4.Đóng góp của luận án 5

CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO 6

1.1.TÌM HIỂU TIẾNG LÀO 6

1.1.1 Giới thiệu tiếng Lào 6

1.1.2 Nguồn gốc của tiếng Lào 7

1.1.3 Những yếu tố ngữ pháp tiếng Lào 7

1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG 12

1.2.1 So sánh bảng chữ cái 13

1.2.2 So sánh cấu trúc âm tiết 14

1.2.3 So sánh cấu trúc từ vựng 14

1.2.4 So sánh cấu trúc câu 15

1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN 16

1.3.1 Giới thiệu một số kết quả xử lý tiếng Lào 16

1.3.2 Thực trạng và thách thức trong xử lý tiếng Lào 19

1.3.3 Đặt bài toán phân loại văn bản tiếng Lào 19

1.4.KẾT LUẬN CHƯƠNG 1 20

CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ 21

2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN 21

Trang 5

2.1.2 Khái niệm soạn thảo văn bản (STVB) 23

2.1.3 Xu thế soạn thảo văn bản hiện nay 24

2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN 24

2.2.1 Tìm hiểu bài toán phân loại văn bản 24

2.2.2 Quy trình giải quyết bài toán PLVB 25

2.2.3 Các phương pháp giải quyết bài toán PLVB 27

2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN 30

2.3.1 Tìm hiểu bài toán tách từ 30

2.3.2 Các phương pháp tách từ 31

2.3.3 Đánh giá hai phương pháp 35

2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO 37

2.4.1 Bài toán phân loại văn bản tiếng Lào 37

2.4.2 Nhu cầu giải quyết bài toán tách từ tiếng Lào 38

2.4.3 Đề xuất giải pháp triển khai 38

2.5.KẾT LUẬN CHƯƠNG 2 40

CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO 41

3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP 41

3.1.1 Vấn đề nhận diện từ trong câu tiếng Lào 41

3.1.2 Xây dựng mô hình cấu trúc của từ đơn 42

3.1.3 Giải pháp nhận diện từ trong câu 47

3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN 50

3.2.1 Xây dựng vị từ và hàm 50

3.2.2 Xây dựng cơ sở luật 53

3.2.3 Xây dựng máy suy diễn nhận diện từ đơn 54

Trang 6

3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ 56

3.2.4 Xây dựng kho ngữ vựng tiếng Lào 56

3.3.2 Áp dụng phương pháp so khớp tối đa 59

3.3.3 Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng 59

3.4.KẾT LUẬN CHƯƠNG 3 62

CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ 63

4.1.CHUẨN BỊ DỮ LIỆU 63

4.1.1 Phân tích hiện trạng trường ĐH Champasak 63

4.1.2 Thu thập dữ liệu HCVP tại trường ĐH Champasak 64

4.1.3 Xây dựng kho văn bản HCVP của trường ĐH Champasak 65

4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM 68

4.2.1 Xây dụng mô hình thử nghiệm 68

4.2.2 Chuẩn bị cơ sở thử nghiệm 68

4.2.3 Đề xuất PLVB sử dụng hai phương pháp SVM và RBF 71

4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 72

4.3.2 Thử nghiệm hai phương pháp tách từ CRF và MM 73

4.3.3 Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng 75

4.3.4 Thử nghiệm phân loại văn bản 76

4.4.KẾT LUẬN CHƯƠNG 4 80

KẾT LUẬN 81

TÀI LIỆU THAM KHẢO 84

Trang 7

DANH MỤC CHỮ VIẾT TẮT

1 Tiếng Anh

1 CRF Conditional Random Fields Trường điều kiện ngẫu nhiên

2 CL Computational Linguistics Ngôn ngữ học tính toán

3 MM Maximum Matching So khớp tối đa

5 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

7 RBF Radial BasisFunctions network Mạng hàm bán kính xuyên tâm cơ sở

8 SVM Support Vector Machine Máy vec tơ hỗ trợ

2 Tiếng Việt

1 CHDCND Lào Cộng hoà Dân chủ Nhân dân Lào

Trang 10

MỞ ĐẦU

Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN, ngôn ngữ của con người XL NNTN là miền đất cực kỳ khó khăn cho những ai mong muốn thâm nhập và khai thác Không những XL NNTN đòi hỏi người nghiên cứu phải

am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học, của Khoa học Máy tính

Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật Đây chính là nguyên nhân dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD) theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào

Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT) nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng, hay trực tuyến, một cách đáng kể Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ mọi hình thức, từ thương mại đến chính trị, quốc phòng Đặc biệt số lượng văn bản hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng Nếu như trước đây, VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự gia tăng các VBHC

Với thực trạng khối lượng thông tin đồ sộ cần xử lý, một vấn đề lớn đặt ra là làm sao tổ chức và tìm kiếm thông tin một cách có hiệu quả ? Giải quyết bài toán phân

Trang 11

những câu trả lời hợp lý Dĩ nhiên việc phân loại bằng cách thủ công là điều không thể thực hiện, một khi thông tin trực tuyến không những có khối lượng lớn, mà còn không được kiểm soát, thậm chí thiếu chất lượng, thiếu độ tin cậy, kể cả bị sai lạc Hướng giải quyết là nghiên cứu xây dựng một chương trình máy tính tự động phân loại

Hiện nay, tại trường Đại học Champasak, một trường Đại học tương đối lớn của nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn ra các hoạt động giao dịch hành chính, văn phòng rất khẩn trương và tấp nập Hàng ngày, cán bộ viên chức bận rôn thực hiện phân loại, lưu trữ các VBHC xuất hiện mọi lúc mọi nơi, sau đó lại phải tìm kiếm, xử lý các văn bản đó Việc phân loại thực tế là phân chia các văn bản theo đơn vị, theo lĩnh vực chuyên ngành đào tạo, khoa học công nghệ, kinh tế, pháp luật, văn hóa-xã hội…, theo thể loại như : nghị định, quyết định, báo cáo, đơn từ , v.v… Hệ quả thường thấy là việc xử lý văn bản thủ công luôn gặp sai sót, nhầm lẫn và nhiều khi không kịp tiến độ yêu cầu

Từ nhu cầu thực tiễn cần đổi mới hiệu quả hoạt động hành chính văn phòng (HCVP) tại trường Đại học Champasak, luận án đã nhằm đến mục tiêu giải quyết bài toán PLVB tiếng Lào tự động trên cơ sở giải quyết bài toán XL NNTN cho tiếng Lào

Hiện nay ở Lào, có rất ít công trình nghiên cứu thuộc lĩnh vực XL NNTN được

áp dụng thực tiễn Luận án không tìm cách phân tích nguyên nhân của những hạn chế này Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc phục Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với nước láng giềng Việt Nam Điều này dẫn đến có rất ít chuyên gia về lĩnh vực XL NNTN, đặc biệt là XL tiếng Lào Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng internet và các phương tiện truyền thông hiện đại trong mọi khía cạnh của cuộc sống, nhưng chưa thật đều khắp nước Lào và vắng thiếu sự trao đổi chuyên môn, hợp tác nghiên cứu khoa học Một nguyên nhân nữa là những đặc điểm chính tả của tiếng Lào trong vấn đề xử lý văn bản

Nếu trong hệ thống chữ viết tiếng Việt, có thể xem mỗi từ có thể có ba tầng, trong đó tầng giữa là các phụ âm và/hoặc nguyên âm, tầng trên và tầng dưới là các dấu thanh, thì chính tả của tiếng Lào, kể cả tiếng Thái và tiếng Khmer, cũng sử dụng ba tầng (chân, thân và tóc) nhưng phức tạp hơn nhiều (xem hình 1 minh họa dưới đây) Chữ viết Lào khác về kiểu chữ nhưng có cấu trúc tương tự chữ viết Thái và Khmer Cả ba ngôn

Trang 12

ngữ này đều không sử dụng dấu khoảng cách (Space) giữa các từ trong câu Chính sự vắng mặt của các dấu khoảng trống để phân cách các từ, hay âm tiết, đã dẫn đến hiện tượng nhập nhằng, đa nghĩa… gây khó khăn không nhỏ trong lĩnh vực XL NNTN nói chung, xử lý tiếng Lào trên máy tính nói riêng [38][45][47][49]

Cho đến thời điểm hoàn thành luận án này, vẫn chưa có những kết quả nào mới liên quan đến nội dung thực hiện của đề tài là tách từ và phân loại văn bản tiếng Lào

Tra trên google với từ khóa tiếng Anh “ Lao document Segmentation” hay “ Lao

document Classification” hoặc tiếng Lào “ ”, “ ຈ ແ ເອ ະ ” Có rất ít kết quả liên quan trong những năm gần đây

1 Mục tiêu, đối tượng và phạm vi nghiên cứu

Mục đích của đề tài :

Đề tài tìm hiểu các đặc trưng chính tả của hệ viết tiếng Lào, các phương pháp tách từ và PLVB đã được đề xuất cho tiếng Anh, tiếng Thái và tiếng Việt, đánh giá hiệu quả của các phương pháp này, đề xuất được giải pháp tách từ hiệu quả, lựa chọn các phương pháp PLVB phù hợp và các điều kiện thử nghiệm, từ đó áp dụng giải quyết bài toán PLVB kết hợp tách từ tiếng Lào, thử nghiệm phân loại các VBHC của trường ĐH Champasack, nước CHDCND Lào và đánh giá các kết quả thử nghiệm

Đối tượng nghiên cứu :

1 Các bài toán liên quan đến lĩnh vực xử lý NNTN, XL tiếng Lào và đặc trưng chính tả và ngữ pháp của hệ thống chữ viết Lào

2 Các phương pháp giải quyết bài toán tách từ và PLVB nói chung, giải quyết cho bài toán tách từ và PLVB tiếng Lào nói riêng

3 Các hoạt động HCVP mang tính thực tiễn tại trưởng Đại học Champasak, nước CHDCND Lào

Trang 13

2 Nhiệm vụ nghiên cứu và kết quả đạt được

Để đạt được mục đích đã đề ra trên đây, luận án hướng đến ba nhiệm vụ chính như sau :

1 Nghiên cứu chuyên sâu về XL NNTN, các đặc trưng ngôn ngữ và chính tả tiếng Lào Phân tích, đánh giá những kết quả xử lý tiếng Lào đã được công

bố cho đến nay và phân tích hiện trạng các hoạt động HCVP mang tính thực tiễn tại trưởng Đại học Champasak

2 Đề xuất giải pháp phân tách từ hiệu quả trong một văn bản tiếng Lào trên cơ

sở xây dựng kho ngữ liệu từ đơn và cụm từ tiếng Lào, xây dựng cơ sở luật

và máy suy diễn dựa trên các đặc trưng ngữ pháp của hệ viết Lào

3 Tìm chọn các phương pháp PLVB hiệu quả cho tiếng Lào, đề xuất mô hình thử nghiệm PLVB kết hợp tách từ tiếng Lào sử dụng các giải pháp đề xuất

và các kho ngữ vựng đã xây dựng

3 Cấu trúc của luận án

Sau phần mở đầu, nội dung của luận án gồm bốn chương như sau :

Chương 1 giới thiệu nguồn gốc và một số đặc trưng cơ bản của tiếng Lào, so sánh đặc điểm ngôn ngữ với một số ngôn ngữ láng giềng Việt Nam, Thái và Khmer, phân tích bối cảnh XL NNTN và xử lý tiếng Lào và đặt bài toán PLVB kết hợp giải quyết bài toán tách từ tiếng Lào

Chương 2 trình bày tổng quan về lý thuyết phân tách từ, PLVB, trong đó, luận án tập trung giới thiệu các thuật toán phân tách từ, PLVB và các hướng nghiên cứu liên quan, từ đó đề xuất giải pháp và các bước triển khai thử nghiệm PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak, nước CHDCND Lào

Chương 3 tập trung đề xuất giải pháp xây dựng mô hình nhận diện từ giải quyết bài toán tách từ trong văn bản tiếng Lào dựa trên cơ sở luật về đặc trưng ngữ pháp và tính chất của nguyên âm, phụ âm, xây dựng cơ sở dữ liệu (CSDL) chữ cái, các kho ngữ vựng từ đơn và cụm từ, xây dựng máy suy diễn (MSD) phục vụ giải quyết bài toán tách từ kết hợp xử lý nhập nhằng

Chương 4 phân tích hoạt động HCVP tại trường Đại học Champasak, xây dựng kho văn bản HCVP theo một số lĩnh vực được chọn, trình bày các bước thử nghiệm từ kho VBHC tiếng Lào đã xây dựng, đánh giá kết quả thử nghiệm PLVB dựa trên hướng

Trang 14

tiếp cận SVM và sử dụng mạng nơ ron RBF kết hợp sử dụng các phương pháp tách từ CRF và sử dụng cơ sở luật, tiến hành đánh giá so sánh các kết quả thử nghiệm

Sau bốn chương trên là phần kết luận và hướng phát triển của đề tài Phần cuối luận án là danh mục các tài liệu tham khảo, danh mục các công trình khoa học đã được công bố và các phụ lục liên quan

4 Đóng góp chính của luận án

1 Đề xuất mô hình cấu trúc từ đơn dựa trên đặc trưng của hệ viết tiếng Lào, từ

đó xây dựng cơ sở luật và máy suy diễn cho phép nhận diện và bóc tách từ đơn trong một văn bản để giải quyết bài toán tách từ và PLVB tiếng Lào

2 Xây dựng kho ngữ vựng từ đơn và từ ghép, kho văn bản HCVP tiếng Lào trên cơ sở phân tích hiện trạng tại trường Đại học Champasack, CHDCND Lào để phục vụ thử nghiệm tách từ và PLVB tiếng Lào

3 Đề xuất giải pháp tách từ sử dụng phương pháp so khớp tối đa kết hợp sử dụng cơ sở luật để xử lý nhập nhằng từ các kho ngữ vựng đã xây dựng mới

4 Cài đặt hệ thống thử nghiệm, đánh giá kết quả sử dụng các phương pháp PLVB kết hợp các phương pháp tách từ tiếng Lào, cho phép ứng dụng thực tiễn phục vụ các hoạt động HCVP tại trường Đại học Champasack

Trang 15

CHƯƠNG 1

VẤN ĐỀ XỬ LÝ TIẾNG LÀO

1.1 TÌM HIỂU TIẾNG LÀO

1.1.1 Giới thiệu tiếng Lào

Nước CHDCND Lào có bốn dòng ngôn ngữ chính là Lào-Tai, Mon-Khơme, Chin-Tybệt và H'Mông-Miền thuộc 49 dân tộc khác nhau[46]

Dòng ngôn ngữ Lào-Tai (hay hệ ngôn ngữ Lào-Thái) có 8 dân tộc là Lào, Xaek, Nhouan, Tai, Thai-Neua, Phouthai, Yang và Lue, chiếm 55% dân số cả nước Tám dân tộc này sinh sống ở các vùng đồng bằng dọc sông Mê Kông, các nhánh sông đổ về Mê Kông, có nghề nghiệp chủ yếu là trồng lúa nước và đánh bắt cá

Dòng ngôn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang, Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, Ta-

Oy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong, Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou và Harak, chiếm 27% của dân số cả nước Những dân tộc này thường sống ở vùng đồng bằng và trung du, có nghề nghiệp chủ yếu là trồng lúa và làm nương

Dòng ngôn ngữ Chin-Tybệt có 7 dân tộc : Singsily, Sila, Lahu, LoLo, Hor, Akha, Hanyi, chiếm 11% của dân số cả nước Những dân tộc này thường sống ở phía Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu là làm nương rẫy

Dòng ngôn ngữ H'Mông-Miền chỉ có hai dân tộc là Hmong và Iewmien, chỉ chiếm 7% của dân số cả nước Hai dân tộc này sinh sống ở vùng núi cao miền Bắc, có nghề nghiệp chủ yếu là làm nương rẫy và chăn nuôi gia súc

Tiếng Lào-Tai là Quốc ngữ, được dùng trong giao tiếp chính thống và trong các VBHC của nhà nước

Luận án tập trung xử lý tiếng Lào-Tai, ngôn ngữ chính thức được dùng trong nước Lào, gọi là tiếng Lào, tương tự tiếng Việt Kinh ở Việt Nam

Trang 16

1.1.2 Nguồn gốc của tiếng Lào

Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai,

chịu ảnh hưởng của tiếng Phạn (梵 語; sa saṃskṛtā vāk संस्कृता वाक्, một ngôn ngữ cổ của Ấn Độ), ra đời từ khoảng thế kỷ XVI, là ngôn ngữ truyền thống của Hoàng tộc Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo, một ngôn ngữ hỗn hợp ở bán đảo Đông Nam Á Tiếng Lào, là ngôn ngữ đơn âm có thanh điệu, đa số vay mượn từ những ngôn ngữ cổ của Ấn Độ, như Paly, Sansakit của Đạo Phật, được phát triển rõ ràng vào giữa thế kỷ XX Cũng có những vay mượn từ tiếng Khơme, tiếng Pháp, tiếng Anh và cả các ngôn ngữ khác trong khu vực Căn cứ vào nhiều tài liệu của các nhà ngôn ngữ Lào, người Lào đã sử dụng chữ cái Lào từ thế kỷ I (thời đại nước Lào cổ điển) Chữ cái mà người Lào đã sử dụng trong thời kỳ này là một kiểu chữ kế thừa từ chữ Sansakit của Đạo Phật trường phái Đại Thừa

Tiếng Lào có những thanh điệu và phát âm gần gũi với tiếng Thái Khác với tiếng Việt, tiếng Anh và các ngôn ngữ Châu Âu, tiếng Lào không sử dụng các dấu khoảng trống (Space) giữa các chữ viết Chữ viết Lào tương tự một số ngôn ngữ thuộc nhóm Mon-Khơme, Mông-Dao…, như tiếng Thái, tiếng Khmer, tiếng Mianma

Hệ thống chữ viết Lào phát triển trong một thời gian lâu dài, pha trộn với nhiều

hệ ngôn ngữ khác như Thái, Ấn Độ, nhưng phần lớn thuộc dòng ngôn ngữ Lào-Tai Nhiều nhà ngôn ngữ, nhiều nhóm nghiên cứu đã thực hiện nhiều công việc để phát triển và giữ gìn chữ cái Lào Năm 1975, Bộ Giáo dục Lào công bố sử dụng tiếng Lào chính thức Vào lúc này chữ cái Lào mới được phát triển rõ ràng, hiện đại và dễ sử dụng đối với người dân và tồn tại cho đến ngày nay [34][46][47][49]

1.1.3 Những yếu tố ngữ pháp tiếng Lào

1 Bảng chữ cái tiếng Lào

Bảng chữ cái tiếng Lào gồm 3 nhóm : phụ âm, nguyên âm và dấu thanh và chữ

số [6][39][47][49]

1 Phụ âm :

Có 33 phụ âm được chia ra hai loại : phụ âm đơn và phụ âm ghép

Trang 17

Tiếng Lào có 4 dấu thanh : ີ , ີ , ີ , ີ và 3 dấu cuối : ຯ, ໆ, ີ Ví dụ mái

ệc ໄມ ເອກ, mái thô ໄມໂທ, mái tri ໄມ ຕ , mái chặt -ta -wa ໄມ ຈ ດຕະວາ

Khi viết, vị trí thanh điệu được đặt ở phụ âm hoặc ở nguyên âm tùy vào vị trí của nguyên âm trong âm tiết (khác với tiếng Việt chỉ đặt ở nguyên âm) Ngoài ra, âm sắc thanh điệu tiếng Lào không hoàn toàn trùng khớp với thanh điệu tiếng Việt

Trang 18

2 Hệ thống từ vựng tiếng Lào

Tiếng Lào là ngôn ngữ đơn âm (một từ chỉ có một âm tiết) Cách tạo từ cũng tương tự tiếng Việt, mỗi từ được tổ hợp từ các chữ cái (phụ âm, nguyên âm) và các dấu thanh Từ vựng tiếng Lào có hai loại là từ đơn (giản) và từ phức (hợp) Từ phức gồm từ ghép, từ láy

1 Từ đơn :

Từ đơn chỉ có một âm tiết Một âm tiết có ít nhất 2 ký tự gồm có phụ âm và nguyên âm Âm tiết dài nhất có 7 ký tự Ví dụ từ đơn có 2 ký tự (quy ước đặt phát âm IPA của một từ tiếng Lào giữa cặp gạch chéo) gồm một âm tiết :

ຂ / khor / (điều khoản) gồm phụ âm ຂ và nguyên âm

Ví dụ từ có 2 âm tiết : ໂຮງຮຽນ (trường học) /ໂຮງ/ຮຽນ/

Từ có 6 âm tiết : ມະຫາວ ທະຍາໄລ (đại học) /ມະ/ຫາ/ວ /ທະ/ຍາ/ໄລ/

Trong cấu tạo từ đơn, có tám phụ âm : ກ, ງ, ຍ, ດ, ນ, ບ, ມ, ວ vừa là phụ âm đầu vần vừa được sử dụng làm phụ âm cuối từ, phụ âm khác chỉ xếp đầu vần của từ Khi tám phụ âm này dùng làm phụ âm cuối vần, cần đặt sau các nguyên âm lần lượt từ -າ, ີ , ີ ,… đến ເ-ຍ, không đứng cuối vần với các nguyên âm : ໄ, ເີ າ, ີ າ, ໃ Các từ có các phụ âm hỗn hợp đứng đầu vần như : ກວ, ຂວ, ຄວ, ງວ được xếp sau các từ có phụ

âm cuối vần chót của từ đó Cuối từ nếu ghép với nguyên âm và hai dấu đặc biệt như : ີ , thì trở thành nguyên âm ghép như : າກ, ີ ກ, ີ ກ, ີ ກ, ເີ ກ, ເີ ກ, າງ, ີ ງ, ີ ງ

,ີ ງ, v.v…

Có thể mô hình hoá cấu trúc từ tiếng Lào theo ba tầng lần lượt từ dưới lên là chân (tầng 3), thân (tầng 2) và tóc (tầng 1)

Tầng 1 gồm dấu thanh điệu và các nguyên âm trên

Tầng 2 gồm có các phụ âm trung tâm và phụ âm ghép ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ,

ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ຫນ, ຫມ, ຫວ,

ຫງ, ຫຍ, ຫລ

Trang 19

Tầng 3 là một nguyên âm dưới trong số nguyên âm Hình dưới đây minh hoạ cấu trúc ba tầng của một từ (hay âm tiết) tiếng Lào

Hình 1.1 Cấu trúc ba tầng của chữ Lào

2 Từ ghép :

Từ ghép được ghép lại từ hai từ đơn trở lên, mang một nghĩa nào đó xác định

Có năm dạng ghép : ghép hai từ đơn có nghĩa khác nhau, ghép hai từ đơn có nghĩa tương đương, ghép hai từ đơn có nghĩa gần giống nhau, ghép nhiều từ đơn (cụm/nhóm từ), ghép các từ của tiếng Pali và Sansakit

Ví dụ ghép hai từ đơn có nghĩa khác nhau :

/ຂ /ຕ ກ/ລ ງ/ /khor tốc lông/ (nghị định) được ghép từ hai từ ຂ / khor / (cầu) và

ຕ ກລ ງ / tốc lông / (đồng ý)

Ví dụ ghép hai từ đơn có nghĩa tương đương :

/ແຈ ງ/ການ/ /cheng karn/ (thông báo) được ghép từ hai từ ແຈ ງ /cheng/ (sang ) và ການ /karn/ (các việc)

Ví dụ ghép hai từ đơn có nghĩa gần giống nhau :

/ລາຍ/ງານ/” /lai ngan/ (thông báo) được ghép từ hai từ ລາຍ /lai/ (sóc) và ງານ /ngan/ (việc)

Ví dụ ghép nhiều từ đơn :

/ກ ນປ ກ ດ ຕ ງຕ ງ /Lễ công bố quyết định bổ nhiệm cán bộ /

Ví dụ ghép các từ của tiếng Pali và Sansakit :

ກ, ຂ, ຄ,…

ຈ, ສ,

Trang 20

ໜ ອຍໜ ງ /ໜ ອຍ/ໜ ງ/ /noi noeng/ (một ít)

ຈ ຈ ” /ຈ //ຈ /chùu chìi/ (quấy rầy)

Ví dụ láy hoàn toàn :

ໄວໄວ /ໄວ/ໄວ /wai wai/ (nhanh nhanh)

3 Cấu trúc câu trong tiếng Lào

Tiếng Lào có hai loại câu : câu đơn và câu ghép

1 Câu đơn

Tương tự quan điểm ngữ pháp tiếng Việt, trong ngữ pháp tiếng Lào, câu đơn đơn gồm ba phần : chủ ngữ (danh từ hay đại từ), vị ngữ (động từ) và bổ ngữ Ví dụ câu đơn :

ກ ນລ ງທ ບຽນຮຽນພາສາວຽດນາມທ ມ ຫ ວ ທ ຍ ລຈ ປ ສ ກ

(Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack)

Được phân tách tương ứng như sau :

từ ngữ có tác dụng nối, nối trực tiếp, không dùng từ ngữ có tác dụng nối, mà dùng dấu phẩy, dấu chấm phẩy hoặc dấu hai chấm và nối bằng quan hệ từ Có hai cách nối bằng quan hệ từ :

Trang 21

| ຮງຮຽນ ດ ຈ ດຕ ງ ຫ ນ ກສ ກສ ປທ ດສ ນ ສ ກສ | ລ |ມ ອ ຈ ນນ ພ ປ | (Trường tổ chức cho sinh viên tham quan và cử cán bộ phụ trách đi theo)

- Dùng các cặp quan hệ từ : Vì … nên (cho nên) … ; do … nên (cho nên)…

- Ví dụ :

| ນ ອງ|ຈ ກຕ ລ ງຮຽນມ ກ ນປ ຽນ ປງ|ດ ງນ ນ| ຮງຮຽນຈ ງປ ກ ດ ຫ ນ ກຮຽນ| (|Vì|thời khoá biểu thay đổi| nên |nhà trường đã thông báo cho sinh viên|)

1.2 SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG

Trong luận án, chúng tôi tiến hành so sánh tiếng Lào với ba ngôn ngữ là tiếng Thái, tiếng Việt và tiếng Khmer Về nguồn gốc, tiếng Lào thuộc ngữ chi Thái trong hệ ngôn ngữ Tai-Kadai, chịu nhiều ảnh hưởng của tiếng Phạn[16][18][34][38][49]

Tiếng Thái (ภาษาไทย, [phasa thai]) là ngôn ngữ của người Thái, dân tộc chiếm đa số ở Thái Lan, là ngôn ngữ quốc gia, chính thức của Thái Lan Tiếng Thái thuộc nhóm ngôn ngữ Thái của hệ ngôn ngữ Tai-Kadai, có nguồn gốc từ vùng miền Nam Trung Quốc ngày nay, có mối liên hệ với các hệ ngôn ngữ Nam Á, Nam Đảo, hoặc Hán-Tạng Tiếng Thái chịu những ảnh hưởng của tiếng Phạn, các từ trong câu không có dấu cách Tiếng Lào có những thanh điệu và phát âm giống tiếng Thái đến hơn 80% Vì vậy, người Thái Lan và người Lào có thể đối thoại hiểu nhau được Dân địa phương ở Đông bắc Thái Lan có thể nói chuyện dễ dàng với người Lào

Tuy có nguồn gốc như nhau, nhưng hai ngôn ngữ này lại có nhiều điểm khác nhau Hình loại chữ tiếng Thái khác hình loại chữ tiếng Lào Bảng chữ cái tiếng Thái

có nhiều ký tự hơn bảng chữ cái tiếng Lào Cách sử dụng ngôn ngữ và chính tả của hai ngôn ngữ cũng rất khác nhau, mặc dù cả hai hệ thống viết đều không sử dụng dấu phân cách từ, mà viết liền mạch, tương tự trong tiếng Khmer

Tiếng Khmer (Khơ Me, hay Campuchia) [pʰiːəsaː kʰmaːe], hay trang trọng hơn [kʰeɛmaʔraʔ pʰiːəsaː]), là ngôn ngữ của người Khmer, là ngôn ngữ chính thức của Vương quốc Campuchia Ở vùng đồng bằng sông Cửu Long Việt Nam cũng

có một bộ phận dân tộc Khmer sinh sống Tiếng Khmer thuộc hệ ngôn ngữ Nam Á (sau tiếng Việt), chịu ảnh hưởng đáng kể bởi tiếng Phạn và Pali qua Ấn Độ giáo và Phật giáo, cho đến nay đã vay mượn rất nhiều từ tiếng Thái, tiếng Lào, tiếng Việt, và tiếng Chăm, tất cả, do sự gần gũi địa lý và ảnh hưởng văn hóa lâu dài, đã tạo nên một

Trang 22

vùng ngôn ngữ Đông Nam Á

Trong bốn ngôn ngữ Lào, Thái, Khmer và Việt Nam, tiếng Lào và tiếng Thái là

có sự tương đồng đáng kể Chữ viết Khmer tuy có vẻ giống chữ Lào nhưng chữ Khmer khác hoàn toàn với chữ Lào Trong khi đó, tiếng Việt và tiếng Khmer đều thuộc hệ ngôn ngữ Nam Á Chữ viết Khmer chịu ảnh hưởng tiếng Phạn và Pali, họ ngôn ngữ Môn–Khmer, còn tiếng Việt dùng bảng chữ cái La Tinh Theo dòng thời gian, bốn ngôn ngữ này rất khác nhau, mặc dù các hệ chữ viết Lào, Thái và Khmer có

vẻ giống nhau : viết liền các chữ mà không dùng dấu phân cách, có nguồn gốc từ hệ chữ Brahmi ở Ấn Độ

Sau đây chúng tôi sẽ tiến hành so sánh dựa trên một số đặc điểm ngữ pháp như sau : bảng chữ cái, cấu trúc âm tiết, cấu trúc từ vựng và câu Mục đích so sánh là để nhìn nhận sự khó khăn phải trải qua trong tiến trình XL NNTN cho mỗi loại hình ngôn ngữ, rất khó để vận dụng kết quả của nhau trên quan điểm và cách tiếp cận của XL NNTN

44

(có 16 phụ âm ghép

33

(15 phụ âm giọng

O [ᴐ] và 18 phụ âm giọng Ô [o])

Số nguyên âm

28

(có 12 nguyên âm ngắn, 12 nguyên

âm dài, 4 nguyên

âm đặc biệt)

12

(là 12 nguyên âm đơn bổ sung 32 nguyên âm đôi và

13 nguyên âm ba)

32

(có 9 nguyên âm ngắn, 9 nguyên

âm dài, 3 hợp âm)

38

(24 nguyên âm thường / không độc lập và 14 nguyên âm độc lập

Đặc điểm

Thuộc hệ Kadai Không phân biệt chữ hoa và chữ thường

Tai-Thuộc họ Nam Á Chữ cái La Tinh, phân biệt chữ hoa

và chữ thường

Thuộc hệ Kadai

Tai-Không phân biệt chữ hoa và chữ thường

Thuộc họ Khmer

Môn-Không phân biệt chữ hoa và chữ thường

Trang 23

1.2.2 So sánh cấu trúc âm tiết

Trong cả bốn ngôn ngữ, âm tiết là đơn vị phát âm ngắn nhất tạo nên một tiếng Mỗi âm tiết đều được cấu tạo từ một nhân âm tiết thường là nguyên âm, có giới hạn trước và sau (không bắt buộc) là các phụ âm Có nhiều quan điểm cho rằng âm tiết trong cả bốn ngôn ngữ đều có cấu trúc ba tầng (chân, thân và tóc), mặc dù trong tiếng Việt không thể hiện thật rõ ràng như ba ngôn ngữ còn lại Bảng dưới đây cho thấy sự khác biệt về cấu trúc âm tiết ba tầng giữa bốn ngôn ngữ[39]

Bảng 1.2 So sánh cấu trúc âm tiết

Tầng 1 (tóc)

Nguyên âm trên Dấu thanh Nguyên âm trên Nguyên âm

Tầng 2 (thân)

Phụ âm trung tâm, phụ âm

ghép, nguyên âm

Phụ âm và nguyên âm

(không dấu)

Phụ âm trung tâm, phụ âm

ghép, nguyên âm

Phụ âm và nguyên âm

1.2.3 So sánh cấu trúc từ vựng

Cả bốn ngôn ngữ đều có cấu trúc từ vựng tương đối giống nhau, đều được tạo thành từ âm tiết và có hai loại từ : từ đơn, từ ghép và cụm từ (kết hợp nhiều từ đơn và

từ ghép) Về mặt từ loại, cả bốn ngôn ngữ đều có 7 loại từ như : danh từ, đại từ, động

từ, giới từ, tính từ, liên từ, trạng từ Tuy nhiên có sự khác nhau về số lượng âm tiết ở mỗi ngôn ngữ Bảng dưới đây so sánh sự khác nhau giữa bốn ngôn ngữ

Bảng 1.3 So sánh cấu trúc từ đơn

Nửa âm tiết, một âm tiết hai âm tiết

và nhiều âm tiết

Đặc điểm

Mỗi âm tiết cũng

là một từ đơn (tiếng)

Mỗi âm tiết cũng

là một từ đơn (tiếng)

Mỗi âm tiết cũng

là một từ đơn (tiếng)

Mỗi âm tiết cũng

là một từ đơn (tiếng)

Số chữ cái tối

Trang 24

1.2.4 So sánh cấu trúc câu

Cả bốn ngôn ngữ đều có cấu trúc câu tương đối giống nhau Câu là một tập hợp

từ ngữ kết hợp với nhau theo một quy tắc nhất định, diễn đạt một ý tương đối trọn vẹn, dùng để thực hiện một mục đích giao tiếp, truyền đạt nào đó Dấu hiệu nhận biết câu khi viết là đặt ở cuối câu một trong các dấu câu : dấu chấm, dấu chấm hỏi, dấu chấm than, dấu hai chấm Có hai loại câu là câu đơn và câu phức Tuy nhiên trong cấu trúc câu, các quan

hệ từ và các từ phức đóng vai trò quan trọng trong việc nhận diện từ để giải quyết bài toán tách từ Luận án nhằm đến giải pháp tách từ tiếng Lào, vì vậy chúng tôi tìm hiểu các quan

hệ từ và cấu trúc từ phức của tiếng Việt để so sánh với tiếng Lào, qua đó thấy được tính phức tạp và thách thức trong bài toán tách từ tiếng Lào

Các quan hệ từ dùng để nối các từ, các câu, các đoạn văn, được sử dụng thành cặp trong các câu phức [45]Ví dụ tiếng Việt có bốn loại quan hệ từ :

1 Vì/Do/Bởi/Tại/Nhờ (nguyên nhân) … nên/cho nên/mà … (kết quả)

2 Nếu/Hễ (giả thiết) … thì … (kết quả)

3 Tuy/Mặc dù … nhưng … (quan hệ tương phản)

4 Để … thì … (quan hệ mục đích)

Từ phức tiếng Việt gồm 8 loại :

1 Từ ghép là từ có hai tiếng trở lên ghép lại có nghĩa)

2 Từ láy phối hợp các tiếng có âm đầu hoặc vần (hoặc cả âm và vần) giống

nhau, hoặc láy âm đầu (rì rào), hoặc láy vần (lao xao), hoặc láy cả âm và vần (loang loáng, xinh xinh) Có 3 loại từ láy : láy đôi (ngoan ngoãn), láy ba (sạch sành sanh), láy bốn (rì rà rì rầm) Láy vần có thể chuyển thành từ láy

tư (róc rách thành róc ra róc rách)

3 Từ tượng thanh mô phỏng, gợi tả âm thanh của người, hay động vật

4 Từ tượng hình gợi tả hình ảnh, màu sắc, mùi vị của người, động vật

5 Từ nhiều nghĩa có hai nghĩa trở lên (nghĩa gốc và nghĩa chuyển đổi)

6 Từ đồng nghĩa có nghĩa giống nhau (hoàn toàn hoặc không hoàn toàn)

7 Từ trái (dị) nghĩa có nghĩa trái ngược nhau

8 Từ đồng âm là những từ giống nhau về âm nhưng khác nhau (không có liên

hệ gì về nghĩa)

Trang 25

Bảng dưới đây so sánh sự khác nhau giữa bốn ngôn ngữ

Bảng 1.4 So sánh cấu trúc câu

Dấu trong câu Dấu phấy (,), dấu chấm (.), chấm phẩy (;), chấm than (!), chấm hỏi (?), hai

chấm (:), chấm lửng ( ), gạch ngang (-), ngoặc đơn (), ngoặc kép (“ ”)

Dấu hết câu Dấu chấm (.), chấm phẩy (;), chấm than (!), chấm hỏi (?), hai chấm (:),

Sau đây là một ví dụ một câu tiếng Việt được phân tách từ trong ba ngôn ngữ Lào Thái và Khmer để cho thấy sự khó khăn trong bài toán tách từ :

Câu tiếng Việt :

Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack

Câu tiếng Lào :

ກ ນລ ງທ ບຽນຮຽນພາສາວຽດນາມທ ມ ຫ ວ ທ ຍ ລຈ ປ ສ ກ

được phân tách như sau :

| ກ ນ|ລ ງທ ບຽນ|ຮຽນ|ພາສາວຽດນາມ|ທ |ມ ຫ ວ ທ ຍ ລ|ຈ ປ ສ ກ |

Trong tiếng Việt được phân tách như sau :

| Sinh viên | đăng ký | học | tiếng Việt | tại | trường Đại học Champasack |

Trong tiếng Thái được phân tách như sau :

| การ|ลงทะเบียน|ภาษาเวียดนาม|ที่|มหาวิทยาลัย|จ าปาสัก|

Trong tiếng Khmer được phân tách như sau :

| | | | | | |

1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN

1.3.1 Giới thiệu một số kết quả xử lý tiếng Lào

1 Xây dựng các trình soạn thảo văn bản tiếng Lào

Tiếp cận đầu tiên về xử lý tiếng Lào là xây dựng các trình soạn thảo văn bản

Trang 26

tiếng Lào liên quan đến bộ gõ sử dụng bảng mã Unicode và bộ mã cho ký tự Lào Hiện nay đã có nhiều trình soạn thảo văn bản tiếng Lào được phổ biến rộng rãi với nhiều phông chữ, đáp ứng được nhu cầu của NSD Đó là các phần mềm : Keyman, LaoScript for Windows, Lao Word Pro, Lao Pad, Lao Unikey sử dụng các phông chữ Lao95, Lao2000, LaoUnicode, Lào như Alice0, Alice1, Alice2, Phesarath OT, SaysetthaUnicode, Saysettha OT, Chantabuli Lao, Chantabuli 95, v.v Phần mềm soạn thảo văn bản được dùng nhiều nhất là LaoScript for Windows Tuy nhiên trong tất cả các trình soạn thảo văn bản đã chưa có công trình nào được công bố về kiểm lỗi chính trả tiếng Lào

Sau đây là ví dụ một vài chữ cái Lào, khi sử dụng bộ gõ và phông chữ khác nhau dẫn đến sự khác nhau như :

Sử dụng bộ gõ LaoUnicode và phông chữ SaysetthaOT

Trang 27

2 Xây dựng từ điển trực tuyến

Tiếp cận tiếp theo về xử lý tiếng Lào là xây dựng các từ điển trực tuyến [48] Hiện nay, có khá nhiều công trình như :

Từ điển song ngữ Lào-Anh, các trang web :

3 Giải quyết bài toán tách từ tiếng Lào

Trong tiếp cận giải quyết bài toán tách từ trong văn bản tiếng Lào, mới chỉ có công trình tách từ sử dụng phương pháp dựa trên các dãy ngẫu nhiên có điều kiện CRF (Conditional Random Fields) [19][25]

Trang 28

4 Dịch máy tiếng Lào

Hiện nay Google có trình dịch máy LàoAnh và AnhLào, trang web : https ://translate.google.com/

1.3.2 Thực trạng và thách thức trong xử lý tiếng Lào

Hiện nay, lĩnh vực ứng dụng CNTT và Truyền thông tại nước CHDCND Lào vẫn còn hạn chế, cả về môi trường lẫn điều kiện Lào còn thiếu nhiều chuyên gia về khoa học công nghệ về CNTT nói chung, về lĩnh vực XL NNTN nói riêng

Cho đến những năm gần đây, vẫn có rất ít công trình NCKH thuộc lĩnh vực XL NNTN được áp dụng thực tiễn Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng internet và các phương tiện truyền thông hiện đại trong nhiều khía cạnh của cuộc sống, nhưng chưa đều khắp nước Lào, vắng thiếu sự trao đổi chuyên môn, hợp tác NCKH

Đặc biệt ở nước Lào vẫn còn có rất ít công trình nghiên cứu về xử lý tiếng Lào liên quan đến giải quyết bài toán tách từ, PLVB, thiếu các kho dữ liệu từ vựng, đơn ngữ hoặc

đa ngữ, thiếu các công cụ sẵn dùng theo định hướng mã nguồn mở (Open Sourse)

1.3.3 Đặt bài toán phân loại văn bản tiếng Lào

Nhu cầu cấp thiết của trường Đại học Champasak là ứng dụng CNTT để tối ưu hóa quá trình phân loại, lưu trữ các VBHC phục vụ các hoạt động giao dịch HC, văn phòng hàng ngày Tuy nhiên cho đến nay, nhà trường vẫn chưa có các công cụ Tin học hữu hiệu cần thiết để đáp ứng giải quyết những bất cập này

Bài toán XL NNTN cho tiếng Lào luôn đặt ra những khó khăn, thách thức do đặc điểm ngôn ngữ của tiếng Lào Đặc biệt bài toán phân loại VB và bài toán liên quan là tách từ trong VB, hiện vẫn chưa có giải pháp hợp lý, đồng bộ và khả thi để có thể áp dụng thực tiễn, cụ thể áp dụng cho trường Đại học Champasak

Trong những chương tiếp theo, luận án sẽ triển khai nghiên cứu chuyên sâu về

XL NNTN, ngôn ngữ Lào và phân tích, đánh giá những kết quả xử lý tiếng Lào đã được công bố Từ đó luận án đề xuất giải pháp giải quyết triệt để bài toán phân tách từ trong VB tiếng Lào trên cơ sở xây dựng cơ sở luật về đặc trưng ngữ pháp, tính chất nguyên âm của chữ viết để nhận diện một từ (âm tiết) tiếng Lào, sau đó tiến hành xây dựng kho ngữ liệu, kho VB HCVP tiếng Lào để triển khai thử nghiệm

Trang 29

Luận án sẽ nghiên cứu đề xuất mô hình phân loại VB tiếng Lào sử dụng kết quả phân tách từ dùng cơ sở luật, kho ngữ vựng và kho VB HCVP đã xây dựng Từ đó, luận án sẽ đánh giá kết quả hai phương pháp máy học có giám sát SVM và mạng

nơ ron RBF, từ đó vận dụng vào điều kiện thực tiễn hoạt đông HCVP của trường Đại học Champasack

1.4 KẾT LUẬN CHƯƠNG 1

Chương 1 đã giới thiệu về nguồn gốc tiếng Lào, vị trí tiếng Lào trong nước CHDCND Lào, giới thiệu tổng quan về một số đặc trưng của tiếng Lào phổ thông Lào-Tai, 2 Nội dung chương đã so sánh đặc điểm ngôn ngữ với một số ngôn ngữ láng giềng như Việt Nam, Thái và Khmer để làm nổi bất bản chất phức tạp của bài toán tách từ 3 Nội dung chương giới thiệu một số công trình tiêu biểu đã công bố về xử lý tiếng Lào, đánh giá hiện trạng về những hạn chế trong bối cảnh XL NNTN và xử lý tiếng Lào Từ đó đặt bài toán PLVB tiếng Lào, hướng nghiên cứu giải quyết qua bài toán tách từ, vận dụng vào điều kiện thực tiễn hoạt đông HCVP của trường Đại học Champasack

Trang 30

CHƯƠNG 2

PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ

Trong chương này, chúng tôi sẽ giới thiệu một số phương pháp giải quyết bài toán PLVB và những vấn đề liên quan đến luận án như khái niệm văn bản, soạn thảo văn bản, tách từ Trên cơ sở trình bày cơ sở lý thuyết về các giai đoạn trong bài toán PLVB, chúng tôi tiến hành đánh giá ưu điểm và hạn chế của chúng và hướng tiếp cận của luận án để giải quyết bài toán PLVB tiếng Lào Từ đó, chúng tôi đề xuất giải pháp

và các bước triển khai PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak

2.1 MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN

2.1.1 Khái niệm văn bản

Có nhiều quan niệm khác nhau về văn bản (hay văn kiện, tài liệu, tư liệu, thuật ngữ tiếng Anh thông dụng là Document), tùy theo hướng tiếp cận Tuy nhiên một cách đơn giản, văn bản là phương tiện ghi nhận và truyền đạt thông tin giữa nhiều NSD khác nhau Văn bản được hình thành, một cách thủ công hay sử dụng công cụ, dưới dạng chữ viết, đến từ các hoạt động giao tiếp, trao đổi, tự sự theo nhiều hình thức phong phú trong cuộc sống

Văn bản thủ công dùng chữ viết tay truyền thống ghi chép lên các phương tiện/chất liệu mang tải khác nhau, chủ yếu là giấy Tuy nhiên theo đà phát triển kinh tế,

xã hội, khoa học công nghệ , văn bản từ lâu đã được tạo ra nhờ sử dụng các công cụ như máy đánh chữ, máy in, từ thủ công đến tự động và phổ biến hiện nay là sử dụng máy tính, thuộc về lĩnh vực soạn thảo văn bản (STVB)

Mỗi văn bản được xem gồm hai thành phần chính là nội dung - tập hợp các câu

có tính trọn vẹn về ngữ nghĩa và hình thức trình bày - thể hiện tính liên kết chặt chẽ

với nội dung và hướng tới một mục tiêu giao tiếp nhất định Về nội dung, nguời ta phân biệt, hay PLVB theo nhiều tiêu chí khác nhau tùy theo lĩnh vực, chủ đề và mục đích sử dụng, từ sở hữu cá nhân, hay của các tổ chức kinh tế, xã hội (chẳng hạn văn bản hành chính - VBHC) đến các cơ quan Nhà nước (chẳng hạn văn bản Quản lý Nhà

Trang 31

của trường Đại học Champasak, CHDCND Lào Ngoài ra, người ta cũng PLVB theo các hình thức biểu đạt (Indicative Classification) như miêu tả, tự sự, biểu cảm, thuyết minh, nghị luận, điều hành (hành chính, sự vụ) hay theo phong cách chức năng ngôn ngữ (Languistic Functional) như giao tiếp, báo chí, khoa học, nghệ thuật, chính luận, hành chính

Về hình thức trình bày, nguời ta phân biệt văn bản theo nhiều cách tiếp cận Chẳng hạn, văn bản thuần tuý (Pure Text) có thể chỉ chứa chữ, hay ký tự, hay văn bản không thuần tuý ngoài chữ còn chứa các thành phần đồ hoạ, bảng biểu, hình ảnh, hình

vẽ, đa tạp (Multimedia) như trên các trang web… Nguời ta cũng phân biệt văn bản đơn ngữ (chỉ dùng một ngôn ngữ - Monolingual) hay đa ngữ (Multilingual - khả năng xử lý nhiều ngôn ngữ trên cùng một văn bản), văn bản thuần nhất - chỉ sử dụng một bộ mã (Plain Text, như Unicode hiện nay) hay văn bản không thuần nhất (sử dụng nhiều bộ mã trên cùng một văn bản như trước đây)

Trong Tin học, ở mức vật lý thấp nhất, văn bản là một tập hợp các ký tự, được

mã hóa, lưu trữ trên các thiết bị nhớ khác nhau dưới dạng một tệp văn bản Ở mức cao hơn, các ký tự của văn bản được tổ chức thành từ (Word), dòng (Line), đoạn (Paragraph)

và trang (Page) Tất cả các đơn vị này đều không có độ lớn (số lượng các ký tự) xác định trước và do đó phải quy ước hoặc có các ký tự đặc biệt để đánh dấu (Markup) Thông thường, người ta quan niệm mỗi từ là một chuỗi ký tự đặt giữa hai ký tự phân cách như khoảng trống, các dấu chấm câu (phẩy, chấm, hai chấm, chấm phẩy ), mỗi dòng được kết thúc bởi dấu hết dòng là những ký tự đặc biệt Tuy nhiên với các văn bản tiếng Lào, Thái, Khmer…, người ta không dùng các dấu khoảng trống để phân cách từ

Về mặt logic, văn bản thường được chia thành hai loại là phi cấu trúc (Unstructure Document) và có cấu trúc (StructureD Document) Văn bản phi cấu trúc,

cũng là văn bản không được định dạng (Non-Format Text), chỉ sử dụng thuần túy một kiểu ký tự, không có một cấu trúc định dạng cụ thể nào Ví dụ thường gặp là các văn bản lưu dưới dạng tệp.TXT, mã nguồn các chương trình máy tính viết trong các ngôn ngữ lập trình khác nhau…

Văn bản có cấu trúc, rất quen thuộc và phổ biến hiện nay, được phân cấp theo các thành phần khác nhau như phần đầu, phần cuối văn bản, chương, mục, tóm tắt, giới thiệu, tham khảo, phụ lục, minh hoạ, v.v Mỗi thành phần đều có cách trình bày vật lý khác nhau (trên màn hình, trên giấy… ) tuỳ theo nội dung, thẩm mỹ và ý đồ NSD Để phân biệt cách trình bày các thành phần, cần phải có các dấu định dạng Như vậy trong

Trang 32

một văn bản, có hai loại ký tự : các ký tự in được (nhìn thấy được) và các ký tự điều khiển định dạng là không nhìn thấy được (nhìn thấy được trong trường hợp sử dụng CSS

- Cascading Style Sheets, như HTML, XML… ) Sách, giáo trình, tài liệu, hồ sơ, các bài báo công bố các công trình nghiên cứu khoa học, các báo cáo đề tài, luận văn, luận án,

đồ án tốt nghiệp… đều là các văn bản có cấu trúc

2.1.2 Khái niệm soạn thảo văn bản (STVB)

STVB hay xử lý văn bản (Word/Text/Document Processing) là tạo ra văn bản

theo nhiều cách khác nhau : hoặc được soạn thảo trực tiếp kiểu WYSIWYG (What

You See Is What You Get) sử dụng các phần mềm STVB (WinWord, NotePad ), hay

soạn thảo gián tiếp để chỉ có thể đưa ra được văn bản “thấy được” cuối cùng nhờ một

trình biên dịch hay trình duyệt (Browser) đối với các loại siêu văn bản HTML…, hay

sử dụng các công cụ chuyển đổi như PDF (Adobe Acrobat, Nitro Pro… ) STVB là một trong những ứng dụng quan trọng trong Tin học và được gặp đầu tiên trong các bài toán XL NNTN Hầu như mọi công việc diễn ra trên máy tính đều có liên quan ít nhiều đến STVB

Các thao tác STVB rất đa dạng, tuỳ theo phần mềm soạn thảo và cách đưa ra máy in, máy đọc khác nhau mà cách thức thực hiện có khác nhau Ngoài các thao tác

cơ bản là gõ nội dung văn bản vào máy, chọn phông chữ, định dạng , những thao tác khác hay gặp là :

- Tạo mới một văn bản theo khuôn mẫu (Template), hay theo một mô hình quy

ước cho trước nào đó

- Mở một văn bản đã có trên một hệ thống lưu trữ vào hệ thống STVB để tiếp

tục soạn thảo, xử lý

- Lưu trữ văn bản đã/đang cập nhật lên một hệ thống lưu trữ, hoặc với tên cũ,

hoặc với một tên khác

- Đóng một văn bản để kết thúc soạn thảo

- Chuyển đổi, chia sẻ hay trao đổi văn bản…

Tuỳ theo ngôn ngữ viết đang được xử lý mà cách thức gõ nội dung văn bản vào máy có khác nhau trên cùng bàn phím ASCII Thao tác gõ thuận tiện nhất là đối với các văn bản Anh ngữ, hay thuộc hệ viết La Tinh thuần tuý Tuy nhiên vấn đề trở nên rắc rối,

Trang 33

Nhật ngữ, Ấn ngữ, tiếng Ả-Rập, v.v , kể cả tiếng Lào, Thái, Việt hay Khmer

2.1.3 Xu thế soạn thảo văn bản hiện nay

Trước đây, để có thể thể xử lý được các văn bản đa ngữ như tiếng Lào, tiếng Việt-Kinh có dấu trên những hệ soạn thảo mặc nhiên chữ La Tinh, cần phải xây dựng các phần mềm (hay bộ gõ), kèm theo là các bộ mã và phông chữ tương ứng Tuy nhiên không phải lúc nào cũng có thể dễ dàng in văn bản kết quả ra được trên bất kỳ một hệ thống Tin học nào Chính vì vậy đã có rất nhiều bộ gõ, bộ mã và phông chữ được xây dựng Riêng tiếng Việt đã có trên 30 bộ mã đã được xây dựng như ABC, VietKey, 3C, VNI, Vietware, BK HCM, VISCII, VIQR , hiện nay tương đối phổ biến là UniKey Tiếng Lào cũng có không ít các bộ mã như Keyman, LaoScript for Windows, Lao WorD Pro, Lao Pad, Lao Unikey

Đến nay, việc sử dụng phổ biến bộ mã chuẩn quốc tế Unicode đã đem lại rất nhiều lợi ích cho NSD Hầu hết các hệ STVB thông dụng, quen thuộc đều có khả năng

2.2 BÀI TOÁN PHÂN LOẠI VĂN BẢN

2.2.1 Tìm hiểu bài toán phân loại văn bản

Phân loại văn bản (Document Classification/ Categorization) đóng một vai trò quan trọng trong mọi hoạt động thực tiễn, đặc biệt trong bối cảnh phát triển kinh tế ở mọi quốc gia và sự bùng nổ ứng dụng các dịch vụ trên internet hiện nay PLVB giúp cho NSD xử lý văn bản lựa chọn được loại văn bản nào phù hợp với mục đích sử dụng của mình Đây là việc khó và nhàm chán do tính phong phú, đa tạp của văn bản, mỗi loại văn bản khác nhau thường có chức năng, nội dung và hình thức xuất hiện khác nhau

Trang 34

Cĩ nhiều cách PLVB dựa vào các tiêu chí phân loại như : lĩnh vực, chủ đề, tính chất, chủ thể ban hành, chức năng, thuộc tính pháp lý, hình thức, nội dung văn bản,v.v… Kết quả PLVB là sắp xếp, hay gán các văn bản vào một hay nhiều nhĩm phù hợp được xác định trước dựa trên nội dung của văn bản đĩ, sao cho dễ dàng tìm kiếm trở lại

Đã cĩ rất nhiều cơng trình nghiên cứu về PLVB đã được cơng bố PLVB cho tiếng Anh được nghiên cứu sớm và rộng rãi nhất với kết quả đạt được rất khả quan Một số lượng lớn các phương pháp phân loại đã được áp dụng thành cơng trên ngơn ngữ này : mơ hình hồi quy, phân loại dựa trên láng giềng gần nhất (k-nearest neighbors) [4] phương pháp dựa trên xác suất Nạve Bayes[3] [23]cây quyết định [20]học luật quy nạp [1][26] mạng nơ ron (neural network)[8][24]học trực tuyến [2][26]và máy vec tơ hỗ trợ (SVM-support vec tơ machine)[10] [12][15][36][37]

Cĩ rất nhiều cơng trình nghiên cứu giải quyết bài tốn PLVB trên những ngơn ngữ này đã được cơng bố như : Luật kết hợp, N-Gram, Naive Bayes cho tiếng Trung; SVM, Túi từ, N-Gram, L-KNN cho tiếng Việt

2.2.2 Quy trình giải quyết bài tốn PLVB

Một cách tổng quát, giải quyết bài tốn PLVB gồm các bước :

1 Lựa chọn vec tơ đặc trưng văn bản,

2 Biểu diễn văn bản theo mơ hình,

3 Học cĩ giám sát (SuperviseD Learning),

4 Tiến hành phân loại văn bản

Vec tơ đặc trưng biểu diễn văn bản cần xử lý là số lần, hay tần suất, xuất hiện của các từ trong văn bản, Loại văn bản là các nhãn C mà văn bản thuộc về (ví dụ Nghị định, Quyết định, Cơng văn… )

Cĩ nhiều mơ hình biểu diễn văn bản :

- Mơ hình logic : các từ cĩ nghĩa trong văn bản được đánh trọng số và nội

dung văn bản được xử lý theo các chỉ số này

- Mơ hình phân tích cú pháp : mỗi văn bản i được phân tích cú pháp để chỉ

mục các chủ đề phục vụ tìm kiếm

- Mơ hình khơng gian vec tơ : mỗi văn bản được biểu diễn thành một vec tơ

Trang 35

xuất hiện của từ khóa đó

- Mô hình boolean : biểu diễn văn bản dưới dạng một vec tơ chứa các từ khóa

của văn bản, một hàm boolean sẽ trả về true (1) hoặc và false (0) tùy theo từ khóa có thuộc vể văn bản hay không

- Mô hình tần suất : xây dựng ma trận giá trị là tần suất xuất hiện của các từ

khóa trong văn bản với nhiều phương pháp xác định tần suất khác nhau Bước học có giám sát (Supervised Learning) gồm hai giai đoạn được minh họa trong hình dưới đây

Hình 2.1 hình hai giai đoạn phân loại văn bản

Giai đoạn huấn luyện : Tệp nhãn C được sử dụng để trích chọn,tìm các giá trị đặc trưng từ văn bản đầu vào Tùy theo mô hình văn bản, giai đoạn học máy xử lý các đặc trưng để phục vụ bước PLVB ở giai đoạn dự đoán

Giai đoạn dự đoán : Văn bản đầu vào được trích chọn đặc trưng để tiến hành

bản

đầu vào

Trích chọn đặc trưng CSDL

đặc trưng

Giai đoạn dự đoán

Phân loại văn bản

Văn

bản

đầu vào

Trích chọn đặc trưng CSDL

đặc trưng

Nhãn phân lớp

Trang 36

Chi tiết quá trình học máy được minh hoạ như hình dưới đây :

Hình 2.2 Mơ hình giai đoạn học máy

Các thành phần trong giai đoạn học máy như sau :

- Ngữ liệu huấn luyện : kho ngữ liệu thu thập từ nhiều nguồn khác nhau

- Tiền xử lý : chuyển đổi tài liệu trong kho ngữ liệu thành một hình thức phù

hợp để phân loại

- Chuẩn hĩa vec tơ : mã hố văn bản bởi một mơ hình trọng số tuỳ theo phương

pháp biểu diễn văn bản sẽ được áp dụng

- Trích chọn đặc trưng : loại bỏ những từ mang thơng tin đặc trưng của tài liệu,

nhằm nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật tốn huấn luyện sẽ được sủ dụng

- Huấn luyện : huấn luyện bộ phân loại để tìm ra các điều kiện tối ưu

- Đánh giá : đánh giá hiệu suất hay chất lượng của quá trình phân loại

Ở giai đoạn huấn luyện là quá trình lặp đi lặp lại nhiều lần để tìm ra các điều kiện tối ưu Trước khi huấn luyện, các tham biến được gán các giá trị khởi tạo, các giá trị khởi tạo này quyết định kết quả tối ưu của quá trình huấn luyện Nếu khơng tìm được điều kiện thoả mãn yếu ncầu, kết quả phân loại chỉ cĩ thể là tối ưu cục bộ

2.2.3 Các phương pháp giải quyết bài tốn PLVB

Cho đến nay, đã cĩ nhiều phương pháp và hướng tiếp cận khác nhau để giải quyết bài tốn PLVB :

- Sử dụng thuật tốn Bayes đơn giản (Nạve Bayes)

- K láng giềng gần nhất (K-Nearest-Neighbor)

- Sử dụng cây quyết định (Decision Tree)

Trang 37

Các kết quả nghiên cứu trong những cách tiếp cận trên đây đều tốt, tuy nhiên khó có thể so sánh với nhau, vì tệp dữ liệu thử nghiệm của mỗi phương pháp là khác nhau Ở các phần sau chúng tôi sẽ trình bày chi tiết hơn từng phương pháp

Mặt khác, mỗi phương pháp PLVB đều có cách tính toán chi phí khác nhau Nhìn một cách tổng quan, các phương pháp đó đều phải thực hiện một số bước chung như sau : đầu tiên, mỗi phương pháp sẽ dựa trên các thông tin về sự xuất hiện của từ trong văn bản (ví dụ tần số, số văn bản chứa từ… ) để biểu diễn văn bản thành dạng vec tơ; sau đó, tuỳ từng phương pháp mà ta sẽ áp dụng công thức và phương thức tính toán khác nhau để thực hiện việc phân loại

Sau đây chúng tôi sẽ trình bày hai phương pháp thích hợp cho hướng tiếp cận giải quyết bài toán PLVB tiếng Lào là sử dụng máy học vec tơ hỗ trợ SVM và kỹ thuật hàm cơ sở bán kính và mạng nơ ron RBF

1 Phương pháp máy học vec tơ hỗ trợ SV

Phương pháp sử dụng máy học vec tơ hỗ trợ SVM PLVB bản dựa trên lý thuyết học thống kê [10][12][15][36][37] Thông thường để đơn giản quá trình, người ta giải quyết bài toán phân loại nhị phân, sau đó sẽ mở rộng vấn đề ra cho bài toán phân nhiều lớp

Áp dụng cho bài toán PLVB :

Thuật toán gồm hai giai đoạn là huấn luyện và phân loại :

Giai đoạn huấn luyện :

Đầu vào :

- Các vec tơ đặc trưng của văn bản trong tệp huấn luyện (ma trận kích thước

MxN, với M là số vec tơ đặc trưng trong tệp huấn luyện, N là số đặc trưng của vec tơ)

- Tệp nhãn cho từng vec tơ đặc trưng của tệp huấn luyện

- Các tham số cho mô hình SVM : C,

(tham số của hàm kernel, thường dùng hàm Gauss)

Đầu ra :

- Mô hình SVM (Các Support Vec tơ, nhân tử Lagrange a, tham số b)

Giai đoạn phân loại :

Đầu vào :

- Vec tơ đặc trưng của văn bản cần phân loại

Trang 38

- Mô hình SVM

Đầu ra là văn bản đã được phân loại

2 Kỹ thuật hàm bán kính xuyên tâm cơ sở RBF

Mạng hàm bán kính xuyên tâm cơ sở RBF (Radial BasisFunctions), hay mạng

nơ ron nhân tạo, gọi tắt là mạng nơ ron RBF, được dùng để giải quyết bài toán nội suy

và xấp xỉ hàm nhiều biến [8][40][41] Ưu điểm của mạng nơ ron RBF là thời gian huấn luyện ngắn, việc thiết lập rất nhanh và đơn giản Ngày nay mạng nơ ron RBF được sử dụng trong rất nhiều lĩnh vực :

1 Tệp dữ liệu huấn luyện :

Cần một tệp dữ liệu huấn luyện chuẩn và đủ lớn để cho thuật toán học phân loại Nếu chúng tôi có được một tệp dữ liệu cho văn bản tiếng Lào chuẩn và đủ lớn thì quá trình huấn luyện sẽ tốt và khi đó chúng tôi sẽ có kết qủa phân loại tốt sau khi đã được học

2 Sử dụng phương pháp tách từ :

Các phương pháp trên hầu hết đều sử dụng mô hình vec tơ để biểu diễn văn bản, do đó phương pháp tách từ trong văn bản đóng vai trò quan trọng trong quá trình biểu diễn văn bản bằng vec tơ Yếu tố này rất quan trọng, vì có thể đối với một số ngôn ngữ như tiếng Anh thì thao tác tách từ trong văn bản đơn giản chỉ là dựa vào các khoảng trắng, tuy nhiên trong các ngôn ngữ đa âm tiết như tiếng Việt và một số ngôn ngữ khác thì sử dụng khoảng trắng khi tách từ là không chính xác, do đó phương pháp

Trang 39

3 Sử dụng phương pháp PLVB :

Phương pháp sử dụng để PLVB phải có thời gian xử lý hợp lý, thời gian này bao gồm : thời gian học, thời gian PLVB Ngoài ra, thuật toán sử dụng phải có tính tăng cường (Incremental Function) nghĩa là không phân loại lại toàn bộ tệp văn bản khi thêm một số văn bản mới vào tệp dữ liệu mà chỉ phân loại các văn bản mới mà thôi, khi đó thuật toán phải có khả năng giảm độ nhiễu (Noise) khi PLVB

2.3 BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN

2.3.1 Tìm hiểu bài toán tách từ

Trong quá trình xử lý bài toán PLVB, trước hết văn bản cần qua bước tiền xử

lí cơ bản như tách từ Bài toán tách từ (Word Segmentation), hay cũng có thể được gọi là tách các thuật ngữ (Tokenizer), là một quá trình xử lý nhằm xác định ranh giới (tách) của các từ trong câu, hoặc chỉ ra những từ nào không có trong từ điển cho trước (phát hiện đơn vị từ vựng mới) của một văn bản đầu vào đã cho Về mặt ngôn ngữ, cũng có thể hiểu đơn giản quá trình tách từ là xác định các từ đơn, từ ghép… có mặt trong câu (được kết thúc bằng các dấu chấm câu) Trong lĩnh vực XL NNTN, tách từ

có vai trò quan trọng trong việc xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu

Tách từ quen thuộc, đơn giản với con người do tính trực quan, nhưng trong XL NNTN, bài toán tách từ rất khó giải quyết, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á Các ngôn ngữ này thường theo loại hình ngôn ngữ đơn lập, dựa trên các từ đơn âm tiết (tiếng) Ví dụ : tiếng Trung Quốc và các ngôn ngữ đồng văn như tiếng Việt, tiếng Nhật, tiếng Hàn, các ngôn ngữ Môn-Khmer như tiếng Thái, tiếng Lào, tiếng Khmer Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản

là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết (đa âm tiết) như tiếng Anh, các ngôn ngữ sử dụng chữ cái La Tinh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử bỏ được sự nhập nhằng trong ranh giới các từ

Trang 40

Bài toán tách từ là bài toán cơ bản đầu tiên trong các bài toán đặt ra cho XL NNTN Cũng có thể nói hầu hết các bài toán XL NNTN đều ứng dụng bài toán tách

từ Đó là phân tích hình thái (Morphological Analysis), gán nhãn từ loại (POS tagging), nhận diện tên riêng, nhận diện ranh giới ngữ, gán nhãn ranh giới ngữ, gán nhãn quan hệ cú pháp,, phân tích phụ tố (Affixes Analysis), phân tích ngữ pháp (Parser) xử lý văn bản, kiểm lỗi chính tả, kiểm lỗi văn phạm, tóm tắt văn bản, phân loại văn bản, hiểu văn bản, khai thác văn bản, v.v

Như đã nói, vấn đề nảy sinh trong khi tách từ là sự xuất hiện các từ mới, là các

từ không có mặt trong từ điển cho trước Trong XL NNTN, đây là bài toán xây dựng kho ngữ liệu cho một ngôn ngữ cần xử lý Bản chất của ngôn ngữ tự nhiên là luôn thay đổi, luôn sinh ra các từ mới, trong khi kho ngữ liệu thường không thể cập nhật hết được mọi khả năng tạo sinh từ mới

2.3.2 Các phương pháp tách từ

Để giải quyết bài toán tách từ, hay phân đoạn từ, cho đến nay đã nhiều phương pháp khác nhau, hướng tiếp cận khác nhau Đa số là các mô hình này đã được áp dụng thành công cho các ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Thái… và đều được tiếp tục cải tiến để phù hợp với đặc điểm của các ngôn ngữ khác Về tách từ tiếng Thái có các công trình tách từ của [7][18][18] các công trình tách từ tiếng Việt [12][13][43]các công trình tách từ tiếng Lào[19][25]các công trình tách từ tiếng Trung [22][27]

Sau đây là một số hướng tiếp cận :

- So khớp tối đa, hay cực đại MM (Maximum Matching)

- Sử dụng trường xác xuất có điều kiện CRF (Conditional Random Field)

- Phương pháp máy học sử dụng vec tơ hỗ trợ (Support Vector Machines)

- Sử dụng mô hình Markov ẩn HMM (Hidden Markov Models)

- Sử dụng phương pháp máy học dựa trên sự cải biến TBL

(Transformation-Based Learning)

- Chuyển đổi trạng thái trọng số hữu hạn WFST

(Weighted Finite State Transducer)

- Độ hỗn loạn cực đại ME (Maximum Entropy)

Ngày đăng: 31/05/2017, 17:56

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[13] H. P. Le, N. T. M. Huyen, A. Roussanaly, H. T. Vinh. A Hybrid Approach to Word Segmentation of Vietnamese Texts. Language and Automata Theory and Applications, Springer Edition, 2008(web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf) Sách, tạp chí
Tiêu đề: A Hybrid Approach to Word Segmentation of Vietnamese Texts
[14] D. Palmer. A Trainable Rule-based Algorithm for Word Segmentation The MITRE Corporation 202 Burlington Rd. Bedford, MA 01730, USA, 1996 Sách, tạp chí
Tiêu đề: A Trainable Rule-based Algorithm for Word Segmentation
[15] JC Platt, Sequential minimal optimization : A fast algorithm for training support vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998 Sách, tạp chí
Tiêu đề: Sequential minimal optimization : A fast algorithm for training support vector machines
[16] H. Poovarawan, Ch. Wongchaisuwat, A Development of Algorithms for Thai Language Data Processing, Kasetsart University, Thailand, 2001 Sách, tạp chí
Tiêu đề: A Development of Algorithms for Thai Language
[17] M.J.D. Powell, Radial basis function methods for interpolation to functions of many variables, 2011 Sách, tạp chí
Tiêu đề: Radial basis function methods for interpolation to functions of many variables
[18] S. Suebvisai, P. Charoenpornsawat, Thai Automatic Speech Recognition. Proceedings of ICASSP, Philadelphia, Pennsylvania, 2005 Sách, tạp chí
Tiêu đề: Thai Automatic Speech Recognition
[19] N. Seresangtakul, A hybrid apapproach to lao word segmentation using longest syllable level matching with named entities recognition, in Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), May 2013 Sách, tạp chí
Tiêu đề: A hybrid apapproach to lao word segmentation using longest syllable level matching with named entities recognition
[20] P.J. Tan and D.L. Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004) Sách, tạp chí
Tiêu đề: MML Inference of Oblique Decision Trees
[21] Ah-Hwee Tan, Fon-Lin Lai. Text categorization, supervised learning, and domain knowledge integration. Proceedings of KDD-2000, Workshop on Text Mining, 2000 (Web: http://www.cs.cmu.edu/~dunja/KDDpapers/Tan_TM.pdf) Sách, tạp chí
Tiêu đề: Text categorization, supervised learning, and domain knowledge integration
[22] C. H. A Tsai. Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 2000 Sách, tạp chí
Tiêu đề: Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm
[23] N. H. A. Tú, H. Kiem, Frequent subgraph-based approach for classifying vietnamese text documents. In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009 Sách, tạp chí
Tiêu đề: Frequent subgraph-based approach for classifying vietnamese text documents
[24] J. Thaisungkhom, The document classification system based on the neural network, King Mongkut’s Institute of Technology North Bangkok, 2006 Sách, tạp chí
Tiêu đề: The document classification system based on the neural network
[25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, pp.2-5 May 2011 Sách, tạp chí
Tiêu đề: LaoWS : Lao Word Segmentation Based on Conditional Random Fields
[26] V. Vapnik. The Nature of Statistical Learning Theory. SpringerVerlag, 1995 Sách, tạp chí
Tiêu đề: The Nature of Statistical Learning Theory
[28] P. Yang, Highperforming feature selection for text classification. Proceedings of the 11 th International Conference on Information and Knowledge Management, New York, 2002 Sách, tạp chí
Tiêu đề: Highperforming feature selection for text classification
[30] T. Nomponkrang, C. Sanrach, The Comparison of Algorithms for Thai-Sentence Classification, International Journal of Information and Education Technology, Vol.6, No. 10, October 2016 Sách, tạp chí
Tiêu đề: The Comparison of Algorithms for Thai-Sentence Classification
[31] Yaw-Huei Chen, P. Daowadung, Assessing Readability of Thai Text Using support vector machines, Maejo Int. J. Sci. Technol. 2015, 9(03), 355-369; doi:10.14456/mijst.2015.27 Sách, tạp chí
Tiêu đề: Assessing Readability of Thai Text Using support vector machines
[32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning, Journal of Theoretical and Applied Information Technology, 10 A ugust 201 4. Vo l. 66 No.1 Sách, tạp chí
Tiêu đề: The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning
[33] T. Siriteerakula, V. Boonjingb , R. Gullayanona, Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article; doi: 10.2306/scienceasia1513-1874.2016.42.046.2. Tiếng Việt Sách, tạp chí
Tiêu đề: Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article
[34] M. Alves, Khái quát các nghiên cứu ngôn ngữ học về nguồn gốc của tiếng Việt. Tạp chí Khoa học ĐHQGHN, Khoa học Xã hội và Nhân văn 24, tr. 187-202, 2008 Sách, tạp chí
Tiêu đề: Khái quát các nghiên cứu ngôn ngữ học về nguồn gốc của tiếng Việt

HÌNH ẢNH LIÊN QUAN

Bảng  Tên bảng  Trang - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
ng Tên bảng Trang (Trang 8)
Hình 1.1. Cấu trúc ba tầng của chữ Lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 1.1. Cấu trúc ba tầng của chữ Lào (Trang 19)
Bảng dưới đây so sánh sự khác nhau giữa bốn ngôn ngữ. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Bảng d ưới đây so sánh sự khác nhau giữa bốn ngôn ngữ (Trang 25)
Hình 1.2. Bàn phím gõ tiếng Lào - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 1.2. Bàn phím gõ tiếng Lào (Trang 26)
Hình 2.1.    hình hai giai đoạn phân loại văn bản. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 2.1. hình hai giai đoạn phân loại văn bản (Trang 35)
Hình 2.2. Mô hình giai đoạn học máy. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 2.2. Mô hình giai đoạn học máy (Trang 36)
Hình 2.4.   hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 2.4. hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào (Trang 48)
Hình 3.1. Cấu trúc từ đơn trong tiếng Lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 3.1. Cấu trúc từ đơn trong tiếng Lào (Trang 51)
Hình 3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào (Trang 57)
Hình 3.5. Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 3.5. Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào (Trang 67)
Hình 3.6.    hình tách từ tiếng Lào dùng phương pháp so khớp tối đa. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 3.6. hình tách từ tiếng Lào dùng phương pháp so khớp tối đa (Trang 68)
Hình 3.7. Mô hình xử lý nhập nhằng cho tách từ tiếng Lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 3.7. Mô hình xử lý nhập nhằng cho tách từ tiếng Lào (Trang 70)
Bảng 4.1. Ví dụ một số từ hư trong tiếng lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Bảng 4.1. Ví dụ một số từ hư trong tiếng lào (Trang 76)
Hình 4.1.    hình triển khai thử nghiệm PLVB tiếng Lào. - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 4.1. hình triển khai thử nghiệm PLVB tiếng Lào (Trang 77)
Hình 4.3. Lược đồ so sánh kết quả thực nghiệm giữa mạng RBF và SV - Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào
Hình 4.3. Lược đồ so sánh kết quả thực nghiệm giữa mạng RBF và SV (Trang 88)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm