1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và ứng dụng các phương pháp tách từ cho tiếng Lào

61 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 2,16 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu và ứng dụng các phương pháp tách từ cho tiếng Lào Nghiên cứu và ứng dụng các phương pháp tách từ cho tiếng Lào Nghiên cứu và ứng dụng các phương pháp tách từ cho tiếng Lào luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

Vixay PHOMMAVONG

NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP

TÁCH TỪ CHO TIẾNG LÀO

Chuyên ngành: KHOA HỌC MÁY TÍNH

LUẬN VĂN THẠC SĨ KHOA HỌC

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

Vixay PHOMMAVONG

NGHIÊN CỨU VÀ ỨNG DỤNG CÁC PHƯƠNG PHÁP

TÁCH TỪ CHO TIẾNG LÀO

Chuyên ngành: KHOA HỌC MÁY TÍNH

Trang 3

LỜI CẢM ƠN

Với tất cả tấm lòng, em xin gửi lời cảm ơn sâu sắc nhất đến cô, giáo viên hướng dẫn TS.Nguyễn Thị Thu Hương , người cô đã tận tình hướng dẫn, chỉ bảo

và tạo những điều kiện tốt nhất giúp em hoàn thành luận văn

Đồng thời em xin gửi lời cảm ơn chân thành đến toàn thể quý thầy và cô Trường Đại Học Báck khoa Hà Nội đã trang bị cho em những kiến thức trong học tập và nghiên cứu khoa học

Cuối cùng,em xin gửi lời cảm ơn đến gia đình, bạn bè và các đồng nghiệp

đã luôn động viên và cho em những lời khuyên bổ ích trong suốt quá trình thực hiện luận văn này

Học viên thực hiện Luận văn

(Ký và ghi rõ họ tên)

Vixay PHOMMAVONG

Trang 4

MỤC LỤC

LỜI CẢM ƠN 1

MỤC LỤC 2

DANH MỤC CÁC BẢNG 4

DANH MỤC CÁC HÌNH VẼ ……… 5

MỞ ĐẦU 6

1 Đặt vấn đề 6

2 Lý do chọn đề tài 6

3 Mục đích, phạm vi, đối tượng nghiên cứu của luận văn 7

4 Nội dung luận văn 8

CHƯƠNG 1.GIỚI THIỆU……….……….… 9

1.1 Xử lý ngôn ngữ tự nhiên…… ……… … ………9

1.2 Xử lý tiếng Lào……… ……….9

1.3.Bài toán tách từ, tách từ tiếng Lào, tiếng Thái……….……… ……10

1.4.Đặt bài toán tách từ văn bản tiếng Lào……… ……….10

1.5.Thực trạng và thách thức trong xử lý tiếng Lào……… 11

CHƯƠNG 2 NGÔN NGỮ TIẾNG LÀO 12

2.1 TÌM HIỂU TIẾNG LÀO 12

2.1.1 Giới thiệu tiếng Lào……… ……… ………12

2.1.2 Nguồn gốc của tiếng Lào và tiếng Thái……… 13

2.1.3 Những yếu tố ngữ pháp tiếng Lào ……….…….14

Trang 5

2.2.Tiếng Lào trong bối cảnh xử lý ngôn ngữ tự nhiên……… ……….23

2.2.1.Xây dựng các trình soạn thảo văn bản tiếng Lào……….……… …….…….23

CHƯƠNG 3 BÀI TOÁN TÁCH TỪ TIẾNG LÀO ……… … ……25

3.1 Bài toán tách từ ……… ………25

3.2 Các phương pháp tách từ……… ….……….………26

3.3 Biểu diễn văn bản tiếng Lào……… ……….……30

3.4 Biểu diễn từ điển 30

3.6 Bài toán tách từ tiếng Lào……… 35

3.6.1 Phương pháp tách từ tiếng Lào sử dụng biểu thức chính quy……….35

3.6.2 Xây dựng mô hình chứa theo cấu trúc ba tầng……… ……….…….…37

3.6.3 Phương pháp nhận diện từ trong câu……… ……41

3.6.4.Các giải pháp tách từ tiếng Lào……… …… 42

3.6.5 Các đại lượng đo độ chính xác………47

CHƯƠNG 4 ỨNG DỤNG TÁCH TỪ CHO TIẾNG LÀO………… … ……49

4.1.Lựa chọn công cụ………….……… ……….49

4.2.So sánh tiếng Lào và tiếng Thái……… … 50

4.3 Thử nghiệm và đánh giá ……… …… …53

KẾT LUẬN……….……… …54

TÀI LIỆU THAM KHẢO 55

Trang 6

Bảng 2.1 Bảng cấu trúc âm tiết 7 thành phần ……… 15

Bảng 2.2.Bảng cấu trúc âm tiết ba tầng……….………… ….…16

Bảng 2.3 Bảng chữ cái chính của tiếng Lào……… ….……….….19

ảng 3.1 Vectơ từ đơn tiếng Lào……… ……… ….38

Bảng 3.2 Vai trò các thành phần của V1 và V2……… ……….38

ảng 3.3 Ví dụ cách tạo từ đơn tiếng Lào……… ………… …40

Bảng 4.1 So sánh chữ cái……….……….……50

Bảng 4.2 So sánh cấu trúc âm tiết……… ….…… 51

Bảng 4.3 So sánh cấu trúc từ đơn……… ……….… 52

Bảng 4.4 So sánh cấu trúc câu……….52

Bảng 4.5 bảng so sánh tiếng ……… ……….…53

ảng 4.6 Kết quả phương pháp tách từ……… ….…… 53

Trang 7

DANH MỤC HÌNH VẼ

Hình 2.1 Bàn phím gõ tiếng Lào……….………….24

Hình 3.1 Đồ thị v hướng m tả CRF……… ………28

Hình 3.2 Cấu trúc dữ liệu trie……… ……….… 30

H nh 3.3 M h nh tách từ tiếng Lào……… ………35

Hình 3.4 Cấu trúc từ đơn trong tiếng Lào……… ……… ………36

H nh 3.5 Một số cấu tr c câu tiếng Lào……….……….… 40

H nh 3.6 Sơ đồ hối hàm word split……… …….42

H nh 3.7 Sơ đồ hối hàm find first word……… …….43

H nh 3.8 Sơ đồ hối hàm select best word……….……….44

H nh 3.9 Sơ đồ khối hàm is next word……… ……… 45

Trang 8

MỞ ĐẦU 1.Đật vấn đề

Nghiên cứu về xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), truy vấn và khai thác thông tin ( IR-IE: Information Retrieval and Extraction), hệ thống hỏi đáp (Q&A: Question and Answer), tóm lược văn bản (ATS: Automatic Text Summarization), nhận dạng tiếng nói (SR: Speech Recognition) v.v từng bước giúp máy tính hiểu được tri thức của con người

Phân đoạn từ (WS:Word Segmention) là bước quan trọng trong xử lý những ngôn nhữ đơn lập như tiếng Việt ,tiếng Trung Quốc, tiếng Hàn , tiếng Thái và tiếng Lào Phân đoạn từ là việc xác định ranh giới giữa các từ trong câu, không giống như tiếng Anh và các ngôn ngữ Âu-Á khác, tiếng Lào không sử dụng khoảng cách làm dấu hiệu xác định ranh giới từ

Ranh giới giữa các từ không có dấu hiệu rõ ràng mà cần phải dựa vào các yếu

tố như: ngữ nghĩa, ngữ cảnh, văn phong, các từ lân cận, v.v Ngoài ra, vấn đề từ đa nghĩa, từ ghép cũng gây nhiều hó hăn trong việc phân đoạn từ tiếng Lào

2 Lý do chọn đề tài

Hiện nay, hoạt động khoa học công nghệ tại nước CHDCND Lào chưa thực sự phát triển, so sánh với các nước trong khối ASEAN, hay so sánh với nước láng giềng Thái Lan Điều này dẫn đến có rất ít chuyên gia về lĩnh vực XLNNTN, đặc biệt là XL tiếng Lào Mặc dù đã có nhiều hoạt động như Tin học hóa,sử dụng internet và các phương tiện truyền th ng hiện đại trong mọi khía cạnh của cuộc sống, các hoạt động này chưa thật sự đều hắp nước Lào và vắng thiếu sự trao đổi chuyên môn, hợp tác nghiên cứu khoa học Một hó hăn hác liên quan đến những đặc điểm chính tả của tiếng Lào trong vần đề xử lý văn bản

Về vấn đề tách từ, các c ng tr nh nghiên cứu tách từ tiếng Lào c n hạn chế, Trong các c ng tr nh nghiên cứu nói trên, hầu hết vẫn tồn tại vấn đề về việc xử l nhập nhằng V tiếng Lào có nhiều cách viết, cách nói và sử dụng từ h ng thống

Trang 9

nhất, đặc biệt là đặc trưng của tiếng Lào h ng có dấu cách giữa các từ, do đó việc tách từ tiếng Lào sẽ rất hó hăn Tuy nhiên, tiếng Lào rất giống với một ngôn ngữ hác, đó là tiếng Thái Lan Hiện nay đã có một số công trình nghiên cứu về tách từ tiếng Thái cũng như phần mềm nguồn mở xử lý tiếng Thái Chúng tôi hy vọng với kiến thức học hỏi được trong quá trình thực hiện luận văn, có thể cải tiến công cụ tách từ tiếng Thái cho tiếng Lào để đạt hiệu quả tốt hơn

3.Mục đích , phạm vi , đối tƣợng nghiên cứu của luận văn

Mục đích nghiên cứu của đề tài:

Đề tài tìm hiểu các đặc trưng chính tả của hệ thống viết tiếng Lào, các

phương pháp tách từ , lựa chọn các phương pháp tách từ phù hợp và các điều kiện thử nghiệm cho tiếng Lào hiện tại

Nghiên cứu quá trình ứng dụng phần mềm đã có sẵn trong ngôn ngữ tiếng Thái cho tiếng Lào

Phát triển phần mềm áp dụng cho tiếng Lào để có thể xử lý vần đề nhập nhằng một cách thích hợp

Phạm vi nghiên cứu của luận văn

Phạm vi của đề tài tập trung nghiên cứu các phương pháp phân đoạn từ trên văn bản tiếng Lào.Với mục tiêu nêu trên, luận văn tập trung nghiên cứu các vấn đề sau đây:

1.) Cơ sở lý thuyết về ngôn ngữ bao gồm: các loại hình ngôn

ngữ, đơn vị chủ yếu của ngôn ngữ tiếng Lào, cấu trúc của đơn vị từ trong

tiếng Lào, nghiên cứu về từ vựng và hiện tượng nhập nhằng nghĩa của từ

2.) Các phương pháp phân đoạn từ

3.) Các phần mềm tách từ đã có sẵn trong tiếng Thái và tiếng Lào

Đối tƣợng nghiên cứu của luận văn

1.) Các bài toán liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý tiếng Lào và đặc trưng chính tả và ngữ pháp của hệ thống chữ viết tiếng Lào 2.) Các phương pháp giải quyết bài toán tách từ nói chung, giải quyết bài toán

Trang 10

4.Nội dung luận văn

Luận văn này gồm 4 chương chính như sau:

Chương 1: Trình bày tổng quan XLNNTN, XL tiếng Lào, Thái, bài toán tách

từ tiếng Lào, thực trạng và thách thức trong xử lý tiếng Lào

Chương 2: Trình bày về cơ sở lý thuyết tìm hiểu tiếng Lào, đặc trưng ngôn ngữ ,hệ thống ngôn ngữ , các âm tiết , các từ , các câu và hình hóa ba tầng của từ tiếng Lào

Chương 3:Trình bày về bài toán tách từ, các phương pháp tách từ, các giải

pháp tách từ ,mô hình tách từ và bài toán hướng tiếp cận như : so khớp tối đa, hay

cực đại MM (Maximum Matching), xác suất có điều kiện CRF (Conditional Random Field) ,vectơ hỗ trợ (Support Vector Machines) , mô hình Markov ẩn HMM (Hidden Markov Models) đã liên quan, giải pháp tách từ cho tiếng Lào

Chương 4 Trình bày về phần mềm tách từ tiếng Thái với giao diện web, việc

sử dụng phần mềm nguồn mở để tách từ tiếng Lào, thử nghiệm và đánh giá sự khác biệt tiếng Lào và tiếng Thái, các so sánh chữ cái, âm tiết ,phụ âm, nguyên âm ,thử nghiệm trên phần mềm, đánh giá và hướng phát triển

Trang 11

CHƯƠNG 1 GIỚI THIỆU 1.1 Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh

của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất,nó4 góp phần trong việc làm cho máy móc có thể hiểu được ngôn ngữ con người, từ đó tạo ra các hệ thống thông minh.V nó liên quan đến việc phải hiểu nghĩa ng n ngữ,công cụ hoàn hảo nhất của tư duy và giao tiếp

Xử l ng n ngữ là một ĩ thuật quan trọng nhằm gi p máy tính hiểu được

ng n ngữ của con người, qua đó hướng dẫn máy tính thực hiện và gi p đỡ con người trong những c ng việc có liên quan đến ng n ngữ như : dịch thuật, phân tích

dữ liệu văn bản, nhận dạng tiếng nói, t m iếm th ng tin

1.2 Xử lý tiếng Lào

XLNN cũng đóng một vai tr quan trọng trong việc đẩy mạnh sự phát triển CNTT ở Lào để sánh ngang với các cường quốc hác Tuy nhiên, XLNN tiếng Lào (XLNNTL) cũng vấp phải v vàn hó hăn, mà lớn nhất phải ể đến sự hó hăn

về nhân sự Những người nắm giữ những iến thức về XLNNTL quả thực h ng nhiều, và cũng h ng có được 1 mạng lưới liên ết, trao đổi và hỗ trợ một cách hiệu quả Ngoài ra, những hó hăn hác như h ng có dữ liệu đủ lớn, thiếu những nghiên cứu nền tảng, cũng hạn chế h ng ít sự phát triển của XLNNTL

Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên là tùy chọn Khi giao dịch với các tài liệu của tiếng Lào, phân đoạn từ là nhiệm vụ đầu tiên cho xử l văn bản tiếng Lào Tài liệu tiếng Lào không có ranh giới hoặc dấu phân cách giữa các từ và cũng như giữa các câu Do đó, để trích xuất nghĩa từ các tài liệu tiếng Lào, chúng ta cần chương tr nh phân đoạn từ

Trang 12

Chương tr nh phân đoạn từ, trong luận văn này, ch ng t i đề xuất và triển khai dịch vụ web Người dùng có thể sử dụng dịch vụ này để giảm thời gian học tập của họ để phân đoạn tài liệu tiếng Lào và do đó có thể dành nhiều thời gian hơn để tập trung vào việc giải quyết các vấn đề ngữ nghĩa dịch vụ web của chúng tôi sẽ là dịch vụ web đầu tiên cho phân đoạn từ tiếng Lào hỗ trợ gắn thẻ từng phần dựa trên

ho văn bản hiện có của Lào

1.3.Bài toán tách từ, tách từ tiếng Lào, tiếng Thái

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá tr nh xác định các từ đơn, từ ghép… có trong câu Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết

Chính v l do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng

Đ ng Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ng n ngữ thuộc loại hình hóa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy đối với các ngôn ngữ thuộc vùng Đ ng Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ

1.4 Đặt bài toán tách từ văn bản tiếng Lào

Bài toán XLNNTN cho tiếng Lào lu n đặt ra những khó hăn, thách thức do đặc điểm ngôn ngữ của tiếng Lào Đặc biệt bài toán tách từ và bài toán liên quan là tách từ trong văn bản, hiện vẫn chưa có giải pháp hợp l , đồng bộ và khả thi để có thể áp dụng thực tiễn, cụ thể áp dụng cho xử l văn bản

Trong những chương tiếp theo, luận văn sẽ triển khai nghiên cứu chuyên sâu

về XLNNTN, ngôn ngữ Lào và phân tích, đánh giá những kết quả xử lý tiếng Lào

Trang 13

đã được công bố Từ đó luận văn đề xuất giải pháp giải quyết triệt để bài toán tách

từ trong văn bản tiếng Lào trên cơ sở xây dựng cơ sở luật về đặc trưng ngữ pháp, tính chất nguyên âm của chữ viết để nhận diện một từ (âm tiết) tiếng Lào

1.5 Thực trạng và thách thức trong xử lý tiếng Lào

Hiện nay, lĩnh vực ứng dụng CNTT và Truyền thông tại nước CHDCND Lào vẫn còn hạn chế, cả về m i trường lẫn điều kiện Lào còn thiếu nhiều chuyên gia về khoa học công nghệ về CNTT nói chung, về lĩnh vực XLNNTN nói riêng

Cho đến những năm gần đây, vẫn có rất ít công trình NCKH thuộc lĩnh vực XLNNTN được áp dụng thực tiễn Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng internet và các phương tiện truyền thông hiện đại trong nhiều khía cạnh của cuộc sống, nhưng chưa đều khắp nước Lào, vắng thiếu sự trao đổi chuyên môn, hợp tác NCKH

Đặc biệt ở Lào vẫn còn có rất ít công trình nghiên cứu về xử lý tiếng Lào liên quan đến giải quyết bài toán tách từ, thiếu các kho dữ liệu từ vựng, đơn ngữ hoặc đa ngữ, thiếu các công cụ sẵn dùng theo định hướng mã nguồn mở (Open Sourse)

Trang 14

CHƯƠNG 2 NGÔN NGỮ TIẾNG LÀO

2.1 TÌM HIỂU TIẾNG LÀO

2.1.1 Giới thiệu tiếng Lào

Nước CHDCND Lào có bốn dòng ngôn ngữ chính là Lào-Tai, MonKhơme, Chin-Tybệt và H'Mông-Miền thuộc 49 dân tộc khác nhau

Dòng ngôn ngữ Lào-Tai (hay hệ ngôn ngữ Lào-Thái) có 8 dân tộc là Lào, Xaek, Nhouan, Tai, Thai-Neua, Phouthai, Yang và Lue, chiếm 55% dân số cả nước.Tám dân tộc này sinh sống ở các vùng đồng bằng dọc sông Mê Kông, các nhánh sông

đổ về MêKông, có nghề nghiệp chủ yếu là trồng lúa nước và đánh bắt cá

Dòng ngôn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang, Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, Ta- Oy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong, Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou và Harak, chiếm 27% của dân số cả nước Những dân tộc này thường sống ở vùng đồng bằng và trung du, có nghề nghiệp chủ yếu là trồng lúa và làm nương

Dòng ngôn ngữ Chin-Tybệt có 7 dân tộc : Singsily, Sila, Lahu, LoLo, Hor, Akha, Hanyi, chiếm 11% của dân số cả nước Những dân tộc này thường sống ở phía Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu là làm nương rẫy

Dòng ngôn ngữ H'Mông-Miền chỉ có hai dân tộc là Hmong và Iewmien, chỉ chiếm 7% của dân số cả nước Hai dân tộc này sinh sống ở vùng núi cao miền Bắc, có nghề nghiệp chủ yếu là làm nương rẫy và chăn nuôi gia súc

Tiếng Lào-Tai là Quốc ngữ, được dùng trong giao tiếp chính thống và trong các văn bản h nh chính của nhà nước

Luận văn tập trung xử lý tiếng Lào-Tai, ngôn ngữ chính thức được dùng

Trang 15

trong nước Lào, gọi là tiếng Lào, tương tự tiếng Việt -Kinh ở Việt Nam

2.1.2 Ngôn gốc của tiếng Lào và tiếng Thái

Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai, chịu ảnh hưởng của tiếng Phạn (梵 語; sa saṃskṛtā vā संस्कृता वाक्, một ngôn ngữ

cổ của Ấn Độ), ra đời từ khoảng thế kỷ XVI, là ngôn ngữ truyền thống của Hoàng tộc Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo, một ngôn ngữ hỗn hợp ở

Đ ng Nam Á Tiếng Lào, là ngôn ngữ đơn âm có thanh điệu, đa số vay mượn từ những ngôn ngữ cổ của Ấn Độ, như Paly, Sans rit của Đạo Phật, được phát triển rõ ràng vào giữa thế kỷ XX Cũng có những vay mượn từ tiếng Khơrme, tiếng Pháp, tiếng Anh và cả các ngôn ngữ khác trong khu vực Căn cứ vào nhiều tài liệu của các nhà ngôn ngữ Lào, người Lào đã sử dụng chữ cái Lào từ thế kỷ I (thời đại nước Lào

cổ điển) Chữ cái mà người Lào đã sử dụng trong thời kỳ này là một kiểu chữ kế thừa từ chữ Sanskrit của Đạo Phật trường phái Đại Thừa

Hệ thống chữ viết Lào phát triển trong một thời gian lâu dài, pha trộn với nhiều hệ ngôn ngữ hác như Thái, Ấn Độ, nhưng phần lớn thuộc dòng ngôn ngữ Lào-Tai Nhiều nhà ngôn ngữ, nhiều nhóm nghiên cứu đã thực hiện nhiều công việc

để phát triển và giữ gìn chữ cái Lào Năm 1975, ộ Giáo dục Lào công bố sử dụng tiếng Lào chính thức Vào lúc này chữ cái Lào mới được phát triển rõ ràng, hiện đại

và dễ sử dụng đối với người dân và tồn tại cho đến ngày nay

Tiếng Thái (ภาษาไทย, [phasa thai]) là ngôn ngữ của người Thái, Tiếng Thái chịu những ảnh hưởng của tiếng Phạn, các từ trong câu không có dấu cách Tiếng Lào có những thanh điệu và phát âm giống tiếng Thái đến hơn 80% V vậy, người Thái Lan và người Lào có thể đối thoại hiểu nhau được Dân địa phương ở Đ ng

bắc Thái Lan có thể nói chuyện dễ dàng với người Lào

Tuy có nguồn gốc như nhau, nhưng hai ng n ngữ này lại có nhiều điểm khác nhau Hình loại chữ tiếng Thái khác hình loại chữ tiếng Lào Bảng chữ cái tiếng Thái có nhiều ký tự hơn bảng chữ cái tiếng Lào Cách sử dụng ngôn ngữ và chính tả

Trang 16

của hai ngôn ngữ cũng rất khác nhau, mặc dù cả hai hệ thống viết đều không sử dụng dấu phân cách từ, mà viết liền mạch

2.1.3 Những yếu tố ngữ pháp tiếng Lào

1) Âm tiết (Tiếng)

Âm tiết là đơn vị phát âm nhỏ nhất mà cho dù ta có phát âm chậm đến mấy đi nữa cũng h ng thể tách ra thành các phần nhỏ hơn được Tiếng Lào, một âm tiết bao giờ cũng được phát ra với một thanh điệu (dấu) Trên chữ viết, mỗi âm tiết tiếng lào được ghi thành một “ chữ ” và đọc thành một “ tiếng”

Một âm tiết có ít nhất 2 thành phần gồm có âm chính và nguyên âm Âm tiết dài nhất có 7 thành phần gồm có: âm chính, âm trước , âm sau, âm trên , âm dưới, âm cuối và thanh điệu

1 Phụ âm chính ( âm chính )

Phụ âm chính là phụ âm đứng ở vị trí thứ nhất hoặc là vị trí thứ 2 trong âm tiết, nó lu n lu n đặt là phụ âm thân chữ

2 Nguyên âm trước (âm trước )

Nguyên âm trước luôn luôn là yếu tố đứng ở vị trí thứ nhất hoặc là chữ cái đứng đầu âm tiết

3 Nguyên âm sau (âm sau)

Nguyên âm sau là nguyên âm được đặt ở sau phụ âm chính ,xác định bắt đầu âm mới hoặc là từ mới, nhưng âm sau c n có đặc điểm là khi nó hết hợp với nhau chữ

“ ະ ” là chữ kết thực không phải là chữ “ າ ”

4 Nguyên âm trên ( âm trên)

Nguyên âm trên là nguyên âm được đặt ở trên đứng ở vị trí phụ âm chính , nhưng thấp dưới thành điệu

5 Nguyên âm dưới ( âm dưới)

Trang 17

Nguyên âm dưới là nguyên âm được đặt ở dưới đứng ở vị trí phụ âm chính

6 Phụ âm cuối ( âm cuối )

Phụ âm cuối có vị trí cuối cùng của âm tiết, nó có chức năng ết th c một âm tiết Do vậy hi có mặt của âm cuối th âm tiết h ng có hả năng ết hợp thêm với

âm (âm vị) nào hác ở phần sau của nó

7 Thanh điệu

Thanh điệu là một yếu tố thể hiện độ cao và sự chuyển biến của độ cao trong mỗi âm tiết Mỗi âm tiết tiếng Lào nhất thiết phải được thể hiện với một thanh điệu Thanh điệu có chức năng phân biệt vỏ âm thanh, phân biệt nghĩa của từ

Chú ý : thành điệu (dấu) trong tiếng Lào lu n lu n đặt ở tầng 1( tóc) đứng ở

vị trí thân chữ

Thành phần cấu trúc tạo âm tiết trong tiếng Lào thì quá khó, do vậy theo cấu trúc ngôn ngữ học tôi sẽ phân tích các thành phần cấu trúc tạo âm tiết bên dưới

là các hướng tiếp cận cấu trúc âm tiết 7 thành phần

Bảng 2.1 bảng cấu trúc âm tiết 7 thành phần :

Âm tiết Các thành phần cấu tạo âm tiết

Trang 18

Âm trên

Âm dưới

Âm cuối Thành điệu

Có thể mô hình hóa cấu trúc âm tiết tiếng Lào theo 3 tầng lần lượt âm tiết bên dưới là : chân (tầng 3), thân (tầng 2) và tóc (tầng 1)

Tầng 1: gồm 7 nguyên âm ở trên và 4 thanh điệu

Tầng 2: gồm có 33 phụ âm chính, 5 nguyên âm đứng trước và 2 nguyên âm đứng sau

Tầng 3: gồm có 2 nguyên âm dưới

Dưới đây là m nh họa cấu trúc 3 tầng của âm tiết trong tiếng Lào

Bảng 2.2.bảng cấu trúc âm tiết ba tầng

Tóc ( tầng 1)

Thanh điệu ື໅

຾ຖ ໅ບຓ Nguyên âm trên ື

Trang 19

Thân chữ ( tầng 2)

Phụ âm chính ຖ Nguyên âm trước ຾ Nguyên âm sau ບ Phụ âm cuối ຓ

Chân ( tầng 3) Nguyên âm dưới

2).Bảng chữ cái tiếng Lào

Bảng chữ cái tiếng Lào gồm 3 nhóm : phụ âm, nguyên âm, dấu thanh và chữ số.l

Phụ âm :

Có 33 phụ âm đươc chia ra hai loại : phụ âm đơn và phụ âm ghép

Các phụ âm đơn gồm 27 âm đơn như:

Thứ tự 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Phụ âm ກ ຂ ຃ ຄ ຅ ຘ ຆ ງ ຈ ຉ ຊ ຋ ຌ ຍ ຎ

Trang 20

Ngoài ra phụ âm trong tiếng Lào được chia 3 nhóm như: thấp, trung và cao Các phụ âm trung và cao có sự phát âm gần giống nhau

Trang 21

Ví dụ: mái ệc ໂຓ໅ ຾ບກ, mái thô ໂຓ໅ເ຋, mái tri ໂຓ໅ຉ , mái chặt -ta -wa

Bảng 2.3 bảng chữ cái chính tiếng Lào

຾xງ, ຾ື ພງ, ຾ື ບ, ື ທ, ໂx, ແx, ຾ື ຟ, ື ຟ

Trang 22

Từ đơn

Từ đơn là từ có tổ hợp âm tiết ít nhất 2 âm tiết gồm có phụ âm và nguyên

âm Âm tiết dài nhất là 7 âm tiết (quy ước đặt phát âm IPA của một từ tiếng Lào giữa cặp gạch chéo)

Ví dụ: từ đơn 2 âm tiết :

ໂທ | vai | (nhanh) gồm phụ âm “ ທ ” và nguyên âm “ ໂ ”

Từ đơn 3 âm tiết:

ຂໄຟທ | khao | (tin) gồm phụ âm “ຂ”nguyên âm“ຟ” âm cuối “ທ”và dấu thanh

“່ ”

Từ ghép

Từ ghép được tổ hợp từ hai từ đơn trở lên , mang một nghĩa nào đó xác định

Có năm dạng ghép : ghép hai từ đơn có nghĩa hác nhau, ghép hai từ đơn có nghĩa tương đương, ghép hai từ đơn có nghĩa gần giống nhau, ghép nhiều từ đơn

(cụm/nhóm từ), ghép các từ của tiếng Pali và Sanskrit

Trang 23

Ví dụ: ghép hai từ đơn có nghĩa hác nhau

| ຂ້໅ | ຉ ກ |ຖ ຄ| khor tốc lông| (nghị định) được ghép từ hai từ “ຂ້໅” khor (cầu)

và “ຉ ກຖ ຄ” tốc lông (đồng ý)

Ví dụ ghép hai từ đơn có nghĩa tương đương :

຿຅໅ຄ|ກຟຌ cheng karn (th ng báo) được ghép từ hai từ “຿຅໅ຄ” cheng (sang )

và “ກຟຌ” karn (các việc)

Ví dụ ghép hai từ đơn có nghĩa gần giống nhau :

ຖຟງ|ຄຟຌ lai ngan (th ng báo) được ghép từ hai từ “ຖຟງ” lai (sóc) và ຄຟຌ ngan (việc)

Ví dụ ghép nhiều từ đơn :

ກຟຌ | ຎຝ | ກຟຈ | ຿ຉໄຄ | ຉພ໅ຄ:( Lễ công bố quyết định bổ nhiệm cán bộ )

Ví dụ ghép các từ của tiếng Pali và Sansakrit :

຅ູ໅຅ ໅ : ຅ູ໅|຅ ໅ chùu chìi (quấy rầy)

Ví dụ láy hoàn toàn :

ໂທໂທ : ໂທ|ໂທ wai wai (nhanh nhanh)

ຆ໅ຟຆ໅ຟ : ຆ໅ຟ|ຆ໅ຟ xàa xàa (chậm chậm),

Ngoài ra còn có từ vay mượn của ngôn ngữ khác Ví dụ từ vay mượn :

Trang 24

ເບເຉຓຟຉ ກ : ເບ|ເຉ|ຓຟ|ຉ ກ ô-tô-ma-tic (tự động)

2 Câu (The Sentence)

Tiếng Lào có hai loại câu : câu đơn và câu ghép

Câu đơn

Tương tự quan điểm ngữ pháp tiếng Việt, trong ngữ pháp tiếng Lào, câu đơn đơn gồm ba phần : chủ ngữ (danh từ hay đại từ), vị ngữ (động từ) và bổ ngữ Ví dụ câu đơn :

ກຟຌຖ ຄ຋ຝຍຽຌປຽຌຑຟກປຽຌ຋ II

( Sinh viên đăng học kỳ II)

Được phân tách tương ứng như sau :

mà dùng dấu phẩy, dấu chấm phẩy hoặc dấu hai chấm và nối bằng quan hệ từ Có hai cách nối bằng quan hệ từ :

- Dùng các từ : và, rồi, th , nhưng, hay, hoặc

Trang 25

| ຾ຌ ໄບຄ຅ຟກຉຟຉຟຖຟຄປຽຌຓ ກຟຌຎໄຽຌ຿ຎຄ | ຈພໄຄຌ ພ໅ຌ | ເປຄປຽຌ຅ ໄຄຎຝກຟຈແນ໅

ຌ ພກປຽຌ |

| Do thời khóa biểu thay đổi| nên | trường đã th ng báo cho sinh viên |

2.2.Tiếng Lào trong bối cảnh xử lý ngôn ngữ tự nhiên

2.2.1 Xây dựng các trình soạn thảo văn bản tiếng Lào

Tiếp cận đầu tiên về xử lý tiếng Lào là xây dựng các trình soạn thảo văn bản tiếng Lào liên quan đến bộ gõ sử dụng bảng mã Unicode và bộ mã cho ký tự Lào Hiện nay đã có nhiều trình soạn thảo văn bản tiếng Lào được phổ biến rộng rãi với nhiều phông chữ, đáp ứng được nhu cầu của NSD Đó là các phần mềm : Keyman, LaoScript for Windows, Lao Word Pro, Lao Pad, Lao Unikey sử dụng các phông chữ Lao95, Lao2000, LaoUnicode, Lào như Alice0, Alice1, Alice2, Phesarath OT, SaysetthaUnicode, Saysettha OT, Chantabuli Lao, Chantabuli 95, v.v Phần mềm soạn thảo văn bản được dùng nhiều nhất là LaoScript for Windows Tuy nhiên trong tất cả các trình soạn thảo văn bản,chưa có c ng tr nh nào được công bố về kiểm tra lỗi chính tả tiếng Lào

Sau đây là ví dụ một vài chữ cái Lào, khi sử dụng bộ gõ và phông chữ khác nhau dẫn đến sự hác nhau như :

Sử dụng bộ gõ LaoUnicode và phông chữ SaysetthaOT

Trang 26

Hình 2.1 Bàn phím gõ tiếng Lào

Bộ chữ Lào hiện có mã unicode (The Unicode Standard, Version 9.0, 2016)

là dải mã từ 0E80 đến 0EFF trong hệ 16

Ba loại từ tiếng

Tiếng Lào là ngôn ngữ đơn lập khác ngôn ngữ tiếng nước ngoại bời vì phân chia từ cùng khác nhau và tiếng Lào có nhiều phân chia từ sau đây t i sẽ nói 3 loại tiếng chính như : Từ ngôn(từ tiếng Lào ngày xưa), Từ ghép (từ vay hoặc là từ pali

và sansakit) và Từ nước ngoại( tiếng anh, tiếng pháp)

Trang 27

CHƯƠNG 3 BÀI TOÁN TÁCH TỪ TIẾNG LÀO 3.1 Bài toán tách từ

Trong quá trình xử lý bài toán tách từ, trước hết văn bản cần qua bước tiền

xử lí cơ bản như tách từ Bài toán tách từ (Word Segmentation), hay cũng có thể được gọi là tách các thuật ngữ (Tokenizer), là một quá trình xử lý nhằm xác định ranh giới (tách) của các từ trong câu, hoặc chỉ ra những từ nào không có trong từ điển cho trước (phát hiện đơn vị từ vựng mới) của một văn bản đầu vào đã cho Về mặt ngôn ngữ, cũng có thể hiểu đơn giản quá trình tách từ là xác định các từ đơn, từ ghép… có mặt trong câu (được kết thúc bằng các dấu chấm câu) Trong lĩnh vực XLNNTN, tách từ có vai trò quan trọng trong việc xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu

Tách từ quen thuộc, đơn giản với con người do tính trực quan, nhưng trong XLNNTN, bài toán tách từ rất khó giải quyết, đặc biệt là đối với các ngôn ngữ thuộc vùng Đ ng Á Các ng n ngữ này thường theo loại hình ngôn ngữ đơn lập, dựa trên các từ đơn âm tiết (tiếng) Ví dụ : tiếng Trung Quốc và các ngôn ngữ đồng văn như tiếng Việt, tiếng Nhật, tiếng Hàn, các ngôn ngữ như tiếng Thái, tiếng Lào Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ng n ngữ thuộc loại hình hòa kết (đa âm tiết) như tiếng Anh, các ngôn ngữ sử dụng chữ cái La Tinh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy đối với các ngôn ngữ thuộc vùng Đ ng Á, vấn đề của bài toán tách từ là khử bỏ được sự nhập nhằng trong ranh giới các từ

Bài toán tách từ là bài toán cơ bản đầu tiên trong các bài toán đặt ra cho XL NNTN Cũng có thể nói hầu hết các bài toán XL NNTN đều ứng dụng bài toán tách

từ Đó là phân tích h nh thái (Morphological Analysis), gán nhãn từ loại (POS tagging), nhận diện tên riêng, nhận diện ranh giới ngữ, gán nhãn ranh giới ngữ, gán nhãn quan hệ cú pháp, phân tích phụ tố (Affixes Analysis), phân tích ngữ pháp (Parser) xử l văn bản, kiểm lỗi chính tả, kiểm lỗi văn phạm, tóm tắt văn bản, phân

Trang 28

3.2 Các phương pháp tách từ

Để giải quyết bài toán tách từ, hay phân đoạn từ, cho đến nay đã nhiều phương pháp hác nhau, hướng tiếp cận hác nhau Đa số là các m h nh này đã được áp dụng thành công cho các ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Thái… và đều được tiếp tục cải tiến để phù hợp với đặc điểm của các ngôn ngữ khác Về tách từ tiếng Thái có các công trình tách từ của các công trình tách từ tiếng Việt các công trình tách từ tiếng Lào các công trình tách từ tiếng Trung

Sau đây là một số hướng tiếp cận :

- So khớp tối đa, hay cực đại MM (Maximum Matching)

- Sử dụng trường xác xuất có điều kiện CRF (Conditional Random

Field)

- Phương pháp máy học sử dụng vectơ hỗ trợ (Support Vector

Machines)

- Sử dụng mô hình Markov ẩn HMM (Hidden Markov Models)

- Sử dụng phương pháp máy học dựa trên sự cải biến TBL

(Transformation-Based Learning)

- Chuyển đổi trạng thái trọng số hữu hạn WFST (Weighted Finite

State Transducer)

- Độ hỗn loạn cực đại ME (Maximum Entropy)

Ngoài ra còn có thể kết hợp những phương pháp trên

Sau đây, ch ng t i sẽ tr nh bày hai phương pháp tách từ có thể vận dụng để giải quyết hiệu quả cho bài toán tách từ tiếng Lào

1) Phương pháp so khớp tối đa

Ý tưởng của phương pháp so hớp tối đa (Maximum Matching), hay còn được gọi là so khớp tối đa từ trái qua phải (From Left to Right Maximum Matching)

là duyệt một câu vào từ trái qua phải và chọn cụm từ dài nhất có mặt trong một từ

Trang 29

điển từ vựng đã cho Quá tr nh này tiếp tục được lặp lại cho đến khi cụm từ tìm được có độ dài giảm dần cho đến hết câu

Thuật toán được trình bày có hai dạng sau :

Dạng đơn giản : Giả sử có một chuỗi các từ đơn trong câu là Thuật toán sẽ kiểm tra xem t1 có mặt trong từ điển hay h ng, sau đó iểm tra tiếp từ ghép

t1t2 có trong từ điển hay không Tiếp tục như vậy cho đến hi t m được cụm từ có nhiều từ nhất có mặt trong từ điển, và đánh dấu cụm từ đó Sau đó tiếp tục quá trình trên với tất các từ còn lại trong câu và trong toàn bộ văn bản Dạng này há đơn giản nhưng nó gặp phải rất nhiều nhập nhằng trong tiếng Lào

Dạng phức tạp : dạng này có thể tránh được một số nhập nhằng gặp phải

trong dạng đơn giản Đầu tiên thuật toán kiểm tra xem t1 có mặt trong từ điển

h ng, sau đó iểm tra tiếp có mặt trong từ điển không Nếu đều có mặt trong từ điển thì thuật toán thực hiện chiến thuật chọn 3-từ tốt nhất Hai tiêu chuẩn 3-từ tốt nhất được đề xuất liên quan đến độ dài trung bình và chênh lệch độ dài của

3 từ :

Độ dài trung bình của 3 từ là lớn nhất Ví dụ với chuỗi “quản lý nhân sự” sẽ được phân đoạn đ ng thành “quản lý | nhân sự”, tránh được việc phân đoạn sai thành “quản | lý nhân | sự” v cách phân đ ng phải có độ dài trung bình lớn nhất

Sự chênh lệch độ dài của 3 từ là ít nhất Ví dụ với chuỗi “hoạt động khoa học công nghệ” sẽ được phân đoạn đ ng thành “hoạt động | khoa học | công nghệ” thay v phân đoạn sai thành “hoạt động khoa | học công nghệ” Cả hai cách phần đoạn từ này đều có độ dài trung bình bằng nhau, nhưng cách phân đoạn từ đ ng có sự chênh lệch độ dài 3 từ ít hơn

Tuy hai tiêu chuẩn trên có thể hạn chế được một số nhập nhằng, nhưng không phải tất cả Ví dụ với câu “Ông X làm chủ nhiệm hoa” th cả 2 cách phân đoạn sau đều có cùng độ dài trung b nh và độ chênh lệch giữa các từ : “Ông X làm | chủ nhiệm hoa” và “Ông X | làm chủ nhiệm | hoa”, do đó thuật toán không thể chỉ ra cách phân tách đ ng được

Trang 30

2) Phương pháp sử dụng trường ngẫu nhiên có điều kiện CRF

Trong khi giải quyết các vấn đề trên nhiều lĩnh vực khoa học, người ta thường bắt gặp các bài toán về phân đoạn và gán nhãn dữ liệu dạng chuỗi Các mô hình xác suất phổ biến để giải quyết bài toán này là mô hình Markov ẩn (HMMs) và văn phạm thống kê (Stochastic Grammar, hay Statistical Grammar) Trong sinh học,

mô hình Markov ẩn và văn phạm thống ê đã thành c ng trong việc sắp xếp các chuỗi sinh học, tìm kiếm chuỗi tương đồng với một quần thể tiến hóa cho trước, và phân tích cấu trúc DNA Trong khoa học máy tính, mô hình Markov ẩn được ứng dụng rộng rãi trong hàng loạt vấn đề về xử l văn bản và tiếng nói, như là trích chọn

th ng tin, phân đoạn từ

Sau đây ch ng t i sẽ tr nh bày định nghĩa CRF, nguyên l cực đại hóa Entropy với việc xác định hàm tiềm năng cho CRF Sau đó là phương pháp huấn luyện mô hình CRF và thuật toán Viterbi dùng để suy diễn trong CRF

Định nghĩa xác xuất có điều kiện CRF

Kí hiệu X là biến ngẫu nhiên có tương ứng với chuỗi dữ liệu cần gán nhãn và

là biến ngẫu nhiên tương ứng với chuỗi nhãn Mỗi thành phần của là một biến ngẫu nhiên nhận trá trị trong một tập hợp hữu hạn các trạng thái Ví dụ trong bài toán phân đoạn từ, nhận giá trị là các câu trong ngôn ngữ tự nhiên, còn là chuỗi nhãn tương ứng với các câu này Mỗi thành phần của là một nhãn xác định phạm vi của một từ trong câu (bắt đầu một từ, ở trong một từ và kết thúc một từ)

Cho một đồ thị v hướng không có chu trình , trong đó :

- là tập hợp các cạnh v hướng của đồ thị

- là tập hợp các đỉnh của đồ thị sao cho

Khi đó, là tồn tại một ánh xạ một-một giữa một đỉnh đồ thị và một thành phần của Nếu mỗi biễn ngẫu nhiên tuân theo tính chất Mar ov đối với đồ thị , nghĩa là xác suất của biến ngẫu nhiên cho bởi và tất cả các biến ngẫu

Ngày đăng: 12/02/2021, 18:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Phonepasit Phissamay et al. 2004. Syllabification of Lao Script for Line Breaking, Technical Report of STEA, Lao PDR Sách, tạp chí
Tiêu đề: Syllabification of Lao Script for Line Breaking
[2] Ohm Sornil and Paweena Chaiwanarom. 2004. Combining Prediction by Partial Matching and Logistic Regression for Thai word segmentation. Proceedings of the 20th International Conferenceon Computational Linguistics Sách, tạp chí
Tiêu đề: Combining Prediction by Partial Matching and Logistic Regression for Thai word segmentation
[3] K. Toutanova and C. D. Manning, ”Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger”. Proc. the Joint SIGDAT Conference on Empirical Methods in Natural Language Processingand Very Large Corpora, pp. 63-70, 2000 Sách, tạp chí
Tiêu đề: Proc. the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing "and Very Large Corpora
[4] D. Roth and D. Zelen o, ”Part of Speech Tagging Using a Networ of Linear Separators”, The 17th International Conference on Computational Linguistics (1998), pp. 1136–1142, 1998 Sách, tạp chí
Tiêu đề: The 17th International Conference on Computational Linguistics (1998)
Tác giả: D. Roth and D. Zelen o, ”Part of Speech Tagging Using a Networ of Linear Separators”, The 17th International Conference on Computational Linguistics
Năm: 1998
[10]. Vilavong Souksan Nguyên cứu các phương pháp táp tách từ phục vụ phân loại ăn bản tiếng Lào .Luận án tiến sĩ - Đại học Đà Nẵng: - 2017 Sách, tạp chí
Tiêu đề: Nguyên cứu các phương pháp táp tách từ phục vụ phân loại ăn bản tiếng Lào
[11]. Nguyễn Trung Kiên: Phân đ ạn từ tiếng Việt sử dụng mô hình CRF Khóa luận tốt nghiệp Trương đại học công nghệ - Đại học quốc gia Hà Nội 2016) Sách, tạp chí
Tiêu đề: Phân đ ạn từ tiếng Việt sử dụng mô hình CRF
[12]. Lê Tuấn Linh,KIểm lỗi chính tả tiếng Việt, Khóa luận tốt nghiệp Đại học Công nghệ Đại học quốc gia Hà Nội, 2013 Sách, tạp chí
Tiêu đề: KIểm lỗi chính tả tiếng Việt
[5] T. Karoonboonyanan, C. Silpa-Anan, P. Kiatisevi, P.Veerathanabutr and V. Ampornaramveth, ”libthai Library”. Available at: http://linux.thai.net/projects/libthai Link
[9].ທພຈ຅ຝຌຟຌ ກ ຓຑຟຘຟຖຟທ (Từ điển tiếng Lào). http://bolikhamxay.gov.la TIẾNG VIỆT Link
[6] Limcharoen, P., Nattee, C., and Theeramunkong, T. (2009).Thai word segmentation based-on glr parsing technique and word n-gram model. In Eighth International Symposium onNatural Lanugage Processing Khác
[7] Asanee Kawtraku. 1995. Alexibase Model for Writing Production Assistant System. Chih-Hao Tsai. 1996. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm. www.casper.beckman. uiuc.edu/~c-tsai4/chinese/wordseg/mmseg.htmlTIẾNG LÀO Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm