1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê

140 146 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 140
Dung lượng 2,42 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH MỤC CHỮ VIẾT TẮT TIẾNG ANH 1 ASCII American Standard Code for Information Interchange Bảng mã chuẩn của Hoa Kỳ dành cho việc chuyển Ďổi thông tin 2 CBMT Corpus-Based Machine Tran

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học : PGS.TS PHAN HUY KHÁNH

Đà Nẵng, năm 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam Ďoan Ďây là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn trực tiếp của PGS.TS Phan Huy Khánh

Tôi cam Ďoan các kết quả Ďược trình bày trong luận án là trung thực, không sao chép từ bất kỳ luận án nào khác và chưa từng Ďược ai công bố trong bất kỳ công trình nào khác Mọi trích dẫn Ďều có ghi nguồn gốc xuất xứ rõ ràng

Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm

Tác giả,

NCS Hoàng Thị Mỹ Lệ

Trang 4

LỜI CẢM ƠN

Tôi thực hiện luận án “Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy

và học tiếng Ê Đê” dưới sự hướng dẫn tận tình của Thầy giáo PGS.TS Phan Huy Khánh Tôi Ďã nhận Ďược từ thầy nhiều kiến thức chuyên môn quý báu, những kinh nghiệm nghiên cứu khoa học, cũng như những yêu cầu nghiên cứu nghiêm túc trong suốt thời gian nghiên cứu Ďể hoàn thành luận án Tôi chân thành bày tỏ lòng biết ơn và sự kính trọng sâu sắc Ďối với thầy

Trong thời gian bắt Ďầu nghiên cứu cho Ďến nay, tôi cũng Ďã tiếp nhận Ďược những kiến thức quý giá, sự giúp Ďỡ và quan tâm nhiệt tình của quý thầy, cô từ khoa Điện, trường Cao Ďẳng Công nghệ Ďến khoa Công nghệ Thông tin trường Đại học Bách khoa, Đại học

Đà Nẵng Quý thầy, cô Ďã tạo mọi Ďiều kiện thuận lợi giúp tôi học tập, nghiên cứu khoa học, tham gia hội thảo và trao Ďổi chuyên môn, tiếp xúc với các chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên và Công nghệ Thông tin Tôi chân thành bày tỏ lời cảm ơn sâu sắc

Tôi xin trân trọng cảm ơn Ban Đào tạo - Đại học Đà Nẵng, Phòng Đào tạo - Trường Đại học Bách khoa Ďã tạo mọi Ďiều kiện thuận lợi cho tôi trong thời gian học tập, nghiên cứu và thực hiện luận án

Tôi xin ghi nhận và cảm ơn các cán bộ trong Ban dân tộc tỉnh Đăk Lăk,

TS Buôn Krông Tuyết Nhung (Đại học Tây Nguyên) Ďã tạo Ďiều kiện thuận lợi cho tôi trong việc tìm kiếm các nguồn tài liệu liên quan Ďến tiếng Ê Đê

Tôi cũng chân thành cảm ơn các tác giả về những bài báo, tài liệu, bài giảng và các công bố nghiên cứu khoa học mà tôi có sử dụng tham khảo, trích dẫn trong luận án

Một lần nữa, tôi trân trọng cảm ơn bạn bè Ďồng nghiệp và gia Ďình Ďã cho tôi niềm tin, nghị lực và lòng quyết tâm Ďể Ďạt Ďược kết quả mong muốn

NCS Hoàng Thị Mỹ Lệ NCS Hoàng Thị Mỹ Lệ

Trang 5

MỤC LỤC

MỞ ĐẦU 1

1 Mục tiêu nghiên cứu 3

2 Đối tượng và phạm vi nghiên cứu 4

3 Phương pháp nghiên cứu 4

4 Cấu trúc của luận án 4

5 Những Ďóng góp chính của luận án 5

CHƯƠNG 1 VẤN ĐỀ XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 7

1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 7

1.1.1 Mã hóa và soạn thảo văn bản 7

1.1.2 Xây dựng kho ngữ vựng 8

1.1.3 Tách từ và gán nhãn từ loại 11

1.1.4 Bài toán dịch máy 14

1.2 XỬ LÝ TIẾNG VIỆT-KINH 17

1.2.1 Tiếng Việt trong bối cảnh xử lý ngôn ngữ tự nhiên 17

1.2.2 Một số kết quả xử lý tiếng Việt 18

1.2.3 Xu thế và triển vọng trong xử lý tiếng Việt 21

1.3 XỬ LÝ TIẾNG CÁC DÂN TỘC THIỂU SỐ Ở VIỆT NAM 21

1.3.1 Bảo tồn tiếng các dân tộc thiểu số ở Việt Nam 21

1.3.2 Hệ thống chữ viết các dân tộc thiểu số ở Việt Nam 24

1.3.3 Thực trạng tiếng các dân tộc thiểu số ở Việt Nam 26

1.4 XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 27

1.4.1 Vấn Ďề xử lý ngôn ngữ dân tộc thiểu số 27

1.4.2 Khó khăn và thách thức 29

1.4.3 Các phương pháp tiếp cận 30

1.4.4 Định hướng nghiên cứu 30

1.5 KẾT LUẬN CHƯƠNG 1 31

CHƯƠNG 2 MÔI TRƯỜNG XỬ LÝ TIẾNG Ê ĐÊ 33

2.1 XÂY DỰNG MÔI TRƯỜNG XỬ LÝ TIẾNG Ê ĐÊ 33

Trang 6

2.1.1 Giới thiệu tiếng Ê Đê 33

2.1.2 Khó khăn trong xử lý tiếng Ê Đê 36

2.1.3 Xử lý tiếng Ê Đê vận dụng kết quả xử lý tiếng Việt 36

2.1.4 Phân cấp chức năng trong môi trường xử lý tiếng Ê Đê 37

2.2 SOẠN THẢO VĂN BẢN TIẾNG Ê ĐÊ 39

2.2.1 Xử lý chữ viết tiếng các dân tộc thiểu số ở Việt Nam 40

2.2.2 Soạn thảo văn bản tiếng các dân tộc thiểu số ở Việt Nam 42

2.2.3 Soạn thảo văn bản tiếng Ê Đê 43

2.3 SỬ DỤNG UNICODE 48

2.3.1 Sử dụng Unicode trong soạn thảo văn bản 48

2.3.2 Chuyển Ďổi văn bản tiếng dân tộc thiểu số về Unicode 49

2.3.3 Chuyển Ďổi văn bản tiếng Ê Đê dùng phông chữ riêng về Unicode 50

2.4 KẾT LUẬN CHƯƠNG 2 52

CHƯƠNG 3 XỬ LÝ TIẾNG Ê ĐÊ 54

3.1 HỢP NHẤT NGUỒN DỮ LIỆU SONG NGỮ VIỆT-Ê ĐÊ 54

3.1.1 Mô hình hợp nhất nguồn dữ liệu song ngữ 54

3.1.2 Môi trường hợp nhất nguồn dữ liệu song ngữ 56

3.1.3 Đánh giá mô hình hợp nhất nguồn dữ liệu 58

3.2 XÂY DỰNG KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 58

3.2.1 Tổ chức kho ngữ vựng song ngữ Việt-Ê Đê 58

3.2.2 Cập nhật dữ liệu vào kho ngữ vựng 61

3.2.3 Đánh giá kho ngữ vựng 62

3.3 KIỂM TRA CHÍNH TẢ ÂM TIẾT TIẾNG Ê ĐÊ 67

3.3.1 Âm tiết tiếng Ê Đê 68

3.3.2 Phát hiện lỗi chính tả âm tiết tiếng Ê Đê 69

3.3.3 Giải pháp kiểm tra chính tả âm tiết tiếng Ê Đê 70

3.4 QUẢN LÝ KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 72

3.4.1 Bổ sung mục từ vào kho ngữ vựng 73

3.4.2 Nâng cao chất lượng kho ngữ vựng 73

Trang 7

3.4.3 Định hướng khai thác kho ngữ vựng song ngữ Việt-Ê Đê 75

3.5 KẾT LUẬN CHƯƠNG 3 75

CHƯƠNG 4 XÂY DỰNG ỨNG DỤNG XỬ LÝ TIẾNG Ê ĐÊ 77

4.1 DẠY VÀ HỌC TIẾNG Ê ĐÊ 77

4.1.1 Thực trạng dạy và học tiếng Ê Đê 77

4.1.2 Ứng dụng quản lý kho ngữ vựng 78

4.1.3 Các ứng dụng dạy và học tiếng Ê Đê 78

4.2 TRA CỨU TỪ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 79

4.2.1 Vai trò của từ vựng trong dạy và học song ngữ Việt-Ê Đê 79

4.2.2 Xây dựng ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 80

4.2.3 Ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 83

4.3 BÀI TOÁN DỊCH MÁY VIỆT-Ê ĐÊ 83

4.3.1 Dịch máy văn bản Việt-Ê Đê 84

4.3.2 Giải quyết bài toán tách từ tiếng Việt trong dịch máy Việt-Ê Đê 84

4.3.3 Xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê 85

4.4 KIỂM TRA LỖI CHÍNH TẢ TIẾNG Ê ĐÊ 91

4.4.1 Vấn Ďề lỗi chính tả tiếng Ê Đê 91

4.4.2 Giải quyết bài toán kiểm tra lỗi chính tả văn bản tiếng Ê Đê 91

4.4.3 Xây dựng bộ kiểm tra lỗi chính tả trong dạy và học tiếng Ê Đê 93

4.5 KẾT LUẬN CHƯƠNG 4 95

KẾT LUẬN 96

1 Các kết quả chính của luận án 96

2 Đánh giá kết quả 97

3 Hướng phát triển 98

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 99

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 100

PHỤ LỤC 109

Trang 8

DANH MỤC CHỮ VIẾT TẮT TIẾNG ANH

1 ASCII American Standard Code for

Information Interchange

Bảng mã chuẩn của Hoa Kỳ dành cho việc chuyển Ďổi thông tin

2 CBMT Corpus-Based Machine

Translation Dịch máy dựa trên ngữ liệu

3 EBA Example-Based Approach Phương pháp tiếp cận dựa trên

mẫu có sẵn

4 EBMT Example-Based Machine

Translation Dịch máy dựa trên mẫu có sẵn

5 EIWVNK Environment Interaction in

7 HTML Hyper Text Markup

Language Ngôn ngữ Ďánh dấu siêu văn bản

8 ICE International Corpus of

English Kho ngữ liệu quốc tế tiếng Anh

9 ICE-GB International Corpus of

English-Great Britain

Kho ngữ liệu quốc tế tiếng Anh bản xứ

10 KBMT Knowledge-Based Machine

Translation Dịch máy dựa trên cơ sở tri thức

11 MILLE MInority Language

Engineering Công nghệ ngôn ngữ DTTS

12 MM Maximum Matching So khớp cực Ďại

13 RBA Rule-Base Approach Phương pháp tiếp cận dựa trên luật

Công nghệ ngôn ngữ và tiếng nói cho các DTTS

16 SA Statistical Approach Phương pháp tiếp cận thống kê

17 SMT Statistical-Based Machine

Translation Dịch máy kiểu thống kê

18 TBL Transformation-Based

Learning Học dựa vào sự biến Ďổi

19 WFST Weighted Finite State

Transducer

Chuyển Ďổi trạng thái hữu hạn có trọng số

Trang 9

2.7 So sánh Ďánh giá các yếu tố hiển thị chữ viết tiếng Ê Đê 47

2.8 Tệp lưu giá trị hexa và tập kí tự Ďược gõ theo bộ phông chữ

TayNguyenKey với kiểu gõ VNI

51

3.1 Kết quả thực nghiệm chuyển Ďổi văn bản phông chữ riêng sang Unicode 52

3.4 Bảng lưu KNV song ngữ Việt-Ê Đê 61 3.5 Thống kê số mục từ Ďược nhập vào trong các kho ngữ vựng qua MEDAS 62 3.6 Thống kê số lượng mục từ theo số âm tiết trong mục từ của KNV Ê Đê 64 3.7 Thời gian tách từ giữa so khớp vào KNV và từng vùng trong KNV 65 3.8 Thống kê số từ chưa có trong KNV tiếng Ê Đê 65 3.9 Độ bao phủ KNV Ê Đê trên các văn bản tiếng Ê Đê 66 3.10 Thống kê số từ tiếng Việt chưa có trong KNV tiếng Việt 66 3.11 Độ bao phủ KNV tiếng Việt trên các văn bản tiếng Việt 66

Trang 10

Số hiệu

3.13 Ví dụ chuyển âm tiết Ê Đê sang mô hình âm tiết 72 3.14 Thống kê số âm tiết Ê Đê sai Ďƣợc phát hiện 74

3.15 Đánh giá KNV sau khi kiểm tra lỗi chính tả âm tiết qua Ďộ bao phủ trên

văn bản tiếng Ê Đê

Trang 11

Unicode

49

3.1 Mô hình hợp nhất nguồn dữ liệu song ngữ 55

3.3 Mô hình kiểm tra chính tả âm tiết tiếng Ê Đê 71 3.4 Mô hình hoạt Ďộng của bộ CESILD 74 4.1 Sơ Ďồ hoạt Ďộng tra cứu từ vựng Việt-Ê Đê 81 4.2 Sơ Ďồ hoạt Ďộng tra cứu từ vựng Ê Đê-Việt 82 4.3 Hoạt Ďộng của bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê 87 4.4 Mô hình kiểm tra lỗi chính tả văn bản tiếng Ê Đê 92

Trang 12

Từ những năm 1957 cho Ďến 1970, XLNNTN Ďược tập trung nghiên cứu theo

lý thuyết ngôn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng nói như các phương pháp Bayes [54]

Giai Ďoạn 1970-1983 phát triển các mô hình nghiên cứu về XLNNTN

Giai Ďoạn 1983-1993, tập trung nghiên cứu trở lại mô hình trạng thái hữu hạn, các phương pháp xác suất và hướng tiếp cận dựa trên các dữ liệu lời nói trong phân tích cú pháp, gán nhãn từ loại và xử lý nhập nhằng nghĩa [54]

Giai Ďoạn từ năm 1994 Ďến nay, XLNNTN Ďã có những thay Ďổi và phát triển Một số thuật toán phân tích cú pháp, gán nhãn từ loại, truy xuất thông tin cũng Ďã Ďược nghiên cứu và áp dụng cho xây dựng các ứng dụng trong XLNNTN như: nhận dạng tiếng nói, kiểm tra chính tả, kiểm tra ngữ pháp, công cụ truy xuất và trích chọn thông tin trên Web [54], [62] Trong giai Ďoạn này phát triển các nghiên cứu phương pháp dịch máy thống kê Vào năm 2007, Google cũng Ďã chuyển sang phương pháp dịch máy thống kê trong hệ dịch tự Ďộng [82]

Ở Việt Nam, có trên 20 ngôn ngữ có chữ viết trên tổng số 55 dân tộc Vấn Ďề

xử lý tiếng Việt (xử lý tiếng dân tộc Kinh ở Việt Nam) Ďã Ďược nghiên cứu từ năm

1990, Ďã có nhiều kết quả và vẫn Ďang Ďược tiếp tục duy trì [7], [15], [70], [71]

Trang 13

Tuy nhiên, các kết quả nghiên cứu Ďạt Ďược vẫn còn những mặt hạn chế như: chưa Ďược liên kết, thiếu chia sẻ và không có tính kế thừa, chỉ tập trung vào các sản phẩm cho người dùng, ít nghiên cứu phát triển hạ tầng cơ sở như từ Ďiển máy tính, kho ngữ liệu, Ďây là những thứ không thể thiếu trong XLNNTN

Những hạn chế nêu trên là do không có sự Ďồng thuận giữa các Ďơn vị nghiên cứu, giữa các nhà khoa học về XLNNTN [7]

Bên cạnh các kết quả nghiên cứu xử lý tiếng Việt, các vấn Ďề xử lý tiếng dân tộc thiểu số (DTTS) ở Việt Nam cho Ďến nay vẫn có rất ít các nhà khoa học quan tâm Trong bối cảnh bùng nổ sử dụng internet, cùng với nhu cầu phát triển văn hoá và hội nhập của cộng Ďồng các DTTS ở Việt Nam, thì lúc này nhu cầu xử lý tiếng các DTTS Ďặt ra càng bức thiết hơn bao giờ hết

Tiếng nói và chữ viết của mỗi DTTS ở Việt Nam vừa là vốn quý của các dân tộc, vừa là tài sản văn hóa chung của cả nước, luôn Ďược tôn trọng, có quyền bình Ďẳng và tự do phát triển ngôn ngữ của mỗi dân tộc Các trường phổ thông, trường phổ thông Dân tộc nội trú, trung tâm giáo dục thường xuyên, trung tâm học tập cộng Ďồng, Ďã có những chương trình dạy và học tiếng các DTTS

Hiện nay, một số chữ viết của các DTTS ở Việt Nam Ďã Ďược sử dụng trên các

phương tiện thông tin Ďại chúng từ trung ương tới Ďịa phương như: Tày, Thái, Dao,

Mông, Gia Rai, Ê Đê, Ba Na, Chăm, Khơ Me [2] Nhiều Ďịa phương Ďã triển khai

thực hiện dạy tiếng dân tộc cho học sinh dân tộc trong các trường phổ thông Từ Ďó, những vấn Ďề xử lý tin học tiếng các DTTS tương tự như tiếng Việt là nhu cầu cấp thiết Ďược Ďặt ra hiện nay

Những công trình nghiên cứu xử lý tiếng các DTTS ở Việt Nam Ďã có từ năm

2002, có thể kế Ďến như: bộ phông chữ Ê Đê [8], bộ gõ tiếng Chăm [37], bộ gõ cho

bốn ngôn ngữ DTTS Ê Đê, Gia Rai, Ba Na, M’Nông và tiếng Việt [36]

Cho Ďến nay, vấn Ďề xử lý tiếng các DTTS ở Việt Nam vẫn còn Ďang tiếp tục triển khai nghiên cứu

Từ tình hình thực tiễn xử lý tiếng các DTTS ở Việt Nam nói chung và tiếng

Ê Đê nói riêng, dựa trên sự gần gũi ngôn ngữ giữa tiếng Việt và tiếng Ê Đê, luận án

Trang 14

chọn Ďề tài “Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học

tiếng Ê Đê”, nhằm Ďịnh hướng qui trình nghiên cứu trong xử lý tiếng Ê Đê

Từ những Ďịnh hướng nghiên cứu Ďược Ďặt ra trong môi trường này, tiếng Ê Đê soạn thảo Ďược trong môi trường Ďa ngữ Kho ngữ vựng Việt-Ê Đê Ďược xây dựng dựa trên mô hình hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt Văn bản tiếng Ê Đê dùng phông chữ riêng chuyển Ďổi Ďược sang Unicode và Ďược kiểm tra lỗi chính tả ở mức âm tiết Các ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê Ďược xây dựng dựa trên kho ngữ vựng Việt-Ê Đê có Ďược từ mô hình hợp nhất Định hướng phát triển kho ngữ vựng thông qua trang web quản lý kho ngữ vựng, Ďể từ Ďó các chuyên gia ngôn ngữ Ê Đê cùng tham gia Ďóng góp, cập nhật dữ liệu vào kho ngữ vựng, góp phần nâng cao chất lượng kho ngữ vựng Bên cạnh việc phát triển kho ngữ vựng, trang web này còn có chức năng chia sẻ kho ngữ vựng Việt-Ê Đê, các công cụ kỹ thuật, các kết quả nghiên cứu xử lý tiếng Ê Đê cho các hoạt Ďộng nghiên cứu liên quan Ďến xử lý tiếng Ê Đê

1 Mục tiêu nghiên cứu

Để Ďạt Ďược mục tiêu xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê, luận án hướng Ďến nghiên cứu hai mục tiêu chính:

Mục tiêu thứ nhất là xây dựng môi trường xử lý tiếng Ê Đê Ďịnh hướng qui trình

nghiên cứu cho xử lý tiếng Ê Đê thể hiện ở ba vấn Ďề:

1 Soạn thảo văn bản (STVB) tiếng Ê Đê trong môi trường Ďa ngữ, thực hiện cập nhật, chuyển Ďổi, xử lý các nguồn dữ liệu tiếng Ê Đê Ďã có

2 Hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt trong xây dựng kho ngữ vựng (KNV) song ngữ Việt-Ê Đê Các tiêu chí KNV Ďược Ďề xuất góp phần khắc phục những hạn chế của KNV tiếng DTTS hiện nay nói chung và tiếng Ê Đê nói riêng

3 Nâng cao chất lượng KNV song ngữ Việt-Ê Đê với sự tham gia, hỗ trợ của các chuyên gia ngôn ngữ tiếng Ê Đê Chia sẻ các nguồn tài nguyên, các công cụ kỹ thuật, các kết quả nghiên cứu cho các hoạt Ďộng nghiên cứu

xử lý tiếng Ê Đê

Trang 15

Mục tiêu thứ hai là triển khai xây dựng các ứng dụng xử lý tiếng Ê Đê trong dạy

và học tiếng Ê Đê dựa vào KNV Việt-Ê Đê, gồm các ứng dụng sau:

1 Tra cứu trực tuyến và ngoại tuyến từ vựng song ngữ Việt-Ê Đê

2 Kiểm tra lỗi chính tả văn bản tiếng Ê Đê,

3 Trợ giúp dịch máy từ tiếng Việt sang tiếng Ê Đê trong soạn thảo các bài giảng, giáo án của giáo viên

2 Đối tượng và phạm vi nghiên cứu

2.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận án:

- Ngôn ngữ Ê Đê và ngôn ngữ DTTS

- Unicode, các công cụ kỹ thuật XLNNTN và xử lý tiếng Ê Đê

- Từ Ďiển và các kho ngữ vựng Ďơn ngữ, song ngữ Việt-Ê Đê

2.2 Phạm vi nghiên cứu

Để Ďạt Ďược mục tiêu nghiên cứu của luận án, phạm vi nghiên cứu:

- Xử lý chữ viết theo quan Ďiểm XLNNTN và xử lý tiếng Việt

- Soạn thảo văn bản tiếng Ê Đê sử dụng Unicode,

- Kiểm tra lỗi chính tả âm tiết văn bản tiếng Ê Đê,

- Hạ tầng cơ sở cho xử lý tiếng Ê Đê,

- Ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê

3 Phương pháp nghiên cứu

Các phương pháp nghiên cứu cơ bản Ďược sử dụng trong luận án gồm hai phương pháp: nghiên cứu lý thuyết và nghiên cứu thực nghiệm

Nghiên cứu lý thuyết, nghiên cứu các tài liệu liên quan Ďến XLNNTN, vấn Ďề về

mã hóa, thuật toán kiểm tra chính tả, phương pháp tách từ, phương pháp dịch

tự Ďộng, xây dựng từ Ďiển tra cứu từ vựng, giải pháp xây dựng KNV song ngữ

Nghiên cứu thực nghiệm, xây dựng các bộ công cụ dựa trên giải pháp Ďã Ďược

Ďề xuất Dữ liệu Ďầu vào của bộ công cụ là dữ liệu Ďược dùng trong thực tiễn

4 Cấu trúc của luận án

Nội dung luận án gồm phần mở Ďầu, nội dung chính, phần kết luận và các

Trang 16

phụ lục Nội dung chính gồm 4 chương như sau:

Chương 1 tiếp cận xử lý ngôn ngữ DTTS từ những vấn Ďề về XLNNTN

nói chung và xử lý ngôn ngữ DTTS nói riêng trên thế giới, Ďến những vấn Ďề về

xử lý tiếng Việt (dân tộc Kinh) và xử lý tiếng các DTTS ở Việt Nam Tìm hiểu các nguyên nhân dẫn Ďến nguy cơ mai một tiếng các DTTS ở Việt Nam Từ Ďó, Ďịnh hướng qui trình nghiên cứu trong xử lý tiếng các DTTS ở Việt Nam nói chung

và tiếng Ê Đê nói riêng

Chương 2 nghiên cứu xây dựng môi trường xử lý tiếng Ê Đê, góp phần

Ďịnh hướng qui trình nghiên cứu cho xử lý tiếng Ê Đê Hạ tầng cơ sở cho việc thu thập, chuyển Ďổi và xử lý các nguồn dữ liệu trong môi trường xử lý tiếng Ê Đê Ďược Ďề xuất thông qua giải pháp soạn thảo văn bản tiếng Ê Đê trong môi trường

Ďa ngữ và vấn Ďề sử dụng Unicode trong soạn thảo văn bản tiếng Ê Đê

Chương 3 nghiên cứu xây dựng KNV song ngữ Việt-Ê Đê dựa trên mô hình hợp

nhất nguồn dữ liệu từ Ďiển giấy và Ďề xuất Ďịnh hướng phát triển kho ngữ vựng Kiểm tra lỗi chính tả âm tiết tiếng Ê Đê cũng Ďược Ďề xuất và Ďược áp dụng cho việc triển khai xây dựng bộ kiểm tra lỗi chính tả âm tiết các mục từ tiếng Ê Đê trong kho ngữ vựng Việt-Ê Đê

Chương 4 triển khai ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê,

nhằm góp phần ứng dụng CNTT trong công tác bảo tồn, gìn giữ, phát triển ngôn ngữ và phát huy giá trị di sản ngôn ngữ các DTTS ở Việt Nam theo xu hướng toàn cầu hóa Ďạt hiệu quả

Trang 17

văn bản tiếng Ê Đê dùng phông chữ riêng

3 Đề xuất mô hình hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Việt trong xây dựng KNV song ngữ Việt-Ê Đê KNV xây dựng Ďƣợc từ

Đê-mô hình hợp nhất trong luận án có những Ďiểm mới, cụ thể:

- Thống nhất sử dụng Unicode,

- Kiểm tra lỗi chính tả âm tiết các mục từ Ê Đê,

- Chia sẻ Ďƣợc KNV cho các hoạt Ďộng nghiên cứu liên quan Ďến

xử lý tiếng Ê Đê

4 Đề xuất kiểm tra lỗi chính tả âm tiết dựa trên mô hình âm tiết tiếng Ê Đê, góp phần phát hiện lỗi chính tả âm tiết trong văn bản tiếng Ê Đê, kiểm tra các âm tiết tiếng Ê Đê trong KNV Việt-Ê Đê

Ngoài ra, nhằm góp phần ứng dụng CNTT trong công tác bảo tồn, gìn giữ, phát triển ngôn ngữ và phát huy giá trị di sản ngôn ngữ các DTTS ở Việt Nam Một số ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê Ďã Ďƣợc triển khai xây dựng dựa vào KNV Việt-Ê Đê có Ďƣợc từ mô hình hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt, gồm có:

- Tra cứu trực tuyến và ngoại tuyến từ vựng Việt-Ê Đê,

- Trợ giúp dịch máy Việt-Ê Đê hỗ trợ cho việc dịch các bài giảng,

giáo trình, giáo án từ tiếng Việt sang tiếng Ê Đê,

- Kiểm tra lỗi chính tả văn bản tiếng Ê Đê

Trang 18

CHƯƠNG 1 VẤN ĐỀ XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ

Chương này trình bày những nghiên cứu tổng quan về một số vấn Ďề cơ bản trong xử lý ngôn ngữ tự nhiên; các hoạt Ďộng nghiên cứu, các phương pháp tiếp cận

và những Ďịnh hướng cho xử lý ngôn ngữ dân tộc thiểu số; những vấn Ďề về Ďa ngữ,

xu thế và triển vọng trong xử lý tiếng Việt; vấn Ďề xử lý ngôn ngữ dân tộc thiểu số

và Ďịnh hướng qui trình nghiên cứu cho xử lý ngôn ngữ dân tộc thiểu số ở Việt Nam nói chung và xử lý tiếng Ê Đê nói riêng

1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Xử lý ngôn ngữ tự nhiên là chủ Ďề rộng thuộc lĩnh vực trí tuệ nhân tạo Mục Ďích của XLNNTN là nghiên cứu lý thuyết và Ďặt nền tảng xây dựng các ứng dụng liên quan ngôn ngữ của con người [53] Luận án tập trung nghiên cứu vào một số vấn Ďề cơ bản liên quan Ďến phạm vi nghiên cứu Ďã Ďặt ra trong Ďề tài

1.1.1 Mã hóa và soạn thảo văn bản

Mã hóa kí tự cho từng ngôn ngữ Ďể lưu trữ và hiển thị thông tin trên máy tính là vấn Ďề Ďặt ra Ďầu tiên của lĩnh vực XLNNTN Việc sử dụng nhiều bảng mã khác nhau trong cùng một nước gây ra trở ngại lớn trong việc phát triển các

hệ thống thông tin Giải pháp toàn vẹn nhất cho sự không tương thích giữa các bảng mã, Ďó là sử dụng Unicode Giải pháp này Ďã Ďược nhiều quốc gia chấp nhận

và Ďược Ďưa vào làm chuẩn cho việc trao Ďổi, lưu trữ, hiển thị thông tin

Unicode ra Ďời năm 1991 và tiếp tục hoàn thiện Ďến nay với phiên bản 9.0 [84],

Ďã khắc phục Ďược sự rắc rối do có nhiều bộ gõ và nhiều bảng mã như trong tiếng Việt Unicode là bảng mã có khả năng mã hoá tất cả các ngôn ngữ trên toàn thế giới, kể cả tiếng Việt Unicode thể hiện Ďược Ďầy Ďủ các chữ hoa hay chữ thường của tiếng Việt Các chữ cái trong bảng chữ cái tiếng Việt không bị xung Ďột với các kí tự Ďiều khiển và sử dụng song song với các ngôn ngữ khác

Unicode sử dụng hai byte cho mỗi kí tự mã hóa Số kí tự khác nhau có thể biểu diễn là 216 = 65536 kí tự Muốn sử dụng Ďược Unicode, trong máy tính

Trang 19

cần phải có phần mềm cho phép xuất ra màn hình hoặc cho phép nhập ký tự theo chuẩn Unicode Các phông chữ Unicode phải Ďược cài Ďặt vào hệ thống

Trong Unicode, với 52 kí tự chữ cái tiếng Anh (kể cả kí tự chữ hoa và kí tự chữ thường) phân bố tập trung vào phần cố Ďịnh và là thành phần cơ bản trong bảng mã Unicode Bộ chữ cái tiếng Anh Ďều có trên bàn phím chữ cái La tinh

Vì vậy, trên máy tính hiển thị chữ viết tiếng Anh không phụ thuộc vào bộ gõ Bên cạnh Ďó, bộ chữ cái tiếng Việt phân bố không tập trung trong bảng mã Unicode Vì vậy, Ďể hiển thị Ďược chữ viết tiếng Việt trong môi trường Ďa ngữ, cần phải cài Ďặt phông chữ Unicode vào máy Các phông chữ Unicode có hỗ trợ

tiếng Việt (Arial, Courier, Tahoma, Times New Roman) Ďược tự Ďộng cài Ďặt vào

máy, khi một trong các phần mềm Internet Explore hoặc MS Office Ďược cài Ďặt hoặc khi cài Ďặt Windows Ngoài ra có thể tải xuống các phông Unicode có hỗ trợ

tiếng Việt từ internet: Verdana, Arial Narrow, Arial Black, Bookman Old Style,

Garamond, Impact, Lucida Sans, Comic Sans…

Bộ chữ cái tiếng Việt không có mặt Ďầy Ďủ trên bàn phím chữ cái La tinh

Vì vậy, Ďể hiển thị Ďược chữ tiếng Việt ngoài cài Ďặt phông chữ Unicode, cần phải

có phần mềm hỗ trợ gõ tiếng Việt

Hiện nay, vấn Ďề hiển thị chữ viết tiếng Ê Đê Ďều phụ thuộc vào phông chữ dành riêng cho tiếng Ê Đê Bộ chữ tiếng Ê Đê cũng Ďược xếp vào họ La tinh, gồm

76 chữ cái Ê Đê (kể cả kí tự hoa và kí tự thường) Trong Ďó, 68 chữ cái Ďã có mặt

trong bảng mã Unicode, còn 8 chữ cái ( ư ) chưa có mặt trong

Trang 20

âm thanh, tiếng nói…

Có nhiều dạng CSDL khác nhau tuỳ theo cách tổ chức logic và bản chất vật lý của dữ liệu Ďược lưu trữ dạng tệp, dạng quan hệ hay dạng bảng, hướng Ďối tượng hay dạng web HTML, XML… Mỗi CSDL Ďều có các tính chất toàn vẹn, bảo mật,

an toàn dữ liệu và chủ quyền khai thác thông tin của người sử dụng (NSD) [64] Kho ngữ vựng là một CSDL về từ vựng Trong Ďó bao gồm tập hợp các từ của một hay nhiều ngôn ngữ nào Ďó Các kho ngữ vựng thường Ďược Ďánh dấu hay gán nhãn từ loại Có nhiều quan Ďiểm Ďịnh nghĩa hay nhìn nhận một kho ngữ vựng, liên quan Ďến cách tổ chức và mục Ďích sử dụng [72]

Với các kho ngữ vựng Ďơn ngữ, nhiều dạng từ Ďiển cung cấp các thông tin ở các mức khác nhau Các dự án BDLEX, CELEX, MULTEXT xây dựng các KNV chứa thông tin ở mức ngữ âm, hình thái, cú pháp cho nhiều thứ tiếng Ấn-Âu Nhiều

mô hình từ Ďiển cung cấp các thông tin ngôn ngữ rất phong phú, cả về khả năng kết hợp cú pháp cũng như những ràng buộc ngữ nghĩa hay các chức năng trong các cấu trúc ngữ pháp như GENELEX, EAGLES cho các tiếng Ấn-Âu, CKIP cho tiếng Trung Quốc Dự án xây dựng KNV dạng FrameNet cho tiếng Anh [43], [67]

Về các kho ngữ vựng Ďa ngữ, dự án EDR cho cặp tiếng Anh - Nhật EDR Ďược thiết kế dựa trên 11 từ Ďiển Ra Ďời sau dự án EDR là nhiều dự án từ Ďiển Ďa ngữ có quy mô tương Ďối lớn khác như ISLE, MILE của nhóm EAGLES, các dự án Wordnet Ďa ngữ, dự án Papillon [67], [79]

Mở rộng khái niệm kho ngữ vựng là kho ngữ liệu, hay kho văn bản là nơi chứa một số lượng lớn, rất lớn, văn bản có cấu trúc Một tập hợp gồm nhiều kho ngữ liệu gọi là corpora Trong XLNNTN, kho ngữ liệu là nguồn tài nguyên quan trọng, Ďược dùng Ďể huấn luyện các mô hình phân tích ngôn ngữ như: tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp, dịch máy Mặt khác, nó còn Ďược dùng Ďể kiểm chứng Ďộ tin cậy của các mô hình ngôn ngữ [81]

Trên thế giới, việc xây dựng ngân hàng dữ liệu chứa âm thanh, tiếng nói, văn bản, số liệu, bảng biểu… Ďã có từ lâu Trong ngân hàng dữ liệu thường Ďược

tổ chức thành nhiều kho ngữ liệu khác nhau, gọi là corpus Trên thế giới hiện có rất

Trang 21

nhiều kho ngữ liệu song ngữ Ďược chia sẻ miễn phí cho cộng Ďồng nghiên cứu Một số kho ngữ liệu Ďược chia sẻ, cụ thể:

Kho ngữ liệu song ngữ Ďược xây dựng từ sự hỗ trợ của dự án EuroMatrix và Ďược chia sẻ miễn phí cho mục tiêu nghiên cứu tại Ďịa chỉ [59], [88]

Kho ngữ liệu song ngữ Anh-Pháp, Canadian Hansard Corpus, của hiệp hội

dữ liệu ngôn ngữ học Canada (LDC- Linguistic Data Consortium) [51], [90]

Kho ngữ liệu song ngữ Nhật-Anh (JENAAD- Japanese English News Article Aligment Data) do Hitoshi Isahara và cộng sự xây dựng

Kho ngữ liệu song ngữ Hoa-Anh PKU 863 của Đại học Bắc Kinh [51]

Kho ngữ liệu quốc tế tiếng Anh (ICE: International Corpus of English), kho ngữ liệu quốc tế tiếng Anh bản xứ (ICE-GB: International Corpus of English-Great Britain), kho ngữ liệu tiếng Anh quốc gia (NBC: British National Corpus), và gần Ďây là Sketch Engine với một Corpora Ďồ sộ gồm khoảng 20 Corpus trong Ďó có tiếng Việt [45]

Kho ngữ vựng và kho ngữ liệu Ďều liên quan Ďến từ vựng, Ďối tượng nghiên cứu của bộ môn từ vựng học trong ngôn ngữ học Từ vựng Ďược hiểu là tập hợp tất cả các từ, cụm từ trong một ngôn ngữ (thường không Ďổi, còn Ďược gọi là thành ngữ) Nội dung cơ bản của từ vựng học giải Ďáp những vấn Ďề chính, như khái niệm của

từ, cách tạo từ, nghĩa của từ, các khái niệm Ďồng âm, Ďồng nghĩa, trái nghĩa, các trường từ vựng, cách phân loại các lớp từ vựng [25], [26]…

Xử lý ngôn ngữ tự nhiên là một trong những nội dung khó nhất của trí tuệ nhân tạo và rất quen thuộc trong hầu hết các ứng dụng hàng ngày Từ các ứng dụng liên quan Ďến soạn thảo văn bản, nhắn tin, tán gẫu, gửi thư Ďiện tử, tìm kiếm hay truy vấn thông tin trên mạng, Ďến dịch máy, phân tích, tổng hợp văn bản, trò chơi, tìm kiếm tri thức, suy diễn tự Ďộng… luôn có sự giao thoa với XLNNTN Độ khó của các bài toán XLNNTN tăng dần theo mức, Ďi từ mức từ vựng, mức cú pháp, Ďến mức ngữ nghĩa và tính thực dụng Những tác vụ thường gặp là tách từ, hay phân Ďoạn từ và gán nhãn từ loại Đó là việc xác Ďịnh các từ, các cụm từ có mặt trong mỗi câu của văn bản, từ loại (danh từ, Ďộng từ, tính từ ), ngữ nghĩa và chức năng

Trang 22

ngữ pháp của chúng Các thao tác này tuy Ďơn giản với con người, nhưng rất khó giải quyết trong XLNNTN Trong Ďó, khó khăn lớn nhất là vấn Ďề xử lý nhập nhằng

và bản chất của ngôn ngữ tự nhiên [14], [44], [58], [64]

Hầu hết các xử lý trên Ďều liên quan Ďến CSDL hay kho ngữ vựng Đối với việc xây dựng KNV tiếng Việt cho máy tính, các công trình từ Ďiển Ďược xây dựng cho một số hệ thống dịch máy và Ďã Ďược chia sẻ cho các hoạt Ďộng nghiên cứu Các nhóm nghiên cứu xử lý tiếng Việt mới chỉ có sẵn các KNV với thông tin về từ loại và tiểu từ loại Ďi kèm [67] Đã có nhiều công trình Ďược áp dụng trong các hoạt Ďộng nghiên cứu, cả về lý thuyết và thực tiễn [7], [14], [43], [66]

Cho Ďến nay, các kết quả nghiên cứu xây dựng KNV chỉ tập trung giải quyết cho tiếng Việt là chủ yếu Có rất ít công trình nghiên cứu xây dựng KNV cho tiếng các DTTS ở Việt Nam nói chung và tiếng Ê Đê nói riêng (Phụ lục A) Tuy nhiên, các công trình này còn mang tính thử nghiệm trên tập ngữ liệu nhỏ, sử dụng phông chữ riêng trong lưu trữ và chưa chia sẻ cho các hoạt Ďộng nghiên cứu Nhằm góp phần xây dựng hạ tầng cơ sở cho việc triển khai các ứng dụng xử lý tiếng Ê Đê trong dạy

và học tiếng Ê Đê, mục tiêu Ďặt ra trong luận án là xây dựng KNV song ngữ

Việt-Ê Đê từ nguồn dữ liệu từ Ďiển giấy Việt-Việt-Ê Đê và Việt-Ê Đê-Việt

1.1.3 Tách từ và gán nhãn từ loại

a) Tách từ

Tách từ là một quá trình xử lý nhằm mục Ďích xác Ďịnh ranh giới của các từ trong câu Các từ có thể là các từ Ďơn, từ ghép… Trong XLNNTN, Ďể có thể xác Ďịnh cấu trúc ngữ pháp của câu, từ loại của một từ trong câu, yêu cầu Ďặt ra là phải xác Ďịnh Ďược từ trong câu Để giải quyết bài toán dịch tự Ďộng hay các bài toán trong XLNNTN, bài toán tách từ luôn là bài toán Ďược Ďặt ra Ďầu tiên [52], [56], [88] Bài toán tách từ tuy Ďơn giản Ďối với con người, nhưng Ďối với lĩnh vực

xử lý ngôn ngữ tự nhiên thì Ďây là một bài toán khó

Ba phương pháp tiếp cận chính trong bài toán tách từ: tiếp cận dựa vào từ Ďiển

cố Ďịnh, tiếp cận dựa vào thống kê thuần túy, tiếp cận dựa vào từ Ďiển cố Ďịnh và thống kê thuần túy

Trang 23

Các phương pháp Ďược sử dụng trong bài toán tách từ:

Phương pháp so khớp cực đại (MM- Maximum Matching), sử dụng một từ Ďiển

Ďể tìm từ dài nhất có thể có trong từ Ďiển có mặt trong văn bản Độ chính xác của phương pháp này phụ thuộc vào Ďộ lớn của từ Ďiển

Phương pháp học dựa trên sự biến đổi (TBL- Transformation-Based Learning),

là phương pháp tiếp cận dựa trên tập ngữ liệu Ďã Ďánh dấu Theo cách tiếp cận này

Ďể máy tính có thể nhận biết ranh giới giữa các từ, Ďể có thể tách từ Ďược chính xác Máy Ďược học các câu mẫu trong tập ngữ liệu Ďã Ďược Ďánh dấu ranh giới giữa các

từ Ďúng Phương pháp này cho máy học các tập câu mẫu và sau Ďó máy sẽ tự rút ra qui luật của ngôn ngữ và từ Ďó sẽ áp dụng chính xác khi có những câu Ďúng theo qui luật Độ chính xác của phương pháp này phụ thuộc vào tập ngữ liệu thật Ďầy Ďủ

và phải Ďược huấn luyện lâu Ďể máy có thể rút ra các luật Ďầy Ďủ

Phương pháp chuyển đổi trạng thái hữu hạn có trọng số (WFST-Weighted

Finite State Transducer) là phương pháp dựa trên ý tưởng áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu Mô hình này Ďạt Ďược

Ďộ chính xác tương Ďối cao, bằng việc sử dụng thêm mạng nơ ron kết hợp với

từ Ďiển Ďể khử các nhập nhằng có thể có khi tách ra Ďược nhiều từ trong một câu và khi Ďó tầng mạng nơ ron sẽ loại bỏ Ďi các từ không phù hợp bằng cách kết hợp với

từ Ďiển Bên cạnh Ďó, cũng tương tự như phương pháp TBL Ďiểm quan trọng của

mô hình này cần tập ngữ liệu học Ďầy Ďủ

Phương pháp Maximum Entropy, là phương pháp dựa trên ý tưởng của mô hình gán nhãn từ loại dùng phương pháp Maximum Entropy cho tiếng Anh của Adwait Ratnaparkhi Đây là một hướng mới cho các phương pháp tách từ hiện nay Nếu kho ngữ liệu Ďược gán nhãn Ďầy Ďủ thì các nhập nhằng có thể Ďược xử lý Tuy nhiên, vẫn chưa có một công trình nào thống kê Ďược Ďộ chính xác của phương pháp này

Với bài toán tách từ, ta có thể thấy mỗi phương pháp Ďều có những ưu Ďiểm và những hạn chế riêng, nhưng tất cả Ďều cần có một kho ngữ liệu Ďủ lớn Ďể kết quả tách từ Ďạt Ďược Ďộ chính xác cao

Trang 24

Các ngôn ngữ theo loại hình ngôn ngữ Ďơn lập (tiếng Nhật, tiếng Trung Quốc, tiếng Thái, tiếng Việt…) ranh giới từ không phải là những kí tự trắng như trong các ngôn ngữ thuộc loại hình hòa kết (tiếng Anh, tiếng Pháp, tiếng Nga…), mà có

sự liên hệ chặt chẽ giữa các tiếng với nhau Một từ có thể cấu tạo bởi một hoặc nhiều âm tiết [44] Vì vậy, với các ngôn ngữ Ďơn lập, vấn Ďề Ďặt ra của bài toán tách từ là xác Ďịnh Ďược ranh giới giữa các từ [57]

Ngoài ra, ngôn ngữ là luôn thay Ďổi và sinh ra các từ mới Vì vậy, vấn Ďề nảy sinh trong khi tách từ là việc xuất hiện các từ không có trong từ Ďiển máy tính Các nghiên cứu tách từ cho tiếng Nhật, tiếng Trung Quốc, tiếng Hàn Quốc Ďã nghiên cứu xử lý vấn Ďề này [69]

Bài toán tách từ tiếng Việt cũng Ďã Ďược sự quan tâm nghiên cứu của nhà khoa học trong lĩnh vực XLNNTN và Ďã có một số kết quả khả thi Bộ công cụ tách

từ tiếng Việt vnTokenizer trong Ďề tài VLSP [7] có Ďộ chính xác Ďạt Ďến 97%

Bộ công cụ này Ďược luận án kế thừa Ďể tách từ tiếng Việt ứng với tiếng Ê Đê Tuy nhiên, vấn Ďề nảy sinh trong khi tách từ tiếng Việt tương ứng với tiếng Ê Đê thì vnTokenizer chưa tách Ďúng Ďược Vì vậy, Ďây là vấn Ďề mà luận án tập trung nghiên cứu trong xây dựng KNV song ngữ Việt-Ê Đê

b) Gán nhãn từ loại

Mỗi từ loại tương ứng với một vai trò ngữ pháp nhất Ďịnh Các bộ chú thích từ loại có thể thay Ďổi tuỳ theo quan niệm về Ďơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể Mỗi từ trong một ngôn ngữ nói chung có thể gán với nhiều từ loại Công việc gán nhãn từ loại cho một văn bản là xác Ďịnh từ loại của mỗi từ trong phạm vi văn bản Ďó

Một số hướng tiếp cận chính trong gán nhãn từ loại tiếng Anh bao gồm: gán nhãn dựa trên mô hình Markov ẩn [55], các mô hình dựa trên bộ nhớ [52],

mô hình dựa trên luật [46], Maximum Entropy [83], mạng nơ ron [85]

Bài toán gán nhãn từ loại tiếng Việt cũng Ďã Ďược một số nhóm nghiên cứu và giải quyết, chủ yếu tiếp cận bằng phương pháp học máy Việc xây dựng tập huấn luyện còn gặp nhiều khó khăn, vì bản thân các nhà ngôn ngữ học vẫn còn chưa

Trang 25

thống nhất về tập từ loại tiếng Việt Các nhóm tự Ďịnh nghĩa tập nhãn khác nhau, tự xây dựng kho dữ liệu Ďã gán nhãn và xây dựng tập luật khác nhau

Các kết quả nghiên cứu xây dựng công cụ gán nhãn từ loại tiếng Việt chỉ công bố kết quả dưới dạng các bài báo khoa học chưa chia sẻ dữ liệu cụ thể Đây cũng là khó khăn trong việc kế thừa lẫn nhau và thống nhất một chuẩn chung tạo tiền Ďề cho xử lý tiếng Việt sau này Hiện nay, bộ công cụ gán nhãn từ loại tiếng Việt JVnTagger Ďược xây dựng trong Ďề tài VLSP [7] Ďã Ďược chia sẻ cho các hoạt Ďông nghiên cứu xử lý tiếng Việt JVnTagger là công cụ gán nhãn từ loại tiếng Việt dựa trên mô hình học máy, Ďược huấn luyện sử dụng dữ liệu treebank tiếng Việt với 20.000 câu Ďã Ďược gán nhãn từ loại JVnTagger với Ďộ chính xác Ďạt trên 93%

1.1.4 Bài toán dịch máy

Dịch máylà một nhánh của XLNNTN, thuộc phân ngành trí tuệ nhân tạo Đó là

sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính Dịch máy thực hiện dịch một văn bản hay một cuộc hội thoại trong ngôn ngữ này sang một hoặc nhiều ngôn ngữ khác một cách tự Ďộng, không có sự can thiệp của con người trong quá trình dịch [61], [65], [77]

Khó khăn của việc thiết kế chương trình dịch máy là làm sao khử nhập nhằng hiệu quả Nói về tính nhập nhằng, Ďây là khái niệm chỉ tính không rõ ràng của ngôn ngữ Cùng một câu có thể Ďược hiểu theo nhiều nghĩa khác nhau tùy thuộc vào ngữ cảnh Ngoài ra còn có các hiện tượng nhập nhằng Ďồng âm, nhập nhằng từ loại, nhập nhằng từ Ďa nghĩa [86]

a) Một số phư ng pháp dịch máy

Dịch máy dựa trên luật (RBMT- Rule-Based Machine Translation) là cách

tiếp cận truyền thống xuất phát từ cách làm của các hệ luật dẫn trong hệ chuyên gia trong lĩnh vực trí tuệ nhân tạo Trong các hệ XLNNTN thì các luật dẫn này thường Ďược xây dựng thủ công bởi các chuyên gia ngôn ngữ Phương pháp RBMT cần phải xây dựng luật cú pháp, ngữ nghĩa và phải có một từ Ďiển khá Ďầy Ďủ thông tin cho các mục từ như ngữ nghĩa, ngữ dụng…

Cách tiếp cận này Ďòi hỏi rất nhiều công sức Ďể xây dựng nên cơ sở tri thức

Trang 26

cần thiết cho một hệ thống dịch máy Hơn nữa sẽ có những lỗi do mâu thuẫn giữa các luật hoặc do tập luật không bao quát sẽ dẫn Ďến hiệu quả không cao Khi tập luật càng nhiều thì mâu thuẫn giữa các luật cũng sẽ tăng, ngay cả người thực hiện cũng không kiểm soát Ďược tính hợp lý của các luật Ďã tạo ra và hệ thống

sẽ khó khăn trong việc chọn luật [60]

Dịch máy dựa trên mẫu có sẵn (EBMT- Example-Based Machine Translation)

là sử dụng các mẫu câu hay còn gọi là các câu ví dụ Các câu này Ďược lưu trữ trên CSDL với Ďầy Ďủ các thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ

Phương pháp này dựa trên ngân hàng mẫu câu ví dụ, không Ďòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ nghĩa vì mọi câu dịch Ďều dựa vào việc

so khớp với mẫu Câu nguồn chỉ cần so khớp từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp Nó gần như kiểu dịch trực tiếp bằng cách thay thế theo kiểu 1-1

mà không cần hiểu biết gì nhiều về ngôn ngữ Độ chính xác của phương pháp này phụ thuộc vào số mẫu Ďược lưu trong kho ngữ liệu song ngữ Kho dữ liệu càng lớn thì chi phí tìm kiếm, xử lý thông tin Ďể so khớp với mẫu cũng rất lớn [76]

Dịch máy kiểu thống kê (SMT- Statistical-Based Machine Translation) tạo ra các bản dịch trên cơ sở các mô hình thống kê có các tham số Ďược bắt nguồn từ việc phân tích các cặp câu song ngữ

Cách tiếp cận kiểu thống kê không Ďòi hỏi sự phân tích sâu về ngôn ngữ, hoàn toàn tự Ďộng thực hiện các quá trình phân tích, chuyển Ďổi và tạo câu dựa trên kết quả thống kê Ďược từ kho ngữ liệu song ngữ huấn luyện Vì vậy, có khi hệ dịch cho ra kết quả không Ďoán trước Ďược

Tùy vào Ďơn vị Ďược tính xác suất trong mô hình dịch mà phương pháp SMT sẽ

có ba hướng tiếp cận chính: dựa trên từ, dựa trên cụm từ và dựa trên cú pháp [81] Các mô hình dịch kiểu thống kê ban Ďầu thường dùng mô hình lấy cơ sở theo từ Phương pháp này có chiều hướng khả quan từ khi có mô hình lấy cơ sở theo cụm từ Các công trình nghiên cứu gần Ďây Ďã kết hợp cú pháp hoặc cấu trúc bán cú pháp Ďể làm tăng chất lượng dịch [13], [49], [50]

Trang 27

Dịch máy dựa trên ngữ liệu (CBMT- Corpus-Based Machine Translation) Ďang

Ďược áp dụng vào nhiều hệ thống dịch máy trong những năm gần Ďây, việc lấy Ďúng Ďược cặp ánh xạ Ďích và nguồn một cách tự Ďộng là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu

Để thực hiện Ďược Ďiều này, máy cần có kho ngữ liệu lớn, dạng Ďơn ngữ hay song ngữ và máy sẽ khai thác trên các kho ngữ liệu này Đặc Ďiểm của cách tiếp cận này là khả năng tự rút ra các quy luật của ngôn ngữ Nó có những ưu Ďiểm của cách tiếp cận dựa trên luật, nhưng khắc phục Ďược nhược Ďiểm của việc xây dựng luật thủ công bởi các chuyên gia Các luật Ďược rút ra Ďược thử nghiệm tại chỗ Ďể Ďánh giá Ďộ chính xác và hiệu quả của luật Chính vì vậy, các luật rút ra Ďược Ďảm bảo là chính xác, bao quát, không mâu thuẫn và không thừa

Cách tiếp cận dựa trên ngữ liệu là cách tiếp cận tiên tiến gần Ďây, khi mà kho ngữ liệu Ďơn ngữ hay Ďa ngữ dạng Ďiện tử ngày càng có nhiều Cách tiếp cận này dựa trên công nghệ máy học Ďể rút ra các quy luật ngôn ngữ một cách tự Ďộng Ngoài ra, với sự biến Ďổi của ngôn ngữ hay chuyển Ďổi lĩnh vực, thì cách tiếp cận này tỏ ra hiệu quả trong việc cập nhật bộ luật của nó

Dịch máy dựa trên cơ sở tri thức (KBMT- Knowledge-Based Machine

Translation) theo lập luận chính của phương pháp này là muốn dịch Ďược thì trước hết phải hiểu Ďược Muốn hiểu Ďược thì máy phải Ďược trang bị tri thức ngôn ngữ và tri thức về thế giới thực giống như con người Trước hết phải xây dựng Ďược một hệ cơ sở tri thức khổng lồ bao trùm mọi tri thức về thế giới thực ở mọi lĩnh vực Mà Ďiều này thì không khả thi, chỉ nên giới hạn trong một lĩnh vực hẹp nào Ďó và mô hình hoá tri thức ở lĩnh vực này Bằng cách xây dựng các lớp ngữ nghĩa và các thực thể Ďể biểu diễn tất cả các khái niệm trong lĩnh vực Ďó [87] Với cách tiếp cận này, cần phải xây dựng Ďược hệ thống phân loại tri thức, xây dựng hệ cơ chế suy diễn tự Ďộng Tuy nhiên, việc phân loại tri thức hoàn chỉnh

là Ďiều khó có thể thực hiện Ďược

b) Một số c ng trình dịch máy tr n thế giới

Systran là một hệ thống dịch tự Ďộng với chất lượng dịch khá tốt và có thể

Trang 28

sử dụng Ďược trên môi trường internet, máy Ďơn hoặc trên các hệ thống mạng cục

bộ Systran hỗ trợ dịch tự Ďộng nhiều thứ tiếng như Đức, Tây Ban Nha, Thụy Điển, Anh, Pháp, Ý, Hàn Quốc, Nhật, Hà Lan, Ba Lan, Bồ Đào Nha, Nga, Trung Quốc,

Ả Rập và Hy Lạp

Babel Fish là một trong các tiện ích dịch tự Ďộng Ďầu tiên trên ứng dụng web,

Ďược công cụ tìm kiếm Alta Vista phát triển và Ďưa lên mạng vào năm 1997 Babel Fish hỗ trợ 38 cặp ngôn ngữ, trong Ďó tiếng Anh, tiếng Pháp và tiếng Trung Quốc Ďược hỗ trợ nhiều nhất; tiếp Ďến là các tiếng Đức, Tây Ban Nha, Ý,

Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy Lạp

Google Translation là dịch vụ dịch miễn phí cung cấp các bản dịch nhanh giữa

57 ngôn ngữ khác nhau Google Translation có thể dịch từ, câu, trang web giữa bất kỳ cặp ngôn ngữ nào trong 57 ngôn ngữ này

Nguyên tắc dịch của Google Translation là tìm kiếm các mẫu câu trong hàng trăm triệu tài liệu Ďể tìm bản dịch tốt nhất Bằng cách phát hiện các mẫu trong các tài liệu do con người Ďã dịch, Google Translation có thể Ďưa ra gợi ý thông minh về bản dịch nào thích hợp

Reverso là hệ thống dịch tự Ďộng của Softissimo Ďể dịch các văn bản hoặc các

trang web dưới dạng HTML Hệ thống này có thể thực hiện Ďược trên internet, intranet hoặc như là một ứng dụng Ďộc lập trên máy Ďơn

1.2 XỬ LÝ TIẾNG VIỆT

Xử lý tiếng Việt Ďược hiểu Ďây là bài toán về ngôn ngữ học trong Công nghệ thông tin, nhằm phục vụ cho công việc lưu trữ, tìm kiếm, chuẩn hoá dữ liệu, nhận dạng văn bản, nhận dạng tiếng nói, dịch máy Trong Ďó, có cả những vấn Ďề

về xử lý ngôn ngữ dân tộc thiểu số

1.2.1 Tiếng Việt trong bối cảnh xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng là lĩnh vực liên quan Ďến sự tương tác giữa máy và ngôn ngữ tự nhiên Với mục tiêu giúp máy tính hiểu Ďược ngôn ngữ tự nhiên Ngoài các bài toán và ứng dụng trong XLNNTN,

xử lý tiếng Việt còn Ďặt ra các vấn Ďề cần Ďược quan tâm nghiên cứu:

Trang 29

Tự Ďộng thêm dấu là do từ tiếng Việt không có dấu phân cách, hơn 95% âm tiết

có chứa dấu và 80% âm tiết mất dấu bị trùng lặp và không rõ ràng Trong soạn thảo văn bản, người sử dụng thường quên gõ dấu

Phát hiện lỗi chính tả, lỗi văn phạm trong văn bản tiếng Việt

Phân tích ngữ nghĩa nhằm mục Ďích Ďể máy tính hiểu tiếng Việt

Dịch tự Ďộng tệp văn bản trong ngôn ngữ tiếng Việt thành tệp văn bản trong ngôn ngữ khác

Tóm tắt văn bản là trính rút những thông tin quan trọng từ văn bản và tạo ra một bản tóm tắt ngắn gọn nhưng vẫn Ďủ ý, phục vụ cho một số nhiệm vụ hay người dùng cụ thể

Phân loại văn bản theo nhiều tiêu chí khác nhau tùy theo lĩnh vực, chủ Ďề và mục Ďích sử dụng, từ sở hữu cá nhân, hay của các tổ chức kinh tế, xã hội Ďến các

1.2.2 Một số kết quả xử lý tiếng Việt

Trong bối cảnh phát triển của ngành Công nghệ thông tin ở Việt Nam, một số bài toán xử lý tiếng Việt Ďã Ďược nghiên cứu và Ďạt Ďược một số kết quả:

Mã hóa Unicode tiếng Việt

Bộ gõ Unikey, bộ gõ Vietkey, bộ gõ WinVNKey… là sự thành công của việc Ďưa Ďược bộ chữ tiếng Việt vào bảng mã Unicode, cũng như việc chọn Unicode cho

bảng mã chuẩn tiếng Việt và xây dựng bộ gõ chữ Việt theo phông chữ Unicode Tách từ tiếng Việt

Trang 30

Công trình “Hệ phân tách từ Việt” của Ďề tài KC01.01/06-10 “Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt” [7] Đây là phương pháp tách từ dùng phương pháp WFST cho tiếng Anh Tuy nhiên,

phương pháp này vẫn chưa hoàn toàn xử lý Ďược nhập nhằng

Công trình nghiên cứu các phương pháp tách từ trong tiếng Anh và tiếng Trung Quốc áp dụng cho tiếng Việt [55] Các công cụ tách từ tiếng Việt JVNSegmenter [48], vnTokenizer [7] Nghiên cứu ứng dụng phương pháp Pointwise vào tách từ tiếng Việt [13]

Xây dựng kho ngữ liệu tiếng Việt

Trung tâm từ Ďiển học Vietlex bắt Ďầu xây dựng kho ngữ liệu tiếng Việt từ năm

1998 cho Ďến nay Điểm nổi bật kho ngữ liệu của Vietlex là các từ chứa trong các văn bản Ďó Ďã Ďược tách từ Kho ngữ liệu của Vietlex Ďược tổ chức theo các lĩnh vực: ngôn ngữ và văn học, lịch sử, khoa học xã hội, khoa học sự sống, khoa học tự nhiên và công nghệ, nghệ thuật, thể thao và giải trí, báo chí [6]

Nhánh Ďề tài “Xử lý văn bản tiếng Việt” [7], Ďã xây dựng một số tài nguyên cho tiếng Việt: từ Ďiển tiếng Việt có khoảng 35.000 từ, với các thông tin hình thái, ngữ pháp, ngữ nghĩa dùng cho XLNNTN Từ Ďiển chứa Ďựng Ďủ lớp từ thông dụng trong tiếng Việt hiện Ďại Mô hình từ Ďiển Ďược xây dựng theo chuẩn quốc tế nhằm

sử dụng trao Ďổi giữa các hệ thống, thuận tiện cho việc nghiên cứu Ďối sánh giữa các ngôn ngữ và dễ cập nhật khi cần thiết Kho ngữ liệu song ngữ Anh-Việt với 80.000 cặp câu Kinh tế-Xã hội và 20.000 cặp câu Tin học Kho ngữ liệu tiếng Việt với 70.000 câu Ďã Ďược tách từ, 10.000 câu Ďã Ďược gán nhãn từ loại và 10.000 cây cú pháp

Kho ngữ liệu song ngữ Anh-Việt phục vụ cho việc nghiên cứu ngôn ngữ học

so sánh [52]

Các kho ngữ liệu tiếng Việt Ďược ứng dụng trong thực tiễn, Ďược chia sẻ tham khảo và cũng có một số kho ngữ liệu Ďã Ďược chia sẻ cho mục Ďích nghiên cứu trong XLNNTN Các kho ngữ liệu tiếng Việt Ďược tổng hợp theo các nhóm nghiên cứu với số lượng dữ liệu của từ hay câu, Ďược trình bày trong Phụ lục B

Trang 31

Dịch máy tiếng Việt

Phần mềm EVTRAN là phần mềm dịch tự Ďộng Ďầu tiên do người Việt xây dựng,

khác với một số hệ dịch tự Ďộng khác thực chất là tích hợp tri thức dịch ngôn ngữ

từ Ďiển và các luật dịch vào một hệ thống dịch có sẵn Phần mềm EVTRAN có cấu trúc riêng, Ďó là một hệ dịch máy dựa trên luật Chương trình Ďược bắt Ďầu thực hiện từ năm 1989 Các phiên bản EVTRAN 1.0 và EVTRAN 2.0 chỉ dịch

từ tiếng Anh sang tiếng Việt Chất lượng dịch của phiên bản EVTRAN 2.0 vẫn còn thấp và nghĩa của câu rất khó hiểu

Trang web Xalo.vn là dịch vụ dịch trực tuyến một chiều từ Anh sang Việt,

do công ty Cổ phần Công nghệ Tinh Vân tự phát triển, hỗ trợ dịch theo từng lĩnh vực, Ďồng thời cho phép người dùng chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lượng dịch

Trang web Vidct là dịch vụ trực tuyến Ďầu tiên dịch tự Ďộng Anh-Việt Hiện nay,

khi dịch từ Anh sang Việt và ngược lại thì Vdict cho ra cả hai kết quả Không hỗ trợ dịch chuyên ngành cũng như trợ giúp từ phía người dùng

Cùng với các nghiên cứu khác như: xử lý tiếng nói cho tiếng Việt của Viện CNTT và Trung tâm nghiên cứu quốc tế Thông tin Ďa phương tiện, truyền thông và ứng dụng (MICA) của trường Đại học Bách khoa Hà Nội; các Ďề tài nghiên cứu ở một số trường Ďại học nghiên cứu về xử lý ngôn ngữ Ďược theo Ďuổi bởi một số tập thể từ khá lâu như: Đại học Bách khoa và Đại học Khoa học tự nhiên

Hồ Chí Minh, Đại học Bách khoa Đà Nẵng, Đại học Bách khoa và Đại học Khoa học tự nhiên Hà Nội, Đại học Công nghệ Hà Nội, Viện CNTT, Công ty Lạc-Việt

Vấn đề đa ngữ trong xử lý tiếng Việt

Microsoft hỗ trợ một hệ thống xử lý Ďa ngữ Ďã Ďáp ứng Ďầy Ďủ các yêu cầu căn bản về xử lý Ďa ngữ, trong Ďó có tiếng Việt Các hệ thống này tuân thủ các chuẩn về mã hoá ngôn ngữ và Unicode, và Ďược các hãng máy tính quốc tế hỗ trợ nên nó cũng là chuẩn quốc tế

Vấn Ďề Ďa ngữ trong xử lý tiếng Việt trên các hệ quản trị cơ sở dữ liệu không gặp khó khăn, kể cả với các kỹ thuật sắp xếp và tìm kiếm Người sử dụng không

Trang 32

cần phải lập trình cũng vẫn xử lý Ďược tiếng Việt trong môi trường Ďa ngữ Ở bất kỳ Ďâu trên thế giới, người sử dụng vẫn trao Ďổi với nhau bằng tiếng Việt, vì các chữ cái trong bảng chữ cái tiếng Việt Ďã có trong bảng mã Unicode và Ďược hỗ trợ trong các phông chữ Unicode

1.2.3 Xu thế và triển vọng trong xử lý tiếng Việt

Các vấn Ďề xử lý tiếng Việt cần có một cộng Ďồng xử lý tiếng Việt với sự tham gia của các nhà nghiên cứu về ngôn ngữ tiếng Việt, về lĩnh vực xử lý ngôn ngữ trong CNTT, các doanh nghiệp và các nhà quản lý

Để xử lý tiếng Việt có thể phát triển và trong tương lai bắt kịp thế giới, cần có môi trường Ďịnh hướng nghiên cứu trong xử lý tiếng Việt là không thể thiếu Thông qua môi trường này, các nhóm nghiên cứu có thể cộng tác và chia sẻ nguồn tài nguyên, công cụ kỹ thuật trong xử lý tiếng Việt, trao Ďổi thông tin về các sự kiện trong cộng Ďồng như các hội nghị, hội thảo, sản phẩm mới

Xử lý tiếng Việt là hướng nghiên cứu có tầm quan trọng rất lớn Ďối với sự phát triển và ứng dụng CNTT tại Việt Nam Xử lý tiếng Việt Ďang có nhu cầu rất lớn ở Việt Nam là do sự bùng nổ của ngành công nghiệp nội dung số và nhiều doanh nghiệp Ďang quan tâm tới lĩnh vực này

Hiện nay, Việt Nam Ďã xây dựng một ngành công nghiệp nội dung số phong phú, Ďa dạng trong Ďó có sản phẩm về giáo dục trực tuyến, giải trí trực tuyến, nội dung cho thiết bị di Ďộng Ngành công nghiệp nội dung số Ďang thu hút hơn 4.500 doanh nghiệp tham gia sản xuất [1] Đây cũng chính là xu hướng và triển vọng trong xử lý tiếng Việt

1.3 XỬ LÝ TIẾNG CÁC DÂN TỘC THIỂU SỐ Ở VIỆT NAM

Cho Ďến nay, trong lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, xử lý tiếng các dân tộc thiểu số ở Việt Nam, vẫn luôn là bài toán mở và còn rất nhiều khó khăn, hiện chưa Ďược giải quyết một cách hệ thống

1.3.1 Bảo tồn tiếng các dân tộc thiểu số ở Việt Nam

Trang 33

Việt Nam trước Ďây gồm 54 dân tộc, Ďến năm 2012 dân tộc Tà Mun Ďược tìm ra [21] Vì vậy, cho Ďến nay dân tộc Việt Nam gồm có tất cả 55 dân tộc tương ứng với hơn 90 ngôn ngữ khác nhau

Chữ viết của mỗi dân tộc thể hiện sự phát triển cao về mặt văn hoá, trình Ďộ phát triển tư duy và nền văn minh Văn hoá của các dân tộc Việt Nam có nhiều nét tương Ďồng, nhưng về cơ bản các DTTS vẫn tồn tại một nền văn hoá mang bản sắc riêng, trình Ďộ phát triển kinh tế, văn hoá giữa các dân tộc không Ďồng Ďều Một số DTTS có chữ viết từ rất lâu Ďời, nhưng nhiều dân tộc khác lại không có chữ viết riêng Tiếng các DTTS mất dần sự trong sáng vốn có và bị pha tạp tiếng Việt Các nguyên nhân dẫn Ďến nguy cơ mai một tiếng DTTS là do:

Tiếng nói, chữ viết là Ďặc trưng văn hoá của mỗi dân tộc, là phương tiện Ďể bảo tồn, phát huy, phát triển vốn văn hoá truyền thống của dân tộc và cũng là yếu tố văn hoá Ďặc trưng Ďể phân biệt dân tộc này với dân tộc khác Đồng thời tiếng nói, chữ viết dùng Ďể giao tiếp, ghi lại lịch sử quá trình hình thành phát triển của dân tộc

từ thế hệ này sang thế hệ khác Mặc dù có ý nghĩa quan trọng như vậy, nhưng trong mỗi quốc gia, các ngôn ngữ của DTTS phải chịu một sức ép trước ngôn ngữ chính thống Ďể tồn tại [20]

Ngôn ngữ chính thống Ďã trở thành ngôn ngữ chính thức tại các vùng có nhiều DTTS, Ďược sử dụng trên các phương tiện truyền thông, tại các trường học và trong các văn bản hành chính Trong khi Ďó ngôn ngữ các DTTS dù Ďã Ďược công nhận tồn tại, nhưng lại chỉ Ďược dùng trong các phạm vi có giới hạn và không quá phổ biến như: làng mạc, gia Ďình, lễ hội và các buổi lễ cổ truyền Vấn Ďề này

Ďã làm cho ngôn ngữ các DTTS ngày càng thu hẹp và trở nên ít phổ biến hơn [20]

Sự xâm nhập của ngôn ngữ chính thống vào ngôn ngữ các dân tộc thiểu số làm cho ngôn ngữ các DTTS bị pha tạp bởi rất nhiều từ ngữ của các dân tộc Ďa số Kết quả của sự xâm nhập này Ďã làm cho ngôn ngữ các DTTS nghèo Ďi và dẫn tới nguy cơ suy thoái

Trang 34

Số lượng người nói các tiếng DTTS so với tiếng Việt là không nhiều và nói một ngôn ngữ trong một Ďơn vị Ďịa lý hành chính không cao và không tập trung, vì các DTTS ở Việt Nam thường sống Ďan xen nhau

Sự hoà trộn ngôn ngữ trong các DTTS ở Việt Nam hiện tại Ďang là một hiện tượng tương Ďối phức tạp, làm cho tiếng DTTS mất dần Ďi sự trong sáng vốn có, bị pha tạp tiếng Việt và sẽ dẫn tới nguy cơ mai một Điều này thể hiện rất rõ

là ngày càng có nhiều người nói Ďược bằng lời, nhưng lại không hiểu Ďược văn bản khi Ďọc, dẫn tới tư duy chậm

Số người nói Ďược các tiếng DTTS ở Việt Nam thường thuộc lứa tuổi già và trung niên Lứa tuổi thanh niên biết tiếng của dân tộc mình ít hơn, thậm chí còn rất nhiều trẻ em không biết tiếng của dân tộc mình

Hệ thống tiếng các DTTS ở Việt Nam có phạm vi sử dụng rất hẹp và chưa Ďược nhiều người biết Ďến Phần lớn các tiếng DTTS không Ďược dạy có tổ chức mà chỉ Ďược dạy tự phát hay dùng trong phạm vi gia Ďình, bản làng

Ngoài ra, còn nhiều nguyên nhân khác nhưng chủ yếu vì lý do kinh tế, các bậc cha mẹ là người DTTS ở Việt Nam thường hướng con em mình học tiếng Việt

và các ngoại ngữ khác (Anh, Pháp, Trung Quốc, Nhật ) Ďể dễ tìm việc làm

Trước thực trạng tiếng của các DTTS ở Việt Nam Ďang Ďứng trước nguy cơ mai một, cộng Ďồng các dân tộc ở Việt Nam và Chính phủ cần có những chương trình như khuyến khích, vận Ďộng Ďồng bào các DTTS giao tiếp hằng ngày bằng tiếng dân tộc của chính mình

Chính vì vậy, việc bảo tồn ngôn ngữ các DTTS ở Việt Nam là vấn Ďề cấp bách Ďặt ra trong xu thế hội nhập và phát triển Ngành Giáo dục, cần xuất bản nhiều hơn nữa các loại sách song ngữ Khuyến khích thế hệ trẻ thuộc Ďồng bào các DTTS ở Việt Nam học tập, hiểu biết và sử dụng thành thạo tiếng nói, chữ viết của dân tộc mình Đào tạo Ďội ngũ trí thức người DTTS ở Việt Nam và tạo Ďiều kiện Ďể trí thức, cán bộ người DTTS ở Việt Nam trở về phục vụ quê hương

Đưa chương trình giảng dạy tiếng DTTS ở Việt Nam phù hợp với Ďịa bàn vùng DTTS vào các trường phổ thông, trường phổ thông Dân tộc nội trú, trung tâm

Trang 35

Giáo dục thường xuyên, trung tâm Học tập cộng Ďồng, trường Dạy nghề, Trung học chuyên nghiệp, Cao Ďẳng và Đại học

1.3.2 Hệ thống chữ viết các dân tộc thiểu số ở Việt Nam

Cùng với chữ Quốc ngữ, chữ viết các DTTS ở Việt Nam cũng Ďang chứng tỏ vai trò của mình trong các lĩnh vực hoạt Ďộng tại các vùng DTTS, nhất là trong việc gìn giữ và phát triển văn hoá dân tộc, xây dựng cuộc sống mới

Tình hình thực tế cho thấy phần lớn bộ chữ của DTTS vẫn chưa có mặt Ďầy Ďủ trong Unicode Chính vì vậy, những chính sách về phát triển chính trị, kinh tế, văn hoá… bằng tiếng DTTS vẫn chưa thể hiện hết Ďược trong văn bản, sách, báo, hay trên các trang Web Việc triển khai dạy và học song ngữ Việt-DTTS cũng gặp khó khăn trong việc biên soạn giáo trình, giáo án song ngữ

Các bộ chữ các DTTS ở Việt Nam rất Ďa dạng, một số bộ chữ cổ có lịch sử

lâu Ďời không thuộc hệ chữ La tinh Các bộ chữ của dân tộc Khơ Me, Chăm, Thái có

nguồn gốc từ chữ Pali, Sanscrit ở miền Nam Ấn Độ Ngoài ra còn có các bộ chữ

Nôm Tày, Nôm Nùng, Nôm Dao, Nôm Cao Lan… Ďã Ďược xây dựng từ chữ Hán

Những bộ chữ này chỉ còn lại trong các văn bản cổ, nhưng không nhiều [10], [11]

Ở miền Bắc, hệ thống chữ viết sử dụng ký tự chữ La tinh và dựa trên

bộ chữ tiếng Việt, Ďược xây dựng vào cuối thế kỷ XIX cho Ďến nay Bộ chữ tiếng Việt Ďược hình thành giữa thế kỷ XVII Đó là bộ chữ La tinh Ďược bổ sung thêm các dấu phụ Ďể ghi thanh Ďiệu và một số nguyên âm Tuy nhiên chỉ có

ba hệ thống chữ viết thuộc loại này Ďược chính thức công nhận Ďể phổ cập ở

miền Bắc: chữ Tày-Nùng, chữ H’Mông, chữ Thái La tinh hoá [11]

Ở miền Nam, từ thế kỉ XIX Ďến nay, các nhà khoa học Pháp, Mỹ, Nga, Việt Nam Ďã cố gắng xây dựng nhiều bộ chữ viết sử dụng ký tự chữ La tinh và phần lớn dựa trên cách viết của tiếng Việt Năm 1861, các giáo sĩ người Pháp Ďã xây dựng bộ chữ Ba Na

Tiếp theo là bộ chữ Gia Rai Ďược xây dựng vào năm 1918 và bộ chữ Ê Đê Ďược xây dựng vào năm 1923, cả hai bộ chữ này Ďều dựa trên bộ chữ Ba Na Ngày 02/12/1935 toàn quyền Đông Dương Ďã ký và công nhận hệ thống chữ viết

Trang 36

sử dụng ký tự chữ La tinh dùng chung cho các DTTS ở Tây Nguyên là bộ chữ

Ê Đê Bộ chữ này Ďã Ďược sửa chữa nhiều lần, Ďược sử dụng rộng rãi trong

cộng Ďộng người Ê Đê và Ďược gọi là chữ Ê Đê Bởi vì, Ê Đê là một trong những

dân tộc có số dân Ďông nhất ở Tây Nguyên [11] Bộ chữ này vừa tiếp cận với những

thành tựu của ngữ âm học, vừa gần gũi với tiếng Việt

Hầu hết các hệ thống chữ viết của các DTTS ở khu vực phía Nam Ďược

xây dựng sau này và ít nhiều Ďều dựa vào hệ thống chữ viết tiếng Ê Đê Đây cũng là

cơ sở Ďể luận án chọn chữ viết tiếng Ê Đê làm Ďối tượng nghiên cứu

Hiện nay, ở Việt Nam có 25 DTTS có chữ viết và 29 DTTS chưa có chữ viết

Trong Ďó, có 21 DTTS dùng bộ chữ La tinh và 8 DTTS dùng chữ viết cổ [34], [38]

Dân tộc thiểu số có chữ viết sử dụng ký tự La tinh hiện nay có 4 dân tộc ở

miền Bắc là Tày, Nùng, Thái và H’Mông và các dân tộc còn lại Ďều ở miền Nam

Chữ viết các DTTS Gia Rai, Ê Đê, Ba Na và Hrê Ďược xây dựng từ thời Pháp

Chữ viết của 11 DTTS: Xơ Đăng, Cơ Ho, M’Nông, X’tiêng, Vân Kiều, Cơ Tu,

Gié Triêng, Tà Ôi, Co, Chơ Ro và Chu Ru là do những người Mỹ Ďặt ra

trước năm 1975

Trong số 15 DTTS có chữ viết ở miền Nam, các dân tộc Gia Rai, Cơ Ho,

Vân Kiều, Ê Đê, Tà Ôi và Cơ Tu Ďược nhà nước và nhân dân Ďịa phương xây dựng

chữ viết La tinh hoặc cải tiến ra bộ chữ mới trên cơ sở kế thừa hoặc tiếp thu những

yếu tố hợp lý của bộ chữ La tinh trước Ďây Ďã có Chữ viết sử dụng ký tự La tinh

của dân tộc Chăm và Gia Rai Ďược Ďặt ra do yêu cầu của nhân dân [34], [38]

Chữ viết của dân tộc Chăm, Thái, Tày và Nùng là những dân tộc vừa có chữ viết

cổ truyền thống, vừa có chữ viết La tinh Số lượng và tên các DTTS Ďã có và

chưa có chữ viết, Ďược hệ thống một cách cụ thể trong bảng 1.1 [34], [38]

Trang 37

Bảng 1.1 Các hệ chữ viết các DTTS ở Việt Nam

Chữ La tinh

Ba Na, Chu Ru, Chơ Ro, Co, Cơ Ho, Cơ Tu,

Ê Đê, Gia Rai, Gié Triêng, H’Mông, Hrê, M’Nông, Ra Glai, X’tiêng, Tà Ôi, Vân Kiều,

Bố y, Brâu, Chứt, Cống, Cơ Lao, Giáy, Hà Nhì,

Hủ, Kháng, Khơ Mú, La Chí, La Ha, Lo Lô, Lự,

Mạ, Mảng, Mường, Ngái, Ơ Đu, Phà Thẻn, Phù Lá, Pu Péo, Rơ Măm, Sán Cháy, Sán Dìu,

Si La, Tà Mun, Thổ, Xinh Mun

29

1.3.3 Thực trạng tiếng các dân tộc thiểu số ở Việt Nam

Tiếng Việt là ngôn ngữ chính thức Ďược dùng trong trường học và các cơ sở giáo dục, là phương tiện giao tiếp trong các cơ quan, trong các hoạt Ďộng nghiên cứu khoa học, sáng tác, xuất bản văn học nghệ thuật Mặc dù mỗi dân tộc Ďều có ngôn ngữ riêng, nhưng họ vẫn xem tiếng Việt là ngôn ngữ của mình

Chính sách song ngữ là một biểu hiện tính thống nhất và Ďa dạng trong ngôn ngữ của các dân tộc ở Việt Nam

Với Ďặc Ďiểm Ďa dạng về dân tộc, nên Việt Nam cũng là quốc gia Ďa ngôn ngữ Dân tộc Việt Nam nói các ngôn ngữ khác nhau Ngoài dân tộc Kinh là dân tộc chiếm gần 86% dân số, còn có 54 dân tộc khác, thuộc các ngữ hệ khác nhau thể hiện trong bảng các ngôn ngữ các dân tộc Việt Nam

Trong các ngôn ngữ trên, một số ngôn ngữ có chữ viết cổ truyền như: chữ Nôm Tày, các loại chữ Thái cổ (ở Tây Bắc, Quỳ Châu, Man Thanh, Lai Pao),

chữ Hán, chữ viết tự dạng Sanscrit của Khơ Me, chữ Nôm Nùng, chữ Chăm cổ, chữ viết tự dạng Sanscrit của Lào, chữ Nôm Dao, chữ Nôm Cao Lan

Đặc Ďiểm nổi bật của các DTTS ở Việt Nam là sống Ďan xen nhau làm cho trạng thái Ďa ngữ là phổ biến ở các vùng DTTS Tiếng Việt Ďược coi là ngôn ngữ

Trang 38

giao tiếp giữa các dân tộc Tuy nhiên, ngôn ngữ của các DTTS ở Việt Nam vẫn có

vị trí và tác dụng trong mỗi vùng

Trên cả nước hiện nay có trên 20 tỉnh thành Ďang tổ chức dạy tiếng DTTS

cho gần 110.000 học sinh thuộc 7 dân tộc: H’Mông, Ê Đê, Gia Rai, Ba Na, Chăm,

Khơ Me, Hoa [5] Nhiều tỉnh thành Ďã triển khai thực hiện dạy tiếng DTTS

cho học sinh, cán bộ, công chức, viên chức, các sở và các ban ngành dưới nhiều hình thức Bộ Giáo dục và Đào tạo Ďã xây dựng một số chương trình giáo dục song ngữ, Ďược Ďưa vào giảng dạy trong các trường tiểu học và trường phổ thông Dân tộc nội trú

1.4 XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ

Xử lý ngôn ngữ dân tộc thiểu số có thể tiếp cận các phương pháp và các kỹ thuật khác với XLNNTN Hầu hết cho thấy các nghiên cứu trong lĩnh vực XLNNTN tập trung chủ yếu vào ngôn ngữ chính thống trong mỗi nước Các hỗ trợ tài chính cho các dự án nghiên cứu xử lý ngôn ngữ DTTS không có hay rất ít Ở Châu Âu, tình hình này Ďang dần Ďược cải thiện nhờ sự tài trợ của khối liên minh Châu Âu cho các dự án xử lý tiếng các DTTS [47], [68], [74], [75] Các dự án này nhằm phục hồi, chuẩn hóa ngôn ngữ Ďể thúc Ďẩy việc sử dụng ngôn ngữ các DTTS và Ďóng góp cho sự tồn tại của ngôn ngữ DTTS

1.4.1 Vấn đề xử lý ngôn ngữ dân tộc thiểu số

Trên thế giới hiện nay Ďã có các hiệp hội, các tổ chức, các dự án với các hoạt Ďộng liên quan Ďến xử lý ngôn ngữ DTTS, có thể kể Ďến:

SALTMIL là hiệp hội quốc tế về tiếng nói và ngôn ngữ của nhóm nghiên cứu

chủ yếu tập trung vào công nghệ ngôn ngữ của các DTTS [47], [68], [74], [75] Theo SALTMIL, tiếng DTTS trên thế giới Ďang chịu áp lực ngày càng tăng từ các ngôn ngữ chính thống, một số tiếng DTTS vẫn chưa Ďược công nhận Bên cạnh Ďó, có một số tiếng các DTTS Ďã Ďược nghiên cứu về ngôn ngữ nhưng phần lớn chưa có hạ tầng cơ sở Ďể triển khai các ứng dụng trong xử lý tiếng các DTTS Nếu tình hình này tiếp diễn thì việc xử lý tiếng các DTTS sẽ giảm một chặng Ďường dài phía sau các ngôn ngữ chính thống Như vậy, xây dựng hạ

Trang 39

tầng cơ sở cho xử lý tiếng DTTS là bước phải Ďược thực hiện ngay từ Ďầu

SALTMIL thường xuyên tổ chức các hội thảo, với mục Ďích trao Ďổi giữa các nhà nghiên cứu và thúc Ďẩy sự hợp tác trong lĩnh vực xử lý ngôn ngữ DTTS Hội thảo là một bước tiến trong việc khuyến khích phát triển các hạ tầng cơ sở cho tiếng DTTS Mục Ďích là Ďể phổ biến thông tin về các dự án hiện tại và chiến lược trong tương lai Cũng như Ďể hình thành các mối quan hệ giữa các nhà khoa học và chia sẻ các kết quả nghiên cứu Điều này, tạo Ďiều kiện thuận lợi cho các nhà khoa học làm việc với kinh phí ít và không có kho ngữ liệu từ trước Để bắt Ďầu phát triển các kho ngữ liệu chuyên dụng cho xử lý tiếng DTTS Các hội thảo Ďược

tổ chức với nhiều diễn Ďàn trao Ďổi thông tin giữa các nhà nghiên cứu và Ďem lại nhiều cơ hội hình thành các trọng Ďiểm của các hoạt Ďộng SALTMIL

MILLE là một dự án của Anh liên quan Ďến xử lý tiếng các DTTS Các

nhà khoa học CNTT thuộc lĩnh vực XLNNTN Ďã nhìn thấy Ďược những lợi ích Ďáng kể từ các nghiên cứu xử lý ngôn ngữ dựa trên kho ngữ liệu Việc phát triển các kho ngữ liệu phù hợp sẽ quyết Ďịnh chất lượng Ďầu ra của các ứng dụng như xây dựng từ Ďiển, dịch máy, và hàng loạt các công việc trong xử lý ngôn ngữ Các tác giả cũng Ďã nhận thấy rằng lâu nay việc Ďầu tư phát triển các kho ngữ liệu DTTS không sử dụng tiếng Anh là không Ďáng kể Dự án MILLE Ďược thành lập Ďể nghiên cứu xây dựng các kho ngữ liệu DTTS cho các nước khác [89]

EMILLE là một dự án hợp tác giữa các trường Ďại học Lancaster và Sheffield

Dự án Ďược xây dựng trên cơ sở của dự án MILLE Dự án này tập trung chủ yếu vào các vấn Ďề liên quan Ďến sử dụng Unicode ký tự trong xây dựng các kho ngữ liệu Các vấn Ďề về nhu cầu sử dụng Unicode cho các kho dữ liệu Nam Á trong xử lý ngôn ngữ là Ďộng lực chính cho dự án EMILLE [80]

Ở Việt Nam hiện nay, một số tiếng DTTS Tày, Thái, Dao, Mông, Gia Rai, Ê Đê,

Ba Na, Chăm, Khơ Me Ďược sử dụng trên các phương tiện thông tin Ďại chúng từ

trung ương tới Ďịa phương Nhiều Ďịa phương Ďã triển khai thực hiện dạy tiếng DTTS cho học sinh người DTTS trong các trường phổ thông [19]

Trang 40

Với quan Ďiểm nâng cao chất lượng giáo dục cho học sinh Ďồng bào DTTS là góp phần bảo tồn tiếng nói và chữ viết của Ďồng bào các DTTS, nâng cao dân trí, nâng cao chất lượng nguồn nhân lực và thúc Ďẩy phát triển Kinh tế-Xã hội trong các vùng DTTS ở Việt Nam

Chính sách song ngữ cho Ďồng bào các DTTS là thật sự cần thiết, tạo Ďiều kiện

Ďể người DTTS Ďược học tiếng nói, chữ viết của dân tộc mình, nhằm giữ gìn và phát huy bản sắc văn hoá dân tộc, giúp học sinh người DTTS dễ dàng tiếp thu kiến thức khi học tập trong nhà trường và cơ sở giáo dục khác

Bên cạnh nhu cầu xã hội, những vấn Ďề xử lý tiếng các DTTS ở Việt Nam tương tự như xử lý tiếng Việt là nhu cầu cấp thiết Ďược Ďặt ra, nhằm góp phần ứng dụng CNTT trong việc nâng cao chất lượng dạy và học tiếng DTTS

1.4.2. Khó khăn và thách thức

Trong xử lý ngôn ngữ DTTS khó khăn Ďặt ra Ďầu tiên là phải mã hóa thích hợp

hệ thống chữ viết các DTTS trong Unicode và phải phù hợp với bàn phím tiếng Anh, vì các DTTS thường có hệ thống chữ viết của riêng mình

Xử lý ngôn ngữ DTTS thường xuyên phải Ďối mặt với khó khăn Ďầu tiên Ďó là

bộ chữ cái tiếng DTTS Ďã có trong Unicode hay chưa, tiếp theo là thiếu nguồn tài nguyên dữ liệu chuẩn hóa dưới dạng Ďiện tử, chuyên môn Chính sự khan hiếm nguồn tài nguyên dữ liệu là một hạn chế cho phương pháp tiếp cận hướng dữ liệu trong xử lý ngôn ngữ DTTS Khó khăn cũng phải Ďược kể Ďến Ďó là thiếu sự hỗ trợ

về tài chính dành cho các hoạt Ďộng nghiên cứu xử lý ngôn ngữ DTTS

Mặt khác, xử lý ngôn ngữ DTTS còn phải vượt qua một số khó khăn phát sinh

từ những thực trạng Ďặc biệt của ngôn ngữ DTTS vì chỉ có nhóm ít người dùng, không có Ďủ nguồn nhân lực chuyên môn, rất ít các nhà ngôn ngữ học DTTS và các nhà khoa học máy tính là người DTTS Chính vì vậy, việc áp dụng các phương pháp tiếp cận dựa trên luật Ďể gán nhãn, phân tích cú pháp… có thể rất khó khăn

Ngày đăng: 28/09/2017, 08:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Báo tin tức. “Ngày Internet 2016 – thúc Ďẩy ngành công nghiệp nội dung số”, Ďịa chỉ: http://baotintuc.vn/khoa-hoc-cong-nghe/ngay-internet-2016-thuc-day-nganh-cong-nghiep-noi-dung-so-20161221122104622.htm[truy cập: 30/07/2017] Sách, tạp chí
Tiêu đề: Ngày Internet 2016 – thúc Ďẩy ngành công nghiệp nội dung số
[2] Đài tiếng nói Việt Nam. “Hệ phát thanh dân tộc VOV4”, Ďịa chỉ: http://vov4.vov.vn/Ede.aspx [truy cập: 02/08/2017] Sách, tạp chí
Tiêu đề: Hệ phát thanh dân tộc VOV4
[3] Đoàn Văn Phúc, “Ngữ âm Ê Đê”, Nhà xuất bản Khoa học Xã hội, Hà Nội, 1996 Sách, tạp chí
Tiêu đề: Ngữ âm Ê Đê”, "Nhà xuất bản Khoa học Xã hội, Hà Nội
Nhà XB: Nhà xuất bản Khoa học Xã hội
[4] Đoàn Văn Phúc, “Từ vựng các phương ngữ Ê Đê”, Nhà xuất bản Thành phố Hồ Chí Minh, 1998 Sách, tạp chí
Tiêu đề: Từ vựng các phương ngữ Ê Đê
Nhà XB: Nhà xuất bản Thành phố Hồ Chí Minh
[5] Đoàn Văn Phúc, “Giáo dục tiếng mẹ Ďẻ trong trường tiểu học ở Đăk Lăk và thái Ďộ của học sinh Ê Đê”, Tạp chí ngôn ngữ, số 42 (2), 2012 Sách, tạp chí
Tiêu đề: Giáo dục tiếng mẹ Ďẻ trong trường tiểu học ở Đăk Lăk và thái Ďộ của học sinh Ê Đê”, "Tạp chí ngôn ngữ
[6] “Giới thiệu Kho ngữ liệu tiếng Việt-Vietnamese Corpus”, VietLex, Ďịa chỉ: http://www.vietlex.com/help/about_corpus.htm. [truy cập: 02/08/2017] Sách, tạp chí
Tiêu đề: Giới thiệu Kho ngữ liệu tiếng Việt-Vietnamese Corpus
[7] Hồ Tú Bảo. “Đề tài VLSP-Nhánh Ďề tài Xử lý văn bản”, Ďịa chỉ: http://vlsp.hpda.vn:8080/demo/, [truy cập: 02/08/2017] Sách, tạp chí
Tiêu đề: Đề tài VLSP-Nhánh Ďề tài Xử lý văn bản
[8] Hoàng Thị Mỹ Lệ, “Xây dựng hệ thống xử lý tin học tiếng Ê Đê trong soạn thảo văn bản”, Luận văn Thạc sĩ ngành Khoa học Máy tính, ĐHĐN, 2012 Sách, tạp chí
Tiêu đề: Xây dựng hệ thống xử lý tin học tiếng Ê Đê trong soạn thảo văn bản”, "Luận văn Thạc sĩ ngành Khoa học Máy tính
[9] Hương Giang. “Đưa vào ứng dụng phần mềm chữ Nôm, chữ Thái, chữ Chăm”, 2012, Ďịa chỉ: http://www.husta.org/tin-khoa-hoc-cong-nghe/dua-vao-ung-dung-phan-mem-chu-nom-chu-thai-chu-cham.html [truy cập: 30/7/2017] Sách, tạp chí
Tiêu đề: Đưa vào ứng dụng phần mềm chữ Nôm, chữ Thái, chữ Chăm
[10] Lê Khắc Cường, “Hệ thống chữ viết tiếng Stiêng và vấn Ďề xây dựng từ Ďiển Ďối chiếu Việt-Stiêng, Stiêng-Việt”, Tạp chí Khoa học Xã hội, số 3, 2010 Sách, tạp chí
Tiêu đề: Hệ thống chữ viết tiếng Stiêng và vấn Ďề xây dựng từ Ďiển Ďối chiếu Việt-Stiêng, Stiêng-Việt”, "Tạp chí Khoa học Xã hội
[11] Lê Khắc Cường, “Việc nghiên cứu ngôn ngữ các DTTS tại Việt Nam”, Aboriginal Education World, Taiwan, 2013 Sách, tạp chí
Tiêu đề: Việc nghiên cứu ngôn ngữ các DTTS tại Việt Nam”, "Aboriginal Education World
[12] Lê Quang Hùng, “Khảo sát quan hệ song ngữ tiếng Việt-tiếng dân tộc Ê Đê và xây dựng hệ dịch tự Ďộng Việt-Ê Đê”, Đề tài Khoa học và Công nghệ cấp Bộ Sách, tạp chí
Tiêu đề: Khảo sát quan hệ song ngữ tiếng Việt-tiếng dân tộc Ê Đê và xây dựng hệ dịch tự Ďộng Việt-Ê Đê”
[13] Lưu Tuấn Anh và Yamamoto Kazuhide. “Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt”, Ďịa chỉ: http://viet.jnlp.org/dongdu, [truy cập: 02/08/2017] Sách, tạp chí
Tiêu đề: Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt
[14] Lưu Tuấn Anh. “Vietnamese Natural Language Processing”, Ďịa chỉ: http://viet.jnlp.org/, [truy cập: 02/08/2017] Sách, tạp chí
Tiêu đề: Vietnamese Natural Language Processing
[15] Ngô Trung Việt, “Vấn Ďề chữ Việt trên máy tính”, Tạp chí Khoa học Tính toán và Điều khiển, số 3, 1987 Sách, tạp chí
Tiêu đề: Vấn Ďề chữ Việt trên máy tính”, "Tạp chí Khoa học Tính toán và Điều khiển
[16] Nguyễn Đức Khanh. “TayNguyenKey - Chương trình hỗ trợ gõ chữ các dân tộc thiểu số Tây Nguyên”, Sở giáo dục Đăk Lăk,2010, Ďịa chỉ: http://thpt- ngogiatu-daklak.edu.vn/taynguyenkey-chuong-trinh-ho-tro-go-chu-cac-dan-toc-thieu-so-tay-nguyen.htm [truy cập: 30/07/2017] Sách, tạp chí
Tiêu đề: TayNguyenKey - Chương trình hỗ trợ gõ chữ các dân tộc thiểu số Tây Nguyên”", Sở giáo dục Đăk Lăk,2010
[17] Nguyễn Hằng. “Xây dựng bộ gõ tiếng dân tộc”, Việt Báo, 2003, Ďịa chỉ: http://vietbao.vn/Vi-tinh-Vien-thong/Du-thi-TTVN-Xay-dung-bo-go-tieng-dan-toc/10844303/226/ [truy cập: 02/08/2017] Sách, tạp chí
Tiêu đề: Xây dựng bộ gõ tiếng dân tộc
[18] Nguyên Hoa. “Dạy tiếng ÊĎê ở trường phổ thông: vẫn còn trăn trở”, Đăk Lăk Ďiện tử, 2016, Ďịa chỉ: http://baodaklak.vn/channel/3486/201601/day-tieng-ede-o-truong-pho-thong-van-con-tran-tro-2421034/ [truy cập: 30/07/2017] Sách, tạp chí
Tiêu đề: Dạy tiếng ÊĎê ở trường phổ thông: vẫn còn trăn trở
[19] Nguyễn Mạnh Quỳnh, “Thực trạng và những vấn Ďề Ďặt ra trong việc dạy và học tiếng nói, chữ viết dân tộc thiểu số”, Báo cáo khoa học tại Hội thảo Ngôn ngữ học toàn quốc, Hà Nội, 2009 Sách, tạp chí
Tiêu đề: Thực trạng và những vấn Ďề Ďặt ra trong việc dạy và học tiếng nói, chữ viết dân tộc thiểu số”, "Báo cáo khoa học tại Hội thảo Ngôn ngữ học toàn quốc
[20] Nguyễn Thiện Giáp (2009). “Chính sách ngôn ngữ ở Việt Nam qua các thời kì lịch sử”, Ďịa chỉ: http://ngonngu.net/?p=172 [truy cập: 02/08/2017] Sách, tạp chí
Tiêu đề: Chính sách ngôn ngữ ở Việt Nam qua các thời kì lịch sử
Tác giả: Nguyễn Thiện Giáp
Năm: 2009

HÌNH ẢNH LIÊN QUAN

Bảng mã chuẩn của Hoa Kỳ dành  cho việc chuyển Ďổi thông tin - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Bảng m ã chuẩn của Hoa Kỳ dành cho việc chuyển Ďổi thông tin (Trang 8)
Bảng  Tên bảng  Trang - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
ng Tên bảng Trang (Trang 10)
Bảng 1.1. Các hệ chữ viết các DTTS ở Việt Nam - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Bảng 1.1. Các hệ chữ viết các DTTS ở Việt Nam (Trang 37)
Hình 2.1. Hệ thống phân cấp chức năng trong môi trường xử lý tiếng Ê Đê - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 2.1. Hệ thống phân cấp chức năng trong môi trường xử lý tiếng Ê Đê (Trang 50)
Hình  2.2  minh  hoạ  sự  bất cập  về  vấn  Ďề  hiển thị  chữ  viết  tiếng  Ê Đê  trong  văn bản tiếng Ê Đê dùng phông chữ riêng - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
nh 2.2 minh hoạ sự bất cập về vấn Ďề hiển thị chữ viết tiếng Ê Đê trong văn bản tiếng Ê Đê dùng phông chữ riêng (Trang 52)
Hình 2.3. Mô hình hiển thị chữ viết tiếng DTTS trên văn bản Unicode - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 2.3. Mô hình hiển thị chữ viết tiếng DTTS trên văn bản Unicode (Trang 54)
Bảng 2.4. Ánh xạ các chữ cái nhóm 2 và nhóm 3 vào Unicode - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Bảng 2.4. Ánh xạ các chữ cái nhóm 2 và nhóm 3 vào Unicode (Trang 56)
Bảng 2.5. Qui định cách gõ chữ cái nhóm 2 và nhóm 3 - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Bảng 2.5. Qui định cách gõ chữ cái nhóm 2 và nhóm 3 (Trang 57)
Hình 2.5. Mô hình chuyển đổi văn bản tiếng DTTS - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 2.5. Mô hình chuyển đổi văn bản tiếng DTTS (Trang 60)
Hình 3.1. Mô hình hợp nhất nguồn dữ liệu song ngữ - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 3.1. Mô hình hợp nhất nguồn dữ liệu song ngữ (Trang 66)
Hình 3.3. Mô hình kiểm tra chính tả âm tiết tiếng Ê Đê - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 3.3. Mô hình kiểm tra chính tả âm tiết tiếng Ê Đê (Trang 82)
Hình 3.4. Mô hình hoạt động của bộ CESILD - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 3.4. Mô hình hoạt động của bộ CESILD (Trang 85)
Hình 4.1. Sơ đồ hoạt động tra cứu từ vựng Việt-Ê Đê - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 4.1. Sơ đồ hoạt động tra cứu từ vựng Việt-Ê Đê (Trang 92)
Hình 4.3. Hoạt động của bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 4.3. Hoạt động của bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê (Trang 98)
Hình 4.4. Mô hình kiểm tra lỗi chính tả văn bản tiếng Ê Đê - Xây dựng môi trường xử lý tiếng ê đê ứng dụng trong dạy và học tiếng ê đê
Hình 4.4. Mô hình kiểm tra lỗi chính tả văn bản tiếng Ê Đê (Trang 103)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w