1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)

140 193 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 140
Dung lượng 1,7 MB
File đính kèm Luận án Full.rar (2 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học : PGS.TS PHAN HUY KHÁNH

Đà Nẵng, năm 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam Ďoan Ďây là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn trực tiếp của PGS.TS Phan Huy Khánh

Tôi cam Ďoan các kết quả Ďược trình bày trong luận án là trung thực, không sao chép từ bất kỳ luận án nào khác và chưa từng Ďược ai công bố trong bất kỳ công trình nào khác Mọi trích dẫn Ďều có ghi nguồn gốc xuất xứ rõ ràng

Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm

Tác giả,

NCS Hoàng Thị Mỹ Lệ

Trang 4

LỜI CẢM ƠN

Tôi thực hiện luận án “Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy

và học tiếng Ê Đê” dưới sự hướng dẫn tận tình của Thầy giáo PGS.TS Phan Huy Khánh Tôi Ďã nhận Ďược từ thầy nhiều kiến thức chuyên môn quý báu, những kinh nghiệm nghiên cứu khoa học, cũng như những yêu cầu nghiên cứu nghiêm túc trong suốt thời gian nghiên cứu Ďể hoàn thành luận án Tôi chân thành bày tỏ lòng biết ơn và sự kính trọng sâu sắc Ďối với thầy

Trong thời gian bắt Ďầu nghiên cứu cho Ďến nay, tôi cũng Ďã tiếp nhận Ďược những kiến thức quý giá, sự giúp Ďỡ và quan tâm nhiệt tình của quý thầy, cô từ khoa Điện, trường Cao Ďẳng Công nghệ Ďến khoa Công nghệ Thông tin trường Đại học Bách khoa, Đại học

Đà Nẵng Quý thầy, cô Ďã tạo mọi Ďiều kiện thuận lợi giúp tôi học tập, nghiên cứu khoa học, tham gia hội thảo và trao Ďổi chuyên môn, tiếp xúc với các chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên và Công nghệ Thông tin Tôi chân thành bày tỏ lời cảm ơn sâu sắc

Tôi xin trân trọng cảm ơn Ban Đào tạo - Đại học Đà Nẵng, Phòng Đào tạo - Trường Đại học Bách khoa Ďã tạo mọi Ďiều kiện thuận lợi cho tôi trong thời gian học tập, nghiên cứu và thực hiện luận án

Tôi xin ghi nhận và cảm ơn các cán bộ trong Ban dân tộc tỉnh Đăk Lăk,

TS Buôn Krông Tuyết Nhung (Đại học Tây Nguyên) Ďã tạo Ďiều kiện thuận lợi cho tôi trong việc tìm kiếm các nguồn tài liệu liên quan Ďến tiếng Ê Đê

Tôi cũng chân thành cảm ơn các tác giả về những bài báo, tài liệu, bài giảng và các công bố nghiên cứu khoa học mà tôi có sử dụng tham khảo, trích dẫn trong luận án

Một lần nữa, tôi trân trọng cảm ơn bạn bè Ďồng nghiệp và gia Ďình Ďã cho tôi niềm tin, nghị lực và lòng quyết tâm Ďể Ďạt Ďược kết quả mong muốn

NCS Hoàng Thị Mỹ Lệ NCS Hoàng Thị Mỹ Lệ

Trang 5

MỤC LỤC

MỞ ĐẦU 1

1 Mục tiêu nghiên cứu 3

2 Đối tượng và phạm vi nghiên cứu 4

3 Phương pháp nghiên cứu 4

4 Cấu trúc của luận án 4

5 Những Ďóng góp chính của luận án 5

CHƯƠNG 1 VẤN ĐỀ XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 7

1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 7

1.1.1 Mã hóa và soạn thảo văn bản 7

1.1.2 Xây dựng kho ngữ vựng 8

1.1.3 Tách từ và gán nhãn từ loại 11

1.1.4 Bài toán dịch máy 14

1.2 XỬ LÝ TIẾNG VIỆT-KINH 17

1.2.1 Tiếng Việt trong bối cảnh xử lý ngôn ngữ tự nhiên 17

1.2.2 Một số kết quả xử lý tiếng Việt 18

1.2.3 Xu thế và triển vọng trong xử lý tiếng Việt 21

1.3 XỬ LÝ TIẾNG CÁC DÂN TỘC THIỂU SỐ Ở VIỆT NAM 21

1.3.1 Bảo tồn tiếng các dân tộc thiểu số ở Việt Nam 21

1.3.2 Hệ thống chữ viết các dân tộc thiểu số ở Việt Nam 24

1.3.3 Thực trạng tiếng các dân tộc thiểu số ở Việt Nam 26

1.4 XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ 27

1.4.1 Vấn Ďề xử lý ngôn ngữ dân tộc thiểu số 27

1.4.2 Khó khăn và thách thức 29

1.4.3 Các phương pháp tiếp cận 30

1.4.4 Định hướng nghiên cứu 30

1.5 KẾT LUẬN CHƯƠNG 1 31

CHƯƠNG 2 MÔI TRƯỜNG XỬ LÝ TIẾNG Ê ĐÊ 33

2.1 XÂY DỰNG MÔI TRƯỜNG XỬ LÝ TIẾNG Ê ĐÊ 33

Trang 6

2.1.1 Giới thiệu tiếng Ê Đê 33

2.1.2 Khó khăn trong xử lý tiếng Ê Đê 36

2.1.3 Xử lý tiếng Ê Đê vận dụng kết quả xử lý tiếng Việt 36

2.1.4 Phân cấp chức năng trong môi trường xử lý tiếng Ê Đê 37

2.2 SOẠN THẢO VĂN BẢN TIẾNG Ê ĐÊ 39

2.2.1 Xử lý chữ viết tiếng các dân tộc thiểu số ở Việt Nam 40

2.2.2 Soạn thảo văn bản tiếng các dân tộc thiểu số ở Việt Nam 42

2.2.3 Soạn thảo văn bản tiếng Ê Đê 43

2.3 SỬ DỤNG UNICODE 48

2.3.1 Sử dụng Unicode trong soạn thảo văn bản 48

2.3.2 Chuyển Ďổi văn bản tiếng dân tộc thiểu số về Unicode 49

2.3.3 Chuyển Ďổi văn bản tiếng Ê Đê dùng phông chữ riêng về Unicode 50

2.4 KẾT LUẬN CHƯƠNG 2 52

CHƯƠNG 3 XỬ LÝ TIẾNG Ê ĐÊ 54

3.1 HỢP NHẤT NGUỒN DỮ LIỆU SONG NGỮ VIỆT-Ê ĐÊ 54

3.1.1 Mô hình hợp nhất nguồn dữ liệu song ngữ 54

3.1.2 Môi trường hợp nhất nguồn dữ liệu song ngữ 56

3.1.3 Đánh giá mô hình hợp nhất nguồn dữ liệu 58

3.2 XÂY DỰNG KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 58

3.2.1 Tổ chức kho ngữ vựng song ngữ Việt-Ê Đê 58

3.2.2 Cập nhật dữ liệu vào kho ngữ vựng 61

3.2.3 Đánh giá kho ngữ vựng 62

3.3 KIỂM TRA CHÍNH TẢ ÂM TIẾT TIẾNG Ê ĐÊ 67

3.3.1 Âm tiết tiếng Ê Đê 68

3.3.2 Phát hiện lỗi chính tả âm tiết tiếng Ê Đê 69

3.3.3 Giải pháp kiểm tra chính tả âm tiết tiếng Ê Đê 70

3.4 QUẢN LÝ KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 72

3.4.1 Bổ sung mục từ vào kho ngữ vựng 73

3.4.2 Nâng cao chất lượng kho ngữ vựng 73

Trang 7

3.4.3 Định hướng khai thác kho ngữ vựng song ngữ Việt-Ê Đê 75

3.5 KẾT LUẬN CHƯƠNG 3 75

CHƯƠNG 4 XÂY DỰNG ỨNG DỤNG XỬ LÝ TIẾNG Ê ĐÊ 77

4.1 DẠY VÀ HỌC TIẾNG Ê ĐÊ 77

4.1.1 Thực trạng dạy và học tiếng Ê Đê 77

4.1.2 Ứng dụng quản lý kho ngữ vựng 78

4.1.3 Các ứng dụng dạy và học tiếng Ê Đê 78

4.2 TRA CỨU TỪ VỰNG SONG NGỮ VIỆT-Ê ĐÊ 79

4.2.1 Vai trò của từ vựng trong dạy và học song ngữ Việt-Ê Đê 79

4.2.2 Xây dựng ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 80

4.2.3 Ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê 83

4.3 BÀI TOÁN DỊCH MÁY VIỆT-Ê ĐÊ 83

4.3.1 Dịch máy văn bản Việt-Ê Đê 84

4.3.2 Giải quyết bài toán tách từ tiếng Việt trong dịch máy Việt-Ê Đê 84

4.3.3 Xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê 85

4.4 KIỂM TRA LỖI CHÍNH TẢ TIẾNG Ê ĐÊ 91

4.4.1 Vấn Ďề lỗi chính tả tiếng Ê Đê 91

4.4.2 Giải quyết bài toán kiểm tra lỗi chính tả văn bản tiếng Ê Đê 91

4.4.3 Xây dựng bộ kiểm tra lỗi chính tả trong dạy và học tiếng Ê Đê 93

4.5 KẾT LUẬN CHƯƠNG 4 95

KẾT LUẬN 96

1 Các kết quả chính của luận án 96

2 Đánh giá kết quả 97

3 Hướng phát triển 98

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 99

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 100

PHỤ LỤC 109

Trang 8

DANH MỤC CHỮ VIẾT TẮT TIẾNG ANH Stt Chữ viết tắt Giải nghĩa Nghĩa tiếng Việt

Information Interchange

Bảng mã chuẩn của Hoa Kỳ dành cho việc chuyển Ďổi thông tin

mẫu có sẵn

English-Great Britain

Kho ngữ liệu quốc tế tiếng Anh bản xứ

15 SALTMIL

Technology for MInority Languages

Công nghệ ngôn ngữ và tiếng nói cho các DTTS

Transducer

Chuyển Ďổi trạng thái hữu hạn có trọng số

Trang 9

TayNguyenKey với kiểu gõ VNI

51

Trang 10

Số hiệu

văn bản tiếng Ê Đê

75

vnTokenizer

85

Trang 11

DANH MỤC HÌNH VẼ

Số hiệu

Unicode

49

Trang 12

Từ những năm 1957 cho Ďến 1970, XLNNTN Ďược tập trung nghiên cứu theo

lý thuyết ngôn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng nói như các phương pháp Bayes [54]

Giai Ďoạn 1970-1983 phát triển các mô hình nghiên cứu về XLNNTN

Giai Ďoạn 1983-1993, tập trung nghiên cứu trở lại mô hình trạng thái hữu hạn, các phương pháp xác suất và hướng tiếp cận dựa trên các dữ liệu lời nói trong phân tích cú pháp, gán nhãn từ loại và xử lý nhập nhằng nghĩa [54]

Giai Ďoạn từ năm 1994 Ďến nay, XLNNTN Ďã có những thay Ďổi và phát triển Một số thuật toán phân tích cú pháp, gán nhãn từ loại, truy xuất thông tin cũng Ďã Ďược nghiên cứu và áp dụng cho xây dựng các ứng dụng trong XLNNTN như: nhận dạng tiếng nói, kiểm tra chính tả, kiểm tra ngữ pháp, công cụ truy xuất và trích chọn thông tin trên Web [54], [62] Trong giai Ďoạn này phát triển các nghiên cứu phương pháp dịch máy thống kê Vào năm 2007, Google cũng Ďã chuyển sang phương pháp dịch máy thống kê trong hệ dịch tự Ďộng [82]

Ở Việt Nam, có trên 20 ngôn ngữ có chữ viết trên tổng số 55 dân tộc Vấn Ďề

xử lý tiếng Việt (xử lý tiếng dân tộc Kinh ở Việt Nam) Ďã Ďược nghiên cứu từ năm

1990, Ďã có nhiều kết quả và vẫn Ďang Ďược tiếp tục duy trì [7], [15], [70], [71]

Trang 13

2

Tuy nhiên, các kết quả nghiên cứu Ďạt Ďược vẫn còn những mặt hạn chế như: chưa Ďược liên kết, thiếu chia sẻ và không có tính kế thừa, chỉ tập trung vào các sản phẩm cho người dùng, ít nghiên cứu phát triển hạ tầng cơ sở như từ Ďiển máy tính, kho ngữ liệu, Ďây là những thứ không thể thiếu trong XLNNTN

Những hạn chế nêu trên là do không có sự Ďồng thuận giữa các Ďơn vị nghiên cứu, giữa các nhà khoa học về XLNNTN [7]

Bên cạnh các kết quả nghiên cứu xử lý tiếng Việt, các vấn Ďề xử lý tiếng dân tộc thiểu số (DTTS) ở Việt Nam cho Ďến nay vẫn có rất ít các nhà khoa học quan tâm Trong bối cảnh bùng nổ sử dụng internet, cùng với nhu cầu phát triển văn hoá và hội nhập của cộng Ďồng các DTTS ở Việt Nam, thì lúc này nhu cầu xử lý tiếng các DTTS Ďặt ra càng bức thiết hơn bao giờ hết

Tiếng nói và chữ viết của mỗi DTTS ở Việt Nam vừa là vốn quý của các dân tộc, vừa là tài sản văn hóa chung của cả nước, luôn Ďược tôn trọng, có quyền bình Ďẳng và tự do phát triển ngôn ngữ của mỗi dân tộc Các trường phổ thông, trường phổ thông Dân tộc nội trú, trung tâm giáo dục thường xuyên, trung tâm học tập cộng Ďồng, Ďã có những chương trình dạy và học tiếng các DTTS

Hiện nay, một số chữ viết của các DTTS ở Việt Nam Ďã Ďược sử dụng trên các

phương tiện thông tin Ďại chúng từ trung ương tới Ďịa phương như: Tày, Thái, Dao,

Mông, Gia Rai, Ê Đê, Ba Na, Chăm, Khơ Me [2] Nhiều Ďịa phương Ďã triển khai

thực hiện dạy tiếng dân tộc cho học sinh dân tộc trong các trường phổ thông Từ Ďó, những vấn Ďề xử lý tin học tiếng các DTTS tương tự như tiếng Việt là nhu cầu cấp thiết Ďược Ďặt ra hiện nay

Những công trình nghiên cứu xử lý tiếng các DTTS ở Việt Nam Ďã có từ năm

2002, có thể kế Ďến như: bộ phông chữ Ê Đê [8], bộ gõ tiếng Chăm [37], bộ gõ cho

bốn ngôn ngữ DTTS Ê Đê, Gia Rai, Ba Na, M’Nông và tiếng Việt [36]

Cho Ďến nay, vấn Ďề xử lý tiếng các DTTS ở Việt Nam vẫn còn Ďang tiếp tục triển khai nghiên cứu

Từ tình hình thực tiễn xử lý tiếng các DTTS ở Việt Nam nói chung và tiếng

Ê Đê nói riêng, dựa trên sự gần gũi ngôn ngữ giữa tiếng Việt và tiếng Ê Đê, luận án

Trang 14

3

chọn Ďề tài “Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học

tiếng Ê Đê”, nhằm Ďịnh hướng qui trình nghiên cứu trong xử lý tiếng Ê Đê

Từ những Ďịnh hướng nghiên cứu Ďược Ďặt ra trong môi trường này, tiếng Ê Đê soạn thảo Ďược trong môi trường Ďa ngữ Kho ngữ vựng Việt-Ê Đê Ďược xây dựng dựa trên mô hình hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt Văn bản tiếng Ê Đê dùng phông chữ riêng chuyển Ďổi Ďược sang Unicode và Ďược kiểm tra lỗi chính tả ở mức âm tiết Các ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê Ďược xây dựng dựa trên kho ngữ vựng Việt-Ê Đê có Ďược từ mô hình hợp nhất Định hướng phát triển kho ngữ vựng thông qua trang web quản lý kho ngữ vựng, Ďể từ Ďó các chuyên gia ngôn ngữ Ê Đê cùng tham gia Ďóng góp, cập nhật dữ liệu vào kho ngữ vựng, góp phần nâng cao chất lượng kho ngữ vựng Bên cạnh việc phát triển kho ngữ vựng, trang web này còn có chức năng chia sẻ kho ngữ vựng Việt-Ê Đê, các công cụ kỹ thuật, các kết quả nghiên cứu xử lý tiếng Ê Đê cho các hoạt Ďộng nghiên cứu liên quan Ďến xử lý tiếng Ê Đê

1 Mục tiêu nghiên cứu

Để Ďạt Ďược mục tiêu xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê, luận án hướng Ďến nghiên cứu hai mục tiêu chính:

Mục tiêu thứ nhất là xây dựng môi trường xử lý tiếng Ê Đê Ďịnh hướng qui trình

nghiên cứu cho xử lý tiếng Ê Đê thể hiện ở ba vấn Ďề:

1 Soạn thảo văn bản (STVB) tiếng Ê Đê trong môi trường Ďa ngữ, thực hiện cập nhật, chuyển Ďổi, xử lý các nguồn dữ liệu tiếng Ê Đê Ďã có

2 Hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt trong xây dựng kho ngữ vựng (KNV) song ngữ Việt-Ê Đê Các tiêu chí KNV Ďược Ďề xuất góp phần khắc phục những hạn chế của KNV tiếng DTTS hiện nay nói chung và tiếng Ê Đê nói riêng

3 Nâng cao chất lượng KNV song ngữ Việt-Ê Đê với sự tham gia, hỗ trợ của các chuyên gia ngôn ngữ tiếng Ê Đê Chia sẻ các nguồn tài nguyên, các công cụ kỹ thuật, các kết quả nghiên cứu cho các hoạt Ďộng nghiên cứu

xử lý tiếng Ê Đê

Trang 15

4

Mục tiêu thứ hai là triển khai xây dựng các ứng dụng xử lý tiếng Ê Đê trong dạy

và học tiếng Ê Đê dựa vào KNV Việt-Ê Đê, gồm các ứng dụng sau:

1 Tra cứu trực tuyến và ngoại tuyến từ vựng song ngữ Việt-Ê Đê

2 Kiểm tra lỗi chính tả văn bản tiếng Ê Đê,

3 Trợ giúp dịch máy từ tiếng Việt sang tiếng Ê Đê trong soạn thảo các bài giảng, giáo án của giáo viên

2 Đối tượng và phạm vi nghiên cứu

2.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận án:

- Ngôn ngữ Ê Đê và ngôn ngữ DTTS

- Unicode, các công cụ kỹ thuật XLNNTN và xử lý tiếng Ê Đê

- Từ Ďiển và các kho ngữ vựng Ďơn ngữ, song ngữ Việt-Ê Đê

2.2 Phạm vi nghiên cứu

Để Ďạt Ďược mục tiêu nghiên cứu của luận án, phạm vi nghiên cứu:

- Xử lý chữ viết theo quan Ďiểm XLNNTN và xử lý tiếng Việt

- Soạn thảo văn bản tiếng Ê Đê sử dụng Unicode,

- Kiểm tra lỗi chính tả âm tiết văn bản tiếng Ê Đê,

- Hạ tầng cơ sở cho xử lý tiếng Ê Đê,

- Ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê

3 Phương pháp nghiên cứu

Các phương pháp nghiên cứu cơ bản Ďược sử dụng trong luận án gồm hai phương pháp: nghiên cứu lý thuyết và nghiên cứu thực nghiệm

Nghiên cứu lý thuyết, nghiên cứu các tài liệu liên quan Ďến XLNNTN, vấn Ďề về

mã hóa, thuật toán kiểm tra chính tả, phương pháp tách từ, phương pháp dịch

tự Ďộng, xây dựng từ Ďiển tra cứu từ vựng, giải pháp xây dựng KNV song ngữ

Nghiên cứu thực nghiệm, xây dựng các bộ công cụ dựa trên giải pháp Ďã Ďược

Ďề xuất Dữ liệu Ďầu vào của bộ công cụ là dữ liệu Ďược dùng trong thực tiễn

4 Cấu trúc của luận án

Nội dung luận án gồm phần mở Ďầu, nội dung chính, phần kết luận và các

Trang 16

Luận án đủ ở file: Luận án full

Ngày đăng: 12/05/2018, 12:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w