1. Trang chủ
  2. » Luận Văn - Báo Cáo

Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)

187 163 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 187
Dung lượng 535,68 KB
File đính kèm Luận án Full.rar (2 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)Sử dụng ngôn ngữ trục trong dịch đa ngữ (Luận án tiến sĩ)

Trang 1

ĐẠI HỌC ĐÀ NẴNG

PHAN THỊ LỆ THUYỀN

SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng 2018

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

PHAN THỊ LỆ THUYỀN

SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ

Chuyên ngành : KHOA HỌC MÁY TÍNH

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là kết quả nghiên cứu của riêng tôi Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tác giả

NCS Phan Thị Lệ Thuyền

Trang 4

LỜI CẢM ƠN

-

Trước tiên, tác giả xin gửi lời cảm ơn đến Ban Đào tạo - Đại học Đà Nẵng, Khoa Công nghệ Thông tin, Phòng Đào tạo Trường Đại học Bách khoa - Đại học

Đà Nẵng đã tạo điều kiện thuật lợi trong thời gian học tập và nghiên cứu

Tác giả muốn tri ân đến các Thầy Cô giáo Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, đặc biệt là thầy Võ Trung Hùng đã tận tình giúp đỡ tác giả từ những bước đi đầu tiên hình thành ý tưởng, cũng như trong suốt quá trình nghiên cứu Thầy luôn ủng hộ, động viên và tạo điều kiện tốt nhất để tác giả hoàn thành luận án Tác giả nhận thấy sự trưởng thành sau những năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy

Tác giả chân thành cảm ơn các chuyên gia, các nhà ngôn ngữ học (PGS.TS Nguyễn Ngọc Chinh, TS Nguyễn Quý Thành) đã dành thời gian để hỗ trợ tác giả

nghiên cứu về mặt ngôn ngữ học, kiểm tra, đánh giá các kết quả dịch tự động và so sánh chất lượng dịch các hệ thống Sự giúp đỡ của các nhà ngôn ngữ học đã giúp ích rất nhiều trong suốt quá trình nghiên cứu và hoàn thành báo cáo luận án này

Tác giả xin gửi lời cảm ơn chân thành tới các anh chị NCS của Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, những người thân

và bạn bè luôn bên cạnh động viên, hỗ trợ về mặt tinh thần để tác giả vượt qua khó khăn và hoàn thành tốt luận án

Trang 5

-i-

MỤC LỤC

DANH MỤC HÌNH VẼ iv

DANH MỤC BẢNG vii

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔN NGỮ UNL 7

1.1 Một số khái niệm sử dụng trong luận án 7

1.2 Một số hướng tiếp cận trong dịch tự động 9

1.2.1 Dịch máy dựa trên luật 10

1.2.2 Dịch máy dựa trên ngữ liệu 12

1.2.3 Phương pháp dịch kết hợp 14

1.2.4 Đánh giá 15

1.3 Dịch đa ngữ 16

1.4 Vấn đề dịch tự động cho tiếng Việt 20

1.5 Tổng quan về UNL 22

1.5.1 Giới thiệu 22

1.5.2 Ngôn ngữ UNL 22

1.5.3 Hệ thống UNL 29

1.5.4 Một số kết quả nghiên cứu liên quan 31

1.5.5 Ứng dụng UNL làm ngôn ngữ trục trong hệ thống dịch đa ngữ 33

1.6 Tiểu kết chương 35

Chương 2 ĐỀ XUẤT MÔ HÌNH DỊCH TIẾNG VIỆT - UNL 37

2.1 Đặt vấn đề 37

2.2 Ngữ pháp tiếng Việt 39

2.3 Đề xuất mô hình dịch 41

Trang 6

-ii-

2.3.1 Công cụ EnCoVie 42

2.3.2 Công cụ DeCoVie 45

2.3.3 Từ điển trong UNL 46

2.3.4 Luật ngữ pháp trong UNL 49

2.4 Một số vấn đề cần xử lý cho tiếng Việt 56

2.5 Tiểu kết chương 58

Chương 3 GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT 60

3.1 Giải pháp xây dựng từ điển tiếng Việt - UNL 60

3.2 Giải pháp xây dựng luật ngữ pháp 69

3.2.1 Xây dựng luật mã hóa 69

3.2.2 Xây dựng luật giải mã 83

3.3 Tiểu kết chương 94

Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 96

4.1 Xây dựng công cụ EnCoVie và DeCoVie 96

4.1.1 Xây dựng công cụ EnCoVie 96

4.1.2 Xây dựng công cụ DeCoVie 99

4.2 Thử nghiệm và đánh giá 114

4.2.1 Từ điển tiếng Việt – UNL 114

4.2.2 Dịch đa ngữ qua ngôn ngữ trục UNL 115

4.3 Tiểu kết chương 122

KẾT L ẬN 123

TÀI LIỆ THAM KHẢO 128

PHỤ LỤC 137

Trang 7

-iii-

ANH MỤC CÁC TỪ VIẾT T T

LGW Left Generation Window Cửa sổ tạo ra bên trái

RGW Right Generation Window Cửa sổ tạo ra bên phải

UNL Universal Networking Language Ngôn ngữ mạng dùng chung UNLKB Universal Networking Language Cơ sở tri thức của ngôn ngữ

Trang 8

-iv-

ANH MỤC HÌNH VẼ

Hình Sơ đồ hệ thống dịch trực tiếp [13] 11

Hình Sơ đồ hệ thống dịch chuyển đổi [13] 11

Hình Sơ đồ hệ thống dịch qua ngôn ngữ trung gian [13] 12

Hình Sơ đồ hệ thống dịch dựa trên ví dụ [13] 13

Hình Sơ đồ hệ thống dịch dựa trên thống kê [13] 14

Hình Kết hợp phương pháp dịch dựa trên luật và thống kê [13] 14

Hình Mô hình dịch máy dựa trên luật 15

Hình Dịch trực tiếp giữa các cặp ngôn ngữ trong dịch đa ngữ 16

Hình ịch qua ngôn ngữ trục trong dịch đa ngữ 17

Hình Mô hình đánh giá dịch trực tiếp và dịch qua ngôn ngữ trung gian 17

Hình Biểu diễn câu tiếng Anh sang UNL 28

Hình Biểu diễn biểu thức UNL dưới dạng đồ thị 29

Hình Cơ chế chuyển đổi của hệ thống UNL 29

Hình Hệ thống UNL14 30

Hình Quá trình chuyển đổi dữ liệu trong dự án UNL – EOLSS [15] 33

Hình Hệ thống UNL cho các ngôn ngữ 34

Hình Dịch qua ngôn ngữ trục UNL 34

Hình Mô hình dịch tiếng Việt – UNL 42

Hình Sơ đồ chuyển đổi của công cụ EnCoVie 43

Hình Danh sách các nút trong Node-list 43

Hình Sơ đồ liên kết các Headword 44

Trang 9

-v-

Hình Sơ đồ mã hóa câu tiếng Việt sang UNL 44

Hình Sơ đồ chuyển đổi của công cụ DeCoVie 45

Hình Mối quan hệ nhị phân giữa hai từ vựng 45

Hình Sơ đồ mã hóa biểu thức UNL sang câu tiếng Việt 46

Hình Trạng thái cuối cùng của Node-list 46

Hình Sử dụng UW để tìm HeadWord trong quá trình giải mã 48

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “+” 51

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “-” 52

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “<” 52

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “>” 53

Hình Thay đổi Node-list và cửa sổ phân tích bởi luật “:” 54

Hình Luật chèn phải một nút từ Node vào Node-list 54

Hình Luật chèn trái một nút từ Node vào Node-list 55

Hình Luật xóa nút phải một nút từ Node-list 56

Hình Luật xóa nút trái một nút từ Node-list 56

Hình Mô-đun xử lý câu tiếng Việt đầu vào [9] 58

Hình Luật ngữ pháp chuyển đổi tiếng Việt sang biểu thức UNL 69

Hình Đồ thị biểu diễn biểu thức UNL 83

Hình Mối tương quan giữa hai ngôn ngữ tiếng Việt và UNL 83

Hình Sắp xếp trật tự các từ câu đầu ra tiếng Việt 84

Hình Sắp xếp trật tự các từ câu đầu ra tiếng Việt 84

Hình Đồ thị UNL biểu diễn cho biểu thức có một nút con 84

Hình Đồ thị UNL biểu diễn cho biểu thức có nhiều nút con 86

Trang 10

-vi-

Hình Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 1 88

Hình Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 2 89

Hình Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 3 92

Hình Đồ thị biểu diễn biểu thức UNL 100

Hình Đồ thị biểu diễn biểu thức UNL chứa một hay nhiều nút con 106

Hình Đồ thị biểu diễn biểu thức UNL chứa nút kết hợp 112

Hình Hệ thống dịch đa ngữ dựa vào UNL 118

Hình Biểu đồ chất lượng dịch qua UNL và dịch trực tiếp 120

Trang 11

-vii-

ANH MỤC BẢNG

Bảng Kết quả đánh giá qua tiếng Pháp 19

Bảng Kết quả đánh giá qua tiếng Đức 19

Bảng Tỷ lệ giống/khác giữa 2 bản dịch máy 20

Bảng Các quan hệ được định nghĩa trong UNL [66] 24

Bảng Các thuộc tính được định nghĩa trong UNL [66] 25

Bảng Mô tả hình thức bảng trong biểu thức UNL [66] 27

Bảng Tỷ lệ giống/khác giữa dịch qua UNL và tiếng Anh 38

Bảng Các mô hình câu đơn [ ] 40

Bảng Tập nhãn từ loại trong từ điển cho tiếng Việt [9] 48

Bảng Tập nhãn từ loại con trong từ điển cho tiếng Việt [9] 49

Bảng Số mục từ tiếng Việt – UNL thu được với giải pháp thứ nhất 115

Bảng Một số ví dụ câu không khớp ở máy chủ tiếng Anh 118

Bảng Tỷ lệ thay đổi giữa dịch qua UNL và trực tiếp 119

Trang 12

bị hạn chế bởi ngôn ngữ? Hiện có hai giải pháp chính để giải quyết vấn đề này: thứ nhất là phát triển các hệ thống, các ứng dụng, các nguồn dữ liệu đa ngữ để người sử dụng có thể lựa chọn ngôn ngữ mà họ muốn khi sử dụng; thứ hai là ứng dụng các phần mềm dịch tự động để dịch các giao diện, nội dung từ ngôn ngữ hiện có sang ngôn ngữ mà người sử dụng chọn lựa

Hiện có nhiều hệ thống dịch đa ngữ được xây dựng với nhiều hướng tiếp cận khác nhau và chất lượng bản dịch ngày càng được cải thiện Tuy nhiên, đầu ra bản dịch của các hệ thống này hầu hết chỉ mang tính tham khảo vì chưa thể hiện hết ý nghĩa, văn phong của câu nguồn Hơn nữa trên thế giới hiện đang sử dụng hơn

5 ngôn ngữ có chữ viết, việc phát triển một hệ thống dịch đa ngữ cho từng cặp ngôn ngữ là vô cùng khó khăn và nhất là những ngôn ngữ có số lượng người dùng

ít1 Một trong những hướng tiếp cận mới trong dịch đa ngữ đang được quan tâm là

sử dụng ngôn ngữ trục để dịch, hướng tiếp cận này giảm chi phí xây dựng phần mềm từ (n*(n-1)) xuống còn (2*n) và giải quyết các cặp ngôn ngữ thiếu tài nguyên hoặc không tương đồng cấu trúc ngữ pháp [13]

Văn phạm câu nguồn trong phương pháp dịch qua ngôn ngữ trục được phân tích và biểu diễn qua một ngôn ngữ khác gọi là ngôn ngữ trung gian và sau đó sử

1

https://en.wikipedia.org/ (2015)

Trang 13

2

dụng văn phạm của ngôn ngữ đích để dịch từ ngôn ngữ trung gian này Ưu điểm của phương pháp này là chỉ cần phân tích ngôn ngữ nguồn để chuyển sang ngôn ngữ trung gian và ngược lại Ngoài ra, trong hệ thống dịch đa ngữ, chúng ta dễ dàng bổ sung ngôn ngữ mới này vào hệ thống nhưng nhược điểm là làm thế nào tìm ra một ngôn ngữ mà có thể biểu diễn tất cả thông tin mọi ngôn ngữ tự nhiên và không nhập nhằng về ngữ nghĩa

Trong những năm gần đây, nhiều ngôn ngữ tự nhiên có kho ngữ liệu song

ngữ lớn (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…) được lựa chọn làm ngôn

ngữ trung gian trong dịch tự động hoặc xây dựng kho ngữ liệu song ngữ [6][55] Tuy nhiên với phương pháp dịch hai lần thông qua ngôn ngữ thứ ba, chất lượng bản dịch không cao vì không khử được tính nhập nhằng của từ loại trong ngôn ngữ tự nhiên [6] Đến nay, hướng tiếp cận này thường sử dụng cho các cặp ngôn ngữ không tương đồng về cấu trúc ngữ pháp hoặc khan hiếm nguồn tài nguyên dữ liệu

Hiện nay có một ngôn ngữ được xây dựng cho dịch máy dựa vào phương pháp trung gian gọi là UNL, ngôn ngữ này cho phép người sử dụng có thể biểu diễn tất cả các tri thức của mọi ngôn ngữ tự nhiên trên máy tính mà không bị nhập nhằng

về ngữ nghĩa UNL bao gồm các thành phần như một ngôn ngữ tự nhiên: từ vựng

(UW), quan hệ (relation), thuộc tính (attributes) và cơ sở tri thức ngôn ngữ (UNLKB) Trong UNL, liên kết giữa các từ vựng dựa trên quan hệ ngữ nghĩa và gắn

các thuộc tính để miêu tả khía cạnh của người nói

Mục đích ra đời của UNL là cung cấp cho người sử dụng Internet khả năng truy cập vào các trang web bằng ngôn ngữ của họ Hệ thống dịch tự động đa ngữ bao gồm nhiều máy chủ ngôn ngữ khác nhau được dịch thông qua ngôn ngữ trục là UNL Mỗi máy chủ ngôn ngữ sẽ đảm nhận hai chức năng, đó là dịch một văn bản từ ngôn ngữ nguồn sang ngôn ngữ UNL gọi là quá trình mã hóa và dịch ngược lại sang ngôn ngữ đích gọi là quá trình giải mã Đến nay, nhiều ngôn ngữ trên thế giới đã tích hợp vào nền tảng UNL tạo thành một hệ thống dịch đa ngữ như: tiếng Nga, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Vấn đề đặt ra là làm thế

Trang 14

3

nào để tích hợp máy chủ tiếng Việt vào nền tảng UNL trong khi nó chưa được triển khai?

Xuất phát từ nhu cầu thực tiễn trên, tác giả đã chọn “Sử ụng ngôn ngữ rục

r ng ịch a ngữ” làm đề tài nghiên cứu của luận án tiến sỹ kỹ thuật nhằm đóng

góp cho sự phát triển dịch tự động Đặc biệt, kết quả nghiên cứu của luận án mở ra một hướng nghiên cứu mới cho dịch tự động giữa tiếng Việt với các ngôn ngữ khác

và là cơ hội phát triển một hệ thống dịch tự động đa ngữ đối với các ngôn ngữ ở Việt Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,…

2 Mục iêu nghiên cứu

Mục tiêu chung của luận án là nghiên cứu và thử nghiệm hệ thống dịch tự động đa ngữ có thể áp dụng cho tiếng Việt và các ngôn ngữ của các dân tộc ít người

ở Việt Nam

Mục tiêu cụ thể của luận án gồm:

- Đề xuất hướng tiếp cận mới trong dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục

- Xây dựng và thử nghiệm hệ thống dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục UNL và hệ thống UNL sẵn có

- Đề xuất hướng mở rộng hệ thống dịch tự động đa ngữ hiện có cho các ngôn ngữ của các dân tộc ít người tại Việt Nam

3 Đối ượng và phạm vi nghiên cứu

ựa trên mục tiêu, đối tượng nghiên cứu của luận án gồm:

- Các hướng tiếp cận trong dịch tự động;

- Các vấn đề dịch tự động cho tiếng Việt;

- Ứng dụng UNL trong dịch tự động

Phạm vi nghiên cứu trong luận án gồm:

- Hướng tiếp cận dựa trên ngôn ngữ trục UNL trong dịch tự động;

- Cấu trúc ngữ pháp câu tiếng Việt và biểu thức UNL;

Trang 15

4

- Hệ thống dịch đa ngữ cho tiếng Việt và UNL;

- Giải pháp dịch tự động giữa tiếng Việt và UNL

4 Nội ung nghiên cứu

Để đạt được mục tiêu đề ra, nội dung nghiên cứu của luận án gồm:

- Nghiên cứu một số phương pháp dịch tự động;

- Nghiên cứu ứng dụng UNL trong dịch tự động;

- Nghiên cứu các hướng tiếp cận trong dịch tự động cho tiếng Việt;

- Đề xuất giải pháp dịch đa ngữ cho tiếng Việt dựa vào UNL;

- Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL

5 Phương pháp nghiên cứu

Các phương pháp nghiên cứu trong luận án được sử dụng gồm:

- Phương pháp lý thuyết: Phân tích các tài liệu sẵn có từ các nguồn tài liệu liên quan đến đề tài Nghiên cứu tài liệu về các hướng tiếp cận trong dịch tự động, các hệ thống dịch đa ngữ, các giải pháp dịch thông qua ngôn ngữ trung gian, nghiên cứu về UNL và các công cụ ứng dụng Trên cơ sở nghiên cứu, tác giả hệ thống hóa thành cơ sở lý luận để nghiên cứu và đề xuất hướng giải quyết của luận án

- Phương pháp thực nghiệm: Nghiên cứu đánh giá thực nghiệm từng mô hình ứng dụng UNL cho tiếng Việt, từ đó so sánh, đánh giá với mô hình, phương pháp được đề xuất

- Phương pháp chuyên gia: Lấy ý kiến các chuyên gia về kết quả của các

bản dịch và ý kiến của người sử dụng

6 Đóng góp chính của luận án

Đóng góp chính của luận án bao gồm:

1) Đề xuất được giải pháp để tích hợp tiếng Việt vào hệ thống UNL Hệ thống UNL đã được nghiên cứu và phát triển trên năm (từ 1996) và đã hỗ trợ

dịch tự động cho hơn 4 ngôn ngữ Tuy nhiên, việc nghiên cứu để tích hợp tiếng

Trang 16

Luận án đủ ở file: Luận án full

Ngày đăng: 11/05/2018, 23:06

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm