XÂY DỰNG KHO DỮ LIỆU SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU

Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và có thể sử dụng như Google, AltaVista, … Nhiều hệ thống đã được đưa vàothương mại hoá như Systran, Reverso, B

Trang 1

ĐẠI HỌC ĐÀ NẴNG

ĐỖ GIA TRINH

XÂY DỰNG KHO DỮ LIỆU

SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2013

Trang 2

ĐẠI HỌC ĐÀ NẴNG

ĐỖ GIA TRINH

XÂY DỰNG KHO DỮ LIỆU

SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS Phan Huy Khánh

Đà Nẵng - Năm 2013

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Phan Huy Khánh.

Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.

Tác giả

Đỗ Gia Trinh

Trang 5

MỤC LỤC

TRANG PHỤ BÌA i

LỜI CAM ĐOAN i

MỤC LỤC ii

DANH MỤC CÁC TỪ VIẾT TẮT v

DANH MỤC CÁC CÁC BẢNG vii

DANH MỤC CÁC HÌNH xi

MỞ ĐẦU 1

CHƯƠNG 1 5

NGHIÊN CỨU TỔNG QUAN 5

1.1 DỊCH TỰ ĐỘNG 5

1.1.4.1 Babel Fish 13

1.1.4.2 Systran 13

14

1.1.4.3 Reverso 14

14

1.1.4.4 Google Translate 15

15

1.2 MÔI TRƯỜNG HỢP TÁC 15

1.2.4.1 Portlet API (JSR 168) 19

1.2.4.2 Web Services for Remote Portlet (WSRP) 19

1.2.5.1 Văn phòng điện tử (WebOffice) 20

WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển 20

20

1.2.5.2 Hệ thống Wiki 20

21

1.2.5.3 Hệ thống Windows Live Groups 21

Trang 6

1.3 KHO NGỮ LIỆU SONG NGỮ 23

1.3.2.1 Ứng dụng trong ngôn ngữ học – thống kê 24

1.3.2.2 Ứng dụng trong ngôn ngữ học so sánh 24

1.3.2.3 Ứng dụng trong giảng dạy ngoại ngữ 25

1.3.2.4 Ứng dụng trong việc nghiên cứu dịch thuật 25

1.3.3.1 British National Corpus (BNC) 25

1.3.3.2 Canadian Hansard Corpus (Anh – Pháp) 26

1.3.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật) 27

1.3.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh 27

1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU 27

1.5 TỔNG KẾT CHƯƠNG 31

CHƯƠNG 2 GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU 31

2.1 GIỚI THIỆU 32

2.2 MÔ HÌNH HỆ THỐNG 32

2.3 XÂY DỰNG KHO NGỮ LIỆU 34

2.3.1.1 Chuẩn ngôn ngữ 34

2.3.1.2 Các kho ngữ liệu tiếng Anh có sẵn 34

2.3.1.3 Yêu cầu đối với kho ngữ liệu 34

2.3.1.4 Ngữ liệu dạng điện tử 35

2.3.2.1 Chọn nguồn ngữ liệu thô 35

2.3.2.2 Chuẩn hoá ngữ liệu 36

2.3.3.1 Xử lý đầu vào 37

2.3.3.2 Tách đoạn 37

2.3.3.3 Tách câu 37

2.3.3.4 Lưu trữ kho ngữ liệu bằng XML 37

2.3.4.1 Nguồn Từ điển 38

2.3.4.2 Nguồn Báo điện tử 40

2.3.4.3 Nguồn từ các kho ngữ liệu được xây dựng sẵn 42

Trang 7

2.3.5.1 Công cụ cập nhật tài liệu bằng RTF của Microsoft Word 44

2.3.5.2 Kỹ thuật cập nhật sử dụng các macro 45

2.3.5.3 Kỹ thuật trích lọc dữ liệu file html 47

2.3.7.1 Giới thiệu 48

2.3.7.2 Cấu trúc lưu trữ kho ngữ liệu đa ngữ 49

2.3.7.3 Phương pháp đa ngữ hoá kho ngữ liệu 52

2.4 HIỆU CHỈNH KHO NGỮ LIỆU 53

2.4.1.1 Phương pháp tự động 54

2.4.1.2 Phương pháp chuyên gia 55

2.4.2.2 Phân tích đối tượng người dùng 56

2.4.2.3 Các chức năng chính của môi trường hợp tác 57

2.4.2.4 Mô hình triển khai môi trường hợp tác 58

CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 60

4.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 60

4.2.1.1 Trích từ Từ điển Lạc Việt 62

4.2.1.2 Trích từ báo VOV ONLINE 66

4.2.1.3 Trích từ các kho ngữ liệu có sẵn 73

4.2.1.4 Một số nguồn ngữ liệu khác 74

4.3.1.1 Mô hình kiến trúc môi trường hợp tác 79

4.3.1.2 Tổ chức lưu trữ dữ liệu 81

4.3.2.1 Trang chính của hệ thống 82

4.3.2.2 Trang dịch câu 83

4.3.2.3 Một số trang ứng dụng kho ngữ liệu 85

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 90

TÀI LIỆU THAM KHẢO 92

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮTTIẾNG VIỆT

TIẾNG ANH

BNC British National Corpus

BTEC Basic Travel Expression Corpus

DTD Document Type Definition

EVC English Vietnamese Corpus

HTML HyperText Markup Language

HTTP HyperText Transfer Protocol

J2EE Java 2 Enterprise Edition

JENAAD Japanese - English News Article Alignment Data

NITF News Industry Text Format

OASIS Organization for the Advancement of Structured

Information StandardsOCR Optical Character Recognization

PDF Portable Document Format

RDF Resource Description Format

RSS Realy Simple Syndication

SGML Standard Generalized Markup Language

SQL Structured Query Language

URL Uniform Resource Locator

VBA Visual Basic for Application

Trang 9

W3C World Wide Web ConsortiumWSRP Web Services for Remote PortletXML eXtensible Markup Language

Trang 10

DANH MỤC CÁC CÁC BẢNG

1.1 DỊCH TỰ ĐỘNG 5

1.1.1 Khái niệm 5

1.1.2 Lịch sử phát triển 7

1.1.3 Cấu trúc của một chương trình dịch tự động 8

1.1.4 Một số hệ thống dịch tự động 13

1.1.4.1 Babel Fish 13

1.1.4.2 Systran 13

14

1.1.4.3 Reverso 14

14

1.1.4.4 Google Translate 15

15

1.2 MÔI TRƯỜNG HỢP TÁC 15

1.2.1 Khái niệm 15

1.2.2 Các công cụ dùng để giao tiếp và hợp tác 17

1.2.3 Các tính năng cơ bản của môi trường hợp tác 17

1.2.4 Các công nghệ hỗ trợ môi trường hợp tác 19

1.2.4.1 Portlet API (JSR 168) 19

1.2.4.2 Web Services for Remote Portlet (WSRP) 19

1.2.5 Một số môi trường hợp tác trên mạng 20

1.2.5.1 Văn phòng điện tử (WebOffice) 20

WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển 20

20

1.2.5.2 Hệ thống Wiki 20

21

1.2.5.3 Hệ thống Windows Live Groups 21

22

Trang 11

1.3 KHO NGỮ LIỆU SONG NGỮ 23

1.3.1 Một số khái niệm 23

1.3.2 Ứng dụng của kho ngữ liệu song ngữ 24

1.3.2.1 Ứng dụng trong ngôn ngữ học – thống kê 24

1.3.2.2 Ứng dụng trong ngôn ngữ học so sánh 24

1.3.2.3 Ứng dụng trong giảng dạy ngoại ngữ 25

1.3.2.4 Ứng dụng trong việc nghiên cứu dịch thuật 25

1.3.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới 25

1.3.3.1 British National Corpus (BNC) 25

1.3.3.2 Canadian Hansard Corpus (Anh – Pháp) 26

1.3.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật) 27

1.3.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh 27

1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU 27

1.4.1 Tổng quan về XML 28

1.4.2 Thuật ngữ 28

1.4.3 Cấu trúc của một tập tin XML 28

1.4.4 Những thành phần của một tài liệu XML 29

2.1 GIỚI THIỆU 32

2.2 MÔ HÌNH HỆ THỐNG 32

2.3.1 Các tiêu chí chọn mẫu ngữ liệu 34

2.3.1.1 Chuẩn ngôn ngữ 34

2.3.1.2 Các kho ngữ liệu tiếng Anh có sẵn 34

2.3.1.3 Yêu cầu đối với kho ngữ liệu 34

2.3.1.4 Ngữ liệu dạng điện tử 35

2.3.2 Chọn nguồn ngữ liệu và chuẩn hóa 35

2.3.2.1 Chọn nguồn ngữ liệu thô 35

2.3.2.2 Chuẩn hoá ngữ liệu 36

Trang 12

2.3.3 Ứng dụng xử lý ngôn ngữ tự nhiên 36

2.3.3.1 Xử lý đầu vào 37

2.3.3.2 Tách đoạn 37

2.3.3.3 Tách câu 37

2.3.3.4 Lưu trữ kho ngữ liệu bằng XML 37

2.3.4 Các nguồn ngữ liệu thu thập 38

2.3.4.1 Nguồn Từ điển 38

2.3.4.2 Nguồn Báo điện tử 40

2.3.4.3 Nguồn từ các kho ngữ liệu được xây dựng sẵn 42

2.3.5 Các kỹ thuật xử lý ngữ liệu 44

2.3.5.1 Công cụ cập nhật tài liệu bằng RTF của Microsoft Word 44

2.3.5.2 Kỹ thuật cập nhật sử dụng các macro 45

2.3.5.3 Kỹ thuật trích lọc dữ liệu file html 47

2.3.6 Tích hợp các nguồn ngữ liệu 48

2.3.7 Đa ngữ hoá kho ngữ liệu 48

2.3.7.2 Cấu trúc lưu trữ kho ngữ liệu đa ngữ 49

2.3.7.3 Phương pháp đa ngữ hoá kho ngữ liệu 52

2.4.1 Các phương pháp hiệu chỉnh dữ liệu 54

2.4.1.1 Phương pháp tự động 54

2.4.1.2 Phương pháp chuyên gia 55

2.4.2 Hiệu chỉnh bằng môi trường hợp tác 56

2.4.2.2 Phân tích đối tượng người dùng 56

2.4.2.3 Các chức năng chính của môi trường hợp tác 57

2.4.2.4 Mô hình triển khai môi trường hợp tác 58

4.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 60

Trang 13

4.1.1 Ngôn ngữ lập trình 60

4.1.2 Cơ sở dữ liệu 61

4.2.1 Thu thập và xử lý các nguồn dữ liệu 62

4.2.1.1 Trích từ Từ điển Lạc Việt 62

4.2.1.2 Trích từ báo VOV ONLINE 66

4.2.1.3 Trích từ các kho ngữ liệu có sẵn 73

4.2.1.4 Một số nguồn ngữ liệu khác 74

4.2.2 Xử lý trùng lặp các câu trong kho ngữ liệu 74

4.2.3 Nội dung chương trình hỗ trợ dịch 74

4.2.4 Giao diện chương trình hỗ trợ dịch 75

4.2.5 Thử nghiệm và đánh giá kết quả của hệ thống dịch 77

4.3.1 Xây dựng hệ thống 78

4.3.1.1 Mô hình kiến trúc môi trường hợp tác 79

4.3.1.2 Tổ chức lưu trữ dữ liệu 81

4.3.2 Xây dựng giao diện hệ thống 82

4.3.2.1 Trang chính của hệ thống 82

4.3.2.2 Trang dịch câu 83

4.3.2.3 Một số trang ứng dụng kho ngữ liệu 85

87

4.3.3 Thử nghiệm và đánh giá chương trình 87

Trang 14

DANH MỤC CÁC HÌNH

Hình 1.1 Quá trình xử lý của một chương trình dịch tự động 10

Hình 1.1 Giao diện hệ thống dịch Babel Fish 13

Hình 2.1 Giao diện hệ thống dịch Systran 14

Hình 3.1 Giao diện hệ thống dịch Reverso 14

Hình 4.1 Giao diện màn hình dịch với Google translate 15

Hình 1.1 Giao diện trang WebOffice 20

Hình 2.1 Giao diện trang Wikipedia 21

Hình 3.1 Giao diện trang Windows Live 22

Hình 1.1 Mô hình tổng thể hệ thống 33

Hình 1.1 Giao diện của Từ điển Lạc Việt 40

Hình 2.1 Ví dụ về trang Web ngôn ngữ chính 42

Hình 2.2 Ví dụ về trang Web có phiên bản ngôn ngữ khác 42

Hình 2.1 Sơ đồ chuyển đổi từ tập tin * Doc sang tập tin * XML 46

Hình 2.2 Mẫu tập tin *.Doc 46

Trang 15

Hình 2.3 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên nhiều tập tin 46

Hình 2.1 Các giải pháp tổ chức CSDL 50

Hình 2.2 Ví dụ dữ liệu lưu trên 1 tập tin 51

Hình 2.3 Ví dụ dữ liệu lưu trên 3 tập tin 52

Hình 3.1 Sơ đồ đa ngữ hóa kho ngữ liệu 53

Hình 4.1 Mô hình triển khai hệ thống 59

Hình 1.1 Sơ đồ quá trình trích từ Từ điển Lạc Việt 63

Hình 1.2 Mục từ có các câu ví dụ Anh – Việt 63

Hình 1.3 Tập tin tiếng Anh.Doc trích từ Từ điển Lạc Việt 64

Hình 1.4 Thủ tục chuyển tập tin *.Doc sang định dạng XML và tạo chỉ mục 66

Hình 1.5 Kết quả sau khi chuyển đổi định dạng tập tin và tạo chỉ mục 66

Hình 2.1 Hệ thống bóc tách nội dung của VietSpider 67

Hình 2.2 Sơ đồ quá trình xử lý trích từ trang Web 68

Hình 2.3 Trang Web tiếng Anh trước khi tách lấy nội dung 68

Hình 2.4 Ví dụ tạo luồng trang VOV online 69

Hình 2.5 Trang Web tiếng Anh khi thực hiện tách lấy nội dung 69

Hình 2.6 Dữ liệu sau khi bóc tách 70

Hình 2.7 Sơ đồ quá trình xử lý trích từ trang Web sử dụng MorphAdorner 71

Hình 2.8 Tách câu trực tuyến của MorphAdorner 72

Hình 2.9 Kết quả tách câu tiếng Anh bằng công cụ trực tuyến MorphAdorner 72

Hình 3.1 Sơ đồ xử lý Corpus có sẵn 73

Hình 1.1 Giao diện dịch kho ngữ liệu 76

Hình 1.2 Giao diện dịch thành công 76

Hình 1.1 Mô hình kiến trúc môi trường hiệu chỉnh kho ngữ liệu 80

Hình 2.1 Cấu trúc quy ước lưu dữ liệu 81

Hình 2.2 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp 82

Hình 1.1 Giao diện chính của hệ thống 83

Hình 2.1 Giao diện tìm kiếm, dịch câu, xem bản sửa 83

Hình 2.2 Giao diện hiệu chỉnh câu dịch 84

Trang 16

Hình 2.3 Giao diện câu đóng góp bị trùng 85

85

Hình 2.4 Giao diện thay đổi câu dịch dành cho chuyên gia 85

Hình 3.1 Giao diện Game điền khuyết 86

86

Hình 3.2 Giao diện Game sắp xếp thứ tự đúng của từ 86

Hình 3.3 Giao diện Game dịch Anh – Việt 87

Trang 17

MỞ ĐẦU

1 Lý do chọn đề tài

Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thànhtựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hoá, xã hội, … Cùng với sựphát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thôngtin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet Tuy nhiên, lượngthông tin này vẫn chưa được khai thác hết bởi rất nhiều lý do, một trong những lý

do quan trọng nhất dẫn đến việc hạn chế khai thác thông tin trên, đó là rào cản vềngôn ngữ [3] Giải pháp nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thốngdịch tự động

Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả

và có thể sử dụng như Google, AltaVista, … Nhiều hệ thống đã được đưa vàothương mại hoá như Systran, Reverso, Babylon, … Những hệ thống này cho phép

tạo ra “bản dịch nghĩa” – một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta

có thể hiểu được ý nghĩa của văn bản gốc và cần phải chỉnh sửa nhiều để đạt đếnmột văn bản hoàn chỉnh Các hệ thống dịch tự động cho phép dịch rất nhanh và chiphí thấp hơn nhiều so với dịch bằng con người Tuy nhiên, những hệ thống nàyđang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng vềngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt vềgiải thích các khái niệm

Cùng với đó, nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên ngày càng tăng

và được ứng dụng trong nhiều lĩnh vực Đa số các hệ thống xử lý ngôn ngữ tự nhiênđều sử dụng các phương pháp liên quan đến học máy, kỹ thuật thống kê nên rất cầncác tài liệu song ngữ hoặc đa ngữ Vì vậy các kho ngữ liệu là một trong những cơ sởquan trọng để phát triển các hệ thống xử lý ngôn ngữ tự nhiên

Hiện nay trên thế giới có nhiều kho ngữ liệu song ngữ như Anh – Pháp, Anh –Hoa, … nhưng các kho ngữ liệu lớn để phục vụ cho các hệ thống xử lý ngôn ngữ tựnhiên vẫn còn thiếu Ví dụ như đối với tiếng Việt, hiện nay chưa có nhiều kho ngữliệu và đặc biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát triển các hệ thống xử lý

Trang 18

ngôn ngữ tự nhiên Bên cạnh đó, một số kho ngữ liệu để phục vụ xử lý tiếng Việtchưa được chia sẽ rộng rãi Chi phí để phát triển một kho ngữ liệu là rất tốn kém Vì

vậy tôi quyết định chọn đề tài “Mở rộng các kho ngữ liệu đa ngữ dựa vào các phần mềm dịch tự động và môi trường hợp tác” làm đề tài tốt nghiệp luận văn cao

học Trong đề tài này, chúng tôi đề xuất giải pháp kết hợp các phần mềm dịch tựđộng và môi trường hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu.Xây dựng công cụ sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một

số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu song ngữ hoặc

đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có Ngoài ra, sau khi dịch tự động

sẽ đưa kết quả nhận được cho người sử dụng góp ý, hiệu chỉnh nhằm tăng độ tin cậy

và tính kiểm chứng của kết quả Giải pháp sử dụng lại các hệ thống dịch tự động vàmôi trường hợp tác để mở rộng kho ngữ liệu sẵn có sang các ngôn ngữ khác là một trongnhững giáp pháp khả thi và hiệu quả

2 Mục đích nghiên cứu

Mục đích nghiên cứu của để tài là xây dựng môi trường trong đó sử dụng lạicác hệ thống dịch tự động sẵn có để mở rộng các kho ngữ liệu sang một ngôn ngữmới, đặc biệt là cho tiếng Việt Ngoài ra, ứng dụng môi trường này để mở rộng mộtkho ngữ liệu đa ngữ Anh – Pháp – Việt gồm các câu song song

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu của đề tài là các kho ngữ liệu (Linguistics Corpus) Các

hệ thống dịch hiện nay trên Internet như Systran, Google, Reverso,… Các công cụphát triển như TRADOH, TRAWEB, SANDOH,… Các mô hình triển khai hệ thống

và một số bài báo và luận văn tốt nghiệp khóa trước

3.2 Phạm vi nghiên cứu

Trong khuôn khổ của luận văn này, chúng tôi thực nghiệm tạo một kho ngữliệu đa ngữ Anh – Pháp – Việt tối thiểu 50.000 câu cho mỗi ngôn ngữ

Trang 19

4 Phương pháp nghiên cứu

Chúng tôi sử dụng hai phương pháp chính là phương pháp tài liệu và phươngpháp thực nghiệm

Phương pháp tài liệu: Với phương pháp này, chúng tôi nghiên cứu các tài liệu

về cơ sở lý thuyết: Dịch tự động, môi trường hợp tác, kho dữ liệu, kho ngữ liệu; cáctài liệu mô tả một số công cụ dịch tự động và các tài liệu liên quan đến một sốnghiên cứu khác

Phương pháp thực nghiệm: Với phương pháp này, chúng tôi sử dụng các hệ

thống dịch tự động để dịch các kho ngữ liệu sẵn có sang 1 ngôn ngữ khác (Ví dụ:kho ngữ liệu tiếng Anh BTEC sang tiếng Việt); đồng thời thực nghiệm dịch và kiểmtra một số kho ngữ liệu sẵn có sang tiếng Việt Bên cạnh đó, chúng tôi xây dựngmột môi trường hợp tác để kiểm tra tính đúng đắn của kho ngữ liệu

5 Ý nghĩa khoa học và thực tiễn của đề tài

Về khoa học: Kết quả nghiên cứu của đề tài góp phần thúc đẩy việc ứng dụng

các phần mềm dịch tự động trực tuyến để phục vụ việc phát triển các kho ngữ liệu

đa ngữ phục vụ xử lý ngôn ngữ tự nhiên

Về thực tiễn: Đề tài sẽ góp phần xây dựng một kho ngữ liệu đa ngữ gồm 3

ngôn ngữ Anh – Pháp – Việt nhằm tạo ra được một cơ sở dữ liệu phục vụ cho việcdạy và học tiếng ngoại ngữ, dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên,

6 Bố cục luận văn

Báo cáo của luận văn được tổ chức thành 3 chương chính:

Chương 1 Nghiên cứu tổng quan

Trong chương này, chúng tôi trình bày tổng quan về dịch tự động, môi trườnghợp tác, kho ngữ liệu song ngữ/đa ngữ và đa ngữ hoá kho ngữ liệu và các định dạng

để lưu trữ kho ngữ liệu

Chương 2 Đề xuất giải pháp

Chương 2 được dành để trình bày mô hình phát triển và các giải pháp xâydựng kho ngữ liệu cụ thể như các nguồn ngữ liệu thu thập được và một số kỹ thuật

xử lý dữ liệu để tạo kho ngữ liệu đầu vào Từ đó trình bày một số giải pháp mở rộng

Trang 20

kho ngữ liệu đa ngữ nhờ vào các hệ thống dịch tự động trực tuyến Giải pháp được

đề xuất như sau: Mở rộng kho ngữ liệu đa ngữ nhờ vào việc sử dụng lại hệ thốngdịch tự động trực tuyến Google translate từ các kho ngữ liệu đơn ngữ sẵn có Sau đónhờ hệ thống này nhận kết quả các bản dịch để xây dựng kho ngữ liệu đa ngữ Vàchúng tôi sẽ trình bày một giải pháp để hiệu chỉnh các kho ngữ liệu sau khi mở rộng

từ các hệ thống dịch trực tuyến đó là xây dựng một môi trường hợp tác để nhờngười sử dụng hiệu chỉnh các câu dịch

Chương 3 Triển khai ứng dụng

Lựa chọn công cụ phát triển, xử lý dữ liệu đầu vào để đưa vào kho Giới thiệucác bước triển khai, xây dựng các modul chương trình, phương pháp tạo kho ngữliệu đa ngữ, tạo môi trường hợp tác để hiệu chỉnh dữ liệu

Trang 21

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

Trong chương này, chúng tôi trình bày các vấn đề liên quan đến dịch tự động,môi trường hợp tác, kho ngữ liệu song ngữ/đa ngữ và một số kỹ thuật liên quan đếnđịnh dạng kho ngữ liệu

1.1 DỊCH TỰ ĐỘNG

1.1.1 Khái niệm

Dịch tự động hay còn gọi là dịch máy (MT: machine translation) là một nhánhcủa xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo? Nó là sự kết hợpgiữa khoa học ngôn ngữ và khoa học máy tính Như tên gọi, dịch tự động thực hiệndịch một văn bản từ ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một ngôn ngữ khác(gọi là ngôn ngữ đích) một cách tự động, có hoặc không có sự can thiệp của con

người trong quá trình dịch

Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhậpnhằng hiệu quả Nói về tính nhập nhằng, đây là khái niệm chỉ tính không rõ ràng

của ngôn ngữ, chẳng hạn khi viết từ “đường kính” thì vẫn chưa rõ là nó chỉ một loại

"chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu" Nhập nhằng như ví dụ vừa rồi là do hiện tượng

đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác như nhập nhằng từloại, nhập nhằng từ đa nghĩa

Khi dịch tự động từ tiếng Việt sang tiếng Anh, khó khăn đầu tiên lại là việcxác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ

đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng TiếngViệt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ

xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụ như từ "miễn bàn" có thể bị dịch thành “free table” Với tiếng Anh do là ngôn ngữ biến hình nên việc xác

định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tự hoàn toàn giốngnhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anh cũng như tiếng

Trang 22

Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩachính xác phải thực hiện phân tích văn cảnh.

Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạothành câu hoàn chỉnh Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu thìcông việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếngAnh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếngTrung thì rất khó khăn [15] Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hếtsức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả củachúng vẫn không được tốt

Thuật ngữ dịch máy hay dịch tự động không chỉ bao gồm máy tính dựa vàocác bộ từ điển và các phương pháp tiếp cận vào cơ sở dữ liệu để có thể đọc đượcvăn bản hoặc tương tác với quá trình xử lý ngôn ngữ, chỉnh sửa văn bản để cho rabản dịch cuối cùng Mà nó còn bao gồm các hệ thống, trong đó người dịch hoặcnhững người sử dụng hỗ trợ máy tính trong quá trình dịch thuật như khâu chuẩn bịvăn bản hay những chỉnh sửa cần thiết trước khi cho ra một bản dịch hoàn chỉnh Trên thực tế, kết quả của hầu hết các hệ thống dịch bằng máy tính đều đượcsửa đổi bởi con người Như vậy trong trường hợp này bản dịch bằng máy tínhkhông khác mấy so với bản dịch do con người dịch Lúc đó các loại lỗi sai được tạo

ra bởi hệ thống dịch tự động thì khác so với các lỗi sai của người dịch Còn trongtrường hợp bản dịch tự động hoàn toàn do máy tính không có sự can thiệp của conngười có thể được hiểu như một “bản dịch nghĩa” - một bản dịch chưa hoàn chỉnhnhưng giúp chúng ta hiểu được văn bản gốc

Tóm lại, dịch tự động bằng máy tính chính nó không phải là lĩnh vực độc lập,

mà liên quan đến nhiều lĩnh vực khác nhau như: ngôn ngữ, khoa học máy tính, trítuệ nhân tạo, thống kê, … Người ta cần kết hợp nhiều lĩnh vực để có thể phát triểnhoàn thiện một hệ thống dịch nào đó Ranh giới giữa hệ thống dịch bằng máy tính

do con người hỗ trợ và hệ thống dịch bằng máy nhằm hỗ trợ cho con người rất gầnnhau và đôi khi có thể hỗ trợ cho cả hai Nhưng cốt lõi của dịch tự động bằng máytính là tự động hoá một phần hoặc toàn bộ quá trình dịch để kết quả lý tưởng cuối

Trang 23

cùng là nhanh chóng tạo ra những bản dịch có chất lượng cao và chi phí thấp hơnnhiều so với dịch bằng con người.

1.1.2 Lịch sử phát triển

Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học Leibniz

và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên hệ giữa

nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết màkhông có một ứng dụng thực tế nào

Sản phẩm đầu tiên cho một "chương trình dịch tự động" được thực hiện vào

khoảng giữa thập niên 1930 [11] Tuy nhiên, những sản phẩm thực sự của dịch tựđộng mới có từ những năm 1950 Vào năm 1954, thực nghiệm Georgetown - IBM(International Business Machines) đã thực hiện thành công thí nghiệm dịch tự độnghoàn toàn hơn 60 câu tiếng Nga sang tiếng Anh Thành công bước đầu này đã tạođiều kiện để lập ra những quỹ đầu tư có giá trị cho các nghiên cứu Các tác giả (tạithời điểm đó) tuyên bố rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽđược giải quyết [13]

Nhưng thực tế diễn ra chậm hơn nhiều theo báo cáo ALPAC vào năm 1966,sau hơn 10 năm các nghiên cứu ở lĩnh vực này vẫn không có những tiến bộ đáng kể

và hệ quả là số tiền chi cho nghiên cứu giảm mạnh Vào cuối thập niên 1980, khimáy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầuquan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn màtrước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế[8]

Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rấtnhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu Hiện nay có một sốcông ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyêncung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google

và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền Một hướngtiếp cận mới là kết hợp các phương pháp với nhau, như những nghiên cứu phối hợpgiữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê

Trang 24

Đối với tiếng Việt, vấn đề dịch tự động đã bắt đầu được nghiên cứu nhữngnăm thập niên 1960 hầu hết đều do các nguyên nhân chính trị và quân sự Các tàiliệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E Scottthành lập công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổchức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt Scott bắt đầu chuẩn bị choviệc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệmáy tính tại New York, Mỹ Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động

có tên Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt,tác giả của hệ thống này là Charles E Byrne, Bernard E Scott, Truong N Binh[9].Nhưng hệ thống này không tồn tại được lâu, việc nghiên cứu của Scott chấm dứtvào năm 1973 Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệthống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên

1970 tại Tập đoàn viễn thông Xyzyx, California Hệ thống này đầu tiên được xâydựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắchoạt động tương tự như của hệ thống Logos Tuy nhiên, hệ dịch máy Anh-Việt được

sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN - 1997 Và sau đó EVTRAN 2.0,

1999 với hơn 200.000 từ và cụm từ Từ năm 2006, bản EVTRAN 3.0 (được gọi làEv-Shuttle) biên dịch văn bản hai chiều Anh-Việt và Việt-Anh (với hơn 500.000mục từ) [24]

1.1.3 Cấu trúc của một chương trình dịch tự động

Việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt

ra từ rất lâu Tuy nhiên thành công của các hệ dịch tự động mới chỉ hạn chế trongviệc dịch tự động các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ phápcũng như từ vựng Ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp,tiếng Anh sang tiếng Nga, ; thậm chí, kết quả khả dĩ chỉ đạt được với các loại vănbản khoa học hoặc pháp luật vốn được viết với văn phạm rất rõ ràng, chính xác vàđơn nghĩa Với những cặp ngôn ngữ có hệ thống ngữ pháp và ngữ nghĩa khác nhaukhá xa, kết quả của các chương trình dịch tự động là rất hạn chế Với các bài toándịch tự động nói chung, chúng ta đều gặp phải 3 vấn đề lớn sau đây:

Trang 25

(1) Số lượng từ vựng của ngôn ngữ là rất nhiều và biến đổi phức tạp (chiangôi, giống, số, cách, ).

(2) Ngữ pháp của ngôn ngữ chưa được khảo sát kỹ, quá nhiều ngoại lệ khi sửdụng (chẳng hạn văn nói - thường sử dụng nói tắt, thiếu các thành phần của câu),một số ngôn ngữ chưa có các nghiên cứu đầy đủ về ngữ pháp (ví dụ như tiếng Việt) (3) Ngữ nghĩa được sử dụng rất phong phú, phải sử dụng ngữ cảnh mới có thểhiểu đúng ý nghĩa của từ

Trong 3 vấn đề trên, vấn đề (1) dễ giải quyết hơn và đã được giải quyết khátrọn vẹn với hầu hết các ngôn ngữ thông dụng trên thế giới; vấn đề (2) đã được giảiquyết một phần lớn trong nhiều ngôn ngữ thông dụng, đặc biệt là với các ngôn ngữ

ở châu Âu, nơi mà việc nghiên cứu về ngôn ngữ rất có hệ thống và có lịch sử đã vàitrăm năm Vấn đề xử lý ngữ nghĩa (3) là vấn đề khó nhất trong dịch tự động, hiệnđang được nghiên cứu rộng rãi và cũng đã đạt được nhiều kết quả hữu ích

Có nhiều chương trình dịch tự động khác nhau và các chương trình dịch nàycũng có cấu trúc chi tiết khác nhau, tuy nhiên về mặt cấu trúc tổng thể, tất cả cácchương trình đều được chia làm 3 khối chính: khối xử lý hình thái, khối xử lý ngữpháp và khối xử lý ngữ nghĩa Sự khác nhau giữa các chương trình nằm ở cách thức

và mức độ xử lý hình thái, ngữ pháp hay ngữ nghĩa khác nhau Một vài chươngtrình có modul xử lý hình thái đơn giản, việc xử lý tinh tế hơn được giao cho cácmodul phía sau, trong một vài chương trình khác, phần xử lý hình thái có thể có mộtvài thao tác ảnh hưởng cả đến modul xử lý ngữ nghĩa Vấn đề cũng tương tự đối vớicác modul khác như xử lý ngữ pháp và xử lý ngữ nghĩa, lý do có sự khác biệt giữacác cấu trúc nằm ở quan điểm về nhiệm vụ của mỗi modul và ở các thuật toán xử lýngôn ngữ Dù vậy, hầu hết các chương trình đều làm việc một cách đơn giản theo sơ

đồ sau:

Trang 26

Hình 1.1 Quá trình xử lý của một chương trình dịch tự động

Khối xử lý hình thái

Khối xử lý hình thái là khối đầu tiên của chương trình dịch tự động, khối nhận

dữ liệu đầu vào là một câu của ngôn ngữ nguồn và phân tích hình thái của câu đó.Nói chung, một khối phân tích hình thái thường làm các nhiệm vụ sau:

(1) Chia cắt một câu trong ngôn ngữ nguồn thành các từ độc lập

Câu nguồn: I will give him a very difficult exam

(Đại từ)

(Danh từ)

(Trợ động từ)(Ngoại động từ)(Danh từ)

Đại từ Trợ động từ Động từ Tân từ Mạo từ Phó từ Tính từ Danh từ

Câu đích: Tôi sẽ cho anh ta một bài thi rất khó

Trang 27

(2) Tìm tất cả các hình thái và thông tin bổ sung của các từ trong câu để phục

vụ quá trình xử lý về sau

Thông thường, nhất là đối với các ngôn ngữ ở châu Âu, nhiệm vụ (1) của khối

xử lý hình thái là không khó vì hầu hết tất cả các từ đều nằm nguyên thành một chữ,không cần chia cắt – ngoại trừ một số trường hợp đặc biệt như viết tắt (có thể xử lýngoại lệ) Với một số ngôn ngữ (như với tiếng Việt, tiếng Nhật,…) vấn đề trở nênrất khó nếu các từ trong ngôn ngữ được chia thành nhiều cụm có thể hiểu nhậpnhằng, ví dụ, xét câu sau:

“Ông già đi nhanh quá”

Chúng ta có ít nhất 2 cách phân cách từ:

Cách 1: “Ông già” | “đi” | “nhanh” | “quá”

Cách 2: “Ông” | “già đi” | “nhanh” | “quá”

Trong trường hợp trên không có cách nào đánh giá cách phân cách từ nào tốthơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần xử lý ngữnghĩa sẽ tiến hành đánh giá xem trường hợp nào là hợp lý hơn và chọn lựa

Nhiệm vụ (2) của khối xử lý hình thái dễ dàng hơn, với đa số ngôn ngữ việctìm tất cả các hình thái và thông tin liên quan đến từ/cụm từ chỉ là vấn đề xử lý từ tố

và tra từ điển

Theo ý kiến của nhiều tác giả [7], khối xử lý hình thái còn có một nhiệm vụkhác, đó là nhiệm vụ cắt câu, hay nói cách khác là xác định xem nội dung của mộtcâu trong ngôn ngữ nguồn bắt đầu và kết thúc từ đâu Trong thực tế không thể giảiquyết trọn vẹn bài toán ngắt câu cho ngôn ngữ tự nhiên, nhưng may mắn là cáctrường hợp không ngắt câu được không ảnh hưởng nhiều đến kết quả cuối cùng[11] Một vài bộ dịch tự động thậm chí không quan tâm đến việc ngắt câu – xuấtphát từ quan điểm chỉ cần thông dịch tốt các cấu trúc ngôn ngữ nhỏ (ngữ danh từ,ngữ động từ, cụm từ,…)

Khối xử lý ngữ pháp

Khối xử lý ngữ pháp xây dựng cây phân tích ngữ pháp cho câu đầu vào dựa

Trang 28

trên văn phạm của ngôn ngữ nguồn Khối này nhận danh sách các hình thái từ đãđược sinh ra bởi khối xử lý hình thái, tiếp đến, khối này sẽ tiến hành phân tích vănphạm của câu dựa trên văn phạm của ngôn ngữ nguồn và thông tin bổ sung –thường là các văn phạm bổ sung cho phép sinh cây phân tích chính xác hơn Nóichung, có thể áp dụng các phương pháp phân tích cú pháp của các ngôn ngữ nhântạo cho ngôn ngữ tự nhiên [6] Tuy nhiên, vấn đề không suôn sẻ như các ngôn ngữnhân tạo, có những vấn đề chính sau đây thường gặp phải khi chúng ta sử dụng các

bộ phân tích văn phạm thông thường:

(1) Văn phạm của các ngôn ngữ tự nhiên thường rất phức tạp

(2) Trong ngôn ngữ nói, người sử dụng thường nói tắt, thậm chí nói sai ngữpháp – không thể phân tích ngữ pháp được

(3) Xuất phát hiện tượng có nhiều cây phân tích ứng với một câu – dẫn đếnnhiều khả năng dịch khác nhau cho một câu

Vấn đề ngữ pháp dù rất phức tạp nhưng nhiều bộ phân tích cú pháp cho cácngôn ngữ tự nhiên đã được xây dựng và chúng hoạt động rất tốt, như vậy đây khôngphải là vấn đề không thể vượt qua khi xây dựng các bộ dịch tự động các ngôn ngữ

tự nhiên [6]

Khối xử lý ngữ nghĩa

Xử lý ngữ nghĩa là khối cuối cùng trong dịch tự động Khối nhận đầu vào làcây phân tích từ khối xử lý ngữ pháp và thực hiện sinh câu ở ngôn ngữ đích Việcthực hiện để sinh câu được thực hiện dựa trên 4 nguồn thông tin chính: Cây phântích ngữ pháp (lấy từ khối xử lý ngữ pháp), nghĩa của các từ tố trong câu văn nguồn(lấy từ dãy hình thái từ tố của khối xử lý hình thái), cú pháp điều khiển (là thông tin

bổ sung của văn phạm, được sinh bởi khối xử lý hình thái) và thông tin ngữ cảnh(được tổng hợp từ việc xử lý ngữ nghĩa các câu trước và nhận vào từ người sử dụngchương trình) Nhiệm vụ chính của khối xử lý ngữ nghĩa là:

(1) Thực hiện việc đánh giá các cây phân tích cú pháp (nếu khối xử lý ngữpháp phân tích được nhiều cây phân tích) và lựa chọn cây tốt nhất

Trang 29

(2) Thực hiện việc chọn nghĩa thích hợp nhất cho các từ tố của ngôn ngữnguồn trong ngôn ngữ đích.

(3) Sinh câu trong ngôn ngữ đích đúng với văn phạm của ngôn ngữ đó (vấn đề

xử lý thứ tự các từ)

Đôi khi nhiệm vụ (1) được xem là của khối xử lý ngữ pháp, nhưng trongphương pháp xử lý ngữ nghĩa bằng cú pháp điều khiển ta xem nhiệm vụ (1) là củakhối xử lý ngữ nghĩa vì việc này được thực hiện bằng cú pháp điều khiển

1.1.4 Một số hệ thống dịch tự động

1.1.4.1 Babel Fish

Một trong các tiện ích dịch tự động đầu tiên trên ứng dụng Web, được công cụtìm kiếm Alta Vista phát triển và đưa lên mạng vào năm 1997, sau đó Yahoo mộtcông cụ tìm kiếm khác mua lại vào năm 2004 Hỗ trợ 38 cặp ngôn ngữ, trong đótiếng Anh, tiếng Pháp và tiếng Trung Quốc được hỗ trợ nhiều nhất; tiếp đến là tiếngĐức, Tây Ban Nha, Ý, Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy Lạp và Hà Lan vàđặt tại địa chỉ http://babelfish.yahoo.com/

Hình 1.1 Giao diện hệ thống dịch Babel Fish 1.1.4.2 Systran

Hiện tại, Systran là một hệ thống dịch tự động rất nổi tiếng và chất lượng dịchkhá tốt Systran có thể sử dụng được trên môi trường Internet, máy tính đơn hoặc

Trang 30

trên các hệ thống mạng cục bộ Phiên bản dùng trên Internet có thể dịch cho 52 cặpngôn ngữ và đặt tại địa chỉ http://www.systranet.com/

Hình 2.1 Giao diện hệ thống dịch Systran

Bên cạnh đó, Systran 7.0 là một phần mềm cực mạnh với hệ thống nhận dạngvăn bản thông minh có thể dịch chính xác tài liệu mà người dùng cần Có thể thamkhảo tại địa chỉ http://www.systransoft.com

1.1.4.3 Reverso

Hình 3.1 Giao diện hệ thống dịch Reverso

Trang 31

Đây là hệ thống dịch của Softissimo để dịch các văn bản hoặc trang Web dướidạng HTML Hệ thống này có thể thực hiện được trên Internet hoặc như một ứngdụng độc lập trên máy tính đơn Địa chỉ của hệ thống dịch trên Internet là:

http://www.reverso.net/text_translation.aspx

1.1.4.4 Google Translate

Dịch vụ này hỗ trợ 65 ngôn ngữ trong đó có tiếng Việt, hiện là dịch vụ trựctuyến duy nhất hỗ trợ khả năng dịch toàn trang Web cho tiếng Việt, không giốngYahoo do sử dụng kiểu dịch trung gian nên cặp ngôn ngữ có khả năng dịch qua lạivới nhau lên tới con số 2080 (65 * 64/2), tuy nhiên nhiều cặp chất lượng dịch cònthấp [2], [10], [15] Thực tế, đó là kiểu dịch tự động 2 lần qua một ngôn ngữ trunggian nào đó (thường là tiếng Anh), với tính năng này có thể dịch một câu tiếng Việtsang 64 ngôn ngữ còn lại Có tính năng tương tác với người nhằm tăng chất lượngdịch cho các lần sau nhưng không hỗ trợ dịch chuyên ngành

Hình 4.1 Giao diện màn hình dịch với Google translate

1.2 MÔI TRƯỜNG HỢP TÁC

1.2.1 Khái niệm

Môi trường hợp tác (collaboration environment) là một môi trường được xâydựng trên công nghệ Web (World Wide Web) và hạ tầng mạng máy tính cho phépcác nhóm đối tượng có thể tham gia trao đổi, tranh luận, để cùng nhau chia sẻ

Trang 32

những kiến thức, kỹ năng và những kinh nghiệm về một lĩnh vực mà họ cùng quantâm.

Đối với một đơn vị cụ thể, môi trường hợp tác giúp cho các thành viên trongcùng một phòng ban và các phòng ban khác cùng nhau tác nghiệp trong một hệthống thống nhất, giúp đỡ nhau hoàn thành tốt công việc được giao, giúp cho cácđơn vị giảm thời gian và tăng năng xuất làm việc

Môi trường hợp tác đã cung cấp cho lĩnh vực giáo dục và công nghệ dạy học,

đã phục vụ nhu cầu truyền thông và hợp tác của giảng viên, nhân viên, nhà nghiêncứu và sinh viên Hơn một chục ngàn người sử dụng môi trường hợp tác một cáchthường xuyên dựa trên E-mail, Web, media, file lưu trữ và các nhiệm vụ tính toánkhác Vào năm 2003 đã có 8.200 người tham gia phát triển gần 19.000 công cụ phụccho nhiều người sử dụng khác nhau, sinh viên xây dựng trên 12.000 danh mục đầu

tư trực tuyến mới và tổng số hoạt động học tập trực tuyến đã tăng đến 18.000.000.Trong bối cảnh hiện nay, việc sử dụng công nghệ thông tin là phổ biến, tuynhiên đa số các nhà biên dịch chuyên nghiệp đang làm việc để đáp ứng các nhu cầuđầu tư và phát triển các hệ thống dịch thuật cho các tài liệu khoa học và kỹ thuật,các giao dịch kinh doanh thương mại, cơ quan hành chính, tài liệu pháp lý, sổ tayhướng dẫn, các văn bản nông nghiệp và y tế, công nghiệp, tờ rơi, các báo cáo, …Các công việc này có nhiều thử thách và khó khăn trong khi cùng một lúc đòi hỏiphải có tính chính xác và nhất quán Do đó để có một bản dịch hoàn chỉnh hơn thìrất cần sự hỗ trợ của nhiều dịch giả về cùng một ngôn ngữ mà họ biết và quan tâmthông qua sự hỗ trợ của môi trường hợp tác Để tiến hành khai thác và nhận đượckết quả của những đóng góp cho bản dịch hoàn chỉnh; ta xây dựng một môi trườnghợp tác trên công nghệ Web và hạ tầng mạng máy tính cho phép các nhóm đốitượng có thể tham gia trao đổi, tranh luận, để cùng nhau chia sẻ những kiến thức, kỹnăng và những kinh nghiệm về một lĩnh vực mà họ quan cùng tâm

Những lợi ích mà môi trường hợp tác đem lại:

Giảng viên: Môi trường hợp tác giúp cho giảng viên dễ dàng hơn trong việc

quản lý các khoá học và tiến hành các hoạt động sư phạm trực tuyến

Trang 33

Sinh viên: Các sinh viên có thể sử dụng thông tin liên lạc và các công cụ cộng

tác thường được sử dụng từ các giáo viên để hình thành nhóm nghiên cứu

Nhà nghiên cứu: Môi trường hợp tác sẽ cung cấp phương tiện, thông tin cho

các nhà nghiên cứu để dễ dàng tiến hành các cuộc điều tra, tổ chức chia sẻ dữ liệu,thông tin và giao tiếp với người khác về công việc

Người dùng chung: Người dùng có thể tham gia vào môi trường hợp tác tại

một lĩnh vực mà họ quan tâm để khai thác tri thức được tích luỹ từ môi trường

1.2.2 Các công cụ dùng để giao tiếp và hợp tác

Hiện nay, trên hệ thống mạng Internet nhiều nhà phát triển phần mềm đã tạo ramột số công cụ giúp cho con người có thể giao tiếp với nhau và cùng nhau hợp táctrong khi họ đang ở tại các vị trí địa lý khác nhau Một số công cụ điển hình nhưsau:

Hệ thống Website đã và đang đóng góp rất lớn vào việc phổ cập thông tin,Website đã làm thay đổi cả thế giới từ khi xuất hiện vào đầu những năm 90 của thế

kỷ trước Ngày nay, mọi giao tiếp thông qua Website đã trở thành phổ biến, nó cuốnhút mọi thành phần xã hội ở mọi nơi trên thế giới cùng tham gia Cùng nhau chia sẻthông tin cũng như tích luỹ những thông tin mới

E-mail là công cụ giao tiếp không đồng bộ trên Internet được sử dụng rộng rãinhất, cho phép mọi người có thể giao lưu trao đổi, chia sẻ thông tin với nhau Thôngtin được chia sẻ trên E-mail không chỉ bằng văn bản mà còn có thể bằng hình ảnhhoặc bằng video Hiện nay, đã có một số sản phẩm như Lotus Notes đã tích hợp E-mail với các công cụ hợp tác khác không đồng bộ giúp thực hiện công việc như lập

kế hoạch và tham gia vào các diễn đàn trên mạng hoặc các nhóm thảo luận

Không giống như E-mail, Chat cung cấp cho mọi người môi trường giao tiếpđồng bộ để nhiều người có thể trao đổi trực tiếp với nhau dựa trên Internet hoặcIntranet Đây là một môi trường ảo, chúng ta có thể giao tiếp với nhiều người cùngmột lúc

1.2.3 Các tính năng cơ bản của môi trường hợp tác

Trang 34

Tuy có nhiều loại môi trường hợp tác tích hợp, cung cấp nhiều loại dịch vụ vàứng dụng khác nhau, nhưng tất cả đều có chung một số tính năng sau:

Khả năng cá nhân hoá (Customization): Cho phép thiết đặt các thông tin khác

nhau, cho các loại đối tượng sử dụng khác nhau theo yêu cầu Tính năng này dựatrên hoạt động thu thập thông tin về người dùng và cộng đồng người dùng, từ đócung cấp các thông tin chính xác tại thời điểm được yêu cầu

Tập hợp nội dung (Content aggregation): Cho phép xây dựng nội dung thông

tin từ nhiều nguồn khác nhau cho nhiều đối tượng sử dụng Sự khác biệt giữa cácnội dung thông tin sẽ được xác định qua các ngữ cảnh hoạt động của người dùng(user – specific context), ví dụ như đối với từng đối tượng sử dụng sau khi thôngqua quá trình xác thực thì sẽ được cung cấp thông tin khác nhau, hoặc nội dungthông tin sẽ được cung cấp khác nhau trong quá trình cá nhân hoá thông tin

Cung cấp nội dung (Content syndication): Thu thập nội dung thông tin từ

nhiều nguồn khác nhau, cung cấp cho người dùng thông qua các phương pháp hoặcgiao thức (protocol) một cách thích hợp Một hệ thống xuất bản nội dung thông tinchuyên nghiệp phải có khả năng xuất bản thông tin với các định dạng được quychuẩn, ví dụ như RDF (Resource Description Format), RSS (Realy SimpleSyndication), NITF (News Industry Text Format) và NewsXML Ngoài ra, các tiêuchuẩn dựa trên XML cũng phải được áp dụng để quản trị và hiển thị nội dung mộtcách thống nhất, xuyên suốt trong quá trình xuất bản nội dung thông tin Các tiêuchuẩn dựa trên XML này cho phép đưa ra giải pháp nhanh nhất để khai thác và sửdụng nội dung thông tin trên các Website khác nhau thông qua quá trình thu thập vàbóc tách nội dung thông tin với các định dạng được quy chuẩn

Quản trị hệ thống (Systeml administration): Xác định cách thức hiển thị thông

tin cho người dùng cuối Tính năng này không chỉ đơn giản là thiết lập các giaodiện người dùng với các chi tiết đồ hoạ (look-and-feel), với tính năng này, ngườiquản trị phải định nghĩa được các thành phần thông tin, các kênh tương tác vớingười sử dụng cuối, định nghĩa nhóm người dùng cùng với các quyền truy cập và sửdụng thông tin khác nhau

Trang 35

Quản trị người dùng (User management): Cung cấp các khả năng quản trị

người dùng cuối, tuỳ thuộc vào đối tượng sử dụng của môi trường Tại đây, người

sử dụng có thể tự đăng ký trở thành thành viên tại cổng thông tin công cộng nhưYahoo, MSN (Microsoft Network),… hoặc được người quản trị tạo lập và gánquyền sử dụng tương ứng đối với các cổng thông tin doanh nghiệp Mặt khác, tuỳthuộc vào từng kiểu môi trường mà số lượng thành viên có thể từ vài nghìn tới hàngtriệu

1.2.4 Các công nghệ hỗ trợ môi trường hợp tác

Để có các hệ thống môi trường hợp tác do người lập trình phát triển và các hệthống nền tảng có thể hoạt động tương thích được với nhau, các kỹ sư và các hãngphần mềm trên thế giới cùng nhau xây dựng bộ tiêu chuẩn công nghiệp Hiện tại đã

có 2 tiêu chuẩn được công bố rộng rãi trên thế giới [29],bao gồm:

1.2.4.1 Portlet API (JSR 168)

Portlet API (JSR 168): Là tiêu chuẩn do hiệp hội Java Community Processcông bố, hiện tại chủ yếu được áp dụng cho các cổng thông tin xây dựng trên nềntảng Java Chuẩn này chỉ ra cách tương tác giữa ứng dụng nghiệp vụ (portlet) vớiportal framework Các portlet tuân thủ tiêu chuẩn này có thể hoạt động được ở tất cảcác portal server tuân thủ/hỗ trợ tiêu chuẩn JSR 168 Ví dụ: Một ứng dụng nghiệp

vụ (portlet) do Oracke phát triển, tuân thủ theo tiêu chuẩn JSR 168 thì có thể chạytrên IBM WebSphere Portal mà không phải biên dịch lại hoặc sửa đổi mã cho tươngthích Cộng đồng.NET cybfx đã tích cực áp dụng tiêu chuẩn này để đưa ra chuẩnportlet cho portal xây dựng trên.NET Framework (còn gọi là.NET portlet API)

1.2.4.2 Web Services for Remote Portlet (WSRP)

WSRP là một chuẩn do OASIS (Organization for the Advancement ofStructured Information Standards) công bố Chuẩn này chỉ ra cách thức giao tiếpgiữa một portal server với một ứng dụng nghiệp vụ từ xa (remote portlet) thông quadịch vụ Web Services) Các ứng dụng nghiệp vụ tuân thủ tiêu chuẩn này có thể chạytrên bất kỳ một portal server nào áp dụng tiêu chuẩn WSRP, không cần quan tâmrằng ứng dụng hay portal server xây dựng trên công nghệ/ngôn ngữ nào Hiện tại,

Trang 36

có 2 loại công nghệ hỗ trợ Web Services tốt nhất là J2EE (Java 2 Enterprise Edition)và.NET Framework.

1.2.5 Một số môi trường hợp tác trên mạng

1.2.5.1 Văn phòng điện tử (WebOffice)

WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển

Hình 1.1 Giao diện trang WebOffice

Đây là một hệ thống được xây dựng trên cơ sở về môi trường cộng tác, chophép các thành viên trong một doanh nghiệp có thể tác động qua lại với nhau trongmột hệ thống thống nhất Hệ thống bao gồm một số dịch vụ cơ bản sau:

- Quản lý, kiểm soát, theo dõi việc thực hiện các công việc của dự án haynhóm công việc của cơ quan Tạo lập không giới hạn các dự án, nhóm công việccũng như các công việc trong dự án

- Cơ sở dữ liệu chứa các câu hỏi và câu trả lời cho những kiến thức chung màcán bộ, nhân viên cần để thực hiện công việc của mình, nâng cao hiệu quả và năngsuất làm việc

- Cho phép thành viên tạo các phòng họp không giới hạn, trò chuyện cùng mộtlúc nhiều phòng khác nhau, cho phép truyền file trực tiếp

1.2.5.2 Hệ thống Wiki

Trang 37

Wiki là ví dụ cho một môi trường cộng tác tích hợp tri thức, Wiki được thiết

kế dưới dạng một hệ thống Website có cấu trúc đơn giản cho phép mọi người truycập vào lĩnh vực mà mình quan tâm một cách dễ dàng Wiki cho phép người truycập có thể xoá một nội dung cũ, chỉnh sửa hoặc bổ sung nội dung mới, bằng cáchnày wiki có tích hợp các thông tin khác nhau về một chủ đề nào đó và làm phongphú từ điển tri thức dùng chung

Hình 2.1 Giao diện trang Wikipedia

Wiki là nơi mà thông tin được cập nhật và chú trọng các nội dung mới, Wikiđược dùng để xây dựng và bổ sung cho những nội dung được sử dụng lâu dài.Wikipedia là minh chứng rõ nhất cho sự thành công của hình thức Wiki, nhiềungười có thể cùng chỉnh sửa một nội dung cho đến khi nó hoàn thiện Wikipedia trởthành một từ điển không thể thiếu cho nhiều người Ngày nay nhiều công ty tạo raWiki để làm dữ liệu cơ bản cho nội bộ, rất phù hợp để chia sẻ thông tin trong nhữngnhóm lớn

1.2.5.3 Hệ thống Windows Live Groups

Microsoft xây dựng môi trường cộng tác trực tuyến cho phép mọi người dễdàng tạo nhóm và cùng nhau làm việc trong cùng một môi trường nhằm cung cấpmột nền tảng ổn định miễn phí cho những người thường xuyên kết hợp các ý tưởng

Trang 38

lại với nhau Nói cách khác Windows Live Groups là một thế giới cộng tác trựctuyến.

Trong môi trường Windows Live Microsoft đã cung cấp rất nhiều dịch vụ đểngười sử dụng khai thác, trong đó có một số dịch vụ tiêu biểu như sau: WindowsLive Hotmail, Calendar, Sky driver, Windows Live Messenger, Spacer, Weather,Yellow Pages, Shopping, Map,… Ngoài ra Windows Live còn kết hợp với OficeWeb Apps, cho phép người dùng tạo nhóm và quản lý nhóm, để thực hiện một dự ánnào đó

Hình 3.1 Giao diện trang Windows Live

Phiên bản Windows Live Messenger 9.0 (2009) được giới thiệu kèm theotrong gói ứng dụng Windows Live Essentials thuộc họ Live đã thật sự làm nhữngngười dùng Chat hài lòng qua những tính năng kết nối mang tính hướng mạng xãhội, các tuỳ chọn cá nhân hoá và giao diện mới rất hấp dẫn Ngoài ra còn có một sốtính năng khác như chia sẻ dữ liệu, tạo nhóm, làm cho Windows Live Messengermang tính chất mạng xã hội nhiều hơn

Trang 39

Windows Live Hotmail cung cấp dung lượng lưu trữ gigabyte, bộ kiểm trachính tả là tự động, bộ lọc tuỳ ý và các tính năng an toàn, công nghệ lập trình Ajax

và tích hợp với Windows Live Messenger, Sacer, Calendar và Contacts HiệnHotmail đang có hàng triệu người dùng trên khắp thế giới và có 36 phiên bản ngôn ngữ

1.3 KHO NGỮ LIỆU SONG NGỮ

1.3.1 Một số khái niệm

Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứ thực

tế sử dụng ngôn ngữ Những chứng cứ sử dụng ngôn ngữ này có thể là của ngônngữ nói mà cũng có thể là ngôn ngữ viết Trong đó ngữ liệu tồn tại dưới dạng ngônngữ viết bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử

Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ vàngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ Đề tài này tập trung nghiên cứu

để xây dựng kho ngữ liệu đa ngữ Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữnày là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song Ngữ liệu song song cóthể gồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ

Kho ngữ liệu (Linguistic Corpus) là một tập hợp các mảnh ngôn ngữ đượcchọn lựa và sắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng nhưmột mẫu ngôn ngữ [19]

Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một kho ngữ liệu củangôn ngữ này là một bản dịch chính xác của ngôn ngữ kia Một số kho ngữ liệusong song, bao gồm ngữ liệu của nhiều ngôn ngữ Một số kho ngữ liệu song songthì ngữ liệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua

Trang 40

một ngôn ngữ trung gian Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thôngqua ngôn ngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từtiếng Pháp sang tiếng Việt.

1.3.2 Ứng dụng của kho ngữ liệu song ngữ

Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn, nhưngchủ yếu là tiếng Anh, được rất nhiều nhà khoa học trên thế giới khai thác và sửdụng Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật, nhưng với quy

mô nhỏ hơn Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều cáckho dữ liệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển,dịch tự động, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, họcngoại ngữ,

Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp

ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông, ỞViệt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đếnkho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứtiếng, truyện Harry Potter (Chinese-Korean-Japanese-Vietnamese), các trang Websong ngữ Anh-Việt như VOV online, ThanhNien, Vietnamnet, NhanDan, Riêngkho ngữ liệu song ngữ (dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có khongữ liệu song ngữ Anh - Việt có tên là EVC [1]

Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụcho nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngônngữ học – so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoại ngữ,

1.3.2.1 Ứng dụng trong ngôn ngữ học – thống kê

Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vào việc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học Cùng với sự trợgiúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lênđáng kể [1]

1.3.2.2 Ứng dụng trong ngôn ngữ học so sánh

Định dạng
Số trang	111
Dung lượng	8,36 MB