Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và có thể sử dụng như Google, AltaVista, … Nhiều hệ thống đã được đưa vàothương mại hoá như Systran, Reverso, B
Trang 1ĐẠI HỌC ĐÀ NẴNG
ĐỖ GIA TRINH
XÂY DỰNG KHO DỮ LIỆU
SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU
LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2013
Trang 2ĐẠI HỌC ĐÀ NẴNG
ĐỖ GIA TRINH
XÂY DỰNG KHO DỮ LIỆU
SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS.TS Phan Huy Khánh
Đà Nẵng - Năm 2013
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Phan Huy Khánh.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.
Tác giả
Đỗ Gia Trinh
Trang 5MỤC LỤC
TRANG PHỤ BÌA i
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC CÁC TỪ VIẾT TẮT v
DANH MỤC CÁC CÁC BẢNG vii
DANH MỤC CÁC HÌNH xi
MỞ ĐẦU 1
CHƯƠNG 1 5
NGHIÊN CỨU TỔNG QUAN 5
1.1 DỊCH TỰ ĐỘNG 5
1.1.4.1 Babel Fish 13
1.1.4.2 Systran 13
14
1.1.4.3 Reverso 14
14
1.1.4.4 Google Translate 15
15
1.2 MÔI TRƯỜNG HỢP TÁC 15
1.2.4.1 Portlet API (JSR 168) 19
1.2.4.2 Web Services for Remote Portlet (WSRP) 19
1.2.5.1 Văn phòng điện tử (WebOffice) 20
WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển 20
20
1.2.5.2 Hệ thống Wiki 20
21
1.2.5.3 Hệ thống Windows Live Groups 21
Trang 61.3 KHO NGỮ LIỆU SONG NGỮ 23
1.3.2.1 Ứng dụng trong ngôn ngữ học – thống kê 24
1.3.2.2 Ứng dụng trong ngôn ngữ học so sánh 24
1.3.2.3 Ứng dụng trong giảng dạy ngoại ngữ 25
1.3.2.4 Ứng dụng trong việc nghiên cứu dịch thuật 25
1.3.3.1 British National Corpus (BNC) 25
1.3.3.2 Canadian Hansard Corpus (Anh – Pháp) 26
1.3.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật) 27
1.3.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh 27
1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU 27
1.5 TỔNG KẾT CHƯƠNG 31
CHƯƠNG 2 GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU 31
2.1 GIỚI THIỆU 32
2.2 MÔ HÌNH HỆ THỐNG 32
2.3 XÂY DỰNG KHO NGỮ LIỆU 34
2.3.1.1 Chuẩn ngôn ngữ 34
2.3.1.2 Các kho ngữ liệu tiếng Anh có sẵn 34
2.3.1.3 Yêu cầu đối với kho ngữ liệu 34
2.3.1.4 Ngữ liệu dạng điện tử 35
2.3.2.1 Chọn nguồn ngữ liệu thô 35
2.3.2.2 Chuẩn hoá ngữ liệu 36
2.3.3.1 Xử lý đầu vào 37
2.3.3.2 Tách đoạn 37
2.3.3.3 Tách câu 37
2.3.3.4 Lưu trữ kho ngữ liệu bằng XML 37
2.3.4.1 Nguồn Từ điển 38
2.3.4.2 Nguồn Báo điện tử 40
2.3.4.3 Nguồn từ các kho ngữ liệu được xây dựng sẵn 42
Trang 72.3.5.1 Công cụ cập nhật tài liệu bằng RTF của Microsoft Word 44
2.3.5.2 Kỹ thuật cập nhật sử dụng các macro 45
2.3.5.3 Kỹ thuật trích lọc dữ liệu file html 47
2.3.7.1 Giới thiệu 48
2.3.7.2 Cấu trúc lưu trữ kho ngữ liệu đa ngữ 49
2.3.7.3 Phương pháp đa ngữ hoá kho ngữ liệu 52
2.4 HIỆU CHỈNH KHO NGỮ LIỆU 53
2.4.1.1 Phương pháp tự động 54
2.4.1.2 Phương pháp chuyên gia 55
2.4.2.1 Giới thiệu 56
2.4.2.2 Phân tích đối tượng người dùng 56
2.4.2.3 Các chức năng chính của môi trường hợp tác 57
2.4.2.4 Mô hình triển khai môi trường hợp tác 58
2.5 TỔNG KẾT CHƯƠNG 59
CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 60
4.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 60
4.2 XÂY DỰNG KHO NGỮ LIỆU 62
4.2.1.1 Trích từ Từ điển Lạc Việt 62
4.2.1.2 Trích từ báo VOV ONLINE 66
4.2.1.3 Trích từ các kho ngữ liệu có sẵn 73
4.2.1.4 Một số nguồn ngữ liệu khác 74
4.3 HIỆU CHỈNH KHO NGỮ LIỆU 78
4.3.1.1 Mô hình kiến trúc môi trường hợp tác 79
4.3.1.2 Tổ chức lưu trữ dữ liệu 81
4.3.2.1 Trang chính của hệ thống 82
4.3.2.2 Trang dịch câu 83
4.3.2.3 Một số trang ứng dụng kho ngữ liệu 85
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 90
TÀI LIỆU THAM KHẢO 92
Trang 8DANH MỤC CÁC TỪ VIẾT TẮTTIẾNG VIỆT
TIẾNG ANH
BNC British National Corpus
BTEC Basic Travel Expression Corpus
DTD Document Type Definition
EVC English Vietnamese Corpus
HTML HyperText Markup Language
HTTP HyperText Transfer Protocol
J2EE Java 2 Enterprise Edition
JENAAD Japanese - English News Article Alignment Data
NITF News Industry Text Format
OASIS Organization for the Advancement of Structured
Information StandardsOCR Optical Character Recognization
PDF Portable Document Format
RDF Resource Description Format
RSS Realy Simple Syndication
SGML Standard Generalized Markup Language
SQL Structured Query Language
URL Uniform Resource Locator
VBA Visual Basic for Application
Trang 9W3C World Wide Web ConsortiumWSRP Web Services for Remote PortletXML eXtensible Markup Language
Trang 10DANH MỤC CÁC CÁC BẢNG
1.1 DỊCH TỰ ĐỘNG 5
1.1.1 Khái niệm 5
1.1.2 Lịch sử phát triển 7
1.1.3 Cấu trúc của một chương trình dịch tự động 8
1.1.4 Một số hệ thống dịch tự động 13
1.1.4.1 Babel Fish 13
1.1.4.2 Systran 13
14
1.1.4.3 Reverso 14
14
1.1.4.4 Google Translate 15
15
1.2 MÔI TRƯỜNG HỢP TÁC 15
1.2.1 Khái niệm 15
1.2.2 Các công cụ dùng để giao tiếp và hợp tác 17
1.2.3 Các tính năng cơ bản của môi trường hợp tác 17
1.2.4 Các công nghệ hỗ trợ môi trường hợp tác 19
1.2.4.1 Portlet API (JSR 168) 19
1.2.4.2 Web Services for Remote Portlet (WSRP) 19
1.2.5 Một số môi trường hợp tác trên mạng 20
1.2.5.1 Văn phòng điện tử (WebOffice) 20
WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển 20
20
1.2.5.2 Hệ thống Wiki 20
21
1.2.5.3 Hệ thống Windows Live Groups 21
22
Trang 111.3 KHO NGỮ LIỆU SONG NGỮ 23
1.3.1 Một số khái niệm 23
1.3.2 Ứng dụng của kho ngữ liệu song ngữ 24
1.3.2.1 Ứng dụng trong ngôn ngữ học – thống kê 24
1.3.2.2 Ứng dụng trong ngôn ngữ học so sánh 24
1.3.2.3 Ứng dụng trong giảng dạy ngoại ngữ 25
1.3.2.4 Ứng dụng trong việc nghiên cứu dịch thuật 25
1.3.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới 25
1.3.3.1 British National Corpus (BNC) 25
1.3.3.2 Canadian Hansard Corpus (Anh – Pháp) 26
1.3.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật) 27
1.3.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh 27
1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU 27
1.4.1 Tổng quan về XML 28
1.4.2 Thuật ngữ 28
1.4.3 Cấu trúc của một tập tin XML 28
1.4.4 Những thành phần của một tài liệu XML 29
1.5 TỔNG KẾT CHƯƠNG 31
2.1 GIỚI THIỆU 32
2.2 MÔ HÌNH HỆ THỐNG 32
2.3 XÂY DỰNG KHO NGỮ LIỆU 34
2.3.1 Các tiêu chí chọn mẫu ngữ liệu 34
2.3.1.1 Chuẩn ngôn ngữ 34
2.3.1.2 Các kho ngữ liệu tiếng Anh có sẵn 34
2.3.1.3 Yêu cầu đối với kho ngữ liệu 34
2.3.1.4 Ngữ liệu dạng điện tử 35
2.3.2 Chọn nguồn ngữ liệu và chuẩn hóa 35
2.3.2.1 Chọn nguồn ngữ liệu thô 35
2.3.2.2 Chuẩn hoá ngữ liệu 36
Trang 122.3.3 Ứng dụng xử lý ngôn ngữ tự nhiên 36
2.3.3.1 Xử lý đầu vào 37
2.3.3.2 Tách đoạn 37
2.3.3.3 Tách câu 37
2.3.3.4 Lưu trữ kho ngữ liệu bằng XML 37
2.3.4 Các nguồn ngữ liệu thu thập 38
2.3.4.1 Nguồn Từ điển 38
2.3.4.2 Nguồn Báo điện tử 40
2.3.4.3 Nguồn từ các kho ngữ liệu được xây dựng sẵn 42
2.3.5 Các kỹ thuật xử lý ngữ liệu 44
2.3.5.1 Công cụ cập nhật tài liệu bằng RTF của Microsoft Word 44
2.3.5.2 Kỹ thuật cập nhật sử dụng các macro 45
2.3.5.3 Kỹ thuật trích lọc dữ liệu file html 47
2.3.6 Tích hợp các nguồn ngữ liệu 48
2.3.7 Đa ngữ hoá kho ngữ liệu 48
2.3.7.1 Giới thiệu 48
2.3.7.2 Cấu trúc lưu trữ kho ngữ liệu đa ngữ 49
2.3.7.3 Phương pháp đa ngữ hoá kho ngữ liệu 52
2.4 HIỆU CHỈNH KHO NGỮ LIỆU 53
2.4.1 Các phương pháp hiệu chỉnh dữ liệu 54
2.4.1.1 Phương pháp tự động 54
2.4.1.2 Phương pháp chuyên gia 55
2.4.2 Hiệu chỉnh bằng môi trường hợp tác 56
2.4.2.1 Giới thiệu 56
2.4.2.2 Phân tích đối tượng người dùng 56
2.4.2.3 Các chức năng chính của môi trường hợp tác 57
2.4.2.4 Mô hình triển khai môi trường hợp tác 58
2.5 TỔNG KẾT CHƯƠNG 59
4.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 60
Trang 134.1.1 Ngôn ngữ lập trình 60
4.1.2 Cơ sở dữ liệu 61
4.2 XÂY DỰNG KHO NGỮ LIỆU 62
4.2.1 Thu thập và xử lý các nguồn dữ liệu 62
4.2.1.1 Trích từ Từ điển Lạc Việt 62
4.2.1.2 Trích từ báo VOV ONLINE 66
4.2.1.3 Trích từ các kho ngữ liệu có sẵn 73
4.2.1.4 Một số nguồn ngữ liệu khác 74
4.2.2 Xử lý trùng lặp các câu trong kho ngữ liệu 74
4.2.3 Nội dung chương trình hỗ trợ dịch 74
4.2.4 Giao diện chương trình hỗ trợ dịch 75
4.2.5 Thử nghiệm và đánh giá kết quả của hệ thống dịch 77
4.3 HIỆU CHỈNH KHO NGỮ LIỆU 78
4.3.1 Xây dựng hệ thống 78
4.3.1.1 Mô hình kiến trúc môi trường hợp tác 79
4.3.1.2 Tổ chức lưu trữ dữ liệu 81
4.3.2 Xây dựng giao diện hệ thống 82
4.3.2.1 Trang chính của hệ thống 82
4.3.2.2 Trang dịch câu 83
4.3.2.3 Một số trang ứng dụng kho ngữ liệu 85
87
4.3.3 Thử nghiệm và đánh giá chương trình 87
Trang 14DANH MỤC CÁC HÌNH
Hình 1.1 Quá trình xử lý của một chương trình dịch tự động 10
Hình 1.1 Giao diện hệ thống dịch Babel Fish 13
Hình 2.1 Giao diện hệ thống dịch Systran 14
Hình 3.1 Giao diện hệ thống dịch Reverso 14
Hình 4.1 Giao diện màn hình dịch với Google translate 15
Hình 1.1 Giao diện trang WebOffice 20
Hình 2.1 Giao diện trang Wikipedia 21
Hình 3.1 Giao diện trang Windows Live 22
Hình 1.1 Mô hình tổng thể hệ thống 33
Hình 1.1 Giao diện của Từ điển Lạc Việt 40
Hình 2.1 Ví dụ về trang Web ngôn ngữ chính 42
Hình 2.2 Ví dụ về trang Web có phiên bản ngôn ngữ khác 42
Hình 2.1 Sơ đồ chuyển đổi từ tập tin * Doc sang tập tin * XML 46
Hình 2.2 Mẫu tập tin *.Doc 46
Trang 15Hình 2.3 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên nhiều tập tin 46
Hình 2.1 Các giải pháp tổ chức CSDL 50
Hình 2.2 Ví dụ dữ liệu lưu trên 1 tập tin 51
Hình 2.3 Ví dụ dữ liệu lưu trên 3 tập tin 52
Hình 3.1 Sơ đồ đa ngữ hóa kho ngữ liệu 53
Hình 4.1 Mô hình triển khai hệ thống 59
Hình 1.1 Sơ đồ quá trình trích từ Từ điển Lạc Việt 63
Hình 1.2 Mục từ có các câu ví dụ Anh – Việt 63
Hình 1.3 Tập tin tiếng Anh.Doc trích từ Từ điển Lạc Việt 64
Hình 1.4 Thủ tục chuyển tập tin *.Doc sang định dạng XML và tạo chỉ mục 66
Hình 1.5 Kết quả sau khi chuyển đổi định dạng tập tin và tạo chỉ mục 66
Hình 2.1 Hệ thống bóc tách nội dung của VietSpider 67
Hình 2.2 Sơ đồ quá trình xử lý trích từ trang Web 68
Hình 2.3 Trang Web tiếng Anh trước khi tách lấy nội dung 68
Hình 2.4 Ví dụ tạo luồng trang VOV online 69
Hình 2.5 Trang Web tiếng Anh khi thực hiện tách lấy nội dung 69
Hình 2.6 Dữ liệu sau khi bóc tách 70
Hình 2.7 Sơ đồ quá trình xử lý trích từ trang Web sử dụng MorphAdorner 71
Hình 2.8 Tách câu trực tuyến của MorphAdorner 72
Hình 2.9 Kết quả tách câu tiếng Anh bằng công cụ trực tuyến MorphAdorner 72
Hình 3.1 Sơ đồ xử lý Corpus có sẵn 73
Hình 1.1 Giao diện dịch kho ngữ liệu 76
Hình 1.2 Giao diện dịch thành công 76
Hình 1.1 Mô hình kiến trúc môi trường hiệu chỉnh kho ngữ liệu 80
Hình 2.1 Cấu trúc quy ước lưu dữ liệu 81
Hình 2.2 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp 82
Hình 1.1 Giao diện chính của hệ thống 83
Hình 2.1 Giao diện tìm kiếm, dịch câu, xem bản sửa 83
Hình 2.2 Giao diện hiệu chỉnh câu dịch 84
Trang 16Hình 2.3 Giao diện câu đóng góp bị trùng 85
85
Hình 2.4 Giao diện thay đổi câu dịch dành cho chuyên gia 85
Hình 3.1 Giao diện Game điền khuyết 86
86
Hình 3.2 Giao diện Game sắp xếp thứ tự đúng của từ 86
Hình 3.3 Giao diện Game dịch Anh – Việt 87
Trang 17MỞ ĐẦU
1 Lý do chọn đề tài
Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thànhtựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hoá, xã hội, … Cùng với sựphát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thôngtin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet Tuy nhiên, lượngthông tin này vẫn chưa được khai thác hết bởi rất nhiều lý do, một trong những lý
do quan trọng nhất dẫn đến việc hạn chế khai thác thông tin trên, đó là rào cản vềngôn ngữ [3] Giải pháp nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thốngdịch tự động
Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả
và có thể sử dụng như Google, AltaVista, … Nhiều hệ thống đã được đưa vàothương mại hoá như Systran, Reverso, Babylon, … Những hệ thống này cho phép
tạo ra “bản dịch nghĩa” – một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta
có thể hiểu được ý nghĩa của văn bản gốc và cần phải chỉnh sửa nhiều để đạt đếnmột văn bản hoàn chỉnh Các hệ thống dịch tự động cho phép dịch rất nhanh và chiphí thấp hơn nhiều so với dịch bằng con người Tuy nhiên, những hệ thống nàyđang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng vềngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt vềgiải thích các khái niệm
Cùng với đó, nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên ngày càng tăng
và được ứng dụng trong nhiều lĩnh vực Đa số các hệ thống xử lý ngôn ngữ tự nhiênđều sử dụng các phương pháp liên quan đến học máy, kỹ thuật thống kê nên rất cầncác tài liệu song ngữ hoặc đa ngữ Vì vậy các kho ngữ liệu là một trong những cơ sởquan trọng để phát triển các hệ thống xử lý ngôn ngữ tự nhiên
Hiện nay trên thế giới có nhiều kho ngữ liệu song ngữ như Anh – Pháp, Anh –Hoa, … nhưng các kho ngữ liệu lớn để phục vụ cho các hệ thống xử lý ngôn ngữ tựnhiên vẫn còn thiếu Ví dụ như đối với tiếng Việt, hiện nay chưa có nhiều kho ngữliệu và đặc biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát triển các hệ thống xử lý
Trang 18ngôn ngữ tự nhiên Bên cạnh đó, một số kho ngữ liệu để phục vụ xử lý tiếng Việtchưa được chia sẽ rộng rãi Chi phí để phát triển một kho ngữ liệu là rất tốn kém Vì
vậy tôi quyết định chọn đề tài “Mở rộng các kho ngữ liệu đa ngữ dựa vào các phần mềm dịch tự động và môi trường hợp tác” làm đề tài tốt nghiệp luận văn cao
học Trong đề tài này, chúng tôi đề xuất giải pháp kết hợp các phần mềm dịch tựđộng và môi trường hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu.Xây dựng công cụ sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một
số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu song ngữ hoặc
đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có Ngoài ra, sau khi dịch tự động
sẽ đưa kết quả nhận được cho người sử dụng góp ý, hiệu chỉnh nhằm tăng độ tin cậy
và tính kiểm chứng của kết quả Giải pháp sử dụng lại các hệ thống dịch tự động vàmôi trường hợp tác để mở rộng kho ngữ liệu sẵn có sang các ngôn ngữ khác là một trongnhững giáp pháp khả thi và hiệu quả
2 Mục đích nghiên cứu
Mục đích nghiên cứu của để tài là xây dựng môi trường trong đó sử dụng lạicác hệ thống dịch tự động sẵn có để mở rộng các kho ngữ liệu sang một ngôn ngữmới, đặc biệt là cho tiếng Việt Ngoài ra, ứng dụng môi trường này để mở rộng mộtkho ngữ liệu đa ngữ Anh – Pháp – Việt gồm các câu song song
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là các kho ngữ liệu (Linguistics Corpus) Các
hệ thống dịch hiện nay trên Internet như Systran, Google, Reverso,… Các công cụphát triển như TRADOH, TRAWEB, SANDOH,… Các mô hình triển khai hệ thống
và một số bài báo và luận văn tốt nghiệp khóa trước
3.2 Phạm vi nghiên cứu
Trong khuôn khổ của luận văn này, chúng tôi thực nghiệm tạo một kho ngữliệu đa ngữ Anh – Pháp – Việt tối thiểu 50.000 câu cho mỗi ngôn ngữ
Trang 194 Phương pháp nghiên cứu
Chúng tôi sử dụng hai phương pháp chính là phương pháp tài liệu và phươngpháp thực nghiệm
Phương pháp tài liệu: Với phương pháp này, chúng tôi nghiên cứu các tài liệu
về cơ sở lý thuyết: Dịch tự động, môi trường hợp tác, kho dữ liệu, kho ngữ liệu; cáctài liệu mô tả một số công cụ dịch tự động và các tài liệu liên quan đến một sốnghiên cứu khác
Phương pháp thực nghiệm: Với phương pháp này, chúng tôi sử dụng các hệ
thống dịch tự động để dịch các kho ngữ liệu sẵn có sang 1 ngôn ngữ khác (Ví dụ:kho ngữ liệu tiếng Anh BTEC sang tiếng Việt); đồng thời thực nghiệm dịch và kiểmtra một số kho ngữ liệu sẵn có sang tiếng Việt Bên cạnh đó, chúng tôi xây dựngmột môi trường hợp tác để kiểm tra tính đúng đắn của kho ngữ liệu
5 Ý nghĩa khoa học và thực tiễn của đề tài
Về khoa học: Kết quả nghiên cứu của đề tài góp phần thúc đẩy việc ứng dụng
các phần mềm dịch tự động trực tuyến để phục vụ việc phát triển các kho ngữ liệu
đa ngữ phục vụ xử lý ngôn ngữ tự nhiên
Về thực tiễn: Đề tài sẽ góp phần xây dựng một kho ngữ liệu đa ngữ gồm 3
ngôn ngữ Anh – Pháp – Việt nhằm tạo ra được một cơ sở dữ liệu phục vụ cho việcdạy và học tiếng ngoại ngữ, dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên,
6 Bố cục luận văn
Báo cáo của luận văn được tổ chức thành 3 chương chính:
Chương 1 Nghiên cứu tổng quan
Trong chương này, chúng tôi trình bày tổng quan về dịch tự động, môi trườnghợp tác, kho ngữ liệu song ngữ/đa ngữ và đa ngữ hoá kho ngữ liệu và các định dạng
để lưu trữ kho ngữ liệu
Chương 2 Đề xuất giải pháp
Chương 2 được dành để trình bày mô hình phát triển và các giải pháp xâydựng kho ngữ liệu cụ thể như các nguồn ngữ liệu thu thập được và một số kỹ thuật
xử lý dữ liệu để tạo kho ngữ liệu đầu vào Từ đó trình bày một số giải pháp mở rộng
Trang 20kho ngữ liệu đa ngữ nhờ vào các hệ thống dịch tự động trực tuyến Giải pháp được
đề xuất như sau: Mở rộng kho ngữ liệu đa ngữ nhờ vào việc sử dụng lại hệ thốngdịch tự động trực tuyến Google translate từ các kho ngữ liệu đơn ngữ sẵn có Sau đónhờ hệ thống này nhận kết quả các bản dịch để xây dựng kho ngữ liệu đa ngữ Vàchúng tôi sẽ trình bày một giải pháp để hiệu chỉnh các kho ngữ liệu sau khi mở rộng
từ các hệ thống dịch trực tuyến đó là xây dựng một môi trường hợp tác để nhờngười sử dụng hiệu chỉnh các câu dịch
Chương 3 Triển khai ứng dụng
Lựa chọn công cụ phát triển, xử lý dữ liệu đầu vào để đưa vào kho Giới thiệucác bước triển khai, xây dựng các modul chương trình, phương pháp tạo kho ngữliệu đa ngữ, tạo môi trường hợp tác để hiệu chỉnh dữ liệu
Trang 21CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN
Trong chương này, chúng tôi trình bày các vấn đề liên quan đến dịch tự động,môi trường hợp tác, kho ngữ liệu song ngữ/đa ngữ và một số kỹ thuật liên quan đếnđịnh dạng kho ngữ liệu
1.1 DỊCH TỰ ĐỘNG
1.1.1 Khái niệm
Dịch tự động hay còn gọi là dịch máy (MT: machine translation) là một nhánhcủa xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo? Nó là sự kết hợpgiữa khoa học ngôn ngữ và khoa học máy tính Như tên gọi, dịch tự động thực hiệndịch một văn bản từ ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một ngôn ngữ khác(gọi là ngôn ngữ đích) một cách tự động, có hoặc không có sự can thiệp của con
người trong quá trình dịch
Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhậpnhằng hiệu quả Nói về tính nhập nhằng, đây là khái niệm chỉ tính không rõ ràng
của ngôn ngữ, chẳng hạn khi viết từ “đường kính” thì vẫn chưa rõ là nó chỉ một loại
"chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu" Nhập nhằng như ví dụ vừa rồi là do hiện tượng
đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác như nhập nhằng từloại, nhập nhằng từ đa nghĩa
Khi dịch tự động từ tiếng Việt sang tiếng Anh, khó khăn đầu tiên lại là việcxác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ
đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng TiếngViệt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ
xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụ như từ "miễn bàn" có thể bị dịch thành “free table” Với tiếng Anh do là ngôn ngữ biến hình nên việc xác
định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tự hoàn toàn giốngnhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anh cũng như tiếng
Trang 22Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩachính xác phải thực hiện phân tích văn cảnh.
Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạothành câu hoàn chỉnh Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu thìcông việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếngAnh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếngTrung thì rất khó khăn [15] Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hếtsức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả củachúng vẫn không được tốt
Thuật ngữ dịch máy hay dịch tự động không chỉ bao gồm máy tính dựa vàocác bộ từ điển và các phương pháp tiếp cận vào cơ sở dữ liệu để có thể đọc đượcvăn bản hoặc tương tác với quá trình xử lý ngôn ngữ, chỉnh sửa văn bản để cho rabản dịch cuối cùng Mà nó còn bao gồm các hệ thống, trong đó người dịch hoặcnhững người sử dụng hỗ trợ máy tính trong quá trình dịch thuật như khâu chuẩn bịvăn bản hay những chỉnh sửa cần thiết trước khi cho ra một bản dịch hoàn chỉnh Trên thực tế, kết quả của hầu hết các hệ thống dịch bằng máy tính đều đượcsửa đổi bởi con người Như vậy trong trường hợp này bản dịch bằng máy tínhkhông khác mấy so với bản dịch do con người dịch Lúc đó các loại lỗi sai được tạo
ra bởi hệ thống dịch tự động thì khác so với các lỗi sai của người dịch Còn trongtrường hợp bản dịch tự động hoàn toàn do máy tính không có sự can thiệp của conngười có thể được hiểu như một “bản dịch nghĩa” - một bản dịch chưa hoàn chỉnhnhưng giúp chúng ta hiểu được văn bản gốc
Tóm lại, dịch tự động bằng máy tính chính nó không phải là lĩnh vực độc lập,
mà liên quan đến nhiều lĩnh vực khác nhau như: ngôn ngữ, khoa học máy tính, trítuệ nhân tạo, thống kê, … Người ta cần kết hợp nhiều lĩnh vực để có thể phát triểnhoàn thiện một hệ thống dịch nào đó Ranh giới giữa hệ thống dịch bằng máy tính
do con người hỗ trợ và hệ thống dịch bằng máy nhằm hỗ trợ cho con người rất gầnnhau và đôi khi có thể hỗ trợ cho cả hai Nhưng cốt lõi của dịch tự động bằng máytính là tự động hoá một phần hoặc toàn bộ quá trình dịch để kết quả lý tưởng cuối
Trang 23cùng là nhanh chóng tạo ra những bản dịch có chất lượng cao và chi phí thấp hơnnhiều so với dịch bằng con người.
1.1.2 Lịch sử phát triển
Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học Leibniz
và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên hệ giữa
nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết màkhông có một ứng dụng thực tế nào
Sản phẩm đầu tiên cho một "chương trình dịch tự động" được thực hiện vào
khoảng giữa thập niên 1930 [11] Tuy nhiên, những sản phẩm thực sự của dịch tựđộng mới có từ những năm 1950 Vào năm 1954, thực nghiệm Georgetown - IBM(International Business Machines) đã thực hiện thành công thí nghiệm dịch tự độnghoàn toàn hơn 60 câu tiếng Nga sang tiếng Anh Thành công bước đầu này đã tạođiều kiện để lập ra những quỹ đầu tư có giá trị cho các nghiên cứu Các tác giả (tạithời điểm đó) tuyên bố rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽđược giải quyết [13]
Nhưng thực tế diễn ra chậm hơn nhiều theo báo cáo ALPAC vào năm 1966,sau hơn 10 năm các nghiên cứu ở lĩnh vực này vẫn không có những tiến bộ đáng kể
và hệ quả là số tiền chi cho nghiên cứu giảm mạnh Vào cuối thập niên 1980, khimáy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầuquan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn màtrước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế[8]
Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rấtnhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu Hiện nay có một sốcông ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyêncung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google
và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền Một hướngtiếp cận mới là kết hợp các phương pháp với nhau, như những nghiên cứu phối hợpgiữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê
Trang 24Đối với tiếng Việt, vấn đề dịch tự động đã bắt đầu được nghiên cứu nhữngnăm thập niên 1960 hầu hết đều do các nguyên nhân chính trị và quân sự Các tàiliệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E Scottthành lập công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổchức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt Scott bắt đầu chuẩn bị choviệc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệmáy tính tại New York, Mỹ Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động
có tên Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt,tác giả của hệ thống này là Charles E Byrne, Bernard E Scott, Truong N Binh[9].Nhưng hệ thống này không tồn tại được lâu, việc nghiên cứu của Scott chấm dứtvào năm 1973 Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệthống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên
1970 tại Tập đoàn viễn thông Xyzyx, California Hệ thống này đầu tiên được xâydựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắchoạt động tương tự như của hệ thống Logos Tuy nhiên, hệ dịch máy Anh-Việt được
sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN - 1997 Và sau đó EVTRAN 2.0,
1999 với hơn 200.000 từ và cụm từ Từ năm 2006, bản EVTRAN 3.0 (được gọi làEv-Shuttle) biên dịch văn bản hai chiều Anh-Việt và Việt-Anh (với hơn 500.000mục từ) [24]
1.1.3 Cấu trúc của một chương trình dịch tự động
Việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt
ra từ rất lâu Tuy nhiên thành công của các hệ dịch tự động mới chỉ hạn chế trongviệc dịch tự động các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ phápcũng như từ vựng Ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp,tiếng Anh sang tiếng Nga, ; thậm chí, kết quả khả dĩ chỉ đạt được với các loại vănbản khoa học hoặc pháp luật vốn được viết với văn phạm rất rõ ràng, chính xác vàđơn nghĩa Với những cặp ngôn ngữ có hệ thống ngữ pháp và ngữ nghĩa khác nhaukhá xa, kết quả của các chương trình dịch tự động là rất hạn chế Với các bài toándịch tự động nói chung, chúng ta đều gặp phải 3 vấn đề lớn sau đây:
Trang 25(1) Số lượng từ vựng của ngôn ngữ là rất nhiều và biến đổi phức tạp (chiangôi, giống, số, cách, ).
(2) Ngữ pháp của ngôn ngữ chưa được khảo sát kỹ, quá nhiều ngoại lệ khi sửdụng (chẳng hạn văn nói - thường sử dụng nói tắt, thiếu các thành phần của câu),một số ngôn ngữ chưa có các nghiên cứu đầy đủ về ngữ pháp (ví dụ như tiếng Việt) (3) Ngữ nghĩa được sử dụng rất phong phú, phải sử dụng ngữ cảnh mới có thểhiểu đúng ý nghĩa của từ
Trong 3 vấn đề trên, vấn đề (1) dễ giải quyết hơn và đã được giải quyết khátrọn vẹn với hầu hết các ngôn ngữ thông dụng trên thế giới; vấn đề (2) đã được giảiquyết một phần lớn trong nhiều ngôn ngữ thông dụng, đặc biệt là với các ngôn ngữ
ở châu Âu, nơi mà việc nghiên cứu về ngôn ngữ rất có hệ thống và có lịch sử đã vàitrăm năm Vấn đề xử lý ngữ nghĩa (3) là vấn đề khó nhất trong dịch tự động, hiệnđang được nghiên cứu rộng rãi và cũng đã đạt được nhiều kết quả hữu ích
Có nhiều chương trình dịch tự động khác nhau và các chương trình dịch nàycũng có cấu trúc chi tiết khác nhau, tuy nhiên về mặt cấu trúc tổng thể, tất cả cácchương trình đều được chia làm 3 khối chính: khối xử lý hình thái, khối xử lý ngữpháp và khối xử lý ngữ nghĩa Sự khác nhau giữa các chương trình nằm ở cách thức
và mức độ xử lý hình thái, ngữ pháp hay ngữ nghĩa khác nhau Một vài chươngtrình có modul xử lý hình thái đơn giản, việc xử lý tinh tế hơn được giao cho cácmodul phía sau, trong một vài chương trình khác, phần xử lý hình thái có thể có mộtvài thao tác ảnh hưởng cả đến modul xử lý ngữ nghĩa Vấn đề cũng tương tự đối vớicác modul khác như xử lý ngữ pháp và xử lý ngữ nghĩa, lý do có sự khác biệt giữacác cấu trúc nằm ở quan điểm về nhiệm vụ của mỗi modul và ở các thuật toán xử lýngôn ngữ Dù vậy, hầu hết các chương trình đều làm việc một cách đơn giản theo sơ
đồ sau:
Trang 26Hình 1.1 Quá trình xử lý của một chương trình dịch tự động
Khối xử lý hình thái
Khối xử lý hình thái là khối đầu tiên của chương trình dịch tự động, khối nhận
dữ liệu đầu vào là một câu của ngôn ngữ nguồn và phân tích hình thái của câu đó.Nói chung, một khối phân tích hình thái thường làm các nhiệm vụ sau:
(1) Chia cắt một câu trong ngôn ngữ nguồn thành các từ độc lập
Câu nguồn: I will give him a very difficult exam
(Đại từ)
(Danh từ)
(Trợ động từ)(Ngoại động từ)(Danh từ)
Đại từ Trợ động từ Động từ Tân từ Mạo từ Phó từ Tính từ Danh từ
Câu đích: Tôi sẽ cho anh ta một bài thi rất khó
Trang 27(2) Tìm tất cả các hình thái và thông tin bổ sung của các từ trong câu để phục
vụ quá trình xử lý về sau
Thông thường, nhất là đối với các ngôn ngữ ở châu Âu, nhiệm vụ (1) của khối
xử lý hình thái là không khó vì hầu hết tất cả các từ đều nằm nguyên thành một chữ,không cần chia cắt – ngoại trừ một số trường hợp đặc biệt như viết tắt (có thể xử lýngoại lệ) Với một số ngôn ngữ (như với tiếng Việt, tiếng Nhật,…) vấn đề trở nênrất khó nếu các từ trong ngôn ngữ được chia thành nhiều cụm có thể hiểu nhậpnhằng, ví dụ, xét câu sau:
“Ông già đi nhanh quá”
Chúng ta có ít nhất 2 cách phân cách từ:
Cách 1: “Ông già” | “đi” | “nhanh” | “quá”
Cách 2: “Ông” | “già đi” | “nhanh” | “quá”
Trong trường hợp trên không có cách nào đánh giá cách phân cách từ nào tốthơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần xử lý ngữnghĩa sẽ tiến hành đánh giá xem trường hợp nào là hợp lý hơn và chọn lựa
Nhiệm vụ (2) của khối xử lý hình thái dễ dàng hơn, với đa số ngôn ngữ việctìm tất cả các hình thái và thông tin liên quan đến từ/cụm từ chỉ là vấn đề xử lý từ tố
và tra từ điển
Theo ý kiến của nhiều tác giả [7], khối xử lý hình thái còn có một nhiệm vụkhác, đó là nhiệm vụ cắt câu, hay nói cách khác là xác định xem nội dung của mộtcâu trong ngôn ngữ nguồn bắt đầu và kết thúc từ đâu Trong thực tế không thể giảiquyết trọn vẹn bài toán ngắt câu cho ngôn ngữ tự nhiên, nhưng may mắn là cáctrường hợp không ngắt câu được không ảnh hưởng nhiều đến kết quả cuối cùng[11] Một vài bộ dịch tự động thậm chí không quan tâm đến việc ngắt câu – xuấtphát từ quan điểm chỉ cần thông dịch tốt các cấu trúc ngôn ngữ nhỏ (ngữ danh từ,ngữ động từ, cụm từ,…)
Khối xử lý ngữ pháp
Khối xử lý ngữ pháp xây dựng cây phân tích ngữ pháp cho câu đầu vào dựa
Trang 28trên văn phạm của ngôn ngữ nguồn Khối này nhận danh sách các hình thái từ đãđược sinh ra bởi khối xử lý hình thái, tiếp đến, khối này sẽ tiến hành phân tích vănphạm của câu dựa trên văn phạm của ngôn ngữ nguồn và thông tin bổ sung –thường là các văn phạm bổ sung cho phép sinh cây phân tích chính xác hơn Nóichung, có thể áp dụng các phương pháp phân tích cú pháp của các ngôn ngữ nhântạo cho ngôn ngữ tự nhiên [6] Tuy nhiên, vấn đề không suôn sẻ như các ngôn ngữnhân tạo, có những vấn đề chính sau đây thường gặp phải khi chúng ta sử dụng các
bộ phân tích văn phạm thông thường:
(1) Văn phạm của các ngôn ngữ tự nhiên thường rất phức tạp
(2) Trong ngôn ngữ nói, người sử dụng thường nói tắt, thậm chí nói sai ngữpháp – không thể phân tích ngữ pháp được
(3) Xuất phát hiện tượng có nhiều cây phân tích ứng với một câu – dẫn đếnnhiều khả năng dịch khác nhau cho một câu
Vấn đề ngữ pháp dù rất phức tạp nhưng nhiều bộ phân tích cú pháp cho cácngôn ngữ tự nhiên đã được xây dựng và chúng hoạt động rất tốt, như vậy đây khôngphải là vấn đề không thể vượt qua khi xây dựng các bộ dịch tự động các ngôn ngữ
tự nhiên [6]
Khối xử lý ngữ nghĩa
Xử lý ngữ nghĩa là khối cuối cùng trong dịch tự động Khối nhận đầu vào làcây phân tích từ khối xử lý ngữ pháp và thực hiện sinh câu ở ngôn ngữ đích Việcthực hiện để sinh câu được thực hiện dựa trên 4 nguồn thông tin chính: Cây phântích ngữ pháp (lấy từ khối xử lý ngữ pháp), nghĩa của các từ tố trong câu văn nguồn(lấy từ dãy hình thái từ tố của khối xử lý hình thái), cú pháp điều khiển (là thông tin
bổ sung của văn phạm, được sinh bởi khối xử lý hình thái) và thông tin ngữ cảnh(được tổng hợp từ việc xử lý ngữ nghĩa các câu trước và nhận vào từ người sử dụngchương trình) Nhiệm vụ chính của khối xử lý ngữ nghĩa là:
(1) Thực hiện việc đánh giá các cây phân tích cú pháp (nếu khối xử lý ngữpháp phân tích được nhiều cây phân tích) và lựa chọn cây tốt nhất
Trang 29(2) Thực hiện việc chọn nghĩa thích hợp nhất cho các từ tố của ngôn ngữnguồn trong ngôn ngữ đích.
(3) Sinh câu trong ngôn ngữ đích đúng với văn phạm của ngôn ngữ đó (vấn đề
xử lý thứ tự các từ)
Đôi khi nhiệm vụ (1) được xem là của khối xử lý ngữ pháp, nhưng trongphương pháp xử lý ngữ nghĩa bằng cú pháp điều khiển ta xem nhiệm vụ (1) là củakhối xử lý ngữ nghĩa vì việc này được thực hiện bằng cú pháp điều khiển
1.1.4 Một số hệ thống dịch tự động
1.1.4.1 Babel Fish
Một trong các tiện ích dịch tự động đầu tiên trên ứng dụng Web, được công cụtìm kiếm Alta Vista phát triển và đưa lên mạng vào năm 1997, sau đó Yahoo mộtcông cụ tìm kiếm khác mua lại vào năm 2004 Hỗ trợ 38 cặp ngôn ngữ, trong đótiếng Anh, tiếng Pháp và tiếng Trung Quốc được hỗ trợ nhiều nhất; tiếp đến là tiếngĐức, Tây Ban Nha, Ý, Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy Lạp và Hà Lan vàđặt tại địa chỉ http://babelfish.yahoo.com/
Hình 1.1 Giao diện hệ thống dịch Babel Fish 1.1.4.2 Systran
Hiện tại, Systran là một hệ thống dịch tự động rất nổi tiếng và chất lượng dịchkhá tốt Systran có thể sử dụng được trên môi trường Internet, máy tính đơn hoặc
Trang 30trên các hệ thống mạng cục bộ Phiên bản dùng trên Internet có thể dịch cho 52 cặpngôn ngữ và đặt tại địa chỉ http://www.systranet.com/
Hình 2.1 Giao diện hệ thống dịch Systran
Bên cạnh đó, Systran 7.0 là một phần mềm cực mạnh với hệ thống nhận dạngvăn bản thông minh có thể dịch chính xác tài liệu mà người dùng cần Có thể thamkhảo tại địa chỉ http://www.systransoft.com
1.1.4.3 Reverso
Hình 3.1 Giao diện hệ thống dịch Reverso
Trang 31Đây là hệ thống dịch của Softissimo để dịch các văn bản hoặc trang Web dướidạng HTML Hệ thống này có thể thực hiện được trên Internet hoặc như một ứngdụng độc lập trên máy tính đơn Địa chỉ của hệ thống dịch trên Internet là:
http://www.reverso.net/text_translation.aspx
1.1.4.4 Google Translate
Dịch vụ này hỗ trợ 65 ngôn ngữ trong đó có tiếng Việt, hiện là dịch vụ trựctuyến duy nhất hỗ trợ khả năng dịch toàn trang Web cho tiếng Việt, không giốngYahoo do sử dụng kiểu dịch trung gian nên cặp ngôn ngữ có khả năng dịch qua lạivới nhau lên tới con số 2080 (65 * 64/2), tuy nhiên nhiều cặp chất lượng dịch cònthấp [2], [10], [15] Thực tế, đó là kiểu dịch tự động 2 lần qua một ngôn ngữ trunggian nào đó (thường là tiếng Anh), với tính năng này có thể dịch một câu tiếng Việtsang 64 ngôn ngữ còn lại Có tính năng tương tác với người nhằm tăng chất lượngdịch cho các lần sau nhưng không hỗ trợ dịch chuyên ngành
Hình 4.1 Giao diện màn hình dịch với Google translate
1.2 MÔI TRƯỜNG HỢP TÁC
1.2.1 Khái niệm
Môi trường hợp tác (collaboration environment) là một môi trường được xâydựng trên công nghệ Web (World Wide Web) và hạ tầng mạng máy tính cho phépcác nhóm đối tượng có thể tham gia trao đổi, tranh luận, để cùng nhau chia sẻ
Trang 32những kiến thức, kỹ năng và những kinh nghiệm về một lĩnh vực mà họ cùng quantâm.
Đối với một đơn vị cụ thể, môi trường hợp tác giúp cho các thành viên trongcùng một phòng ban và các phòng ban khác cùng nhau tác nghiệp trong một hệthống thống nhất, giúp đỡ nhau hoàn thành tốt công việc được giao, giúp cho cácđơn vị giảm thời gian và tăng năng xuất làm việc
Môi trường hợp tác đã cung cấp cho lĩnh vực giáo dục và công nghệ dạy học,
đã phục vụ nhu cầu truyền thông và hợp tác của giảng viên, nhân viên, nhà nghiêncứu và sinh viên Hơn một chục ngàn người sử dụng môi trường hợp tác một cáchthường xuyên dựa trên E-mail, Web, media, file lưu trữ và các nhiệm vụ tính toánkhác Vào năm 2003 đã có 8.200 người tham gia phát triển gần 19.000 công cụ phụccho nhiều người sử dụng khác nhau, sinh viên xây dựng trên 12.000 danh mục đầu
tư trực tuyến mới và tổng số hoạt động học tập trực tuyến đã tăng đến 18.000.000.Trong bối cảnh hiện nay, việc sử dụng công nghệ thông tin là phổ biến, tuynhiên đa số các nhà biên dịch chuyên nghiệp đang làm việc để đáp ứng các nhu cầuđầu tư và phát triển các hệ thống dịch thuật cho các tài liệu khoa học và kỹ thuật,các giao dịch kinh doanh thương mại, cơ quan hành chính, tài liệu pháp lý, sổ tayhướng dẫn, các văn bản nông nghiệp và y tế, công nghiệp, tờ rơi, các báo cáo, …Các công việc này có nhiều thử thách và khó khăn trong khi cùng một lúc đòi hỏiphải có tính chính xác và nhất quán Do đó để có một bản dịch hoàn chỉnh hơn thìrất cần sự hỗ trợ của nhiều dịch giả về cùng một ngôn ngữ mà họ biết và quan tâmthông qua sự hỗ trợ của môi trường hợp tác Để tiến hành khai thác và nhận đượckết quả của những đóng góp cho bản dịch hoàn chỉnh; ta xây dựng một môi trườnghợp tác trên công nghệ Web và hạ tầng mạng máy tính cho phép các nhóm đốitượng có thể tham gia trao đổi, tranh luận, để cùng nhau chia sẻ những kiến thức, kỹnăng và những kinh nghiệm về một lĩnh vực mà họ quan cùng tâm
Những lợi ích mà môi trường hợp tác đem lại:
Giảng viên: Môi trường hợp tác giúp cho giảng viên dễ dàng hơn trong việc
quản lý các khoá học và tiến hành các hoạt động sư phạm trực tuyến
Trang 33Sinh viên: Các sinh viên có thể sử dụng thông tin liên lạc và các công cụ cộng
tác thường được sử dụng từ các giáo viên để hình thành nhóm nghiên cứu
Nhà nghiên cứu: Môi trường hợp tác sẽ cung cấp phương tiện, thông tin cho
các nhà nghiên cứu để dễ dàng tiến hành các cuộc điều tra, tổ chức chia sẻ dữ liệu,thông tin và giao tiếp với người khác về công việc
Người dùng chung: Người dùng có thể tham gia vào môi trường hợp tác tại
một lĩnh vực mà họ quan tâm để khai thác tri thức được tích luỹ từ môi trường
1.2.2 Các công cụ dùng để giao tiếp và hợp tác
Hiện nay, trên hệ thống mạng Internet nhiều nhà phát triển phần mềm đã tạo ramột số công cụ giúp cho con người có thể giao tiếp với nhau và cùng nhau hợp táctrong khi họ đang ở tại các vị trí địa lý khác nhau Một số công cụ điển hình nhưsau:
Hệ thống Website đã và đang đóng góp rất lớn vào việc phổ cập thông tin,Website đã làm thay đổi cả thế giới từ khi xuất hiện vào đầu những năm 90 của thế
kỷ trước Ngày nay, mọi giao tiếp thông qua Website đã trở thành phổ biến, nó cuốnhút mọi thành phần xã hội ở mọi nơi trên thế giới cùng tham gia Cùng nhau chia sẻthông tin cũng như tích luỹ những thông tin mới
E-mail là công cụ giao tiếp không đồng bộ trên Internet được sử dụng rộng rãinhất, cho phép mọi người có thể giao lưu trao đổi, chia sẻ thông tin với nhau Thôngtin được chia sẻ trên E-mail không chỉ bằng văn bản mà còn có thể bằng hình ảnhhoặc bằng video Hiện nay, đã có một số sản phẩm như Lotus Notes đã tích hợp E-mail với các công cụ hợp tác khác không đồng bộ giúp thực hiện công việc như lập
kế hoạch và tham gia vào các diễn đàn trên mạng hoặc các nhóm thảo luận
Không giống như E-mail, Chat cung cấp cho mọi người môi trường giao tiếpđồng bộ để nhiều người có thể trao đổi trực tiếp với nhau dựa trên Internet hoặcIntranet Đây là một môi trường ảo, chúng ta có thể giao tiếp với nhiều người cùngmột lúc
1.2.3 Các tính năng cơ bản của môi trường hợp tác
Trang 34Tuy có nhiều loại môi trường hợp tác tích hợp, cung cấp nhiều loại dịch vụ vàứng dụng khác nhau, nhưng tất cả đều có chung một số tính năng sau:
Khả năng cá nhân hoá (Customization): Cho phép thiết đặt các thông tin khác
nhau, cho các loại đối tượng sử dụng khác nhau theo yêu cầu Tính năng này dựatrên hoạt động thu thập thông tin về người dùng và cộng đồng người dùng, từ đócung cấp các thông tin chính xác tại thời điểm được yêu cầu
Tập hợp nội dung (Content aggregation): Cho phép xây dựng nội dung thông
tin từ nhiều nguồn khác nhau cho nhiều đối tượng sử dụng Sự khác biệt giữa cácnội dung thông tin sẽ được xác định qua các ngữ cảnh hoạt động của người dùng(user – specific context), ví dụ như đối với từng đối tượng sử dụng sau khi thôngqua quá trình xác thực thì sẽ được cung cấp thông tin khác nhau, hoặc nội dungthông tin sẽ được cung cấp khác nhau trong quá trình cá nhân hoá thông tin
Cung cấp nội dung (Content syndication): Thu thập nội dung thông tin từ
nhiều nguồn khác nhau, cung cấp cho người dùng thông qua các phương pháp hoặcgiao thức (protocol) một cách thích hợp Một hệ thống xuất bản nội dung thông tinchuyên nghiệp phải có khả năng xuất bản thông tin với các định dạng được quychuẩn, ví dụ như RDF (Resource Description Format), RSS (Realy SimpleSyndication), NITF (News Industry Text Format) và NewsXML Ngoài ra, các tiêuchuẩn dựa trên XML cũng phải được áp dụng để quản trị và hiển thị nội dung mộtcách thống nhất, xuyên suốt trong quá trình xuất bản nội dung thông tin Các tiêuchuẩn dựa trên XML này cho phép đưa ra giải pháp nhanh nhất để khai thác và sửdụng nội dung thông tin trên các Website khác nhau thông qua quá trình thu thập vàbóc tách nội dung thông tin với các định dạng được quy chuẩn
Quản trị hệ thống (Systeml administration): Xác định cách thức hiển thị thông
tin cho người dùng cuối Tính năng này không chỉ đơn giản là thiết lập các giaodiện người dùng với các chi tiết đồ hoạ (look-and-feel), với tính năng này, ngườiquản trị phải định nghĩa được các thành phần thông tin, các kênh tương tác vớingười sử dụng cuối, định nghĩa nhóm người dùng cùng với các quyền truy cập và sửdụng thông tin khác nhau
Trang 35Quản trị người dùng (User management): Cung cấp các khả năng quản trị
người dùng cuối, tuỳ thuộc vào đối tượng sử dụng của môi trường Tại đây, người
sử dụng có thể tự đăng ký trở thành thành viên tại cổng thông tin công cộng nhưYahoo, MSN (Microsoft Network),… hoặc được người quản trị tạo lập và gánquyền sử dụng tương ứng đối với các cổng thông tin doanh nghiệp Mặt khác, tuỳthuộc vào từng kiểu môi trường mà số lượng thành viên có thể từ vài nghìn tới hàngtriệu
1.2.4 Các công nghệ hỗ trợ môi trường hợp tác
Để có các hệ thống môi trường hợp tác do người lập trình phát triển và các hệthống nền tảng có thể hoạt động tương thích được với nhau, các kỹ sư và các hãngphần mềm trên thế giới cùng nhau xây dựng bộ tiêu chuẩn công nghiệp Hiện tại đã
có 2 tiêu chuẩn được công bố rộng rãi trên thế giới [29],bao gồm:
1.2.4.1 Portlet API (JSR 168)
Portlet API (JSR 168): Là tiêu chuẩn do hiệp hội Java Community Processcông bố, hiện tại chủ yếu được áp dụng cho các cổng thông tin xây dựng trên nềntảng Java Chuẩn này chỉ ra cách tương tác giữa ứng dụng nghiệp vụ (portlet) vớiportal framework Các portlet tuân thủ tiêu chuẩn này có thể hoạt động được ở tất cảcác portal server tuân thủ/hỗ trợ tiêu chuẩn JSR 168 Ví dụ: Một ứng dụng nghiệp
vụ (portlet) do Oracke phát triển, tuân thủ theo tiêu chuẩn JSR 168 thì có thể chạytrên IBM WebSphere Portal mà không phải biên dịch lại hoặc sửa đổi mã cho tươngthích Cộng đồng.NET cybfx đã tích cực áp dụng tiêu chuẩn này để đưa ra chuẩnportlet cho portal xây dựng trên.NET Framework (còn gọi là.NET portlet API)
1.2.4.2 Web Services for Remote Portlet (WSRP)
WSRP là một chuẩn do OASIS (Organization for the Advancement ofStructured Information Standards) công bố Chuẩn này chỉ ra cách thức giao tiếpgiữa một portal server với một ứng dụng nghiệp vụ từ xa (remote portlet) thông quadịch vụ Web Services) Các ứng dụng nghiệp vụ tuân thủ tiêu chuẩn này có thể chạytrên bất kỳ một portal server nào áp dụng tiêu chuẩn WSRP, không cần quan tâmrằng ứng dụng hay portal server xây dựng trên công nghệ/ngôn ngữ nào Hiện tại,
Trang 36có 2 loại công nghệ hỗ trợ Web Services tốt nhất là J2EE (Java 2 Enterprise Edition)và.NET Framework.
1.2.5 Một số môi trường hợp tác trên mạng
1.2.5.1 Văn phòng điện tử (WebOffice)
WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển
Hình 1.1 Giao diện trang WebOffice
Đây là một hệ thống được xây dựng trên cơ sở về môi trường cộng tác, chophép các thành viên trong một doanh nghiệp có thể tác động qua lại với nhau trongmột hệ thống thống nhất Hệ thống bao gồm một số dịch vụ cơ bản sau:
- Quản lý, kiểm soát, theo dõi việc thực hiện các công việc của dự án haynhóm công việc của cơ quan Tạo lập không giới hạn các dự án, nhóm công việccũng như các công việc trong dự án
- Cơ sở dữ liệu chứa các câu hỏi và câu trả lời cho những kiến thức chung màcán bộ, nhân viên cần để thực hiện công việc của mình, nâng cao hiệu quả và năngsuất làm việc
- Cho phép thành viên tạo các phòng họp không giới hạn, trò chuyện cùng mộtlúc nhiều phòng khác nhau, cho phép truyền file trực tiếp
1.2.5.2 Hệ thống Wiki
Trang 37Wiki là ví dụ cho một môi trường cộng tác tích hợp tri thức, Wiki được thiết
kế dưới dạng một hệ thống Website có cấu trúc đơn giản cho phép mọi người truycập vào lĩnh vực mà mình quan tâm một cách dễ dàng Wiki cho phép người truycập có thể xoá một nội dung cũ, chỉnh sửa hoặc bổ sung nội dung mới, bằng cáchnày wiki có tích hợp các thông tin khác nhau về một chủ đề nào đó và làm phongphú từ điển tri thức dùng chung
Hình 2.1 Giao diện trang Wikipedia
Wiki là nơi mà thông tin được cập nhật và chú trọng các nội dung mới, Wikiđược dùng để xây dựng và bổ sung cho những nội dung được sử dụng lâu dài.Wikipedia là minh chứng rõ nhất cho sự thành công của hình thức Wiki, nhiềungười có thể cùng chỉnh sửa một nội dung cho đến khi nó hoàn thiện Wikipedia trởthành một từ điển không thể thiếu cho nhiều người Ngày nay nhiều công ty tạo raWiki để làm dữ liệu cơ bản cho nội bộ, rất phù hợp để chia sẻ thông tin trong nhữngnhóm lớn
1.2.5.3 Hệ thống Windows Live Groups
Microsoft xây dựng môi trường cộng tác trực tuyến cho phép mọi người dễdàng tạo nhóm và cùng nhau làm việc trong cùng một môi trường nhằm cung cấpmột nền tảng ổn định miễn phí cho những người thường xuyên kết hợp các ý tưởng
Trang 38lại với nhau Nói cách khác Windows Live Groups là một thế giới cộng tác trựctuyến.
Trong môi trường Windows Live Microsoft đã cung cấp rất nhiều dịch vụ đểngười sử dụng khai thác, trong đó có một số dịch vụ tiêu biểu như sau: WindowsLive Hotmail, Calendar, Sky driver, Windows Live Messenger, Spacer, Weather,Yellow Pages, Shopping, Map,… Ngoài ra Windows Live còn kết hợp với OficeWeb Apps, cho phép người dùng tạo nhóm và quản lý nhóm, để thực hiện một dự ánnào đó
Hình 3.1 Giao diện trang Windows Live
Phiên bản Windows Live Messenger 9.0 (2009) được giới thiệu kèm theotrong gói ứng dụng Windows Live Essentials thuộc họ Live đã thật sự làm nhữngngười dùng Chat hài lòng qua những tính năng kết nối mang tính hướng mạng xãhội, các tuỳ chọn cá nhân hoá và giao diện mới rất hấp dẫn Ngoài ra còn có một sốtính năng khác như chia sẻ dữ liệu, tạo nhóm, làm cho Windows Live Messengermang tính chất mạng xã hội nhiều hơn
Trang 39Windows Live Hotmail cung cấp dung lượng lưu trữ gigabyte, bộ kiểm trachính tả là tự động, bộ lọc tuỳ ý và các tính năng an toàn, công nghệ lập trình Ajax
và tích hợp với Windows Live Messenger, Sacer, Calendar và Contacts HiệnHotmail đang có hàng triệu người dùng trên khắp thế giới và có 36 phiên bản ngôn ngữ
1.3 KHO NGỮ LIỆU SONG NGỮ
1.3.1 Một số khái niệm
Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứ thực
tế sử dụng ngôn ngữ Những chứng cứ sử dụng ngôn ngữ này có thể là của ngônngữ nói mà cũng có thể là ngôn ngữ viết Trong đó ngữ liệu tồn tại dưới dạng ngônngữ viết bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử
Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ vàngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ Đề tài này tập trung nghiên cứu
để xây dựng kho ngữ liệu đa ngữ Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữnày là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song Ngữ liệu song song cóthể gồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ
Kho ngữ liệu (Linguistic Corpus) là một tập hợp các mảnh ngôn ngữ đượcchọn lựa và sắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng nhưmột mẫu ngôn ngữ [19]
Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một kho ngữ liệu củangôn ngữ này là một bản dịch chính xác của ngôn ngữ kia Một số kho ngữ liệusong song, bao gồm ngữ liệu của nhiều ngôn ngữ Một số kho ngữ liệu song songthì ngữ liệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua
Trang 40một ngôn ngữ trung gian Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thôngqua ngôn ngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từtiếng Pháp sang tiếng Việt.
1.3.2 Ứng dụng của kho ngữ liệu song ngữ
Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn, nhưngchủ yếu là tiếng Anh, được rất nhiều nhà khoa học trên thế giới khai thác và sửdụng Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật, nhưng với quy
mô nhỏ hơn Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều cáckho dữ liệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển,dịch tự động, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, họcngoại ngữ,
Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp
ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông, ỞViệt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đếnkho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứtiếng, truyện Harry Potter (Chinese-Korean-Japanese-Vietnamese), các trang Websong ngữ Anh-Việt như VOV online, ThanhNien, Vietnamnet, NhanDan, Riêngkho ngữ liệu song ngữ (dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có khongữ liệu song ngữ Anh - Việt có tên là EVC [1]
Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụcho nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngônngữ học – so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoại ngữ,
1.3.2.1 Ứng dụng trong ngôn ngữ học – thống kê
Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vào việc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học Cùng với sự trợgiúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lênđáng kể [1]
1.3.2.2 Ứng dụng trong ngôn ngữ học so sánh