Những vấn đề liên quan đến xử lý ngônngữ tự nhiên rất đa dạng từ lý thuyết ngôn ngữ, phân tích văn bản, nhận dạng, dịch tựđộng, hỏi đáp tự động [4],… Đa số các phương pháp, kỹ thuật sử d
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG
Trang 3DANH SÁCH THAM GIA
Các cá nhân tham gia:
- PGS.TS Võ Trung Hùng, Ban Khoa học, Công nghệ và Môi trường, ĐHĐN
- ThS Hoàng Như Quỳnh, Trường Đại học Ngoại ngữ, Đại học Đà Nẵng
- Nguyễn Thị Hoa, Trường Cao đẳng Sư phạm tỉnh Quảng Trị
Các tổ chức phối hợp:
- Trung tâm DATIC, Trường Đại học Bách khoa, Đại học Đà Nẵng
- Trung tâm Phát triển phần mềm, Đại học Đà Nẵng
- Trung tâm Nghiên cứu về xử lý ngôn ngữ tự nhiên GETALP (Cộng hòaPháp)
i
Trang 4MỤC LỤC
DANH SÁCH THAM GIA i
MỤC LỤC ii
DANH MỤC HÌNH ẢNH iv
THÔNG TIN KẾT QUẢ NGHIÊN CỨU vi
RESEARCH RESULT INFORMATION vii
MỞ ĐẦU 1
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 3
1.1 Kho ngữ liệu song ngữ 3
1.1.1 Khái niệm 3
1.1.2 Ứng dụng của kho ngữ liệu song ngữ 4
1.1.3 Nghiên cứu một số kho ngữ liệu song ngữ trên thế giới 5
1.2 Một số nguồn có thể trích rút ngữ liệu 7
1.2.1 Nguồn từ điển 8
1.2.2 Ngữ liệu SUSANNE 9
1.2.3 Nguồn Internet 9
1.2.4 Nguồn sách 9
1.3 Dịch tự động 9
1.3.1 Lịch sử phát triển 9
1.3.2 Khái niệm 11
1.3.3 Cấu trúc của một chương trình dịch tự động 12
1.3.4 Một số hệ thống dịch tự động 16
1.4 Môi trường hợp tác 20
1.4.1 Khái niệm 20
1.4.2 Các công cụ dùng để giao tiếp và hợp tác 21
1.4.3 Các tính năng cơ bản của môi trường hợp tác 22
1.4.4 Các công nghệ hỗ trợ môi trường hợp tác 23
1.4.5 Một số môi trường hợp tác trên mạng 24
CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU 28
2.1 Giới thiệu 28
2.2 Mô hình tổng thể 28
2.3 Đề xuất giải pháp để xây dựng kho ngữ liệu song ngữ 30
2.3.1 Các tiêu chí chọn mẫu ngữ liệu 30
2.3.2 Chọn nguồn dữ liệu và chuẩn hóa 30
2.3.3 Xây dựng cấu trúc kho ngữ liệu song ngữ 32
2.4 Giải pháp trích rút ngữ liệu 34
2.4.1 Nguồn Từ điển Lạc Việt 34
2.4.2 Nguồn Báo điện tử VOV News 35
2.4.3 Các kho ngữ liệu được xây dựng sẵn 37 ii
Trang 5CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 39
3.1 Xây dựng kho ngữ liệu 39
3.1.1 Trích từ Từ điển Lạc Việt 39
3.1.2 Trích từ VOV New 45
3.1.3 Trích từ các kho ngữ liệu Anh, Pháp 56
3.1.4 Một số nguồn dữ liệu khác 59
3.2 Hiệu chỉnh kho ngữ liệu 59
3.2.1 Xây dựng hệ thống 59
3.2.2 Xây dựng giao diện hệ thống 63
3.3 Thử nghiệm và đánh giá chương trình 68
KẾT LUẬN 69
TÀI LIỆU THAM KHẢO 70
iii
Trang 6DANH MỤC HÌNH ẢNH
Hình 1 Quá trình xử lý của một chương trình dịch tự động 14
Hình 2 Giao diện hệ thống dịch Babel Fish 17
Hình 3 Giao diện hệ thống dịch Systran 18
Hình 4 Giao diện hệ thống dịch Reverso 19
Hình 5 Giao diện màn hình dịch với Google translate 20
Hình 6 Giao diện trang WebOffice 24
Hình 7 Giao diện trang Wikipedia 25
Hình 8 Giao diện trang Windows Live 27
Hình 9 Mô hình tổng quát để xây dựng kho ngữ liệu 29
Hình 10 Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau 31
Hình 11 Các giải pháp tổ chức CSDL 32
Hình 12 Giao diện của Từ điển Lạc Việt 34
Hình 13 Ví dụ về trang web có phiên bản ngôn ngữ khác 36
Hình 14 Sơ đồ quá trình trích từ Từ điển Lạc Việt 40
Hình 15 Mục từ có các câu ví dụ Anh – Việt 41
Hình 16 Tập tin tiếng Việt Doc trích từ Từ điển Lạc Việt 42
Hình 17 Tập tin tiếng Anh Doc trích từ Từ điển Lạc Việt 42
Hình 18 Hệ thống bóc tách nội dung của VietSpider 46
Hình 19 Trích nội dung từ web 47
Hình 20 Trang web tiếng Việt trước khi tách lấy nội dung 48
Hình 21 Trang web tiếng Anh trước khi tách lấy nội dung 49
Hình 22 Ví dụ tạo luồng trang VOV News tiếng Việt 50
Hình 23 Trang web tiếng Việt khi thực hiện tách lấy nội dung 50
Hình 24 Trang web tiếng Anh khi thực hiện tách lấy nội dung 51
Hình 25 Dữ liệu sau khi bóc tách 52
Figure 26 Sơ đồ quá trình xử lý trích từ trang web sử dụng MorphAdorner 53
Hình 27 Tách câu trực tuyến của MorphAdorner 54
Hình 28 Kết quả tách câu tiếng Anh bằng công cụ trực tuyến MorphAdorner 55 iv
Trang 7Hình 29 Kết quả tách câu tiếng Việt bằng công cụ trực tuyến MorphAdorner 56
Hình 30 Sơ đồ quá trình xử lý nguồn dữ liệu có sẵn 57
Hình 31 Giao diện Vdict 58
Hình 32 Mô hình kiến trúc môi trường hiệu chỉnh kho ngữ liệu 61
Hình 33 Cấu trúc quy ước lưu dữ liệu 62
Hình 34 Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp 63
Hình 35 Giao diện chính của hệ thống 64
Hình 36 Giao diện tìm kiếm, dịch câu, xem bản sửa 64
Hình 37 Giao diện hiệu chỉnh câu dịch 65
Hình 38 Giao diện câu đóng góp bị trùng 66
Hình 39 Giao diện thay đổi câu dịch dành cho chuyên gia 66
Hình 40 Giao diện Game điền khuyết 67
Hình 41 Giao diện Game sắp xếp thứ tự đúng của từ 67
Hình 42 Giao diện Game dịch Anh – Việt 68
v
Trang 8THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
- Tên đề tài: Xây dựng kho ngữ liệu đa ngữ phục vụ xử lý tiếng Việt.
- Mã số: Đ2012- -
- Chủ nhiệm: PGS.TS Võ Trung Hùng
- Thành viên tham gia: ThS Hoàng Như Quỳnh, Nguyễn Thị Hoa
- Cơ quan chủ trì: Đại học Đà Nẵng
- Thời gian thực hiện: 2012
4 Tóm tắt kết quả nghiên cứu:
- Hướng dẫn 1 học viên bảo vệ thành công 2 luận văn Thạc sĩ
- Xây dựng được kho ngữ liệu đa ngữ gồm tập các câu Anh, Pháp, Việt
- Công bố 1 bài báo trên Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng
Trang 9RESEARCH RESULT INFORMATION
1 General information:
- Project Title: Building a multilingual corpus for Vietnamese processing.
Code number: Đ2012
Coordinator: PGS.TS Võ Trung Hùng
- Members: ThS Hoàng Như Quỳnh, Nguyễn Thị Hoa
- Implementing Institution: The University of Danang
- One student successfully defended Master thesis
- Developing an multilingual corpus in English, French, and Vietnamese
- One article published in the Journal of Science and Technology, University
of Danang
5 Product name: UD Corpus
6 Application: using at DATIC (the University of Danang) and GETA (France)
7 Figure and flowchart
vii
Trang 10MỞ ĐẦU
Hiện nay, con người đang sử dụng hơn 7000 ngôn ngữ nói khác nhau, trong số đó
có 1500 ngôn ngữ có chữ viết [5] Chính vì sự đa dạng về ngôn ngữ và quá trình toàncầu hóa đang diễn ra mạnh mẽ nên vấn đề cấp thiết đặt ra hiện nay là làm thế nào đểnhững người nói hoặc viết bằng những ngôn ngữ khác nhau có thể hiểu được nhau dễdàng hơn
Để phục vụ cho mục đích đó, những nghiên cứu về xử lý ngôn ngữ tự nhiên đãđược các chính phủ, các trường đại học/viện nghiên cứu, các công ty phần mềm, cácnhà khoa học đầu tư nghiên cứu từ rất sớm Những vấn đề liên quan đến xử lý ngônngữ tự nhiên rất đa dạng từ lý thuyết ngôn ngữ, phân tích văn bản, nhận dạng, dịch tựđộng, hỏi đáp tự động [4],… Đa số các phương pháp, kỹ thuật sử dụng trong xử lýngôn ngữ tự nhiên đều cần đến các dữ liệu song ngữ hoặc đa ngữ
Hiện nay, đối với các ngôn ngữ lớn (ngôn ngữ có nhiều người sử dụng và/hoặcđược sử dụng bởi những quốc gia có tiềm lực mạnh về kinh tế, khoa học, kỹ thuật) đã
có nhiều kho ngữ liệu chất lượng được xây dựng Chúng ta có thể dễ dàng tìm thấycác kho ngữ liệu bằng tiếng Anh, tiếng Pháp, tiếng Hoa, tiếng Nhật… Đặc biệt, có rấtnhiều các kho ngữ liệu song ngữ Anh – Pháp, Anh – Hoa, Anh - Nhật,… Ngược lại,đối với những ngôn ngữ như tiếng Việt thì những nghiên cứu về nó chưa nhiều, rờirạc và đặc biệt là sự thiếu vắng các kho ngữ liệu lớn về khối lượng và đảm bảo vềchất lượng để phục vụ công tác nghiên cứu và phát triển các ứng dụng Vì vậy, việcnghiên cứu, xây dựng một kho ngữ liệu đa ngữ phục vụ cho xử lý tiếng Việt là mộtvấn đề cần thiết, cấp bách đặt ra hiện nay
Trong báo cáo này, chúng tôi trình bày lại các kết quả nghiên cứu và thực nghiệm
để xây dựng một kho ngữ liệu đa ngữ Anh – Pháp – Việt gồm tập hợp các câu songsong tương ứng trong 3 ngôn ngữ này
Phương pháp chúng tôi sử dụng là dùng các hệ thống dịch tự động sẵn có nhưSystran, Google, Reverso, … để dịch tự động một số kho ngữ liệu sẵn có sang ngônngữ khác (chủ yếu là từ tiếng Anh sang tiếng Pháp hoặc sang tiếng Việt) và sau đó sửdụng môi trường hợp tác để mọi người tham gia hiệu chỉnh Chất lượng của kho ngữliệu này sẽ liên tục được cải thiện bởi sự tham gia đóng góp của người sử dụng (trongtrường hợp nghiên cứu này là sự tham gia của giảng viên, sinh viên ngoại ngữ) vàcuối cùng sẽ được kiểm tra và xác nhận bởi các nhà ngôn ngữ Kết quả chúng tôi đạt1
Trang 11được gồm: một kho ngữ liệu gần 100 ngàn câu tương ứng trong 3 ngôn ngữ Anh,Pháp và Việt Nam; các công cụ hỗ trợ thu thập, tiền xử lý các dữ liệu trên Internet, từcác từ điển và một số kho ngữ liệu đơn ngữ hoặc song ngữ sẵn có; công cụ sử dụnglại các hệ thống dịch tự động sẵn có để dịch các tập tin từ ngôn ngữ này sang ngônngữ khác; một môi trường hợp tác để hiệu chỉnh kho ngữ liệu.
Đề tài này được thực hiện với sự phối hợp, hỗ trợ của Trung tâm Nghiên cứu vềdịch tự động và xử lý ngôn ngữ của Đại học Bách khoa Quốc gia Grenoble Đặc biệt,chúng tôi xin chân thành cảm ơn GS.TSKH Christian BOITET đã hỗ trợ và đưa ramột số ý tưởng bổ ích cho nhóm tác giả trong quá trình triển khai thực hiện đề tài này.Báo cáo của đề tài được tổ chức thành 3 chương Chương 1 dành để giới thiệucác kết quả nghiên cứu tổng quan như khái niệm chung về kho ngữ liệu ngôn ngữ(kho ngữ liệu), về các phương pháp, công cụ và nguồn dữ liệu sử dụng để xây dựngkho ngữ liệu Chương 2 dành để giới thiệu về một số giải pháp đề xuất và các công cụ
sử dụng Chương 3 dành để giới thiệu các bước triển khai, thử nghiệm và đánh giá hệthống
Trang 12CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN
Trong chương này, chúng tôi trình bày một số kết quả nghiên cứu tổng quan liênquan đến đề tài gồm các khái niệm về kho ngữ liệu song ngữ, các vấn đề liên quanđến xây dựng kho ngữ liệu đa ngữ, ứng dụng dịch tự động và môi trường hợp tác khixây dựng kho ngữ liệu đa ngữ
1. Kho ngữ liệu song ngữ
1.1. Khái niệm
1 Ngữ liệu
Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứ thực tế
sử dụng ngôn ngữ Những chứng cứ sử dụng ngôn ngữ này có thể là của ngôn ngữ nói
mà cũng có thể là ngôn ngữ viết Trong đó ngữ liệu tồn tại dưới dạng ngôn ngữ viếtbao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử [16]
Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ và ngữliệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ Đề tài này tập trung nghiên cứu đểxây dựng kho ngữ liệu đa ngữ Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữ này
là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song Ngữ liệu song song có thểgồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ Trong đề tài này thực hiện xây dựngngữ liệu song song của 3 ngôn ngữ gọi tắt là ngữ liệu đa ngữ cụ thể là ngữ liệu gồmcác bộ song ngữ Anh – Pháp - Việt [1]
2 Kho ngữ liệu
Kho ngữ liệu (linguistic corpus) là một tập hợp các mảnh ngôn ngữ được chọnlựa và sắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng như mộtmẫu ngôn ngữ
Hoặc có một định nghĩa khác “Kho ngữ liệu là một hệ thống tham chiếu dựa trênmột bộ sưu tập điện tử của văn bản bao trong một ngôn ngữ nhất định”
3 Kho ngữ liệu song ngữ
Trang 13Kho ngữ liệu song ngữ (Parallel corpus) là một kho các cặp văn bản song ngữđược trình bày dưới dạng điện tử, trong đó có mỗi ngôn ngữ là bản dịch của ngôn ngữkia
Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một ngữ liệu của ngônngữ này là một bản dịch chính xác của ngôn ngữ kia Một số kho ngữ liệu song song,bao gồm ngữ liệu của nhiều ngôn ngữ Một số kho ngữ liệu song song thì dữ liệu củangôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua một ngôn ngữtrung gian Ví dụ: kho ngữ liệu Anh – Việt, từ tiếng Anh có thể thông qua ngôn ngữtrung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từ tiếng Pháp sangtiếng Việt
1.2. Ứng dụng của kho ngữ liệu song ngữ
Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn nhưng chủyếu là tiếng Anh được rất nhiều nhà khoa học trên thế giới khai thác và sử dụng.Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật, nhưng với quy mô nhỏhơn Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều các kho ngữliệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tự động,tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoại ngữ, Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp ởthư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông, Ở ViệtNam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đến khongữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứ tiếng,truyện Harry Potter ( Chinese-Korean-Japenese-Vietnamese), các trang web song ngữAnh-Việt như ThanhNien, Vietnamnet, NhanDan, Riêng kho ngữ liệu song ngữ(dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có kho ngữ liệu song ngữ Anh -Việt có tên là EVC [1]
Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụ chonhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngôn ngữ học– so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoại ngữ,
4 Ứng dụng trong ngôn ngữ học – thống kê
Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vào việcthống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học Cùng với sự trợ giúp củamáy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lên đáng kể [1]
Trang 145 Ứng dụng trong ngôn ngữ học so sánh
Ngôn ngữ học so sánh là so sánh các điểm tương đồng, khác biệt giữa các ngônngữ Để so sánh chúng ta cần có các cứ liệu của các ngôn ngữ mà chúng ta cần sosánh vì vậy việc thu thập, tổng hợp cứ liệu từ các nguồn khác nhau là rất cần thiết Vìvậy, kho ngữ liệu song ngữ Anh – Việt là nguồn cứ liệu quan trọng để có thể khai tháctrong việc phục vụ cho ngôn ngữ học so sánh [1]
6 Ứng dụng trong giảng dạy ngoại ngữ
Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu vàtài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặc biệt làkho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đích dạy tiếngAnh cho người Việt và dạy tiếng Việt cho người nước ngoài giúp cho người học tránhđược các lỗi thường gặp như cách đặt câu, sử dụng từ như trong tiếng mẹ đẻ, Khongữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảng dạy tiếng Anh để lấpkhoảng trống giữa thực hành và lý thuyết Đồng thời, các giáo viên khi sử dụng khosong ngữ có thể làm giàu thêm kiến thức của họ, cung cấp thêm dữ liệu xác thựctrong bài giảng và cũng là công cụ hữu ích trong việc thiết kế giáo trình [17]
7 Ứng dụng trong việc nghiên cứu dịch thuật
Kho ngữ liệu song song có thể giúp phiên dịch để tìm ra sự tương đương giữangôn ngữ nguồn và đích Chúng cung cấp thông tin về tần số của từ, sử dụng cụ thể
từ vựng và cú pháp Kho ngữ liệu song song có thể giúp phiên dịch để phát triển cácchiến lược dịch thuật có hệ thống các từ hay cụm từ hay câu không có tương đươngtrực tiếp bằng ngôn ngữ đích Trên cơ sở đó, tập hợp các bản dịch có thể được xácđịnh và các dịch giả có thể chọn một chiến lược dịch theo các chủ đề cụ thể và thểloại [17]
1.3. Nghiên cứu một số kho ngữ liệu song ngữ trên thế giới
8 British National Corpus (BNC)
Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn Ấnbản mới nhất là BNC XML Edition, phát hành vào năm 2007 XML là một tiêu chuẩn
để lưu trữ dữ liệu có cấu trúc một cách linh hoạt [3]
Trang 15Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực vàquốc gia, các ấn phẩm đặt biệt xuất bản định kỳ và các tạp chí dành cho mọi lứa tuổi,sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loại văn bảnkhác Phần ngôn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộc hội thoạikhông chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các độ tuổi khácnhau, khu vực và các lớp xã hội một cách cân bằng) và ngôn ngữ nói được thu thậptrong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộc họp chính phủđài phát thanh và điện thoại.
Kho ngữ liệu bắt đầu xây dựng vào năm 1991, và được hoàn thành vào năm
1994 Sau đó không có văn bản mới thêm vào sau khi hoàn thành dự án nhưng cácngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC World(2001) và phiên bản thứ ba BNC XML Edition (2007) Kể từ khi hoàn thành dự án,
có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNC Sampler (một
bộ sưu tập chung của một triệu từ chữ viết, một triệu từ đàm thoại) và BNC Baby (41triệu từ thuộc bốn thể loại khác nhau: tiểu thuyết, báo chí, viết luận và đàm thoại )[14][15]
9 Canadian Hansard Corpus (Anh – Pháp)
Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng đượctrích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngôn ngữ chínhthức tại Canada là tiếng Anh và tiếng Pháp Nội dung của nó được giới hạn trong luậnlập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụ nhưthảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu được chuẩn
bị trước
Có một vài phiên bản của ngữ liệu song song Hansard Canada Các phiên bảnUSC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn) từcác hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với2.000.000 từ trong tiếng Anh và tiếng Pháp Phiên bản này được tự do tải về tại trangweb USC TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùng đăng
ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm 2003(khoảng 235.000.000 từ) [13]
10 JENAAD Japanese – English Parallel Corpus (Anh – Nhật)
Trang 16Kho ngữ liệu Japanese - English News Article Alignment Data (JENAAD) chứa150.000 cặp câu Nguồn gốc của kho ngữ liệu được lấy từ Yomiuri Shimbun, mộttrong những tạp chí quốc gia của Nhật Bản, và tờ báo tiếng Anh Daily Yomiuri Cácngữ liệu đã được cấp phép từ Viện Công nghệ Thông tin và Truyền thông Quốc gia
(National Institute of Information and Communications Technology - NICT) Nhật Bản
nhằm phục vụ cho mục đích nghiên cứu và giáo dục
11 PKU 863 (Anh - Trung) của Đại học Bắc Kinh
Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngôn ngữhọc Tính toán của Trường đại học Peking Kho ngữ liệu gồm có hơn 200.000 liên kếtnhững cặp câu được lấy từ những văn bản song ngữ có chất lượng (3.066.435 từ tiếngAnh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực, ví dụ những văn bảncủa chính phủ, những tài liệu chính thức, những văn bản tin tức, những bài tiểu luận,những kịch bản bài phát biểu, những văn bản văn học, văn xuôi hàn lâm, cũng nhưvăn học chính trị, luật, du lịch, công nghiệp thực phẩm, kinh tế và kinh doanh Đa sốcác văn bản được lấy từ các trang web song ngữ trong khi một số được số hoá bằngcách quét vào rồi qua công đoạn nhận dạng chữ (OCR: Optical CharacterRecognization)
2. Một số nguồn có thể trích rút ngữ liệu
Với sự ra đời và phát triển mạnh mẽ của máy tính điện tử cũng như mạng Internet
đi cùng theo nó là kho dữ liệu khổng lồ tồn tại dưới dạng điện tử thì việc thu thập ngữliệu đã được tự động hóa rất nhiều Các kho ngữ liệu song song hiện nay thường đượcchọn lọc từ các nguồn tài liệu như: báo chí, sách giáo khoa, các website song ngữhoặc các ngữ liệu điện tử từ các sách, truyện nổi tiếng nhiều thứ tiếng Tuy nhiên cómột số hạn chế trong việc thu thập dữ liệu đó là các ngữ liệu song ngữ có sẵn trênmạng Internet đa số đều là các bản dịch thoát ý, hoặc dịch ý chính không dịch 1 -1.Với định hướng như trên, nên nguồn ngữ liệu song ngữ Anh - Việt được chọn làtập hợp các câu, văn bản song ngữ được rút ra từ các nguồn ngữ liệu phù hợp, như:các tài liệu về KHKT (đặc biệt là Tin học), các câu ví dụ Anh - Việt trong các từ điển,ngữ liệu SUSANNE,… Các nguồn này ở nhiều dạng khác nhau (sách, điện tử) vàđược nhập hay quét vào rồi qua công đoạn nhận dạng chữ OCR Sau đây là cácnguồn ngữ liệu song ngữ Anh - Việt thô có thể thu thập được:
Trang 172.1. Nguồn từ điển
Trong mỗi từ điển, ở mỗi mục từ, thường chứa các ví dụ hướng dẫn sử dụng từ
đó, và các ví dụ bằng tiếng Anh này cũng được dịch chính xác (1-1) sang tiếng Việt.Nếu xét về chuẩn ngôn ngữ thì ngữ liệu trong các từ điển là đạt yêu cầu nhất (nhất làcác từ điển nổi tiếng, nhiều người sử dụng, các từ điển được các cơ quan hay học giả
uy tín biên soạn, các câu tiếng Anh được các nhà làm từ điển trích từ từ điển Oxford,Webster) Hầu hết các ví dụ này đều là các câu thông thường (đáp ứng tiêu chuẩn vềphong cách/lĩnh vực)
Hình 1.1 Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ
2.2. Ngữ liệu SUSANNE
Đây là ngữ liệu điện tử tiếng Anh được xây dựng bởi một nhóm các nhà ngônngữ học - máy tính (đứng đầu là Geoffrey Sampson) thuộc trường đại học Sussex,Anh SUSANNE (Surface and Underlying Structural ANalyses of Naturalistic
Trang 18English) là một phần trong dự án phân tích và đánh dấu tiếng Anh theo hướng ngônngữ học máy tính SUSANNE gồm khoảng 128.000 từ được rút từ ngữ liệu Brown
2.3. Nguồn Internet
Đây là nguồn dữ liệu khổng lồ, nguồn ngữ liệu này có lợi thế là chúng đã tồn tạisẵn dưới dạng điện tử (nên không phải nhập liệu lại bằng tay) Kho ngữ liệu trênInternet thì vô cùng lớn với vô vàn các lĩnh vực/phong cách khác nhau, nhưng chỉ cómột số ít các trang Web song ngữ là đáp ứng được đúng tiêu chuẩn
điển song ngữ với chức năng tra từ tự động bằng các băng giấy, tiếp theo một người
Nga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi tiết hơn Nó không chỉ có một bộ từ điển song ngữ mà còn bao gồm các quy tắc ngữ pháp cơ bản dựa trên quốc
tế ngữ (Esperanto).
Lịch sử của dịch tự động được chính thức ghi nhận từ thập niên 1950 mặc dù nhưtrên trình bày trước đó một số công việc ở dạng manh nha đã được thực hiện Vàonăm 1954, thực nghiệm Georgetown - IBM (International Business Machines) đãthực hiện thành công thí nghiệm dịch tự động hoàn toàn hơn 60 câu tiếng Nga sangtiếng Anh Thành công bước đầu này đã tạo điều kiện để lập ra những quỹ đầu tư cógiá trị cho các nghiên cứu Các tác giả (tại thời điểm đó) tuyên bố rằng chỉ trong vòng
từ 3 đến 5 năm nữa vấn đề dịch máy sẽ được giải quyết
Trang 19Nhưng thực tế diễn ra chậm hơn nhiều, báo cáo ALPAC vào năm 1966 cho thấysau hơn 10 năm nghiên cứu lĩnh vực này vẫn không có những tiến bộ đáng kể và hệquả là số tiền chi cho nghiên cứu giảm mạnh Vào cuối thập niên 1980, khi máy vitính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu quan tâmhơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đókhông thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế.
Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất nhiềunghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu Hiện nay có một số công tyxây dựng chương trình dựa trên thống kê như Language Weaver (chuyên cung cấpcác sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và Microsoftcũng có các sản phẩm tương tự do chính họ giữ bản quyền Một hướng tiếp cận mới
là kết hợp các phương pháp với nhau, như những nghiên cứu phối hợp giữa cácnguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê
Những năm thập niên 1960 vấn đề dịch tự động cho tiếng Việt đã bắt đầu đượcnghiên cứu, hầu hết đều do các nguyên nhân chính trị và quân sự Các tài liệu nướcngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E Scott thành lậpcông ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổ chức hệ thốngdịch tự động từ tiếng Anh ra tiếng Việt Scott bắt đầu chuẩn bị cho việc tổ chức hệthống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệ máy tính tại NewYork, Mỹ Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động có tên Logos I ra đờivới từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt, tác giả của hệ thống này
là Byrne, Charles E.; Scott, Bernard E.; Binh, Truong N [9-C1] Nhưng hệ thống nàykhông tồn tại được lâu, việc nghiên cứu của Scott chấm dứt vào năm 1973 Cũngtrong khoảng thời gian này, một dự án khác về xây dựng hệ thống dịch tự động từtiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên 1970 tại Tập đoàn viễnthông Xyzyx, California Hệ thống này đầu tiên được xây dựng để dịch văn bản Anh
- Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắc hoạt động tương tự như của
hệ thống Logos Tuy nhiên, hệ dịch máy Anh-Việt được sử dụng rộng rãi tại Việt namđầu tiên là EVTRAN - 1997 Và sau đó EVTRAN 2.0, 1999 với hơn 200.000 từ vàcụm từ Từ năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) biên dịch văn bảnhai chiều Anh-Việt và Việt-Anh (với hơn 500.000 mục từ vựng)
3.2. Khái niệm
Dịch tự động hay còn gọi là dịch máy (MT: machine translation) là một nhánhcủa xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo Nó là sự kết hợp giữa
Trang 20ngôn ngữ, dịch thuật và khoa học máy tính Như tên gọi, dịch tự động thực hiện dịchmột văn bản từ ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều văn bảncủa ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, có hoặc không có sự canthiệp của con người trong quá trình dịch Khó khăn của việc thiết kế chương trìnhdịch tự động là làm sao khử nhập nhằng hiệu quả Nói về tính nhập nhằng, đây là kháiniệm chỉ tính không rõ ràng của ngôn ngữ, chẳng hạn khi viết từ “đường kính” thì vẫnchưa rõ là nó chỉ một loại "chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng điqua tâm và nối hai điểm của đường tròn, của mặt cầu" Nhập nhằng như ví dụ vừa rồi
là do hiện tượng đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác nhưnhập nhằng từ loại, nhập nhằng từ đa nghĩa Khi dịch tự động từ tiếng Việt sang tiếngAnh, khó khăn đầu tiên lại là việc xác định ranh giới từ, không giống như tiếng Anh(và nhiều ngôn ngữ khác) mỗi từ đã mang trọn vẹn một nghĩa và được xác định ranhgiới qua khoảng trắng, tiếng Việt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép,nếu không xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụnhư từ "miễn bàn" có thể bị dịch thành free table Với tiếng Anh do là ngôn ngữ biếnhình nên việc xác định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tựhoàn toàn giống nhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anhcũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xácđịnh nghĩa chính xác phải phải thực hiện phân tích văn cảnh
Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạothành câu hoàn chỉnh Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu côngviệc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếng Anh vàtiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếng Trung thìrất khó khăn Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hết sức phức tạp, ápdụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả của chúng vẫn khôngđược tốt
Thuật ngữ dịch máy hay dịch tự động không chỉ bao gồm máy tính dựa vào các
bộ từ điển và các phương pháp tiếp cận vào cơ sở dữ liệu để có thể đọc được văn bảnhoặc tương tác với quá trình xử lý ngôn ngữ, chỉnh sửa văn bản để cho ra bản dịchcuối cùng Mà nó còn bao gồm các hệ thống, mà trong đó người dịch hoặc nhữngngười sử dụng hỗ trợ máy tính trong quá trình dịch thuật như khâu chuẩn bị văn bảnhay những chỉnh sửa cần thiết trước khi cho ra một bản dịch hoàn chỉnh Trên thực tế,kết quả của hầu hết các hệ thống dịch bằng máy tính đều được sửa đổi bởi con người.Như vậy trong trường hợp này bản dịch bằng máy tính không khác mấy so với bảndịch do con người dịch Lúc đó các loại lỗi sai được tạo ra bởi hệ thống dịch tự động
Trang 21thì khác so với các lỗi sai của người dịch Còn trong trường hợp bản dịch tự độnghoàn toàn do máy tính không có sự can thiệp của con người có thể được hiểu như một
“bản dịch nghĩa” - một bản dịch chưa hoàn chỉnh nhưng giúp chúng ta hiểu được vănbản gốc
Tóm lại, dịch tự động bằng máy tính chính nó không phải là lĩnh vực độc lập, mà
nó lấy từ ngôn ngữ, khoa học máy tính, trí tuệ nhân tạo, lý thuyết dịch, một vài ýkiến, một số phương pháp và kỹ thuật để có thể phát triển hoàn thiện một hệ thốngdịch nào đó Ranh giới giữa hệ thống dịch bằng máy tính do con người hỗ trợ và hệthống dịch bằng máy nhằm hỗ trợ cho con người rất gần nhau và đôi khi có thể hỗ trợcho cả hai Nhưng cốt lõi trọng tâm của dịch tự động bằng máy tính là tự động hoámột hoặc toàn bộ quá trình dịch để kết quả lý tưởng cuối cùng là nhanh chóng tạo ranhững bản dịch có chất lượng cao và chi phí thấp hơn nhiều so với dịch bằng conngười
3.3. Cấu trúc của một chương trình dịch tự động
Việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt ra
từ rất lâu, tuy nhiên thành công của các hệ dịch tự động mới chỉ hạn chế trong việcdịch tự động các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ pháp cũng như
từ vựng, ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp, tiếng Anh sangtiếng Nga, ; thậm chí, kết quả khả dĩ chỉ đạt được với các loại văn bản khoa họchoặc pháp luật vốn được viết bới văn phạm rất rõ ràng, chính xác và đơn nghĩa Vớinhững cặp ngôn ngữ có hệ thống ngữ pháp và ngữ nghĩa khác nhau khá xa, kết quảcủa các chương trình dịch tự động là rất hạn chế Với các bài toán dịch tự động nóichung, chúng ta đều gặp phải 3 vấn đề lớn sau đây:
(1) Số lượng từ vựng của ngôn ngữ là rất nhiều và biến đổi phức tạp (chia ngôi,giống, số, cách, )
(2) Ngữ pháp của ngôn ngữ chưa được khảo sát kỹ, quá nhiều ngoại lệ khi sửdụng (chẳng hạn văn nói - thường sử dụng nói tắt, thiếu các thành phần của câu), một
số ngôn ngữ chưa có các nghiên cứu đầy đủ về ngữ pháp (ví dụ như tiếng Việt)
(3) Ngữ nghĩa được sử dụng rất phong phú, phải sử dụng ngữ cảnh mới có thểhiểu đúng ý nghĩa của từ
Trong 3 vấn đề trên, vấn đề (1) dễ giải quyết hơn và đã được giải quyết khá trọnvẹn với hầu hết các ngôn ngữ thông dụng trên thế giới; vấn đề (2) đã được giải quyết
Trang 22một phần lớn trong nhiều ngôn ngữ thông dụng, đặc biệt là với các ngôn ngữ ở châu
Âu, nơi mà việc nghiên cứu về ngôn ngữ rất có hệ thống và có lịch sử đã vài trămnăm Vấn đề xử lý ngữ nghĩa (3) là vấn đề khó nhất trong dịch tự động, hiện đangđược nghiên cứu rộng rãi và cũng đã đạt được nhiều kết quả hữu ích Trong báo cáonày, chúng tôi sẽ đề cập đến một phương pháp xử lý ngữ nghĩa có nhiều triển vọngtrong dịch tự động, phương pháp xử lý ngữ nghĩa dựa trên cú pháp điều khiển và họcmáy
Có nhiều chương trình dịch tự động khác nhau và các chương trình dịch này cũng
có cấu trúc chi tiết khác nhau, tuy nhiên về mặt cấu trúc tổng thể, tất cả các chươngtrình đều được chia làm 3 khối chính: khối xử lý hình thái, khối xử lý ngữ pháp vàkhối xử lý ngữ nghĩa Sự khác nhau giữa các chương trình nằm ở cách thức và mức
độ xử lý hình thái, ngữ pháp hay ngữ nghĩa khác nhau Một vài chương trình cómodul xử lý hình thái đơn giản, việc xử lý tinh tế hơn được giao cho các modul phíasau, trong một vài chương trình khác, phần xử lý hình thái có thể có một vài thao tácảnh hưởng cả đến modul xử lý ngữ nghĩa Vấn đề cũng tương tự đối với các modulkhác như xử lý ngữ pháp và xử lý ngữ nghĩa, lý do có sự khác biệt giữa các cấu trúcnằm ở quan điểm về nhiệm vụ của mỗi modul và ở các thuật toán xử lý ngôn ngữ Dùvậy, hầu hết các chương trình đều làm việc một cách đơn giản theo sơ đồ sau:
Trang 23Hình 1 Quá trình xử lý của một chương trình dịch tự động Khối xử lý hình thái
Khối xử lý hình thái là khối đầu tiên của chương trình dịch tự động, khối nhận dữliệu đầu vào là một câu của ngôn ngữ nguồn và phân tích hình thái của câu đó Nóichung, một khối phân tích hình thái thường làm các nhiệm vụ sau:
(1) Chia cắt một câu trong ngôn ngữ nguồn thành các từ độc lập
(2) Tìm tất cả các hình thái và thông tin bổ sung của các từ trong câu để phục vụquá trình xử lý về sau
Thông thường, nhất là đối với các ngôn ngữ ở châu Âu, nhiệm vụ (1) của khối xử
lý hình thái là không khó vì hầu hết tất cả các từ đều nằm nguyên thành một chữ,không cần chia cắt – ngoại trừ một số trường hợp đặc biệt như viết tắt (có thể xử lýngoại lệ) Với một số ngôn ngữ (như với tiếng Việt, tiếng Nhật,…) vấn đề trở nên rấtkhó nếu các từ trong ngôn ngữ được chia thành nhiều cụm có thể hiểu nhập nhằng, ví
dụ, xét câu sau: “Ông già đi nhanh quá”
Trang 24Chúng ta có ít nhất 2 cách phân cách từ:
Cách 1: “Ông già” | “đi” | “nhanh” | “quá”
Cách 2: “Ông” | “già đi” | “nhanh” | “quá”
Trong trường hợp trên không có cách nào đánh giá cách phân cách từ nào tốt hơn,chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần xử lý ngữ nghĩa sẽtiến hành đáng giá xem trường hợp nào là hợp lý hơn và chọn lựa
Nhiệm vụ (2) của khối xử lý hình thái dễ dàng hơn, với đa số ngôn ngữ việc tìmtất cả các hình thái và thông tin liên quan đến từ/cụm từ chỉ là vấn đề xử lý từ tố vàtra từ điển
Theo ý kiến của nhiều tác giả [7], khối xử lý hình thái còn có một nhiệm vụ khác,
đó là nhiệm vụ cắt câu, hay nói cách khác là xác định xem nội dung của một câu trongngôn ngữ nguồn bắt đầu và kết thúc từ đâu Trong thực tế không thể giải quyết trọnvẹn bài toán ngắt câu cho ngôn ngữ tự nhiên, nhưng may mắn là các trường hợpkhông ngắt câu được không ảnh hưởng nhiều đến kết quả cuối cùng [9] Một vài bộdịch tự động thậm chí không quan tâm đến việc ngắt câu – xuất phát từ quan điểm chỉcần thông dịch tốt các cấu trúc ngôn ngữ nhỏ (ngữ danh từ, ngữ động từ, cụm từ, …)
Khối xử lý ngữ pháp
Khối xử lý ngữ pháp xây dựng cây phân tích ngữ pháp cho câu đầu vào dựa trênvăn phạm của ngôn ngữ nguồn Khối này nhận danh sách các hình thái từ đã đượcsinh ra bởi khối xử lý hình thái, tiếp đến, khối này sẽ tiến hành phân tích văn phạmcủa câu dựa trên văn phạm của ngôn ngữ nguồn và thông tin bổ sung – thường là cácvăn phạm bổ sung cho phép sinh cây phân tích chính xác hơn Nói chung, có thể ápdụng các phương pháp phân tích cú pháp của các ngôn ngữ nhân tạo cho ngôn ngữ tựnhiên Tuy nhiên, vấn đề không suôn sẻ như các ngôn ngữ nhân tạo, có những vấn đềchính sau đây thường gặp phải khi chúng ta sử dụng các bộ phân tích văn phạm thôngthường:
(1) Văn phạm của các ngôn ngữ tự nhiên thường rất phức tạp
(2) Trong ngôn ngữ nói, người sử dụng thường nói tắt, thậm chí nói sai ngữ pháp– không thể phân tích ngữ pháp được
Trang 25(3) Xuất phát hiện tượng có nhiều cây phân tích ứng với một câu – dẫn đến nhiềukhả năng dịch khác nhau cho một câu
Vấn đề ngữ pháp dù rất phức tạp nhưng nhiều bộ phân tích cú pháp cho các ngônngữ tự nhiên đã được xây dựng và chúng hoạt động rất tốt, như vậy đây không phải
là vấn đề không thể vượt qua khi xây dựng các bộ dịch tự động các ngôn ngữ tựnhiên [6]
Khối xử lý ngữ nghĩa
Xử lý ngữ nghĩa là khối cuối cùng trong dịch tự động Khối nhận đầu vào là câyphân tích từ khối xử lý ngữ pháp và thực hiện sinh câu ở ngôn ngữ đích Việc thựchiện để sinh câu được thực hiện dựa trên 4 nguồn thông tin chính: Cây phân tích ngữpháp (lấy từ khối xử lý ngữ pháp), nghĩa của các từ tố trong câu văn nguồn (lấy từdãy hình thái từ tố của khối xử lý hình thái), cú pháp điều khiển (là thông tin bổ sungcủa văn phạm, được sinh bởi khối xử lý hình thái) và thông tin ngữ cảnh (được tổnghợp từ việc xử lý ngữ nghĩa các câu trước và nhận vào từ người sử dụng chươngtrình) Nhiệm vụ chính của khối xử lý ngữ nghĩa là:
(1) Thực hiện việc đánh giá các cây phân tích cú pháp (nếu khối xử lý ngữ phápphân tích được nhiều cây phân tích) và lựa chọn cây tốt nhất
(2) Thực hiện việc chọn nghĩa thích hợp nhất cho các từ tố của ngôn ngữ nguồntrong ngôn ngữ đích
(3) Sinh câu trong ngôn ngữ đích đúng với văn phạm của ngôn ngữ đó (vấn đề xử
lý thứ tự các từ)
Đôi khi nhiệm vụ (1) được xem là của khối xử lý ngữ pháp, nhưng trong phươngpháp xử lý ngữ nghĩa bằng cú pháp điều khiển ta xem nhiệm vụ (1) là của khối xử lýngữ nghĩa vì việc này được thực hiện bằng cú pháp điều khiển [6][12]
Trang 26tiếng Pháp và tiếng Trung Quốc được hỗ trợ nhiều nhất; tiếp đến là tiếng Đức, TâyBan Nha, Ý, Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy Lạp và Hà Lan và đặt tại địa chỉ
hệ thống mạng cục bộ Phiên bản dùng trên Internet có thể dịch cho 52 cặp ngôn ngữ
và đặt tại địa chỉ http://www.systranet.com/
Trang 27Hình 3 Giao diện hệ thống dịch Systran
Bên cạnh đó, Systran 7.0 là một phần mềm cực mạnh với hệ thống nhận dạng vănbản thông minh có thể dịch chính xác tài liệu mà người dùng cần Có thể tham khảotại địa chỉ http://www.systransoft.com Hiện nay, phiên bản Premium có các tính năngsau như dịch text trơn qua công cụ Systran toolbar, dịch bất cứ đoạn văn bản được bôiđen trong các cửa sổ soạn thảo, dịch văn bản trên trình duyệt (Internet Explorer,Firefox), dịch văn bản định dạng Word, PowerPoint, Excel, XML, HTML, MHT, PDF
và hỗ trợ dịch mail trong Outlook, hỗ trợ cộng cụ tạo và quản lý từ điển (SystranDictionary Manager) Systran hỗ trợ chuyển ngữ (song ngữ) từ các ngôn ngữ sau:Trung Hoa, Hà Lan, Pháp, Đức, Ý, Nhật, Hàn Quốc, Ba Lan, Nga, Tây Ban Nha,Thuỷ Điển sang Anh và ngược lại
14 Reverso
Đây là hệ thống dịch của Softissimo để dịch các văn bản hoặc trang Web dướidạng HTML Hệ thống này có thể thực hiện được trên Internet hoặc như một ứngdụng độc lập trên máy tính đơn Địa chỉ của hệ thống dịch trên Internet là:
http://www.reverso.net/text_translation.aspx
Trang 28Hình 4 Giao diện hệ thống dịch Reverso
vì thực tế dó là kiểu dịch tự động 2 lần qua một ngôn ngữ trung gian nào đó (thường
là tiếng Anh), với tính năng này có thể dịch một câu tiếng Việt sang 64 ngôn ngữ cònlại Có tính năng tương tác với người nhằm tăng chất lượng dịch cho các lần sau,không hỗ trợ dịch chuyên ngành
Trang 29Hình 5 Giao diện màn hình dịch với Google translate
4. Môi trường hợp tác
4.1. Khái niệm
Môi trường hợp tác (collaboration environment) là một môi trường được xâydựng trên công nghệ Web ( World Wide Web) và hạ tầng mạng máy tính cho phép cácnhóm đối tượng có thể tham gia trao đổi, tranh luận, để cùng nhau chia sẻ những kiếnthức, kỹ năng và những kinh nghiệm về một lĩnh vực mà họ quan cùng tâm
Đối với một đơn vị cụ thể, môi trường hợp tác giúp cho các thành viên trong cùngmột phòng ban và các phòng ban khác cùng nhau tác nghiệp trong một hệ thống thốngnhất, giúp đỡ nhau hoàn thành tốt công việc được giao, giúp cho các đơn vị giảm thờigian và tăng năng xuất làm việc
Môi trường hợp tác đã cung cấp cho lĩnh vực giáo dục và công nghệ dạy học, đãphục vụ nhu cầu truyền thông và hợp tác của giảng viên, nhân viên, nhà nghiên cứu
và sinh viên Hơn một chục ngàn người sử dụng môi trường hợp tác một cách thườngxuyên dựa trên email, web, media, file lưu trữ và các nhiệm vụ tính toán khác Vàonăm 2003 đã có 8.200 người tham gia phát triển gần 19.000 công cụ phục cho nhiềungười sử dụng khác nhau, sinh viên xây dựng trên 12.000 danh mục đầu tư trực tuyếnmới và tổng số hoạt động học tập trực tuyến đã tăng đến 18.000.000
Trong bối cảnh hiện nay, việc sử dụng công nghệ thông tin là phổ biến, tuy nhiên
đa số các nhà biên dịch chuyên nghiệp đang làm việc để đáp ứng các nhu cầu đầu tư
Trang 30và phát triển các hệ thống dịch thuật cho các tài liệu khoa học và kỹ thuật, các giaodịch kinh doanh thương mại, cơ quan hành chính, tài liệu pháp lý, sổ tay hướng dẫn,các văn bản nông nghiệp và y tế, công nghiệp, tờ rơi, các báo cáo, … Các công việcnày có nhiều thử thách và khó khăn trong khi cùng một lúc đòi hỏi phải có tính chínhxác và nhất quán Do đó để có một bản dịch hoàn chỉnh hơn thì rất cần sự hỗ trợ củanhiều dịch giả về cùng một ngôn ngữ mà họ biết và quan tâm thông qua sự hỗ trợ củamôi trường hợp tác Để tiến hành khai thác và chiếm được những đóng góp cho bảndịch hoàn chỉnh đó ta xây dựng một môi trường hợp tác trên công nghệ Web và hạtầng mạng máy tính cho phép các nhóm đối tượng có thể tham gia trao đổi, tranhluận, để cùng nhau chia sẻ những kiến thức, kỹ năng và những kinh nghiệm về mộtlĩnh vực mà họ quan cùng tâm
Những lợi ích mà môi trường hợp tác đem lại:
- Giảng viên: môi trường hợp tác giúp cho giảng viên dễ dàng hơn trong việcquản lý các khoá học và tiến hành các hoạt động sư phạm trực tuyến
- Sinh viên: các sinh viên có thể sử dụng thông tin liên lạc và các ông cụ cộngtác thường được sử dụng từ các giáo viên để hình thành nhóm nghiên cứu
- Nhà nghiên cứu: môi trường hợp tác sẽ cung cấp phương tiện, thông tin chocác nhà nghiên cứu để dễ dàng tiến hành các cuộc điều tra, tổ chức chia sẻ dữliệu, thông tin và giao tiếp với người khác về công việc
- Người dùng chung: người dùng có thể tham gia vào môi trường hợp tác tại mộtlĩnh vực mà họ quan tâm để khái thác tri thức được tích luỹ từ môi trường
4.2. Các công cụ dùng để giao tiếp và hợp tác
Hiện nay, trên hệ thống mạng Internet nhiều nhà phát triển phần mềm đã tạo ramột số công cụ giúp cho con người có thể giao tiếp với nhau và cùng nhau hợp táctrong khi họ đang ở tại các vị trí địa lý khác nhau Một số công cụ điển hình như sau:
Hệ thống Website đã và đang đóng góp rất lớn vào việc phổ cập thông tin,Website đã làm thay đổi cả thế giới từ khi xuất hiện vào đầu những năm 90 của thế kỷtrước Ngày nay, mọi giao tiếp thông qua Website đã trở thành phổ biến, nó cuốn hútmọi thành phần xã hội ở mọi nơi trên thế giới cùng tham gia Cùng nhau chia sẻ thôngtin cũng như tích luỹ những thông tin mới
Trang 31Email là công cụ giao tiếp không đồng bộ trên Internet được sử dụng rộng rãinhất, cho phép mọi người có thể giao lưu trao đổi, chia sẻ thông tin với nhau Thôngtin được chia sẻ trên mail không chỉ bằng văn bản mà còn có thể bằng hình ảnh hoặcbằng video Hiện nay, đã có một số sản phẩm như Lotus Notes đã tích hợp email vớicác công cụ hợp tác khác không đồng bộ giúp thực hiện công việc như lập kế hoạch
và tham gia vào các diễn đàn trên mạng hoặc các nhóm thảo luận
Không giống như email, chat cung cấp cho mọi người môi trường giao tiếp đồng
bộ để nhiều người có thể trao đổi trực tiếp với nhau dựa trên Internet hoặc Intranet.Đây là một môi trường ảo, chúng ta có thể trao đổi với nhiều người cùng một lúc Hệthống chat cho phép chúng ta tạo ra một phòng Chat gồm danh sách các đồng nghiệp,bạn bè và những người cùng sở thích hoặc có thể tham gia vào phòng Chat và trao đổivới tất cả mọi người Các công cụ Chat có thể được tích hợp với các trang Web củachúng ta, trong cùng một môi trường hoặc một môi trường tách biệt Ngoài ra, trongcông cụ Chat, nhà lập trình thường tạo ta các dịch vụ khác như chuyển file đính kèm,nói chuyện trực tiếp
4.3. Các tính năng cơ bản của môi trường hợp tác
Tuy có nhiều loại môi trường hợp tác tích hợp, cung cấp nhiều loại dịch vụ vàứng dụng khác nhau, nhưng tất cả đều có chung một số tính năng sau:
Khả năng cá nhân hoá (Customization hay Personalization): cho phép thiết
đặt các thông tin khác nhau, cho các loại đối tượng sử dụng khác nhau theo yêu cầu.Tính năng này dựa trên hoạt động thu thập thông tin về người dùng và cộng đồngngười dùng, từ đó cung cấp các thông tin chính xác tại thời điểm được yêu cầu
Tích hợp nội dung (Content aggregation): cho phép xây dựng nội dung thông
tin từ nhiều nguồn khác nhau cho nhiều đối tượng sử dụng Sự khác biệt giữa các nộidung thông tin sẽ được xác định qua các ngữ cảnh hoạt động của người dùng (user –specific context), ví dụ như đối với từng đối tượng sử dụng sau khi thông qua quátrình xác thực thì sẽ được cung cấp thông tin khác nhau, hoặc nội dung thông tin sẽđược cung cấp khác nhau trong quá trình các nhân hoá thông tin
Xuất bản nội dung (Content syndication): thu thập nội dung thông tin từ nhiều
nguồn khác nhau, cung cấp cho người dùng thông qua các phương pháp hoặc giaothức (protocol) một cách thích hợp Một hệ thống xuất bản nội dung thông tin chuyênnghiệp phải có khả năng xuất bản thông tin với các định dạng được quy chuẩn, ví dụnhư RDF (Resource Description Format), RSS (Realy Simple Syndication), NITF
Trang 32(News Industry Text Format) và NewsXML Ngoài ra, các tiêu chuẩn dựa trên XMLcũng phải được áp dụng để quản trị và hiển thị nội dung một cách thống nhất, xuyênsuốt trong quá trình xuất bản nội dung thông tin Các tiêu chuẩn dựa trên XML nàycho phép đưa ra giải pháp nhanh nhất để khai thác và sử dụng nội dung thông tin trêncác Website khác nhau thông qua quá trình thu thập và bóc tách nội dung thông tinvới các định dạng được quy chuẩn.
Quản trị hệ thống (Systeml anministration): xác định cách thức hiển thị thông
tin cho người dùng cuối Tính năng này không chỉ đơn giản là thiết lập các giao diệnngười dùng với các chi tiết đồ hoạ (look-and-feel), với tính năng này, người quản trịphải định nghĩa được các thành phần thông tin, các kênh tương tác với người sử dụngcuối, định nghĩa nhóm người dùng cùng với các quyền truy cập và sử dụng thông tinkhác nhau
Quản trị người dùng (User management): cung cấp các khả năng quản trị
người dùng cuối, tuỳ thuộc vào đối tượng sử dụng của môi trường Tại đây, người sửdụng có thể tự đăng ký trở thành thành viên tại cổng thông tin công cộng như Yahoo,MSN (Microsoft Network),… hoặc được người quản trị tạo lập và gán quyền sử dụngtương ứng đối với các cổng thông tin doanh nghiệp Mặt khác, tuỳ thuộc vào từngkiểu môi trường mà số lượng thành viên có thể từ vài nghìn tới hàng triệu
4.4. Các công nghệ hỗ trợ môi trường hợp tác
Để có các hệ thống môi trường hợp tác do người lập trình phát triển và các hệthống nền tảng có thể hoạt động tương thích được với nhau, các kỹ sư và các hãngphần mềm trên thế giới cùng nhau xây dựng bộ tiêu chuẩn công nghiệp Hiện tại đã
có 2 tiêu chuẩn được công bố rộng rãi trên thế giới, bao gồm:
16 Portlet API (JSR 168)
Portlet API (JSR 168): là tiêu chuẩn do hiệp hội Java Community Process công
bố, hiện tại chủ yếu được áp dụng cho các cổng thông tin xây dựng trên nền tảngJava Chuẩn này chỉ ra cách tương tác giữa ứng dụng nghiệp vụ (portlet) với portalframework Các portlet tuân thủ tiêu chuẩn này có thể hoạt động được ở tất cả cácportal server tuân thủ/hỗ trợ tiêu chuẩn JSR 168 Ví dụ: một ứng dụng nghiệp vụ(portlet) do Oracke phát triển, tuân thủ theo tiêu chuẩn JSR 168 thì có thể chạy trênIBM WebSphere Portal mà không phải biên dịch lại hoặc sửa đổi mã cho tương thích.Cộng đồng NET cybfx đã tích cực áp dụng tiêu chuẩn này để đưa ra chuẩn portletcho portal xây dựng trên NET Framework (còn gọi là NET portlet API)
17 Web Services for Remote Portlet (WSRP)
Trang 33WSRP là một chuẩn do OASIS (Organization for the Advancement of StructuredInformation Standards) công bố Chuẩn này chỉ ra cách thức giao tiếp giữa một portalserver với một ứng dụng nghiệp vụ từ xa (remote portlet) thông qua dịch vụ WebServices) Các ứng dụng nghiệp vụ tuân thủ tiêu chuẩn này có thể chạy trên bất kỳmột portal server nào áp dụng tiêu chuẩn WSRP, không cần quan tâm rằng ứng dụnghay portal server xây dựng trên công nghệ/ngôn ngữ nào Hiện tại, có 2 loại côngnghệ hỗ trợ Web Services tốt nhất là J2EE (Java 2 Enterprise Edition) và NETFramework.
4.5. Một số môi trường hợp tác trên mạng
18 Văn phòng điện tử (WebOffice)
Hình 6 Giao diện trang WebOffice
WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thểcông nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển Đây là một hệthống được xây dựng trên cơ sở về môi trường cộng tác, cho phép các thành viêntrong một doanh nghiệp có thể tác động qua lại với nhau trong một hệ thống thốngnhất Hệ thống bao gồm một số dịch vụ cơ bản sau:
- Quản lý, kiểm soát, theo dõi việc thực hiện các công việc của dự án hay nhómcông việc của cơ quan Tạo lập không giới hạn các dự án, nhóm công việccũng như các công việc trong dự án
Trang 34- Cơ sở dữ liệu chứa các câu hỏi và câu trả lời cho những kiến thức chung màcán bộ, nhân viên cần để thực hiện công việc của mình, nâng cao hiệu quả vànăng suất làm việc.
- Cho phép thành viên tạo các phòng họp không giới hạn, trò chuyện cùng mộtlúc nhiều phòng khác nhau, cho phép truyền file trực tiếp
19 Hệ thống Wiki
Hình 7 Giao diện trang Wikipedia
Wiki là ví dụ cho một môi trường cộng tác tích hợp tri thức, Wiki được thiết kếdưới dạng một hệ thống Website có cấu trúc đơn giản cho phép mọi người truy cậpvào lĩnh vực mà mình quan tâm một cách dễ dàng Wiki cho phép người truy cập cóxoá một nội dung cũ, chỉnh sửa hoặc bổ sung nội dung mới, bằng cách này wiki cótích hợp các thông tin khác nhau về một chủ đề nào đó và làm phong phú từ điển trithức dùng chung
Wiki là nơi mà thông tin được cập nhật và chú trọng các nội dung mới, Wiki đượcdùng để xây dựng và bổ sung cho những nội dung được sử dụng lâu dài Wikipedia làminh chứng rõ nhất cho thành công của hình thức Wiki, nhiều người có thể cùng sửachữa một nội dung cho đến khi nó hoàn thiện Wikipedia trở thành một từ điển khôngthể thiếu cho nhiều người Ngày nay nhiều công ty tạo ra Wiki để làm dữ liệu cơ bảncho nội bộ, rất phù hợp để chia sẻ thông tin trong những nhóm lớn
20 Hệ thống Windows Live Groups
Trang 35Microsoft xây dựng môi trường cộng tác trực tuyến cho phép mọi người dễ dàngtạo nhóm và cùng nhau làm việc trong cùng một môi trường nhằm cung cấp một nềntảng ổn định miễn phí cho những người thường xuyên kết hợp các ý tưởng lại vớinhau Nói cách khác Windows Live Groups là một thế giới cộng tác trực tuyến.
Trong môi trường Windows Live Microsoft đã cung cấp rất nhiều dịch vụ đểngười sử dụng khai thác, trong đó có một số dịch vụ tiêu biểu như sau: Windows LiveHotmail, Calendar, Sky driver, Windows Live Messenger, Spacer, Weather, YellowPages, Shopping, Map, … Ngoài ra Windows Live còn kết hợp với Ofice Web Apps,cho phép người dùng tạo nhóm và quản lý nhóm, để thực hiện một dự án nào đó.Phiên bản Windows Live Messenger 9.0 (2009) được giới thiệu kèm theo tronggói ứng dụng Windows Live Essentials thuộc họ Live đã thật sự làm những ngườidùng chat hài lòng qua những tính năng kết nối mang tính hướng mạng xã hội, cáctuỳ chọn cá nhân hoá và giao diện mới rất hấp dẫn Khi hai người đang cùng tròchuyện cũng có thể chia sẻ dữ liệu qua Sharinh Folders, tính năng chọn lựa một thưmục có trên máy tính và đặt dữ liệu cần chia sẻ vào đó, rút ngắn thời gian và cải thiệntốc độ truyền tải Mỗi liên hệ sẽ có một thư mục tương ứng tuỳ người dùng chọn lựa.Ngoài danh mục liên hệ thì Windows Live Messenger có thêm groups (nhóm) đểngười sử dụng dễ dàng phân nhỏ các nhóm đối tượng liên hệ và sinh hoạt thành nhómcộng đồng Windows Live Messenger cho phép người tạo nhóm tuỳ ý tương tựgroups của Google trước kia nhưng group của Windows Live mang tính chất mạng xãhội nhiều hơn
Windows Live Hotmail cung cấp dung lượng lưu trữ gigabyte, bộ kiểm tra chính
tả là tự động, bộ lọc tuỳ ý và các tính năng an toàn, công nghệ lập trình Ajax và tíchhợp với Windows Live Messenger, sSacer, Calendar và Contacts Hiện Hotmail đang
có hàng triệu người dùng trên khắp thế giới và có 36 phiên bản ngôn ngữ
Trang 36Hình 8 Giao diện trang Windows Live
Trang 37CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU
Trong chương này chúng tôi xin trình bày một số giải pháp xây dựng kho ngữliệu song ngữ Các giải pháp đề xuất bao gồm: Xây dựng kho từ nguồn dữ liệu từđiển, từ nguồn báo điện tử, từ các kho ngữ liệu được xây dựng sẵn và sau đó mở rộngkho bằng cách sử dụng các hệ thống dịch tự động sẵn có
là rất cần thiết Hiện nay với lượng thông tin trên mạng toàn cầu đa phần là tiếngAnh, tại Việt Nam số lượng kho ngữ liệu song song Anh – Việt không nhiều và khôngđược phổ biến rộng rãi, do đó trong đề tài này chúng tôi đưa ra giải pháp để xây dựngkho ngữ liệu song ngữ Anh – Việt phục vụ xử lý tiếng Việt nhằm đáp ứng nhu cầu
sử dụng kho cho giảng dạy, học tập tiếng Anh, dịch máy, xử lý ngôn ngữ tự nhiên,…
6. Mô hình tổng thể
Kiến trúc tổng thể của hệ thống bao gồm những thành phần sau:
- Bộ sưu tập kho ngữ liệu: sưu tập các nguồn ngữ liệu đơn ngữ tiếng Anh banđầu từ các kho ngữ liệu có sẵn, từ ebook, các văn bản, bài báo bằng tiếng Anh,các trang web, từ điển,
- Tiền xử lý ngữ liệu: có thể nhập trực tiếp các nguồn ngữ liệu, xử lý thủ cônghoặc qua hệ thống, chuẩn hóa ngữ liệu trước khi đưa vào kho Việc chuẩn hóangữ liệu là việc chuyển đổi định dạng ngữ liệu thành định dạng tương thíchvới mục đích của hệ thống
- Đa ngữ hoá ngữ liệu nhờ vào hệ thống dịch google: sau khi thu thập và xử lýthì ta tiến hành đa ngữ hoá các courpus bằng cách xây dựng hệ thống dịch tựđộng gửi courpus đơn ngữ lên hệ thống google để dịch Sau đó nhờ hệ thốngnày chiếm lấy bản dịch nghĩa và đưa vào kho ngữ liệu đa ngữ
Trang 38- Hiệu chỉnh kho ngữ liệu: sau khi xây dựng thành công kho ngữ liệu đa ngữ tatiến hành hiệu chỉnh kho ngữ liệu bằng cách xây dựng môi trường hợp tác đểnhiều người sử dụng có thể tham gia tác động vào kho ngữ liệu Cũng chínhnhờ môi trường hợp tác này ta tiến hành chọn lựa bản dịch nghĩa tốt nhất đểkho ngữ liệu được hoàn chỉnh hơn dưới sự tác động của người sử dụng
Hình 9 Mô hình tổng quát để xây dựng kho ngữ liệu
Trang 397. Đề xuất giải pháp để xây dựng kho ngữ liệu song ngữ
7.1. Các tiêu chí chọn mẫu ngữ liệu
Để bảo đảm được hiệu quả khai thác về sau, đồng thời để đáp ứng đúng mục tiêunghiên cứu đã đặt ra, chúng ta cần áp dụng 4 tiêu chí trong khi xem xét lấy mẫu ngữliệu song ngữ Anh-Việt như sau:
a Chuẩn ngôn ngữ: ngữ liệu tiếng Anh cũng như tiếng Việt đều phải là những câu được xem là chuẩn mực, nghĩa là phải đúng ngữ pháp và được nhiều người
chấp nhận hay nhiều người sử dụng Không thu thập các bản dịch có tính cá nhân(chỉ sử dụng cho mục đích cá nhân), hoặc các câu tự nghĩ ra, vì như thế không đảmbảo được tính thực tế của ngữ liệu
b Cách dịch 1 – 1: các ngữ liệu song ngữ Anh-Việt phải thực sự là bản dịch 1 - 1
của nhau, không được dịch thoát ý, dịch tóm lược, dịch tương đương/ đồng nghĩa haydịch theo kiểu giải thích, diễn giải Vì nếu không phải là dịch 1 – 1 thì máy tính rấtkhó liên kết từ một cách tự động cho song ngữ đó được Ngoài ra, chúng ta cần
bản dịch 1 - 1 để còn có thể so sánh, đối chiếu trên từng cấp độ giữa hai ngôn ngữ.
c Ngữ liệu phải phù hợp với phong cách và lĩnh vực của đối tượng nghiên cứu:Đối tượng nghiên cứu của chúng tôi là các văn bản và các câu thông thường
d Ngữ liệu dạng điện tử: ngoài 3 tiêu chuẩn bắt buộc trên, chúng ta sẽ ưu tiên chọn những ngữ liệu song ngữ Anh-Việt nào mà đang tồn tại dưới dạng điện tử,
hoặc có thể chuyển tự động tương đối dễ dàng về dạng điện tử, như vậy đỡ tốncông sức nhập liệu lại bằng tay vào máy tính
7.2. Chọn nguồn dữ liệu và chuẩn hóa
Ngoài các nguồn dữ liệu song ngữ thô có thể thu thập được đã nêu ở chương 1,hiện nay rất khó tìm ra được những ngữ liệu song ngữ Anh-Việt mà đáp ứng đầy
đủ các tiêu chuẩn trên Trong các nguồn tài liệu thô ta thường thấy các câu ví dụsong ngữ trong các nguồn ngữ liệu khác nhau thì có hình thức trình bày khácnhau Ví dụ như: