MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC
Trang 1ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ KỸ THUẬT
NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ : 60.48.01
TÊN ĐỀ TÀI
MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG
VÀ MÔI TRƯỜNG HỢP TÁC
Lớp Cao học : Khoá 22 (2010-2012)
ĐÀ NẴNG, 03/2012
Trang 21 Lý do chọn đề tài 1
2 Mục tiêu và nhiệm vụ đề tài 2
2.1 Mục tiêu 2
2.2 Nhiệm vụ 2
3 Đối tượng và phạm vi nghiên cứu 3
3.1 Đối tượng nghiên cứu 3
3.2 Phạm vi nghiên cứu 3
4 Phương pháp nghiên cứu 4
4.1 Phương pháp nghiên cứu tài liệu 4
4.2 Phương pháp thực nghiệm 4
5 Giải pháp đề xuất 5
6 Mục đích và ý nghĩa của đề tài 5
6.1 Mục đích 5
6.2 Ý nghĩa khoa học và thực tiễn đề tài 5
7 Kết quả dự kiến 6
7.1 Lý thuyết 6
7.2 Thực tiễn 6
8 Bố cục của luận văn 6
9 Kế hoạch dự kiến triển khai đề tài 9
TÀI LIỆU THAM KHẢO 10
Trang 31 Lý do chọn đề tài
Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hoá, xã hội, … Cùng với sự phát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet Tuy nhiên, lượng thông tin này vẫn chưa được khai thác hết bởi rất nhiều lý do, một trong những lý do quan trọng nhất dẫn đến việc hạn chế khai thác thông tin trên, đó là rào cản về ngôn ngữ Giải pháp nhằm phá
bỏ rào cản ngôn ngữ là phát triển các hệ thống dịch tự động
Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và có thể sử dụng như Google, AltaVisa,… Nhiều hệ thống đã được đưa vào thương mại hoá như Systran, Reverso, Babylon, … Những hệ thống này cho phép tạo ra “bản dịch nghĩa” – một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta có thể hiểu được ý nghĩa của văn bản gốc và cần phải chỉnh sửa nhiều để đạt đến một văn bản hoàn chỉnh Các hệ thống dịch tự động cho phép dịch rất nhanh và chi phí thấp hơn nhiều so với dịch bằng con người Tuy nhiên, những hệ thống này đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng về ngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt về giải thích các khái niệm Cùng với đó nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên ngày càng tăng và được ứng dụng trong nhiều lĩnh vực Do đó vấn đề xử lý ngôn ngữ tự nhiên hiện nay rất cần các tài liệu song ngữ hoặc đa ngữ Vì vậy các kho ngữ liệu là cơ sở để phát triển các hệ thống xử lý ngôn ngữ tự nhiên
Hiện nay trên thế giới có nhiều kho ngữ liệu song ngữ như Anh – Pháp, Anh – Hoa,… nhưng các kho ngữ liệu lớn để phục vụ cho các hệ thống xử lý ngôn ngữ tự nhiên vẫn còn thiếu Ví dụ như đối với tiếng Việt, hiện nay chưa
Trang 4có nhiều kho ngữ liệu và đặc biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát triển các hệ thống xử lý ngôn ngữ tự nhiên Bên cạnh đó, một số kho ngữ liệu
để phục vụ xử lý tiếng Việt còn chưa được chia sẽ rộng rãi Chi phí để phát
triển một kho ngữ liệu lại rất tốn kém Vì vậy tôi quyết định chọn đề tài “Mở
rộng các kho ngữ liệu đa ngữ dựa vào các phần mềm dịch tự động và môi trường hợp tác” làm đề tài tốt nghiệp luận văn cao học Trong đề tài này,
chúng tôi đề xuất giải pháp kết hợp các phần mềm dịch tự động và môi trường hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu Xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu song ngữ hoặc đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có Ngoài ra, sau khi dịch tự động sẽ đưa kết quả nhận được cho mọi người góp ý, hiệu chỉnh nhằm tăng độ tin cậy và tính kiểm chứng của kết quả Giải pháp sử dụng lại các hệ thống dịch tự động và môi trường hợp tác để mở rộng kho ngữ liệu sẵn
có sang các ngôn ngữ khác là một trong những giáp pháp khả thi và hiệu quả
2 Mục tiêu và nhiệm vụ đề tài
2.1 Mục tiêu
Mục tiêu của đề tài là xây dựng các kho ngữ liệu đa ngữ và có nội dung bằng tiếng Việt nhằm phục vụ việc xử lý ngôn ngữ tự nhiên liên quan đến tiếng Việt
2.2 Nhiệm vụ
Để đạt được mục tiêu trên, nhiệm vụ của chúng tôi là nghiên cứu đề xuất giải pháp và xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn
có Google để dịch tự động một số các kho ngữ liệu sẵn có sang tiếng Việt và đưa vào môi trường hợp tác để hiệu chỉnh nhằm tạo ra kho ngữ liệu đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có
Trang 5 Về lý thuyết:
- Tìm hiểu về dịch tự động và các phương pháp dịch tự động
- Nghiên cứu các phần mềm dịch tự động miễn phí trên mạng
- Nghiên cứu về môi trường hợp tác (collaboration environment)
- Nghiên cứu về kho ngữ liệu (linguistics corpus) và kho ngữ liệu đa ngữ (multilingual linguistics corpus)
Về thực tiễn:
Đề tài đề xuất giải pháp và xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu tiếng Việt từ các kho ngữ liệu sẵn
có
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
- Kho ngữ liệu (Linguistics Corpus)
- Ngôn ngữ lập trình PERL (Practical Extraction and Report Language).
- Các hệ thống dịch hiện nay trên Internet như Systran, Google, Reverso,…
- Các công cụ phát triển như Tradoh, Traweb, Sandoh,…
- Các mô hình triển khai hệ thống
- Một số bài báo và luận văn tốt nghiệp khóa trước
3.2 Phạm vi nghiên cứu
Trong khuôn khổ của một luận văn thực nghiệm, tôi chỉ giới hạn thực nghiệm tạo một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu cho mỗi ngôn ngữ
Trang 64 Phương pháp nghiên cứu
Phương pháp nghiên cứu, chúng tôi đã sử dụng hai phương pháp chính
là nghiên cứu lý thuyết và nghiên cứu thực nghiệm
4.1 Phương pháp nghiên cứu tài liệu
- Các tài liệu về cơ sở lý thuyết: dịch tự động, môi trường cộng tác, kho
dữ liệu, kho ngữ liệu
- Các tài liệu mô tả một số công cụ dịch tự động
- Các tài liệu liên quan đến một số nghiên cứu
4.2 Phương pháp thực nghiệm
- Sử dụng các hệ thống dịch tự động để dịch các kho ngữ liệu sẵn có sang 1 ngôn ngữ khác (Ví dụ: kho ngữ liệu tiếng Anh BTEC sang tiếng Việt)
- Thực nghiệm dịch và kiểm tra một số kho ngữ liệu sẵn có sang tiếng Việt
- Xây dựng một môi trường hợp tác để kiểm tra tính đúng đắn của kho ngữ liệu
Trang 75 Giải pháp đề xuất
6 Mục đích và ý nghĩa của đề tài
6.1 Mục đích
Nghiên cứu xây dựng môi trường sử dụng lại các hệ thống dịch tự động sẵn có để mở rộng các kho ngữ liệu sang một ngôn ngữ mới, đặc biệt là cho tiếng Việt
6.2 Ý nghĩa khoa học và thực tiễn đề tài
Về khoa học: Nghiên cứu ứng dụng các phần mềm dịch tự động trực
tuyến để phục vụ việc phát triển các kho ngữ liệu đa ngữ phục vụ xử lý ngôn ngữ tự nhiên
Về thực tiễn: Đề tài sẽ góp phần xây dựng một môi trường dịch đa ngữ
hỗ trợ dịch tự động trực tuyến và tập trung trước hết vào việc phát triển các kho ngữ liệu sẵn có
Tập Corpus đa ngữ
HỆ THỐNG DỊCH
CORPUS
(Các hệ thống
dịch có sẵn trên
Internet (google))
Internet
Tập Corpus đơn ngữ
MÔI TRƯỜNG HỢP TÁC
user
Trang 87 Kết quả dự kiến
7.1 Lý thuyết
- Nắm được quy trình làm việc của các hệ thống dịch tự động trực tuyến
và môi trường cộng tác
- Hiểu được cách xây dựng một kho ngữ liệu song ngữ/đa ngữ
7.2 Thực tiễn
- Một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu mỗi ngôn ngữ
- Các công cụ hỗ trợ dịch tự động kho ngữ liệu
- Phần mềm hợp tác để hiệu chỉnh kho ngữ liệu
8 Bố cục của luận văn
Báo cáo của luận văn dự kiến tổ chức thành 3 chương chính như sau:
Trang 9MỞ ĐẦU
CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN
1.1 DỊCH TỰ ĐỘNG
1.1.1 Khái niệm 1.1.2 Cấu trúc của một chương trình dịch tự động 1.1.3 Một số hệ thống dịch tự động
1.2 MÔI TRƯỜNG HỢP TÁC
1.2.1 Khái niệm
1.2.2 Các công cụ dùng để giao tiếp và hợp tác
1.2.3 Các tính năng cơ bản của môi trường hợp tác
1.2.4 Các công nghệ hỗ trợ môi trường hợp tác
1.2.5 Một số môi trường hợp tác trên mạng
1.3 KHO NGỮ LIỆU SONG NGỮ
1.3.1 Một số khái niệm
1.3.2 Ứng dụng của kho ngữ liệu song ngữ
1.3.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới
1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU
1.4.1 Tổng quan về XML
1.4.2 Thuật ngữ
1.4.3 Cấu trúc của một tập tin XML
1.4.4 Những thành phần của một tài liệu XML
1.5 TỔNG KẾT CHƯƠNG
CHƯƠNG 2: GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU
2.1 GIỚI THIỆU
2.2 MÔ HÌNH HỆ THỐNG
2.3 XÂY DỰNG KHO NGỮ LIỆU
Trang 102.3.1 Các tiêu chí chọn mẫu ngữ liệu 2.3.2 Chọn nguồn ngữ liệu và chuẩn hóa 2.3.3 Ứng dụng xử lý ngôn ngữ tự nhiên 2.3.4 Các nguồn dữ liệu thu thập
2.3.5 Các kỹ thuật xử lý ngữ liệu 2.3.6 Tích hợp các nguồn ngữ liệu 2.3.7 Đa ngữ hoá kho ngữ liệu 2.4 HIỆU CHỈNH KHO NGỮ LIỆU
2.4.1 Các phương pháp hiệu chỉnh dữ liệu 2.4.2 Hiệu chỉnh bằng môi trường hợp tác 2.5 TỔNG KẾT CHƯƠNG
CHƯƠNG 3: PHÁT TRIỂN ỨNG DỤNG
3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN
3.1.1 Ngôn ngữ lập trình
3.1.2 Cơ sở dữ liệu
3.2 XÂY DỰNG KHO NGỮ LIỆU
3.2.1 Thu thập và xử lý các nguồn dữ liệu
3.2.2 Xử lý trùng lặp các câu trong kho ngữ liệu
3.2.3 Nội dung chương trình hỗ trợ dịch
3.2.4 Giao diện chương trình hỗ trợ dịch
3.2.5 Thử nghiệm và đánh giá kết quả của hệ thống dịch
3.3 HIỆU CHỈNH KHO NGỮ LIỆU
3.3.1 Xây dựng hệ thống
3.3.2 Xây dựng giao diện hệ thống
3.3.3 Thử nghiệm và đánh giá chương trình
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trang 119 Kế hoạch dự kiến triển khai đề tài
STT Thời gian Nội dung thực hiện Kết quả dự kiến
1 Từ 01/2012 đến
03/2012
Chọn đề tài và viết đề cương chi tiết Đề cương chi tiết
2 Từ 03/2012 đến
04/2012 Nghiên cứu lý thuyết Hoàn thành lý
thuyết
3 Từ 04/2012 đến
05/2012 Viết lý thuyết chương 1 Hoàn thành phần
viết lý thuyết
4 Từ 05/2012 đến
07/2012
Viết chương 2: Đề xuất giải pháp
Hoàn thành chương
2
5 Từ 07/2012 đến
09/2012
Viết chương 3: Triển khai
Hoàn thành chương
3
6 Từ 09/2012 đến
10/2012
7 Từ 10/2012 đến
11/2012
Hoàn thành báo cáo Slide báo cáo
Hoàn thành luận văn
Trang 12TÀI LIỆU THAM KHẢO Tiếng Việt:
[1] Đinh Điền (2006), Giáo trình xử lý ngơn ngữ tự nhiên, Nhà xuất bản Đại
học quốc gia TP.HCM
[2] Phan Huy Khánh, Võ Trung Hùng (2004), “Nhận biết ngơn ngữ và bộ
mã hĩa sử dụng trong các văn bản đa ngữ”, Tạp chí Tin học và Điều
khiển tập, 20(4)
[3] Võ Trung Hùng (2007), “Phương pháp và cơng cụ đánh giá tự động các
hệ thống dịch tự động trên mạng”, Tạp chí Khoa học và Cơng Nghệ, Đại
học Đà Nẵng, 1(18), tr 37-42
[4] Võ Trung Hùng (2008), “TRAWEB-Cơng cụ để đa ngữ hố các trang
Web”, Tạp chí Khoa học và Cơng Nghệ các trường đại học kỷ thuật, 63,
tr 16-20
Tiếng nước ngồi:
[5] Chen J., and Nie J Y (2000), “Automatic construction of parallel
English-Chinese corpus for cross-language information retrieval”, 6th
Applied Natural Language Processing Conference, pp 21-28
[6] Hung Vo-Trung (2004), “Méthodes et outils pour utilisateurs,
développeurs et traducteurs de logiciels en contexte multilingue”, Thèse
en informatique, Institut national polytechnique de Grenoble, pp 69-86
[7] Hung Vo-Trung (2004), “SANDOH - un système d'analyse de
documents hétérogènes”, Actes de JADT, 2, pp 1177-1184
[8] Hung Vo-Trung (2004), “TRADOH, a meta-system of multilingual
machine translation”, 4th International Conference EsTAL, Alicante,
Spain, pp 303 – 313
[9] Tomás J., Sánchez-Villamil E., Lloret L., and Casacuberta F (2005),
Trang 13“Webmining: An unsupervised parallel corpora web retrieval system”,
In
Proceedings from the Corpus Linguistics Conference, 1, pp 1-11
Internet:
[10]
http://www-clips.imag.fr/geta/User/achille.falaise/traouiero/tradoh2/form.php
[11]
http://www-clips.imag.fr/geta/User/hung.vo-trung/traducteur/web_fr/Index.htm
[12] http://www.perl.org/get.html
Trang 14Ý KIẾN CỦA CÁN BỘ HƯỚNG DẪN
Đà Nẵng, ngày tháng năm 2012 Cán bộ hướng dẫn Ý KIẾN CỦA HỘI ĐỒNG CHẤM ĐỀ CƯƠNG
Đà Nẵng, ngày tháng năm 2012
Cán bộ duyệt đề cương