ĐỀ CƯƠNG LUẬN VĂN MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC

MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC

Trang 1

ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ KỸ THUẬT

NGÀNH KHOA HỌC MÁY TÍNH

MÃ SỐ : 60.48.01

TÊN ĐỀ TÀI

MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG

VÀ MÔI TRƯỜNG HỢP TÁC

Lớp Cao học : Khoá 22 (2010-2012)

ĐÀ NẴNG, 03/2012

Trang 2

1 Lý do chọn đề tài 1

2 Mục tiêu và nhiệm vụ đề tài 2

2.1 Mục tiêu 2

2.2 Nhiệm vụ 2

3 Đối tượng và phạm vi nghiên cứu 3

3.1 Đối tượng nghiên cứu 3

3.2 Phạm vi nghiên cứu 3

4 Phương pháp nghiên cứu 4

4.1 Phương pháp nghiên cứu tài liệu 4

4.2 Phương pháp thực nghiệm 4

5 Giải pháp đề xuất 5

6 Mục đích và ý nghĩa của đề tài 5

6.1 Mục đích 5

6.2 Ý nghĩa khoa học và thực tiễn đề tài 5

7 Kết quả dự kiến 6

7.1 Lý thuyết 6

7.2 Thực tiễn 6

8 Bố cục của luận văn 6

9 Kế hoạch dự kiến triển khai đề tài 9

TÀI LIỆU THAM KHẢO 10

Trang 3

1 Lý do chọn đề tài

Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hoá, xã hội, … Cùng với sự phát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet Tuy nhiên, lượng thông tin này vẫn chưa được khai thác hết bởi rất nhiều lý do, một trong những lý do quan trọng nhất dẫn đến việc hạn chế khai thác thông tin trên, đó là rào cản về ngôn ngữ Giải pháp nhằm phá

bỏ rào cản ngôn ngữ là phát triển các hệ thống dịch tự động

Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và có thể sử dụng như Google, AltaVisa,… Nhiều hệ thống đã được đưa vào thương mại hoá như Systran, Reverso, Babylon, … Những hệ thống này cho phép tạo ra “bản dịch nghĩa” – một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta có thể hiểu được ý nghĩa của văn bản gốc và cần phải chỉnh sửa nhiều để đạt đến một văn bản hoàn chỉnh Các hệ thống dịch tự động cho phép dịch rất nhanh và chi phí thấp hơn nhiều so với dịch bằng con người Tuy nhiên, những hệ thống này đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng về ngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt về giải thích các khái niệm Cùng với đó nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên ngày càng tăng và được ứng dụng trong nhiều lĩnh vực Do đó vấn đề xử lý ngôn ngữ tự nhiên hiện nay rất cần các tài liệu song ngữ hoặc đa ngữ Vì vậy các kho ngữ liệu là cơ sở để phát triển các hệ thống xử lý ngôn ngữ tự nhiên

Hiện nay trên thế giới có nhiều kho ngữ liệu song ngữ như Anh – Pháp, Anh – Hoa,… nhưng các kho ngữ liệu lớn để phục vụ cho các hệ thống xử lý ngôn ngữ tự nhiên vẫn còn thiếu Ví dụ như đối với tiếng Việt, hiện nay chưa

Trang 4

có nhiều kho ngữ liệu và đặc biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát triển các hệ thống xử lý ngôn ngữ tự nhiên Bên cạnh đó, một số kho ngữ liệu

để phục vụ xử lý tiếng Việt còn chưa được chia sẽ rộng rãi Chi phí để phát

triển một kho ngữ liệu lại rất tốn kém Vì vậy tôi quyết định chọn đề tài “Mở

rộng các kho ngữ liệu đa ngữ dựa vào các phần mềm dịch tự động và môi trường hợp tác” làm đề tài tốt nghiệp luận văn cao học Trong đề tài này,

chúng tôi đề xuất giải pháp kết hợp các phần mềm dịch tự động và môi trường hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu Xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu song ngữ hoặc đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có Ngoài ra, sau khi dịch tự động sẽ đưa kết quả nhận được cho mọi người góp ý, hiệu chỉnh nhằm tăng độ tin cậy và tính kiểm chứng của kết quả Giải pháp sử dụng lại các hệ thống dịch tự động và môi trường hợp tác để mở rộng kho ngữ liệu sẵn

có sang các ngôn ngữ khác là một trong những giáp pháp khả thi và hiệu quả

2 Mục tiêu và nhiệm vụ đề tài

2.1 Mục tiêu

Mục tiêu của đề tài là xây dựng các kho ngữ liệu đa ngữ và có nội dung bằng tiếng Việt nhằm phục vụ việc xử lý ngôn ngữ tự nhiên liên quan đến tiếng Việt

2.2 Nhiệm vụ

Để đạt được mục tiêu trên, nhiệm vụ của chúng tôi là nghiên cứu đề xuất giải pháp và xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn

có Google để dịch tự động một số các kho ngữ liệu sẵn có sang tiếng Việt và đưa vào môi trường hợp tác để hiệu chỉnh nhằm tạo ra kho ngữ liệu đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có

Trang 5

 Về lý thuyết:

- Tìm hiểu về dịch tự động và các phương pháp dịch tự động

- Nghiên cứu các phần mềm dịch tự động miễn phí trên mạng

- Nghiên cứu về môi trường hợp tác (collaboration environment)

- Nghiên cứu về kho ngữ liệu (linguistics corpus) và kho ngữ liệu đa ngữ (multilingual linguistics corpus)

 Về thực tiễn:

Đề tài đề xuất giải pháp và xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu tiếng Việt từ các kho ngữ liệu sẵn

có

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Kho ngữ liệu (Linguistics Corpus)

- Ngôn ngữ lập trình PERL (Practical Extraction and Report Language).

- Các hệ thống dịch hiện nay trên Internet như Systran, Google, Reverso,…

- Các công cụ phát triển như Tradoh, Traweb, Sandoh,…

- Các mô hình triển khai hệ thống

- Một số bài báo và luận văn tốt nghiệp khóa trước

3.2 Phạm vi nghiên cứu

Trong khuôn khổ của một luận văn thực nghiệm, tôi chỉ giới hạn thực nghiệm tạo một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu cho mỗi ngôn ngữ

Trang 6

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu, chúng tôi đã sử dụng hai phương pháp chính

là nghiên cứu lý thuyết và nghiên cứu thực nghiệm

4.1 Phương pháp nghiên cứu tài liệu

- Các tài liệu về cơ sở lý thuyết: dịch tự động, môi trường cộng tác, kho

dữ liệu, kho ngữ liệu

- Các tài liệu mô tả một số công cụ dịch tự động

- Các tài liệu liên quan đến một số nghiên cứu

4.2 Phương pháp thực nghiệm

- Sử dụng các hệ thống dịch tự động để dịch các kho ngữ liệu sẵn có sang 1 ngôn ngữ khác (Ví dụ: kho ngữ liệu tiếng Anh BTEC sang tiếng Việt)

- Thực nghiệm dịch và kiểm tra một số kho ngữ liệu sẵn có sang tiếng Việt

- Xây dựng một môi trường hợp tác để kiểm tra tính đúng đắn của kho ngữ liệu

Trang 7

5 Giải pháp đề xuất

6 Mục đích và ý nghĩa của đề tài

6.1 Mục đích

Nghiên cứu xây dựng môi trường sử dụng lại các hệ thống dịch tự động sẵn có để mở rộng các kho ngữ liệu sang một ngôn ngữ mới, đặc biệt là cho tiếng Việt

6.2 Ý nghĩa khoa học và thực tiễn đề tài

Về khoa học: Nghiên cứu ứng dụng các phần mềm dịch tự động trực

tuyến để phục vụ việc phát triển các kho ngữ liệu đa ngữ phục vụ xử lý ngôn ngữ tự nhiên

Về thực tiễn: Đề tài sẽ góp phần xây dựng một môi trường dịch đa ngữ

hỗ trợ dịch tự động trực tuyến và tập trung trước hết vào việc phát triển các kho ngữ liệu sẵn có

Tập Corpus đa ngữ

HỆ THỐNG DỊCH

CORPUS

(Các hệ thống

dịch có sẵn trên

Internet (google))

Internet

Tập Corpus đơn ngữ

MÔI TRƯỜNG HỢP TÁC

user

Trang 8

7 Kết quả dự kiến

7.1 Lý thuyết

- Nắm được quy trình làm việc của các hệ thống dịch tự động trực tuyến

và môi trường cộng tác

- Hiểu được cách xây dựng một kho ngữ liệu song ngữ/đa ngữ

7.2 Thực tiễn

- Một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu mỗi ngôn ngữ

- Các công cụ hỗ trợ dịch tự động kho ngữ liệu

- Phần mềm hợp tác để hiệu chỉnh kho ngữ liệu

8 Bố cục của luận văn

Báo cáo của luận văn dự kiến tổ chức thành 3 chương chính như sau:

Trang 9

MỞ ĐẦU

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN

1.1 DỊCH TỰ ĐỘNG

1.1.1 Khái niệm 1.1.2 Cấu trúc của một chương trình dịch tự động 1.1.3 Một số hệ thống dịch tự động

1.2 MÔI TRƯỜNG HỢP TÁC

1.2.1 Khái niệm

1.2.2 Các công cụ dùng để giao tiếp và hợp tác

1.2.3 Các tính năng cơ bản của môi trường hợp tác

1.2.4 Các công nghệ hỗ trợ môi trường hợp tác

1.2.5 Một số môi trường hợp tác trên mạng

1.3 KHO NGỮ LIỆU SONG NGỮ

1.3.1 Một số khái niệm

1.3.2 Ứng dụng của kho ngữ liệu song ngữ

1.3.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới

1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU

1.4.1 Tổng quan về XML

1.4.2 Thuật ngữ

1.4.3 Cấu trúc của một tập tin XML

1.4.4 Những thành phần của một tài liệu XML

1.5 TỔNG KẾT CHƯƠNG

CHƯƠNG 2: GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU

2.1 GIỚI THIỆU

2.2 MÔ HÌNH HỆ THỐNG

2.3 XÂY DỰNG KHO NGỮ LIỆU

Trang 10

2.3.1 Các tiêu chí chọn mẫu ngữ liệu 2.3.2 Chọn nguồn ngữ liệu và chuẩn hóa 2.3.3 Ứng dụng xử lý ngôn ngữ tự nhiên 2.3.4 Các nguồn dữ liệu thu thập

2.3.5 Các kỹ thuật xử lý ngữ liệu 2.3.6 Tích hợp các nguồn ngữ liệu 2.3.7 Đa ngữ hoá kho ngữ liệu 2.4 HIỆU CHỈNH KHO NGỮ LIỆU

2.4.1 Các phương pháp hiệu chỉnh dữ liệu 2.4.2 Hiệu chỉnh bằng môi trường hợp tác 2.5 TỔNG KẾT CHƯƠNG

CHƯƠNG 3: PHÁT TRIỂN ỨNG DỤNG

3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN

3.1.1 Ngôn ngữ lập trình

3.1.2 Cơ sở dữ liệu

3.2 XÂY DỰNG KHO NGỮ LIỆU

3.2.1 Thu thập và xử lý các nguồn dữ liệu

3.2.2 Xử lý trùng lặp các câu trong kho ngữ liệu

3.2.3 Nội dung chương trình hỗ trợ dịch

3.2.4 Giao diện chương trình hỗ trợ dịch

3.2.5 Thử nghiệm và đánh giá kết quả của hệ thống dịch

3.3 HIỆU CHỈNH KHO NGỮ LIỆU

3.3.1 Xây dựng hệ thống

3.3.2 Xây dựng giao diện hệ thống

3.3.3 Thử nghiệm và đánh giá chương trình

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trang 11

9 Kế hoạch dự kiến triển khai đề tài

STT Thời gian Nội dung thực hiện Kết quả dự kiến

1 Từ 01/2012 đến

03/2012

Chọn đề tài và viết đề cương chi tiết Đề cương chi tiết

2 Từ 03/2012 đến

04/2012 Nghiên cứu lý thuyết Hoàn thành lý

thuyết

3 Từ 04/2012 đến

05/2012 Viết lý thuyết chương 1 Hoàn thành phần

viết lý thuyết

4 Từ 05/2012 đến

07/2012

Viết chương 2: Đề xuất giải pháp

Hoàn thành chương

2

5 Từ 07/2012 đến

09/2012

Viết chương 3: Triển khai

Hoàn thành chương

3

6 Từ 09/2012 đến

10/2012

7 Từ 10/2012 đến

11/2012

Hoàn thành báo cáo Slide báo cáo

Hoàn thành luận văn

Trang 12

TÀI LIỆU THAM KHẢO Tiếng Việt:

[1] Đinh Điền (2006), Giáo trình xử lý ngơn ngữ tự nhiên, Nhà xuất bản Đại

học quốc gia TP.HCM

[2] Phan Huy Khánh, Võ Trung Hùng (2004), “Nhận biết ngơn ngữ và bộ

mã hĩa sử dụng trong các văn bản đa ngữ”, Tạp chí Tin học và Điều

khiển tập, 20(4)

[3] Võ Trung Hùng (2007), “Phương pháp và cơng cụ đánh giá tự động các

hệ thống dịch tự động trên mạng”, Tạp chí Khoa học và Cơng Nghệ, Đại

học Đà Nẵng, 1(18), tr 37-42

[4] Võ Trung Hùng (2008), “TRAWEB-Cơng cụ để đa ngữ hố các trang

Web”, Tạp chí Khoa học và Cơng Nghệ các trường đại học kỷ thuật, 63,

tr 16-20

Tiếng nước ngồi:

[5] Chen J., and Nie J Y (2000), “Automatic construction of parallel

English-Chinese corpus for cross-language information retrieval”, 6th

Applied Natural Language Processing Conference, pp 21-28

[6] Hung Vo-Trung (2004), “Méthodes et outils pour utilisateurs,

développeurs et traducteurs de logiciels en contexte multilingue”, Thèse

en informatique, Institut national polytechnique de Grenoble, pp 69-86

[7] Hung Vo-Trung (2004), “SANDOH - un système d'analyse de

documents hétérogènes”, Actes de JADT, 2, pp 1177-1184

[8] Hung Vo-Trung (2004), “TRADOH, a meta-system of multilingual

machine translation”, 4th International Conference EsTAL, Alicante,

Spain, pp 303 – 313

[9] Tomás J., Sánchez-Villamil E., Lloret L., and Casacuberta F (2005),

Trang 13

“Webmining: An unsupervised parallel corpora web retrieval system”,

In

Proceedings from the Corpus Linguistics Conference, 1, pp 1-11

Internet:

[10]

http://www-clips.imag.fr/geta/User/achille.falaise/traouiero/tradoh2/form.php

[11]

http://www-clips.imag.fr/geta/User/hung.vo-trung/traducteur/web_fr/Index.htm

[12] http://www.perl.org/get.html

Trang 14

Ý KIẾN CỦA CÁN BỘ HƯỚNG DẪN

Đà Nẵng, ngày tháng năm 2012 Cán bộ hướng dẫn Ý KIẾN CỦA HỘI ĐỒNG CHẤM ĐỀ CƯƠNG

Đà Nẵng, ngày tháng năm 2012

Cán bộ duyệt đề cương

Định dạng
Số trang	14
Dung lượng	460,57 KB