Tương tự như ngữ liệu song ngữ, bài toán gióng hàng song ngữ cũng được chia theo mức văn bản tương ứng, một trong số đó là bài toán gióng hàng đoạn văn.. Giới thiệu về dịch máy Trong và
Trang 1[DATE]
[COMPANY NAME]
[Company address]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
ANH – VIỆT
LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
HÀ NỘI - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
ANH – VIỆT
LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
Cán bộ hướng dẫn: PGS.TS Lê Anh Cường
HÀ NỘI - 2015
Trang 3LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Hà Nội, ngày 30 tháng 4 năm 2015
Nguyễn Duy Cường
Trang 4LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành nhất đến PGS TS Lê Anh Cường, người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn
và tạo điều kiện để tôi có thể hoàn thành luận văn này
Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu
và sự hỗ trợ tốt nhất
Trang 5TÓM TẮT LUẬN VĂN
Ngữ liệu song ngữ được chia thành nhiều mức văn bản khác nhau bao gồm: bài văn, đoạn văn, câu, và từ Dịch máy thống kê – là một phương pháp dịch máy – sử dụng cặp câu song ngữ như là dữ liệu đầu vào để tính ra xác suất dịch của từ Tuy nhiên, hệ thống ngữ liệu song ngữ còn tương đối nhỏ, mặc dù đã có nhiều nghiên cứu tập trung vào việc trích xuất cặp câu song ngữ từ ngồn web Dù vậy, để có được nguồn ngữ liệu song ngữ có độ chính xác cao sẽ là bài toán khó vì internet chứa rất nhiều nhiễu (câu dịch thường không sát nghĩa hoặc bị lược bỏ một phần) Trong khi
đó, có một nguồn ngữ liệu tốt là sách điện tử với số lượng lớn không kém và được dịch cẩn thận hơn nhiều lại chưa được khai thác triệt để
Tương tự như ngữ liệu song ngữ, bài toán gióng hàng song ngữ cũng được chia theo mức văn bản tương ứng, một trong số đó là bài toán gióng hàng đoạn văn Nhiệm
vụ của gióng hàng đoạn là tìm các đoạn tương ứng là dịch của nhau trong hai văn bản thuộc hai ngôn ngữ khác nhau Trước đây, đã có nhiều hướng tiếp cận khác nhau để giải quyết bài toán này, nhưng đều đi theo hai xu hướng chính Một là sử dụng mô hình xác suất, dựa trên cơ sở là có sự tương quan về kích thước của các câu trong văn bản nguồn với câu trong văn bản đích Tuy nhiên, trong quá trình dịch thuật do cấu trúc của hai văn bản khác nhau nên sẽ dẫn tới trường hợp: một văn bản nguồn được dịch thành nhiều phần trong văn bản đích và ngược lại Khi đó, phương pháp xác suất
sẽ gặp nhiều hạn chế Phương pháp thứ hai lại dựa vào ngôn ngữ, thông thường là từ điển để tìm cặp từ, câu tương ứng Nhưng lại gặp phải vấn đề về sự nhập nhằng của ngữ nghĩa, đặc biệt trong các lĩnh vực khác nhau
Ở đây, luận văn sẽ theo hướng tiếp cận thứ hai, đồng thời kết hợp với hệ thống dịch máy (SMT) áp dụng cho bài toán gióng hàng đoạn Bằng việc phân tích các đặc điểm chỉ có ở đoạn văn, luận văn đã đưa ra mô hình thích hợp nhất cho bài toán Sau
đó, thiết lập một độ đo khác phù hợp hơn cho việc xác định độ tương tự giữa các đoạn văn trong cặp văn bản dịch Từ đặc thù là bài toán tìm giải pháp tối ưu nhất, luận văn
đã lựa chọn giải thuật quy hoạch động để tìm kiếm Để đánh giá thuật toán, tác giả sẽ tiến hành thực nghiệm gióng hàng đoạn trước, sau đó gióng hàng câu rồi so sánh với thuật toán cơ bản (Gale – Church) và thuật toán mới gần đây là Champollion trong gióng hàng câu
Trang 6Mục lục
CHƯƠNG 1 – TổNG QUAN 7
1.1 G IớI THIệU Về DịCH MÁY 7
1.2 B ÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ CHO SMT 8
1.3 M ụC TIÊU CủA LUậN VĂN 9
1.4 P HạM VI CủA LUậN VĂN 9
1.5 K ếT CấU CủA LUậN VĂN 10
CHƯƠNG 2 – DịCH MÁY THốNG KÊ ERROR! BOOKMARK NOT DEFINED 2.1 D ịCH MÁY THốNG KÊ E RROR ! B OOKMARK NOT DEFINED
2.2 Các thành phần của hệ dịch máy Error! Bookmark not defined 2.3 Mô hình dịch Error! Bookmark not defined 2.4 Bộ giải mã Error! Bookmark not defined 2.5 Mô hình ngôn ngữ Error! Bookmark not defined 2.6 Đánh giá chất lượng dịch Error! Bookmark not defined 2.7 Đặc điểm của phương pháp dịch thống kê Error! Bookmark not defined 2.8 Chu kì phát triển của hệ thống dịch thống kê Error! Bookmark not defined.
CHƯƠNG 3 – BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ ERROR!
BOOKMARK NOT DEFINED
3.1 C ÁC Bộ NGữ LIệU SONG NGữ LớN E RROR ! B OOKMARK NOT DEFINED
3.1.1 Khối Châu Âu Error! Bookmark not defined 3.1.2 Khối Đông Nam Á Error! Bookmark not defined.
3.2 C ÁC PHƯƠNG PHÁP GIÓNG HÀNG HIệN TạI E RROR ! B OOKMARK NOT DEFINED
3.2.1 Theo độ dài Error! Bookmark not defined 3.2.2 Hướng tiếp cận dựa vào ngữ nghĩa Error! Bookmark not defined 3.2.3 Kết hợp độ dài và ngữ nghĩa Error! Bookmark not defined.
3.3 V ấN Đề SAI THứ Tự VÀ THIếU CÂU TRONG GIÓNG HÀNG E RROR ! B OOKMARK NOT DEFINED
3.4 G IÓNG HÀNG VĂN BảN SONG NGữ E RROR ! B OOKMARK NOT DEFINED
3.4.1 Phương pháp tiếp cận dựa trên âm tiết Error! Bookmark not defined 3.4.2 Phương pháp tiếp cận dựa trên từ điển Error! Bookmark not defined 3.4.3 Phương pháp tiếp cận thống kê Error! Bookmark not defined.
CHƯƠNG 4 – GIÓNG HÀNG ĐOạN VĂN ERROR! BOOKMARK NOT DEFINED 4.1 B ÀI TOÁN GIÓNG HÀNG ĐOạN VĂN E RROR ! B OOKMARK NOT DEFINED
Trang 74.2 T HUậT TOÁN QUY HOạCH ĐộNG E RROR ! B OOKMARK NOT DEFINED
4.2.1 Giải thuật Needleman -Wunsch Error! Bookmark not defined 4.2.2 Giải thuật Smith – Waterman Error! Bookmark not defined.
4.3 Đ ộ ĐO KHOảNG CÁCH E RROR ! B OOKMARK NOT DEFINED
4.3.1 Độ đo cơ bản Error! Bookmark not defined 4.3.2 Độ đo đề xuất Error! Bookmark not defined.
4.4 T HUậT TOÁN Đề XUấT E RROR ! B OOKMARK NOT DEFINED CHƯƠNG 5 – THựC NGHIệM ERROR! BOOKMARK NOT DEFINED 5.1 C HUẩN Bị E RROR ! B OOKMARK NOT DEFINED
5.1.1 Chuẩn bị dữ liệu Error! Bookmark not defined 5.1.2 Xác định tham số Error! Bookmark not defined.
5.2 K ếT QUả E RROR ! B OOKMARK NOT DEFINED 5.3 S O SÁNH VớI THUậT TOÁN C HAMPOLLION E RROR ! B OOKMARK NOT DEFINED
5.4 Á P DụNG VÀ ĐÁNH GIÁ TRÊN Hệ DịCH MÁY MOSES E RROR ! B OOKMARK NOT DEFINED
5.5 Đ ÁNH GIÁ E RROR ! B OOKMARK NOT DEFINED TÀI LIỆU THAM KHẢO 11
Trang 8Chương 1 – Tổng quan
1.1 Giới thiệu về dịch máy
Trong vài năm trở lại đây, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật,
xử lý ngôn ngữ tự nhiên đã có nhiều bước phát triển mạnh mẽ, một loạt các hệ thống
hỗ trợ ngôn ngữ ra đời góp phần rút gắn khoảng cách về mặt ngôn ngữ giữa các nền văn hóa trên thế giới Cho đến nay, với sự xuất hiện các hệ thống dịch tự động miễn phí trên mạng như: Google translate, bing translation, systran, vietgle… đã cho thấy sự phát triển của dịch máy ngày càng tiến gần tới ngôn ngữ tự nhiên hơn
Cùng với sự phát triển của dịch máy, vào những năm gần đây, mô hình dịch máy thống kê đã và đang thu hút được rất nhiều sự quan tâm của các nhà khoa học Hơn nữa, kết quả thực tế của hệ thống dịch này rất tốt Ngôn ngữ của máy dịch càng ngày càng gần với ngôn ngữ của người Ngoài ra cùng với hệ thống dịch máy thống kê, các sản phẩm ứng dụng ngày càng giúp con người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hơn và hỗ trợ nhiều ngôn ngữ hơn
Mặc dù phương pháp dịch thống kê có thể dựa trên nhiều cơ sở khác nhau như: dựa trên cơ sở từ, cơ sở cụm từ hay dựa trên cơ sở cú pháp thì cũng đều cần một nguồn
dữ liệu học Và đặc biệt là khi dữ liệu học càng nhiều bao nhiêu thì kết quả dịch càng tốt bấy nhiều Đây là một lợi thế lớn cho các hệ thống dịch máy dành cho tiếng Việt, khi mà khối lượng văn bản tiếng Anh và tiếng Việt ngày càng lớn trong thời kỳ Việt Nam hội nhập sâu rộng với quốc tế như hiện nay
Xuất phát từ những yêu cầu cấp thiết đó, một phân hệ quan trọng hiện đang được các nhà khoa học chú ý phát triển trong dịch máy thống kê đó là việc xây dựng tập hợp ngữ liệu song ngữ chuẩn Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh
“corpus”, có nghĩa là “kho dữ liệu, kho sưu tập tài liệu, ” (theo Từ điển Anh-Việt, ĐH Ngoại ngữ, NXB GD-2000 trang 368) “Ngữ liệu” ở đây có thể xem là những “dữ liệu,
cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ Ngữ liệu song ngữ (dịch từ tiếng Anh là: bilingual corpus, hay parallel text, hay bitext) là ngữ liệu tồn tại dưới hai ngôn ngữ và chúng là bản dịch của nhau
Trước khi có nhu cầu từ dịch máy thống kê thì văn bản song ngữ cũng đã tồn tại với phạm vi ứng dụng rất rộng rãi thuộc nhiều lĩnh vực khác nhau, đặc biệt giúp ích cho việc nâng cao kỹ năng đọc và dịch Tính sẵn có của một số lượng lớn các mẫu câu
Trang 9với bản dịch song song của nó không chỉ có thể cải thiện các kỹ năng đọc, mà còn có thể giúp nâng cao hàm ý trong các bản dịch Ngoài ra, có thể dựa vào các văn bản song ngữ để tìm kiếm các cụm từ tương đương về mặt ngữ nghĩa hay tương đương về cấu trúc ngữ pháp của bản dịch ứng với bản nguồn
1.2 Bài toán gióng hàng văn bản song ngữ cho SMT
Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra cứu xuyên ngôn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối chiếu các điểm tương đồng và dị biệt giữa ngôn ngữ tiếng Anh và tiếng Việt (English – Vietnamese contrastive linguistics), chúng ta không thể nghiên cứu trên lý thuyết, hay trên những câu do chúng ta nghĩ ra, mà phải nghiên cứu trên những câu có thật trong thực tế sử dụng Điều này đòi hỏi chúng ta phải có các chứng cứ của ngôn ngữ, các ví dụ từ thực tế đã được nhiều người sử dụng và được xem là ngôn ngữ chuẩn [Tony McEnery, Andrew Wilson (1996) ]
Tính hữu ích của tập ngữ liệu song ngữ đã dẫn đến một số dự án quy mô lớn nhằm xây dựng một kho dữ liệu chung cho nhiều ngôn ngữ Tuy nhiên, các bộ ngữ liệu song ngữ hiện nay vẫn còn hạn chế về số lượng cũng như sự đa dạng của ngôn ngữ Từ nhu cầu cấp thiết đó, một nhánh nghiên cứu mới đang phát triển gần đây đó là: xây dựng các hệ thống học máy có thể tự động xây dựng tập ngữ liệu song ngữ từ nguồn dữ liệu thô (bài toán gióng hàng văn bản)
Gióng hàng văn bản song ngữ là việc sắp xếp từ, cụm từ hoặc câu trong ngôn ngữ ngồn với bản dịch tương đương ở ngôn ngữ khác Các tập văn bản thường được gióng hàng ở mức cụm từ hoặc mức câu Bài toán gióng hàng song ngữ không có khả năng giải bằng các phương pháp đơn thuần, vì trong khi dịch rất hiếm khi có một câu dịch hoàn hảo của câu tương ứng trong văn bản nguồn Một câu rất ngắn có thể dịch ra rất dài để đảm bảo đủ ý của câu, hoặc một câu nguồn có thể được dịch thành hai hoặc nhiều câu trong ngôn ngữ đích và ngược lại Cá biệt, có thể có trường hợp một câu hoặc thậm chí một đoạn có thể bị bỏ qua hoàn toàn
Nhiều phương pháp đã được đề xuất để giải quyết bài toán gióng hàng văn bản cho ngôn ngữ châu Âu, sẽ được thảo luận trong chương sau Tuy nhiên, hầu hết các phương pháp gióng hàng đó đều áp dụng ở mức từ, câu là chủ yếu
Ngược lại, có rất ít công trình nghiên cứu áp dụng cho các ngôn ngữ thuộc khu vực Đông Nam Á Không giống như tiếng Anh và các ngôn ngữ châu Âu khác, hầu hết
Trang 10các ngôn ngữ Đông Nam Á thường không phân rã ở cấp độ từ, và cấu trúc ngữ pháp khác biệt hẳn so với hệ thống chữ viết Latin Kết quả là, các thuật toán tiêu chuẩn và triển khai thực hiện cho gióng hàng văn bản thường không đạt được kết quả tốt như mong đợi Riêng đối với ngôn ngữ Tiếng Việt, chưa có nhiều nhà khoa học tập trung nghiên cứu để tìm ra giải pháp thay thế cũng như đo lường, đánh giá hiệu suất gióng hàng văn bản ngôn ngữ Tiếng Việt nói riêng và ngôn ngữ Đông Nam Á nói chung
1.3 Mục tiêu của luận văn
Hiện tại, có nhiều phương pháp đã được chứng minh và đánh giá hiệu quả cho bài toán gióng hàng văn bản vói nhóm ngôn ngữ khối châu Âu bao gồm thuật toán Gale – Church [1], Vanilla Aligner [13]), Brown,… sẽ được thảo luận trong chương kế tiếp Trong luận văn này, sẽ chỉ đi sâu nghiên cứu rồi đưa ra một đề xuất về giải pháp gióng hàng áp dụng cho sách văn học dịch của Việt Nam, dựa trên các phương pháp gióng hàng đoạn trước để giới hạn không gian tìm kiếm cho gióng hàng câu Sau đó sẽ
sử dụng các cặp câu đã được gióng hàng để đưa vào huấn luyện trong hệ dịch máy Luận văn cũng sẽ trình bầy các bước chuẩn bị, các kỹ thuật tiền xử lý cho quá trình chuẩn bị dữ liệu trước khi thực hiện áp dụng giải thuật đề xuất
Mục tiêu là:
• Khảo sát các đặc trưng của tập dữ liệu là sách văn học dịch
• Mô hình hóa bài toán gióng hàng đoạn văn
• Đề xuất phương pháp gióng hàng văn bản
• Cài đặt và đánh giá hiệu suất của phương pháp dựa trên chiều dài
• Đánh giá, so sánh thuật toán đề xuất
• Áp dụng vào bài toán gióng hàng câu tự động để sinh ra tập ngữ liệu học cho dịch máy thống kê
1.4 Phạm vi của luận văn
Luận văn sẽ tập trung giải quyết các vấn đề sau:
• Thảo luận về bài toán gióng hàng văn bản, các vấn đề và một số giải thuật hiện tại áp dụng cho nhóm ngôn ngữ Châu Âu
• Khảo sát các đặc trưng của bài toán gióng hàng đoạn văn, từ đó đề xuất mô hình cho bài toán gióng hàng đoạn văn
• Khảo sát thuật toán quy hoạch động, từ đó kết hợp với độ đo độ tương tự trong gióng hàng đoạn văn
• Tiến hành thực nghiệm đánh giá kết quả
Trang 111.5 Kết cấu của luận văn
Luận văn sẽ được tổ chức như sau:
Chương 2: luận văn sẽ trình bầy sơ qua về hệ thống dịch máy, bao gồm các thành phần của dịch máy, cách đánh giá bản dịch, và một số lợi ích của hệ dịch máy
Chương 3: sẽ giới thiệu về các hệ thống dữ liệu lớn đang có trên thế giới Tiếp
đó, luận văn trình bầy sơ lược một số hướng tiếp cận cơ bản với bài toán gióng hàng văn bản Cuối chương nêu ra một số đặc trưng và những vấn đề cần phải giải quyết của bài toán gióng hàng văn bản
Chương 4: giới thiệu sơ qua về thuật toán quy hoạch động sẽ được áp dụng vào bài toán để tìm lời giải tối ưu Tiếp tục đi sâu phân tích đặc trưng bài toán gióng hàng đoạn văn Từ đó, đưa ra mô hình thích hợp cho bài toán gióng hàng đoạn văn dựa trên các đặc trưng của bài toán Sau đó đưa ra một độ đo thích hợp để tính tương độ tự giữa hai đoạn văn song ngữ, kết hợp với thuật toán quy hoạch động để tìm tập các cách gióng hàng hợp lý nhất
Chương 5: trình bầy về thực nghiệm, bao gồm các bước xây dựng tập dữ liệu phục vụ quá trình thử nghiệm hiệu suất, đánh giá kết quả của phương pháp mới đề xuất Phần cuối là áp dụng bộ dữ liệu lấy được vào hệ dịch máy
Trang 12TÀI LIỆU THAM KHẢO
[1] W A Gale and K W Church, A program for aligning sentences in bilingual
corpora, Proceedings of the 29th Annual Meeting of the Association for
Computational Linguistics (ACL) Morristown, NJ, USA: Association for
Computational Linguistics, 1991, tr 177–184
[2] Aligned Hansards of the 36th Parliament of Canada, September 2007 [Online]
http://www.isi.edu/natural-language/download/hansard/
[3] P Koehn, Europarl: A parallel corpus for statistical machine translation, MT
Summit, 2005 [Online] http://www.statmt.org/europarl/
[4] The English-Norwegian parallel corpus, September 2007 [Online]
http://www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc/
[5] The English-Swedish parallel corpus, September 2007 [Online]
http://www.englund.lu.se/corpus/corpus/espc.html
[6] Hunglish corpus, August 2007 [Online]
http://mokk.bme.hu/resources/hunglishcorpus/indexhtml
[7] Xiaoyi Ma, Hong Kong Parallel Text Philadelphia: Linguistic Data Consortium,
2004
[8] SEALang (2007, October) Southeast Asian languages library [Online]
http://library.sealang.net
[9] Wanakam (2007, October) Wanakam world classics in Thai [Online]
http://www.wanakam.com
[10] M Barang (2007, October) Thai fiction in translation [Online]
http://www.thaifiction.com
[11] Bangkok Post, Learning Post, September 2007 [Online]
http://www.bangkokpost.net/education/index.htm
[12] Asia Online, October 2008 [Online] http://asiaonline.net
[13] P Danielsson and D Ridings, Practical presentation of a “Vanilla” aligner,
August 2007 [Online] http://nl.ijs.si/telri/Vanilla/doc/ljubljana/