DSpace at VNU: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt 2015 tài liệu, giáo án, bài...
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LƯU TIẾN TRUNG
ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP
NGÔN NGỮ ANH VIỆT
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI – 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2LƯU TIẾN TRUNG
ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP
NGÔN NGỮ ANH VIỆT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN VĂN VINH
HÀ NỘI – 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Văn Vinh
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm
Học viên
Trang 4LỜI CẢM ƠN
Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ thông tin, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã giúp đỡ tôi rất nhiều trong quá trình học tập, nghiên cứu, truyền đạt cho tôi những kiến thức quý báu trong những năm học vừa qua
Tôi xin bày tỏ lòng biết ơn sâu sắc đến giáo viên hướng dẫn của tôi - TS Nguyễn Văn Vinh, người đã tận tình chỉ bảo tôi, định hướng cho tôi trong quá trình nghiên cứu, giúp đỡ tôi về mặt phương pháp luận cũng như những kiểm tra cuối cùng đối với luận văn này
Tôi cũng muốn gửi lời cám ơn tới ThS Trần Hồng Việt đã chia sẻ với tôi rất nhiều kinh nghiệm, truyền đạt cho tôi rất nhiều kiến thức trong quá trình thực hiện luận văn này
Cuối cùng tôi gửi lời cảm ơn chân thành tới tất cả người thân và bạn bè đã giúp đỡ, động viên tôi rất nhiều trong quá trình học tập cũng như thực hiện đề tài này
Học viên
Lưu Tiến Trung
Trang 5MỞ ĐẦU
Theo bản điều tra báo cáo của UNESCO Liên Hiệp Quốc thì trên thế giới hiện có 2750 thứ tiếng Với nhu cầu trao đổi thông tin thường xuyên và liên tục, con người gặp phải không ít khó khăn do bất đồng ngôn ngữ Người ta đã phải dùng đến một đội ngũ phiên dịch khổng lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nước này sang tiếng nước khác Để khắc phục những nhược điểm trên con người đã nghĩ đến việc thiết kế một mô hình dịch tự động Công việc đưa ra mô hình dịch tự động đã và đang được phát triển và trở thành đề tài nghiên cứu được rất nhiều nhà khoa học quan tâm Trên thế giới đã có rất nhiều nước công bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn
Mô hình dịch là một thành phần quan trọng trong các hệ thống dịch máy Cải thiện mô hình dịch có thể tăng hiệu quả rất lớn đối với các hệ thống dịch máy
Vì vậy, trên thế giới đã có nhiều nghiên cứu được công bố về các mô hình dịch đem lại những hiệu quả rất tích cực Ở Việt Nam, dịch máy cũng đã trở thành đề tài được một số nhóm tập trung nghiên cứu tuy nhiên chất lượng cũng như phạm
vi ứng dụng của các hệ dịch đó vẫn còn nhiều hạn chế Những khó khăn đến từ cách thức tiếp cận, về cấu trúc ngữ pháp và sự nhập nhằng ngữ nghĩa của tiếng Việt
Dịch máy dựa trên cụm từ hiện nay đang là mô hình dịch đem lại hiệu quả cao và đang được sử dụng rộng rãi (Google, Bing, ) Mặc dù vậy, dịch trên cụm
từ vẫn còn có những hạn chế khi mà dịch trên cụm từ thông thường không đem lại kết quả cao khi trong dữ liệu huấn luyện chứa các thành phần dịch mà không nằm cạnh nhau nhưng lại có liên kết tới nhau Khi đó các thành phần này sẽ bị dịch riêng rẽ và đưa ra kết quả không chính xác Chính điều này đã gợi ý và thúc
Trang 6đẩy tôi lựa chọn và tập trung nghiên cứu về vấn đề này Dựa vào bài báo của Michel Galley and Christopher D Manning [3], tôi tiến hành nghiên cứu đề tài
“Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh Việt”
Tôi tin là nếu đề tài này được nghiên cứu thành công, kết quả của đề tài có thể ứng dụng rất tốt phục vụ trong công tác giảng dạy cũng như áp dụng thực tiễn
để xây dựng hệ thống dịch tự động Bố cục luận văn gồm 3 chương:
Chương 1: Giới thiệu tổng quan
Nội dung chính của chương này là giới thiệu tổng quan về bài toán dịch tự động, các hệ thống dịch máy, dịch máy thống kê Chương này cũng giới thiệu về nguyên lý hoạt động, các thành phần và phương pháp đánh giá về một hệ thống dịch máy thống kê
Chương 2: Mô hình dịch dựa vào cụm từ không liên tục
Nội dung chính của chương này là giới thiệu về mô hình dịch máy dựa trên cụm từ không liên tục Trong chương này, chúng tôi đã giới thiệu về mô hình dịch máy, phân loại các mô hình dịch máy hiện nay Cùng với đó, chúng tôi đã trình bày cách tiếp cận, đi sâu vào mô hình dịch máy dựa trên cụm từ không liên tục
Chương 3: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt
Nội dung chính của chương này là mô tả việc áp dụng mô hình học máy dựa trên cụm từ không liên tục cho bài toán dịch máy Chương tày cũng sẽ mô tả
về công cụ Phrasal cùng các thực nghiệm sử dụng công cụ này, đưa ra các kết quả thu được và đánh giá Cuối chương sẽ đưa ra hướng nghiên cứu tiếp theo của đề tài
Trang 75
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN
Nội dung chính của chương này là giới thiệu tổng quan về bài toán dịch tự động, các hệ thống dịch máy, dịch máy thống kê Chương này cũng giới thiệu về nguyên lý hoạt động, các thành phần và phương pháp đánh giá về một hệ thống dịch máy thống kê
1 Dịch máy
Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài thứ tiếng khác Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ nguồn Văn bản này có thể thu được từ một hệ soạn thảo hay một hệ nhận dạng chữ viết, lời nói Sau đó văn bản có thể được chỉnh sửa lại nhờ khối soạn thảo, kiểm tra chính tả, trước khi đưa vào máy dịch Phần dịch máy sẽ chuyển văn bản nguồn thành văn bản viết trên ngôn ngữ đích Và cũng qua một bộ chỉnh ra để cuối cùng thu được một văn bản tương đối hoàn chỉnh
Dịch máy có lịch sử lâu đời từ thập kỷ 50 và được phát triển mạnh mẽ từ thập kỷ 80 cho đến nay Hiện tại, trên thế giới có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như Systrans, Kant, … hay những hệ dịch máy mở tiêu biểu là hệ dịch của Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến như Anh-Pháp, Anh-Trung, Anh-Nhật, Hoa-Nhật,… Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu Các hệ dịch máy này đã đạt được kết quả khá tốt với những cặp ngôn ngữ tương đồng nhau về cú pháp như các cặp ngôn ngữ AnhPháp, Anh-Tây Ban Nha, … và còn gặp nhiều hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau như Trung,
Trang 8Anh-6
Nhật, … Và ở Việt Nam, dịch Anh-Việt, Việt-Anh cũng vấp phải những khó khăn tương tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của ngữ nghĩa hệ thống dịch Anh-Việt dựa trên luật chuyển đổi được thương mại hóa đầu tiên ở Việt Nam là EVTran, MTD Lạc Việt Hiện nay, nhiều nghiên cứu với mong muốn tăng chất lượng dịch vẫn đang được thực hiện thích nghi với đặc điểm của các cặp ngôn ngữ khác nhau
Hiện nay, các nghiên cứu để làm tăng chất lượng hệ dịch vẫn đang được
tiến hành phù hợp với đặc điểm của các cặp ngôn ngữ Trong đó, phương pháp dịch dựa trên thống kê là một hướng tiếp cận đang được phát triển mạnh từ
những năm của thập kỷ 90, đang được xem là cách tiếp cận khả thi và hiệu quả của việc dịch tự động với nhiều bước đột phá
2 Dịch máy thống kê
a) Giới thiệu tổng quan
Dịch máy thống kê (SMT) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn
từ việc phân tích các cặp câu song ngữ Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như với dịch máy dựa trên ví dụ
Những ý tưởng đầu tiên của dịch máy thống kê đã được giới thiệu bởi Warren Weaver vào năm 1949, bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon Dịch máy thống kê được tái giới thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu Thomas J Watson của IBM và đã góp phần đáng kể trong sự hồi sinh việc quan
Trang 97
tâm đến dịch máy trong những năm gần đây Ngày nay nó là phương pháp dịch máy được nghiên cứu nhiều nhất
Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí thức Trong khi đối với dịch thống kê, chúng ta dựa vào toán học để thực hiện kết hợp tối ưu của các nguồn trí thức Trong dịch máy thống kê, trí thức dịch được học một cách tự động từ dữ liệu huấn luyện Với kết quả như vậy, việc phát triển một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật Thật vậy, việc đưa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn phong là rất khó khăn hơn rất nhiều nếu không nói là không thể Thay vào đó, trong cách tiếp cận thống kê, các giả định mô hình được kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện Một ưu điểm khác của dịch máy thống kê đó
là phương pháp này khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một phần của ứng dụng lớn hơn
Dịch máy dựa trên phương pháp thống kê sẽ tìm câu ngôn ngữ đích e phù hợp nhất (có xác suất cao nhất) khi cho trước câu ngôn ngữ nguồn f
Một hệ dịch máy dựa trên phương pháp thống kê có thể được mô hình hoá như hình sau:
TÀI LIỆU THAM KHẢO Tiếng Việt
Trang 108
[1] Đào Ngọc Tú (2012), “Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh – Việt” Luận văn Thạc sĩ, Học viện công nghệ bưu chính viễn thông
[2] Nguyễn Văn Vinh (2005) “Xây dựng chương trình dịch tự động Anh Việt bằng phương pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN
Tiếng Anh
[3] Michel Galley, Christopher D Manning, “Accurate Non-Hierarchical Phrase-Based Translation”, Computer Science Department, Stanford University
[4] Percy Liang, Ben Taskar, Dan Klein, “Alignment By Agreement”, NAACL, 2006
[5] John DeNero, Dan Klein, “Tailoring Word Alignments to Syntactic Machine Translation”, ACL, 2007
[6] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”,
2008
[7] Kenneth Heafield, Faster and Smaller Language Model Querie, WMT tại EMNLP, Edinburgh, Scotland, Vương quốc Anh, 2011
[8] Cer, D., Galley, M., Jurafsky, D., and Manning, C D, “Phrasal: A Statistical Machine Translation Toolkit for Exploring New Model Features”, In Proceedings of the NAACL HLT 2010 Demonstration Session, pages 9–12, Los Angeles, CA, USA, 2010
Trang 119
[9] Phrasal: A Toolkit for New Directions in Statistical Machine Translation 2014 Spence Green, Daniel Cer, and Christopher D Manning
In WMT
[10] Spence Green, Daniel Cer, and Christopher D Manning, “Phrasal: A Toolkit for New Directions in Statistical Machine Translation”, Computer Science Department, Stanford University
[11] D Chiang (2005), “A Hierarchical Phrase-Based Model for Statistical Machine Translation”, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05)
[12] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), “Re-evaluating the Role of Bleuin Machine Translation Research”
[13] Koehn, P (2004), “Pharaoh: a beam search decoder for phrasebased”,
2004
[14] Koehn, P, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, C Dyer, O Bojar, A Constantin, E Herbst (2007), “Moses: Open Source Toolkit for Statistical Machine Translation”, ACL 2007, Demonstration Session, Prague, Czech Republic
[15] Koehn, P., et al (2006), “Moses: Open Source Toolkit for Statistical Machine Translation”
[16] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical Phrase-Based Translation”, In proceedings of NAACL
Trang 1210
[17] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S (1990), “A statistical approach to machine translation.”, Computational Linguistics
Website
[12] http://www.statmt.org/
[13] http://nlp.stanford.edu/
[14] http://viet.jnlp.org/
[15] http://www.systransoft.com