Giới thiệu về dịch máy Trong vài năm trở lại đây, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật, xử lý ngôn ngữ tự nhiên đã có nhiều bước phát triển mạnh mẽ, một loạt các hệ thốn
Trang 1Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
ANH – VIỆT
LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
HÀ NỘI - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
Trang 3LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Hà Nội, ngày 30 tháng 4 năm 2015
Nguyễn Duy Cường
Trang 4LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thànhnhất đến PGS TS Lê Anh Cường, ngườiđã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn
và tạo điều kiện để tôi có thể hoàn thành luận văn này
Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu
và sự hỗ trợ tốt nhất
Trang 5TÓM TẮT LUẬN VĂN
Ngữ liệu song ngữ được chia thành nhiều mức văn bản khác nhau bao gồm: bài văn, đoạn văn, câu, và từ Dịch máy thống kê – là một phương pháp dịch máy – sử dụng cặp câu song ngữ như là dữ liệu đầu vào để tính ra xác suất dịch của từ Tuy nhiên, hệ thống ngữ liệu song ngữ còn tương đối nhỏ, mặc dù đã có nhiều nghiên cứu tập trung vào việc trích xuất cặp câu song ngữ từ ngồn web Dù vậy, để có được nguồn ngữ liệu song ngữ có độ chính xác cao sẽ là bài toán khó vì internet chứa rất nhiều nhiễu (câu dịch thường không sát nghĩa hoặc bị lược bỏ một phần) Trong khi
đó, có một nguồn ngữ liệu tốt là sách điện tử với số lượng lớn không kém và được dịch cẩn thận hơn nhiều lại chưa được khai thác triệt để
Tương tự như ngữ liệu song ngữ, bài toán gióng hàng song ngữ cũng được chia theo mức văn bản tương ứng, một trong số đó là bài toán gióng hàng đoạn văn Nhiệm
vụ của gióng hàng đoạn là tìm các đoạn tương ứng là dịch của nhau trong hai văn bản thuộc hai ngôn ngữ khác nhau Trước đây, đã có nhiều hướng tiếp cận khác nhau để giải quyết bài toán này, nhưng đều đi theo hai xu hướng chính Một là sử dụng mô hình xác suất, dựa trên cơ sở là có sự tương quan về kích thước của các câu trong văn bản nguồn với câu trong văn bản đích Tuy nhiên, trong quá trình dịch thuật do cấu trúc của hai văn bản khác nhau nên sẽ dẫn tới trường hợp: một văn bản nguồn được dịch thành nhiều phần trong văn bản đích và ngược lại Khi đó, phương pháp xác suất
sẽ gặp nhiều hạn chế Phương pháp thứ hai lại dựa vào ngôn ngữ, thông thường là từ điển để tìm cặp từ, câu tương ứng Nhưng lại gặp phải vấn đề về sự nhập nhằng của ngữ nghĩa, đặc biệt trong các lĩnh vực khác nhau
Ở đây, luận văn sẽ theo hướng tiếp cận thứ hai, đồng thời kết hợp với hệ thống dịch máy (SMT) áp dụng cho bài toán gióng hàng đoạn Bằng việc phân tích các đặc điểm chỉ có ở đoạn văn, luận văn đã đưa ra mô hình thích hợp nhất cho bài toán Sau
đó, thiết lập một độ đo khác phù hợp hơn cho việc xác định độ tương tự giữa các đoạn văn trong cặp văn bản dịch Từ đặc thù là bài toán tìm giải pháp tối ưu nhất, luận văn
đã lựa chọn giải thuật quy hoạch động để tìm kiếm Để đánh giá thuật toán, tác giả sẽ tiến hành thực nghiệm gióng hàng đoạn trước, sau đó gióng hàng câu rồi so sánh với thuật toán cơ bản (Gale – Church) và thuật toán mới gần đây là Champollion trong gióng hàng câu
Trang 6Mục lục
CHƯƠNG 1 – TổNG QUAN 7
1.1 G IớI THIệU Về DịCH MÁY 7
1.2 B ÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ CHO SMT 8
1.3 M ụC TIÊU CủA LUậN VĂN 9
1.4 P HạM VI CủA LUậN VĂN 9
1.5 K ếT CấU CủA LUậN VĂN 10
CHƯƠNG 2 – DịCH MÁY THốNG KÊ 11
2.1 D ịCH MÁY THốNG KÊ 12
2.2 Các thành phần của hệ dịch máy 14
2.3 Mô hình dịch 15
2.4 Bộ giải mã 20
2.5 Mô hình ngôn ngữ 21
2.6 Đánh giá chất lượng dịch 23
2.7 Đặc điểm của phương pháp dịch thống kê 25
2.8 Chu kì phát triển của hệ thống dịch thống kê 25
CHƯƠNG 3 – BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ 27
3.1 C ÁC Bộ NGữ LIệU SONG NGữ LớN 27
3.1.1 Khối Châu Âu 27
3.1.2 Khối Đông Nam Á 28
3.2 C ÁC PHƯƠNG PHÁP GIÓNG HÀNG HIệN TạI 29
3.2.1 Theo độ dài 29
3.2.2 Hướng tiếp cận dựa vào ngữ nghĩa 29
3.2.3 Kết hợp độ dài và ngữ nghĩa 30
3.3 V ấN Đề SAI THứ Tự VÀ THIếU CÂU TRONG GIÓNG HÀNG 31
3.4 G IÓNG HÀNG VĂN BảN SONG NGữ 32
3.4.1 Phương pháp tiếp cận dựa trên âm tiết 32
3.4.2 Phương pháp tiếp cận dựa trên từ điển 33
3.4.3 Phương pháp tiếp cận thống kê 34
CHƯƠNG 4 – GIÓNG HÀNG ĐOạN VĂN 35
4.1 B ÀI TOÁN GIÓNG HÀNG ĐOạN VĂN 35
4.2 T HUậT TOÁN QUY HOạCH ĐộNG 39
4.2.1 Giải thuật Needleman -Wunsch 41
4.2.2 Giải thuật Smith – Waterman 44
4.3 Đ ộ ĐO KHOảNG CÁCH 47
Trang 74.3.1 Độ đo cơ bản 47
4.3.2 Độ đo đề xuất 48
4.4 T HUậT TOÁN Đề XUấT 49
CHƯƠNG 5 – THựC NGHIệM 51
5.1 C HUẩN Bị 51
5.1.1 Chuẩn bị dữ liệu 51
5.1.2 Xác định tham số 52
5.2 K ếT QUả 53
5.3 S O SÁNH VớI THUậT TOÁN C HAMPOLLION 55
5.4 Á P DụNG VÀ ĐÁNH GIÁ TRÊN Hệ DịCH MÁY MOSES 56
5.5 Đ ÁNH GIÁ 57
TÀI LIỆU THAM KHẢO 59
Trang 8Chương 1 – Tổng quan
1.1 Giới thiệu về dịch máy
Trong vài năm trở lại đây, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật,
xử lý ngôn ngữ tự nhiên đã có nhiều bước phát triển mạnh mẽ, một loạt các hệ thống
hỗ trợ ngôn ngữ ra đời góp phần rút gắn khoảng cách về mặt ngôn ngữ giữa các nền văn hóa trên thế giới Cho đến nay, với sự xuất hiện các hệ thống dịch tự động miễn phí trên mạng như: Google translate, bing translation, systran, vietgle… đã cho thấy sự phát triển của dịch máy ngày càng tiến gần tới ngôn ngữ tự nhiên hơn
Cùng với sự phát triển của dịch máy, vào những năm gần đây, mô hình dịch máy thống kê đã và đangthu hút được rất nhiều sự quan tâm của các nhà khoa học Hơn nữa, kết quả thực tế của hệ thống dịch này rất tốt Ngôn ngữ của máy dịch càng ngày càng gần với ngôn ngữ của người Ngoài ra cùng với hệ thống dịch máy thống kê, các sản phẩm ứng dụng ngày càng giúp con người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hơn và hỗ trợ nhiều ngôn ngữ hơn
Mặc dù phương pháp dịch thống kêcó thể dựa trên nhiều cơ sở khác nhau như: dựa trên cơ sở từ, cơ sở cụm từ hay dựa trên cơ sở cú pháp thì cũng đều cần một nguồn
dữ liệu học Và đặc biệt là khi dữ liệu học càng nhiều bao nhiêu thì kết quả dịch càng tốt bấy nhiều Đây là một lợi thế lớn cho các hệ thống dịch máy dành cho tiếng Việt, khi mà khối lượng văn bản tiếng Anh và tiếng Việt ngày càng lớn trong thời kỳ Việt Nam hội nhập sâu rộng với quốc tế như hiện nay
Xuất phát từ những yêu cầu cấp thiết đó, một phân hệ quan trọng hiện đang được các nhà khoa học chú ý phát triển trong dịch máy thống kê đó là việc xây dựng tập hợp ngữ liệu song ngữ chuẩn.Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh“corpus”, có nghĩa là “kho dữ liệu, kho sưu tập tài liệu, ” (theo Từ điển Anh-Việt, ĐHNgoại ngữ, NXB GD-2000 trang 368) “Ngữliệu” ở đây có thể xem là những “dữ liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ Ngữ liệu song ngữ (dịch từ tiếng Anh là: bilingual corpus, hay parallel text, hay bitext) là ngữ liệu tồn tại dưới hai ngôn ngữ và chúng là bản dịch của nhau
Trước khi có nhu cầu từ dịch máy thống kê thì văn bản song ngữ cũng đã tồn tại với phạm vi ứng dụng rất rộng rãi thuộc nhiều lĩnh vực khác nhau,đặc biệt giúp ích cho việcnâng cao kỹ năng đọc và dịch Tính sẵn có của một số lượng lớn các mẫu câu
Trang 9với bản dịch song song của nó không chỉ có thể cải thiện các kỹ năng đọc, mà còn có thể giúp nâng cao hàm ý trong các bản dịch Ngoài ra, có thể dựa vào các văn bản song ngữ để tìm kiếm các cụm từ tương đương về mặt ngữ nghĩa hay tương đương về cấu trúc ngữ pháp của bản dịch ứng với bản nguồn
1.2 Bài toán gióng hàng văn bản song ngữ cho SMT
Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra cứu xuyên ngôn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối chiếu các điểm tương đồng và dị biệt giữa ngôn ngữ tiếng Anh và tiếng Việt (English – Vietnamese contrastive linguistics), chúng ta không thể nghiên cứu trên lý thuyết, hay trên những câu do chúng ta nghĩ ra, mà phải nghiên cứu trên những câu có thật trong thực tế sử dụng Điều này đòi hỏi chúng ta phải có các chứng cứ của ngôn ngữ, các ví dụ từ thực tế đã được nhiều người sử dụng và được xem là ngôn ngữ chuẩn [Tony McEnery, Andrew Wilson (1996) ]
Tính hữu ích của tập ngữ liệu song ngữ đã dẫn đến một số dự án quy mô lớn nhằm xây dựng một kho dữ liệu chung cho nhiều ngôn ngữ Tuy nhiên, các bộ ngữ liệu song ngữ hiện nay vẫn còn hạn chế về số lượng cũng như sự đa dạng của ngôn ngữ Từ nhu cầu cấp thiết đó, một nhánh nghiên cứu mới đang phát triển gần đây đó là: xây dựng các hệ thống học máy có thể tự động xây dựng tập ngữ liệu song ngữ từ nguồn dữ liệu thô (bài toán gióng hàng văn bản)
Gióng hàng văn bản song ngữ là việc sắp xếp từ, cụm từ hoặc câu trong ngôn ngữ ngồn vớibản dịch tương đương ở ngôn ngữ khác Các tập văn bản thường được gióng hàngở mức cụm từ hoặc mức câu Bài toán gióng hàng song ngữ không có khả năng giải bằng các phương pháp đơn thuần, vì trong khi dịch rất hiếm khi cómột câu dịch hoàn hảo của câu tương ứng trong văn bản nguồn Một câu rất ngắn có thể dịch ra rất dài để đảm bảo đủ ý của câu, hoặc một câu nguồn có thể được dịch thành hai hoặc nhiều câutrong ngôn ngữ đích và ngược lại Cá biệt, có thể có trường hợp một câu hoặc thậm chí một đoạn có thể bị bỏ quahoàn toàn
Nhiều phương pháp đã được đề xuất để giải quyết bài toán gióng hàng văn bản cho ngôn ngữ châu Âu, sẽ được thảo luận trong chương sau Tuy nhiên, hầu hết các phương pháp gióng hàng đó đều áp dụng ở mức từ, câu là chủ yếu
Ngược lại, có rất ít công trình nghiên cứu áp dụng cho các ngôn ngữ thuộc khu vực Đông Nam Á Không giống như tiếng Anhvà các ngôn ngữ châu Âu khác, hầu hết
Trang 10các ngôn ngữ Đông Nam Á thường không phân rã ở cấp độ từ, vàcấu trúc ngữ pháp khác biệt hẳn so với hệ thống chữ viết Latin Kết quả là,các thuật toán tiêu chuẩn và triển khai thực hiện cho gióng hàng văn bản thường không đạt được kết quả tốt như mong đợi Riêng đối với ngôn ngữ Tiếng Việt, chưa có nhiều nhà khoa học tập trung nghiên cứuđể tìm ra giải pháp thay thế cũng như đo lường, đánh giá hiệu suất gióng hàng văn bản ngôn ngữ Tiếng Việt nói riêng và ngôn ngữ Đông Nam Á nói chung
1.3 Mục tiêu của luận văn
Hiện tại, có nhiều phương pháp đã được chứng minh và đánh giá hiệu quả cho bài toán gióng hàng văn bảnvói nhóm ngôn ngữ khối châu Âu bao gồmthuật toán Gale – Church [1], Vanilla Aligner [13]), Brown,… sẽ được thảo luận trong chương kế tiếp Trong luận văn này, sẽ chỉ đi sâu nghiên cứu rồi đưa ra mộtđề xuất về giải pháp gióng hàng áp dụng cho sách văn học dịch của Việt Nam, dựa trên các phương pháp gióng hàng đoạn trước để giới hạn không gian tìm kiếm cho gióng hàng câu Sau đó sẽ sử dụng các cặp câu đã được gióng hàng để đưa vào huấn luyện trong hệ dịch máy.Luận văn cũng sẽtrình bầy các bước chuẩn bị, các kỹ thuật tiền xử lý cho quá trình chuẩn bị
dữ liệu trước khi thực hiện áp dụng giải thuật đề xuất
Mục tiêu là:
• Khảo sát các đặc trưng của tập dữ liệu là sách văn học dịch
• Mô hình hóa bài toán gióng hàng đoạn văn
• Đề xuất phương pháp gióng hàng văn bản
• Cài đặt và đánh giá hiệu suất của phương pháp dựa trên chiều dài
• Đánh giá, so sánh thuật toán đề xuất
• Áp dụng vào bài toán gióng hàng câu tự động để sinh ra tập ngữ liệu học cho dịch máy thống kê
1.4 Phạm vi của luận văn
Luận văn sẽ tập trung giải quyết các vấn đề sau:
• Thảo luận về bài toán gióng hàng văn bản, các vấn đề và một số giải thuật hiện tại áp dụng cho nhóm ngôn ngữ Châu Âu
• Khảo sát các đặc trưng của bài toán gióng hàng đoạn văn, từ đó đề xuất mô hình cho bài toán gióng hàng đoạn văn
• Khảo sát thuật toán quy hoạch động, từ đó kết hợp với độ đo độ tương tự trong gióng hàng đoạn văn
• Tiến hành thực nghiệm đánh giá kết quả
Trang 111.5 Kết cấu của luận văn
Luận văn sẽ được tổ chức như sau:
Chương 2: luận văn sẽ trình bầy sơ qua về hệ thống dịch máy, bao gồm các thành phần của dịch máy, cách đánh giá bản dịch, và một số lợi ích của hệ dịch máy
Chương 3: sẽ giới thiệu về các hệ thống dữ liệu lớn đang có trên thế giới Tiếp
đó, luận văn trình bầy sơ lược một số hướng tiếp cận cơ bản với bài toán gióng hàng văn bản Cuối chương nêu ra một số đặc trưng và những vấn đề cần phải giải quyết của bài toán gióng hàng văn bản
Chương 4: giới thiệu sơ qua về thuật toán quy hoạch động sẽ được áp dụng vào bài toán để tìm lời giải tối ưu Tiếp tục đi sâu phân tích đặc trưng bài toán gióng hàng đoạn văn Từ đó, đưa ra mô hình thích hợp cho bài toán gióng hàng đoạn văn dựa trên các đặc trưng của bài toán Sau đó đưa ra một độ đo thích hợp để tính tương độ tự giữa hai đoạn văn song ngữ, kết hợp với thuật toán quy hoạch động để tìm tập các cách gióng hàng hợp lý nhất
Chương 5: trình bầy về thực nghiệm, bao gồm các bước xây dựng tập dữ liệu phục vụ quá trình thử nghiệm hiệu suất, đánh giá kết quả của phương pháp mới đề xuất Phần cuối là áp dụng bộ dữ liệu lấy được vào hệ dịch máy
Trang 12Chương 2 –Dịch máy thống kê
Theo số liệu thống kê, hiện nay trên thế giới có hơn 5000 ngôn ngữ khác nhau, với một số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin.Nhằm khắc phục nhược điểm trên,các nhà khoa học đã nghĩ đến việc thiết kế một mô hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện tử đầu tiên người ta đã tiến hành nghiên cứu về dịch máy Dịch máy (Machine Translation – MT) là một hướng phát triển có lịch sử lâu đời từ thập kỷ 50
và được phát triển mạnh mẽ từ thập kỷ 80 cho đến nay Hiện tại, trên thế giới có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như Systrans, Kant,… hay những
hệ dịch máy mở tiêu biểu là hệ dịch của Google, Bing,… hỗ trợ hàng chục cặp ngôn ngữ phổ biến như Anh – Pháp, Anh – Trung, Anh – Nhật, Hoa – Nhật,… Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy
Hình 2.1: Các cách tiếp cận cổ điển cho hệ dịch máy
Trang 13Các cách tiếp cận cổ điển cho hệ dịch máy: dịch trực tiếp (direct), dịch dựa trên luật chuyển đổi (transfer), dịch liên ngữ (interlingua) dịch dựa vào thống, và hiện nay tiếp cận dịch dựa vào thống kê (statistical MT)
Phương pháp dịch dựa trên luật chuyển đổi và dịch liên ngữ chủ yếu dựa vào cú pháp, đã có thời gian phát triển khá dài và vẫn còn được sử dụng phổ biến trong nhiều
hệ dịch thương mại Các hệ dịch máy loại này đã đạt được kết quả khá tốt với những cặp ngôn ngữ tương đồng nhau về cú pháp như Anh – Pháp, Anh – Tây Ban Nha,… nhưng còn gặp nhiều hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau như Anh – Trung, Anh – Nhật,…
Ở Việt Nam, dịch Anh – Việt, Việt – Anh cũng vấp phải những khó khăn tương
tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của ngữ nghĩa hệ thống dịch Anh – Việt dựa trên luật chuyển đổi được thương mại hóa đầu tiên ở Việt Nam là EVTran Hiện nay, nhiều nghiên cứu với mong muốn tăng chất lượng dịch vẫn đang được thực hiện thích nghi với đặc điểm của các cặp ngôn ngữ khác nhau
2.1 Dịch máy thống kê
Dịch máy bằng phương pháp thống kê (Statistical Machine Translation) đã chứng
tỏ là một hướng tiếp cận đầy đầy tiềm năng bởi những ưu điểm vượt trội so với các phương pháp dịch máy dựa trên cú pháp truyền thống qua nhiều thử nghiệm về dịch máy Thay vì xây dựng các từ điển, các luật chuyển đổi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ dữ liệu Chính
vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao, có khả năng áp dụng được cho cặp ngôn ngữ bất kỳ Hệ thống SMT được đề xuất lần đầu tiên bởi Brown năm
1990 sử dụng mô hình kênh nhiễu và đã phát triển áp đảo trong ngành MT nhiều năm trở lại đây
Trong phương pháp dịch trực tiếp, từng từ được dịch từ ngôn ngữ nguồn sang ngôn ngữ đích Trong dịch dựa trên luật chuyển đổi, đầu tiên chúng ta cần phải phân tích cú pháp của câu vào, rồi áp dụng các luật chuyển đổi để biến đổi cấu trúc câu này
ở ngôn ngữ nguồn sang cấu trúc của ngôn ngữ đích; cuối cùng ta mới dịch ra câu hoàn chỉnh Đối với dịch liên ngữ, câu vào được phân tích thành một dạng biểu diễn trừu tượng hóa về ngữ nghĩa, được gọi là “interlingua”, sau đó ta tìm cách xây dựng câu đích phù hợp nhất với “interlingua” này Dịch máy thống kê có cách tiếp cận hoàn toàn khác, khả năng dịch có được là dựa trên các mô hình thống kê được huấn luyện từ
Trang 14các ngữ liệu song ngữ Kiế
hình 2.2
Hình 2.2: Ki
Mô hình của Brown (hay còn g
một mô hình kênh nhiễu (noisy channel model) bao g
dịch (translation model), có nhi
ngữ khác nhau; một mô hình ngôn ng
mã (decoder), kết hợp mô hình d
Thường thì LM được gán tr
dịch, bởi vì ngữ liệu đơn ng
ngữ, do đó có độ tin cậy lớ
điểm BLEU – tiêu chuẩn ph
thấy sự cải thiện chất lượng d
Trong mô hình đầu tiên c
chỉ cho phép ánh xạ một từ
Nhưng trong thực tế, ánh xạ
không Thế nên nhiều nhà nghiên c
dụng dịch dựa trên cụm (phrase
ến trúc chung của một hệ thống SMT được th
Hình 2.2: Kiến trúc một hệ thống SMT
a Brown (hay còn gọi là mô hình IBM) biểu diễn quá trình d
u (noisy channel model) bao gồm ba thành phần: mranslation model), có nhiệm vụ liên hệ các từ, cụm từ tương ứng c
t mô hình ngôn ngữ (LM), đại diện cho ngôn ngữ đích; m
p mô hình dịch và mô hình ngôn ngữ để thực hiện nhi
c gán trọng số cao hơn các thành phần khác trong h
u đơn ngữ dùng để huấn luyện LM lớn hơn nhiều ng
ớn hơn Ta thấy rằng việc tăng kích cỡ củ
n phổ biến để đánh giá chất lượng dịch máy Hình 2.2, cho
ng dịch khi tăng kích cỡ LM
u tiên của Brown, mô hình dịch dựa trên kiểu t
ừ trong ngôn ngữ nguồn đến một từ trong ngôn ng
ạ này có thể là một-một, một-nhiều, nhiều-nhi
u nhà nghiên cứu đã cải tiến chất lượng của SMT b
m (phrase-based translation)
c thể hiện trong
n quá trình dịch bằng n: một mô hình
ng của các ngôn đích; một bộ giải
a SMT bằng cách sử
Trang 15Hình 2.3: T
2.2 Các thành phần c
Cho trước câu ngôn ng
của ngôn ngữ đích sao cho xác su
Mô hình ngôn ngữ: Tính toán đư
phần này chính là mô hình ngôn ng
là xác suất câu ngôn ngữ nguồn là bản dịch của câu ngôn ng
t xuất hiện câu trong ngôn ngữ Việc tìm ki
∗ làm cho giá tri ( ∗) ( | ∗) là lớn nhất
ch là chính xác, thì công việc tiếp theo là phải tìm ra t
ữ đích từ câu ngôn ngữ nguồn Thực hiện công vi
ệm vụ của bộ giải mã (decoder) Như vậy, mộn:
: Tính toán được xác suất của câu ngôn ngữ
n này chính là mô hình ngôn ngữ đã được mô tả ở chương 1 c
ch: Cho biết xác suất của câu ngôn ngữ nguồn là b
n là bản dịch từ câu
có từ câu ngôn ngữ
Trang 16Hình 2.4: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt
2.3 Mô hình dịch
Mô hình dịch có 3 hướng tiếp cận chính:
Mô hình dịch dựa trên từ (word-based)
Mô hình dịch dựa trên cụm từ (phrase-based)
Mô hình dịch dựa trên cú pháp (syntax-based)
Cả 3 hướng tiếp cận trên đều dựa trên một tư tưởng Đó là sự tương ứng giữa hai câu (alignment)
2.3.1 Sự gióng hàng (alignment)
Tất cả các mô hình dịch thống kê đều dựa trên sự tương ứng của từ Sự tương ứng của từ ở đây chính là một ánh xạ giữa một hay nhiều từ của ngôn ngữ nguồn với một hay nhiều từ của ngôn ngữ đích trong tập hợp các câu văn bản song ngữ
Theo nguyên tắc, chúng ta có thể có mối liên hệ tùy ý giữa các từ của ngôn ngữ nguồn với các từ của ngôn ngữ đích Tuy nhiên, để cho đơn giản, mô hình dịch máy dựa trên từ (word-based) đưa ra một giả định: mỗi từ của ngôn ngữ đích chỉ tương ứng với một từ của ngôn ngữ nguồn Nếu áp dụng giả định này, chúng ta có thể biểu diễn một sự tương ứng từ bằng chỉ số của các từ trong ngôn ngữ nguồn tương ứng với từ trong ngôn ngữ đích Như trong ví dụ ở hình 2.5 dưới đây có thể biểu diễn một tương ứng từ giữa tiếng Pháp và tiếng Anh bởi một dãy các chỉ số như sau: A = 1,2, 3, 4, 5,
6
Trang 17Hình 2.5: Sự tương ứng một – một giữa câu tiếng Anh và câu tiếng Pháp Trong thực tế, có rất nhiều từ ở ngôn ngữ đích không tương ứng với từ nào trong ngôn ngữ nguồn Để cho tổng quát, ta thêm một từ vô giá trị (null) vào đầu câu ngôn ngữ nguồn và những từ ở ngôn ngữ đích không tương ứng với từ nào sẽ được ánh xạ với từ vô giá trị đó Hình 2.6 ở dưới thể hiện một tương ứng từ giữa hai câu tiếng Anh
và tiếng Tây Ban Nha khi cho thêm từ vô giá trị vào đầu câu tiếng Anh
Hình 2.6: Sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho
thêm từ vô giá trị (null) vào đầu câu tiếng Anh Trong khi mô hình dịch dựa trên từ (word-based) chỉ giải quyết trường hợp một
từ của ngôn ngữ đích chỉ tương ứng bởi một từ của ngôn ngữ nguồn, thì mô hình dịch dựa trên cụm từ (pharse-based) có thể giải quyết cả hai trường hợp còn lại là: một từ của ngôn ngữ này tương ứng với nhiều từ của ngôn ngữ kia và nhiều từ của ngôn ngữ này tương ứng với nhiều từ của ngôn ngữ kia Hình 2.7 và 2.8 ở dưới minh họa các tương ứng nói trên
Hình 2.7: Sự tương ứng một – nhiều giữa câu tiếng Anh với câu tiếng Pháp
Trang 18Hình 2.8: Sự tương ứng nhiều - nhiều giữa câu tiếng Anh với câu tiếng Pháp
2.3.2 Mô hình dịch dựa trên từ (Word-based)
Mô hình dịch dựa trên từ là thế hệ đầu tiên của mô hình dịch máy thống kê và được nghiên cứu và phát triển bởi IBM Như đã trình bày ở phần trước, mô hình dịch này dựa trên sự tương ứng của các từ theo tương ứng một một (một từ của ngôn ngữ này chỉ tương ứng với một từ của ngôn ngữ kia và ngược lại) Cụ thể hơn, giả sử câu ngôn ngữ nguồn là … và câu ngôn ngữ đích là … , khi đó mỗi từ chỉ tương ứng với 1 và chỉ 1 từ trong câu ngôn ngữ nguồn hoặc là không tương ứng với từ nào Do đó, một sự tương ứng giữa các từ của câu ngôn ngữ nguồn và câu ngôn ngữ đích có thể biểu diễn bằng một dãy số: { , ,… , } trong đó là chỉ số của từ trong ngôn ngữ nguồn tương ứng với từ của ngôn ngữ đích( nhận các giá trị từ 1 đến l) Với mô hình IBM thứ nhất, giả định rằng mỗi biến là độc lập, khi đó tương ứng tối ưu nhất chính là:
= arg max ( ) ∗ ( | )
Như vậy, theo mô hình IBM thứ nhất, chúng ta có thể tính xác suất ( | ) theo công thức sau:
( | ) = ( ) ∗ ( | )
Tuy nhiên trên thực tế, mô hình IBM thứ nhất này có chất lượng dịch không cao
Ở các mô hình IBM tiếp theo, người ta cải tiến các công thức và đưa ra những tương ứng, cũng như tính lại xác suất ( | ) một cách tốt hơn Tuy nhiên, do tiếp cận theo hướng tương ứng một một giữa các từ, nên mô hình dịch dựa trên từ nóichung và các
mô hình dịch IBM nói riêng đã không còn phổ biến Hiện nay, các mô hình dịch theo hướng cụm từ được sử dụng rộng rãi và dần trở nên phổ biến hơn
Trang 192.3.3 Mô hình dịch dựa trên c
Hình 2.9: Minh hTrong dịch dựa trên c
ngữ đích, với độ dài cụm ngôn ng
họa phương pháp dịch cụm: câu vào đư
dịch sang ngôn ngữ đích; và sau đó các c
ghép với nhau Cuối cùng ta thu đư
Giả sử ta gọi ngôn ngữ
đa hóa xác suất ( | ) vớ
rất nhiều bản dịch đúng cho cùng m
phù hợp nhất khi cho trước câu ngôn ng
hình kênh nhiễu, áp dụng công th
arg max
Do ( ) là không đổi đ
( \ ) ( ) Việc xây dựng mô hình ngôn ng
trong khi đó mô hình dịch l
để chia câu nguồn thành các c
sự trợ giúp của bảng cụm (phrase table)
Để sinh ra được câu d
ta giả sử rằng phân phối xác su
được dịch thành cụm tương
đích có thể đảo ví trí cho nhau Quá trình d
xác suất ∅( | )
a trên cụm từ (Phrase-based)
Minh họa dịch máy thống kê dựa vào cụm từ
a trên cụm, một chuỗi các từ liên tiếp (cụm) được d
m ngôn ngữ nguồn và đích có thể khác nhau Hình 2.9 minh m: câu vào được chia thành một số cụm; từng c
đích; và sau đó các cụm được đảo trật tự theo một cách nào đó r
i cùng ta thu được câu dịch trong ngôn ngữ đích
ữ nguồn là và ngôn ngữ đích là , chúng ta s
ới mong muốn có được bản dịch tốt nhất Th
ch đúng cho cùng một câu, mục đích của ta là tìm ra câu ngôn ng
c câu ngôn ngữ nguồn Dịch dựa vào cụ
ng công thức Bayes ta có:
max ( | ) =
arg max ( | ) ( )
( )
i đối với , vấn đề trở thành việc tìm câu nh
ng mô hình ngôn ngữ cần sử dụng một ngữ liệ
ch lại cần đến ngữ liệu song ngữ tốt Bộ giải mã
n thành các cụm và sinh ra các khả năng dịch có thể cho m
m (phrase table)
c câu dịch, câu nguồn được chia thành cụm liên ti
i xác suất là như nhau đối với các cụm này M
m tương ứng trong ngôn ngữ đích Các cụm trong ngôn ng
o ví trí cho nhau Quá trình dịch cụm được mô hình hóa b
c dịch sang ngôn khác nhau Hình 2.9 minh
Trang 20Việc đảo ví trí (reodering) của các cụm đầu ra được mô hình bởi phân phối xác suất ( − ), trong đó đại diện cho vị trí bắt đầu của cụm trong câu nguồn được dịch thành cụm thứ trong câu đích, và là ký hiệu chỉ vị trí kết thúc của cụm trong câu nguồn được dịch thành cụm ( − 1) trong câu đích Ở đây chúng ta sử dụng
mô hình đảo cụm rất đơn giản như sau:
( − ) = | |
với giá trị thích hợp cho tham số
Để xác định độ dài thích hợp của câu dịch, chúng ta đưa thêm vào thừa số khi sinh ra câu trong ngôn ngữ đích Thừa số này sẽ được tối ưu qua quá trình tìm kiếm câu dịch tối ưu Thừa số này càng lớn hơn 1 thì độ dài của câu trong ngôn ngữ đích càng dài
Nói tóm lại, câu dịch tốt nhất được sinh ra từ câu nguồn là:
= arg max ( | ) = arg max ( | ) ( ) ( )
ở đây ( | ) được phân tích thành:
( | ) = ( | ) ( − )
2.3.4 Mô hình dịch dựa trên cú pháp (Syntax-based)
Cả 2 mô hình dịch dựa trên từ và cụm từ đều chỉ quan tâm đến sự tương ứng và ngữ nghĩa của từng từ trong câu ngôn ngữ nguồn và đích mà không quan tâm tới ngữ pháp, hình thái của cả hai câu Mô hình dịch dựa trên cú pháp không chỉ quan tâm tới ngữ nghĩa của từng từ mà còn chú trọng tới cú pháp của câu
Với mô hình dịch này, một câu ngôn ngữ nguồn sẽ được phân tích thành cây cú pháp Cây cú pháp này sẽ được sắp xếp lại để phù hợp với cú pháp của câu ngôn ngữ đích Sau đó, một số từ mới có thể được chèn vào cây hiện tại cho phù hợp hơn với cú pháp của ngôn ngữ đích Cuối cùng, các từ trong cây cú pháp của câu ngôn ngữ nguồn
sẽ được dịch sang ngôn ngữ đích và ta thu được câu ngôn ngữ đích từ cây cú pháp trên
Hình 2.10 dưới đây mô tả các bước làm việc của một mô hình dịch dựa trên cú pháp từ tiếng Anh sang tiếng Nhật
Trang 21Hình 2.10:
2.4 Bộ giải mã
Như đã trình bày ở các ph
câu ngôn ngữ nguồn , tìm câu ngôn ng
đích tốt nhất chính là câu làm cho giá tr
Bộ giải mã được phát tri
Marcu và Wong, sử dụng các phương pháp leo đ
nên bộ giải mã trong mô hình d
kiếm tối ưu
Thuật toán mà bộ giải mã th
pháp tìm kiếm tốt nhất –đầu tiên.Gi
rộng không gian tìm kiếm, ta s
tìm được luôn là tốt nhất có th
Ngữ liệu sau khi qua 2 mô hình ngôn ng
cho từng thông số tương ứng V
Hình 2.10: Mô hình dịch dựa trên cây cú pháp
các phần trên, nhiệm vụ của bộ giải mã chính là: cho tr, tìm câu ngôn ngữ đích tốt nhất được dịch từ
t chính là câu làm cho giá trị ( | ) ∗ ( ) là lớn nhất
c phát triển đầu tiên cho mô hình dịch cụm từ đượ
ng các phương pháp leo đồi Do không gian tìm ki
i mã trong mô hình dịch máy thống kê thường áp dụng các thu
i mã thường áp dụng có tên là ∗, là một trong các phương
u tiên.Giải thuật ∗ có thể tóm tắt như sau: tạ
m, ta sử dụng các hàm ước lượng, đánh giá trọng s
t có thể và là kết quả tìm thấy đầu tiên
u sau khi qua 2 mô hình ngôn ngữ và mô hình dịch ta đượ
Trang 22Có hai thuật giải và một thuật toán tối ưu cho mô hình tìm kiếm: thuật giải tìm kiếm tham lam, thuật giải tìm kiếm dựa trên ngăn xếp, và thuật toán tìm kiếmtheo chu trình Hamilton tối ưu Hai thuật giải có thời gian xử lý nhanh hơn thuật toán nhưng kết quả thấp hơn thuật toán
Bộ giải mã thực hiện một cái tìm kiếm theo chùm (beam search) tương tự công việc của Tillmann và Och Bắt đầu bằng việc định nghĩa các khái niệm cơ bản của các lựa chọn dịch mô tả cơ chế hoạt động của beam search và các thành phần cần thiết của
nó và các ước lượng giá trị tương lai và các khái niệm về sinh danh sách n-best
2.5 Mô hình ngôn ngữ
Mô hình ngôn ngữ (Language Model - LM) là các phân phối xác suất trên một ngữ liệu đơn ngữ, được sử dụng trong nhiều bài toán khác nhau của xử lý ngôn ngữ tự nhiên, ví dụ như: dịch máy bằng phương pháp thống kê, nhận dạng giọng nói, nhận dạng chữ viết tay, sửa lỗi chính tả, … Thực chất, LM là một hàm chức năng có đầu vào là một chuỗi các từ và đầu ra là điểm đánh giá xác suất một người bản ngữ có thể nói chuỗi đó Chính vì vậy, một mô hình ngôn ngữ tốt sẽ đánh giá các câu đúng ngữ pháp, trôi chảy cao hơn một chuỗi các từ có thứ tự ngẫu nhiên, như trong ví dụ sau:
(“ℎô ờ ắ ”) > (“ ờ ắ ℎô ”)
2.5.1 N-gram
Cách thông dụng nhất được dùng để mô hình hóa ngôn ngữ vào trong LM là thông qua các n-gram Với mô hình n-gram, chúng ta coi một văn bản, đoạn văn bản là chuỗi các từ liền kề nhau , , … , , , và sau đó phân tích xác suất của chuỗi với công thức xác suất kết hợp:
dự đoán Hai là, trong rất nhiều trường hợp, chỉ sau khi duyệt vài từ trong lịch sử, ta đã nhận thấy rằng đó là một câu chưa từng gặp trước đây Bởi vậy kể cả khi đã biết toàn
bộ lịch sử của một từ, xác suất của nó vẫn có thể là không biết Thay vào đó, các mô hình ngôn ngữ thường ước lượng tương đối xác suất dựa trên giả định Markov (hay
Trang 23mô hình Markov ẩn), rằng t
mô hình Markov bậc giả đ
cần xác định Việc quyết đị
(order) của LM, và thường đư
(trigram), 4-gram (fourgram) tương
thuộc vào từ đứng liền trư
vào toàn bộ dãy từ đứng trư
2.5.2 Xây dựng mô hình ngôn ng
Để xây dựng (huấn luy
(corpus) có kích thước tương đ
hóa lượng xác suất của ngữ
cách khác nhau, đều cần đế
lần xuất hiện của các n-gram t
luyện
Chúng ta có thể sử dụ
lượng cực đại hóa khả năng (Maximium Likelihood Estimation
tương đối của các n-gram trong ng
nào đó sẽ xuất hiện tiếp theo đơn gi
trong đó ( ) = |
Phương pháp này được gọi như v
ng từ tiếp theo chỉ chịu ảnh hưởng từ một vài từđịnh rằng chỉ từ trước đó có liên hệ ngữ cảịnh bao nhiêu từ trước đó mà LM quan tâm đư
ng được gọi là 1-gram (unigram), 2-gram (bigram), 3gram (fourgram) tương ứng với các mô hình Markov bậ
u chúng ta muốn ước lượng xác suất 2-gram của một từ
c 2 thì chúng ta sẽ dựa trên hai từ trước đó: (
n luyện) một mô hình ngôn ngữ ta cần một ng
c tương đối và một bộ ước lượng thống kê có nhi
ữ liệu Các bộ ước lượng được mà LM sử dụ
ến tần suất của các n-gram, do đó chúng ta cgram từ 1-gram cho đến số bậc mô hình chúng ta
ụng kết quả đếm các n-gram để xây dựng mộnăng (Maximium Likelihood Estimation - MLE) vgram trong ngữ liệu Với MLE, xác suất một unigram nh
p theo đơn giản là tần suất nó xuất hiện trong ngữ
( ) = ( )
∑ ( )
| | chính là số lần xuất hiện của từ trong ng
i như vậy bởi vì nó cực đại hóa giá trị đầu ra đ
ừ trước đó Một ảnh với từ đang
c đó mà LM quan tâm được gọi là bậc
gram (bigram), 3-gram
ậc một, hai, ba,
với mô hình , , … , ) =
c coi như chỉ phụ không phải phụ thuộc
t unigram nhất định
ữ liệu
trong ngữ liệu
u ra để mô hình hóa
Trang 24ngữ liệu huấn luyện Ví dụ, trong ngữ liệu Brown, một ngữ liệu với một triệutừ, từ
khóa “Chinese” xuất hiện 400 lần Vậy thì xác suất mà một mô hình ngôn ngữ dùng MLE sẽ gán cho unigram “Chinese” là (" ℎ ") = = 0.0004
Xác suất điều kiện của một n-gram tổng quát với bậc > 1 là:
tức là tần suất một từ nào đó thường xuyên xuất hiện sau lịch sử có bậc − 1
Để minh họa, ta tiếp tục ví dụ trên, xác suất bigram “Chinese food” xuất hiện là số lần
từ “food” xuất hiện sau từ “Chinese” chia cho (′ ℎ ′) = 400 Trong ngữ liệu
Brown, cụm từ “Chinese food” xuất hiện 120 lần, nên: (′ ′|′ ℎ ′) = 0.3
2.6 Đánh giá chất lượng dịch
Đánh giá độ chính xác của hệ thống dịch máy là một nhiệm vụ rất vất vả và khó khăn Để đánh giá độ chính xác của bản dịch, ta có thể đánh giá trực tiếp thông qua người dùng hoặc đánh giá tự động bằng máy tính
2.6.1 Đánh giá trực tiếp bằng con người
Để đánh giá độ chính xác của hệ thống dịch máy, ta có thể để con người trực tiếp đánh giá Chúng ta có thể đưa ra một thước đo cho độ trôi chảy của bản dịch (ví dụ từ
1 đến 5 hay từ 1 đến 10 tùy thuộc vào độ trôi chảy của bản dịch), sau đó cho những người tham gia đánh giá đánh giá các câu trong bản dịch theo thang điểm đó Như vậy, văn bản nào có điểm trung bình càng cao, thì chất lượng bản dịch đó càng tốt Ngoài
ra, cũng có thể đánh giá độ trôi chảy, độ chính xác của bản dịch thông qua thời gian
mà người đọc đọc hiểu được bản dịch đó Rõ ràng, bản dịch nào mà người đọc đọc hiểu càng nhanh, thì bản dịch đó càng chính xác
Phương án đánh giá bản dịch bằng chính con người tuy rất dễ thực hiện, nhưng chi phí thì rất lớn, và nếu bản dịch có kích thước càng lớn thì phương pháp này càng kém hiệu quả Ngày nay, các mô hình dịch máy đều áp dụng phương pháp đánh giá tự động, chi phí thấp nhưng hiệu quả cũng khá là cao
2.6.2 Đánh giá tự động: phương pháp BLEU
BLEU(Bilingual Evaluation Understudy) là một thuật toán để đánh giá chất lượng văn bản đã được máy dịch từ một ngôn ngữ tự nhiên khác Ý tưởng chính của
Trang 25phương pháp này là so sánh kết quả bản dịch tự động bằng máy với các bản dịch mẫu của con người, bản dịch máy nào càng giống với bản dịch mẫu của con người thì bản dịch đó càng chính xác Việc so sánh trên được thực hiện thông qua việc thống kê sự trùng khớp của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu (phương pháp n-grams theo từ)
Trong ví dụ như hình 2.12, có hai bản dịch bằng máy được đem so sánh với ba bản dịch mẫu của con người Có thể thấy rằng, bản dịch thứ máy nhất có nhiều từ chung (đóng khung) với các bản dịch mẫu hơn bản dịch máy thứ hai, nên theo phương pháp này có thể kết luận : bản dịch máy thứ nhất chính xác hơn bản dịch máy thứ hai
Hình 2.12: Sự trùng khớp của các bản dịch máy với bản dịch mẫu
Với một bản dịch máy và bản dịch mẫu thứ n, phương pháp BLEU trước tiên thống kê số lần tối thiểu của cụm Ngram xuất hiện trong từng cặp câu (câu dịch máy
và câu dịch mẫu), sau đó đem tổng trên chia cho tổng số cụm Ngram trong toản bản dịch máy Tỉ lệ trùng khớp của một bản dịch máy và bản dịch mẫu thứ n được tính theo công thức:
= ∑ ∑ ∈ ố ượ ố ℎ ể ụ ó ả ẫ
∑ ∑ ∈ ố ượ ụ − ả ị ℎ áTrong đó là các câu trong bản dịch máy, là các cụm n-gram có trong câu Điểm BLEU đánh giá một bản dịch máy với bản dịch mẫu được tính theo công thức:
= ∗ 1 logTrong đó :
Trang 262.7 Đặc điểm của phương pháp dịch thống kê
Cách tiếp cận thống kê có những ưu điểm sau:
Dịch máy là vấn đề quyết định:cho trước tập hợp từ trong ngôn ngữ nguồn, cần phải quyết định chọn những từ thích hợp trong ngôn ngữ đích Bài toán có thể giải quyết bằng nhiều biện pháp khác nhau, một trong số đó là sử dụng các định lý quyết định trong thống kê
Mối quan hệ giữa đối tượng ngôn ngữ như từ, cụm từ và cấu trúc ngữ pháp thường yếu và mơ hồ Để mô hình hóa những phụ thuộc này, một công thức mô hình hóa được đưa ra như phân phối xác suất mà nó có thể giải quyết với những vấn đề phụ thuộc lẫn nhau
Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn tri thức Trong dịch thống kê, chúng ta dựa vào toán học để thực hiện kết hợp tối ưu của các nguồn tri thức
Trong dịch máy thống kê, tri thức dịch được học một cách tự động từ dữ liệu huấn luyện Với kết quả như vậy, việc phát triển một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật
Dịch máy thống kê khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một phần của ứng dụng lớn hơn
Việc đưa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn phong là rất khó khăn nếu không nói là không thể Vì vậy, việc hình thức hóa vấn đề này càng chính xác càng tốt không thể dựa vào sự giằng buộc bởi các luật mô tả chúng Thay vào đó, trong cách tiếp cận thống kê, các giả định mô hình được kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện
2.8 Chu kì phát triển của hệ thống dịch thống kê
Trang 27Bước đầu tiên là xây dựng tập dữ liệu huấn luyện Ở đây, chúng ta cần thu thập các văn bản song ngữ, thực hiện việc gióng hàng câu và trích lọc ra các cặp câu phù hợp Trong bước thứ hai, chúng ta thực hiện huấn luyện tự động hệ thống dịch máy Sau bước huấn luyện, dựa trên những tham số đã được học, hệ thống dịch máy sẽ tự động chuyển đổi văn bản thuộc ngôn ngữ nguồn ra văn bản thuộc ngôn ngữ đích Tiếp theo hệ thống dịch máy được kiểm tra và việc phân tích lỗi được thực hiện Dựa vào kiến trúc của hệ thống dịch máy thống kê, chúng ta có thể phân biệt các kiểu lỗi khác nhau: lỗi tìm kiếm, lỗi mô hình, lỗi huấn luyện, lỗi ngữ liệu huấn luyện và lỗi tiền xử lý
Mô hình tốt hơn: ở đây, mục tiêu là phải phát triển mô hình có khả năng mô tả càng nhiều các thuộc tính của ngôn ngữ tự nhiên càng tốt, và các tham số tự do của nó
có thể được ước lượng từ dữ liệu huấn luyện
Huấn luyện tốt hơn: thuật toán huấn luyện thường dựa vào cách tiếp cận hợp lý cực đại Thông thường, các thuật toán huấn luyện thường cho kết quả là tốt ưu địa phương Do vậy, để làm tốt việc huấn luyện này, cần xây dựng các thuật toán mà kết quả tối ưu địa phương thường gần với tối ưu toàn cục
Tìm kiếm tốt hơn: lỗi tìm kiếm xuất hiện nếu thuật toán không tìm kiếm ra câu dịch của câu nguồn.Vấn đề tìm kiếm trong dịch máy thống kê là NP – đầy đủ Vì vậy, chỉ có các cách tìm kiếm gần đúng để tìm ra câu dịch Thuật toán hiệu quả là thuật toán mà cân bằng giữa chất lượng và thời gian
Nhiều dữ liệu huấn luyện hơn: chất lượng dịch càng tăng khi cỡ của ngữ liệu càng lớn Quá trình học của hệ thống dịch máy sẽ cho biết cỡ của dữ liệu huấn luyện là bao nhiêu để thu được kết quả khả quan
Tiền xử lý tốt hơn: hiện tượng ngôn ngữ tự nhiên khác nhau là rất khó xử lý ngay
cả trong cách tiếp cận thống kê tiên tiến Do đó để cho việc sử dụng cách tiếp cận thống kê được tốt thì trong bước tiền xử lý, chúng ta làm tốt một số việc như: loại bỏ các kí hiệu không phải là văn bản, đưa các từ về dạng gốc của nó,
Trang 28Chương 3 – Bài toán gióng hàng văn bản song ngữ
3.1 Các bộ ngữ liệu song ngữ lớn
Từ nhu cầu cấp thiết phải xây dựng một bộ ngữ liệu song ngữ lớn và có tính chính xác cao của các hệ thống dịch máy hiện nay, đã dẫn đến nhiều dự án quy mô lớn được triển khai trên thế giới cho nhiều loại ngôn ngữ khác nhau
3.1.1 Khối Châu Âu
Một trong nhữngbộ ngữ liệusong ngữ được tham chiếu rộng rãi nhất trong nghiên cứu ngôn ngữ học tính toán là bộ ngữ liệu Canada Hansard Hansard Canada là tập hợp các ghi chép của các cuộc tranh luận tại quốc hội Canada Các bản ghi chép đó được ghi lại bằng hai ngôn ngữtiếng Anh và Tiếng Pháp Hiện tại có nhiều phiên bản của Hansard Canada được phát triển độc lập Phiên bản của Đại học Nam California [2] – gồm các bản ghi chép tại Quốc hội Canada lần thứ 36 từ năm 1997 đến năm
2000 Phiên bản này có khoảng 2 triệu từ bằng tiếng Anh và Tiếng Pháp Một phiên bản khác được phát triển bởi Linguistic Data Consortium gồm các ghi chép từ khoảng giữa năm 1979 đến năm 1988; nó chứa khoảng hơn 2,87 triệu cặp câu song ngữ
Bộ ngữ liệu Europarl (Quốc hội Châu Âu Kỷ yếu) [3] là tập hợp các thủ tục tố tụng từ Nghị viện châu Âu Các thủ tục tố tụng được sưu tập từ năm 1996 đến năm 2006.Trong đó có tới mười một loại ngôn ngữ là: Pháp, Ý, Tây Ban Nha, Bồ Đào Nha, Anh, Hà Lan, Đức, Đan Mạch, Thụy Điển, Hy Lạp và Phần Lan Bộ ngữ liệu này bao gồm khoảng hơn 44 triệu từ mỗi ngôn ngữ
Bộ ngữ liệutiếng Anh – Na Uy [4] bao gồm bản gốc bằng cảtiếng Anh, Na Uy và bản dịch tương ứng Kho lấy dữ liệu từ các đầu sách tiểu thuyết và phi tiểu thuyết; có tầm 100 đầu sách gốc và bản dịch song song Tổng số từ là gần 2,6 triệu Họ đã thu thập được trong giai đoạn từ năm 1994 đến năm 1997
Bộ ngữ liệutiếng Anh – Thụy Điển [5] rất giống vớibộ ngữ liệutiếng Anh – Na
Uy Bộ ngữ liệu này có 64 văn bản làtiếng Anh và bản dịch là tiếng Thụy Điển Ngoài
ra, nó còn có 72 văn bản tiếng Thụy Điển và bản dịch bằng tiếng Anh Tập dữ liệu bao gồm cả tiểu thuyết và các tác phẩm phi tiểu thuyết Tổng số từ trong ngữ liệu là 2,8 triệu từ Dự án được thực hiện trong giai đoạn từ năm 1997 tới năm 2001
Trang 29Bộ ngữ liệu Hunglish [6] bao gồm các văn bản tiếng Hungary và tiếng Anh thu thập từ các bài giảng, từ sách văn bản tôn giáo, văn bản pháp luật, tài liệu thuộc lĩnh vực công nghệ, phụ đề phim, tạp chí và tin tức Bộ ngữ liệu bao gồm khoảng 54,2 triệu
từ 2,07 triệu câu
3.1.2 Khối Đông Nam Á
Tập văn bản song ngữ Hồng Kông [7], được xây dựng bởi Linguistic Data Consortium, là sự kết hợp của ba bộ ngữ liệu khác nhau Ba hệ thống đó là: Hồng Kông Hansards, Hồng Kông Law và Hồng Kông News Hồng Kông Hansards là tập các thủ tục tố tụng của Hội đồng lập pháp ở Hồng Kông Bộ ngữ liệu này chứa các bản ghi từ tháng 10 năm 1995 đến tháng 4, năm 2003 Gồm 714 tập tài liệu bằng cảtiếng Anh và Trung Quốc; có tổng cộng 36 triệu từ tiếng Anh và 56 triệu từ Trung Quốc Hồng Kông Luật gồm tập các luật được ban hành bởi Sở Tư pháp của Hồng Kông đến năm 2000; có tổng cộng 8 triệu từ tiếng Anh và 14 triệu từ Trung Quốc trong 42,255 tài liệu Hồng Kông Newsgồm các ấn phẩm được lưu hành bởi chính phủ Hồng Kông Các án phẩm báo chí được lưu trữ từ tháng bảy năm 1997 đến tháng mười năm 2003 Hồng Kông News có tổng cộng 59 triệu từ tiếng Anh và 98 triệu từ Trung Quốc trong 87.590 tài liệu
Bộ ngữ liệuASAHI tập hợp các bài viết từ tờ báo Asahi Shimbun của Nhật Bản Báo Asahi Shimbun là một trong những tờ báo lâu đời nhất của Nhật Bản, và được xuất bản trong cả hai phiên bản tiếng Nhật và tiếng Anh Ngữ liệu gồm 472 bài viết bằng tiếng Nhật và bản dịch song song của nó từ năm 1989 tới năm 1991
Bộ ngữ liệu Anh – Việt bao gồm các bản dịch từ sách công nghệ thông tin, từ vựng Longmantrích trong từ điển tiếng Anh hiện đại (phiên bản Tiếng Việt của Trần Tất Thắng), từ điển song ngữ Anh-Việt, bản dịch của bộ ngữ liệu SUSANNE, sách điện tử, bách khoa toàn thư cho trẻ em, và các cuốn sách khác Nó có tổng cộng 5 triệu
từ tiếng Việt và tiếng Anh Câu được liên kết bằng tay nếu văn bản gốc ở dạng bản in đánh máy, đồng thời dùng thuật toánGale và Churchđể gióng hàng câu tự động nếu nguồn có định dạng điện tử
Thư viện ngôn ngữ Đông Nam Á (SEALang) [8]là tập dữ liệu song ngữ gồm tiếng Thái – tiếng Anh và tiếng Khmer – tiếng Anh Song ngữ Thái – Anh được thu thập từ 3 dự án nghiên cứu:Wanakam World Classics [9], Thái Fiction in Translation [10], và Bangkok Post [11] Tập song ngữ Khmer – Anh được biên soạn bằng cách trích xuất các câu ví dụ của từ điển Headley Campuchia –tiếng Anh
Trang 30Asia Online [12] là một công ty tư nhân tại Bangkok, Thái Lan Hoạt động kinh doanh liên quan đến phát triển phần mềm và cung cấp dịch vụ trong các lĩnh vực dịch máy, cổng thông tin điện tử và tìm kiếm Hệ thống dịch máy của họ sử dụng ngữ liệu song ngữgióng hàng tự động bằng cách dung mô hình n-gram và sau đó kiểm tra bằng tay
Ngược lại với bộ ngữ liệu châu Âu, hầu hết các bộ ngữ liệu song ngữ châu Á được liên kết bằng tay Mặc dù nhiều nghiên cứu đã được thực hiện đối với tiếng Trung Quốc, Nhật Bản và Hàn Quốc, nhưng lại có rất ít công trình cho các ngôn ngữ Đông Nam Á, cụ thể là Tiếng Việt
3.2 Các phương pháp gióng hàng hiện tại
3.2.1 Theo độ dài
Phương pháp tiếp cận dựa trên độ dài dựa trên quan điểm là độ dài của các đoạn văn bản thường tỷ lệ thuận với các bản dịch tương đương của nó Giải thuật gióng hàng sớm nhất phải kể đếnGale và Church [1], họ đã đề xuất một phương pháp đếm các ký tự (sau này được cải tiến trong giải thuật Vanilla Aligner [13]), và Brown – thay thế bằng việc đếm các từ Một trong những điểm yếu của phương pháp tiếp cận dựa trên chiều dài là khó phát hiện các câu lệch, bị xóa, hoặc thêm trong bản dịch Vanilla Aligner có thể giải quyết vấn đề tinh tế hơn, nó cho phép gióng hàng câu thuộc loại 1 – 2 và 2 – 1 Đây cũng là một vấn đề hay gặp phảivới các ngôn ngữ thuộc Đông Nam Á nói chung và với Tiếng Việt nói riêng, khi mà không phải lúc nào cũng
có đánh dấu ranh giới câu rõ ràng
Mặc dù vẫn có một số nhược điểm trong việc phát hiện câu ghép và xóa, đồng thời hiệu suất thực hiện cũng không cao, nhưng phương pháp gióng hàng theo chiều dài này khá là độc lập với ngôn ngữ, đặc biệt là giữa các ngôn ngữ châu Âu, đây là một đặc điểm rất đáng được quan tâm
3.2.2 Hướng tiếp cận dựa vào ngữ nghĩa
Tính chất từ vựng, chẳng hạn như cùng nguồn gốc hoặc những cụm từ và từ“neo”có thể được sử dụng để gióng hàng Đặc biệt với sự trợ giúp của từ điển song ngữ, phương pháp này hoàn toàn có thể mở rộng hơn nữa
Có một số phương pháp lựa chọn từ ngữ đặc thù như là điểm neo để phục vụ bài toán gióng hàng Các từ được lựa chọn bằng tay hoặc bằng một hàm phân phối nào đó