Bài viết trình bày một phương pháp dịch NNE-UKW dựa vào việc phân rã từ và mô hình ngôn ngữ. Kết quả thử nghiệm cho thấy phương pháp của chúng tôi đã tăng điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn từ. Mời các bạn cùng tham khảo!
Trang 1Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Một Phương Pháp Dịch Từ Mới Trong
Dịch Máy Hoa-Việt
Trần Thanh Phước Khoa Công nghệ Thông tin Trường Đại Học Tôn Đức Thắng
tranthanhphuoc@tonducthang.edu.vn
Trịnh Thanh Duy Khoa Kinh tế Kỹ thuật Trường Bách Khoa Sài Gòn trinhthanhduy@gmail.com
Nguyễn Thị Thanh Thảo Khoa Công nghệ Thông tin Trường Cao Đẳng Kinh Tế Kỹ Thuật TPHCM nguyenthithanthao@hotec.edu.vn
Đinh Điền Khoa Công nghệ Thông tin Trường Đại Học Khoa Học Tự Nhiên, TP.HCM
ddien@fit.hcmus.edu.vn
Tóm tắt — Từ mới (UKW: Unknown word) là vấn đề
hiển nhiên trong dịch máy nói chung và trong dịch
thống kê Hoa-Việt nói riêng Hơn nữa, so với các ngôn
ngữ giàu tài nguyên khác như tiếng Hoa, Anh thì kho
ngữ liệu song ngữ Hoa-Việt còn hạn chế, vì vậy, UKW
trong dịch máy Hoa-Việt lại càng nhiều hơn Mặt khác,
ranh giới từ trong tiếng Hoa và tiếng Việt không được
phân định bởi khoảng trắng, phân đoạn từ thường được
thực hiện đầu tiên trong dịch máy Hoa, Việt sang các
ngôn ngữ khác hoặc ngược lại Việc phân đoạn từ làm
tăng chất lượng dịch chung cuộc nhưng lại phát sinh
nhiều UKW Chúng tôi chia UKW làm hai phần là
UKW dạng thực thể có tên và UKW không thuộc thực
thể có tên (NNE-UKW) Trong bài báo này, chúng tôi sẽ
trình bày một phương pháp dịch NNE-UKW dựa vào
việc phân rã từ và mô hình ngôn ngữ Kết quả thử
nghiệm cho thấy phương pháp của chúng tôi đã tăng
điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn
từ
Từ khóa — NNE-UKW, unknown word, dịch máy
Hoa-Việt, phân rã từ, mô hình ngôn ngữ
I GIỚI THIỆU Hiệu suất dịch máy thống kê phụ thuộc vào độ lớn
và chất lượng của kho ngữ liệu song ngữ Kho ngữ
liệu càng lớn và càng tinh khiết thì chất lượng của hệ
dịch sẽ càng cao Để có được ngữ liệu song ngữ cho
hệ dịch máy thống kê (SMT: statistical machine
translation), bên cạnh phương pháp thu thập bằng tay
tốn kém thì phương pháp rút trích tự động từ các
website song ngữ ngày càng được sử dụng rộng rãi
Phương pháp rút trích tự động này được thực hiện
bằng cách dò tìm các các trang web song ngữ là bản
dịch của nhau Các trang web song ngữ Hoa-Việt
hoặc Việt-Hoa hiện tại không nhiều, và nếu có thì các
bản dịch của nhau thường chưa thực sự song song
Do đó, việc thu thập tự động ngữ liệu song ngữ
Hoa-Việt từ web hiện nay còn khó khăn và chất lượng ngữ
liệu thu được thường không cao Hiện tại, kho ngữ
liệu của hệ thống dù chất lượng khá tốt nhưng số
lượng cặp câu chưa nhiều Với kho ngữ liệu hạn chế
như thế, thì từ mới (UKW: Unknown word) trong hệ
dịch Hoa-Việt càng hiển nhiên hơn so với các hệ dịch
cho cặp ngôn ngữ giàu tài nguyên khác
Không giống như các ngôn ngữ phương Tây (điển hình là tiếng Anh), từ trong tiếng Hoa và tiếng Việt không được phân định bởi khoảng trắng Một câu tiếng Hoa bao gồm một dãy các ký tự nằm liên tiếp nhau và không có khoảng trắng giữa các ký tự này Trong tiếng Việt, các từ chính tả được cách với nhau bởi một khoảng trắng, dấu câu nằm liền sau từ chính
tả Do đó, việc phân đoạn từ thường được giải quyết đầu tiên trong dịch máy Hoa, Việt sang các ngôn ngữ khác Việc phân đoạn từ làm tăng chất lượng dịch nhưng thường phát sinh nhiều UKW hơn so với hệ dịch cơ sở (hệ dịch không phân đoạn từ, xem mỗi ký
tự tiếng Hoa và từ chính tả tiếng Việt là đơn vị độc lập) Một ví dụ trong ngữ liệu thử nghiệm của chúng tôi như sau: từ tiếng Hoa 车票 (vé xe: bus ticket) là một UKW đối với hệ dịch phân đoạn từ nhưng không
là UKW trong hệ dịch cơ sở (Hình 1)
Hình 1 Một ví dụ về hệ dịch cơ sở (dựa vào ký tự)
Từ 2 câu của ngữ ngữ liệu huấn luyện, chúng ta
có được một gióng hàng ký tự 车 (xe) và 票 (vé) (chúng tôi không quan tâm đến các gióng hàng ký tự khác) Do đó, ở câu kiểm tra, khi gặp hai ký tự 车 và
票, hệ thống sẽ dịch được chúng Ngược lại, khi phân đoạn từ, 2 character 车 và 票 kết hợp thành một từ duy nhất 车票, hệ thống sẽ không dịch được từ này
do ngữ liệu huấn luyện không tồn tại nó Do đó, UKW 车票 sẽ được phát sinh
Chúng tôi chia UKW tiếng Hoa thành hai loại: UKW dạng thực thể có tên và UKW không thuộc thực thể có tên (NNE-UKW: Not Named Entity UKW) Một từ tiếng Hoa có thể là một ký tự có nghĩa hoặc bao gồm nhiều ký tự kết hợp lại với nhau và UKW thường là những từ bao gồm nhiều ký tự hợp lại Chúng tôi sẽ phân rã UKW thành những từ con nhỏ hơn và dịch các từ con này Sau đó, chúng tôi sẽ Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 2Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
chọn ra nghĩa tiếng Việt tốt nhất dựa vào xác suất
đồng xuất hiện của các nghĩa tiếng Việt của các từ
con
Bài báo này được trình bày như sau: ở Phần 2,
chúng tôi sẽ trình bày các công trình liên quan đến
bài toán xử lý UKW trong dịch máy Phần nhận dạng
cũng như dịch UKW sẽ được trình bày ở Phần 3
Trong khi đó, ở Phần 4, chúng tôi sẽ mô tả các thử
nghiệm cũng như một số thảo luận Phần kết luận sẽ
được trình bày ở Phần 5
II CÔNG TRÌNH LIÊN QUAN
Hiện nay có rất nhiều nghiên cứu với các hướng
tiếp cận khác nhau nhằm dịch lại UKW, nâng cao
hiệu suất dịch máy Dựa vào phép chính tả của từ,
nhóm tác giả Joao Silva và các đồng sự [1] đã đề xuất
hai phương pháp nhằm khắc phục các UKW, đó là:
phát hiện từ cùng nguồn gốc (cognates’ detection) và
độ tương tự hợp lý (logical analogy) để dịch lại UKW
Hướng tiếp cận này đã thực hiện thành công cho cặp
ngôn ngữ biến hình Anh - Bồ Đào Nha
Một hướng tiếp cận khác để xử lý UKW được
thực hiện bởi tác giả Matthias Eck và các đồng sự [2]
Nhóm tác giả này đã tìm các định nghĩa của các
UKW ở ngôn ngữ nguồn và dịch các định nghĩa của
UKW này (thay vì dịch các UKW) Các định nghĩa
của UKW sẽ được rút trích tự động từ các từ điển
trực tuyến và các bách khoa toàn thư, sau đó chúng
được dịch lại qua hệ thống SMT Kết quả dịch này sẽ
thay thế các UKW ở bản dịch cũ Phương pháp đã
được các tác giả thử nghiệm trên cặp ngôn ngữ Anh –
Tây Ban Nha Trong bài báo này, chúng tôi cũng có
áp dụng từ điển trực tuyến để tìm và dịch nghĩa cho
UKW
Ở khía cạnh khác, tác giả Ruiqiang Zhang và
đồng sự [6] đã dịch lại các UKW bằng cách phân rã
các UKW thành các từ con (subwords) Nhóm tác giả
đã phân rã các UKW tiếng Hoa thành các từ con và
dịch dựa vào các từ con này (subword-based
translation) Từ con là một đơn vị ở giữa ký tự và từ
Bên cạnh đó, nhóm tác giả còn phát hiện ra rằng, chất
lượng dịch sẽ tăng đáng kể nếu áp dụng nhận dạng
tên riêng (Named Entity recognition: NER) để dịch
các UKW trước khi áp dụng dịch dựa vào từ con
WordNet và phiên âm quốc tế (IPA) cũng được sử
dụng để xử lý UKW Khan MD và đồng sự [3] đã sử
dụng hai yếu tố này để dịch UKW trong dịch máy
dựa trên ví dụ (EBMT) từ tiếng Anh sang tiếng
Bangla Đầu tiên, hệ thống sẽ tìm trong WordNet các
từ tiếng Anh có nghĩa liên quan đến UKW Từ những
từ có nghĩa liên quan này, hệ thống sẽ chọn ra từ có
nghĩa gần nhất nhất tồn tại trong từ điển Anh-Bangla
Giả sử như không tìm được từ thỏa mãn, hệ thống sẽ
sử dụng phiên âm quốc tế để chuyển ngữ cho UKW
Bên cạnh đó, tác giả Philippe Langlais và các
đồng sự [4] đã sử dụng phương pháp học tương tự để
dịch lại UKW Khái niệm về sự tương tự được định
nghĩa như sau: [A : B = C : D], thể hiện mối quan hệ
theo kiểu: “A is to B as C is to D”, ví dụ như: [comfortable : uncomfortable = translatable : untranslatable] trong tiếng Anh Nhóm tác giả phát hiện rằng phương pháp của họ có thể dịch chính xác đến 80% các UKW không thuộc thực thể có tên Phương pháp này đã được thử nghiệm trên các cặp ngôn ngữ như: Pháp-Anh, Đức-Anh và Tây Ban Nha-Anh
Riêng đối với các cặp ngôn ngữ giàu hình thái thì nhóm tác giả Karunesh Arora và đồng sự [5] đã sử dụng các kỹ thuật xấp xỉ từ vựng để nhận diện chính
tả cũng như các biến thể của từ trong kho ngữ liệu huấn luyện Tất cả UKW trong câu nguồn sẽ được thay thế bằng các từ biến thể tương ứng được tìm thấy trong ngữ liệu huấn luyện, điều này đã làm giảm khá nhiều số lượng UKW trong câu đầu vào Phương pháp này được các tác giả thử nghiệm trên cặp ngôn ngữ Hin Đi - Nhật
III PHƯƠNG PHÁP DỊCH NNE-UKW Chúng tôi phân đoạn từ cho ngữ liệu tiếng Hoa và tiếng Việt trước khi huấn luyện và dịch bởi công cụ SMT Trong thử nghiệm, chúng tôi sử dụng công cụ Stanfor Segmenter1để phân đoạn từ tiếng Hoa, công
cụ VnTokenizer2để phân đoạn từ tiếng Việt, công cụ MOSES3để thực hiện huấn luyện và dịch Kết quả dịch của SMT tiếp tục được chúng tôi nhận diện NNE-UKW và dịch lại theo mô hình ở Hình 2
Hình 2 Mô hình dịch NNE-UKW
Bước 1: Chúng tôi tìm kiếm nghĩa của NNE-UKW trên từ điển Hoa-Việt trực tuyến Chúng tôi tận dụng sự phong phú từ vựng của từ điển trực tuyến với mong muốn có thể tìm được nghĩa tiếng Việt của UKW Trong thử nghiệm, chúng tôi sử
1 Download tại:
http://nlp.stanford.edu/software/segmenter.shtml
2 Download tại:
http://vlsp.vietlp.org:8080/demo/?page=resources
3 Download at:
http://www.statmt.org/moses/?n=Moses.Releases Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 3Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
dụng từ điển Hoa-Việt trực tuyến từ trang web
“https://vi.glosbe.com/zh/vi/” để tra cứu các
UKW Ví dụ như từ 咖哩 (món cà ri: curry), từ
này là UKW đối với kho ngữ liệu song ngữ
Việt nhưng lại là từ vựng có trong từ điển
Hoa-Việt trực tuyến
Giả sử phương pháp sử dụng từ điển ở bước (1)
vẫn không giải quyết được UKW, hệ thống phân rã
UKW thành các từ con và dịch nghĩa của các từ
con này Phương pháp phân rã và dịch từ con như
sau:
─ Phân rã một UKW thành các từ con dựa vào
từ điển Từ con ở đây có thể là một từ gồm
nhiều ký tự (hiển nhiên là nhỏ hơn UKW), cũng
có thể là một ký tự riêng biệt Một ký tự tiếng
Hoa đều có nghĩa tương ứng ở tiếng Việt và
chúng ta hoàn toàn có thể xem ký tự tiếng Hoa
là một từ có nghĩa độc lập Từ tiếng Hoa là vô
hạn nhưng ký tự tiếng Hoa là hữu hạn và được
lưu trữ trong từ điển Do đó, khi đã phân rã
UKW đến mức ký tự thì vấn đề UKW là không
còn
─ Bước kế tiếp, hệ thống sẽ dịch các từ con này
dựa vào từ điển Một từ con có thể có nhiều
nghĩa, có nghĩa phổ biến và có một số nghĩa ít
xuất hiện Để hạn chế không gian từ phát sinh,
trong thử nghiệm, chúng tôi chỉ chọn nghĩa đầu
tiên trong từ điển Sau bước này, một tập hợp
nghĩa của các từ con sẽ được phát sinh
─ Từ tập hợp nghĩa của các từ con, hệ thống
phát sinh tập hợp nghĩa tiếng Việt bằng cách kết
hợp không theo thứ tự tất cả các nghĩa của các
từ con của một UKW Sau bước này, chúng ta
đã có được tập hợp nghĩa tiếng Việt của UKW
─ Kế tiếp, hệ thống lọc ra nghĩa tốt nhất từ tập
hợp nghĩa của các từ con Giả sử rằng từ w i (w i
= w i1 w i2 w in ) là một trong các nghĩa tiếng Việt
của UKW, với w ij (𝑗𝑗 𝑗 𝑗𝑗𝑗 𝑗𝑗𝑗) là một nghĩa tiếng
Việt của từ con và n là tổng số từ chính tả trong
từ w i Chúng tôi sử dụng mô hình ngôn ngữ
n-gram được huấn luyện trên ngữ liệu tiếng Việt
như sau: (công thức (1))
𝑃𝑃(𝑤𝑤𝑖𝑖1… 𝑤𝑤𝑖𝑖𝑖𝑖) = 𝑃𝑃(𝑤𝑤𝑖𝑖1)𝑃𝑃(𝑤𝑤𝑖𝑖2|𝑤𝑤𝑖𝑖1)𝑃𝑃(𝑤𝑤𝑖𝑖3|𝑤𝑤𝑖𝑖1𝑤𝑤𝑖𝑖2)
… 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖|𝑤𝑤𝑖𝑖1𝑤𝑤𝑖𝑖2… 𝑤𝑤𝑖𝑖(𝑖𝑖−1)) (1)
Trong thử nghiệm, chúng tôi sử dụng công cụ
SRILM4 với mô hình ngôn ngữ 2-gram để chọn ra
nghĩa tiếng Việt phù hợp nhất Để tránh xác suất
2-gram bằng không, chúng tôi tiến hành cộng các xác
suất với nhau thay vì nhân chúng lại (công thức (2)
𝑃𝑃(𝑤𝑤𝑖𝑖1… 𝑤𝑤𝑖𝑖𝑖𝑖) = 𝑃𝑃(𝑤𝑤𝑖𝑖2|𝑤𝑤𝑖𝑖1) + (2)
4 Download tại:
http://www.speech.sri.com/projects/srilm/download.htm
l
𝑃𝑃(𝑤𝑤𝑖𝑖3|𝑤𝑤𝑖𝑖2) + ⋯ + 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖|𝑤𝑤𝑖𝑖(𝑖𝑖−1)) Nghĩa tiếng Việt tốt nhất là nghĩa có tổng xác suất lớn nhất Hình 3 minh họa quá trình phân rã và dịch UKW 手提包 (túi xách tay: handbag), từ này không tồn tại trong từ điển Hoa-Việt trực tuyến
Hình 3 Minh họa phân rã và dịch NNE-UKW
“túi xách tay” là từ có tổng xác suất 2-gram cao nhất,
vì vậy từ này sẽ thay thế UKW 手提包 trong bản dịch tiếng Việt cuối cùng
IV THỬ NGHIỆM VÀ THẢO LUẬN
A Ngữ liệu thử nghiệm
Kho ngữ liệu thử nghiệm của chúng tôi bao gồm 30.000 cặp căp Hoa-Việt được lấy từ các sách dạy đàm thoại tiếng Hoa, các diễn đàn tiếng Hoa trực tuyến và các website song ngữ Hoa-Việt Cụ thể như: sách “301 câu đàm thoại tiếng Hoa” website
“http://www.dantiengtrung.com.vn”, website song ngữ “http://www.dongnai.gov.vn”, Chúng tôi sử dụng 90% cặp câu cho huấn luyện, 5% cho kiểm tra
và 5% cho điều chỉnh tham số Các kho ngữ liệu huấn luyện được huấn luyện bởi công cụ Moses với các tham số mặc định Chúng tôi sử dụng ngữ liệu của nhóm VLSP với 212.454 câu tiếng Việt để huấn luyện mô hình ngôn ngữ tiếng Việt
B Thực hiện thử nghiệm
Chúng tôi sử dụng các ngữ liệu này để thực hiện
ba thử nghiệm sau:
Hệ dịch cơ sở (1): chúng tôi xem ký tự tiếng Hoa và từ chính tả tiếng Việt như những đơn vị độc lập có nghĩa Chúng tôi chèn một khoảng trắng vào giữa các ký tự tiếng Hoa và chèn một khoảng trắng vào giữa dấu câu và từ chính tả trong tiếng Việt
Hệ dịch phân đoạn từ (2): chúng tôi phân đoạn
từ tiếng Hoa bằng công cụ Stanford Segmenter,
và công cụ VnTokenizer cho tiếng Việt
Sau đó, chúng tôi tiến hành dịch ngữ liệu kiểm tra tiếng Hoa bằng công cụ Moses cho cả hai trường hợp (1) và (2) Kết quả dịch của trường hợp (2) tiếp tục được nhận dạng và dịch lại NNE-UKW
Tùy thuộc vào việc chọn lựa các câu trong ngữ liệu kiểm tra mà điểm BLEU có giá trị khác nhau Hình 4 minh họa điểm BLEU cho cách chọn lựa ngữ Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 4Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
liệu kiểm tra theo định dạng như sau: mỗi 20 câu
trong kho ngữ liệu thì 18 câu đầu tiên dành cho huấn
luyện, câu thứ 19 cho điều chỉnh tham số và câu thứ
20 cho kiểm tra
Hình 4 Các kết quả thử nghiệm
Bên cạnh đó, chúng tôi cũng đánh giá độ chính
xác của việc dịch NNE-UKW dựa vào công thức 3
như sau:
𝑷𝑷 𝑷𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝑺𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝑺đú𝒏𝒏𝒏𝒏𝑻𝑻𝑻𝒏𝒏𝒏𝒏𝑺𝒔𝒔𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝑺𝒄𝒄𝒄𝒄𝒄𝒄𝒄 (3)
Kết quả dịch NNE-UKW trong 1.500 câu kiểm tra được trình bày ở Bảng 1
Bảng 1 Độ chính xác của dịch NNE-UKW
Tổng UKW đúng Dịch Độ chính xác (P)
Dịch dựa vào từ điển trực tuyến 95 60 63,15% Dịch dựa vào từ
All NNE-UKW 1315 659 50.11%
C Thảo luận
Với kết quả thử nghiệm như trên, chúng tôi nhận thấy rằng kết quả dịch trong hệ dịch phân đoạn từ thường tốt hơn so với hệ dịch cơ sở Tuy nhiên, hệ dịch phân đoạn từ lại xuất hiện UKW nhiều hơn Bên cạnh đó, chất lượng của hệ thống dịch lại UKW của chúng tôi thường tốt hơn so với trường hợp dịch phân đoạn từ Điều này cũng dễ hiểu vì chất lượng của hệ dịch lại UKW đã bao gồm chất lượng của hệ dịch phân đoạn từ cộng với chất lượng dịch UKW Giả sử kết quả dịch lại sai hoàn toàn thì chất lượng của hệ dịch lại cũng không thấp hơn hệ dịch phân đoạn từ Bảng 2 trình bày sáu trường hợp trong ngữ liệu kiểm tra
Bảng 2 Một số kết quả dịch qua ba hệ thống
Câu tiếng Hoa Nghĩa đúng
tiếng Việt Hệ dịch cơ sở Hệ dịch phân doạn từ NNE-UKW Hệ dịch lại
1 能 给 我 一张
说明书 吗 ?
Có thể cho tôi một bản thuyết minh không?
Có thể cho tôi 1
tờcho thấy sách không ?
Có thể cho tôi
không ?
Có thể cho tôi một bản thuyết minhkhông?
2 去 美术馆 在
这 乘车吗?
Đi phòng tranh đón xe ở đây phải không?
Đi tàng mỹ thuật
ở đây đón xe phải không ?
Đi 美术馆ở đây
đi xe phải không ?
đi phòng tranh ở đây đón xe phải không?
3 我 想 知道 票
价 从 上海 到 北
京
Tôi muốn biết giá
vé từ Thượng Hải đến Bắc Kinh
Tôi muốn biếtgiá
vétừ Thượng Hải đến Bắc Kinh
Tôi muốn biết票
价 từ Thượng Hải đến Bắc Kinh
Tôi muốn biếtgiá
vétừ Thượng Hải đến Bắc Kinh
4 你 喜欢 平面
银幕 的 吗 ?
Bạn thích loại màn hình phẳng không?
bạn thích bình diện bạc mạc không ?
bạn thích 平 面 của银幕không ?
Bạn thích mặt
hìnhkhông?
5 越南 有 很多
传统 节日 , 如
端午节 、 中秋
节
Việt Nam có rất nhiều ngày lễ truyền thống , như tết đoan ngọ , tết trung thu
Việt Nam có rất nhiều truyền thống như lễ tết ,
chương
Việt Nam có rất nhiều ngày hội truyền thống, như
Việt Nam có rất nhiều ngày hội truyền thống, như tết đoan ngọ , trung thu liên hoan
6 这 件 晚装 我
要 在 今晚 的 宴
会 上 穿
Bộ đồ dạ hội này tôi cần mặc trong buổi tiệc tối nay
tôi muốn cái này trang tối nay chúng tôi mặc
Cái này 晚装 tôi muốn ở tối của
宴会trên mặc
Cái này tối hóa trang tôi muốn ở tối của yến hội trên mặc
Tất cả hệ dịch đều có lỗi về nghĩa và trật tự từ, tuy
nhiên, chúng tôi không đề cập về những lỗi này Ở
đây, chúng tôi chỉ tập trung về những lỗi của các hệ
thống khi dịch các câu có chứa NNE-UKW Hệ dịch
cơ sở đã dịch được tất cả 6 trường hợp, nhưng kết quả dịch của hệ dịch này thường không chính xác trừ câu
số 3 (nhận dạng, dịch và đảo trật tự đúng hai ký tự 票 /“vé” và 价/ “giá”) Trong những trường hợp còn lại, Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 5Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
các ký tự trong câu tiếng Hoa đều tồn tại trong kho
ngữ liệu huấn luyện, vì thế hệ dịch cơ sở đã chọn
nghĩa tiếng Việt có xác suất cao nhất làm kết quả dịch
Tuy nhiên, những nghĩa này thường bị sai Điển hình
như từ tiếng Hoa 说明书 ở trường hợp 1, nghĩa dịch
đúng của từ này là “bản thuyết minh” Tuy nhiên, hệ
dịch cơ sở lại dịch thành “cho thấy sách” Sở dĩ như
vậy là vì nghĩa ký tự tương ứng “明/thấy” và “书
/sách” có xác suất cao nhất trong kho ngữ liệu ở hệ
dịch cơ sở Các lỗi sai tương tự ở những trường hợp
còn lại
Ở hệ dịch phân đoạn từ, do tổng số từ trong kho
ngữ liệu của trường hợp này ít hơn so với hệ dịch cơ
sở nên số lượng gióng hàng từ cũng như khả năng nhận dạng từ của hệ dịch này kém hơn so với hệ dịch
cơ sở Và kết quả là hệ dịch này phát sinh nhiều UKW hơn Mặc khác, từ trong ngôn ngữ tự nhiên là tập mở nên dù kho ngữ liệu có lớn đến mức nào đi nữa cũng không thể bao phủ hơn tất cả các từ, vì vậy việc phát sinh UKW là điều không thể tránh khỏi trong dịch máy Kết quả dịch ở trường hợp phân đoạn
từ được dịch lại qua hệ thống của chúng tôi
Chúng ta tiếp tục thảo luận về sự cải tiến của hệ thống dịch lại thông qua các câu ví dụ bên trên Bảng
3 sẽ minh họa các bước xử lý của hệ dịch lại đối với những trường hợp ở Bảng 3
Bảng 3 Minh họa các bước nhận dạng và dịch NNE-UKW
Bên cạnh những cải tiến như trên, chúng tôi cũng
phát hiện một số trường hợp dịch lại bị sai Lỗi sai ở
trường hợp dịch dựa vào từ điển trực tuyến thường là
sai ngữ cảnh Ví dụ như UKW 平面 (ở câu 4 của
Bảng 2) Theo từ điển thì từ này có nghĩa lần lượt là
“mặt bằng”, “mặt phẳng”, “phẳng” Hệ thống dịch lại
đã chọn nghĩa “mặt bằng” để thay thế cho UKW Tuy
nhiên, nghĩa thứ ba “phẳng” mới là sự chọn lựa đúng
cho trường hợp này Mặc dù nghĩa “mặt bằng” không
phù hợp với ngữ cảnh nhưng nó cũng gần với nghĩa
của từ “phẳng”
Đối với các UKW không tồn tại trong từ điển,
chúng tôi phân rã chúng thành các từ con và dịch các
từ con này dựa vào từ điển và mô hình ngôn ngữ Để hạn chế không gian từ phát sinh, chúng tôi chỉ lấy nghĩa tiếng Việt đầu tiên trong từ điển và kết hợp không theo thứ tự các nghĩa này lại với nhau Việc chọn lựa như vậy có thể bị sai nếu nghĩa đúng của từ con không phải là nghĩa đầu tiên trong từ điển Bên cạnh đó, hệ thống dịch lại sẽ chọn nghĩa tiếng Việt tốt nhất dựa vào xác suất 2-gram cao nhất Tuy nhiên ở một số trường hợp thì xác suất cao nhất không đi đôi với nghĩa tốt nhất Điển hình như UKW 晚装 ở câu 6
Bảng 2có nghĩa là “đồ dạ hội” hay “trang phục dạ hội” nhưng xác suất 2-gram cao nhất tương ứng của từ này
là “tối hóa trang”
Phân đoạn
từ 1 能 给 我一 张 说 明
书 吗 ?
2 去 美术
馆 在 这 乘车吗?
3 我 想 知道 票
价 从 上海 到 北 京
4 你 喜
欢 平 面
银 幕 的
吗 ?
5 越南 有 很
多 传 统 节
日 , 如 端午
节 、 中秋节
6 这 件 晚装
我 要 在 今晚
的 宴会 上 穿
Kết quả dịch
phân đoạn
từ
Có thể cho
tôi một 说
không ?
Đi 美术馆
ở đây đi xe phải không
?
Tôi muốn biết 票
价 từ Thượng Hải đến Bắc Kinh
bạn thích
平 面 của
không ?
Việt Nam có rất nhiều ngày hội truyền thống, như 端
Cái này 晚 装 tôi muốn ở tối của 宴 会 trên mặc
Nhận dạng
NNE-UKW Có thể cho tôi một 说
明 书/UKW
không ?
đi 美 术 馆 /UKW ở đây đi xe phải không ?
Tôi muốn biết 票
Thượng Hải đến Bắc Kinh
bạn thích
/UKW của 银 幕 /UKW không ?
Việt Nam có rất nhiều ngày hội truyền thống, như 端
午 节/UKW ,
Cái này 晚 装 /UKW tôi muốn
ở tối của 宴会 /UKW trên mặc
Dịch
NNE-UKW 说明书 … 美 术馆… … 票价 … 平面 银幕 端午节 , 中秋节
晚 装 宴
会
bản
thuyết
minh
phòng tranh … … giá vé … mặtbằng
màn hình
tết đoan ngọ, trung thu liên hoan
tối hóa trang yến hội
Giải thích sơ
lược - Dịch dựavào từ điển
trực tuyến
- Dịch dựa vào từ điển trực tuyến
- Phân rã UKW
và dịch dựa vào
từ con và mô hình ngôn ngữ
- Dịch dựa vào
từ điển trực tuyến
- Dịch dựa vào từ điển trực tuyến
- 宴 会 được dịch dựa vào từ điển
- 晚 装 được dịch dựa vào từ con và mô hình ngôn ngữ Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 6Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
V KẾT LUẬN Trong bài báo này, chúng tôi đã đề xuất một
phương pháp dịch NNE-UKW trong dịch máy
Hoa-Việt dựa vào từ điển và mô hình ngôn ngữ Kết quả
thực nghiệm cho thấy hệ dịch lại của chúng tôi đã cho
chất lượng dịch tốt hơn so với hệ dịch cơ sở, đã dịch
đúng nhiều UKW của trường hợp phân đoạn từ, góp
phần làm tăng hiệu suất dịch máy Bên cạnh đó,
chúng tôi cũng thấy rằng hệ dịch lại UKW còn nhập
nhằng về nghĩa ở cả hai trường hợp: dịch dựa vào từ
điển trực tuyến cũng như dịch dựa vào phân rã thành
từ con
Trong tương lai, chúng tôi sẽ tích hợp thêm thông
tin từ đồng nghĩa và mô hình ngôn ngữ vào hệ thống
để khắc phục các lỗi của trường hợp dịch dựa vào từ
điển trực tuyến Đối với phương pháp dịch dựa vào
phân rã thành từ con, chúng tôi sẽ điều chỉnh phân rã
cách phân rã NNE-UKW cũng như mở rộng không
gian từ tiếng Việt để tìm nghĩa tiếng Việt phù hợp
nhất
TÀI LIỆU THAM KHẢO [1] Joao Silva, Luisa Coheur, Angela Costa, Isabel Trancoso, Dealing with unknown words in statistical machine translation, in proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), pp 176-187, 2012
[2] Matthias Eck, Stephan Vogel, Alex Waibel, Communicating Unknown words in machine translation, in International Conference on Language Resources and Evaluation,
pp.1542-1547, 2008
[3] Khan Md Anwarus Salam, Setsuo Yamada and Setsuo Yamada, How to Translate Unknown Words for English to Bangla Machine Translation Using Transliteration, Journal of computers, vol 8, no 5, pp.481-486, 2013
[4] Philippe Langais and Alexandre Patry, Translating Unknown Words by Analogical Learning, Conference on Empirical Methods in Natural Language Processing, pp.877-886, 2007 [5] Karunesh Arora and Michael Paul and Eiichiro Sumita, Translation of unknown words in phrase-based statistical machine translation for languages of rich morphology, The first International Workshop on Spoken Languages Technologies for Under-resourced languages (SLTU - 2008), p.70-75, 2008
[6] Ruiqiang Zhang, Eiichiro Sumita, Chinese Unknown word Translation by Subword Re-segmentation, in International Joint Conference on Natural Language Processing,
pp.225-232, 2008
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)