Một phương pháp dịch từ mới trong dịch máy Hoa-Việt

Bài viết trình bày một phương pháp dịch NNE-UKW dựa vào việc phân rã từ và mô hình ngôn ngữ. Kết quả thử nghiệm cho thấy phương pháp của chúng tôi đã tăng điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn từ. Mời các bạn cùng tham khảo!

Trang 1

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Một Phương Pháp Dịch Từ Mới Trong

Dịch Máy Hoa-Việt

Trần Thanh Phước Khoa Công nghệ Thông tin Trường Đại Học Tôn Đức Thắng

tranthanhphuoc@tonducthang.edu.vn

Trịnh Thanh Duy Khoa Kinh tế Kỹ thuật Trường Bách Khoa Sài Gòn trinhthanhduy@gmail.com

Nguyễn Thị Thanh Thảo Khoa Công nghệ Thông tin Trường Cao Đẳng Kinh Tế Kỹ Thuật TPHCM nguyenthithanthao@hotec.edu.vn

Đinh Điền Khoa Công nghệ Thông tin Trường Đại Học Khoa Học Tự Nhiên, TP.HCM

ddien@fit.hcmus.edu.vn

Tóm tắt — Từ mới (UKW: Unknown word) là vấn đề

hiển nhiên trong dịch máy nói chung và trong dịch

thống kê Hoa-Việt nói riêng Hơn nữa, so với các ngôn

ngữ giàu tài nguyên khác như tiếng Hoa, Anh thì kho

ngữ liệu song ngữ Hoa-Việt còn hạn chế, vì vậy, UKW

trong dịch máy Hoa-Việt lại càng nhiều hơn Mặt khác,

ranh giới từ trong tiếng Hoa và tiếng Việt không được

phân định bởi khoảng trắng, phân đoạn từ thường được

thực hiện đầu tiên trong dịch máy Hoa, Việt sang các

ngôn ngữ khác hoặc ngược lại Việc phân đoạn từ làm

tăng chất lượng dịch chung cuộc nhưng lại phát sinh

nhiều UKW Chúng tôi chia UKW làm hai phần là

UKW dạng thực thể có tên và UKW không thuộc thực

thể có tên (NNE-UKW) Trong bài báo này, chúng tôi sẽ

trình bày một phương pháp dịch NNE-UKW dựa vào

việc phân rã từ và mô hình ngôn ngữ Kết quả thử

nghiệm cho thấy phương pháp của chúng tôi đã tăng

điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn

từ

Từ khóa — NNE-UKW, unknown word, dịch máy

Hoa-Việt, phân rã từ, mô hình ngôn ngữ

I GIỚI THIỆU Hiệu suất dịch máy thống kê phụ thuộc vào độ lớn

và chất lượng của kho ngữ liệu song ngữ Kho ngữ

liệu càng lớn và càng tinh khiết thì chất lượng của hệ

dịch sẽ càng cao Để có được ngữ liệu song ngữ cho

hệ dịch máy thống kê (SMT: statistical machine

translation), bên cạnh phương pháp thu thập bằng tay

tốn kém thì phương pháp rút trích tự động từ các

website song ngữ ngày càng được sử dụng rộng rãi

Phương pháp rút trích tự động này được thực hiện

bằng cách dò tìm các các trang web song ngữ là bản

dịch của nhau Các trang web song ngữ Hoa-Việt

hoặc Việt-Hoa hiện tại không nhiều, và nếu có thì các

bản dịch của nhau thường chưa thực sự song song

Do đó, việc thu thập tự động ngữ liệu song ngữ

Hoa-Việt từ web hiện nay còn khó khăn và chất lượng ngữ

liệu thu được thường không cao Hiện tại, kho ngữ

liệu của hệ thống dù chất lượng khá tốt nhưng số

lượng cặp câu chưa nhiều Với kho ngữ liệu hạn chế

như thế, thì từ mới (UKW: Unknown word) trong hệ

dịch Hoa-Việt càng hiển nhiên hơn so với các hệ dịch

cho cặp ngôn ngữ giàu tài nguyên khác

Không giống như các ngôn ngữ phương Tây (điển hình là tiếng Anh), từ trong tiếng Hoa và tiếng Việt không được phân định bởi khoảng trắng Một câu tiếng Hoa bao gồm một dãy các ký tự nằm liên tiếp nhau và không có khoảng trắng giữa các ký tự này Trong tiếng Việt, các từ chính tả được cách với nhau bởi một khoảng trắng, dấu câu nằm liền sau từ chính

tả Do đó, việc phân đoạn từ thường được giải quyết đầu tiên trong dịch máy Hoa, Việt sang các ngôn ngữ khác Việc phân đoạn từ làm tăng chất lượng dịch nhưng thường phát sinh nhiều UKW hơn so với hệ dịch cơ sở (hệ dịch không phân đoạn từ, xem mỗi ký

tự tiếng Hoa và từ chính tả tiếng Việt là đơn vị độc lập) Một ví dụ trong ngữ liệu thử nghiệm của chúng tôi như sau: từ tiếng Hoa 车票 (vé xe: bus ticket) là một UKW đối với hệ dịch phân đoạn từ nhưng không

là UKW trong hệ dịch cơ sở (Hình 1)

Hình 1 Một ví dụ về hệ dịch cơ sở (dựa vào ký tự)

Từ 2 câu của ngữ ngữ liệu huấn luyện, chúng ta

có được một gióng hàng ký tự 车 (xe) và 票 (vé) (chúng tôi không quan tâm đến các gióng hàng ký tự khác) Do đó, ở câu kiểm tra, khi gặp hai ký tự 车 và

票, hệ thống sẽ dịch được chúng Ngược lại, khi phân đoạn từ, 2 character 车 và 票 kết hợp thành một từ duy nhất 车票, hệ thống sẽ không dịch được từ này

do ngữ liệu huấn luyện không tồn tại nó Do đó, UKW 车票 sẽ được phát sinh

Chúng tôi chia UKW tiếng Hoa thành hai loại: UKW dạng thực thể có tên và UKW không thuộc thực thể có tên (NNE-UKW: Not Named Entity UKW) Một từ tiếng Hoa có thể là một ký tự có nghĩa hoặc bao gồm nhiều ký tự kết hợp lại với nhau và UKW thường là những từ bao gồm nhiều ký tự hợp lại Chúng tôi sẽ phân rã UKW thành những từ con nhỏ hơn và dịch các từ con này Sau đó, chúng tôi sẽ Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Trang 2

chọn ra nghĩa tiếng Việt tốt nhất dựa vào xác suất

đồng xuất hiện của các nghĩa tiếng Việt của các từ

con

Bài báo này được trình bày như sau: ở Phần 2,

chúng tôi sẽ trình bày các công trình liên quan đến

bài toán xử lý UKW trong dịch máy Phần nhận dạng

cũng như dịch UKW sẽ được trình bày ở Phần 3

Trong khi đó, ở Phần 4, chúng tôi sẽ mô tả các thử

nghiệm cũng như một số thảo luận Phần kết luận sẽ

được trình bày ở Phần 5

II CÔNG TRÌNH LIÊN QUAN

Hiện nay có rất nhiều nghiên cứu với các hướng

tiếp cận khác nhau nhằm dịch lại UKW, nâng cao

hiệu suất dịch máy Dựa vào phép chính tả của từ,

nhóm tác giả Joao Silva và các đồng sự [1] đã đề xuất

hai phương pháp nhằm khắc phục các UKW, đó là:

phát hiện từ cùng nguồn gốc (cognates’ detection) và

độ tương tự hợp lý (logical analogy) để dịch lại UKW

Hướng tiếp cận này đã thực hiện thành công cho cặp

ngôn ngữ biến hình Anh - Bồ Đào Nha

Một hướng tiếp cận khác để xử lý UKW được

thực hiện bởi tác giả Matthias Eck và các đồng sự [2]

Nhóm tác giả này đã tìm các định nghĩa của các

UKW ở ngôn ngữ nguồn và dịch các định nghĩa của

UKW này (thay vì dịch các UKW) Các định nghĩa

của UKW sẽ được rút trích tự động từ các từ điển

trực tuyến và các bách khoa toàn thư, sau đó chúng

được dịch lại qua hệ thống SMT Kết quả dịch này sẽ

thay thế các UKW ở bản dịch cũ Phương pháp đã

được các tác giả thử nghiệm trên cặp ngôn ngữ Anh –

Tây Ban Nha Trong bài báo này, chúng tôi cũng có

áp dụng từ điển trực tuyến để tìm và dịch nghĩa cho

UKW

Ở khía cạnh khác, tác giả Ruiqiang Zhang và

đồng sự [6] đã dịch lại các UKW bằng cách phân rã

các UKW thành các từ con (subwords) Nhóm tác giả

đã phân rã các UKW tiếng Hoa thành các từ con và

dịch dựa vào các từ con này (subword-based

translation) Từ con là một đơn vị ở giữa ký tự và từ

Bên cạnh đó, nhóm tác giả còn phát hiện ra rằng, chất

lượng dịch sẽ tăng đáng kể nếu áp dụng nhận dạng

tên riêng (Named Entity recognition: NER) để dịch

các UKW trước khi áp dụng dịch dựa vào từ con

WordNet và phiên âm quốc tế (IPA) cũng được sử

dụng để xử lý UKW Khan MD và đồng sự [3] đã sử

dụng hai yếu tố này để dịch UKW trong dịch máy

dựa trên ví dụ (EBMT) từ tiếng Anh sang tiếng

Bangla Đầu tiên, hệ thống sẽ tìm trong WordNet các

từ tiếng Anh có nghĩa liên quan đến UKW Từ những

từ có nghĩa liên quan này, hệ thống sẽ chọn ra từ có

nghĩa gần nhất nhất tồn tại trong từ điển Anh-Bangla

Giả sử như không tìm được từ thỏa mãn, hệ thống sẽ

sử dụng phiên âm quốc tế để chuyển ngữ cho UKW

Bên cạnh đó, tác giả Philippe Langlais và các

đồng sự [4] đã sử dụng phương pháp học tương tự để

dịch lại UKW Khái niệm về sự tương tự được định

nghĩa như sau: [A : B = C : D], thể hiện mối quan hệ

theo kiểu: “A is to B as C is to D”, ví dụ như: [comfortable : uncomfortable = translatable : untranslatable] trong tiếng Anh Nhóm tác giả phát hiện rằng phương pháp của họ có thể dịch chính xác đến 80% các UKW không thuộc thực thể có tên Phương pháp này đã được thử nghiệm trên các cặp ngôn ngữ như: Pháp-Anh, Đức-Anh và Tây Ban Nha-Anh

Riêng đối với các cặp ngôn ngữ giàu hình thái thì nhóm tác giả Karunesh Arora và đồng sự [5] đã sử dụng các kỹ thuật xấp xỉ từ vựng để nhận diện chính

tả cũng như các biến thể của từ trong kho ngữ liệu huấn luyện Tất cả UKW trong câu nguồn sẽ được thay thế bằng các từ biến thể tương ứng được tìm thấy trong ngữ liệu huấn luyện, điều này đã làm giảm khá nhiều số lượng UKW trong câu đầu vào Phương pháp này được các tác giả thử nghiệm trên cặp ngôn ngữ Hin Đi - Nhật

III PHƯƠNG PHÁP DỊCH NNE-UKW Chúng tôi phân đoạn từ cho ngữ liệu tiếng Hoa và tiếng Việt trước khi huấn luyện và dịch bởi công cụ SMT Trong thử nghiệm, chúng tôi sử dụng công cụ Stanfor Segmenter1để phân đoạn từ tiếng Hoa, công

cụ VnTokenizer2để phân đoạn từ tiếng Việt, công cụ MOSES3để thực hiện huấn luyện và dịch Kết quả dịch của SMT tiếp tục được chúng tôi nhận diện NNE-UKW và dịch lại theo mô hình ở Hình 2

Hình 2 Mô hình dịch NNE-UKW

 Bước 1: Chúng tôi tìm kiếm nghĩa của NNE-UKW trên từ điển Hoa-Việt trực tuyến Chúng tôi tận dụng sự phong phú từ vựng của từ điển trực tuyến với mong muốn có thể tìm được nghĩa tiếng Việt của UKW Trong thử nghiệm, chúng tôi sử

1 Download tại:

http://nlp.stanford.edu/software/segmenter.shtml

2 Download tại:

http://vlsp.vietlp.org:8080/demo/?page=resources

3 Download at:

http://www.statmt.org/moses/?n=Moses.Releases Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Trang 3

dụng từ điển Hoa-Việt trực tuyến từ trang web

“https://vi.glosbe.com/zh/vi/” để tra cứu các

UKW Ví dụ như từ 咖哩 (món cà ri: curry), từ

này là UKW đối với kho ngữ liệu song ngữ

Việt nhưng lại là từ vựng có trong từ điển

Hoa-Việt trực tuyến

 Giả sử phương pháp sử dụng từ điển ở bước (1)

vẫn không giải quyết được UKW, hệ thống phân rã

UKW thành các từ con và dịch nghĩa của các từ

con này Phương pháp phân rã và dịch từ con như

sau:

─ Phân rã một UKW thành các từ con dựa vào

từ điển Từ con ở đây có thể là một từ gồm

nhiều ký tự (hiển nhiên là nhỏ hơn UKW), cũng

có thể là một ký tự riêng biệt Một ký tự tiếng

Hoa đều có nghĩa tương ứng ở tiếng Việt và

chúng ta hoàn toàn có thể xem ký tự tiếng Hoa

là một từ có nghĩa độc lập Từ tiếng Hoa là vô

hạn nhưng ký tự tiếng Hoa là hữu hạn và được

lưu trữ trong từ điển Do đó, khi đã phân rã

UKW đến mức ký tự thì vấn đề UKW là không

còn

─ Bước kế tiếp, hệ thống sẽ dịch các từ con này

dựa vào từ điển Một từ con có thể có nhiều

nghĩa, có nghĩa phổ biến và có một số nghĩa ít

xuất hiện Để hạn chế không gian từ phát sinh,

trong thử nghiệm, chúng tôi chỉ chọn nghĩa đầu

tiên trong từ điển Sau bước này, một tập hợp

nghĩa của các từ con sẽ được phát sinh

─ Từ tập hợp nghĩa của các từ con, hệ thống

phát sinh tập hợp nghĩa tiếng Việt bằng cách kết

hợp không theo thứ tự tất cả các nghĩa của các

từ con của một UKW Sau bước này, chúng ta

đã có được tập hợp nghĩa tiếng Việt của UKW

─ Kế tiếp, hệ thống lọc ra nghĩa tốt nhất từ tập

hợp nghĩa của các từ con Giả sử rằng từ w i (w i

= w i1 w i2 w in ) là một trong các nghĩa tiếng Việt

của UKW, với w ij (𝑗𝑗 𝑗 𝑗𝑗𝑗 𝑗𝑗𝑗) là một nghĩa tiếng

Việt của từ con và n là tổng số từ chính tả trong

từ w i Chúng tôi sử dụng mô hình ngôn ngữ

n-gram được huấn luyện trên ngữ liệu tiếng Việt

như sau: (công thức (1))

𝑃𝑃(𝑤𝑤𝑖𝑖1… 𝑤𝑤𝑖𝑖𝑖𝑖) = 𝑃𝑃(𝑤𝑤𝑖𝑖1)𝑃𝑃(𝑤𝑤𝑖𝑖2|𝑤𝑤𝑖𝑖1)𝑃𝑃(𝑤𝑤𝑖𝑖3|𝑤𝑤𝑖𝑖1𝑤𝑤𝑖𝑖2)

… 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖|𝑤𝑤𝑖𝑖1𝑤𝑤𝑖𝑖2… 𝑤𝑤𝑖𝑖(𝑖𝑖−1)) (1)

Trong thử nghiệm, chúng tôi sử dụng công cụ

SRILM4 với mô hình ngôn ngữ 2-gram để chọn ra

nghĩa tiếng Việt phù hợp nhất Để tránh xác suất

2-gram bằng không, chúng tôi tiến hành cộng các xác

suất với nhau thay vì nhân chúng lại (công thức (2)

𝑃𝑃(𝑤𝑤𝑖𝑖1… 𝑤𝑤𝑖𝑖𝑖𝑖) = 𝑃𝑃(𝑤𝑤𝑖𝑖2|𝑤𝑤𝑖𝑖1) + (2)

4 Download tại:

http://www.speech.sri.com/projects/srilm/download.htm

l

𝑃𝑃(𝑤𝑤𝑖𝑖3|𝑤𝑤𝑖𝑖2) + ⋯ + 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖|𝑤𝑤𝑖𝑖(𝑖𝑖−1)) Nghĩa tiếng Việt tốt nhất là nghĩa có tổng xác suất lớn nhất Hình 3 minh họa quá trình phân rã và dịch UKW 手提包 (túi xách tay: handbag), từ này không tồn tại trong từ điển Hoa-Việt trực tuyến

Hình 3 Minh họa phân rã và dịch NNE-UKW

“túi xách tay” là từ có tổng xác suất 2-gram cao nhất,

vì vậy từ này sẽ thay thế UKW 手提包 trong bản dịch tiếng Việt cuối cùng

IV THỬ NGHIỆM VÀ THẢO LUẬN

A Ngữ liệu thử nghiệm

Kho ngữ liệu thử nghiệm của chúng tôi bao gồm 30.000 cặp căp Hoa-Việt được lấy từ các sách dạy đàm thoại tiếng Hoa, các diễn đàn tiếng Hoa trực tuyến và các website song ngữ Hoa-Việt Cụ thể như: sách “301 câu đàm thoại tiếng Hoa” website

“http://www.dantiengtrung.com.vn”, website song ngữ “http://www.dongnai.gov.vn”, Chúng tôi sử dụng 90% cặp câu cho huấn luyện, 5% cho kiểm tra

và 5% cho điều chỉnh tham số Các kho ngữ liệu huấn luyện được huấn luyện bởi công cụ Moses với các tham số mặc định Chúng tôi sử dụng ngữ liệu của nhóm VLSP với 212.454 câu tiếng Việt để huấn luyện mô hình ngôn ngữ tiếng Việt

B Thực hiện thử nghiệm

Chúng tôi sử dụng các ngữ liệu này để thực hiện

ba thử nghiệm sau:

 Hệ dịch cơ sở (1): chúng tôi xem ký tự tiếng Hoa và từ chính tả tiếng Việt như những đơn vị độc lập có nghĩa Chúng tôi chèn một khoảng trắng vào giữa các ký tự tiếng Hoa và chèn một khoảng trắng vào giữa dấu câu và từ chính tả trong tiếng Việt

 Hệ dịch phân đoạn từ (2): chúng tôi phân đoạn

từ tiếng Hoa bằng công cụ Stanford Segmenter,

và công cụ VnTokenizer cho tiếng Việt

 Sau đó, chúng tôi tiến hành dịch ngữ liệu kiểm tra tiếng Hoa bằng công cụ Moses cho cả hai trường hợp (1) và (2) Kết quả dịch của trường hợp (2) tiếp tục được nhận dạng và dịch lại NNE-UKW

Tùy thuộc vào việc chọn lựa các câu trong ngữ liệu kiểm tra mà điểm BLEU có giá trị khác nhau Hình 4 minh họa điểm BLEU cho cách chọn lựa ngữ Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Trang 4

liệu kiểm tra theo định dạng như sau: mỗi 20 câu

trong kho ngữ liệu thì 18 câu đầu tiên dành cho huấn

luyện, câu thứ 19 cho điều chỉnh tham số và câu thứ

20 cho kiểm tra

Hình 4 Các kết quả thử nghiệm

Bên cạnh đó, chúng tôi cũng đánh giá độ chính

xác của việc dịch NNE-UKW dựa vào công thức 3

như sau:

𝑷𝑷 𝑷𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝑺𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝑺đú𝒏𝒏𝒏𝒏𝑻𝑻𝑻𝒏𝒏𝒏𝒏𝑺𝒔𝒔𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝑺𝒄𝒄𝒄𝒄𝒄𝒄𝒄 (3)

Kết quả dịch NNE-UKW trong 1.500 câu kiểm tra được trình bày ở Bảng 1

Bảng 1 Độ chính xác của dịch NNE-UKW

Tổng UKW đúng Dịch Độ chính xác (P)

Dịch dựa vào từ điển trực tuyến 95 60 63,15% Dịch dựa vào từ

All NNE-UKW 1315 659 50.11%

C Thảo luận

Với kết quả thử nghiệm như trên, chúng tôi nhận thấy rằng kết quả dịch trong hệ dịch phân đoạn từ thường tốt hơn so với hệ dịch cơ sở Tuy nhiên, hệ dịch phân đoạn từ lại xuất hiện UKW nhiều hơn Bên cạnh đó, chất lượng của hệ thống dịch lại UKW của chúng tôi thường tốt hơn so với trường hợp dịch phân đoạn từ Điều này cũng dễ hiểu vì chất lượng của hệ dịch lại UKW đã bao gồm chất lượng của hệ dịch phân đoạn từ cộng với chất lượng dịch UKW Giả sử kết quả dịch lại sai hoàn toàn thì chất lượng của hệ dịch lại cũng không thấp hơn hệ dịch phân đoạn từ Bảng 2 trình bày sáu trường hợp trong ngữ liệu kiểm tra

Bảng 2 Một số kết quả dịch qua ba hệ thống

Câu tiếng Hoa Nghĩa đúng

tiếng Việt Hệ dịch cơ sở Hệ dịch phân doạn từ NNE-UKW Hệ dịch lại

1 能给我一张

说明书吗？

Có thể cho tôi một bản thuyết minh không?

Có thể cho tôi 1

tờcho thấy sách không ?

Có thể cho tôi

không ?

Có thể cho tôi một bản thuyết minhkhông?

2 去美术馆在

这乘车吗？

Đi phòng tranh đón xe ở đây phải không?

Đi tàng mỹ thuật

ở đây đón xe phải không ?

Đi 美术馆ở đây

đi xe phải không ?

đi phòng tranh ở đây đón xe phải không?

3 我想知道票

价从上海到北

京

Tôi muốn biết giá

vé từ Thượng Hải đến Bắc Kinh

Tôi muốn biếtgiá

vétừ Thượng Hải đến Bắc Kinh

Tôi muốn biết票

价 từ Thượng Hải đến Bắc Kinh

Tôi muốn biếtgiá

vétừ Thượng Hải đến Bắc Kinh

4 你喜欢平面

银幕的吗？

Bạn thích loại màn hình phẳng không?

bạn thích bình diện bạc mạc không ?

bạn thích 平面 của银幕không ?

Bạn thích mặt

hìnhkhông?

5 越南有很多

传统节日，如

端午节、中秋

节

Việt Nam có rất nhiều ngày lễ truyền thống , như tết đoan ngọ , tết trung thu

Việt Nam có rất nhiều truyền thống như lễ tết ,

chương

Việt Nam có rất nhiều ngày hội truyền thống, như

Việt Nam có rất nhiều ngày hội truyền thống, như tết đoan ngọ , trung thu liên hoan

6 这件晚装我

要在今晚的宴

会上穿

Bộ đồ dạ hội này tôi cần mặc trong buổi tiệc tối nay

tôi muốn cái này trang tối nay chúng tôi mặc

Cái này 晚装 tôi muốn ở tối của

宴会trên mặc

Cái này tối hóa trang tôi muốn ở tối của yến hội trên mặc

Tất cả hệ dịch đều có lỗi về nghĩa và trật tự từ, tuy

nhiên, chúng tôi không đề cập về những lỗi này Ở

đây, chúng tôi chỉ tập trung về những lỗi của các hệ

thống khi dịch các câu có chứa NNE-UKW Hệ dịch

cơ sở đã dịch được tất cả 6 trường hợp, nhưng kết quả dịch của hệ dịch này thường không chính xác trừ câu

số 3 (nhận dạng, dịch và đảo trật tự đúng hai ký tự 票 /“vé” và 价/ “giá”) Trong những trường hợp còn lại, Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Trang 5

các ký tự trong câu tiếng Hoa đều tồn tại trong kho

ngữ liệu huấn luyện, vì thế hệ dịch cơ sở đã chọn

nghĩa tiếng Việt có xác suất cao nhất làm kết quả dịch

Tuy nhiên, những nghĩa này thường bị sai Điển hình

như từ tiếng Hoa 说明书 ở trường hợp 1, nghĩa dịch

đúng của từ này là “bản thuyết minh” Tuy nhiên, hệ

dịch cơ sở lại dịch thành “cho thấy sách” Sở dĩ như

vậy là vì nghĩa ký tự tương ứng “明/thấy” và “书

/sách” có xác suất cao nhất trong kho ngữ liệu ở hệ

dịch cơ sở Các lỗi sai tương tự ở những trường hợp

còn lại

Ở hệ dịch phân đoạn từ, do tổng số từ trong kho

ngữ liệu của trường hợp này ít hơn so với hệ dịch cơ

sở nên số lượng gióng hàng từ cũng như khả năng nhận dạng từ của hệ dịch này kém hơn so với hệ dịch

cơ sở Và kết quả là hệ dịch này phát sinh nhiều UKW hơn Mặc khác, từ trong ngôn ngữ tự nhiên là tập mở nên dù kho ngữ liệu có lớn đến mức nào đi nữa cũng không thể bao phủ hơn tất cả các từ, vì vậy việc phát sinh UKW là điều không thể tránh khỏi trong dịch máy Kết quả dịch ở trường hợp phân đoạn

từ được dịch lại qua hệ thống của chúng tôi

Chúng ta tiếp tục thảo luận về sự cải tiến của hệ thống dịch lại thông qua các câu ví dụ bên trên Bảng

3 sẽ minh họa các bước xử lý của hệ dịch lại đối với những trường hợp ở Bảng 3

Bảng 3 Minh họa các bước nhận dạng và dịch NNE-UKW

Bên cạnh những cải tiến như trên, chúng tôi cũng

phát hiện một số trường hợp dịch lại bị sai Lỗi sai ở

trường hợp dịch dựa vào từ điển trực tuyến thường là

sai ngữ cảnh Ví dụ như UKW 平面 (ở câu 4 của

Bảng 2) Theo từ điển thì từ này có nghĩa lần lượt là

“mặt bằng”, “mặt phẳng”, “phẳng” Hệ thống dịch lại

đã chọn nghĩa “mặt bằng” để thay thế cho UKW Tuy

nhiên, nghĩa thứ ba “phẳng” mới là sự chọn lựa đúng

cho trường hợp này Mặc dù nghĩa “mặt bằng” không

phù hợp với ngữ cảnh nhưng nó cũng gần với nghĩa

của từ “phẳng”

Đối với các UKW không tồn tại trong từ điển,

chúng tôi phân rã chúng thành các từ con và dịch các

từ con này dựa vào từ điển và mô hình ngôn ngữ Để hạn chế không gian từ phát sinh, chúng tôi chỉ lấy nghĩa tiếng Việt đầu tiên trong từ điển và kết hợp không theo thứ tự các nghĩa này lại với nhau Việc chọn lựa như vậy có thể bị sai nếu nghĩa đúng của từ con không phải là nghĩa đầu tiên trong từ điển Bên cạnh đó, hệ thống dịch lại sẽ chọn nghĩa tiếng Việt tốt nhất dựa vào xác suất 2-gram cao nhất Tuy nhiên ở một số trường hợp thì xác suất cao nhất không đi đôi với nghĩa tốt nhất Điển hình như UKW 晚装 ở câu 6

Bảng 2có nghĩa là “đồ dạ hội” hay “trang phục dạ hội” nhưng xác suất 2-gram cao nhất tương ứng của từ này

là “tối hóa trang”

Phân đoạn

từ 1 能给我一张说明

书吗？

2 去美术

馆在这乘车吗？

3 我想知道票

价从上海到北京

4 你喜

欢平面

银幕的

吗？

5 越南有很

多传统节

日，如端午

节、中秋节

6 这件晚装

我要在今晚

的宴会上穿

Kết quả dịch

phân đoạn

từ

Có thể cho

tôi một 说

không ?

Đi 美术馆

ở đây đi xe phải không

?

Tôi muốn biết 票

价 từ Thượng Hải đến Bắc Kinh

bạn thích

平面 của

không ?

Việt Nam có rất nhiều ngày hội truyền thống, như 端

Cái này 晚装 tôi muốn ở tối của 宴会 trên mặc

Nhận dạng

NNE-UKW Có thể cho tôi một 说

明书/UKW

không ?

đi 美术馆 /UKW ở đây đi xe phải không ?

Tôi muốn biết 票

Thượng Hải đến Bắc Kinh

bạn thích

/UKW của 银幕 /UKW không ?

Việt Nam có rất nhiều ngày hội truyền thống, như 端

午节/UKW ,

Cái này 晚装 /UKW tôi muốn

ở tối của 宴会 /UKW trên mặc

Dịch

NNE-UKW 说明书 … 美术馆… … 票价 … 平面银幕端午节 , 中秋节

晚装宴

会

bản

thuyết

minh

phòng tranh … … giá vé … mặtbằng

màn hình

tết đoan ngọ, trung thu liên hoan

tối hóa trang yến hội

Giải thích sơ

lược - Dịch dựavào từ điển

trực tuyến

- Dịch dựa vào từ điển trực tuyến

- Phân rã UKW

và dịch dựa vào

từ con và mô hình ngôn ngữ

- Dịch dựa vào

từ điển trực tuyến

- Dịch dựa vào từ điển trực tuyến

- 宴会 được dịch dựa vào từ điển

- 晚装 được dịch dựa vào từ con và mô hình ngôn ngữ Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Trang 6

V KẾT LUẬN Trong bài báo này, chúng tôi đã đề xuất một

phương pháp dịch NNE-UKW trong dịch máy

Hoa-Việt dựa vào từ điển và mô hình ngôn ngữ Kết quả

thực nghiệm cho thấy hệ dịch lại của chúng tôi đã cho

chất lượng dịch tốt hơn so với hệ dịch cơ sở, đã dịch

đúng nhiều UKW của trường hợp phân đoạn từ, góp

phần làm tăng hiệu suất dịch máy Bên cạnh đó,

chúng tôi cũng thấy rằng hệ dịch lại UKW còn nhập

nhằng về nghĩa ở cả hai trường hợp: dịch dựa vào từ

điển trực tuyến cũng như dịch dựa vào phân rã thành

từ con

Trong tương lai, chúng tôi sẽ tích hợp thêm thông

tin từ đồng nghĩa và mô hình ngôn ngữ vào hệ thống

để khắc phục các lỗi của trường hợp dịch dựa vào từ

điển trực tuyến Đối với phương pháp dịch dựa vào

phân rã thành từ con, chúng tôi sẽ điều chỉnh phân rã

cách phân rã NNE-UKW cũng như mở rộng không

gian từ tiếng Việt để tìm nghĩa tiếng Việt phù hợp

nhất

TÀI LIỆU THAM KHẢO [1] Joao Silva, Luisa Coheur, Angela Costa, Isabel Trancoso, Dealing with unknown words in statistical machine translation, in proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), pp 176-187, 2012

[2] Matthias Eck, Stephan Vogel, Alex Waibel, Communicating Unknown words in machine translation, in International Conference on Language Resources and Evaluation,

pp.1542-1547, 2008

[3] Khan Md Anwarus Salam, Setsuo Yamada and Setsuo Yamada, How to Translate Unknown Words for English to Bangla Machine Translation Using Transliteration, Journal of computers, vol 8, no 5, pp.481-486, 2013

[4] Philippe Langais and Alexandre Patry, Translating Unknown Words by Analogical Learning, Conference on Empirical Methods in Natural Language Processing, pp.877-886, 2007 [5] Karunesh Arora and Michael Paul and Eiichiro Sumita, Translation of unknown words in phrase-based statistical machine translation for languages of rich morphology, The first International Workshop on Spoken Languages Technologies for Under-resourced languages (SLTU - 2008), p.70-75, 2008

[6] Ruiqiang Zhang, Eiichiro Sumita, Chinese Unknown word Translation by Subword Re-segmentation, in International Joint Conference on Natural Language Processing,

pp.225-232, 2008

Định dạng
Số trang	6
Dung lượng	596,99 KB