Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt.Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt.Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt.Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt.Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt.Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt.Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt.
Trang 2Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học:
1 PGS.TS Huỳnh Công Pháp
2 GS Vincent Berment
Phản biện 1: ……….Phản biện 2: ……….Phản biện 3: ………
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường, Trường Đại học Bách khoa
Vào hồi … giờ … ngày … tháng … năm 2021
Có thể tìm hiểu luận án tại:
- Thư viện quốc gia Việt Nam
- Trung tâm Thông tin - Học liệu & Truyền thông, Đại học
Đà Nẵng
Trang 3Khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đếnchất lượng của bản dịch Tuy nhiên hiện nay chất lượng dịch tự động củagiữa các cặp ngôn ngữ ít phổ biến khá thấp, kể cả dịch từ tiếng Việt sangtiếng Anh và các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo,nắm đại ý của văn bản Trong một số trường hợp, bản dịch làm cho ngườiđọc hiểu sai nội dung một phần hoặc toàn bộ nội dung chính của văn bản.Các hệ thống dịch tự động mặc dù đã được sử dụng rộng rãi nhưng cũngcần có nhiều cải tiến mới có thể mang lại kết quả dịch có chất lượng hơn.
Chính vì vậy, cần thiết phải có những đánh giá về mặt khoa học
để có những số liệu cụ thể minh chứng cho chất lượng của các hệ thốngdịch tiếng Việt, từ đó phân tích và đề xuất các giải pháp nhằm nâng caochất lượng của dịch tự động tiếng Việt
Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh
đã chọn đề tài “Nghiên cứu giải pháp cải tiến chất lượng dịch tự độngtiếng Việt” làm nội dung nghiên cứu luận án Tiến sĩ kỹ thuật
2 Mục tiêu nghiên cứu
Mục tiêu chung: đề xuất được các giải pháp cụ thể nhằm cải tiếnchất lượng của các hệ thống dịch tiếng Việt, cụ thể với cặp ngôn ngữ Việt– Anh Các mục tiêu cụ thể gồm:
- Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay;
- Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa cặp ngôn ngữ Anh – Việt;
- Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh
Trang 44vực cụ thể là văn bản quy phạm pháp luật.
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án gồm:
- Các phương pháp đánh giá chất lượng hệ thống dịch tự động
- Kho ngữ liệu và các phương pháp dịch tự động
- Các hệ thống dịch tự động tiếng Việt đang hoạt động
Phạm vi nghiên cứu của luận án:
- Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổbiến hiện nay, đề xuất giải pháp cải tiến chất lượng dịch tự động đối vớicặp ngôn ngữ tiếng Việt – tiếng Anh
- Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anhsang tiếng Việt và ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quyphạm pháp luật
- Triển khai ứng dụng trên nền tảng website nhằm thuận tiện truycập đối với người dùng
4 Phương pháp nghiên cứu
- Phương pháp lý thuyết và phương pháp thực nghiệm
Chương 2 Giải pháp cải tiến chất lượng dịch tự động tiếng Việt.
Đánh giá chất lượng của một số hệ thống dịch tự động Anh - Việt phổbiến Đề xuất một số giải pháp nhằm cải tiến chất lượng của các kho ngữliệu tiếng Việt và giải pháp áp dụng mô hình dịch mạng nơ ron cho cặpngôn ngữ Anh – Việt Đề xuất giải pháp để triển khai hệ thống dịch ngữnghĩa dựa trên ngữ cảnh
Chương 3 Thực nghiệm và đánh giá kết quả Triển khai các bước
thực nghiệm xây dựng kho ngữ liệu lớn và xây dựng mô hình dịch máymạng nơ ron cho cặp ngôn ngữ Anh – Việt
Trang 5xử lý.
(2) Đề xuất được giải pháp cải tiến chất lượng dịch tiếng Việtthông qua cải tiến kho ngữ liệu Các giải pháp cụ thể đó là mở rộng vàhợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xácđịnh danh từ riêng; giải pháp xác định giới hạn từ ghép
(3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt bằngphương pháp dịch trí tuệ nhân tạo, áp dụng mô hình học máy mạng nơron Đây được xem như giải pháp mới, tốt nhất tại thời điểm nghiên cứu(năm 2017) để cải tiến chất lượng dịch tự động tiếng Việt
(4) Đề xuất giải pháp mới để xây dựng hệ thống dịch tự độnghướng ngữ nghĩa theo ngữ cảnh thông qua cải tiến mô hình dịch mạng nơron kết hợp với kho ngữ liệu lớn đã được làm giàu ngữ nghĩa
(5) Đóng góp về mặt thực nghiệm và sản phẩm thực tế: xây dựngđược hệ thống dịch tự động Anh –Việt VIKI Translator, cho kết quả thửnghiệm dịch tiếng Việt lĩnh vực hẹp (văn bản quy phạm pháp luật) đạtchất lượng tốt
TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY
1.1 Giới thiệu
Theo định nghĩa của từ điển Cambridge, dịch tự động hay còn gọi
là dịch máy (tiếng Anh: machine translation, thường được viết tắt trongtiếng Anh là: MT) là quá trình chuyển đổi văn bản từ ngôn ngữ này sang
Trang 66ngôn ngữ khác bằng máy tính.Trong các nghiên cứu về lĩnh vực dịch tựđộng, văn bản đầu vào cần dịch được gọi là văn bản nguồn và văn bản đãđược máy tính dịch gọi là văn bản đích.
Bộ máy dịch tự động là một chương trình máy tính có nhiệm vụtiếp nhận văn bản ở ngôn ngữ nguồn, sau đó bằng các thuật toán của mình
để đưa ra dự đoán kết quả dịch ở ngôn ngữ đích Các thuật toán ở bài toándịch tự động hoạt động trên cơ sở tổng hợp và xử lý tri thức từ ngôn ngữ
tự nhiên, chẳng hạn thông qua từ điển, các cặp câu dịch mẫu; các luật ngữpháp; thống kê từ ngữ, mô hình ngôn ngữ…
1.2 Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động
Các phương pháp dịch tự động
1.2.1.1 Dịch tự động dựa trên ví dụ
Phương pháp dịch máy dựa trên ví dụ (EBMT: Example- BasedMachine Translation) được đề xuất lần đầu tiên vào năm 1984 tại côngtrình, có ý tưởng chính như sau: việc dịch một câu đơn giản
không cần dựa trên quá trình phân tích sâu về mặt ngôn ngữ, thayvào đó, chúng ta phân tách câu đầu vào thành các cụm từ rời rạc, sau đódịch các cụm từ này sang ngôn ngữ khác, và cuối cùng chỉ cần ghép nốicác cụm từ này lại với nhau theo một thứ tự đúng để tạo thành một câu dàihoàn chỉnh Việc dịch các cụm từ rời rạc sẽ được thực hiện theo nguyêntắc dịch tương tự, sử dụng các ví dụ mẫu để tham khảo
Ba thành phần quan trọng của phương pháp dịch dựa trên ví dụ là:phân tách các cụm từ trên cơ sở đối sánh từ dữ liệu các ví dụ thực tế, xácđịnh các văn bản dịch tương ứng và kết hợp các cụm từ để tạo thành vănbản đích
1.2.1.2 Dịch tự động bằng phương pháp thống kê
Dịch tự động dựa trên phương pháp thống kê (SMT - StatisticalMachine Translation) trong những năm vừa qua là một hướng phát triểnđầy tiềm năng bởi những ưu điểm vượt trội so với các phương pháp khác.Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịchnày tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê
có được từ các kho ngữ liệu Chính vì vậy, dịch máy dựa vào thống kê cótính khả chuyển cao áp dụng được cho bất kỳ cặp ngôn ngữ nào
a Dịch máy thống kê trên cơ sở từ
Trang 7b Dịch máy thống kê trên cơ sở cụm từ
c Dịch máy thống kê trên cơ sở cú pháp
Liên quan đến các mã nguồn mở ứng dụng trong lĩnh vực dịchmáy thống kê, nổi bật nhất là sự xuất hiện của Moses (http://www.statmt.org/moses/), một hệ thống nguồn mở phrase-based SMT hoàn chỉnh
Kho ngữ liệu trong dịch tự động
Kho ngữ liệu (corpus) được hiểu là tập hợp văn bản đơn ngữ, đangữ hay song ngữ Trong định nghĩa của Từ điển Cambridge, kho ngữ liệu
có thể là tập hợp tài nguyên dưới dạng văn bản hoặc giọng nói Kho ngữliệu song ngữ là một tập hợp dữ liệu gồm các cặp văn bản đã được dịchtương ứng
1.2.2.1 Các kho ngữ liệu hiện nay
Đã có nhiều kho ngữ liệu quốc tế được nghiên cứu và công bố có
số lượng ngôn ngữ và khối lượng dữ liệu tương đối lớn như EuroParl (11ngôn ngữ, 34-55 triệu từ), JRC-Acquis (22 ngôn ngữ, 11- 22 triệu từ),XinHua News (2 ngôn ngữ, 12-14 triệu từ), EuroMatrix (9 ngôn ngữ lấynguồn từ các kỷ yếu của Quốc hội Châu Âu từ năm 1996–2006),Canadian Hansard (song ngữ Anh-Pháp, 2.8 triệu cặp câu), WaCky (hơn 1
tỷ từ được thu thập từ Internet) … Ngoài ra, có một số kho ngữ liệu songngữ lớn như:
Tên kho ngữ
liệu
Sốngôn ngữ
1.2.2.2 Cấu trúc cơ bản của kho ngữ liệu song ngữ
Kho ngữ liệu song ngữ chứa các văn bản của hai ngôn ngữ khácnhau, vì vậy ngoài nội dung còn có các thông tin đã được xử lý như giónghàng, gán nhãn từ…
- Phần dữ liệu nguyên thủy/thô (primary data) : Thông tin về văn bản, thông tin về cấu trúc và nội dung
- Phần chú giải ngôn ngữ học
Trang 81.2.3.1 Phương pháp đánh giá chủ quan
Đánh giá chủ quan do con người trực tiếp thực hiện, dựa trên việcđánh giá thang điểm cho các tiêu chí được xây dựng sẵn Cách đánh giáchủ quan cho kết quả tin cậy nhưng tốn nhiều thời gian và chi phí, có phụthuộc vào khả năng của người đánh giá
a Đánh giá tính trôi chảy và tính đầy đủ sử dụng thang điểm
Hai trong số các thông số đánh giá thông dụng bằng phương phápchủ quan do con người thực hiện là tính trôi chảy (fluency) và tính đầy đủ(adequacy)
b Đánh giá bằng hình thức xếp hạng
c Đánh giá thông qua hiệu đính bản dịch
1.2.3.2 Phương pháp đánh giá khách quan (đánh giá tự động)
Đánh giá khách quan là sử dụng các chương trình thay cho conngười để đánh giá Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của kếtquả từ hệ thống dịch với câu dịch tham khảo đã có sẵn
a Chỉ số WER (Word Error Rate)
b Chỉ số MWER (Multi-Reference WER)
c Chỉ số PER (Position-independent Error Rate)
d Chỉ số TER (Translation Error Rate)
Trang 9số BLEU.
- Nghiên cứu xây dựng kho ngữ liệu gồm 880.000 cặp câu songngữ Anh – Việt và hơn 11 triệu câu tiếng Việt, sau đó sử dụng mô hìnhdịch thống kê và mã nguồn MOSES để xây dựng hệ thống dịch Anh –Việt Kết quả hệ thống dịch được đánh giá và so sánh với kết quả dịch củaGoogle và Microsoft
- Nghiên cứu xây dựng hệ thống dịch sử dụng mạng nơ ron và tập
dữ liệu đánh giá của IWSLT 2015 đối với một số ngôn ngữ ít phổ biến,trong đó có cặp ngôn ngữ Anh – Việt
- Nghiên cứu tiếp cận xây dựng hệ thống dịch thông qua ngôn ngữtrung gian để xây dựng hệ thống dịch giữa cặp ngôn ngữ Séc – Việt, sửdụng tiếng Anh làm ngôn ngữ trung gian
Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt
Để giải quyết các bài toán xử lý ngôn ngữ tiếng Việt, trong đó códịch máy, nhiều nhóm nghiên cứu đã xây dựng được các kho ngữ liệudành riêng cho tiếng Việt, đồng thời đưa ra các giải pháp để nâng cao chấtlượng của các kho ngữ liệu
- Kho ngữ liệu tiếng Việt của Vietlex chứa khoảng 80.000.000;
Đề tài KC01.01/06-10, nhánh đề tài "Xử lí văn bản tiếng Việt" tiến hànhnghiên cứu và xây dựng kho ngữ liệu tiếng Việt và kho ngữ liệu song ngữAnh – Việt; Trung tâm Ngôn ngữ học Tính toán – ĐH Khoa học Tự nhiên– TP.HCM thực hiện xây dựng 2 kho ngữ liệu tiếng Việt (tên là VTB vàVCor) VTB có 201.594 câu, 5.501.225 lượt từ, ngữ liệu VCor có17.095.994 câu (42 lĩnh vực)
Ngoài ra còn có các nghiên cứu khác thực hiện thu thập kho ngữliệu đơn ngữ, song ngữ, đa ngữ và thực hiện các giải pháp gán nhãn, giónghàng, phân tích cú pháp cho kho ngữ liệu
1.4 Thực trạng chất lượng dịch tự động tiếng Việt
Trang 10- EVTran: được nghiên cứu và phát triển từ năm 1989 EVTran
là một hệ dịch máy hoàn toàn dựa vào luật, sử dụng các luật được xâydựng bằng tay để dịch văn bản giữa tiếng Anh và tiếng Việt
- Cồ Việt: Công ty Cổ phần Tin học Lạc Việt ngoài cung cấp dịch
vụ từ điển nổi tiếng Lạc Việt đã phát triển thêm dịch vụ dịch tự động tạiđịa chỉ: http://tratu.coviet.vn/hoc-tieng-anh/dich-van- ban.html
- Google Translate: là một công cụ dịch thuật trực tuyến được
Google cung cấp Bộ máy dịch của Google Translate trước đây sử dụng
mô hình dịch máy thống kê và hiện nay sử dụng mô hình mạng nơ ron đốivới một số cặp ngôn ngữ Hiện tại Google Translate hỗ trợ dịch giữa 109ngôn ngữ khác nhau
- Microsoft Translator: Dịch vụ dịch tự động của Microsoft hỗ
trợ dịch 90 ngôn ngữ khác nhau
Nhìn chung, các hệ thống dịch hiện nay có thể dịch được hoànchỉnh các câu đơn giản, thông dụng Tuy nhiên, khi dịch các văn bản, đặcbiệt là các văn bản trong các lĩnh vực chuyên ngành thì chất lượng dịchtiếng Việt của các hệ thống dịch tự động vẫn còn nhiều hạn chế
1.5 Kết luận Chương 1
Từ các nghiên cứu trên, có thể thấy rằng bài toán dịch tự độngtiếng Việt là một trong những hướng nghiên cứu được quan tâm trongnhững năm vừa qua bởi tính cấp thiết của dịch tự động và những ứngdụng thực tiễn mà các hệ thống dịch mang lại Có nhiều nhóm nghiên cứu
đã đề xuất các giải pháp khác nhau về cải tiến mô hình dịch cũng như cảitiến kho ngữ liệu, tuy nhiên đến nay chất lượng thực tế của các hệ thốngdịch tự động tiếng Việt vẫn còn nhiều hạn chế Các câu dịch chưa thể ápdụng ngay mà cần có sự kiểm chứng và xử lý, chỉnh sửa
GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ
ĐỘNG TIẾNG VIỆT 2.1 Giới thiệu
Mô hình dịch là kết quả của quá trình huấn luyện của các thuậttoán, biểu diễn các số liệu thống kê, các quy tắc, luật đã được tối ưu sauquá trình này Từ một mô hình dịch đã được huấn luyện, chúng ta đưa vàocác câu nguồn để mô hình dự đoán kết quả đầu ra là các câu đích cần dịch.Chính vì vậy, mô hình dịch đóng vai trò quyết định ảnh hưởng đến chấtlượng của hệ thống dịch
Trang 1111Như biểu diễn ở trên, có thể thấy rằng xây dựng một mô hình dịchtốt và tạo nên hệ thống dịch có chất lượng, cần có hai yếu tố then chốt lànguồn dữ liệu và phương pháp dịch:
- Nguồn dữ liệu phải có chất lượng tốt và số lượng lớn
- Phương pháp dịch hiệu quả, phù hợp với ngôn ngữ, triệt tiêu tối
đa sự nhập nhằng về ngữ nghĩa
2.2 Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt
Quá trình đánh giá này được thực hiện năm 2017, sử dụng kết quảdịch của hai hệ thống Google Translate và Microsoft Translator
Tổ chức đánh giá
2.2.1.1 Đánh giá theo phương pháp khách quan
Các câu tiếng Anh của từng tập dữ liệu được dịch sang tiếng Việtthông qua các hàm API của hệ thống Google và Microsoft, sử dụng công
cụ do nhóm tác giả xây dựng Kết quả thu được ở bảng sau
2.2.1.2 Đánh giá theo phương pháp chủ quan
Kết quả cho thấy trong bộ dữ liệu hội thoại, chỉ có 516 câu (đốivới Google) và 308 câu (đối với Microsoft), chiếm tỷ lệ là 52% và 30%.Một số câu còn làm cho người đọc hiểu sai ý nghĩa
Nhận xét, đánh giá
Chất lượng các hệ thống dịch tiếng Việt chưa tốt bởi một sốnguyên nhân: Phương pháp dịch chưa phù hợp và Kho ngữ liệu chưa đầyđủ
Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính bản dịch
2.2.3.1 Một số tồn tại đối với các phương pháp đánh giá chất lượng
Trang 12bản dịch
Đánh giá chất lượng các hệ thống dịch tự động bằng các phươngpháp và số đo nêu trên đã được nghiên cứu và áp dụng rộng rãi, tuy nhiêntrong một số trường hợp vẫn còn có những hạn chế
2.2.3.2 Đề xuất chỉ số đánh giá chất lượng Chỉ
Kết quả thực nghiệm cho thấy sự tương đồng giữa chỉ số T pe , O pe
với các chỉ số Edit Distance và Word Error Rate
2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn
Tổng quan
Các kho ngữ liệu tồn tại một cách rời rạc, có cấu trúc và địnhdạng rất khác nhau, dẫn đến việc sử dụng và khai thác chúng hiện nay làrất khó khăn Có nhiều kho ngữ liệu đã xây dựng nhưng không thể phục
vụ, chia sẽ cho việc nghiên cứu cũng như xử lý tiếng Việt
Các nghiên cứu liên quan cải tiến chất lượng kho ngữ liệu
2.3.2.1 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu theo khía
cạnh khối lượng
- Mở rộng kho ngữ liệu theo hướng ngôn ngữ
- Mở rộng theo hướng xây dựng và bổ sung dữ liệu
2.3.2.2 Tổng quan tình hình nghiên cứu mở rộng kho ngữ liệu về khía
cạnh chất lượng
Giải pháp nâng cao chất lượng kho ngữ liệu
2.3.3.1 Mở rộng khối lượng kho ngữ liệu
Nghiên cứu đề xuất một kho ngữ liệu gồm hai phần:Phần tiêu đề (header) chứa thông tin về ngữ liệu, ngôn