Danh mnc các chE viet tatH®i đong co van xu lý ngôn ngu tn đ®ng H¾ thong trích rút thu¾t ngu song ngu BLEU BiLingual Evaluation Understudy Chi so đánh giá chat lưong d%ch song ngu CNN Co
Trang 1ĐAI HOC QUOC GIA HÀ N®I TRƯèNG ĐAI HOC KHOA HOC TU NHIÊN
———————
NGUYEN TIEN HÀ
NGHIÊN CÚU XÂY DUNG TÀI NGUYÊN SONG NGU VIfiT-ANH ÚNG DUNG CHO D±CH MÁY THEO MIEN
LU¾N ÁN TIEN SĨ TOÁN HOC
Hà N®i - 2020
Trang 2ĐAI HOC QUOC GIA HÀ N®I TRƯèNG ĐAI HOC KHOA HOC TU NHIÊN
———————
NGUYEN TIEN HÀ
NGHIÊN CÚU XÂY DUNG TÀI NGUYÊN SONG NGU VIfiT-ANH ÚNG DUNG CHO D±CH MÁY THEO MIEN
Chuyên ngành: Cơ so toán HQc cho tin HQc
Mã so: 9460117.02
LU¾N ÁN TIEN SĨ TOÁN HOC
NGƯèI HƯéNG DAN KHOA HOC:
1 TS Nguyen Th% Minh Huyen
2 PGS.TS Nguyen HEu NgE
Trang 3LèI CAM ĐOAN
Tôi xin cam đoan các n®i dung trình bày trong lu¾n án này là ket qua nghiêncúu cna tôi, đưoc thnc hi¾n dưói sn hưóng dan cna TS Nguyen Th% Minh Huyen
và PGS TS Nguyen Huu Ngn Các n®i dung trích dan tù các nghiên cúu cnacác tác gia khác trình bày trong lu¾n án này đưoc ghi rõ nguon trong phan tàili¾u tham khao
Nguyen Tien Hà
Trang 4LèI CAM ƠN
Tôi xin gui lòi cam ơn sâu sac đen TS Nguyen Th% Minh Huyen và PGS.TS.Nguyen Huu Ngn đã trnc tiep hưóng dan, chi bao t¾n tình, luôn ho tro và taonhung đieu ki¾n tot nhat cho tôi trong quá trình HQc t¾p và nghiên cúu.
Tôi xin gui lòi cam ơn đen các thay/cô giáo o Khoa Toán - Cơ - TinHQc, Trưòng Đai HQc Khoa HQc Tn nhiên, Đai HQc Quoc gia Hà N®i, đ¾c bi¾t
là các thay/cô giáo o B® môn Tin HQc, nhung ngưòi đã trnc tiep giang day vàgiúp đõ tôi trong quá trình HQc t¾p và nghiên cúu o trưòng
Tôi xin gui cam ơn đen TS Nguyen Văn Vinh, PGS TS NguyenPhương Thái, PGS TS Phan Xuân Hieu Trưòng Đai HQc Công ngh¾, Đai HQcQuoc gia Hà N®i; TS Tran Th% Oanh khoa Quoc te, Đai HQc Quoc gia Hà N®i;PGS TS Lê Thanh Hương, TS Đo Th% NGQc Di¾p Trưòng Đai HQc Báchkhoa Hà N®i; PGS TS Đo Trung Tuan, TS Đo Thanh Hà, TS Lê HongPhương, PGS TS Lê TRQNG Vĩnh, TS Nguyen Th% Bích Thny, TS Vũ TienDũng Trưòng Đai HQc Khoa HQc Tn nhiên, Đai HQc Quoc gia Hà N®i, cácthay/cô đã có nhung góp ý chinh sua đe tôi hoàn thi¾n lu¾n án
Tôi xin gui lòi cam ơn đen tat ca anh, ch%, em o B® môn Tin HQc, Khoa Cơ-Tin HQc, Trưòng đai HQc khoa HQc Tn nhiên, Đai HQc Quoc gia HàN®i và B® môn Khoa HQc máy tính, Khoa Công ngh¾ thông tin, Trưòng Đai
Toán-HQc Công ngh¾, Đai HQc Quoc gia Hà N®i đã giúp đõ tôi trong thòi gian làmnghiên cúu sinh
Cuoi cùng, tôi xin gui lòi cam ơn đen tat ca các thành viên trong gia đình,các ban bè, đong nghi¾p nơi tôi công tác đã luôn nng h®, chia se, đ®ng viên vàkhích l¾ tôi HQc t¾p, nghiên cúu
Trang 5Mnc lnc
Ma
1 Tong quan ve d%ch máy và tài nguyên ngôn ngE 15
1.1 Tőng quan ve d%ch máy 15
1.1.1 L%ch su ve d%ch máy 16
1.1.2 Kien trúc cna h¾ thong d%ch máy 19
1.1.3 Các phương pháp d%ch máy 22
1.1.4 Các h¾ thong d%ch máy có the su dung đe thnc nghi¾m 30
1.1.5 Đánh giá các h¾ thong d%ch máy 32
1.2 Tài nguyên ngôn ngu cho h¾ thong d%ch máy 35
1.2.1 Tài nguyên đa ngu cho d%ch máy 35
1.2.2 Tài nguyên song ngu Vi¾t-Anh 38
1.3 Thích úng mien trong d%ch máy 41
1.4 Các công cu tien xu lý văn ban 43
1.5 Ket lu¾n chương 45
2 Xây dEng kho ngE li¾u song ngE Vi¾t - Anh dóng hàng mÉc câu theo mien 47 2.1 Xây dnng kho ngu li¾u song ngu Vi¾t-Anh theo mien 48 2.1.1 Phương pháp thu th¾p ngu li¾u song ngu và dóng hàng câu48
5
Trang 62.1.2 Xây dnng kho ngu li¾u song ngu Vi¾t - Anh mien du l%ch 49
2.2 Dóng hàng văn ban song ngu Vi¾t-Anh 52
2.2.1 Phương pháp dóng hàng văn ban song ngu múc câu 52
2.2.2 Cai tien công cu dóng hàng câu XAlign 54
2.3 Úng dung kho ngu li¾u du l%ch song ngu Vi¾t-Anh cho h¾ thong d %ch máy 64
2.3.1 Ket qua thnc nghi¾m 65
2.3.2 M®t so loi cna h¾ thong d%ch 68
2.4 Ket lu¾n chương 70
3 Xây dEng kho ngE li¾u tÈ, cnm tÈ song ngE Vi¾t-Anh 72 3.1 Xây dnng tn đ®ng kho tù vnng song ngu Vi¾t - Anh 73
3.1.1 Xây dnng kho tù vnng song ngu 73
3.1.2 Phương pháp xây dnng tn đ®ng tù vnng song ngu Vi¾t-Anh77 3.1.3 Phương pháp xây dnng tn đ®ng tù vnng song ngu Vi¾t- Anh mien du l%ch 79
3.1.4 Thnc nghi¾m và ket qua 84
3.2 Trích rút thu¾t ngu song ngu Vi¾t-Anh tù văn ban đơn ngu tieng Vi¾t dna vào t¾p lu¾t 88
3.2.1 Các công trình nghiên cúu có liên quan 90
3.2.2 Phương pháp trích rút thu¾t ngu song ngu Vi¾t-Anh tù văn ban đơn ngu tieng Vi¾t 93
3.2.3 Thnc nghi¾m 104
3.3 Ket lu¾n chương 106
4 Khai thác kho ngE li¾u song ngE Vi¾t-Anh cho d%ch máy 108 4.1 Tien xu lý du li¾u huan luy¾n trong d%ch máy nơ-ron 108
4.1.1 Phương pháp tien xu lý câu dài trong d%ch máy nơ-ron 110
4.1.2 Phương pháp trích rút cum tù ExtPhrase 112
6
Trang 74.1.3 Thnc nghi¾m và ket qua 1154.2 Phương pháp sinh tn đ®ng chú giai tieng Vi¾t cho hình anh 1194.2.1 Các công trình có liên quan đen sinh chú giai cho anh 1194.2.2 Đe xuat quy trình xây dnng h¾ thong sinh chú giai tieng
Vi¾t cho anh 1214.3 Ket lu¾n chương 128
Trang 8Danh mnc các chE viet tat
(H®i đong co van xu lý ngôn ngu tn đ®ng)
(H¾ thong trích rút thu¾t ngu song ngu)
BLEU BiLingual Evaluation Understudy
(Chi so đánh giá chat lưong d%ch song ngu)
CNN Convolutional Neural Network (Mang nơ-ron tích ch¾p)
DTW Dynamic Time Warping
(Thu¾t toán căn chinh thòi gian đ®ng)
GRU Gated Recurrent Unit (Đơn v% hoi quy cőng)
LSTM Long Short Term Memory (B® nhó dài ngan han)
MI Mutual Information (Thông tin tương ho)
NLP Natural Language Processing (Xu lý ngôn ngu tn nhiên)
NMT Neural Machine Translation (D%ch máy mang nơ-ron)
OPUS The open parallel corpus (Kho ngu li¾u song song mo)
PBSMT Phrase-Based Statistical Machine Translation
(D%ch máy dna trên cum tù)
PER Position-independent word Error Rate (Ty l¾ loi tù đ®c l¾p v% trí)
RNN Recurrent Neural Network (Mang nơ-ron hoi quy)
SMT Statistical Machine Translation (D%ch máy thong kê)
SALM Suffix Array tool kit for empirical Language Manipulations
(Công cu LQc bang cum tù trong Moses)
Trang 9TER Translation Error Rate (Ty l¾ loi d%ch)
TV Television (Truyen hình)
VLSP Vietnamese Language Speech
Processing (Xu lý ngôn ngu và tieng nói tieng Vi¾t)
WER Word Error Rate (Ty l¾ loi tù)
Trang 10Danh sách hình ve
1.1 Tam giác Vauquois 20
1.2 Mô hình d%ch trnc tiep 21
1.3 Mô hình d%ch qua ngôn ngu trung gian 22
1.4 Mô hình d%ch máy thong kê 24
1.5 Cau trúc cna h¾ thong d%ch máy dna trên mang nơ-ron 27
1.6 Cau trúc cna h¾ thong d%ch máy MOSES 30
3.1 Phương pháp xây dnng tn đ®ng tù vnng Vi¾t-Anh 77
3.2 Phương pháp xây dnng tn đ®ng tù đien Vi¾t-Anh mien du l%ch 82
3.3 Mô hìn h trí c h rú t t h u ¾ t ng u song ng u Vi¾t-An h t ù v ă n ba n tieng Vi¾t 94
3.4 Mô hình áp dung các lu¾t đe lna ch QN các úng viên là thu¾t ngu
song ngu Vi¾t-Anh 98
4.1 Mô hình chú ý toàn cuc 111
4.2 Mô hình chú ý cuc b® 111
4.3 Mô hình tien xu lý câu dài hơn 30 tù trong huan luy¾n h¾ thong d%ch máy 113
4.4 Điem BLEU cna các h¾ thong theo đ® dài tù tieng Vi¾t đưoc coi là câu tieng Vi¾t dài 118
4.5 Mô hình chú giai tieng Vi¾t cho anh 123
4.6 So sánh chat lưong d%ch máy vói Google 125
Trang 11Danh sách bang
2.1 Kích thưóc kho ngu li¾u song ngu Vi¾t-Anh mien du l%ch thu th¾p
đưoc 51
2.2 Giá tr% penalty cho moi kieu dóng hàng 62
2.3 Dóng hàng trên kho ngu li¾u Vi¾t-Anh "Le Petit prince" 63
2.4 Dóng hàng trên kho ngu li¾u du l%ch Vi¾t-Anh 63
2.5 Điem BLEU cna 6 h¾ thong d%ch 67
2.6 Điem BLEU cna 17 H¾ thong d%ch máy khi d%ch các t¾p kiem tra gom 10 000 câu tieng Vi¾t sang tieng Anh, so vói H¾ thong d%ch máy Google Translate năm 2017 69
3.1 Tù đien song ngu Vi¾t-Anh trích rút tù kho ngu li¾u gom 600 389
c¾p câu song ngu Vi¾t – Anh 86
3.2 Tù đien song ngu Vi¾t-Anh mien du l%ch trích rút tù kho ngu li¾u CorTurism3 86
3.3 Ket qua tra m®t so tù trong tù đien đưoc xây dnng bang phương pháp đe xuat 87
3.4 Thong kê ve trích rút úng viên thu¾t ngu 104
3.5 So úng viên thoa mãn tùng lu¾t trên kho ngu li¾u y te 105
3.6 So lan áp dung lu¾t trên du li¾u Wikipedia 105
3.7 Đánh giá ket qua các c¾p thu¾t ngu thu đưoc 105
3.8 Phân tích ket qua tù các c¾p thu¾t ngu đưoc trích rút 106
Trang 124.1 Thong kê kho ngu li¾u song ngu 116
4.2 Ket qua trích rút c¾p cum tù song ngu 116
4.3 Ket qua tien xu lý câu dài trong d%ch máy nơ-ron 117
4.4 Chat lưong d%ch cna 499 câu tieng Vi¾t dài hơn 30 tù 119
4.5 Điem BLEU cna các h¾ thong khi d%ch 500 câu chú giai anh tù tieng Anh sang tieng Vi¾t 125
4.6 Điem BLEU cna h¾ thong d%ch 500 câu chú giai anh tù tieng Anh sang tieng Vi¾t su dung ky thu¾t xu lý tù mói 128 4.7 M®t so ket qua cna h¾ thong chú giai hình anh bang tieng Vi¾t 130
Trang 13Me ĐAU
Tù xa xưa, con ngưòi đã có mong ưóc dùng máy móc đe d%ch văn ban tù ngônngu này sang ngôn ngu khác Đ¾c bi¾t trong giai đoan hi¾n nay, các nưóc đeu có
xu hưóng h®i nh¾p quoc te sâu r®ng Trong quá trình h®i nh¾p, con ngưòi luôn
có mong muon nam bat các thông tin đưoc viet tù các ngôn ngu khác nhau m®tcách nhanh chóng, do đó rat can đen sn tro giúp cna các h¾ thong d%ch máy.Ngày nay, vói sn ho tro manh me cna phan cúng máy tính và Internet, d%chmáy đã cho ket qua d%ch có the chap nh¾n đưoc và nhieu úng dung d%ch đã đưocđưa vào su dung: d%ch tieng nói; d%ch tn đ®ng giua nhieu ngôn ngu khác nhau(Google Translate ho tro d%ch giua hơn 100 thú tieng khác nhau); d%ch các phu
đe phim; d%ch các trang Web; Chat lưong d%ch máy ngày càng đưoc cai thi¾n,húa hen se mang đen nhieu úng dung trong nhieu lĩnh vnc khác nhau
Trong nghiên cúu xây dnng h¾ thong d%ch máy, có m®t so hưóng tiepc¾n khác nhau, như: D%ch dna trên lu¾t, d%ch dna trên thong kê; d%ch dna vàomang nơ-ron; d%ch dna trên cơ so tri thúc Trong các hưóng tiep c¾n này, tiepc¾n d%ch máy dna vào mang nơ-ron đưoc đánh giá là có ưu the vưot tr®i vàđưoc kỳ vQng là thu hep khoang cách ngôn ngu giua con ngưòi và máy tính[116]
Các h¾ thong d%ch máy, đ¾c bi¾t là h¾ thong d%ch máy dna vào thong kê haydna vào mang nơ-ron, rat can đen m®t kho ngu li¾u song ngu kích thưóc lón
và có chat lưong đe huan luy¾n và nâng cao chat lưong d%ch Đã có nhieu côngtrình nghiên cúu, đe xuat phương pháp xây dnng kho ngu li¾u song ngu cho cácc¾p ngôn ngu Ban đau, các công trình t¾p trung vào nghiên cúu xây dnng khongu li¾u cho tùng c¾p ngôn ngu đơn le:
Công trình cna Resnik năm 1999 [87] đã xây dnng đưoc kho ngu li¾u songngu Anh-Pháp vói 2.491 c¾p văn ban, xap xi 1, 5 tri¾u tù trên moi văn ban
Trang 14Công trình cna Chang Baobao năm 2004 [10] đã xây dnng đưoc kho ngu li¾uvói
Trang 15400.0 c¾p câu Công trình cna Megyesi và c®ng sn năm 2006 [12] đã xây dnng đưoc
kho ngu li¾u xap xi 15.000 tù tieng Thuy Đien và 10.000 tù tieng Thő Nhĩ Kỳ.Các công trình nghiên cúu xây dnng kho ngu li¾u song ngu gan đây t¾p trungvào xây dnng kho ngu li¾u song song đa ngôn ngu vói kích thưóc lón:
1.Công trình cna Tiedemann năm 2016 [50], xây kho ngu li¾u OPUS dóng hàng múc câu vói trên 60 ngôn ngu có tőng so 2,6 ty c¾p câu Du li¾u trong kho OPUS (The open parallel corpus) đưoc thu th¾p tù Internet và chn yeu là tù phu đe phim anh và phu đe trên các chương trình TV
(Television) OPUS đưoc xây dnng dna trên các công cu mã nguon mo và chia se trong c®ng đong nghiên cúu
2.Công trình cna Abate và c®ng sn năm 2018 [98] xây dnng đưoc kho ngu li¾u song song cho 7 c¾p ngôn ngu: (i)Amharic - Tigrigna: 34.349 c¾p câu; (ii)Amharic - Afan Oromo: 11.457 c¾p câu; (iii) Tigrigna - Afan Oromo: 10.987c¾p câu; (iv) Amharic - Wolaytta: 9.400 c¾p câu; (v) Ge’ez - Amharic:
11.546 c¾p câu; (vi)Wolaytta - Afan Oromo: 2.923 c¾p câu; (vii)Tigrigna -
Wolaytta: 2.504 c¾p câu
3.Công trình cna Kenji Imamura và Eiichiro Sumita năm 2018 [55] đã xây dnng kho ngu li¾u song song cna 10 ngôn ngu vói kích thưóc lón: (i) Tieng Nh¾t: 2.029.111 câu; (ii) Tieng Anh: 2.029.111 câu; (iii) Tieng Trung:
2.026.608 câu; (iv) Tieng Hàn Quoc: 2.026.608 câu; (v) Tieng Thái: 1.150.070
câu; (vi) Tieng Vi¾t: 1.150.070 câu; (vii) Tieng In-đô-nê-xi-a: 1.150.070 câu;(vii) Tieng Ma-lai-xi-a: 1.150.070 câu; (ix) Tieng Tây Ba Nha: 337.654 câu;(x) Tieng Pháp 340.499 câu
Đoi vói tieng Vi¾t, đã có các đe tài, công trình nghiên cúu xây dnng kho ngu li¾u song ngu Anh-Vi¾t như:
Trang 161.Kho ngu li¾u trong đe tài VLSP (Vietnamese Language Speech
Processing) nhánh đe tài xu lý văn ban1 có 100.000 c¾p câu song ngu Vi¾t và đã đưoc chia se cho c®ng đong nghiên cúu
Anh-2.Kho ngu li¾u trong công trình "Trích rút văn ban song ngu tù trang Web" năm 2010 cna Lê Quang Hùng và Lê Anh Cưòng [59] có trên 35.000 c¾p câu
3.Kho ngu li¾u trong công trình "Kho ngu li¾u song ngu Anh - Vi¾t EVB- Corpus cho nghiên cúu các tác vu trong Ngôn ngu HQc so sánh" năm 2013 cna Ngô Quoc Hùng và C®ng sn [75] e công trình này, nhóm tác gia đã xây dnng đưoc kho ngu li¾u song ngu Anh-Vi¾t 800.000 c¾p câu, trong đó
có trên 45.000 c¾p câu đưoc dóng hàng múc tù
4.Kho ngu li¾u trong công trình ve xây dnng kho ngu li¾u song song đa ngôn ngu cho 10 c¾p ngôn ngu cna các tác gia Tri¾u Hai Long và Nguyen
Lê Minh năm 2017 [104] có kích thưóc hơn 1, 1 tri¾u c¾p câu
5.Kho ngu li¾u trong công trình cna các tác gia Ngô Quoc Hùng công bo năm
2018 vói trên 2 tri¾u c¾p câu song ngu Anh-Vi¾t và trên 20 tri¾u c¾p tù song ngu 2
Liên quan đen xây dnng kho ngu li¾u trên the giói và o Vi¾t Nam gan đây,các nhà nghiên cúu t¾p trung vào xây dnng kho ngu li¾u song song đa ngônngu vói kích thưóc lón [104] [55] [41] Khó khăn mà hau het các công trìnhnghiên cúu xây dnng kho ngu li¾u song song đang phai đoi m¾t là sn thieu tàinguyên song ngu và chưa t¾n dung đưoc het các dang tài nguyên Ngoài ra cáccông trình chi t¾p trung vào ky thu¾t khai phá mien chung và chưa nghiên cúucác ky thu¾t khai phá du li¾u theo mien cu the
Các nguon văn ban song ngu san có cho tieng Vi¾t và m®t ngôn ngu khácnhư c¾p ngôn ngu Vi¾t-Anh von còn han che, nên vi¾c xây dnng kho ngu li¾u
1 https://vlsp.hpda.vn/demo/?page=resources
2 https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus
Trang 17song ngu Vi¾t-Anh kích thưóc lón là m®t van đe khó khăn Do đó chat lưong d
%ch máy Vi¾t-Anh còn chưa cao
Bên canh đó, mien du li¾u huan luy¾n h¾ thong d%ch máy cũng có anh hưongđen chat lưong cna các h¾ thong d%ch máy Công trình nghiên cúu cnaKoehn và c®ng sn năm 2017 ve 6 thách thúc đoi vói h¾ thong d%ch máy nơ-ron[85] đã chi ra h¾ thong d%ch máy nơ-ron b% giam chat lưong khi d%ch các vănban ngoài mien huan luy¾n h¾ thong Đe khac phuc han che này, các nhànghiên cúu su dung phương pháp thích úng mien trong đó các kho ngu li¾u songngu theo mien đóng vai trò quan TRQNG [89 ] [52 ] [102 ] [119 ] [53 ] [24]
Du l%ch là m®t lĩnh vnc ưu tiên phát trien tai Vi¾t Nam Lưong khách nưócngoài đen Vi¾t Nam ngày càng tăng Theo thong kê cna Tőng cuc Du l%ch Vi¾tNam, lưong khách quoc te đen Vi¾t Nam năm 2019 là 1.809.580 lưot.3 Nhu caud%ch tn đ®ng Vi¾t-Anh trong lĩnh vnc du l%ch do v¾y cũng rat lón
Trong thòi gian gan đây, tình hình ve b¾nh d%ch và sn xuat hi¾n các loai b¾nhmói ngày m®t nhieu, dan đen nhu cau tìm hieu và tra cúu các văn ban thu®cmien y te ngày càng cao Do đó h¾ d%ch Anh-Vi¾t có chat lưong trong lĩnh vnc
y te đe ho tro nhu cau này đang tro nên can thiet Vì v¾y vi¾c khai phá du li¾u
đe xây dnng kho ngu li¾u song ngu mien y te can đưoc quan tâm
Tù nhung lý do nêu trên, lu¾n án nghiên cúu xây dnng kho ngu li¾u song nguVi¾t-Anh theo mien cho các h¾ thong d%ch máy và mien du li¾u đưoc ưu tiênxây dnng là du l%ch và y te
Muc tiêu cu the cna lu¾n án:
•Xây dnng kho ngu li¾u song ngu Vi¾t-Anh có dóng hàng cho d%ch máy theo mien
•Nghiên cúu các phương pháp nâng cao hi¾u suat cna kho ngu li¾u song ngu Vi¾t-Anh trong d%ch máy
3 h ttp : // vietna m tourism.g o v.vn/index.php/statistic/i n ternational
17
Trang 18Đe thnc hi¾n các muc tiêu này, lu¾n án trien khai thnc hi¾n các n®i dung sau:
1.Thu th¾p du li¾u song ngu Vi¾t-Anh mien chung (các văn ban chúa n®i dung cna nhieu lĩnh vnc khác nhau) và các mien cna tùng lĩnh vnc, trong
đó mien du l%ch và mien y te đưoc ưu tiên
2.Nghiên cúu nâng cao hi¾u qua công cu dóng hàng câu cho c¾p ngôn ngu Vi¾t-Anh và xây dnng kho ngu li¾u song ngu Vi¾t-Anh theo mien
3.Nghiên cúu đe xuat các phương pháp trích rút tn đ®ng các c¾p tù, cum tù song ngu đe xây dnng kho ngu li¾u tù và cum tù song ngu Vi¾t-Anh
4.Nghiên cúu m®t so ky thu¾t khai thác kho ngu li¾u song ngu Vi¾t-Anh thu th¾p đưoc trong d%ch máy
Lu¾n án đat đưoc các ket qua sau:
1.Lu¾n án đã đe xuat ky thu¾t cai tien công cn dóng hàng XAlign cho c¾p
ngôn ngu Vi¾t-Anh.4 Su dung công cu dóng hàng này lu¾n án đã thu th¾p
và xây dnng đưoc: trên 20.000 c¾p câu mien du l%ch5; trên 270.000 c¾p câumien chung 6 Ket qua này đưoc công bo trong [CT1].
2.Lu¾n án đã đe xuat và trien khai các phương pháp trích rút tù và cnm tù
song ngu tù kho ngu li¾u song ngu và kho ngu li¾u đơn ngu Tù đó đã xây
dnng đưoc kho ngu li¾u trên 40.000 c¾p tù và cum tù song ngu, bao gom:trên 1.000 c¾p cho mien du l%ch,7 trên 600 c¾p cho mien y te, 8 còn lai thu®cmien chung.9 Các ket qua liên quan đưoc công bo trong [CT3] và [CT4].
3.Lu¾n án đã đe xuat ky thu¾t tien xu lý câu dài trong d%ch máy nơ-ron cai
thi¾n chat lưong d%ch Ket qua này đưoc công bo trong [CT2].
Trang 194.Lu¾n án trien khai m®t phương pháp sinh chú giai tieng Vi¾t tn đ®ng cho hình anh dna vào d%ch máy Anh-Vi¾t Đe nâng cao chat lưong d%ch, lu¾n án
đã đe xuat m®t ky thu¾t khai thác tù dien đe xu lý các tù mói (unknown
words) đoi vói h¾ thong d%ch Ket qua này đưoc trình bày trong [CT6]
[CT7].
Cau trúc lu¾n án
Sau phan mo đau, n®i dung chính cna lu¾n án bao gom 4 chương
•Chương 1: Giói thi¾u tőng quan ve d%ch máy và tài nguyên ngôn ngu Trongchương này, lu¾n án trình bày các hưóng tiep c¾n cna d%ch máy, đ® đo dùngtrong đánh giá chat lưong các h¾ thong d%ch máy và vai trò cna kho nguli¾u song ngu
•Chương 2: T¾p trung vào van đe xây dnng kho ngu li¾u song ngu Vi¾t-Anh
có dóng hàng múc câu Đóng góp chính cna chương này là đe xuat cai tiencông cu dóng hàng câu cho c¾p ngôn ngu Vi¾t-Anh Bên canh đó là vi¾cxây dnng kho ngu li¾u song ngu Vi¾t-Anh trên mien du l%ch
•Chương 3: Trình bày m®t so phương pháp xây dnng kho ngu li¾u tù, cum
tù song ngu Vi¾t-Anh, tù kho ngu li¾u song ngu Vi¾t-Anh có dóng hàngmúc câu và tù văn ban đơn ngu tieng Vi¾t
•Chương 4: Trình bày hai ky thu¾t nâng cao chat lưong h¾ thong d%ch máy ron Ky thu¾t thú nhat là thnc hi¾n tien xu lý câu dài đe làm giàu mô hình d
nơ-%ch Ky thu¾t thú hai là khai thác tù đien đe xu lý các tù mói đoi vói h¾thong d%ch, ky thu¾t này đã đưoc úng dung trong h¾ thong d%ch tn đ®ngchú giai anh tù tieng Anh sang tieng Vi¾t
Phan ket lu¾n: Trình bày tóm lưoc các ket qua và đóng góp cna lu¾n án đongthòi nêu ra nhung han che và hưóng phát trien cna lu¾n án
Trang 20Chương 1
Tong quan ve d%ch máy và tài
nguyên ngôn ngE
Chương này trình bày tőng quan ve d%ch máy và tài nguyên ngôn ngu đưoc
su dung trong d%ch máy: l%ch su ve d%ch máy; kien trúc cna h¾ thong d%ch máy;các hưóng tiep c¾n cna d%ch máy; đánh giá h¾ thong d%ch máy; tài nguyên ngônngu và tài nguyên ngôn ngu cho các h¾ thong d%ch máy; thích úng mien trong d
%ch máy và các công cu tien xu lý văn ban tieng Vi¾t Chúng tôi phân tích, đánhgiá các công trình nghiên cúu liên quan, đưa ra van đe còn ton tai mà lu¾n án segiai quyet
1.1 Tong quan ve d%ch máy
D%ch máy là gì?
D%ch máy là m®t h¾ thong su dung máy tính đe chuyen đői văn ban đưoc viettrong ngôn ngu tn nhiên này thành ban d%ch tương đương trong ngôn ngu khác.Ngôn ngu cna văn ban can d%ch còn GQI là ngôn ngu nguon, ngôn ngu cna band%ch đưoc GQI là ngôn ngu đích
Trang 211.1.1 L%ch sE ve d%ch máy
Mơ ưóc ve vi¾c có the hieu ngôn ngu cna dân t®c khác cna con ngưòi đã có
tù rat lâu, tù the ky 17 nhieu nhà nghiên cúu đã có nhung no lnc đau tiên trongvi¾c xây dnng m®t cách bieu dien chung cho tat ca các ngôn ngu
Năm 1933 có hai phát minh đưoc cap bang sáng che liên quan đen vi¾c xâydnng các thiet b% d%ch ngôn ngu [48]:
1.Tác gia George Artsrouni đã thiet ke m®t thiet b% lưu tru có the tìm kiem nhanh chóng các c¾p tù - giai nghĩa cna hai c¾p ngôn ngu bat kỳ
2.Tác gia Petr Smirnov Troyanskii đã thiet ke m®t thiet b% d%ch máy gom 3 công đoan: Phân tích câu nguon, chuyen đői tù ngu và sinh câu đích Thiet
ke cna Troyanskii tuy chưa bao giò tro thành hi¾n thnc nhưng nó là ý tưong
cơ ban cho nhieu loai máy d%ch đưoc thiet ke sau này
Đen cuoi năm 1940 khi máy tính đưoc phát minh và úng dung thành côngtrong vi¾c giai m¾t mã, nhieu ngưòi đã nghĩ đen kha năng úng dung máy tínhtrong vi¾c d%ch vói quan điem coi vi¾c d%ch tù m®t ngôn ngu bat kỳ sang tiengAnh tương tn như vi¾c giai mã m®t văn ban tieng Anh đưoc viet bang m®t loaim¾t mã nào đó Van đe d%ch máy đưoc Warren Weaver đưa ra năm 1949 [110].Nhung chương trình d%ch tn đ®ng đau tiên đơn gian chi su dung phương pháp d
%ch tù sang tù đã cho nhung ket qua còn han che vì tù ngu có nghĩa khác nhau trongnhung ngu canh khác nhau
Năm 1966 tai Hoa Kỳ, H®i đong co van xu lý ngôn ngu tn đ®ng ALPAC(Automatic Language Processing Advisory Committee) đã soan m®t báo cáonh¾n đ%nh rang không the xây dnng m®t h¾ thong d%ch tn đ®ng có hi¾u qua[49] Sau báo cáo này, các chính phn đã không còn tro cap cho các chương trìnhnghiên cúu ve d%ch máy và các chương trình này cũng cham dút Vi¾c nghiêncúu và phát trien d%ch máy chi vói m®t vài hoat đ®ng cna các cá nhân và tő chúc
Trang 22nho bên ngoài nưóc Hoa Kỳ Tuy nhiên các đau tư cho d%ch máy trong lĩnh vncquân sn van đưoc tiep tuc như h¾ thong d%ch Nga-Anh cna không lnc Hoa Kỳ,h¾ Mark II đưoc phát trien tù năm 1964.
Đen đau nhung năm 1970, sau m®t so thành công trong nghiên cúu ve lýthuyet xu lý ngôn ngu tn nhiên và súc manh cna máy tính cũng tăng lên đáng
ke, nhieu trung tâm nghiên cúu bat đau quay lai đau tư vào d%ch máy
Năm 1979 [117], Yorick Wilks giói thi¾u m®t h¾ thong d%ch tn đ®ng Pháp cho ket qua khá tot Đe đat đưoc thành qua này, h¾ thong cna Wilks đã sudung các tri thúc có tính “khái ni¾m” trong vi¾c d%ch thu¾t Ví du: Tù “drink”không đơn thuan là đ®ng tù “uong”, trong h¾ thong cna Wilks, tù “drink” gomnhung khái ni¾m như “đ®ng tù có tính hoat đ®ng”, “có liên h¾ đen nhung chatlong”, Nhung tri thúc như v¾y giúp cho h¾ thong cna Wilks biet đưoc moi liênh¾ giua các tù trong câu và tù đó xác đ%nh đưoc nghĩa chính xác hơn, phù hop vóingu canh hơn
Anh-Đen năm 1990, vói sn phát trien manh me cna Internet, nhu cau trao đőithông tin bùng nő cùng vói sn tích lũy kien thúc ve m¾t ngôn ngu, súc manhcna máy tính tăng lên và có nhieu ket qua mói ve m¾t lý thuyet, cho nên vi¾cphát trien các h¾ thong d%ch tn đ®ng tro nên rat can thiet D%ch máy đã bưócsang m®t giai đoan phát trien mói, đat đưoc nhieu thành tnu Các phương pháp d
%ch áp dung các ky thu¾t khai phá tri thúc tù kho ngu li¾u, đieu mà trưóc kia chưathe thnc hi¾n đưoc do kha năng han che cna máy tính, đieu này đã làm thay đőihoàn toàn các phương pháp d%ch truyen thong và mang lai chat lưong cho các h¾thong d%ch Trong giai đoan này, xuat hi¾n m®t so h¾ thong d%ch máy có chatlưong:
•Năm 2005: Xuat hi¾n trang Web d%ch tn đ®ng đau tiên cna Google.1
• Năm 2006: H¾ thong d%ch máy METIS-II đưoc su dung, đó là h¾ thong d%ch
1 https://translate.google.com.vn/
Trang 23máy ket hop các ưu điem giua d%ch máy thong kê, dna vào ví du và dnatrên t¾p lu¾t [109].
Đen ngày nay, chat lưong cna nhieu h¾ thong d%ch đã o múc chap nh¾n đưoc
và m®t so các úng dung d%ch tn đ®ng đã đi vào cu®c song Theo ưóc tính cnaJohn Hutchins, vào năm 2001, có khoang 1.000 phan mem d%ch tn đ®ng cácngôn ngu đưoc bán trên th% trưòng Tiêu bieu nhat trong thòi điem hi¾n nay
là các máy chn d%ch tn đ®ng trên Internet: Google Translate1, Bing MicrosoftTranslator2
e Vi¾t Nam, đã có m®t so nhóm nghiên cúu xây dnng h¾ thong d%ch máytrên các c¾p ngôn ngu khác nhau Đien hình là m®t so nghiên cúu sau:
•Dn án nghiên cúu ve vi¾c HQc lu¾t chuyen đői tù ngu li¾u song ngu cnanhóm nghiên cúu cna Đinh Đien Trưòng Đai HQc Khoa hQc Tn nhiên - Đai
HQc Quoc gia thành pho Ho Chí Minh, năm 2005
•Đe tài nghiên cúu phương pháp phân tích cú pháp có xác suat đe d%ch vănban Anh-Vi¾t, Vi¾t-Anh cna nhóm nghiên cúu cna PGS.TS Phan Th% Tươi,trưòng Đai HQc Bách khoa Ho Chí Minh.
•Dn án ERIM cna trưòng Đai HQc Bách khoa Đà Nang ket hop vói GETA Đai HQc Bách khoa Grenoble ve nghiên cúu thu nghi¾m h¾ d%ch máy Anh-Vi¾t, Pháp-Vi¾t cna Đoàn Nguyên Hai tai LATL
-•Nhóm nghiên cúu cna TS Lê Khánh Hùng - Vi¾n nghiên cúu úng dungcông ngh¾, B® khoa HQc công ngh¾, năm 2005 H¾ thong d%ch máy này đãđưoc đưa thành san pham thương mai vói tên ban đau cna h¾ thong làEVTRAN Hi¾n nay h¾ thong có tên là EV-shuttle 4.0 Full
•Đe tài nghiên cúu xây dnng h¾ d%ch tn đ®ng văn ban tieng Vi¾t ra tieng nóitieng Mưòng, hưóng đen áp dung cho các ngôn ngu dân t®c thieu so chưa có
2 https://www.bing.com/translator
Trang 24chu viet o Vi¾t Nam cna TS Mac Đăng Khoa tai Vi¾n Nghiên cúu quoc te
ve Thông tin đa phương ti¾n, Truyen thông và Úng dung (MICA),Trưòng Đai HQc Bách Khoa Hà N®i, năm 2017
Hi¾n nay, các nghiên cúu đe nâng cao chat lưong h¾ thong d%ch máy van đangđưoc các nhóm nghiên cúu tien hành Trong đó phương pháp d%ch máy dna trênmang nơ-ron là m®t hưóng tiep c¾n đưoc xem là có ưu the hơn han so vói cáchưóng tiep c¾n d%ch máy khác
1.1.2 Kien trúc cua h¾ thong d%ch máy
Có ba hưóng tiep c¾n cơ ban đưoc su dung đe phát trien các h¾ thong d%chmáy:
1.D%ch trnc tiep;
2.D%ch chuyen
đői;
3.D%ch qua ngôn ngu trung gian
Moi phương pháp có ưu và nhưoc điem riêng Hình 1.1 là sơ đo cna BernardVauquois [13] tóm tat kien trúc cna các h¾ thong d%ch máy theo ba hưóng tiepc¾n trên
1.1.2.1 D%ch trEc tiep
Theo hưóng tiep c¾n này, h¾ thong se d%ch bang cách thay the m®t cách đơngian nhung tù ho¾c cum tù trong ngôn ngu nguon bang nhung tù ho¾c cum tùtương úng trong ngôn ngu đích Đ¾c điem cna hưóng tiep c¾n d%ch này là đơngian, nhanh, không can phân tích cú pháp sâu, thích hop cho nhung văn ban d
%ch có khoi lưong tù vnng nho và so dang câu giói han Nó thích hop đoi vói cácngôn ngu cùng loai hình, có sn tương úng 1-1 ve tù vnng, ngu pháp, changhan như: tieng Pháp và tieng Anh Nhưng chúng g¾p phai khó khăn khi d%ch
Trang 25Hình 1.1: Tam giác Vauquois
c¾p ngôn ngu khác nhau ve loai hình, như: tieng Anh (loai hình bien cách: Tùbien đői hình thái) và tieng Vi¾t (loai hình đơn l¾p: Tù không bien đői hìnhthái) Mô hình d%ch theo hưóng tiep c¾n d%ch này đưoc the hi¾n trong Hình1.2
1.1.2.2 D%ch chuyen đoi
Tiep c¾n theo hưóng d%ch chuyen đői đưoc thnc hi¾n theo 3 bưóc:
•Bưóc 1: Chuyen văn ban o ngôn ngu nguon thành m®t dang bieu dien trunggian, thưòng là cây phân tích cú pháp
•Bưóc 2: Chuyen các bieu dien trung gian này, thành dang văn ban tương úng trong ngôn ngu đích
•Bưóc 3: Sinh ra văn ban o ngôn ngu đích
Trong hưóng tiep c¾n d%ch chuyen đői, văn ban nguon đưoc phân tích thànhm®t dang bieu dien nào đó, mà van mang đay đn các đ¾c tính cna nó Bieu diennày có the nam trong pham vi tù cú pháp đen ngu nghĩa
Trang 26Hình 1.2: Mô hình d%ch trnc tiep
1.1.2.3 D%ch qua ngôn ngE trung gian
Theo hưóng tiep c¾n này, h¾ thong se chuyen đői văn ban tù ngôn ngunguon thành văn ban o ngôn ngu trung gian hay còn GQI là liên ngôn ngu, sau
đó thnc hi¾n vi¾c chuyen văn ban tù ngôn ngu trung gian thành văn ban
o ngôn ngu đích Mô hình cna hưóng tiep c¾n này đưoc the hi¾n trong hình1.3
M®t liên ngôn ngu lý tưong phai là m®t sn bieu dien đ®c l¾p vói mQIngôn ngu tn nhiên và bieu dien đưoc MQI sn khác bi¾t ve ý nghĩa đenmúc tinh te nhat cna MQI ngôn ngu có trong h¾ d%ch đó Ví du: tieng Vi¾t
phân bi¾t các tù: lúa, thóc, gao, cơm, còn tieng Anh thì không Tương tn, tieng Anh thì phân bi¾t các tù : remember, miss, còn tieng Vi¾t thì chi dùng tù nhá Chính vì v¾y, vi¾c xây dnng m®t h¾ liên ngôn ngu đn manh đe
bieu dien tat ca các thông tin cna MQI ngôn ngu có the có, cùng vói b® phângiai và b® tao sinh thích hop là m®t vi¾c vô cùng phúc tap mà đen nay vanchưa thnc hi¾n đưoc
Các phương pháp d%ch máy hi¾n nay chn yeu đưoc xây dnng theo kien trúc d
%ch chuyen đői
Trang 27Hình 1.3: Mô hình d%ch qua ngôn ngu trung gian
1.1.3 Các phương pháp d%ch máy
Có rat nhieu phương pháp khác nhau trong d%ch máy, moi phương pháp đeucho thay ưu và nhưoc điem cna nó đoi vói tùng c¾p ngôn ngu cu the Sau đây
là m®t so phương pháp trong d%ch máy
1.1.3.1 D%ch máy dEa trên lu¼t
Đây là phương pháp truyen thong xuat phát tù cách làm cna các h¾ lu¾t dantrong h¾ chuyên gia o lĩnh vnc trí tu¾ nhân tao [23] [9] Trong xu lý ngôn ngu
tn nhiên thì các lu¾t dan này thưòng đưoc các chuyên gia ngôn ngu xây dnngthn công Ví du đe phân tích cú pháp, ngưòi ta đã xây dnng các lu¾t văn phamnhư:
•S
→
−
NP VP
Trang 28•NP
→− NounDet NounDet Adj Noun
Trang 29•VP
→−
•
ViVt NP
Đoi vói khoi chuyen đői cú pháp, ngưòi ta cũng dùng các lu¾t chuyen đői co đ
%nh, chang han đoi vói d%ch Anh - Vi¾t, m®t trong nhung lu¾t đó là:
“Neu câu nguon đưac phân tích là NP
→−
Det Adj Noun thì câu đích se đưac
chuyen thành NP
Đoi vói khoi xu lý ngu nghĩa, ngưòi ta cũng dùng các lu¾t phong đoán, như:
“Neu đ®ng tù = ăn
Tương tn đoi vói các công vi¾c khác cna h¾ d%ch; chúng đeu dna vào các lu¾t
do chính con ngưòi tao ra và đưa vào máy
Vi¾c xây dnng m®t h¾ các lu¾t như the đòi hoi công súc rat lón và nhieu khilai không bao quát het MQI trưòng hop Tuy nhiên, trong m®t mien giói han, thìphương pháp này to ra hi¾u qua và chúng ta hoàn toàn làm chn đưoc ket quad%ch (nghĩa là tat ca các câu thoa mãn các lu¾t đã đưoc xây dnng thì se đưocphân tích và d%ch tot) Đe bao quát het các hi¾n tưong ngôn ngu, ngưòi ta nghĩrang cú vi¾c thêm nhieu lu¾t vào, nhưng mà trái lai càng khien cho h¾ sinh racàng nhieu cây cú pháp úng vói m®t câu nguon nh¾p vào Ket qua là h¾ thongkhông biet cHQN cây cú pháp nào Ngoài ra, m®t khi so lu¾t tăng lên se khiencho chính ngưòi thiet ke lu¾t khó kiem soát đưoc tính hop lý cna tat ca các lu¾t
mà mình đã tao ra và chac chan se có nhung lu¾t thùa, nhung lu¾t mâu thuannhau
Vói phương pháp d%ch máy dna trên lu¾t, chúng ta có the xây dnng đưoc m®th¾ thong ban đau m®t cách de dàng, nhưng càng ve sau, khi quy mô tăng lên thìchúng tro nên khó kiem soát, th¾m chí chúng có the làm cho máy tính phai xu
lý m®t cách phúc tap Cách này có ưu điem là dna trên lý thuyet ngôn ngu HQc,
Trang 30vì v¾y nó giai quyet đưoc hau het các hi¾n tưong cot lõi cna ngôn ngu, nhưngchúng lai không giai quyet đưoc các hi¾n tưong phu (nhung trưòng hop ngoai l¾
Trang 31Hình 1.4: Mô hình d%ch máy thong kê
mà không tuân theo lu¾t chính)
1.1.3.2 D%ch máy thong kê
D%ch máy thong kê (Statistical Machine Translation - SMT) là m®t phươngpháp d%ch máy, trong đó các ban d%ch đưoc tao ra trên cơ so các mô hình thong
kê có các tham so đưoc xác đ%nh tù vi¾c phân tích các c¾p câu song ngu tù khongu li¾u song ngu
Thay vì xây dnng các tù đien, các quy lu¾t d%ch thn công như trong các h¾thong d%ch máy dna vào lu¾t, d%ch máy thong kê se dna trên thong kê đe xâydnng các tù đien và các quy lu¾t d%ch đó m®t cách tn đ®ng Đe thnc hi¾nđưoc đieu này can có t¾p ngu li¾u song ngu rat lón Máy tính se thong kê và rút
ra xác suat d%ch tương úng ve tù ho¾c cum tù hay cau trúc giua hai ngôn ngu;xác suat chuyen d%ch v% trí giua hai ngôn ngu và xác suat xuat hi¾n cna tùho¾c cum tù đó trong m®t ngu canh nhat đ%nh nào đó Mô hình d%ch máythong kê đưoc the hi¾n trong Hình 1.4
Brown và c®ng sn, năm 1990 đã đe xuat phương pháp thong kê cho d%ch máy[80]
e công trình này bài toán d%ch máy đưoc mô ta như sau: GQIS là câu ngôn
Trang 32ngu nguon và T là câu ngôn ngu đích, c¾p (S, T ) là c¾p câu đưoc d%ch boinhau Úng vói moi câu S đưoc cho bat kỳ, ta đi tìm câu T hop lý nhat (là câuđưoc d%ch gan đúng nhat cna câu nguon sang câu đích) Nghĩa là ta phai tìmxác suat P (S, T ) cnc đai Vì S và T phu thu®c lan nhau nên theo lý thuyet xácsuat có đieu ki¾n:
Trong công thúc 1.1.3 , mau so không phu thu®c vào T , do đó bài toán d
%ch máy tro thành tìm T đe P (T )P (S|T ) đat giá tr% lón nhat GQI P (T ) làxác suat mô hình ngôn ngu và P (S|T ) là xác suat mô hình d%ch, khi đóm®t h¾ thong d%ch máy thong kê đòi hoi m®t phương pháp tính toán xác suat
mô hình ngôn ngu, m®t phương pháp tính toán xác suat mô hình d%ch vàm®t phương pháp tìm kiem câu đích T mà có giá tr% P (T )P (S|T ) là lón nhat
Phương pháp d%ch máy thong kê dEa vào tÈ: các đơn v% cơ ban cna ban
d%ch là m®t tù trong ngôn ngu tn nhiên Trong nhung năm 1990, IBM (Brown
và c®ng sn, 1993) [30] đã đe xuat giai thu¾t cho năm mô hình d%ch thong kêdna vào tù là IBM1, IBM2, IBM3, IBM4, IBM5 Các mô hình này đưoc su dungr®ng rãi trong các công trình nghiên cúu ve d%ch máy thong kê sau này [40]
(Phrase- Based Statistical Machine Translation): Trong khi các mô hình
dna trên tù cna IBM là m®t bưóc đ®t phá trong SMT, chúng cũng cho thay
|
|
Trang 33m®t so thieu sót chung M®t trong so đó là chúng chn yeu đưoc thiet ke đe mô
hình hóa các
Trang 34phu thu®c tù vnng giua các tù đơn le Đe khac phuc đieu này, các mô hình dnatrên cum tù đã đưoc đe xuat (Vogel và c®ng sn, 2000) [100] , (Marcu và Wong,2002) [18 ] và (Och và Ney, 2004) [33] Trái ngưoc vói vi¾c su dung đơn v% tù làm
cơ so, các mô hình dna trên cum tù thêm m®t lóp cau trúc khác GQI là "cum tù"(m®t dãy các tù lien nhau) và su dung nó làm đơn v% d%ch Nói cách khác, cácnhóm tù lien nhau trong ngôn ngu đích có the đưoc dóng hàng vói các nhóm tùlien nhau trong ngôn ngu nguon Ket qua là, ngu canh cna các tù đưoc xem xét
và sn khác bi¾t ve tr¾t tn tù giua ngôn ngu nguon và ngôn ngu đích có the đưocHQc m®t cách rõ ràng.
Mô hình d%ch dna trên cum tù đưoc thnc hi¾n như sau: đau tiên d%ch đ®cl¾p các cum tù nguon thành các cum tù o ngôn ngu đích, sau đó các cum tùđưoc d%ch se đưoc thay đői tr¾t tn đe sinh câu đích dna vào giá tr% xác suat.Phương pháp d%ch máy thong kê dna vào cum tù đã cho thay nó là h¾ thong d
%ch máy thong kê tot nhat đưoc biet đen, phương pháp d%ch máy này đưoc Koehn
và c®ng sn đe xuat năm 2007 [84] D%ch máy dna trên cum tù đã chiem ưu thetrong nghiên cúu cũng như trong thương mai vì hi¾u qua cna nó cho đen cuoi năm
2015 [70] [63] [92] [74] [101]
1.1.3.3 D%ch máy dEa trên mang nơ-ron
D%ch máy dna trên mang nơ-ron (Neural Machine Translation - NMT)là cáchtiep c¾n đau cuoi cho d%ch tn đ®ng, có tiem năng vưot qua nhung yeu điem cnacác h¾ thong d%ch máy dna vào cum tù [116] The manh cna d%ch máy dna trênmang nơ-ron nam o kha năng HQc trnc tiep, ánh xa tù văn ban đau vào tói vănban đau ra [27 ]
H¾ thong d%ch máy dna trên mang nơ-ron là m®t mang nơ-ron mà mô hìnhhóa trnc tiep xác suat có đieu ki¾n P (T |S) cna vi¾c d%ch m®t câu nguon S thànhcâu đích T[61] Cau trúc cơ ban cna d%ch máy dna trên mang nơ-ron gom 2thành phan:
Trang 35Hình 1.5: Cau trúc cna h¾ thong d%ch máy dna trên mang nơ-ron
1.Mã hóa: tính toán bieu dien θ cho moi câu nguon
2.Giai mã: sinh tuan tn các tù đích
Hình 1.5 cho thay mô phong cna vi¾c d%ch m®t câu nguon thành m®t câu đích
o mô hình d%ch máy dna trên mang nơ-ron
D%ch máy dna vào mang nơ-ron thnc hi¾n vi¾c mô hình hóa xác suat cna câu đích T (t1, t2, , t i) khi biet trưóc câu nguon S(s1, s2, , s j)
Trang 36nguon đen m®t véc tơ tù và xu lý chúng thành m®t chuoi véc tơ an h1, h2, , h s.RNN giai mã sinh câu đích ket hop bieu dien an RNN cna tù đưoc sinh trưóc
đó vói các vec tơ an nguon đe dn đoán điem cho moi tù ke tiep có the [34] Sau
đó tang softmax đưoc su dung đe tao ra xác suat cna tù ke tiep P (t i |t 1:i−1 , s, θ)
[36], các véc tơ an nguon anh hưong đen xác xuat thông qua tang an
Ưu điem cna d%ch máy dna trên mang nơ-ron: có the giai quyet đưoc các thieusót cna h¾ thong d%ch máy truyen thong (câu đau ra trôi chay; không phai lna
cHQN các ban d%ch úng viên như trong d%ch máy thong kê; ) De dàng khithnc hi¾n xu lý song song Tránh đưoc vi¾c phai lna cHQN ban d%ch toi ưutrong các ban d%ch úng viên như trong h¾ thong d%ch máy dna vào cum tù.Ban d%ch trôi chay hơn, sát nghĩa hơn [64 ] [8 ] [81 ] [96 ] [69]
Nhưoc điem cna d%ch máy dna trên mang nơ-ron là:
•Ch¾m hơn trong huan luy¾n và suy dien Không d%ch đưoc nhung tù mói,quá trình d%ch như h®p đen nên khó can thi¾p xu lý và gõ loi
•Zheng và c®ng sn năm 2018 [113] đã chi ra rang h¾ thong d%ch máy dnatrên mang nơ-ron có the b% loi o ban d%ch do tính linh hoat cna ngôn ngu
tn nhiên và do thiet ke mang nơ-ron Đieu này dan đen sn mat thông tin,sai ngu nghĩa và thieu tính logic
•Ott và c®ng sn, năm 2018 [72] đã chi ra tính không chính xác trong d%chmáy dna trên mang nơ-ron, bao gom: Không chính xác o phân bo đau racna mô hình; Không chính xác trong tìm kiem chùm o chùm lón
•M®t so nhưoc điem khác liên quan đen ngu li¾u huan luy¾n và mô hìnhdóng hàng
Cũng như d%ch máy thong kê dna trên cum tù, d%ch máy dna trên mang ron là mô hình d%ch máy dna trên du li¾u, phu thu®c vào du li¾u song ngu đưoc
nơ-su dung trong huan luy¾n h¾ thong d%ch máy Chat lưong d%ch cna h¾ thong d
%ch
Trang 37máy liên quan đen kích thưóc và chat lưong cna kho ngu li¾u huan luy¾n.
1.1.3.4 D%ch dEa trên cơ sa tri thÉc
Ý tưong chính cna vi¾c d%ch dna trên cơ so tri thúc là: "muon d%ch đưoc thìtrưóc het phai hieu đưoc" Mà muon hieu đưoc thì máy phai đưoc trang b% trithúc ngôn ngu và tri thúc ve the giói thnc giong như con ngưòi [93] [35]
Vói phương pháp này, trưóc het ngưòi ta phai xây dnng m®t h¾ cơ so tri thúc
đn lón bao trùm MQI tri thúc ve the giói thnc o MQI lĩnh vnc Mà đieu này thìkhông kha thi, nên ngưòi ta chi giói han trong m®t lĩnh vnc hep nào đó và môhình hóa tri thúc cna lĩnh vnc này bang cách xây dnng các lóp ngunghĩa và các thnc the đe bieu dien tat ca các khái ni¾m trong mien lĩnh vnc đó.Moi khái ni¾m bao gom:
•Tên khái ni¾m
•Các khe: các vai ngu nghĩa đưoc phép
•B® LQc: nhung lóp khái ni¾m đưoc phép, phù hop vói các vai nghĩa
H¾ thong dna trên cơ so tri thúc khu nh¾p nhang bang các b® LQc hanche các vai nghĩa có lóp khái ni¾m phù hop Cơ che nh¾n biet tri thúc có the
là tn đ®ng hay bán tn đ®ng
Theo phương pháp này, phai xây dnng m®t h¾ thong ban the HQc đephân loai tri thúc, xây dnng m®t cơ che suy dien tn đ®ng và bieu dien liênngôn ngu Tuy nhiên, vi¾c xây dnng m®t h¾ thong phân loai tri thúc hoànchinh là đieu khó có the thnc hi¾n đưoc Ví du: "toy-gun" (súng đo chơi) đưoc
xep vào nhóm
"đo chơi" (toy) hay "vũ khí" (weapon)?
Trang 38Hình 1.6: Cau trúc cna h¾ thong d%ch máy MOSES
1.1.4 Các h¾ thong d%ch máy có the sE dnng đe thEc nghi¾m
1.1.4.1 H¼ thong d%ch máy thong kê MOSES
MOSES là m®t h¾ thong d%ch máy thong kê mã nguon mo đưoc xây dnng vàphát trien boi Koehn và c®ng sn, có tài li¾u hưóng dan su dung chi tiet.3
MOSES cho phép huan luy¾n tn đ®ng các mô hình d%ch cho bat kỳ c¾p ngônngu nào chi can có kho ngu li¾u song ngu dóng hàng múc câu Khi có mô hìnhhuan luy¾n, m®t thu¾t toán tìm kiem hi¾u qua se nhanh chóng tìm thayban d%ch có xác suat cao nhat trong so các lna cHQN theo cap so nhân
H¾ thong d%ch máy thong kê MOSES đưoc huan luy¾n trên kho ngu li¾u songngu kích thưóc lón (đe HQc cách d%ch các đoan nho) và kho ngu li¾u đơnngu (đe HQc cách đưa ra đau ra trôi chay) Cau trúc cna h¾ thong d%ch máyMOSES đưoc the hi¾n trong hình 1.6
MOSES có hai thành phan chính: Luong huan luy¾n và B® giai mã
•Luong huan luy¾n: là m®t t¾p các công cu nh¾n du li¾u thô (song ngu và đơn ngu) và bien nó thành m®t mô hình d%ch máy
3 h ttp : // w ww.stat m t.org/moses/
Trang 39•B® giai mã: là m®t úng dung C++ đơn gian, vói m®t mô hình d%ch máyđưoc huan luy¾n và m®t câu nguon cho trưóc, b® giai mã se d%ch câu nguonthành câu đích.
Các tính năng cna MOSES:
•Cung cap hai kieu mô hình d%ch: Dna vào cum tù và dna vào cây cú pháp
•Có các mô hình d%ch tham so, cho phép tích hop thông tin ngôn ngu vàthông tin khác o múc tù
•Cho phép giai mã các mang confusion và lưói tù, cho phép tích hop de dàngvói các công cu chang han như máy nh¾n dang GIQNG nói tn đ®ng ho¾cmáy phân tích hình thái
•H¾ thong quan lý thu nghi¾m giúp vi¾c su dung MOSES de dàng hơn
1.1.4.2 H¼ thong d%ch máy dEa trên mang nơ-ron OpenNMT
OpenNMT là m®t công cu mã nguon mo cho dich máy nơ-ron [36] Nó đưocxây dnng, duy trì và phát trien boi nhóm xu lý ngôn ngu tn nhiên Harvard vàSYSTRAN
OpenNMT là m®t t¾p hop các chương trình ho tro de dàng cho d%ch máydna trên mang nơ-ron Tâm điem cna các chương trình là các thư vi¾n cho huanluy¾n, su dung và trien khai các mô hình d%ch máy dna trên mang nơ-ron H¾
thong ban đau dna vào seq2seq-attn Dn án ho tro các mô hình NMT vanilla
cùng vói ho tro cho các mô hình: chú ý, cőng, xep chong, đau vào, chính quy,sao chép, tìm kiem chùm và tat ca các thu®c tính can thiet cho hi¾u xuat toi ưu.OpenNMT hi¾n có ba trien khai chính:
1 OpenNMT-lua:4 Chương trình đau tiên đưoc phát trien trên Torch 7 Đay
đn tính năng, toi ưu hóa và Mã chương trình őn đ%nh, san sàng cho các thunghi¾m và xây dnng san pham
4 https://github.com/OpenNMT/OpenNMT
Trang 402 OpenNMT-py:5 là m®t ban sao cna OpenNMT-lua su dung PyTorch,đưoc tao boi Adam Lerer và nhóm nghiên cúu AI cna Facebook Nó de mor®ng và đ¾c bi¾t phù hop cho nghiên cúu.
3 OpenNMT-tf:6 M®t trien khai theo kieu cna TensorFlow Đây là m®tchương trình mói hơn t¾p trung vào các thu nghi¾m quy mô lón và môhình hi¾u suat cao, nó su dung các tính năng mói nhat cna TensorFlow.OpenNMT ho tro huan luy¾n nhieu GPU bang cách su dung song song duli¾u Moi GPU có m®t ban sao cna các tham so chính và xu lý các gói đ®c l¾ptrong giai đoan huan luy¾n Hai che đ® có san: huan luy¾n đong b® và khôngđong b® Các thu nghi¾m vói 8 GPU cho thay toc đ® tăng 6 lan trong moi epoch.Xây dnng công cu huan luy¾n h¾ thong NMT đòi hoi mã l¾nh phúc tap Nhưngkhi trien khai thì đơn gian, chi yêu cau (i) nh¾p vào các giá tr% cho các thambien trong mang và (ii) chay m®t tìm kiem chùm đưoc đơn gian hóa hơn nhieu
so vói SMT OpenNMT bao gom m®t so trien khai d%ch máy khác nhau dànhriêng cho các môi trưòng thòi gian chay khác nhau: trien khai gói CPU/GPU
đe d%ch nhanh chóng các văn ban có kích thưóc lón, trien khai m®t trưòng hopđơn gian cho su dung trên thiet b% di đ®ng và trien khai chuyên bi¾t phù
hopcho su dung công nghi¾p
1.1.5 Đánh giá các h¾ thong d%ch máy
1.1.5.1 BLEU
Điem BLEU (BiLingual Evaluation Understudy) do Papineni đe xuat năm
2001 [56] là đ® đo tn đ®ng đau tiên đưoc chap thu¾n đe đánh giá các ban d%ch.Nguyên lý cna phương pháp này là tính toán múc tương đong giua ban d%ch(ban d%ch máy) và m®t ho¾c nhieu các ban d%ch tham chieu dna vào đ® chínhxác n-gram Điem BLEU đưoc đ%nh nghĩa theo công thúc 1.1.5
5 https://github.com/OpenNMT/OpenNMT-py
6 https://github.com/OpenNMT/OpenNMT-tf