1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

146 48 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cải tiến chất lượng dịch máy thống kê anh-việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc
Tác giả Trần Hồng Việt
Người hướng dẫn TS. Nguyễn Văn Vinh, PGS.TS. Nguyễn Lê Minh
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Khoa học máy tính
Thể loại Luận án tiến sĩ
Năm xuất bản 2019
Thành phố Hà Nội
Định dạng
Số trang 146
Dung lượng 6,47 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc Cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc Cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY

THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ

THEO CÂY CÚ PHÁP PHỤ THUỘC

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2019

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY

THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ

THEO CÂY CÚ PHÁP PHỤ THUỘC

Chuyên ngành: Khoa học máy tính

Mã số: 9 48 01 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 TS Nguyễn Văn Vinh

2 PGS.TS Nguyễn Lê Minh

Hà Nội - 2019

Trang 3

Lời cam đoan

Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiệndưới sự hướng dẫn của TS Nguyễn Văn Vinh và PGS.TS Nguyễn Lê Minh.Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trongluận án này được ghi rõ nguồn trong phần tài liệu tham khảo

Trần Hồng Việt

Trang 4

TÓM TẮT

Đảo trật tự từ là một trong các vấn đề quan trọng của dịch máy liênquan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trongngôn ngữ đích Trong hệ dịch máy thống kê dựa trên cụm từ (Phrase-BasedStatistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och vàNey, 2004) [59, 89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao.Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khácnhau về thứ tự từ trong các ngôn ngữ) dẫn tới không thể mô hình hóa chínhxác trong quá trình dịch [89] Nhiều hướng nghiên cứu giải quyết vấn đề sắpxếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ Một

số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề sắp xếp lại trật tự từcho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải mãqua thực hiện tiền xử lý quá trình sắp xếp lại

Với ưu điểm của cấu trúc cây cú pháp phụ thuộc: kết nối tất cả các từ trongmột câu với khả năng nắm bắt phụ thuộc giữa các từ xa nhau với các cấu trúcphụ thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận

án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kêAnh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc".Luận án tập trung giải quyết các tồn tại đã nêu thông qua bài toán: sắpxếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất

có thể với câu được dịch trong ngôn ngữ đích Các đề xuất này thực hiện nhưbước tiền xử lý sử dụng cây cú pháp phụ thuộc đối với ngôn ngữ nguồn đểđưa vào hệ dịch thống kê dựa trên cụm từ nhằm cải tiến chất lượng dịch máy.Kết quả dịch từ tiếng Anh sang tiếng Việt với bộ dữ liệu IWSLT 2015 trên hệthống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay là NMT

và PBSMT

Đóng góp của luận án cụ thể như sau:

Trang 5

• Thứ nhất, luận án đề xuất các luật đảo trật tự từ thủ công từ việc lựachọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc Từ đó ápdụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịchmáy Anh-Việt.

• Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tựđộng Chúng tôi coi việc xây dựng luật đảo trật tự từ như vấn đề họcmáy trong việc dự đoán chính xác vị trí các thành phần của luật để đoánthứ tự đúng các câu trong ngôn ngữ nguồn tương ứng với thứ tự câu ởngôn ngữ đích Với hai đề xuất gồm:

– Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sửdụng các bộ phân lớp để giải quyết bài toán đảo trật tự từ Cụ thể

là xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-contrên cây phân tích phụ thuộc biểu diễn câu đầu vào

– Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc

và ưu điểm của việc biểu diễn dưới dạng word embedding, luận án

đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toánđảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào

hệ dịch để nâng cao chất lượng dịch

• Thứ ba, luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cúpháp đến chất lượng dịch qua việc áp dụng các luật đảo trật tự từ đốivới câu nguồn Các phân tích này mang lại lợi ích cho việc cải tiến cácphương pháp đảo trật tự từ dựa trên cú pháp và phát triển việc phân tích

cú pháp phụ thuộc, đặc biệt với ngôn ngữ tiếng Việt

Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụthuộc, dịch máy thống kê dựa trên cụm từ

Trang 6

Mục lục

1.1 Tổng quan về dịch máy 22

1.2 Dịch máy thống kê 25

1.2.1 Cơ sở toán học 25

1.2.2 Cấu trúc hệ thống dịch máy 27

1.3 Dịch máy mạng nơ-ron 29

1.4 Phân tích cú pháp phụ thuộc 31

1.5 Vấn đề đảo trật tự từ trong dịch máy 35

1.5.1 Sự khác nhau về thứ tự từ giữa các ngôn ngữ 35

1.5.2 Đảo trật tự từ trong dịch máy 36

1.6 Bài toán đảo trật tự từ trong mô hình dịch máy dựa trên cụm từ 37 1.6.1 Mô hình dịch máy dựa trên cụm từ 37

1.6.2 Bài toán đảo trật từ tự dựa trên tiền xử lý 39

Trang 7

1.7 Các nghiên cứu liên quan 43

1.7.1 Sử dụng các luật thủ công cho vấn đề tiền xử lý 44

1.7.2 Sử dụng các luật tự động cho vấn đề tiền xử lý 45

1.8 Kết luận chương 46

2 Phương pháp dựa vào luật thủ công cho bài toán đảo trật tự từ trong dịch máy thống kê 48 2.1 Phương pháp tiền xử lý cho bài toán đảo trật tự từ trong dịch máy 48

2.2 Các nghiên cứu liên quan 50

2.3 Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê 52

2.3.1 Phân tích hiện tượng ngôn ngữ và vấn đề sắp xếp lại 52

2.3.2 Luật chuyển đổi trật tự từ 55

2.3.3 Tập các luật đảo trật tự từ thủ công 57

2.3.4 Tập dữ liệu và cài đặt thực nghiệm 59

2.3.5 Kết quả thực nghiệm 62

2.4 Kết luận chương 63

3 Phương pháp sử dụng luật trích xuất tự động bằng các bộ phân lớp quan hệ 65 3.1 Tiền xử lý dựa trên phân lớp cho dịch máy dựa trên cụm từ 65

3.1.1 Vấn đề tiền xử lý dựa trên phân lớp 66

3.1.2 Đặc trưng 69

3.1.3 Mô hình phân lớp 70

3.2 Thực nghiệm 73

3.2.1 Tập dữ liệu và cấu hình thực nghiệm 73

3.2.2 Kết quả thực nghiệm 74

3.3 Kết luận chương 76

Trang 8

4 Phương pháp sử dụng mạng nơ-ron kết hợp các thông tin ngữ

4.1 Thông tin ngữ cảnh từ word embedding 79

4.2 Mô hình đảo dựa trên mạng nơ-ron sử dụng cây cú pháp phụ thuộc cho dịch máy thống kê 81

4.2.1 Đặc trưng cho phân lớp và huấn luyện mô hình 82

4.2.2 Khung làm việc cho đảo trật tự từ 87

4.3 Thực nghiệm về phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh 90

4.4 Phân tích và thảo luận 93

4.5 Kết luận chương 94

5 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng dịch máy Anh-Việt 96 5.1 Giới thiệu 96

5.2 Phân tích cú pháp phụ thuộc 97

5.2.1 Bài toán phân tích cú pháp phụ thuộc 98

5.2.2 Định dạng dữ liệu theo chuẩn CoNLL 98

5.2.3 Sử dụng tập nhãn cho cú pháp phụ thuộc 100

5.3 Ảnh hưởng của lỗi phân tích cú pháp phụ thuộc tới chất lượng dịch máy 102

5.3.1 Phương pháp phân tích lỗi 102

5.3.2 Đánh giá 104

5.3.3 Phân tích nguyên nhân gây lỗi đảo trật tự từ 108

5.4 Đánh giá kết quả dịch và độ chính xác cây cú pháp phụ thuộc 110 5.5 Kết luận chương 112

Trang 9

Danh mục công trình khoa học của tác giả liên quan đến luận án117

Trang 10

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Văn Vinh và PGS.TS Nguyễn

Lê Minh, hai Thầy đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ vàtạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.Tôi xin gửi lời cảm ơn đến các Thầy/Cô giáo ở Khoa Công nghệ thông tin,Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy/Côgiáo ở Bộ môn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp

đỡ tôi trong quá trình học tập và nghiên cứu ở trường

Tôi xin gửi cảm ơn đến GS.TS Nguyễn Thanh Thủy, PGS TS Lê SỹVinh, PGS.TS Nguyễn Phương Thái, PGS.TS Phan Xuân Hiếu, TS TrầnQuốc Long, TS Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốcgia Hà Nội), PGS.TS Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội),

TS Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại họcQuốc gia Hà Nội), TS Ngô Xuân Bách (Học viện Công nghệ Bưu chính Viễnthông), TS Nguyễn Việt Anh (Viện Công nghệ thông tin, Viện Hàn lâm Khoahọc và Công nghệ Việt Nam) các Thầy/Cô đã có những góp ý chỉnh sửa để tôihoàn thiện luận án

Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp ở Bộmôn Khoa học máy tính (Khoa Công nghệ thông tin, Trường Đại học Côngnghệ, Đại học Quốc gia Hà Nội) đã giúp đỡ tôi trong thời gian làm nghiên cứusinh

Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình

đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi học tập, nghiên cứu

Trang 11

Danh mục các chữ viết tắt

MT Machine Translation (Dịch máy)

NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)POS-tags Part Of Speech tags (Nhãn từ loại)

SMT Statistical Machine Translation (Dịch máy thống kê)

PBSMT Phrase-Based Statistical Machine Translation

(Dịch máy dựa trên cụm từ)NMT Neural Machine Translation (Dịch máy mạng nơ-ron)

BLEU BiLingual Evaluation Understudy (Đánh giá độ hiểu ngữ liệu)SVM Support Vector Machine (Máy véc-tơ hỗ trợ)

ME Maximum Entropy (Độ hỗn loạn cực đại)

WEKA Waikato Environment for Knowledge Analysis

(Môi trường Waikato cho phân tích tri thức)

Trang 12

Danh sách hình vẽ

1.1 Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau 231.2 Kiến trúc cơ bản của hệ thống dịch máy thống kê 271.3 Các bước xây dựng hệ thống dịch máy thống kê dựa trên cụm từ 281.4 Hệ thống dịch máy mạng nơ-ron 301.5 Biểu diễn đồ thị cây phân tích phụ thuộc với các nhãn quan hệ 331.6 Biểu diễn dạng cây với dữ liệu phụ thuộc định dạng CoNLL 331.7 Ví dụ về mô hình dịch máy dựa trên cụm từ cho dịch từ ngônngữ tiếng Pháp sang tiếng Anh 371.8 Kiến trúc của mô hình dịch dựa trên cụm từ 381.9 Ví dụ về việc chuyển đổi các gióng hàng từ với việc đảo trật tự từ 401.10 Các bước thực hiện trong hệ thống áp dụng phương pháp tiền

xử lý 411.11 Kiến trúc hệ thống trong luận án 43

2.1 Ví dụ về tiền xử lý cho cặp ngôn ngữ Anh-Việt 492.2 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Anh 502.3 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Việt 512.4 Ví dụ về phân tích cú pháp phụ thuộc cho câu tiếng Anh sửdụng công cụ phân tích của Stanford 512.5 Một số ví dụ về đặc trưng ngôn ngữ tiếng Việt 53

Trang 13

2.6 Ví dụ về hiện tượng ngôn ngữ trong cụm danh từ với amod vàdet Trong ví dụ này, danh từ “computer” được đảo với tính từ

“personal” 542.7 Ví dụ về hiện tượng ngôn ngữ trong cụm tính từ với advmod vàdet 552.8 Ví dụ cây phân tích tiếng Việt với thông tin từ loại POS tags,các nhãn phụ thuộc và gióng hàng từ 552.9 Ví dụ áp dụng luật đảo trật tự từ thủ công trong việc sắp xếplại thứ tự từ trong câu 572.10 Một phần khảo sát về vị trí từ loại và các nhãn trong việc sắpxếp lại thứ tự từ 582.11 Thuật toán sinh luật đảo trật tự từ sử dụng Pos-tags và nhãnphụ thuộc 602.12 Các luật thủ công cho việc đảo trật tự từ tiếng Anh sang tiếngViệt sử dụng tiền xử lý trên cây cú pháp phụ thuộc 61

3.1 Ví dụ về mô hình học máy dựa trên phân lớp 663.2 Một ví dụ về quan hệ giữa các cụm trên cây phân tích phụ thuộc 673.3 Cây phân tích phụ thuộc tiếng Anh 683.4 Thuật toán trích xuất tự động các luật sử dụng cây cú pháp phụthuộc các câu nguồn và cặp gióng hàng từ 723.5 Thuật toán sắp xếp lại câu nguồn sử dụng các luật trích xuất

tự động 723.6 Thống kê về quan hệ giữa nút cha với nút con trên ngữ liệu songngữ 763.7 Thống kê về quan hệ giữa nút cha với hai nút con trên ngữ liệusong ngữ 77

4.1 Một ví dụ về về biểu diễn word embedding 80

Trang 14

4.2 Ví dụ về mô hình phân lớp quan hệ 824.3 Mô hình đảo cho dịch máy thống kê Anh-Việt sử dụng mạngnơ-ron với cây phân tích phụ thuộc 834.4 Các đặc trưng cho quan hệ head-child trong mô hình phân lớp 844.5 Các đặc trưng cho quan hệ sibling trong mô hình phân lớp 854.6 Khung làm việc cho quá trình tiền xử lý câu nguồn từ dữ liệusong ngữ Anh-Việt 864.7 Thuật toán xây dựng mô hình huấn luyện cho mạng 884.8 Thuật toán sắp xếp lại để xây dựng đảo trật tự từ câu nguồn 894.9 Quá trình sắp xếp lại sau khi áp dụng phương pháp phân lớp 90

5.1 Mô hình bài toán tổng quát về phân tích cú pháp phụ thuộc 985.2 So sánh tập nhãn phụ thuộc giữa tiếng Việt và tiếng Anh 1035.3 Mô tả phương pháp phân tích lỗi 1045.4 Kết quả đánh giá dựa trên độ đo Kendall’s tau 1075.5 Bảng thống kê độ chính xác phân tích cú pháp phụ thuộc tiếngViệt sử dụng công cụ phân tích cú pháp phụ thuộc JPTDP 1095.6 Ví dụ về lỗi từ loại khi so sánh dữ liệu thống kê giữa cây đượcsinh ra với cây được sinh từ dữ liệu chuẩn 1105.7 Ví dụ về lỗi do xác định sai loại phụ thuộc nút gốc khi so sánh

dữ liệu thống kê giữa cây được sinh ra với cây được sinh từ dữliệu chuẩn 1105.8 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng hệ dịchtrên kho ngữ liệu song ngữ Anh-Việt 1125.9 Thống kê các ngôn ngữ SVO (chủ ngữ, động từ, tân ngữ) 1345.10 Thống kê các ngôn ngữ với từ loại Tính từ, Danh từ 1355.11 Thống kê các ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ 1365.12 Thống kê các ngôn ngữ với Danh từ, mệnh đề quan hệ 136

Trang 15

5.13 Phép phi chiếu trong ngôn ngữ Latinh 137

5.14 Dịch từ ngôn ngữ tiếng Đức sang ngôn ngữ tiếng Anh 137

5.15 Dịch từ ngôn ngữ tiếng Trung sang ngôn ngữ tiếng Anh 138

5.16 Dịch từ ngôn ngữ tiếng Hàn sang ngôn ngữ tiếng Anh 139

5.17 Dịch từ ngôn ngữ tiếng Ả rập sang ngôn ngữ tiếng Anh 140

5.18 Mô tả các luật sắp xếp lại 141

Trang 16

Danh sách bảng

2.1 Phân tích cú pháp phụ thuộc cho câu tiếng Việt biểu diễn dướidạng chuẩn CoNLL 522.2 Thống kê ngữ liệu song ngữ Anh-Việt 622.3 Thực nghiệm sử dụng các luật thủ công cho kho ngữ liệu songngữ Anh-Việt 63

3.1 Ví dụ về các luật và đảo trật tự từ trong câu nguồn 693.2 Tập đặc trưng được sử dụng trong dữ liệu huấn luyện từ khongữ liệu song ngữ Anh – Việt 713.3 Thống kê số luật tự động trích xuất theo phương pháp sử dụng

bộ phân lớp 753.4 Kích cỡ bảng cụm từ 763.5 Đánh giá kết quả trên hệ thống dịch máy Anh- Việt 78

4.1 Hệ thống thực nghiệm trên kho ngữ liệu song ngữ Anh-Việt 924.2 Đánh giá hệ thống cho chiều dịch Anh- Việt 93

5.1 Các trường dữ liệu theo định dạng của CoNLL cho ngôn ngữtiếng Việt 995.2 Biểu diễn theo định dạng chuẩn CoNLL cho câu đầu vào tiếngViệt 1005.3 Nhãn cụm từ 1425.4 Nhãn mệnh đề 142

Trang 17

5.5 Nhãn chức năng cú pháp 1435.6 Nhóm các nhãn đa ngôn ngữ 144

Trang 18

Mở đầu

1 Tính cấp thiết của luận án

Dịch máy là một trong những vấn đề khó và lâu đời nhất trong trí tuệ nhântạo Đã có nhiều nỗ lực để giải quyết vấn đề này từ những giai đoạn đầu tiênkhi sử dụng máy tính Dù dịch máy có lịch sử lâu đời, việc dịch tự động toàn

bộ văn bản với chất lượng cao vẫn còn là thách thức Các vấn đề dịch thuật cóliên quan đến nhiều ngôn ngữ và các vấn đề văn hóa trở nên khó khăn

Dịch máy dựa trên cách tiếp cận thống kê và gần đây dịch máy mạng nơ-ronđang là một hướng phát triển tiềm năng bởi những ưu điểm so với các cáchtiếp cận khác Nhiều sản phẩm thương mại được sử dụng rộng rãi trên thế giới(hệ dịch của Google1, M icrosof t2 .)

Các mô hình dịch máy được sử dụng nhiều nhất là dịch máy thống kê dựatrên cụm từ (PBSMT) (Koehn và cộng sự, 2003; Och và Ney, 2004) [59, 89] vàdịch máy nơ-ron (Neural MT) (Bahdanau và cộng sự, 2014; Sutskever và cộng

sự, 2014; Cho và cộng sự, 2014) [4, 20, 98] Trong thập kỷ qua, bên cạnh dịchmáy dựa trên cụm từ với các ưu điểm dịch đầy đủ, dễ can thiệp xử lý gỡ lỗitrong quá trình dịch, gần đây dịch máy mạng nơ-ron đã cho thấy tiềm năng lớn

và trong nhiều trường hợp đã vượt qua dịch máy dựa trên cụm từ (Bentivogli

và cộng sự, 2016; Junczys-Dowmunt và cộng sự, 2016; Chung và cộng sự, 2016;Shterionov và cộng sự, 2017) [9, 21, 48, 94] Các ưu điểm của dịch máy nơ-ronlà: dịch trôi chảy hơn, sát nghĩa hơn Tuy nhiên, nhiều trường hợp dịch khôngđầy đủ, hiện tượng không rõ từ (unkown word) nhiều, quá trình dịch như hộpđen lên khó can thiệp xử lý và gỡ lỗi Những vấn đề của dịch máy mạng nơ-ronđược chỉ ra trong các nghiên cứu gần đây như (Zheng và cộng sự, 2018; Ott vàcộng sự, 2018; Koehn và cộng sự, 2017) [58, 91, 112]

1 https://translate.google.com

2 http://www.microsofttranslator.com

Trang 19

Tương tự như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạngnơ-ron là mô hình dịch máy theo hướng dữ liệu, phụ thuộc vào dữ liệu songngữ được sử dụng để huấn luyện Chất lượng dịch của một hệ thống liên quanđến số lượng và chất lượng của tập dữ liệu huấn luyện Dịch máy thống kêdựa trên cụm từ và đặc biệt vấn đề đảo trật tự từ vẫn thể hiện các ưu điểmtrong các trường hợp các ngôn ngữ với nguồn tài nguyên hạn chế (Koehn vàcộng sự, 2017) [58], các câu ngắn3 Trong dự án về dịch máy cho các ngôn ngữhạn chế về tài nguyên năm 2018, Philip Koehn và nhóm nghiên cứu4 đã giànhđược khoản tài trợ 10,7 triệu đô la để dịch các ngôn ngữ có nguồn tài nguyênhạn chế, đã đề cập: "Thách thức lớn nhất đối với chúng ta là việc có ít dữ liệu.Điều này đòi hỏi cần nhiều và rất nhiều dữ liệu" Với những ngôn ngữ này, hệdịch dựa trên mạng nơ-ron chưa thể hiện được các ưu điểm so với dịch máythống kê dựa trên cụm từ Các ưu điểm của dịch thống kê dựa trên cụm từvẫn là hướng nghiên cứu được quan tâm để kết hợp với điểm mạnh trong dịchmáy mạng nơ-ron.

Vấn đề quan trọng của dịch máy liên quan đến việc làm thế nào để sinh rathứ tự các từ (cụm từ) chính xác trong ngôn ngữ đích Trong dịch máy thống

kê dựa trên cụm từ (PBSMT), việc đảo cụm từ vẫn còn đơn giản và chất lượngchưa cao Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặcbiệt sự khác nhau về thứ tự từ trong các ngôn ngữ, ví dụ: Anh - Việt) dẫntới không thể mô hình hóa chính xác trong quá trình dịch [89] Điều này dẫnđến có nhiều hướng quan tâm nghiên cứu để giải quyết vấn đề đảo trật tự từbên trong hệ thống dịch máy thống kê dựa vào cụm đang là thách thức đối vớicác nhà nghiên cứu về dịch máy trong nhiều năm qua Các nghiên cứu theohướng tiếp cận tiền xử lý quá trình sắp xếp lại [108], [33], [65] một cách hiệu

3

https://yandex.com/company/blog/one-model-is-better-than-two-yu-yandex-translate-launches-a-hybrid-machine-translation-system/

4 story.html

Trang 20

http://www.baltimoresun.com/news/breaking/bs-md-hopkins-language-grant-20171011-quả (cải thiện so với các hệ thống dịch máy dựa trên cụm và phân cấp), chấtlượng được đánh giá khả quan trong các mô hình sắp xếp lại.

Sử dụng phương pháp tiền xử lý có ưu điểm là giữ được điểm mạnh của hệthống dịch máy dựa trên cụm từ, giảm thiểu thời gian giải mã, cũng như giữđiểm mạnh của dịch máy theo cú pháp trong bài toán đảo trật tự từ

Hiện nay, đã có nghiên cứu về hệ thống dịch máy thống kê dựa trên cụm

từ cho cặp ngôn ngữ Anh-Việt Tuy nhiên, nghiên cứu về dịch máy thống kêdựa trên cụm từ sử dụng tiền xử lý với cây cú pháp phụ thuộc chưa nhiều Bêncạnh đó, cú pháp phụ thuộc có ưu điểm trong việc thể hiện quan hệ phụ thuộc

từ, tốc độ nhanh, phù hợp với vấn đề sắp xếp lại trật tự từ (một trong nhữngvấn đề quan trọng trong bài toán dịch) Những vấn đề thách thức đặt ra:

- Các nghiên cứu chủ yếu áp dụng cho chiều dịch Anh-Việt, chưa có chiềudịch Việt-Anh

- Một số nghiên cứu đã áp dụng đảo trật tự từ dựa trên cây cú pháp phụthuộc cho chiều Anh-Việt Tuy nhiên những nghiên cứu này chủ yếu dùngcác luật bằng tay, chưa áp dụng các luật tự động trong bài toán dịch

- Có ít nghiên cứu sử dụng tiền xử lý dựa vào cây cú pháp phụ thuộc chochiều Việt-Anh và tồn tại nhiều hạn chế cần cải tiến để nâng cao chấtlượng

Để giải quyết thách thức trên nhằm cải tiến chất lượng dịch máy thống kê,nhiều nỗ lực nghiên cứu theo hướng sử dụng cây phân tích cú pháp phụ thuộcvào dịch thống kê đã được áp dụng Chính điều này đã gợi ý và thúc đẩy chúngtôi lựa chọn nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kêAnh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc"

2 Mục tiêu của luận án

• Nghiên cứu đề xuất các phương pháp giải quyết bài toán đảo cụm từ

Trang 21

trong dịch máy thống kê dựa vào cụm theo hướng tiếp cận tiền xử lý dựatrên cây cú pháp phụ thuộc áp dụng cho cặp ngôn ngữ Anh-Việt.

• Nghiên cứu đề xuất các luật thủ công, các luật tự động áp dụng để cảithiện chất lượng dịch máy thống kê

• Nghiên cứu các hệ thống dịch thống kê đã có như Moses, các phương pháptích hợp tri thức ngôn ngữ, đề xuất các phương pháp mới, thực nghiệm

án lựa chọn các đặc trưng về ngôn ngữ sử dụng cú pháp phụ thuộc đểđưa ra các luật đảo trật tự từ phù hợp giữa ngôn ngữ tiếng Việt và ngônngữ tiếng Anh

• Luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự động Xemviệc xây dựng luật đảo trật tự từ như vấn đề học máy trong việc dự đoánchính xác vị trí các thành phần của luật để đoán thứ tự đúng các câutrong ngôn ngữ nguồn tương ứng với thứ tự câu ở ngôn ngữ đích Với hai

Trang 22

– Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc

và ưu điểm của việc biểu diễn dưới dạng word embedding, chúng tôi

đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toánđảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào

hệ dịch để nâng cao chất lượng dịch

• Luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cú pháp đếnchất lượng dịch qua việc áp dụng các luật đảo trật tự từ phía câu nguồn.Kết hợp phương pháp thực nghiệm và mô tả để thực hiện phân tích sosánh về mối quan hệ giữa phân tích cú pháp và đảo trật tự từ Côngviệc này được sử dụng để mang lại lợi ích không chỉ cho việc cải tiến cácphương pháp đảo trật tự từ mà còn cho sự phát triển phân tích cú phápphụ thuộc đặc biệt với ngôn ngữ tiếng Việt

Các nội dung và kết quả nghiên cứu trình bày trong luận án đã được công

bố trong 10 công trình Trong đó, 8 báo cáo trong kỷ yếu của hội nghị quốc

tế có phản biện, được xuất bản bởi IEEE và Springer; 1 báo cáo trong kỷ yếucủa hội thảo quốc gia có phản biện và 1 bài báo ở tạp chí trong nước có phảnbiện

4 Bố cục của luận án

Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương, với bốcục như sau:

• Chương 1 Giới thiệu tổng quan về vấn đề nghiên cứu trong luận án

• Chương 2 Trình bày nội dung, kết quả nghiên cứu về vấn đề đảo cụmtrong dịch máy thống kê sử dụng các luật thủ công cho bài toán đảo trật

tự từ trong dịch máy thống kê

• Chương 3 Trình bày nội dung, kết quả nghiên cứu sử dụng các luật tríchxuất tự động bằng phương pháp học máy với các bộ phân lớp quan hệ

Trang 23

• Chương 4 Trình bày nội dung, kết quả nghiên cứu phương pháp sử dụngmạng nơ-ron kết hợp các thông tin ngữ cảnh.

• Chương 5 Trình bày ảnh hưởng của cây phân tích cú pháp phụ thuộcvới chất lượng dịch máy Anh - Việt theo hướng tiếp cận tiền xử lý

Trang 24

mô hình dịch máy thống kê dựa trên cụm từ (Phrase-based SMT), phân tích

cú pháp phụ thuộc, bài toán đảo cụm; Đưa ra phân tích, đánh giá các côngtrình nghiên cứu liên quan, các vấn đề còn tồn tại mà luận án sẽ tập trung giảiquyết và xác định nội dung nghiên cứu của luận án ở phần cuối chương

1.1 Tổng quan về dịch máy

Dịch máy là một trong những vấn đề khó và lâu đời nhất trong trí tuệ nhântạo [45, 49, 50] Một trong những động lực chính cho dịch máy là sự quan tâmcủa các cơ quan tình báo để tăng khả năng nhận biết những gì đang xảy ra ởnước ngoài Dù dịch máy có lịch sử lâu đời, việc dịch tự động toàn bộ với chấtlượng cao là khó đạt được Việc dịch thuật có liên quan đến nhiều ngôn ngữ

và liên quan đến văn hóa là các vấn đề khó

Dịch là một quá trình chuyển nghĩa của các từ hay văn bản sang ngôn ngữ

Trang 25

(a) Tháp chuyển đổi thể hiện quá trình dịch

theo các phương pháp khác nhau

(b) Tháp chuyển đổi thể hiện các kiểu phân tích trong sơ đồ hình tháp

Hình 1.1: Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau.

khác Nó liên quan đến việc giải mã nghĩa của ngôn ngữ nguồn và sau đó mãhóa lại theo nghĩa vào ngôn ngữ đích Quá trình này liên quan đến một loạthoạt động phức tạp, đòi hỏi kiến thức đầy đủ về ngôn ngữ bao gồm: hìnhthái học, cú pháp, ngữ nghĩa và ngữ cảnh như trong nghiên cứu (Jurafsky vàMartin,2009;) [50] Ngữ cảnh xung quanh văn bản dịch được xem như là độclập có thể có nghĩa khác nhau Nó cũng đòi hỏi có kiến thức sâu phía các ngônngữ đích để mã hóa lại nghĩa

Trước những năm 1990, cách tiếp cận dựa trên luật là chủ yếu Các luậtkhác nhau được thiết kế cho phân tích cú pháp, dịch chuyển từ vựng, hình tháihọc Ban đầu, ba loại mô hình chính được đưa ra là: mô hình dịch trực tiếp,

mô hình chuyển đổi và mô hình liên ngữ Các mô hình này được bắt nguồn từviệc phân tích cách các ngôn ngữ được hình thành.Bernard Vauquois [102] đưa

ra sơ đồ hình kim tự tháp nổi tiếng trình bày các kiến trúc của các hệ thốngdịch máy trong hình 1.1

Nhiều nhà nghiên cứu tập trung vào các hệ thống sử dụng các ngôn ngữđại diện trung gian về nghĩa Liên ngữ [30, 75] là một trường hợp của hệ thốnghướng ngữ nghĩa Nó sử dụng một ngôn ngữ quốc tế đại diện cho nghĩa trừutượng, độc lập của một ngôn ngữ cụ thể Vấn đề thu hút sự quan tâm của các

Trang 26

nhà nghiên cứu nhưng được xem là một thách thức lớn trong trí tuệ nhân tạo.Hình 1.1a thể hiện quá trình dịch từ ngôn ngữ nguồn sang ngôn ngữ đíchtheo ba phương pháp khác nhau Dịch trực tiếp [51] mà không cần bất kỳ phântích văn bản do từ được dịch theo nghĩa đen với các luật cơ bản Dịch chuyểnđổi [62] sử dụng phân tích hình thái và cú pháp Dịch liên ngữ [74] sử dụngmột ngôn ngữ quốc tế đại diện cho nghĩa trừu tượng của văn bản.

Đầu năm 1990, một bước ngoặt lớn là có sự quan tâm nhiều hơn của nhiềunhà nghiên cứu trong dịch máy dựa vào dữ liệu Còn được gọi là dựa trên khongữ liệu, dựa trên độ tương tự, dựa trên bộ nhớ hoặc dịch hướng dẫn có kinhnghiệm

Dịch dựa trên ví dụ là một trong những phương pháp tiếp cận sớm đượcđưa ra trong dịch máy theo hướng dữ liệu [76, 93] Nó cố gắng tìm một câutương tự với đầu vào đã cho trong ví dụ được dịch trước đó Sau đó, tạo ranhững thay đổi thích hợp cho bản dịch được lựa chọn Phương pháp này nhanhhơn dựa trên luật nhưng không đảm bảo bản dịch tốt hơn

Do sự gia tăng sức mạnh tính toán và khả năng tiếp cận các dữ liệu lớn,phương pháp thống kê đã được đề xuất để thực hiện phân tích sâu hơn so vớicác phương pháp tiếp cận dựa trên ví dụ (Brown và cộng sự, 1990) [11] từIBM trình bày mô hình toán học của dịch máy thống kê (Brown và cộng sự,1993) [12] giới thiệu năm mô hình thống kê được gọi là mô hình IBM và đưa

ra các thuật toán để ước lượng các tham số của mô hình Dù họ nghiên cứudịch máy trên một nền tảng toán học vững chắc nhưng chưa có nhiều nghiêncứu tập trung cho dịch máy

Năm 1999, nhiều nhà nghiên cứu đã cùng nhau cài đặt lại các mô hìnhIBM tại hội thảo mùa hè tại Đại học Johns Hopkins (Al-Onaizan và cộng sự,1999) [1] trong sáu tuần tại hội thảo đã cài đặt công cụ dịch máy thống kê(SMT) (gọi là EGYPT) và công cụ GIZA [90] được đề cập trong báo cáo kỹthuật cho việc gióng từ Franz Och sau đó mở rộng các công cụ gióng từ thành

Trang 27

GIZA++ [88], bổ sung thêm nhiều tính năng cho việc học mô hình dịch thống

kê từ dữ liệu văn bản và được cài đặt như trong mô tả của (Brown và cộng

sự, 1993) [12], (Vogel và cộng sự, 1996) [104], (Och và cộng sự, 2000) [86, 87].Công cụ này trở thành một trong các khối chính trong các hệ thống SMT.Các hệ thống dịch máy sử dụng phương pháp đánh giá tự động với chi phíthấp, hiệu quả cao Một số phương pháp đánh giá tự động chất lượng dịchnhư BLEU [92], NIST [28], TER [95] Phương pháp phổ biến là phương phápBLEU được đề xuất tại hội nghị ACL năm 2002 Ý tưởng chính của phươngpháp này là so sánh kết quả bản dịch tự động bằng máy với các bản dịch mẫucủa con người, bản dịch nào càng giống với bản dịch mẫu của con người thìbản dịch đó càng chính xác

1.2 Dịch máy thống kê

1.2.1 Cơ sở toán học

Dịch máy thống kê (SMT- Statistical Machine Translation) là một phươngpháp tiếp cận của dịch máy dựa trên phân tích thống kê tập dữ liệu các cặpcâu từ hai ngôn ngữ (ngữ liệu song ngữ) Cơ sở toán học của dịch máy thống

kê được (Brown và cộng sự, 1990) [11] đưa ra, sau đó năm mô hình thống kêđược biết đến rộng rãi là các mô hình IBM (Brown và cộng sự, 1993) [12] Hình1.2 mô tả hoạt động của hệ thống dịch máy thống kê Dù mô hình tốt nhấthiện nay có nhiều cải tiến hơn so với phương pháp tiếp cận của Brown và cộng

sự, nhưng bản chất vẫn sử dụng các mô hình IBM này Ban đầu, các mô hìnhIBM được áp dụng với kho ngữ liệu tiếng Pháp và tiếng Anh từ các hoạt độngcủa Quốc hội Canada nhưng có thể được áp dụng cho các cặp ngôn ngữ khác.Khi làm việc trên ngữ liệu Pháp-Anh:

• f là câu nguồn gồm j từ (f = f1, , fj)

Trang 28

mô hình kênh nhiễu Có nhiều nghiên cứu để giải quyết vấn đề nêu trong côngthức 1.2.1 Phương pháp dựa trên cú pháp như ánh xạ tree-to-tree (Yamada

và Kinight,2001) [110], tree-to-string hoặc string-to-tree (Galley và cộng sự,2004) [31] (Koehn và cộng sự, 2003) [59], (Och và Ney, 2004) [89] đưa ra môhình dựa trên cụm sử dụng phương pháp để học các cụm từ cạnh nhau trênkho ngữ liệu song ngữ và sử dụng chúng trong suốt quá trình dịch Một sửa đổicủa mô hình dựa trên cụm là mô hình dựa trên cụm phân cấp, học các cụm

từ liên tục và không liên tục, sử dụng chúng riêng biệt trong quá trình dịch(Chiang,2005,2007) [18, 19] Nghiên cứu của chúng tôi sử dụng dịch máy thống

Trang 29

Hình 1.2: Kiến trúc cơ bản của hệ thống dịch máy thống kê

kê dựa trên cụm từ do các ưu điểm trong việc xử lý các vấn đề liên quan đếnđảo trật tự từ trong dịch máy thống kê được đề cập trong mục 1.6.1

1.2.2 Cấu trúc hệ thống dịch máy

Luận án này sử dụng hệ thống dịch máy thống kê dựa trên cụm từ Moses [57]

là hệ thống dịch máy thống kê mã nguồn mở cho phép dịch tự động trên nhiềucặp song ngữ Trong quá trình huấn luyện mô hình, thuật toán tìm kiếm tínhxác suất dịch cao nhất trong các khả năng có thể dịch ra Moses được sử dụng

để đánh giá chất lượng dịch trên cặp ngôn ngữ Anh-Việt Hình 1.3 thể hiệncác bước trong công cụ Moses để xây dựng hệ thống Cấu trúc tổng quát của

hệ thống được tóm tắt gồm năm giai đoạn chính:

1 Kho ngữ liệu song ngữ được tách từ, làm sạch dữ liệu (ví dụ như các câudài, câu ngắn)

2 Mô hình ngôn ngữ được xây dựng từ phía ngôn ngữ đích hoặc dữ liệu đơnngữ

Trang 30

Hình 1.3: Các bước xây dựng hệ thống dịch máy thống kê dựa trên cụm từ

Trang 31

3 Huấn luyện là giai đoạn tốn nhiều thời gian nhất vì hệ thống học cáchsắp xếp từ để trích xuất các cặp từ Sau đó, xây dựng mô hình dịch vàsắp xếp lại.

4 Hệ thống điều chỉnh trọng số của mỗi đặc trưng (ví dụ như mô hình ngônngữ) Bước này cũng tốn kém về mặt tính toán

5 Cuối cùng, độ đo tự động (ví dụ như BLEU [92]) đánh giá hệ thống dựatrên bản dịch của con người

1.3 Dịch máy mạng nơ-ron

Các mô hình dịch máy được sử dụng nhiều là dịch máy thống kê dựa trêncụm từ (PBSMT) (Koehn và cộng sự, 2007; Och và Ney, 2004) [59, 89] và dịchmáy nơ-ron (NMT) (Bahdanau và cộng sự, 2014; Sutskever và cộng sự, 2014;Cho và cộng sự, 2014) [4,20,98] Dịch máy dựa trên cụm từ được sử dụng nhiềutrong nghiên cứu và công nghiệp với các ưu điểm dịch đầy đủ, dễ can thiệp xử

lý gỡ lỗi trong quá trình dịch Gần đây dịch máy mạng nơ-ron đã cho thấy tiềmnăng và một số trường hợp đã vượt qua dịch máy dựa trên cụm từ (Bentivogli

và cộng sự, 2016; Junczys-Dowmunt và cộng sự, 2016; Chung và cộng sự, 2016;Shterionov và cộng sự, 2017) [9, 21, 48, 94] Ưu điểm của dịch máy nơ-ron là:dịch trôi chảy hơn, sát nghĩa hơn Tuy nhiên, nhiều trường hợp bản dịch khôngđầy đủ, hiện tượng không xác định được từ (unkown word) nhiều, quá trìnhdịch như hộp đen nên khó can thiệp xử lý và gỡ lỗi Trong nghiên cứu củaPhilip Koehn [58] đã chỉ ra 6 thách thức của dịch máy mạng nơ-ron gồm: dịchngoài miền, dịch với dữ liệu ít, các từ hiếm gặp, dịch với các câu dài, mô hìnhchú ý (Attention) không phải là gióng hàng, vấn đề khó để điều khiển nâng caochất lượng dịch Nghiên cứu của (Zheng và cộng sự) [112] chỉ ra hệ thống dịchmáy nơ-ron có thể bị gây lỗi cho các bản dịch do đặc điểm của các ngôn ngữ

và khi thiết kế các mạng nơ-ron gồm: mất thông tin, sai ngữ nghĩa và thiếu

Trang 32

- Dịch máy mạng nơ-ron cho kết quả dịch trôi chảy hơn nhưng không đầy

đủ Đầu ra bản dịch thường dễ đọc nhưng nghĩa của câu chưa hay Trong

đó dịch máy thống kê về mặt ngữ pháp, dùng mô hình ngôn ngữ có thểkhông đúng và trôi chảy như dịch máy nơ-ron, nhưng nghĩa của bản dịchthường sát nghĩa với câu nguồn

- Dịch máy mạng nơ-ron cho kết quả tốt khi dịch các câu thường hay xuất

Trang 33

hiện nhưng lại không tốt khi dịch các câu ít xuất hiện trong dữ liệu huấnluyện (ngược lại với dịch máy thống kê) Ví dụ như: các từ hiếm ít gặp,các từ không xác định Dịch máy mạng nơ-ron cho kết quả tốt khi cónhiều dữ liệu huấn luyện nhưng kết quả thường không cao theo cho cácmiền cụ thể hoặc với các ngôn ngữ có nguồn tài nguyên hạn chế.

- Dịch máy nơ-ron có thể đưa ra các ứng viên bản dịch không xuất hiệntrong dữ liệu huấn luyện, nhưng dịch máy thống kê có thể lựa chọn bảndịch tốt hơn do có thể can thiệp xử lý các bản dịch này

Trong các hệ thống dịch máy thống kê dựa trên cụm từ, các gióng hàng từcung cấp các thông tin gỡ lỗi hữu ích để kiểm tra lại mô hình Nhưng mô hìnhchú ý (Attention) của dịch máy mạng nơ-ron lại không thể quan sát các giónghàng từ theo cách thông thường, ngay cả khi đã giải quyết vấn đề Attentionnhư gióng hàng mềm (soft alignments)

Dịch máy thống kê dựa trên cụm từ, đặc biệt vấn đề tiền xử lý sắp xếp vẫnthể hiện các ưu điểm trong các trường hợp các ngôn ngữ với nguồn tài nguyênhạn chế Năm 2018, trong dự án về dịch máy cho các ngôn ngữ hạn chế về tàinguyên [56], Philip Koehn đã đề cập đến vấn đề cần rất nhiều dữ liệu cho các

hệ thống dịch mạng nơ-ron Trường hợp hạn chế nguồn tài nguyên, dịch máydựa trên mạng nơ-ron chưa thể hiện được các ưu điểm so với dịch máy thống

kê dựa trên cụm Các ưu điểm của dịch thống kê dựa trên cụm từ là hướngnghiên cứu được quan tâm để kết hợp với điểm mạnh trong dịch máy mạngnơ-ron (Guillaume và cộng sự, 2018; Castilho và cộng sự, 2019) [14, 61]

Trang 34

việc kiểm tra lỗi ngữ pháp ta cần thực hiện phân tích cú pháp câu đầu vào,xem cấu trúc đó có đúng hay không?

Trong dịch máy hiện nay, có ba chiến lược cơ bản là dịch trực tiếp, dịchchuyển đổi và dịch liên ngữ Đối với dịch trực tiếp, cách dịch này dựa vào bộphận từ điển song ngữ để dịch, không hề sử dụng tới phân tích cú pháp Trongdịch chuyển đổi và dịch liên ngữ, quá trình phân tích cú pháp là một bướcquan trọng Tư tưởng chung ở đây là đều phân tích câu nguồn trở thành cây

cú pháp sử dụng bộ phân tích cú pháp Đối với dịch chuyển đổi, hệ thống sẽxây dựng cây cú pháp tương ứng trong ngôn ngữ đích và cuối cùng đưa ra cây

cú pháp thành phần Đối với dịch liên ngữ, cây cú pháp ở ngôn ngữ nguồn đượcđưa thành một biểu diễn chung giữa hai ngôn ngữ, sau đó dạng biểu diễn nàyđược chuyển về cây cú pháp ở ngôn ngữ đích, cuối cùng trả về câu cần dịch.Trong lĩnh vực nhận dạng tiếng nói sử dụng phân tích cú pháp có thể giúpsửa sai quá trình nhận dạng Trong tổng hợp tiếng nói, phân tích cú pháp giúpđặt trọng âm vào đúng vị trí trong câu

Những ví dụ ở trên đây, đã khẳng định được vai trò của phân tích cú pháptrong xử lý ngôn ngữ tự nhiên

Phân tích cú pháp có vai trò quan trọng trong lĩnh vực xử lý văn bản vì nó

là bước trung gian của nhiều bài toán lớn như: tóm tắt văn bản, dịch máy, hỏiđáp tự động Phân tích cú pháp phụ thuộc [60, 69] thu hút được sự quan tâmcủa nhiều nhóm nghiên cứu xử lý ngôn ngữ tự nhiên trên thế giới bởi quan hệphụ thuộc giữa hai từ vựng có thể có ích trong khử nhập nhằng và khả năng

mô hình hóa các ngôn ngữ có trật tự từ tự do Cú pháp phụ thuộc là một dạngbiểu diễn câu có nhiều ứng dụng cho các bài toán phức tạp như trích chọnthông tin hay tóm tắt văn bản

Các tiếp cận cho bài toán này đều dựa trên học máy và đòi hỏi kho ngữliệu với nhiều thông tin về từ loại và quan hệ phụ thuộc

Cú pháp phụ thuộc [67] có cấu trúc cú pháp chứa các mục từ vựng nối với

Trang 35

Hình 1.5: Biểu diễn đồ thị cây phân tích phụ thuộc với các nhãn quan hệ.

nhau bởi các quan hệ nhị phân không đối xứng gọi là sự phụ thuộc Quan hệphụ thuộc này có thể được đặt tên để làm rõ liên hệ giữa hai mục từ

Hình 1.6: Biểu diễn dạng cây với dữ liệu phụ thuộc định dạng CoNLL.

Hình 1.5, hình 1.6 là minh họa cú pháp phụ thuộc của một câu tiếng Việt.Theo quy ước phổ biến trong các tài liệu về cú pháp phụ thuộc thì mục từ nằm

ở gốc của mũi tên là từ chính – gọi là head, mục từ nằm ở đầu mũi tên là từphụ - gọi là dependent

Có thể định nghĩa một cách hình thức: cú pháp phụ thuộc của một câu chotrước là một đồ thị định hướng với gốc root là một nút giả, thường được chèn

Trang 36

vào bên trái câu, các nút còn lại là các mục từ của câu Đồ thị này có các tínhchất sau:

1 Nó liên thông yếu (có xét hướng)

2 Mỗi mục từ có chính xác một cạnh đi vào (trừ root là không có cạnh đivào)

3 Không có chu trình

4 Nếu có n mục từ trong câu (kể cả root) thì đồ thị có chính xác (n-1) cạnh

Nhờ cách mô hình hóa như trên, cú pháp phụ thuộc biểu diễn được những ngônngữ có trật tự từ tự do, đây là điều mà cú pháp cấu trúc cụm - vốn phù hợpvới những ngôn ngữ có nhiều quy tắc chặt chẽ trong cấu thành câu - khônglàm được Tuy vậy, không có nghĩa là phân tích ngôn ngữ có trật tự từ xácđịnh thì chỉ dùng cấu trúc cụm hay phân tích ngôn ngữ có trật tự từ tự do thìchỉ dùng cấu trúc phụ thuộc

Các tiếp cận cho bài toán phân tích cú pháp này dựa trên học máy và đòihỏi kho ngữ liệu với nhiều thông tin về từ loại và quan hệ phụ thuộc

Đối với tiếng Anh đã có nhiều nghiên cứu cho phân tích cú pháp phụthuộc [17, 70, 85] Nghiên cứu của (Dozat and Manning, 2017) [29] sử dụng họcsâu với mô hình chú ý (Attention) cho phân tích cú pháp phụ thuộc mạng nơ-ron Nghiên cứu của (Nguyen and Verspoor, 2018) [79] cải tiến mô hình mạngnơ-ron cho việc gán nhãn và phân tích phụ thuộc Nghiên cứu của (Kiperwasserand Goldberg, 2016) [54] phân tích cú pháp phụ thuộc nhanh và chính xác sửdụng các thể hiện đặc trưng Bi-LSTM Các nghiên cứu này đánh giá dựa trênkho ngữ liệu Penn Treebank với độ chính xác cao trong việc dự đoán các POS-tags với cả hai trường hợp điểm gãn nhãn (LAS-labeled attachment score) vàkhông gán nhãn (UAS-unlabeled attachment score) Trong các công bố nghiêncứu về phân tích cú pháp phụ thuộc tiếng Việt [83], [78], [77] độ chính xác cònthấp, chất lượng phân tích cú pháp chưa cao

Trang 37

Nghiên cứu nâng cao chất lượng phân tích cú pháp phụ thuộc góp phần cảitiến chất lượng các hệ dịch và trên cơ sở đó đưa ra các phương pháp giải quyếtbài toán đảo trật tự từ trong dịch máy thống kê Anh-Việt dựa vào cụm từ theohướng tiếp cận tiền xử lý dựa sử dụng cây cú pháp phụ thuộc.

1.5 Vấn đề đảo trật tự từ trong dịch máy

1.5.1 Sự khác nhau về thứ tự từ giữa các ngôn ngữ

Trong ngôn ngữ học, hệ thống phân loại theo trật tự từ nói tới nghiên cứu

về cách mà ngôn ngữ sắp xếp đối với các thành phần của một câu và về quan

hệ giữa các cách sắp xếp này

Với hầu hết các ngôn ngữ có danh từ chiếm đa số, ta có thể định nghĩa mộttrật tự từ cơ bản theo động từ nguyên thể (V) và các đối số của nó, chủ ngữ(S) và tân ngữ (O) Theo đó có 6 trật tự cơ bản: SVO, SOV, VSO, VOS, OSV,OVS Ngữ pháp Việt Nam thuộc loại SVO

Bên cạnh các trật tự đã đề cập, còn một lớp các ngôn ngữ đáng lưu ý đượcgọi là ngôn ngữ có trật tự từ tự do (free word order language) – ví dụ nhưtiếng La-tinh, Séc, Hung-ga-ri, Ba Lan, Nga - đòi hỏi các phương pháp nghiêncứu phức tạp hơn trong bài toán phân tích tự động cú pháp phụ thuộc

Các ngôn ngữ có các từ để chỉ tên với các ý nghĩa như chỉ vật (danh từ), chỉhành động (động từ), chỉ thuộc tính (tính từ, trạng từ) Các từ chức nănggiúp kết hợp các câu với nhau Trật tự từ cũng giúp xác định mối quan hệ giữacác từ

Chi tiết về sự khác nhau về thứ tự từ giữa các ngôn ngữ được trình bàytrong phụ lục ở cuối luận án

Trang 38

1.5.2 Đảo trật tự từ trong dịch máy

Vấn đề đảo giữa các cụm có vị trí (khoảng cách) xa nhau vẫn được xemnhư là một thách thức Để giải quyết thách thức, nhiều nỗ lực nghiên cứu theohướng tích hợp cú pháp câu vào dịch thống kê đã được áp dụng như [88] kếthợp cụm từ, tổ hợp cú pháp câu vào dịch máy thống kê Bên cạnh đó, ngoàimức cụm từ, một số công trình cũng áp dụng nghiên cứu ở mức từ [22] Nhữngtiếp cận dựa trên cú pháp câu [34] đặc biệt khả dụng với các ngôn ngữ giàungữ cảnh [2,3,109], đồng thời khắc phục được vấn đề dữ liệu thưa Các tiếp cậnkhác thực hiện trên cấu trúc cây cú pháp [108], [33]; trong đó cây cú pháp có

ưu điểm thể hiện rõ cấu trúc câu nhưng có nhược điểm là tốn kém trong tiếntrình dựng cây Ngoài ra, việc xây dựng bộ phân tích cú pháp có chất lượngtốt là một vấn đề phức tạp Tất cả những tiếp cận trình bày trên đều chi phínhiều thời gian ở bước giải mã và đòi hỏi tài nguyên đáng kể từ hệ thống.Hướng tiếp cận hiệu quả là đề xuất việc cân bằng giữa chất lượng dịch vàthời gian giải mã, thực hiện tiền xử lý quá trình sắp xếp lại [108], [33], [65]một cách hiệu quả (cải thiện so với các hệ thống dịch máy dựa trên cụm vàphân cấp) Chất lượng được đánh giá khả quan trong các mô hình sắp xếp lại.Nghiên cứu của (Bisazza và cộng sự, 2016) [10] đưa ra khảo sát về đảo trật tự

từ trong các ngôn ngữ qua hai vấn đề là mô hình tính toán và hiện tượng ngônngữ trong dịch máy thống kê, cũng chỉ ra tính hiệu quả của phương pháp tiền

xử lý

Trang 39

1.6 Bài toán đảo trật tự từ trong mô hình dịch

máy dựa trên cụm từ

1.6.1 Mô hình dịch máy dựa trên cụm từ

Dịch máy thống kê dựa trên cụm từ [59] được mô tả gồm: thực hiện dịchcâu ngôn ngữ nguồn sang ngôn ngữ đích bằng cách chia câu nguồn thành cácchuỗi cụm từ, mỗi cụm được dịch sang ngôn ngữ địch, sau đó tổng hợp tất cảcác cụm thành một câu Hình 1.7 thể hiện mô hình dịch máy dựa trên cụm từkhi dịch từ ngôn ngữ tiếng Pháp sang ngôn ngữ tiếng Anh

Hình 1.7: Ví dụ về mô hình dịch máy dựa trên cụm từ cho dịch từ ngôn ngữ tiếng Pháp sang tiếng Anh.

Từ một câu trong ngôn ngữ nguồn có thể dịch ra rất nhiều câu trong ngônngữ đích Với mỗi khả năng đó, hệ thống sẽ tính một giá trị là tổ hợp tuyếntính các các giá trị đặc trưng, những câu dịch có giá trị cao nhất sẽ được lựachọn là kết quả dịch từ câu nguồn ban đầu Biểu diễn của phép tổ hợp đó nhưsau:

- s: câu đầu vào bên ngôn ngữ nguồn

- t: câu bên ngôn ngữ đích được dịch ra từ câu nguồn

Trang 40

- a: là gióng hàng của cụm bên câu nguồn.

- ˆt: là câu được lựa chọn trong tất cả các khả năng có thể dịch từ câunguồn

- λ i các trọng số cho từng đặc trưng f i là các giá trị tốt nhất trong quátrình dịch

Xác suất của câu nguồn cho bởi câu đích và xác suất của câu đích cho bởi câunguồn được tính toán từ bộ dữ liệu song ngữ

Hình 1.8 thể hiện kiến trúc của hệ thống dịch máy dựa trên cụm từ Từngôn ngữ nguồn dựa vào thuật toán tìm kiếm Beam Search [101] và các đặctrưng của hệ dịch máy thống kê dựa trên cụm từ (mô hình ngôn ngữ, mô hìnhdịch, mô hình đảo cụm, ) kết quả đầu ra là ngôn ngữ đích

Koehn [59] sử dụng mô hình đảo từ để đơn giản hóa điểm phạt gióng hàngcác cụm từ đơn ngữ dựa trên khoảng cách giữa các từ đã được dịch ra bởi cáccụm từ phía ngôn ngữ nguồn với một giá trị xấp xỉ của biến α:

d(ai− bi−1) = α|ai −b i−1 −1| (1.6.5)

Cách tiếp cận thành công nhất trong hệ dịch máy là dịch dựa vào cụm từ, nghĩa là sử dụng cụm từ làm đơn vị nguyên tử Các cụm từ trong phương pháp này không theo nghĩa của ngôn ngữ học mà là trình tự tiếp giáp của nhiều từ trong một câu Trong phương pháp này, câu đầu vào của ngôn ngữ nguồn được chia thành một chuỗi các cụm từ, những cụm từ này được ánh xạ một – một để cho ra được các cụm từ của ngôn ngữ đích, thứ tự của các cụm từ trong ngôn ngữ đích có thể được sắp xếp lại Thông thường các mô hình cụm từ được ước lượng từ các tập từ song song với sự liên kết của từ Tất cả các cặp cụm từ phù hợp với sự liên kết của từ đều được trích xuất Xác suất được đưa

ra dựa trên số lượng tương đối hoặc xác suất dịch từ vựng

),(

1 e f h

M« h×nh ng«n ng÷

),(

2 e f h

f e h e

1

*

),(max

Kiến trúc của mô hình dịch dựa trên cụm từ

Mô hình dịch dựa trên cụm từ thường không thực hiện đúng theo trình tự của phương pháp dựa trên cơ sở từ, mà sử dụng khuôn dạng của bản ghi tuyến tính Các thành phần như là mô hình ngôn ngữ, mô hình dịch cụm từ, mô hình dịch từ vựng hoặc mô hình đảo cụm đều được sử dụng một cách thích hợp Khuôn dạng này cho phép tích hợp các tính năng bổ sung như số lượng các từ được tạo ra hoặc số các bản dịch cụm từ được sử dụng

Mô hình đảo cụm thường được mô hình hóa bởi một khoảng cách cơ sở Đảo cụm thường bị giới hạn bởi sự dịch chuyển số lượng tối đa các từ Các

mô hình đảo cụm thường tuân theo ngữ pháp của ngôn ngữ đích (ví dụ như

Hình 1.8: Kiến trúc của mô hình dịch dựa trên cụm từ

38

Ngày đăng: 12/04/2021, 19:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Y. Al-Onaizan, J. Curin, M. Jahr, K. Knight, J. Lafferty, I. D. Melamed, F. J. Och, D. Purdy, N. A. Smith, and D. Yarowsky. Statistical machine translation, final report, JHU workshop, 1999 Sách, tạp chí
Tiêu đề: Statistical machine translation, final report
Tác giả: Y. Al-Onaizan, J. Curin, M. Jahr, K. Knight, J. Lafferty, I. D. Melamed, F. J. Och, D. Purdy, N. A. Smith, D. Yarowsky
Nhà XB: JHU workshop
Năm: 1999
[3] Nguyen Bach. Dependency Structures for Statistical Machine Transla- tion. PhD thesis, School of Computer Science Carnegie Mellon University, 2012 Sách, tạp chí
Tiêu đề: Dependency Structures for Statistical Machine Translation
Tác giả: Nguyen Bach
Nhà XB: School of Computer Science Carnegie Mellon University
Năm: 2012
[4] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural ma- chine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014 Sách, tạp chí
Tiêu đề: Neural machine translation by jointly learning to align and translate
Tác giả: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
Nhà XB: CoRR
Năm: 2014
[7] Antonio Valerio Miceli Barone and Giuseppe Attardi. Non-projective dependency-based pre-reordering with recurrent neural network for ma- Sách, tạp chí
Tiêu đề: Non-projective dependency-based pre-reordering with recurrent neural network for ma-
Tác giả: Antonio Valerio Miceli Barone, Giuseppe Attardi
[9] Luisa Bentivogli, Arianna Bisazza, Mauro Cettolo, and Marcello Federico.Neural versus phrase-based machine translation quality: a case study.In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA, November 1-4, 2016, pages 257–267, 2016 Sách, tạp chí
Tiêu đề: Neural versus phrase-based machine translation quality: a case study
Tác giả: Luisa Bentivogli, Arianna Bisazza, Mauro Cettolo, Marcello Federico
Nhà XB: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing
Năm: 2016
[11] Peter F. Brown, J. Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, F. Jelinek, John D. Lafferty, R. L. Mercer, and P. S. Roossin. A statistical approach to machine translation. Computational Linguistics, 16(2):79–85, 1990 Sách, tạp chí
Tiêu đề: A statistical approach to machine translation
Tác giả: Peter F. Brown, J. Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, F. Jelinek, John D. Lafferty, R. L. Mercer, P. S. Roossin
Nhà XB: Computational Linguistics
Năm: 1990
[12] Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and R. L. Mercer. The mathematics of statistical machine translation: pa- rameter estimation. Computational Linguistics, 19(2):263–311, 1993 Sách, tạp chí
Tiêu đề: The mathematics of statistical machine translation: parameter estimation
Tác giả: Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, R. L. Mercer
Nhà XB: Computational Linguistics
Năm: 1993
[13] Sabine Buchholz and Erwin Marsi. Conll-x shared task on multilingual dependency parsing. In Proceedings of the Tenth Conference on Computa- tional Natural Language Learning, CoNLL-X ’06, pages 149–164, Strouds- burg, PA, USA, 2006. Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Conll-x shared task on multilingual dependency parsing
Tác giả: Sabine Buchholz, Erwin Marsi
Nhà XB: Association for Computational Linguistics
Năm: 2006
[14] Sheila Castilho, Federico Gaspari, Joss Moorkens, Maja Popovi´ c, and Antonio Toral. Editors’ foreword to the special issue on human factors in neural machine translation. Machine Translation, May 2019 Sách, tạp chí
Tiêu đề: Editors’ foreword to the special issue on human factors in neural machine translation
Tác giả: Sheila Castilho, Federico Gaspari, Joss Moorkens, Maja Popović, Antonio Toral
Nhà XB: Machine Translation
Năm: 2019
[16] Pi-Chuan Chang, Huihsin Tseng, Dan Jurafsky, and Christopher D. Man- ning. Discriminative reordering with chinese grammatical relations fea- tures. In Proceedings of the Third Workshop on Syntax and Structure in Statistical Translation, SSST ’09, pages 51–59, Stroudsburg, PA, USA, 2009. Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Discriminative reordering with chinese grammatical relations features
Tác giả: Pi-Chuan Chang, Huihsin Tseng, Dan Jurafsky, Christopher D. Manning
Nhà XB: Association for Computational Linguistics
Năm: 2009
[17] Danqi Chen and Christopher D. Manning. A fast and accurate depen- dency parser using neural networks. In Alessandro Moschitti, Bo Pang, and Walter Daelemans, editors, EMNLP, pages 740–750. ACL, 2014 Sách, tạp chí
Tiêu đề: A fast and accurate dependency parser using neural networks
Tác giả: Danqi Chen, Christopher D. Manning
Nhà XB: ACL
Năm: 2014
[18] David Chiang. A hierarchical phrase-based model for statistical machine translation. In Proceedings of the 43rd Annual Meeting of the Associa- tion for Computational Linguistics (ACL’05), pages 263–270, Ann Arbor, Michigan, June 2005 Sách, tạp chí
Tiêu đề: A hierarchical phrase-based model for statistical machine translation
Tác giả: David Chiang
Nhà XB: Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL’05)
Năm: 2005
[20] Kyunghyun Cho, Bart van Merrienboer, C á aglar Gă ulácehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase repre- sentations using RNN encoder-decoder for statistical machine translation.CoRR, abs/1406.1078, 2014 Sách, tạp chí
Tiêu đề: Learning phrase representations using RNN encoder-decoder for statistical machine translation
Tác giả: Kyunghyun Cho, Bart van Merrienboer, C á aglar Gă ulácehre, Fethi Bougares, Holger Schwenk, Yoshua Bengio
Nhà XB: CoRR
Năm: 2014
[21] Junyoung Chung, Kyunghyun Cho, and Yoshua Bengio. A character-level decoder without explicit segmentation for neural machine translation. In Proceedings of the 54th Annual Meeting of the Association for Compu- tational Linguistics, ACL 2016, August 7-12, 2016, Berlin, Germany, Volume 1: Long Papers, 2016 Sách, tạp chí
Tiêu đề: A character-level decoder without explicit segmentation for neural machine translation
Tác giả: Junyoung Chung, Kyunghyun Cho, Yoshua Bengio
Nhà XB: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics
Năm: 2016
[22] M. Collins, P. Koehn, and I. Kucerová. Clause restructuring for statistical machine translation. In Proc. ACL 2005, pages 531–540. Ann Arbor, USA, 2005 Sách, tạp chí
Tiêu đề: Clause restructuring for statistical machine translation
Tác giả: M. Collins, P. Koehn, I. Kucerová
Nhà XB: Proc. ACL 2005
Năm: 2005
[23] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machine Learning, 20(3):273–297, Sep 1995 Sách, tạp chí
Tiêu đề: Support-vector networks
Tác giả: Corinna Cortes, Vladimir Vapnik
Nhà XB: Machine Learning
Năm: 1995
[24] Yiming Cui, Shijin Wang, Jianfeng Li, and Yuguang Wang. LSTM neural reordering feature for statistical machine translation. NAACL HLT, 2016 Sách, tạp chí
Tiêu đề: LSTM neural reordering feature for statistical machine translation
Tác giả: Yiming Cui, Shijin Wang, Jianfeng Li, Yuguang Wang
Nhà XB: NAACL HLT
Năm: 2016
[26] Marie-Catherine de Marnee and Christoper Manning. Stanford typed dependencies manual. 01 2008 Sách, tạp chí
Tiêu đề: Stanford typed dependencies manual
Tác giả: Marie-Catherine de Marnee, Christoper Manning
Năm: 2008
[27] Bill MacCartney de Marneffe and Christopher D.Manning. Generating typed dependency parses from phrase structure parses. In In the Pro- ceeding of the 5th International Conference on Language Resources and Evaluation, 2006 Sách, tạp chí
Tiêu đề: Generating typed dependency parses from phrase structure parses
Tác giả: Bill MacCartney de Marneffe, Christopher D.Manning
Nhà XB: Proceeding of the 5th International Conference on Language Resources and Evaluation
Năm: 2006
[28] George Doddington. Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. In Proceedings of the Second In- ternational Conference on Human Language Technology Research, HLT122 Sách, tạp chí
Tiêu đề: Automatic evaluation of machine translation quality using n-gram co-occurrence statistics
Tác giả: George Doddington
Nhà XB: Proceedings of the Second International Conference on Human Language Technology Research

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w