Trên thực tế, việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt ra từ rất lâu, nhưng thành công của các hệ dịch tự động chỉ giới hạn trong các cặp ngôn ngữ tương
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-TRẦN LÊ TÂM LINH
NHỮNG LỖI NGÔN NGỮ CỦA PHẦN MỀM GOOGLE TRANSLATE KHI DỊCH TỰ ĐỘNG ANH-VIỆT CÁC HỢP ĐỒNG KINH TẾ
LUẬN ÁN TIẾN SĨ NGỮ VĂN
Thành phố Hồ Chí Minh - năm 2017
Trang 2-TRẦN LÊ TÂM LINH
NHỮNG LỖI NGÔN NGỮ CỦA PHẦN MỀM GOOGLE TRANSLATE KHI DỊCH TỰ ĐỘNG ANH-VIỆT CÁC HỢP ĐỒNG KINH TẾ
Chuyên ngành: Ngôn ngữ học so sánh đối chiếu
Mã số: 62.22.01.10
LUẬN ÁN TIẾN SĨ NGỮ VĂN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học của tôi
Các kết quả của luận án là trung thực và chưa từng được ai khác công bố trong bất kỳ công trình nào khác
TP.HCM, ngày 25 tháng 03 năm 2017 Người thực hiện
Trần Lê Tâm Linh
Trang 4LỜI CẢM ƠN
Lời đầu tiên, tác giả xin được bày tỏ lòng tri ân sâu sắc đối với Thầy hướng dẫn: PGS TS Đinh Điền, người đã trực tiếp hướng dẫn và luôn chỉ bảo cho tác giả từ những bước đầu ban đầu khó khăn, động viên tác giả về mọi mặt để tác giả có thể hoàn thành được luận án
Tác giả cũng xin được bày tỏ lòng biết ơn chân thành đối với các thầy cô tại Trường Đại học Khoa học Xã hội và Nhân văn, TP.HCM vì
đã truyền đạt cho tác giả những kiến thức quý báu để tác giả có thể phát triển được đề tài của luận án
Tác giả cũng xin được cảm ơn lãnh đạo trường Đại học Khoa học
Xã hội và Nhân văn, Thành phố Hồ Chí Minh và lãnh đạo trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh vì đã tạo mọi điều kiện thuận lợi cho tác giả trong quá trình học tập
Và cũng xin gửi lời cảm ơn trân trọng đến các anh chị em đồng nghiệp, bạn bè và những người thân trong gia đình vì đã luôn động viên
và giúp đỡ tác giả thực hiện luận án
Cuối cùng, tác giả cũng xin chân thành cảm ơn tất cả các bạn hữu lớp CEO-48 vì đã giúp đỡ tác giả trong việc thu thập nguồn ngữ liệu cho luận án này
Trang 5MỤC LỤC
MỞ ĐẦU 1
0.1 Lý do nghiên cứu 1
0.2 Mục tiêu và nhiệm vụ nghiên cứu 1
0.3 Lịch sử vấn đề 2
0.3.1 Nghiên cứu về lỗi 2
0.3.2 Nghiên cứu về lỗi dịch thuật 3
0.3.3 Nghiên cứu về dịch tự động 4
0.3.4 Nghiên cứu về lỗi khi dịch tự động 5
0.4 Đối tượng và phạm vi nghiên cứu 6
0.4.1 Đối tượng nghiên cứu 6
0.4.2 Phạm vi nghiên cứu 6
0.5 Phương pháp nghiên cứu và nguồn ngữ liệu 6
0.5.1 Phương pháp nghiên cứu 6
0.5.2 Phần mềm BLAST 7
0.5.3 Phần mềm BLAST - VCL 8
0.5.4 Nguồn ngữ liệu 8
0.6 Ý nghĩa khoa học và ý nghĩa thực tiễn 9
0.7 Bố cục của luận án 10
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 11
1.1 Khái niệm lỗi 11
1.1.1 Lỗi ngôn ngữ 11
1.1.1.1 Khái niệm lỗi chính tả 11
1.1.1.2 Khái niệm lỗi từ vựng 11
1.1.1.3 Khái niệm lỗi ngữ pháp 11
1.1.2 Lỗi kỹ thuật 12
1.1.2.1 Khái niệm lỗi hệ thống 12
1.1.2.2 Khái niệm lỗi ngẫu nhiên 12
1.2 Cơ sở lý luận của việc phân tích lỗi dịch thuật 12
1.2.1 Định nghĩa lỗi dịch thuật và lỗi dịch tự động 12
1.2.1.1 Định nghĩa lỗi dịch thuật 12
Trang 61.2.1.2 Định nghĩa lỗi dịch tự động 13
1.2.2 Các bước xử lý ngữ liệu trước khi phân tích lỗi 14
1.2.2.1 Thu thập ngữ liệu 14
1.2.2.2 Chuẩn hóa ngữ liệu 14
1.2.2.3 Xử lý ngữ liệu 14
1.2.3 Phân tích lỗi dịch tự động Anh-Việt 18
1.2.3.1 Nhận dạng lỗi dịch tự động 18
1.2.3.2 Phân tích lỗi dịch tự động 19
1.3 Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế 20
1.3.1 Đặc điểm của dịch tự động 21
1.3.1.1 Khái niệm về dịch tự động 21
1.3.1.2 Những thuận lợi và bất lợi trong dịch tự động 21
1.3.1.3 Các cách tiếp cận đối với dịch tự động chưa ứng dụng thống kê 22
1.3.1.4 Dịch tự động thống kê (SMT) 25
1.3.2 Đặc điểm về loại hình của tiếng Việt và tiếng Anh 28
1.3.2.1 Đặc điểm của tiếng Việt 28
1.3.2.2 Đặc điểm của tiếng Anh 29
1.3.3 Hợp đồng kinh tế 29
1.3.3.1 Khái niệm hợp đồng kinh tế 29
1.3.3.2 Các loại hợp đồng kinh tế 29
1.3.4 Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động 31
1.3.4.1 Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt 32
1.3.4.2 Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt 36
1.3.4.3 Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt 38
1.3.4.4 Lỗi hệ thống khi dịch tự động hợp đồng kinh tế Anh-Việt 40
1.3.4.5 Lỗi ngẫu nhiên khi dịch tự động hợp đồng kinh tế Anh-Việt 42
CHƯƠNG 2 PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG 45
2.1 Lỗi chính tả 45
2.1.1 Lỗi dịch sai chữ số - loại I 45
2.1.2 Lỗi dịch sai chữ số - loại II 46
2.1.3 Lỗi dịch sai dấu câu - loại I 47
Trang 72.1.4 Lỗi dịch sai dấu câu - loại II 48
2.1.5 Lỗi thành phần của cấu trúc âm tiết - loại II 48
2.1.6 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I 49
2.1.7 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II 50
2.1.8 Lỗi viết hoa - loại I 51
2.1.9 Lỗi viết hoa - loại II 52
2.1.10 Lỗi viết tắt – loại I 53
2.1.11 Lỗi viết tắt – loại II 53
2.1.12 Các lỗi chính tả khác- loại II 54
2.2 Lỗi từ vựng 57
2.2.1 Lỗi nhập nhằng - loại I 57
2.2.2 Lỗi nhập nhằng - loại II 58
2.2.3 Lỗi hiểu sai thành ngữ- loại II 59
2.2.4 Lỗi hiểu sai nghĩa thuật ngữ - loại I 60
2.2.5 Lỗi hiểu sai nghĩa thuật ngữ - loại II 61
2.3 Lỗi kỹ thuật 65
2.3.1 Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống 66
2.3.2 Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên 70
2.3.3 Lỗi hệ thống và lỗi ngẫu nhiên thông qua khoảng cách Levenshtein 72
2.3.3.1 Kết quả lỗi hệ thống thông qua khoảng cách Levenshtein 73
2.3.3.2 Kết quả lỗi ngẫu nhiên thông qua khoảng cách Levenshtein 75
TIỂU KẾT 79
CHƯƠNG 3 PHÂN TÍCH LỖI NGỮ PHÁP 80
3.1 Lỗi trật tự từ 80
3.1.1 Lỗi trật tự từ theo tiêu chí BLAST 80
3.1.2 Lỗi trật tự từ theo tiêu chí BLAST-VCL 83
3.1.2.1 Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động 84
3.1.2.2 Lỗi trật tự từ giữa tính từ - danh từ 86
3.1.2.3 Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh 87
3.1.2.4 Lỗi trật tự từ giữa mạo từ - danh từ trong tiếng Anh 88
3.1.2.5 Lỗi trật tự từ thuộc liên từ 89
Trang 83.1.2.6 Lỗi trật tự từ giữa danh từ - danh từ 90
3.1.2.7 Lỗi trật tự từ giữa danh từ - sở hữu cách - danh từ 90
3.1.2.8 Lỗi trật tự từ giữa số - danh từ 91
3.1.2.9 Lỗi trật tự từ giữa giới từ - danh từ 92
3.1.2.10 Lỗi trật tự từ giữa chủ từ - động từ 93
3.1.2.11 Lỗi trật tự từ giữa động từ - trạng từ trong tiếng Anh 94
3.1.2.12 Lỗi trật tự từ giữa động từ - túc từ 94
3.1.2.13 Lỗi trật tự từ giữa động từ - động từ 95
3.2 Lỗi dịch sai từ công cụ - loại II 97
3.3 Lỗi dịch sai khi hòa hợp giữa chủ từ và động từ - loại II 99
3.4 Lỗi thừa từ 99
3.4.1 Lỗi thừa từ - loại I 100
3.4.1.1 Lỗi thừa từ nội dung - loại I 100
3.4.1.2 Lỗi thừa từ ngữ pháp - loại I 101
3.4.1.3 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I 101
3.4.2 Lỗi thừa từ - loại II 102
3.4.2.1 Lỗi thừa từ nội dung - loại II 102
3.4.2.2 Lỗi thừa từ ngữ pháp - loại II 103
3.4.2.3 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II 104
3.5 Lỗi thiếu từ 105
3.5.1 Lỗi thiếu từ - loại I 105
3.5.1.1 Lỗi thiếu từ nội dung - loại I 105
3.5.1.2 Lỗi thiếu từ ngữ pháp - loại I 106
3.5.2 Lỗi thiếu từ - loại II 106
3.5.2.1 Lỗi thiếu từ nội dung - loại II 106
3.5.2.2 Lỗi thiếu từ ngữ pháp - loại II 107
3.6 Lỗi kỹ thuật 111
3.6.1 Lỗi ngữ pháp thuộc lỗi hệ thống 111
3.6.2 Lỗi ngữ pháp thuộc lỗi ngẫu nhiên 114
TIỂU KẾT 117
KẾT LUẬN 119
Trang 9DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN
ÁN CỦA TÁC GIẢ 124TÀI LIỆU THAM KHẢO 126
Trang 10DANH SÁCH BẢNG
Bảng 1 1 Minh họa lỗi hệ thống thông qua khoảng cách Levenshtein 41
Bảng 2 1 Lỗi dịch sai chữ số - loại I 46
Bảng 2 2 Lỗi dịch sai chữ số - loại II 46
Bảng 2 3 Lỗi dịch sai dấu câu - loại I 47
Bảng 2 4 Lỗi dịch sai dấu câu - loại II 48
Bảng 2 5 Các loại lỗi hình thái khác 49
Bảng 2 6 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I 49
Bảng 2 7 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II 50
Bảng 2 8 Lỗi viết hoa – loại I 51
Bảng 2 9 Lỗi viết hoa – loại II 52
Bảng 2 10 Lỗi viết hoa – loại II 53
Bảng 2 11 Lỗi viết hoa – loại II 53
Bảng 2 12 Các lỗi chính tả khác- loại II 54
Bảng 2 13 Lỗi nhập nhằng - loại I 57
Bảng 2 14 Lỗi nhập nhằng - loại II 58
Bảng 2 15 Lỗi hiểu sai thành ngữ 59
Bảng 2 16 Lỗi hiểu sai nghĩa thuật ngữ - loại I 60
Bảng 2 17 Lỗi hiểu sai nghĩa thuật ngữ - loại II 61
Bảng 2 18 Minh họa lỗi hệ thống có L1 = 0 73
Bảng 2 19 Minh họa lỗi ngẫu nhiên - năm 2014 dịch tốt hơn năm 2012 75
Bảng 2 20 Minh họa lỗi ngẫu nhiên - năm 2012 dịch tốt hơn năm 2014 77
Bảng 3 1 Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động 85
Bảng 3 2 Lỗi trật tự từ giữa tính từ - danh từ 86
Bảng 3 3 Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh 87
Bảng 3 4 Lỗi trật tự từ giữa mạo từ - danh từ 88
Bảng 3 5 Lỗi trật tự từ thuộc liên từ 89
Bảng 3 6 Lỗi trật tự từ giữa danh từ - danh từ 90
Bảng 3 7 Lỗi trật tự từ giữa danh từ - sở hữu cách- danh từ 91
Bảng 3 8 Lỗi trật tự từ giữa số - danh từ 91
Bảng 3 9 Lỗi trật tự từ giữa giới từ - danh từ 92
Trang 11Bảng 3 10 Lỗi trật tự từ giữa chủ từ - động từ 93
Bảng 3 11 Lỗi trật tự từ giữa động từ - trạng từ 94
Bảng 3 12 Lỗi trật tự từ giữa động từ - túc từ 94
Bảng 3 13 Lỗi trật tự từ giữa động từ - động từ 95
Bảng 3 14 Lỗi dịch sai từ công cụ -loại II 98
Bảng 3 15 Lỗi phù ứng 99
Bảng 3 16 Lỗi thừa từ nội dung - loại I 100
Bảng 3 17 Lỗi thừa từ ngữ pháp - loại I 101
Bảng 3 18 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I 101
Bảng 3 19 Lỗi thừa từ nội dung - loại II 102
Bảng 3 20 Lỗi thừa từ ngữ pháp - loại II 103
Bảng 3 21 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II 104
Bảng 3 22 Lỗi thiếu từ nội dung - loại I 105
Bảng 3 23 Lỗi thiếu từ ngữ pháp - loại I 106
Bảng 3 24 Lỗi thiếu từ nội dung - loại II 107
Bảng 3 25 Lỗi thiếu từ ngữ pháp - loại II 108
Trang 12DANH SÁCH HÌNH
Hình 1 1 Giới thiệu tiền xử lý ngữ liệu 15
Hình 1 2 Minh họa công cụ BLAST 16
Hình 1 3 Minh họa các bước xử lý dữ liệu 17
Hình 1 4 Mô hình phân tích lỗi BLAST-VCL 18
Hình 2 1 Lỗi chính tả 56
Hình 2 2 Tỉ lệ phần trăm lỗi chính tả 57
Hình 2 3 Lỗi thuật ngữ 62
Hình 2 4 Minh họa lỗi hiểu sai nghĩa thuật ngữ - loại II 63
Hình 2 5 Lỗi từ vựng 64
Hình 2 6 Tỉ lệ phần trăm lỗi từ vựng 65
Hình 2 7 Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống 67
Hình 2 8 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống 68
Hình 2 9 Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên 71
Hình 2 10 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên 71
Hình 2 11 Số cặp câu (a) và tỷ lệ phần trăm cặp câu (b) mang lỗi hệ thống và lỗi ngẫu nhiên 72
Hình 2 12 Tỉ lệ phần trăm lỗi hệ thống và lỗi ngẫu nhiên trong 3 ngữ liệu 73
Hình 3 1 Lỗi trật tự từ theo tiêu chí BLAST 80
Hình 3 2 Số lượng câu chứa lỗi trật tự từ 82
Hình 3 3 Mô hình phân tích lỗi BLAST-VCL 83
Hình 3 4 Lỗi trật tự từ theo tiêu chí BLAST-VCL 96
Hình 3 5 Tỉ lệ phần trăm lỗi trật tự từ theo tiêu chí BLAST-VCL 97
Hình 3 6 Kết quả lỗi ngữ pháp 109
Hình 3 7 Tỉ lệ phần trăm lỗi ngữ pháp 110
Hình 3 8 Lỗi ngữ pháp theoBLAST - thuộc lỗi hệ thống 112
Hình 3 9 tỷ lệ phần trăm lỗi ngữ pháp theo BLAST - thuộc lỗi hệ thống 112
Hình 3 10 Lỗi ngữ pháp thuộc lỗi ngẫu nhiên 115
Hình 3 11 Tỷ lệ phần trăm lỗi ngữ pháp thuộc lỗi ngẫu nhiên 116
Trang 13BẢNG CHỮ VIẾT TẮT
BLAST : the Bilingual Annotator/Annotation/Analysis Support Tool
CKT : Cung Kim Tiến
LEGAL : Legal documents on labour and economic contracts, settlement of
labour and economic disputes
NL : Ngữ liệu
NN : Ngẫu nhiên
NNN : Ngôn ngữ nguồn
NTY : Nguyễn Thành Yến
SMT : Statistic Machine Translation (Dịch tự động thống kê )
TLTL : Trần Lê Tâm Linh
VCL : Vietnamese Computational Linguistics
XH-MK : Xuân Huy – Minh Khiết
Trang 14MỞ ĐẦU
0.1 Lý do nghiên cứu
Dịch tự động là lĩnh vực đã được quan tâm nghiên cứu từ nhiều thập kỷ qua Gần đây, lĩnh vực này đã đạt nhiều kết quả đáng kể và được ứng dụng trong nhiều mặt của đời sống Trong xu hướng phát triển và hội nhập kinh tế với khu vực và thế giới hiện nay, nhu cầu dịch các hợp đồng kinh tế ngày càng tăng, đặc biệt là các hợp đồng Anh-Việt và việc dịch thuật theo cách truyền thống không thể đáp ứng kịp Do đó, công việc dịch tự động các hợp đồng kinh tế trở nên cấp thiết Như chúng ta đã biết, dịch tự động không thể dịch chính xác như người mà còn mắc nhiều lỗi Vì thế, những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế là một chủ đề cần được quan tâm
Trên thực tế, việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt ra từ rất lâu, nhưng thành công của các hệ dịch tự động chỉ giới hạn trong các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ pháp cũng như từ vựng, ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp, tiếng Anh sang tiếng Nga, v.v Những cặp ngôn ngữ thuộc loại hình khác nhau như cặp Anh-Việt (hòa kết - đơn lập) thì kết quả dịch tự động hiện còn hạn chế Việc phân tích khắc phục các lỗi trong dịch tự động là vấn đề liên ngành giữa ngôn ngữ học và tin học Trong vấn đề này, sau khi các nhà ngôn ngữ học tìm ra nguyên nhân mắc lỗi, các chuyên gia tin học sẽ xử lý lỗi bằng cách xây dựng các phần mềm, cải tiến các mô hình và thuật toán
0.2 Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu của luận án là lập ra tiêu chí phân loại lỗi ngôn ngữ khi dịch tự động hợp đồng kinh tế Anh-Việt Luận án đứng trên quan điểm ngôn ngữ học để khảo sát các loại lỗi ngôn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt để tìm ra quy luật phát sinh lỗi Các kết quả nghiên cứu này sẽ làm cơ sở cho ngành tin học cài đặt các thuật toán khắc phục lỗi Luận án sẽ tập trung vào việc phân loại các lỗi và tìm ra quy luật phát sinh lỗi
Trang 15Nhiệm vụ cụ thể của luận án là:
Nghiên cứu các vấn đề mang tính lý thuyết về lỗi ngôn ngữ của phần mềm Google Translate khi dịch tự động Anh-Việt các hợp đồng kinh tế
Thiết lập các tiêu chí phân loại lỗi khi dịch tự động từ tiếng Anh sang tiếng Việt với sự hỗ trợ của phần mềm BLAST (the Bilingual Annotator/ Annotation / Analysis Support Tool), công cụ phân tích và xử lý lỗi
Phân tích các loại lỗi ngôn ngữ chủ yếu trong văn bản hợp đồng kinh tế bao gồm lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp
Thống kê, phân loại và mô tả những điểm khác biệt và tương đồng của các loại lỗi được khảo sát theo những thời điểm khác nhau nhằm tìm ra những loại lỗi hệ thống và những lỗi ngẫu nhiên
0.3 Lịch sử vấn đề
0.3.1 Nghiên cứu về lỗi
Vào thập niên 70 của thế kỉ XX, hàng loạt công trình về nghiên cứu miêu tả về
lỗi như: năm 1971 Richards [65] [66] công bố hai công trình liên quan đến Cách
tiếp cận không tương phản đối với việc phân tích lỗi và chiến lược cho ngôn ngữ thứ hai Schachter (1974) [69] Nhận xét lỗi trong quá trình phân tích lỗi Năm
1975, Burt [34] Phân tích lỗi trong lớp học EFL dành cho người lớn Steel (1976) [73] công bố nghiên cứu Sự biến đổi trật tự từ: nghiên cứu loại hình ngôn
ngữ Năm 1977, nhóm các tác giả Schachter và Murcia đã phân tích Những trở ngại trong việc phân tích lỗi [70] Cuối thập niên, có công trình Phân tích lỗi và giảng dạy phép ghép từ (Kroll và Schafer, 1978) [55]
Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý
thuyết nhiều: Williams (1981) [82] công bố Hiện tượng học về lỗi, Corder (1981) [39] Phân tích lỗi và tính liên ngành của ngôn ngữ học Sau đó, Selinker, 1984 [71] công bố công trình Phân tích lỗi trong ngôn ngữ trung gian Năm 1986, Taylor viết Lỗi và cách giải thích lỗi [76]
Ở Việt Nam, đề tài về lỗi được nhiều nhà nghiên cứu ngành ngôn ngữ học
quan tâm như: Khảo sát lỗi tiếng Việt của người nước ngoài và những vấn đề
liên quan (Nguyễn Thiện Nam, 2001) [20], Từ câu sai đến câu hay (Nguyễn Đức
Trang 16Dân, 2015) [6] Ngoài ra, khi khảo sát lỗi trên bình diện cú pháp, lỗi trật tự từ
được quan tâm một cách đáng kể Chẳng hạn như, Lý thuyết trật tự từ trong cú
pháp (Lý Toàn Thắng, 2002) [23] là công trình hữu ích có thể giúp cho việc khảo
sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn Nguyễn Thị Quỳnh Hoa (2004)
[12] Khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và
tiếng Việt Trần Thị Minh Phượng (2005) [22] khảo sát Những lỗi thường gặp về trật tự từ ở người Việt học tiếng Anh Đinh Điền (2006) [9] So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt Phạm Thị Tuyết Hương (2009) [15]
nghiên cứu Trật tự từ câu đơn tiếng Anh trên bình diện kết học, nghĩa học, dụng
học (có so sánh đối chiếu với tiếng Việt)
Các loại lỗi khác có trong các công trình của nhóm tác giả như: Lỗi ngữ pháp
và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu, Nguyễn Kiên Trường, Võ
Xuân Trang, Trần Thị Tuyết Mai, 2009) [11], Lỗi từ vựng và cách khắc phục (Hồ
Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) [19] và Lỗi chính tả và cách
khắc phục (Lê Trung Hoa, 2009) [13]
Ngoài ra còn có những nghiên cứu về lỗi ngôn ngữ phổ biến như Lỗi ngữ pháp
tiếng Anh thường gặp của người Việt Nam (Đỗ Minh Hùng, 2007) [14], Lỗi ngôn ngữ của người nước ngoài học tiếng Việt (Nguyễn Linh Chi, 2009) [2]
Các công trình đã liệt kê trên nêu ra các tiêu chí ngôn ngữ học nhưng chúng chưa đủ để áp dụng cho dịch tự động Trong dịch tự động các tiêu chí cần được nêu ra cụ thể hơn để hỗ trợ cho việc lập trình Luận án này sẽ góp phần bổ sung vào những “khoảng trống” đó
0.3.2 Nghiên cứu về lỗi dịch thuật
Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên
1960, công trình của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ông
Hướng tới khoa học dịch thuật [62], trong tác phẩm này ông đặc biệt quan tâm
đến Những nguyên tắc và những tiến trình liên quan đến dịch kinh thánh Năm
1965, Catford [35] có công trình Lý thuyết ngôn ngữ về dịch thuật
Trang 17Như đã nêu trong phần 2.1, thập niên 1970 có nhiều thành tựu về miêu tả lỗi
dẫn đến những công trình tiếp nối cho thấy Nhiều vấn đề xảy ra trong lý thuyết
và phương pháp dịch thuật của Newmark (1979) [60]
Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng
kính khoa học như: Khoa học hóa những vấn đề về dịch thuật và những phương
pháp dịch thuật (Wilss, 1982) [83], Vấn đề trong đánh giá lỗi dịch thuật
(Kupsch-Losereit, 1985) hay Những cách tiếp cận đối với dịch thuật (Newman,
1988) [59] và Newmark, 1988) [61]
Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải
tiến phương pháp dịch thuật Có những công trình nêu Nguyên nhân mắc lỗi và
cách sửa lỗi (Julian Edge, 1990) [52], Ứng dụng lý thuyết dịch (Bell, 1991) [31], Phân tích văn bản khi huấn luyện dịch thuật (Nord, 1992) [63] và (Neubert &
Shreve, 1995) [58] Năm 1998, Jakobson [49] bàn về Những khía cạnh ngôn ngữ
trong dịch thuật và James [50] Phân tích lỗi trong khi học và sử dụng ngoại ngữ
Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và phong phú hơn trong các công trình của Harry Aveling (2002) [46], Na (2005) [57] hay Gyse Hansen (2010) [45] nhằm khắc phục được khả năng dịch thuật của người cũng như của máy
0.3.3 Nghiên cứu về dịch tự động
Đầu thế kỷ XVII, Leibniz và Descartes đã nghĩ đến dịch tự động, nhưng không có ứng dụng thực tế Đến thập niên 50 của thế kỉ XX, dịch tự động mới chính thức được ghi nhận [89]
Năm 1937, Pyotr Troyanskii đã đề ra ba giai đoạn dịch tự động (lúc này gọi là mechanical translation) Giai đoạn 1, chỉ cần soạn thảo ngôn ngữ nguồn rồi phân tích hợp lý những từ theo dạng cơ bản và chức năng cú pháp Giai đoạn 2, máy sẽ chuyển các dạng từ và các cú pháp trên thành chuỗi tương đương trong ngôn ngữ đích Giai đoạn cuối, một phần mềm soạn thảo của ngôn ngữ đích được dùng để chuyển đổi (đầu ra) sang dạng bình thường của ngôn ngữ đích
Năm 1949, Weaver [81] đề ra một bản ghi nhớ mang ý tưởng dịch tự động vào các phương pháp viết mã, phân tích thống kê, lý thuyết thông tin Shannon và
Trang 18khám phá đặc trưng ngôn ngữ phổ quát Ngoài ra, nhu cầu dịch thuật ngày càng nhiều, phương pháp dịch thủ công không thể đáp ứng, từ đó, ý tưởng về dịch tự động ra đời
Đến năm 1953, Yehoshua Bar-Hillel [30] đề xuất những vấn đề liên quan đến
cú pháp, soạn thảo văn bản dưới hình thức kiểm soát ngôn ngữ
Lĩnh vực dịch tự động ngày càng được giới thiệu chi tiết như phân tích các vấn
đề về cú pháp,v.v [40], [43], [47] Năm 1964, chính phủ Hoa Kỳ đã thành lập một ủy ban dịch tự động lấy tên là ALPAC (Automatic Language Processing Advisory Committee) để đánh giá và định hướng về dịch tự động Tiếp theo, hàng loạt giải pháp tự động hóa cho ngôn ngữ, phương cách dịch tự động từng câu ra đời [32]
Năm 1966, ALPAC tổng kết rằng sau hơn 10 năm nghiên cứu lĩnh vực dịch tự động vẫn không có những tiến bộ đáng kể Báo cáo này gây bất lợi cho việc nghiên cứu dịch tự động và hệ quả là số tiền chi cho nghiên cứu giảm mạnh [89] Vào cuối thập niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại
rẻ hơn thì người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế [89]
Đến thế kỉ 21, Popovic và Burchardt, 2007 [64] cho rằng việc dịch tự động có thể được cải tiến bằng cách sử dụng thống kê để khử nhập nhằng ngữ nghĩa của
từ
Hiện nay, tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan đến tiếng Việt, chủ yếu là dịch tự động Anh-Việt bằng phần mềm EVTRAN với các phiên bản cải tiến được sử dụng rộng rãi ở Việt Nam [85], [86] như EVTRAN-1997, EVTRAN 2.0, 3.0 và 4.0
0.3.4 Nghiên cứu về lỗi khi dịch tự động
Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều công trình kinh điển giúp cho các nhà ngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những nét tương đồng và dị biệt của các loại hình ngôn ngữ Nổi bật nhất là công trình
Trang 19phân loại lỗi cho việc đánh giá dịch tự động (Flanagan, 1994) [42], Phân tích lỗi
và tiếng quốc tế (Ellis, 1997) [41]
Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những công
trình giá trị như Phân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá
xác định lỗi trong dịch tự động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu,
D’Haro và Ney, 2006 [78], 2010 [79]) Những nghiên cứu này cũng là nền tảng cho nghiên cứu lỗi về dịch tự động
0.4 Đối tượng và phạm vi nghiên cứu
0.4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt của phần mềm Google Translate (GT) khi dịch các hợp đồng kinh tế
GT là dịch tự động thống kê (xem định nghĩa ở mục 1.3.1.4.4 chương 1)
0.4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp Trong phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết văn bản do phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kết văn bản
0.5 Phương pháp nghiên cứu và nguồn ngữ liệu
0.5.1 Phương pháp nghiên cứu
- Phương pháp so sánh đối chiếu: việc so sánh đối chiếu được thực hiện trên bình diện ngữ nghĩa, bình diện cú pháp (thường là ngữ và câu) và bình diện ngữ âm (lỗi chính tả) Đồng thời kết hợp với phương pháp miêu tả để xác định vị trí của lỗi trong câu tiếng Việt khi dịch tự động ngữ liệu hợp đồng kinh tế từ Anh sang Việt, từ đó, khái quát tiêu chí phân loại lỗi ngôn ngữ trong dịch tự động
- Phương pháp định lượng: sử dụng các số liệu, ngữ liệu thu thập chủ yếu là những văn bản về hợp đồng kinh tế Anh-Việt (ngữ liệu thô), sau đó đưa vào dịch tự động để khảo sát các loại lỗi ngôn ngữ khi dịch từ tiếng Anh sang tiếng Việt Tiếp theo đó, thủ pháp thống kê được sử dụng để xác định một
Trang 20số thông số cần thiết trong quá trình xây dựng và khai thác ngữ liệu để tìm
ra số lượng lỗi sai khi dịch tự động hợp đồng kinh tế Anh - Việt
Ngoài các phương pháp nghiên cứu ngôn ngữ học kể trên chúng tôi thực hiện thêm thủ pháp xử lý ngữ liệu như sau:
- Thủ pháp xử lý ngữ liệu bao gồm: thu thập tài liệu hợp đồng kinh tế; chuẩn hóa ngữ liệu bằng cách nhờ chuyên gia máy tính viết phần mềm định dạng theo dạng thức (format) đưa vào dịch tự động; xử lý ngữ liệu như viết phần mềm xóa trùng và định dạng theo đúng dạng thức để đưa vào công cụ BLAST; gán nhãn cũng chính là lúc định dạng được các loại lỗi đặc trưng trong dịch tự động
Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tôi dùng hai công cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL được giới thiệu dưới đây:
0.5.2 Phần mềm BLAST
BLAST (viết tắt của the Bilingual Annotator/ Annotation/ Analysis Support Tool) là công cụ giúp người xử lý và phân tích lỗi các tài liệu song ngữ, đặc biệt
là những lỗi thuộc về dịch tự động do Stymne [74] công bố năm 2011
Sau đây là những ưu điểm và khuyết điểm khi sử dụng phần mềm BLAST
để phân tích lỗi dịch tự động Anh-Việt:
- Ưu điểm: BLAST là phần mềm mang tính cập nhật cao giúp xây dựng tiêu chí phân loại lỗi cho mô hình dịch thống kê Anh-Việt nói chung và dịch tự động bằng phần mềm Google Translate nói riêng Tiêu chí từ phần mềm BLAST có thể giải quyết những khó khăn tồn đọng từ nhiều năm khi dịch máy hay dịch tự động mắc phải
- Khuyết điểm: BLAST chỉ hỗ trợ ý tưởng lập tiêu chí phân loại lỗi thông thường cho nhiều ngôn ngữ trên thế giới nhưng chưa phân định được lỗi theo tiêu chí ngôn ngữ học như lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp hay lỗi hệ thống và lỗi ngẫu nhiên theo tiêu chí tin học
Trang 210.5.3 Phần mềm BLAST - VCL
Do hạn chế của phần mềm BLAST trong việc nhận dạng lỗi trật tự từ nên chúng tôi đề xuất ý tưởng với nhóm nghiên cứu xử lý tiếng Việt của Trường Đại học Khoa học tự nhiên, thành phố Hồ Chí Minh đã xây dựng phần mềm BLAST-VCL (Vietnamese Computational Linguistics) nhằm bổ sung cho tiêu chí phân loại lỗi trật tự từ thuộc lỗi ngữ pháp
BLAST-VCL có chức năng nhận dạng lỗi trật tự từ trong tiếng Anh theo
các lỗi sau đây: lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động, lỗi
trật tự từ giữa tính từ - danh từ, trạng từ - tính từ, mạo từ - danh từ, lỗi trật tự từ thuộc liên từ, danh từ - danh từ, danh từ - sở hữu cách - danh từ, số - danh từ, giới
từ - danh từ, chủ từ - động từ, động từ - trạng từ, động từ - túc từ và động từ - động từ
0.5.4 Nguồn ngữ liệu
Do vấn đề bảo mật thông tin trong kinh doanh nên việc thu thập ngữ liệu của chúng tôi chỉ dừng lại ở 50 mẫu hợp đồng kinh tế Anh-Việt do học viên lớp CEO 48 tại trường doanh nhân PACE cung cấp Trong điều kiện đó, chúng tôi không thể có được nguồn ngữ liệu mang tính cập nhật và bao quát hết các loại văn bản ở nhiều độ khó khác nhau Ngoài ra, do hợp đồng là thể loại mang tính quy chuẩn về ngôn ngữ diễn đạt nên trong lĩnh vực dịch thuật chúng tôi quan tâm nhiều về phương diện này thay vì phương diện nội dung và độ khó của văn bản Khảo sát lỗi liên quan đến nội dung và độ khó cần có những công trình nối tiếp trên cơ sở khảo sát lỗi về phương diện đạt ngôn ngữ ở mặt hình thức, đặc biệt là đối với dịch tự động
Sau đây là nguồn ngữ liệu làm cơ sở cho việc nghiên cứu trong luận án:
Mẫu văn bản và hợp đồng thương mại Anh-Việt (Model of business documents) gồm 310 trang được xuất bản năm 2001 tại nhà xuất bản Trẻ Sau khi văn bản được tiền xử lý thì còn lại 516 cặp câu để khảo sát [16]
Hướng dẫn soạn thảo hợp đồng kinh tế bằng tiếng Anh gồm 250 trang được xuất bản tại nhà xuất bản Tổng hợp thành phố Hồ Chí Minh năm 2005
Trang 22Tương tự như trên, sau khi văn bản được tiền xử lý thì chỉ còn lại 137 cặp câu để khảo sát [28]
Mẫu hợp đồng thương mại quốc tế (International business contract form) bao gồm 269 trang được nhà xuất bản Lao động xuất bản năm 2005 Sau khi văn bản được tiền xử lý thì còn lại 367 cặp câu để khảo sát [25]
Các văn bản pháp luật về hợp đồng lao động, hợp đồng kinh tế, giải quyết các tranh chấp lao động và tranh chấp kinh tế (Legal documents on labour and economic contracts, settlement of labour and economic disputes) gồm
733 trang được nhà xuất bản Chính trị quốc gia xuất bản năm 1997 Dữ liệu toàn văn được đánh máy lại và chia ra thành 2.947 cặp câu Anh-Việt chủ yếu về hợp đồng kinh tế (bởi vì các văn bản pháp luật cũng như hợp đồng lao động chưa được khảo sát trong luận án này) Sau đó, chúng tôi sử dụng phần mềm do công ty Kim Từ Điển viết riêng cho chương trình này nhằm lược bỏ những câu trùng thì thu được 2.068 cặp câu để khảo sát [29]
50 hợp đồng kinh tế Anh-Việt do các học viên của lớp CEO 48 tại trường doanh nhân PACE cung cấp năm 2008 để phục vụ cho việc tìm kiếm thuật ngữ hợp đồng kinh tế [19] Sau khi văn bản được tiền xử lý thì còn lại 305 cặp câu để khảo sát
0.6 Ý nghĩa khoa học và ý nghĩa thực tiễn
Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng Anh) và loại hình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham khảo về các tiêu chí phân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể loại văn bản hợp đồng kinh tế khi dịch tự động và sẽ là tiền đề nâng cấp chương trình dịch tự động Anh-Việt và Việt-Anh
Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm cho nội dung dịch sát với nội dung văn bản gốc Hiện nay, các công trình dịch tự động còn có ứng dụng rất tốt trong việc giảng dạy ngôn ngữ Một trong các phương pháp đào tạo cử nhân biên phiên dịch hiện nay là cho sinh viên phân tích các lỗi của dịch máy và từ đó rút ra những kinh nghiệm cho dịch thuật Phương
pháp này được gọi là “Học lỗi từ dịch máy” (Machine translation as a bad
Trang 23model), từ những lỗi đã phân loại giáo viên có thể hướng dẫn người học cách giải thích và chỉnh sửa Do đó, kết quả nghiên cứu sẽ có giá trị nhất định trong việc học và dạy biên phiên dịch
0.7 Bố cục của luận án
Ngoài phần mở đầu và phần kết luận, nội dung chính của luận án bao gồm
ba chương:
Chương 1: Đây là chương nói về cơ sở lý thuyết Thứ nhất là khái quát một
số vấn đề chung về khái niệm lỗi (lỗi chính tả, lỗi từ vựng, lỗi ngữ pháp, lỗi hệ thống và lỗi ngẫu nhiên) Thứ hai bao gồm cơ sở lý luận của việc phân tích lỗi và
lý thuyết nhưng vấn đề liên quan về những lỗi ngôn ngữ của Google Translate khi dịch tự động hợp đồng kinh tế Anh-Việt Thứ ba, đặc điểm của dịch tự động, khái niệm hợp đồng kinh tế, đặc điểm loại hình tiếng Anh và tiếng Việt Ngoài
ra, nêu cơ sở lý luận của việc nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động như: phân tích lỗi trong chuyển dịch, giới thiệu các bước phân tích ngữ liệu khi đưa vào phần mềm BLAST như thu thập, chuẩn hóa và xử lý ngữ liệu để lập tiêu chí phân loại lỗi ngôn ngữ khi dịch tự động
Chương 2: Phân tích lỗi chính tả và lỗi từ vựng, liệt kê toàn bộ kết quả lỗi chính tả (lỗi sai thành phần của cấu trúc âm tiết, lỗi viết hoa, lỗi dấu câu,…) và lỗi từ vựng (lỗi nhập nhằng, lỗi thành ngữ và lỗi thuật ngữ) và phân tích các loại lỗi chính tả và từ vựng thuộc lỗi hệ thống và lỗi ngẫu nhiên
Chương 3: Phân tích lỗi ngữ pháp, liệt kê kết quả lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế từ tiếng Anh sang tiếng Việt (như lỗi trật tự từ, lỗi dịch sai
từ công cụ, lỗi dịch sai khi có sự hòa hợp giữa chủ từ và động từ, lỗi thừa từ và lỗi thiếu từ) Lỗi trật tự từ sẽ được phân tích dựa theo tiêu chí BLAST và BLAST-VCL và phân tích các loại lỗi ngữ pháp thuộc lỗi hệ thống và thuộc lỗi ngẫu nhiên
Trang 24CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
Trong chương này, luận án trình bày khái niệm về lỗi, lỗi dịch thuật và cơ
sở lý thuyết về những lỗi ngôn ngữ khi dịch tự động Anh-Việt
1.1 Khái niệm lỗi
Nghiên cứu những vấn đề lý thuyết về lỗi ngôn ngữ của phần mềm Google Translate khi dịch tự động hợp đồng kinh tế Anh-Việt, luận án tập trung vào hai loại lỗi lớn như: lỗi ngôn ngữ (bao gồm lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp);
và lỗi kỹ thuật (lỗi ngoài ngôn ngữ) có hai loại lỗi như: lỗi hệ thống và lỗi ngẫu nhiên, đây là những lỗi đặc trưng của dịch tự động.Vì vậy, mục này nêu khái niệm của các lỗi trên Phần nhận diện và phân loại lỗi sẽ được trình bày ở cuối chương 1
1.1.1 Lỗi ngôn ngữ
1.1.1.1 Khái niệm lỗi chính tả
Chính tả là cách viết chữ được xem là chuẩn, tức là viết đúng âm đầu, đúng vần, đúng dấu (thanh), đúng quy định về viết hoa, viết tắt, viết thuật ngữ [13] Theo Nguyễn Đức Dân (2015) [6], tr.25]: “ Sai chính tả là câu viết không đúng quy định về chính tả, không đúng quy tắc về dấu câu, không đúng quy tắc
viết tắt”
1.1.1.2 Khái niệm lỗi từ vựng
“Sai từ vựng là câu mà giữa các từ trong đó không tương hợp về nghĩa.” (Nguyễn Đức Dân, 2015) [6, tr.26] và “Lỗi từ vựng có thể do viết sai âm, hiểu sai nghĩa, dùng sai chức năng ngữ pháp, hoặc lỗi về ý, về tu từ” (Nguyễn Thiện Nam, 2001 [20])
1.1.1.3 Khái niệm lỗi ngữ pháp
Theo Nguyễn Đức Dân (2015): “Sai ngữ pháp là câu viết không đúng nguyên tắc ngữ pháp, nghĩa là viết không đúng cấu trúc câu Thường là những câu cụt, thiếu chủ ngữ hay vị ngữ, thậm chí thiếu cả hai.” [6, tr.26]
Trang 251.1.2 Lỗi kỹ thuật
Lỗi kỹ thuật ở đây được hiểu là lỗi ngoài ngôn ngữ bao gồm lỗi hệ thống
và lỗi ngẫu nhiên
1.1.2.1 Khái niệm lỗi hệ thống
Lỗi hệ thống đối với dịch tự động là những lỗi mang tính khách quan và bất biến theo thời gian Đối với loại ngữ liệu hợp đồng kinh tế, nghĩa của thuật ngữ chuyên ngành trong các loại lỗi hệ thống xuất hiện nhiều nhất
1.1.2.2 Khái niệm lỗi ngẫu nhiên
Lỗi ngẫu nhiên đối với dịch tự động mang yếu tố chủ quan vì có thể do bất cẩn
từ khâu nhập ngữ liệu cho ngôn ngữ nguồn (đánh máy sai) hay do khâu tách các cặp câu Anh-Việt trong giai đoạn tiền xử lý ngữ liệu hoặc những lỗi thường xuyên dịch khác đi sau mỗi lần dịch Tuy nhiên, đây chỉ là giả thuyết bởi vì trên thực tế, lỗi ngẫu nhiên có thể rơi vào các trường hợp khác như: lỗi về sở hữu cách, viết hoa không đúng cách, lỗi do sai dấu câu, lỗi dịch thừa từ, lỗi dịch thiếu
từ hoặc lỗi không dịch được từ của ngôn ngữ nguồn
1.2 Cơ sở lý luận của việc phân tích lỗi dịch thuật
Phân tích lỗi dịch thuật là việc nghiên cứu và phân tích các lỗi do tác nhân dịch (người dịch / máy dịch) gây ra Việc thu thập các mẫu ngôn ngữ nguồn cũng như ngôn ngữ đích bao gồm việc xác định lỗi trong các mẫu, miêu tả lỗi, phân loại lỗi và giải thích nguyên nhân mắc lỗi
1.2.1 Định nghĩa lỗi dịch thuật và lỗi dịch tự động
1.2.1.1 Định nghĩa lỗi dịch thuật
Lỗi dịch thuật là những sai sót trong khi dịch, không thực hiện đúng quy tắc nghiên cứu từ vựng, cấu trúc ngữ pháp, hoàn cảnh giao tiếp hay ngữ cảnh văn hóa của văn bản ngôn ngữ nguồn (hình thành nên lỗi từ vựng, lỗi chính tả, lỗi ngữ pháp, lỗi ngữ dụng…)
Trang 261.2.1.2 Định nghĩa lỗi dịch tự động
Theo Hutchins và Somers (1992) [48], các loại lỗi trong dịch tự động chính
là những nhập nhằng 1 (ambiguity) về từ vựng, cấu trúc và từ định lượng Nhập nhằng từ vựng được nhấn mạnh trong phạm vi từ loại, từ đồng tự, từ đa nghĩa và nhập nhằng chuyển di / giao thoa Nhập nhằng cấu trúc bao gồm nhập nhằng cấu trúc thực (real structural ambiguity) và nhập nhằng cấu trúc ngẫu nhiên (accidental structural ambiguity)
Dịch sai từ có thể do máy chọn sai từ tương đương với ngôn ngữ nguồn hay
do máy không phân biệt đuợc nghĩa chính xác của từ ở ngôn ngữ nguồn; máy có thể lặp từ ở ngữ cảnh gần (in a near context) khác với người dịch có thể chọn từ đồng nghĩa để tránh lặp từ; ngoài ra, máy có thể không nhận diện được cụm từ cố định (thành ngữ, quán ngữ) và đã dịch theo cụm từ tự do Ở khối ngữ liệu (corpora), chẳng hạn như nếu dịch tự động bằng phương pháp thống kê Google Translate có khối ngữ liệu chuẩn, tất nhiên kết quả dịch sẽ hạn chế được rất nhiều lỗi Qua khảo sát lỗi dịch tự động Anh-Việt văn bản hợp đồng kinh tế 6), chúng tôi nhận thấy nhiều lỗi về từ vựng, chính tả và ngữ pháp Dịch máy có thể dịch đúng ở cấp độ câu trong một số cặp câu có số lượng tương đối lớn, thậm chí có một vài trường hợp máy dịch còn hay hơn cả văn bản dịch thủ công Đây cũng là điều đáng chú ý Từ đó, cũng gợi cho chúng ta thấy vấn đề cần quan tâm là có bao nhiêu loại lỗi có thể xuất hiện trong loại văn bản hợp đồng kinh tế và nguyên nhân xảy ra các loại lỗi này dịch tự động từ tiếng Anh sang tiếng Việt
1
Trong luận án chúng tôi sử dụng thuật ngữ “nhập nhằng” (ambiguity) khác với từ “mơ hồ” (vague)
vì lý do sau đây:
nhiên khi có hiện tượng một hình thức được hiểu nhiều hơn một nội dung
- “vague” mang nghĩa “mơ hồ” khi không có sự phân biệt rõ ràng giữa hai nội dung
khác nhau
Trang 271.2.2 Các bước xử lý ngữ liệu trước khi phân tích lỗi
Để hệ thống hóa các loại lỗi ngôn ngữ cho dịch tự động hợp đồng kinh tế Anh-Việt, chúng tôi sử dụng phần mềm BLAST nhằm xây dựng và kiểm định hệ tiêu chí phân loại lỗi Sau đây là các bước xử lý ngữ liệu:
1.2.2.1 Thu thập ngữ liệu
Thu thập hợp đồng kinh tế từ nhiều nguồn khác nhau như: hợp đồng kinh tế hiện đang sử dụng ở các công ty, hợp đồng kinh tế được trích từ tài liệu về soạn thảo văn bản hợp đồng, sách giáo khoa chuyên ngành kinh tế - luật và những hợp đồng kinh tế mẫu trên Internet
Tiếp theo, lọc ra những cặp câu song ngữ tiếng Anh và tiếng Việt trong hợp đồng kinh tế đạt mức độ tương đương cao giữa ngôn ngữ nguồn và ngôn ngữ đích, sau đó dùng phần mềm phân tích và chọn lọc ra các loại lỗi ngôn ngữ trong văn bản hợp đồng kinh tế khi dịch tự động
Xác định những tiêu chí trong việc chọn mẫu ngữ liệu cũng như xác định tỉ
lệ và số lượng của các mẫu ngữ liệu
1.2.2.2 Chuẩn hóa ngữ liệu
Dùng phần mềm để định dạng đúng chuẩn những ngữ liệu đã thu thập và đưa vào dịch tự động (vào thời điểm tháng 8/2012 nếu dịch tự động từ Anh sang Việt văn bản ngẫu nhiên thì Google Translate chỉ dịch tốt khoảng từ 5 trang trở xuống, ngược lại nếu tiền xử lý ngữ liệu theo định dạng thì có thể dịch với số lượng hàng ngàn câu trong vòng 5 phút) Sau khi sàng lọc trong ngữ liệu có 3.387 cặp câu song ngữ Anh-Việt được đưa vào phân tích và khảo sát
1.2.2.3 Xử lý ngữ liệu
Xử lý ngữ liệu được thực hiện theo qui trình sau:
Bước 1: Tiền xử lý ngữ liệu
Dùng phần mềm xóa trùng lặp và định dạng nguồn ngữ liệu theo thể thức chuẩn (format) Sau đó, tách ngữ liệu ra làm 3 loại: ngôn ngữ nguồn tiếng Anh (source file, viết tắt là src file), ngôn ngữ đích tiếng Việt được dịch thủ công (reference file, viết tắt là ref file) và ngôn ngữ đích tiếng Việt đã được Google
Trang 28Translate dịch (system file, viết tắt là sys file) Cuối cùng, đưa vào công cụ BLAST xử lý và phân tích đối chiếu nhằm tìm ra kết quả lỗi một cách hữu hiệu nhất (Hình 1.1) BLAST có 3 vị trí đặc biệt để 3 nhiệm vụ khác nhau (Hình 1.1):
- Ngôn ngữ nguồn tiếng Anh (src file),
- Ngôn ngữ đích tiếng Việt được dịch thủ công và dùng để phân tích đối chiếu nhằm tìm ra kết quả lỗi một cách hữu hiệu nhất (ref file)
- Ngôn ngữ đích tiếng Việt đã được Google Translate dịch (sys file)
Hình 1 1 Giới thiệu tiền xử lý ngữ liệu
Bước 2: Mở công cụ BLAST
Chọn file_load file_raw translation file, nhập dữ liệu vào các ô src file, ref file và sys file, kế đến chọn file và phần mềm sẽ cho ra dữ liệu chưa được phân
tích (Hình 1.2)
Trang 29xa nghĩa là ngôn ngữ đích không được dịch đúng theo luật của ngôn ngữ nguồn
và trật tự từ của chúng cách xa nhau khoảng 2 từ trở lên
+ Cột 4: đánh giá mức độ sai của lỗi và chia làm 4 trường hợp Trường hợp 1: mức độ lưu loát (fluency); trường hợp 2: đầy đủ nghĩa ngữ cảnh (adequacy); trường hợp 3: vừa mang đầy đủ nghĩa ngữ cảnh, vừa lưu loát (both) và trường hợp 4: nghĩa sai hoàn toàn (neither)
Trang 30Hình 1 3 Minh họa các bước xử lý dữ liệu
+ Cột 5: Phần này do chúng tôi đề xuất cho nhóm xử lý phần mềm của Khoa Công nghệ thông tin, Trường Đại học Khoa học Tự nhiên TP.HCM (Vietnamese Computational Linguistics - Nhóm nghiên cứu xử lý tiếng Việt) viết bổ sung cho phù hợp với hai ngôn ngữ (tiếng Anh và tiếng Việt) cần phân tích, phần cải tiến này thuộc tiêu chí phân loại lỗi trật tự từ và được đặt tên là BLAST-VCL (viết tắt
là BVCL) (Hình 1.4)
Bước 4: Phân tích dữ liệu
Chọn màu thích hợp cho từng loại lỗi, sau đó nhấn “annotate” Phần này hoàn toàn do người phân tích và xử lý lỗi theo từng trường hợp và phần mềm BLAST sẽ cho ra kết quả thống kê tự động Trong phần mềm này các lỗi có thể được tô màu khác nhau Đây cũng là ưu điểm của phần mềm này Nhờ có phân biệt màu, chúng ta sẽ dễ dàng sao chép, trích dẫn hoặc chỉnh sửa (tùy theo năng lực ngôn ngữ và dịch thuật của người chỉnh sửa) sau này khi cần thiết (Hình 1.4)
Ví dụ: Ngôn ngữ nguồn là “the markets demand” (dòng 1), ngôn ngữ đích được dịch thủ công là “nhu cầu thị trường” (dòng 2), nhưng máy đã dịch sai trật
tự từ của ngôn ngữ đích là “thị trường nhu cầu” (dòng 3) Vậy, máy đã dịch sai trật tự các danh từ tiếng Anh sau khi được chuyển đổi sang tiếng Việt Điều này được nhận biết qua các màu mặc định
Trang 31Bước 5: Kiểm tra kết quả
Sau khi chọn lọc, xử lý và phân tích toàn bộ ngữ liệu, công cụ BLAST sẽ
cho ra kết quả thống kê tự động (xem phụ lục 2.4)
Hình 1 4 Mô hình phân tích lỗi BLAST-VCL 1.2.3 Phân tích lỗi dịch tự động Anh-Việt
Căn cứ vào lý thuyết của Corder (1981) [39] và Ellis (1997) [41], luận án thực hiện các bước sau đây để phân tích lỗi dịch tự động:
1.2.3.1 Nhận dạng lỗi dịch tự động
Có hai cách phân biệt lỗi khi dịch tự động Anh-Việt:
Trang 32Cách 1: Kiểm tra mức độ mắc lỗi thường xuyên và lặp lại sau mỗi lần dịch (lỗi hệ thống)
Cách 2: Những lỗi nào cho ra kết quả dịch khác nhau trong những thời điểm khác nhau xuất phát từ nguyên nhân chủ quan như nhập sai ngữ liệu, độ dài câu, dấu chấm câu, qui ước viết hoa, viết tắt, v.v (lỗi ngẫu nhiên)
Ngoài ra, các lỗi ngôn ngữ trong luận án này bao gồm lỗi chính tả (thuộc bình diện ngữ âm), lỗi từ vựng (thuộc bình diện từ vựng) và lỗi ngữ pháp hay lỗi cấu trúc (thuộc bình diện ngữ pháp) mà không xét đến các lỗi ngữ dụng do đặc
tính của nguồn ngữ liệu cần nghiên cứu ở đây là hợp đồng kinh tế
1.2.3.2 Phân tích lỗi dịch tự động
Đến thập niên năm 1970, Corder (1971) [38] mới phát triển ngành phân tích lỗi và từ đó nó đã trở thành một phần của ngôn ngữ học đối chiếu Trong quá trình phân tích lỗi, ông đã đưa ra 5 bước cho hướng nghiên cứu này: thu thập các loại lỗi, xác định từng loại lỗi, miêu tả lỗi, giải thích lỗi và đánh giá lỗi Các bước này được thực hiện tùy thuộc vào công việc nghiên cứu cho từng yêu cầu khác nhau
1.2.3.2.1 Thu thập lỗi dịch tự động
Đầu tiên, chúng tôi thu thập tất cả các dữ liệu mắc lỗi do lệch với chuẩn mực bằng các hình thức kiểm tra lỗi thông qua phần mềm BLAST, sau đó xác định số lượng lỗi và thống kê các loại lỗi theo tiêu chí ngôn ngữ học như lỗi chính tả, lỗi từ vựng hay lỗi ngữ pháp
Theo xu hướng của ngôn ngữ học máy tính, đặc biệt là dịch tự động cần phải tìm ra bản chất của các loại lỗi hệ thống hay còn gọi là những lỗi bất biến theo thời gian và lỗi ngẫu nhiên thay đổi thường xuyên sau mỗi lần dịch tự động
1.2.3.2.2 Xác định lỗi dịch tự động
Ba loại lỗi phổ biến đối với ngữ liệu hợp đồng kinh tế Anh-Việt là lỗi từ vựng, lỗi chính tả và lỗi ngữ pháp đã được xác định bằng phần mềm BLAST Phần mềm này có chứa ngữ liệu song ngữ với ngôn ngữ nguồn là tiếng Anh và
Trang 33ngôn ngữ đích là tiếng Việt được dịch thủ công khá chuẩn làm ngữ liệu tham chiếu, giúp chúng tôi dễ dàng xác định lỗi trong câu khi phân tích các loại lỗi Ngoài ra, luận án còn sử dụng khoảng cách Levenshtein kết hợp với phương pháp so sánh đối chiếu để xác định được lỗi hệ thống hay lỗi ngẫu nhiên khi dịch tự động
1.2.3.2.3 Miêu tả lỗi dịch tự động
Miêu tả lỗi liên quan đến việc so sánh mức độ phù hợp giữa ngôn ngữ nguồn với ngôn ngữ đích Việc miêu tả lỗi sẽ diễn ra tốt hơn nếu chúng ta tập trung quan sát những đặc điểm bề mặt của lỗi và dựa vào loại hình ngôn ngữ
1.2.3.2.4 Giải thích lỗi dịch tự động
Sau khi xác định và miêu tả lỗi, bước tiếp theo là giải thích lỗi, giải thích nguồn gốc của lỗi, phân loại lỗi và nguyên nhân mắc lỗi Đây là giai đoạn quan trọng nhất để đánh giá lỗi và tiến hành sửa lỗi tốt hơn
1.2.3.2.5 Đánh giá lỗi dịch tự động
Burt (1975) [34] xác định lỗi tổng thể là lỗi ảnh hưởng lên cách sắp xếp câu,
chẳng hạn như lỗi trật tự từ, lỗi đặt thiếu hay sai từ, lỗi cú pháp, v.v.; lỗi này có
thể làm cho câu trở nên tối nghĩa hoặc vô nghĩa Lỗi cục bộ là lỗi chỉ ảnh hưởng
một yếu tố trong câu như lỗi hình vị hay chức năng ngữ pháp nên người lĩnh hội thông tin vẫn có thể hiểu được dù phát ngôn có bị sai
Vì vậy, với cùng một lỗi nhưng các nhà nghiên cứu có cách đánh giá khác nhau tùy vào người mắc lỗi, nơi chốn hay hoàn cảnh mắc lỗi Tuy nhiên, chúng tôi hoàn toàn đồng ý với Johansson [51] là việc đánh giá mức độ lỗi tùy thuộc vào mức độ hiểu, mức độ chấp nhận hay mức độ khó chịu của người nghe/đọc do lỗi gây ra
1.3 Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh
tế
Trong phần này, có bốn vấn đề chính cần xem xét bao gồm: đặc điểm của dịch
tự động, đặc điểm loại hình tiếng Anh và tiếng Việt, khái niệm hợp đồng kinh tế
và những lỗi ngôn ngữ khi dịch tự động
Trang 341.3.1 Đặc điểm của dịch tự động
1.3.1.1 Khái niệm về dịch tự động
Dịch tự động là việc lập chương trình cho máy tính điện tử [5] tự chuyển
ngữ các văn bản từ trong một ngôn ngữ này sang một ngôn ngữ khác Ngôn ngữ
của văn bản gốc gọi là ngôn ngữ nguồn, ngôn ngữ của văn bản dịch gọi là ngôn
ngữ đích Hai văn bản dịch gọi là tương đương nhau nếu nó được người đọc hiểu
giống nhau
Có thể xem dịch tự động là công nghệ: nó không phải đơn giản là tổ hợp các phép toán đại số xử lý những câu có thể dịch được theo những luật đã định trước, nó đòi hỏi máy phải hiểu những gì cần được nêu ra và những gì không cần nêu ra để cho ra sản phẩm dịch chất lượng cao Dịch tự động sử dụng những luật
đã định trước hoặc những mẫu câu thống kê xuất phát từ nguồn dữ liệu huấn luyện để tính toán làm sao cho các bản dịch có thể xuất hiện tương đương nhau
1.3.1.2 Những thuận lợi và bất lợi trong dịch tự động
Luận án tập trung vào hướng tiếp cận dịch tự động thống kê bằng công cụ Google Translate, đây là phần mềm tương đối phổ biến và dễ sử dụng
1.3.1.2.1 Thuận lợi
Theo Burch và Koeln (2005) [33], ngay khi chúng ta hiểu một câu, chúng ta
có thể hình dung những sự kiện đó, nhưng đối với máy tính khi dịch một câu, đơn giản nó chỉ xử lý một dãy mã Tuy nhiên, thế mạnh của máy tính là chúng có thể truy cập bộ nhớ khi cần rà soát lại Điều này có thể làm cho chúng tính toán được trên hàng triệu câu, để truy vấn cơ sở dữ liệu với hàng tỉ câu ghi được trong một phần của giây Tất cả những điều này con người không thể làm được
Về mặt học thuật, dịch tự động càng ngày càng đòi hỏi nhiều hơn về công nghệ xử lý ngôn ngữ tự nhiên và nó đã phát triển mạnh nhờ: phân tích ngữ pháp
ở cấp độ từ và câu (parsing), phát sinh câu (generation), nghĩa của từ (word sense), nhập nhằng nghĩa (ambiguation), nhận dạng thực thể có tên (named entity recognition), chuyển tự (translisteration), giải pháp đại từ (pronoun resolution),
Trang 35hiểu ngôn ngữ tự nhiên (natural language understanding) và tri thức thế giới thực (real-world knowledge)
Ưu điểm của dịch tự động là dịch nhanh (tiết kiệm rất nhiều thời gian); chi phí thấp (nếu thuê người dịch chuyên nghiệp cần phải trả tiền theo số trang); có tính bảo mật cao cho người sử dụng dịch vụ (những bản dịch mang tính cá nhân)
1.3.1.2.2 Bất lợi
Dịch tự động chưa cho ra kết quả chính xác một cách nhất quán, chỉ dịch từng từ rời rạc mà không cần hiểu, do đó, cần phải chỉnh sửa bằng tay sau khi được dịch tự động Ngoài ra, chất lượng dịch tự động còn thấp đối với những văn bản có nhiều từ hoặc ngữ Dịch tự động chỉ dựa vào luật hình thức và luật hệ thống nên đôi khi gặp khó khăn đối với câu nhập nhằng Trong khi đó, dịch thủ công giải quyết bằng cách tập trung vào ngữ cảnh, sử dụng kinh nghiệm hay trực giác [84]
1.3.1.3 Các cách tiếp cận đối với dịch tự động chưa ứng dụng thống kê
Để có thể xác định nguyên nhân lỗi khi dịch tự động chúng ta cần hiểu rõ các cách tiếp cận đối với dịch tự động
Theo Koeln (2014) [54], có sáu cách tiếp cận dịch tự động: dịch tự động từng từ một (direct MT), dịch chuyển đổi cú pháp (syntactic-transfer MT), dịch
tự động liên ngữ (interlingual MT), dịch tự động dựa trên ngôn ngữ có kiểm soát
(controlled language MT), dịch tự động dựa trên ví dụ (example-based MT) và
dịch tự động dựa trên thống kê (SMT)
Ngoài ra, còn có các tài liệu liệt kê bốn cách tiếp cận: dịch tự động dựa trên
qui luật (rule-based MT), dựa trên cơ sở tri thức (knowledge-based MT), dựa trên ngữ liệu (corpus-based MT) và dựa trên cách tiếp cận lai (hybrid MTS) (Đinh
Điền, 2006b) [10]
Cách tiếp cận dịch tự động thống kê là cơ sở của phần mềm Google Translate được dùng trong luận án nên sẽ được trình bày chi tiết ở phần sau
Trang 36ra bộ luật chuyển đổi cấu trúc ngữ pháp từ ngôn ngữ nguồn sang ngôn ngữ đích
1.3.1.3.3 Dịch tự động liên ngữ
Đây là phương pháp dịch tự động giữa hai hay nhiều ngôn ngữ dựa theo nguyên tắc biến hóa (paradigm) Cách tiếp cận này chủ yếu gán hình thức phù hợp (logical form) cho các cặp câu và từ đó có thể tạo ra một câu bằng ngôn ngữ khác
Cách tiếp cận này có điểm thuận lợi là có thể dịch được tất cả các ngôn ngữ
và chỉ viết phần mềm phân tích một lần duy nhất cho mỗi ngôn ngữ Nhược điểm của phương pháp là khó xác định được dạng nào là dạng thức lô-gích thống nhất
1.3.1.3.4 Dịch tự động dựa trên ngôn ngữ có kiểm soát
Cách tiếp cận này chủ yếu giới hạn việc dịch trên một tập con của ngôn ngữ, có thể được dùng để soạn thảo văn bản dịch, kết hợp với cách tiếp cận chuyển cú pháp và ngôn ngữ trung gian
Ưu điểm của cách tiếp cận này cho kết quả dịch đáng tin cậy và chất lượng dịch cao hơn đối với tập con của ngôn ngữ nhưng chúng không thể bao phủ toàn
bộ các lĩnh vực cho ngôn ngữ đang được sử dụng, chỉ áp dụng giới hạn trong một
số lĩnh vực mà văn bản cần phải rõ ràng, đơn nghĩa, không mang hàm ý hoặc nhập nhằng
1.3.1.3.5 Dịch tự động dựa trên ví dụ
Khi hệ thống nhận được một câu ngôn ngữ nguồn nào đó, câu này sẽ được
so khớp với các mẫu (patterns) trong kho ngữ liệu song ngữ để xác định mẫu gần
Trang 37đúng nhất và xuất ra thành phần dịch tương ứng của mẫu đó Việc “so khớp” mẫu dựa trên các cấu trúc khung, các mẫu câu căn bản, v.v
Hình thức dịch ở đây là phân câu thành những cụm từ và dịch từng cụm từ
đó, sau đó phân tích chúng theo quan điểm về nguyên tắc tương đương trong dịch thuật của ngôn ngữ học
Ưu điểm: dùng đoạn văn bản do người dịch có thể cho kết quả dịch cao hơn
Nhược điểm: có thể có độ bao phủ giới hạn tùy thuộc vào kích cỡ của kho
mẫu dữ liệu và dễ gặp rắc rối trong việc so khớp
1.3.1.3.6 Dịch tự động dựa trên qui luật
Dịch tự động dựa vào qui luật căn cứ vào ý tưởng và tạo ra bản dịch cần thiết cho giai đoạn trung gian nắm bắt ý nghĩa của câu nguồn để sinh ra bản dịch chuẩn theo ngôn ngữ đích
Trong hệ thống dịch tự động dựa trên qui luật thì văn bản ban đầu được phân tích sẵn về mặt hình thái của từ học và cú pháp học Tiếp theo, sự biểu diễn này được đưa vào lọc ở mức độ trừu tượng hơn nhằm nhấn mạnh các phần liên quan cho dịch thuật và bỏ qua những thông tin khác Sau đó, quá trình chuyển tiếp được chuyển đổi sang giai đoạn thể hiện cuối cùng (vẫn ở trong ngôn ngữ nguồn) tới thể hiện cùng cấp độ trừu tượng ở ngôn ngữ đích
Để viết phần mềm cho các qui luật của một ngôn ngữ đang xét, chúng ta phải viết cả phần mềm liên quan đến những trường hợp ngoại lệ, có thể bao gồm cách chia động từ bất quy tắc, những lỗi thuộc loại hình ngôn ngữ, v.v Điều này đòi hỏi nhiều nỗ lực, vì thế những hệ thống dịch dựa vào qui luật chỉ tồn tại cho
số lượng nhỏ về những cặp ngôn ngữ liên quan
Tuy nhiên, trong một miền giới hạn (domain), thì phương pháp này tỏ ra hiệu quả và chúng ta hoàn toàn làm chủ được kết quả dịch nghĩa là tất cả những câu mà thỏa các qui luật đã được xây dựng thì sẽ được phân tích và dịch tốt Nếu quan niệm càng nhiều qui luật càng bao quát hết các hiện tượng ngôn ngữ, người thiết kế sẽ gặp nhiều khó khăn khi kiểm soát tính hợp lý của tất cả các qui luật khi chúng gia tăng [10]
Trang 381.3.1.3.7 Dịch dựa trên cơ sở tri thức
Theo cách tiếp cận này, hệ thống phải xây dựng một hệ cơ sở tri thức khổng
lồ bao trùm mọi tri thức về thế giới thực ở mọi lĩnh vực Điều này không khả thi nên người ta thường chỉ giới hạn trong một lĩnh vực hẹp nào đó và mô hình hóa tri thức của lĩnh vực này Người ta đã mô hình hóa chúng bằng cách xây dựng các lớp ngữ nghĩa (semantic class) và các thực thể (instance) để biểu diễn tất cả các khái niệm trong miền lĩnh vực đó [10, tr.211]
1.3.1.3.8 Dịch tự động dựa trên ngữ liệu
Cách tiếp cận dựa trên thống kê hay dựa trên ví dụ nói trên đều dựa trên ngữ liệu Nhưng điểm đặc biệt của cách tiếp cận này là dựa trên cơ sở ngôn ngữ học và dùng công nghệ máy học để học các quy luật của ngôn ngữ từ ngữ liệu
Nó học dựa trên cấu trúc của ngôn ngữ chứ không phải học trên bề mặt của ngôn ngữ như trong dịch tự động thống kê [10, tr.213]
1.3.1.3.9 Dịch dựa trên cách tiếp cận lai
Hướng tiếp cận này sẽ kết hợp, lai tạo giữa các cách tiếp cận nói trên, nhằm khai thác thế mạnh của mỗi cách tiếp cận thành phần để xử lý được hữu hiệu hơn Thực tế đã chứng minh rằng ít có hệ dịch nào thành công mà chỉ dùng một cách tiếp cận duy nhất, trên thực tế, hầu hết thường theo hướng tiếp cận này [10, tr.214]
1.3.1.4 Dịch tự động thống kê (SMT)
Dịch tự động thống kê (Statistics Machine Translation - SMT) không đòi hỏi phân tích sâu về ngôn ngữ, kết quả thống kê dựa vào kho ngữ liệu song ngữ [10]
Kỹ thuật SMT là cơ sở của phần mềm dịch tự động Google Translate
Theo [88], dịch tự động thống kê có nhiều ưu điểm Thứ nhất, dịch tự động thống kê là học được cách dịch cụm từ/ngữ từ những ngữ liệu song song Thứ hai, nó có thể kết hợp khả năng dịch theo lối kinh nghiệm bằng cách đếm những trường hợp xảy ra trong bộ dữ liệu Thứ ba, nó tính toán được khả năng chính xác hơn khi kích cỡ ngữ liệu gia tăng Thứ tư, dịch tự động thống kê có thể áp dụng cho bất kỳ cặp ngôn ngữ nào có ngữ liệu song song Ngoài ra, đối với
Trang 39phương pháp dịch này không cần thiết phải có chuyên gia về ngoại ngữ xây dựng
bộ luật thủ công bởi vì mọi thứ bắt nguồn từ ngữ liệu
1.3.1.4.1 Dịch tự động thống kê dựa trên từ
Trong trường hợp này, khi chúng ta dịch từ tiếng Anh sang tiếng Việt, với
một câu tiếng Anh e, chúng ta sẽ tìm câu tiếng Việt v nào phù hợp nhất trong vô
vàn câu tiếng Việt Hệ dịch thống kê dựa trên từ ở trên có khuyết điểm là không lấy được thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ
1.3.1.4.2 Dịch tự động thống kê dựa trên ngữ
Mô hình dịch tự động thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ Điều này cho phép hệ thống có thể dịch các cụm từ tránh được dịch từng từ một (word-by-word)
Dịch máy thống kê dựa trên ngữ đã khắc phục được một số nhược điểm của dịch máy dựa trên từ, tuy nhiên nó vẫn còn một số hạn chế Một trong những hạn chế đó là nó chưa tích hợp được các thông tin về ngôn ngữ vào trong hệ dịch Đối với các ngôn ngữ biến đổi hình thái của từ như tiếng Anh, hệ dịch xem các dạng biến cách như là những từ phân biệt Giả sử trong kho ngữ liệu huấn luyện đã có
từ ở dạng nguyên mẫu và không chứa từ biến cách của từ đó nhưng trong câu dịch lại chứa từ biến cách của từ nguyên mẫu đó thì chương trình sẽ không dịch
được Ví dụ từ book trong tiếng Anh, từ biến cách của nó ở dạng số nhiều là
books Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt Nếu trong
quá trình xử lý, hệ thống đã gặp từ book nhưng chưa gặp từ books thì sẽ không
dịch được từ này
1.3.1.4.3 Mô hình dịch tự động thống kê dựa trên cú pháp
Mô hình dịch tự động thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch Dịch thống kê dựa trên cú pháp có nhiều mô hình: dịch từ cây cú pháp sang câu (tree-to-string), dịch chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer), dịch chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer) và dịch dựa trên mệnh đề (clause level restructuring)
Trang 401.3.1.4.4 Phần mềm dịch tự động thống kê Google Translate
Như chúng ta đã biết, hầu hết các hệ thống dịch tự động thương mại hiện đại đang được sử dụng ngày nay đã được phát triển bằng cách sử dụng phương pháp dựa trên quy tắc đòi hỏi nhiều công sức để định nghĩa từ vựng và ngữ pháp Riêng hệ thống của Google Translate sử dụng phương pháp khác hẳn Trước tiên,
GT cấp dữ liệu cho máy vi tính với hàng tỷ từ trong văn bản, cả văn bản đơn ngữ bằng ngôn ngữ đích lẫn văn bản được căn chỉnh có chứa các ví dụ về những bản dịch do con người thực hiện giữa các ngôn ngữ Sau đó, GT áp dụng phương pháp thống kê kiến thức để xây dựng mô hình dịch GT đã đạt được nhiều kết quả rất tốt trong các đánh giá nghiên cứu gần đây
Trong phạm vi nghiên cứu này, chúng tôi không đi sâu vào chuyên ngành công nghệ thông tin mà chỉ phân tích ứng dụng của dịch tự động Ngoài ra, gần đây dịch tự động thống kê phát triển nhiều hơn nhờ vào máy tính và những phụ kiện kèm theo rẻ đi Loại dịch tự động thống kê này dựa vào ý tưởng nếu chúng
ta cho văn bản với số lượng lớn (văn bản đã được gióng hàng) thì máy tính có thể
dò ra những kiểu mẫu thống kê những cụm từ sẽ được dịch theo cách nào Thuận lợi của hướng tiếp cận này là máy tìm được huấn luyện tự động Nếu chúng ta có ngữ liệu huấn luyện đủ lớn (thường ít nhất có 30 triệu từ có những câu đã được gióng hàng), hệ thống có thể huấn luyện tự động Tuy nhiên, máy tính không có luật lập trình trước hoặc những giả định về ngôn ngữ đặc thù được cấu trúc như thế nào Điều này có cả điểm mạnh và điểm yếu:
Ưu điểm là các ngôn ngữ được lấp đầy những trường hợp ngoại lệ Một khi hệ thống dịch tự động thống kê học được cụm từ này dịch sang ngôn ngữ khác như thế nào, nó không cần biết tại sao
Khuyết điểm là do máy không có kiến thức về luật ngôn ngữ, có những luật chỉ có thể hướng dẫn máy dịch một phần trong văn bản Dạng phổ biến nhất của dịch tự động thống kê hiện nay được dùng là dịch tự động thống kê dựa vào cụm từ Ngoài ra, dịch tự động thống kê đòi hỏi bộ ngữ liệu được gióng hàng phải cực lớn, thường phải có hàng triệu câu mới cho ra kết quả đầy đủ Ngữ liệu huấn luyện này thường đòi hỏi nhiều công sức chuẩn bị và không có khả năng
mở rộng toàn bộ các ngôn ngữ trên toàn thế giới Thêm vào đó, việc gióng hàng