Xây dựng một chương trình dịch tự động Anh-Việt theo phương pháp sokhớp tập mẫu, trên cơ sở lý thuyết đã nghiên cứu cùng hệ thống thuật toánliên quan: thuật toán A*, DP-matching, thuật
Trang 1PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1 Định hướng đề tài tốt nghiệp
Xây dựng thử nghiệm chương trình dịch tự động Anh - Việt theo hướng tiếp cận:
“So khớp tập mẫu” (còn gọi là “Dịch dựa vào ngữ liệu”, “Dịch dựa vào ví dụ”…)
2 Các nhiệm vụ cụ thể của ĐATN
Nghiên cứu lý thuyết dịch máy dựa trên so khớp tập mẫu, tìm hiểu một môhình dịch cụ thể theo hướng tiếp cận này: mô hình D3
Xây dựng một chương trình dịch tự động Anh-Việt theo phương pháp sokhớp tập mẫu, trên cơ sở lý thuyết đã nghiên cứu cùng hệ thống thuật toánliên quan: thuật toán A*, DP-matching, thuật toán cực tiểu hoá Otomat…
Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu thànhdạng ngữ liệu áp dụng được cho quá trình so khớp và xây dựng câu dịch:
Xây dựng bộ luật chuyển đổi cú pháp Anh-Việt ở mức ngữ, trên cơ sở nghiêncứu cấu trúc các ngữ trong Tiếng Anh
Giải quyết một số vấn đề thuần tuý ngôn ngữ phục vụ cho hệ dịch: Lấy vềdạng nguyên thể của một từ từ các biến thể của nó (dạng số nhiều của danh
từ, quá khứ đơn hay quá khứ phân từ của động từ…), sưu tầm và chuẩn hoábảng động từ bất quy tắc…
Tôi - Lương Ngọc Quang - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của ThS Bùi Thị Hoà
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất
Trang 2TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP
Đồ án tốt nghiệp này tập trung vào những vấn đề chính sau:
Nghiên cứu lý thuyết dịch máy dựa trên so khớp tập mẫu, tìm hiểu một môhình dịch cụ thể theo hướng tiếp cận này: mô hình D3
Xây dựng một chương trình dịch tự động Anh-Việt theo phương pháp sokhớp tập mẫu, trên cơ sở lý thuyết đã nghiên cứu cùng hệ thống thuật toánliên quan: thuật toán A*, DP-matching, thuật toán xây dựng và cực tiểu hoáOtomat…
Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu thànhdạng ngữ liệu áp dụng được cho quá trình so khớp và xây dựng câu dịch:
Quy trình 1: Phân tích cú pháp Tiếng Anh – Phân lớp dựa vào số lượng
từ nội dung, từ ngữ pháp – Xây dựng đồ thị cho mỗi lớp (Quy trìnhnày thực hiện tự động)
Quy trình 2: Liên kết cho các cặp câu Anh - Việt (thực hiện bằng tay)
Xây dựng bộ luật chuyển đổi cú pháp Anh-Việt ở mức ngữ, trên cơ sở nghiêncứu cấu trúc các ngữ trong Tiếng Anh
Giải quyết một số vấn đề thuần tuý ngôn ngữ phục vụ cho hệ dịch: Lấy vềdạng nguyên thể của một từ từ các biến thể của nó (dạng số nhiều của danh
từ, quá khứ đơn hay quá khứ phân từ của động từ…), sưu tầm và chuẩn hoábảng động từ bất quy tắc…
Trang 3ABSTRACT OF THESIS
This thesis aims at these main points:
Research the theory of Example – Based Machine Translation and a specificsystem that applies this approach: D3 (Dp-match Driven transDucer)
Construct an English – to – Vietnamese Example – Based MachineTranslation System (EVEBMTS), relying on the above – mentioned theory,and the series of relative algorithms: A*, DP-Matching, algorithms ofoptimizing the Deterministic Finite State Automata (DFSA)…
Construct two independent processes for training the Corpus, from theoriginal, raw form to the data format that can be well-applied for “Matching”and “Translation sentence constructing” stages:
Process 1: English Parsing – Classify based on the number of word, functional-word – Graph Building for each class
content- Process 2: English – Vietnamese sentence pairs alignment
Construct a set of grammar transfer rules (at the level of phrases), based onresearching the structures of English phrases
Solve some linguistic problems, that are indispensable for the translationapplication: Getting the original form of an English word from its variants(plural form of noun, past or past-particilpe of verb…), collecting and editingthe English irregular – verb table…
LỜI CẢM ƠN
Trang 4Sau gần sáu tháng thực hiện Đồ án tốt nghiệp, đến nay mọi công việc liênquan đến Đồ án cơ bản đã hoàn tất Trong quãng thời gian ấy, tôi đã nhận đượcnhiều nguồn giúp đỡ, động viên to lớn, mà nếu không có chúng, có lẽ tôi sẽ rất khóđạt được những kết quả như ngày hôm nay Bởi thế, cho phép tôi giành trang đầutiên của Luận văn này cho những lời cảm ơn chân thành đến những người tôi yêumến và biết ơn.
Trước hết, em xin được gửi lời cảm ơn đến giáo viên hướng dẫn, ThS, GVCBùi Thị Hoà, khoa Công nghệ thông tin, trường Đại học Bách Khoa Hà Nội Cô làngười đã luôn quan tâm, giúp đỡ, hướng dẫn và góp ý cho em trong suốt quá trình
em thực hiện đồ án này Một lần nữa, xin gửi đến cô tấm lòng biết ơn chân thành vàsâu sắc
Em xin gửi lời cảm ơn đến các thầy cô giáo trong bộ môn Công nghệ phầnmềm, khoa Công nghệ thông tin nói riêng, cùng toàn thể các thầy cô giáo trường Đạihọc Bách Khoa Hà Nội nói chung, vì những bài giảng hay, những kiến thức bổ íchcùng sự tận tụy quan tâm mà các thầy, các cô đã giành cho em trong suốt năm nămhọc vừa qua Em nghĩ rằng, những kiến thức mà các thầy cô truyền dạy không chỉđược vận dụng để em hoàn thành đồ án này, mà chắc chắn sẽ còn giúp ích cho em rấtnhiều trong tương lai
Tôi cũng xin gửi lời cảm ơn đến đội ngũ kỹ sư của công ty cổ phần dịch vụcông nghệ thông tin NAISCORP, nơi tôi thực tập, những người đã quan tâm và góp
ý cho tôi trong quá trình xây dựng chương trình Dịch
Cuối cùng, xin được gửi lời cảm ơn sâu sắc tới bố mẹ tôi, em gái tôi, nhữngngười thân và bạn bè thân thiết của tôi vì đã tạo cho tôi mọi điều kiện tuyệt vời nhất
Trang 5DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT 8
DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN 9
DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN 10
LỜI NÓI ĐẦU 10
Chương 1: Tổng quan về dịch máy 13
1.1 Lịch sử của dịch máy: 13
1.2 Khái niệm, kiến trúc và vai trò của dịch máy trong việc thúc đẩy sự phát triển của lý thuyết ngôn ngữ 14
1.3 Một số chiến lược dịch máy điển hình 15
1.3.1 Dịch trực tiếp 15
1.3.2 Dịch qua ngôn ngữ trung gian 16
1.3.3 Dịch dựa trên sự chuyển đổi 17
1.3.4 Dịch máy thống kê 18
1.3.5 Dịch dựa trên ví dụ (Dịch so khớp tập mẫu) 19
1.4 Sơ lược về tình hình nghiên cứu và triển khai dịch máy tại Việt Nam hiện nay19 1.5 Nhiệm vụ, phạm vi của đồ án tốt nghiệp 20
Chương 2: Lý thuyết dịch máy dựa trên so khớp tập mẫu 22
2.1 Vài nét về lịch sử của lý thuyết EBMT 22
2.2 Khái niệm, đặc điểm và sơ đồ khối 23
2.2.1 Khái niệm và sơ đồ khối 23
2.2.2 Phân biệt EBMT với TM (Translation Memory) 24
2.3 Kho ngữ liệu song ngữ (Parallel corpus-PC) 25
2.3.1 Giới thiệu chung 25
2.3.2 Huấn luyện PC và tiền xử lý văn bản đầu vào bằng thư viện OpenNLP 26
2.3.2.1 Gán nhãn từ loại (POS-Tagging) 26
2.3.2.2 Phân đoạn (Chunking) 27
2.3.2.3 Phân tích cú pháp đầy đủ(Parsing) 27
2.3.3 Vấn đề kích thước của PC 28
2.3.4 Vấn đề lưu trữ: 29
2.4 Một số phương pháp so khớp chính 31
2.4.1 So khớp dựa trên ký tự: (Character-based Matching) 31
2.4.2 So khớp mức từ: (Word-based Matching) 31
2.4.3 Phương pháp “Góc tương tự” của Carroll 32
2.5 Giới thiệu hai kiểu hệ dịch EBMT thông dụng 33
2.5.1 Hệ D3 (Dp-match Driven transDucer) 33
2.5.2 Hệ HPAT (Hierarchical Phrase Alignment based Translation) 34
2.5.3 So sánh giữa hai hệ dịch: 35
Chương 3: Bài toán xây dựng hệ dịch tự động Anh-Việt dựa trên so khớp tập mẫu 38
3.1 Hệ dịch D3 38
3.1.1 Giới thiệu chung 38
3.1.2 Các đặc điểm và tính năng 39
3.1.3 Cấu hình 39
3.1.4 Khối “Example Retrieval” (Tìm kiếm ngữ liệu tương tự) 42
3.1.4.1 Ý tưởng 42
3.1.4.2 Tính khoảng cách giữa hai câu dựa vào giải thuật DP-Matching 43
3.1.4.3 Giải thuật DP-matching: 43
Trang 63.1.5 Khối “Sản sinh mẫu” và thuật toán sinh mẫu 44
3.1.6 Khối “Chọn mẫu phù hợp nhất” 45
3.1.7 Khối “Thay thế” 46
3.2 Các ý tưởng cải tiến hệ D3 truyền thống 47
3.2.1 Phân lớp và “đồ thị hoá” tập mẫu 47
3.2.1.1 Đặt vấn đề 47
3.2.1.2 Một số vấn đề liên quan đến Otomat hữu hạn đơn định (Deterministic Finite State Automata): 48
3.2.1.3 Mối tương quan giữa bài toán xây dựng đồ thị tối ưu và bài toán cực tiểu hoá OHĐ 50
3.2.1.4 Bài toán cực tiểu hoá OHĐ 50
3.2.1.5.Thuật toán cực tiểu hoá OHĐ 52
3.2.1.6 Thuyết minh và đánh giá độ phức tạp giải thuật 54
3.2.2 Cải tiến khối “Tìm kiếm ngữ liệu tương tự” giai đoạn 1: Khoanh vùng tập mẫu .55
3.2.2.1 Lý do cải tiến 55
3.2.2.2 Tóm tắt ý tưởng 56
3.2.2.3 Thuật toán khoanh vùng tập mẫu 56
3.2.3 Cải tiến khối “Tìm kiếm ngữ liệu tương tự” giai đoạn 2: So khớp dựa trên giải thuật A* kết hợp lý thuyết quy hoạch động 57
3.2.3.1.Khái niệm và yếu tố liên quan 57
3.2.3.2.Giải thuật so khớp A*: 62
3.2.3.3 Thuyết minh và đánh giá giải thuật: 63
3.2.3.4 Ví dụ minh hoạ: 64
Chương 4: Chương trình Dịch tự động Anh -Việt 67
4.1 Phân tích hệ thống về mặt chức năng 68
4.1.1 Xác định yêu cầu 68
4.1.2 Biểu đồ phân cấp chức năng 68
4.1.3 Chức năng Huấn luyện tập mẫu 70
4.1.3.1 Pha “Xây dựng đồ thị” 70
4.1.3.2 Pha “Đặt liên kết Anh-Việt” 72
4.1.4 Chức năng Tiền xử lý 73
4.1.5 Chức năng “Chọn ngữ liệu tương tự nhất” 73
4.1.6 Chức năng “Xây dựng và hoàn thiện câu dịch” 76
4.1.7 Chức năng quản lý từ điển và tập mẫu 78
4.1.7.1 Quản lý tập mẫu: 78
4.1.7.2 Quản lý các từ điển 79
4.2 Thiết kế và tổ chức lưu trữ dữ liệu 80
4.2.1 Cấu trúc các file Từ điển 80
4.2.2 Cấu trúc các file ngữ liệu: 81
4.3 Cài đặt các module chính trong chương trình 82
4.3.1 Một số nét tổng quan về chương trình: 82
4.3.2 Cài đặt module: “Huấn luyện tập mẫu” 83
4.3.3 Cài đặt module “Tiền xử lý” 85
4.3.4 Cài đặt module “Chọn ngữ liệu tương tự nhất” 86
4.3.5 Cài đặt module “Xây dựng, hoàn thiện câu dịch” 89
Chương 5: Thử nghiệm và đánh giá kết quả 91
5.1 Giới thiệu chương trình 91
5.1.1 Module phân tích cú pháp Tiếng Anh : 92
Trang 75.1.2 Module so khớp, tìm ngữ liệu tương tự nhất 92
5.1.3 Module Dịch 93
5.1.4 Module quản lý Từ điển 93
5.1.4.1 Màn hình quản lý Từ điển Anh-Việt 93
5.1.4.2 Màn hình quản lý Từ điển đồng nghĩa 94
5.1.5 Module quản lý tập luật chuyển đổi cú pháp Anh-Việt 94
5.1.6 Module quản lý tập mẫu song ngữ 95
5.2 Thử nghiệm kết quả: 96
5.2.1 Xây dựng tập ngữ liệu huấn luyện và thử nghiệm 96
5.2.2 Các độ đo sử dụng 97
5.2.3 Kết quả thử nghiệm 97
5.2.4 Đánh giá thử nghiệm 102
5.2.4.1 Đánh giá về hiệu suất 102
5.2.4.1 Đánh giá về tốc độ xử lý 103
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 104
1 Những kết quả đã đạt được 104
2 Định hướng nghiên cứu và phát triển đề tài 104
Phần phụ lục 105
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT
Trang 8STT Từ viết tắt Từ đầy đủ Giải nghĩa
2 EBMT Example-Based Machine
Translation
Phương pháp dịch máy dựa trên sokhớp tập mẫu (hay: Dịch trên nền vídụ)
Phương pháp dịch máy thống kê
6 HPA Hierarchical Phrase
DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN
Hình 1 1: Kiến trúc căn bản của Dịch máy 15Hình 1 2: Sơ đồ khối của một hệ dịch trực tiếp 15
Trang 9Hình 1 3 Mô hình hệ dịch trung gian 16
Hình 1 4 Mô hình dịch dựa trên chuyển đổi cú pháp 17
Hình 2 1 Mô hình tổng quát của hệ EBMT 24
Hình 2 2 Minh hoạ các cặp được liên kết trong ngữ liệu song ngữ 25
Hình 2 3 Minh hoạ các mối liên kết của một cặp câu 25
Hình 2 4 Bộ gán nhãn từ loại trong thư viện OpenNLP 26
Hình 2 5 Phân tích cú pháp đầy đủ cho câu “Claudia sat on a stool.” 28
Hình 2 6 Sơ đồ khối bộ HPA 35
Hình 3 1 Minh hoạ cách thức làm việc của D3 39
Hình 3 2 Cấu hình của D3 (Các nguồn dữ liệu và các khối xử lý chính) 40
Hình 3 3 Cấu trúc phân cấp của Từ điển đồng nghĩa (Thesaurus) 41
Hình 3 4 Minh hoạ khối Tìm kiếm ngữ liệu tuơng tự 43
Hình 3 5 Minh hoạ cơ chế sản sinh mẫu 45
Hình 3 6 Minh hoạ cơ chế Thay thế 46
Hình 3 7 Ví dụ minh hoạ hiện tượng phát sinh xâu mới tại những trạng thái có số đầu vào lớn hơn 1 52
Hình 3 8 Đồ thị được xây dựng từ tập câu ứng viên 65
Hình 4 1: Mô hình huấn luyện tập mẫu 70
Hình 4 2: Mô hình chức năng: “Chọn ngữ liệu tương tự nhất” 74
Hình 4 3: Mô hình chức năng “Xây dựng, hoàn thiện câu dịch” 76
Hình 4 4: Chức năng “Quản lý tập mẫu” 79
Hình 4 5: Chức năng “Quản lý từ điển” 80
Hình 5 1: Giao diện chính của chương trình 91
Hình 5 2: Màn hình chức năng Phân tích cú pháp Tiếng Anh 92
Hình 5 3 Màn hình chức năng Tìm ngữ liệu tương tự nhất 93
Hình 5 4: Màn hình chức năng Quản lý từ điển Anh - Việt 94
Hình 5 5: Màn hình chức năng Quản lý tập luật chuyển đổi cú pháp 95
Hình 5 6: Màn hình chức năng quản lý tập mẫu song ngữ 96
DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN Bảng 1 1: Phương pháp tiếp cận và tình hình nghiên cứu dịch máy tại một số nhóm chính ở Việt Nam hiện nay 20
Bảng 2 1 Kích thước của một số hệ EBMT lớn 29
Trang 10Bảng 2 2 Góc tương tự giữa một số cặp câu trong ví dụ (2.3) 33
Bảng 2 3 So sánh một số tính năng giữa D3 và HPAT 36
Bảng 2 4 Số liệu thống kê chất lượng dịch giữa D3 và HPAT 36
Bảng 3 1 Điều kiện áp dụng các toán tử và kết quả thu được 60
Bảng 3 2 Bảng giá trị hàm h’’(s,o) 62
Bảng 4 1: Biểu đồ phân cấp chức năng của hệ thống 69
Bảng 4 2: Các bước triển khai cài đặt pha Xây dựng đồ thị 72
Bảng 4 3: Các bước triển khai chức năng “Xây dựng, hoàn thiện câu dịch” 77
Bảng 4 4: Cấu trúc một block trong file Từ điển Anh-Việt 81
Bảng 4 5: Cấu trúc bản ghi trong file “Động từ bất quy tắc” 81
Bảng 4 6: Cấu trúc tổng quát của các file ngữ liệu: Đồ thị, Liên kết Anh-Việt và Luật chuyển đổi cú pháp 82
Bảng 4 7: Truy nhập các file ngữ liệu thông qua key 82
Bảng 4 8: Các nét tổng quan của chương trình 82
Bảng 4 9: Cài đặt lớp sentenceClass 83
Bảng 4 10: Cài đặt lớp Automata 84
Bảng 4 11: Cài đặt lớp MAFSAConstructor 85
Bảng 4 12: Cài đặt lớp PrepareForMatching 86
Bảng 4 13: Cài đặt lớp MatchingState 87
Bảng 4 14: Cài đặt lớp Matcher 88
Bảng 4 15: Cài đặt phương thức mostValueableSentences() 89
Bảng 4 16: Cài đặt lớp Subtitutor 89
Bảng 4 17: Cài đặt phương thức getFinalResult(WordTranslator trans) 90
Bảng 5 1: Các thông số của tập ngữ liệu huấn luyện 96
Bảng 5 2: Các thông số của tập ngữ liệu thử nghiệm 97
Bảng 5 3: Một số kết quả dịch thử nghiệm 101
Bảng 5 4: Bảng hiệu suất các pha chính 102
Bảng 5 5: Tốc độ xử lý của các pha chính 103
LỜI NÓI ĐẦU
Với sự phát triển vô cùng mạnh mẽ và nhanh chóng của khoa học kỹ thuật nói chung và ngành Công nghệ thông tin nói riêng, chưa bao giờ như hiện nay con người lại có thể nắm bắt, khai thác và xử lý những thông tin, tri thức mới dễ dàng, thuận tiện đến như vậy.Cho dù bạn muốn cập nhật những tin tức nóng hổi nhất như tỷ giá đồng Đô-la trên thị trường ngày hôm nay, Top ten các bài hát hay nhất trong tuần… đến tra cứu tiểu sử của một danh nhân sống cách đây đã hàng thế kỷ…Với một chiếc máy tính có kết nối Internet, mọi việc trở nên vô cùng đơn giản Chẳng hạn: chỉ cần
mở máy, tìm đến website Google và gõ vào một vài từ khoá cần thiết, mọi thông tin
Trang 11bạn mong muốn sẽ hiện diện thật nhanh chóng Máy tính đã làm nên điều kỳ diệu màloài người bấy lâu hằng mơ ước: thu hẹp những cản trở về mặt địa lý, giúp họ xíchlại gần nhau hơn, làm phong phú đời sống tinh thần và giúp nâng cao tri thức chotoàn nhân loại.
Tuy vậy, một trong những khó khăn của người Việt chúng ta hiện nay là hiểuđược ngôn ngữ được thể hiện trong các tài liệu trên Internet, mà chủ yếu là bằngtiếng Anh.Bởi thế, ý tưởng về việc xây dựng một hệ thống chuyên dịch các tài liệu
từ tiếng Anh sang tiếng Việt đã được hình thành, và nếu thực hiện được sẽ có ýnghĩa cũng như mang lại hiệu quả vô cùng to lớn.Chắc chắn nó sẽ giúp các cơ quan,
xí nghiệp xử lý công văn, giấy tờ, hợp đồng dễ dàng hơn; các nhà khoa học,nhànghiên cứu giảm bớt công sức dịch thuật các công trình khoa học nước ngoài dàycộm; và mọi người tiếp cận những tri thức mới nhanh chóng và thuận tiện hơn…
Trong khoảng gần 10 năm trở lại đây, bài toán dịch máy đã được triển khainghiên cứu, ứng dụng tại Việt Nam và đã thu được một số thành công nhất định.Tuyvậy, quá trình thực hiện đã gặp nhiều khó khăn, chủ yếu là về vấn đề ngônngữ.Chẳng hạn như với tiếng Việt thì cơ sở lý thuyết để xây dựng được hệ thống xử
lý ngôn ngữ tự nhiên là chưa hoàn chỉnh và còn khá khiêm tốn, hay vấn đề nhậpnhằng ngữ nghĩa-một bản chất vốn có của ngôn ngữ tự nhiên-chưa được giải quyếttriệt để…Việc xây dựng kho ngữ liệu song ngữ Anh-Việt, công cụ phục vụ đắc lựctrong các hệ dịch trên nền ví dụ, hầu như chưa thu được kết quả đáng kể, trong khinhiều nước trên thế giới đã có được những kho ngữ liệu với số lượng lên đến hàngtrăm nghìn, thậm chí hàng triệu cặp câu…Trong thời gian tới, để thúc đẩy dịch máyViệt Nam phát triển, chắc chắn những vấn đề trên phải được quan tâm đầu tư nghiêncứu nhiều hơn nữa
Đồ án tốt nghiệp đại học này sẽ tiếp cận bài toán dịch máy Anh-Việt theo
phương pháp dựa vào so khớp với tập mẫu (hay còn gọi Dịch máy trên nền ví
dụ-EBMT)-một hướng nghiên cứu Dịch máy khá mới tại Việt Nam hiện nay.Trongkhuôn khổ của một Đồ án, tác giả chỉ tập trung vào nghiên cứu cơ sở lý thuyết; tiếpcận với một hệ dịch EBMT cụ thể Trên cơ sở kế thừa tinh thần chung của phươngpháp, kết hợp với một số đề xuất, cải tiến nhằm nâng cao hiệu suất dịch, đồ án sẽ càiđặt một chương trình thử nghiệm Tác giả không đặt mục tiêu rằng hệ thống có thể
áp dụng ngay được trong thực tế, bởi nguồn ngữ liệu-Cơ sở tri thức mà máy “học”được-còn khiêm tốn, chưa thể có được một “độ bao phủ” đáng kể lên nguồn tri thứcmênh mông của nhân loại.Một hệ thống thiết kế đúng, dịch tốt những câu “gần” vớinhững gì nó được “học”(nguồn ngữ liệu cung cấp), và minh hoạ được tính đúng đắncủa lý thuyết Dịch đang nghiên cứu chính là mục tiêu lớn nhất mà Đồ án hướng đến
Về mặt bố cục, Đồ án này gồm năm chương, nội dung chính như sau:
Trang 12Chương 1: Giới thiệu tổng quan về bài toán dịch máy (khái niệm, kiến trúc,
vai trò…).Một số chiến lược dịch máy chính.Tình hình nghiên cứu và triển khai dịchmáy tại Việt Nam hiện nay.Từ đó xác định nội dung và phạm vi nghiên cứu cho đợtthực tập
Chương 2: Tập trung vào nghiên cứu cơ sở lý thuyết của phương pháp dịch
máy trên nền ví dụ.Từ những vấn đề tổng quát như khái niệm, đặc trưng, các nguồnngữ liệu chính…cho đến những vấn đề then chốt trong phương pháp này như: tổchức lưu trữ và huấn luyện tập mẫu; các phương pháp so khớp hiệu quả…Trình bàykhái quát hai hệ dịch EBMT nổi tiếng hiện nay
Chương 3: Đi sâu vào việc xây dựng (về mặt ý tưởng, thuật toán) cho hệ
dịch: Đầu tiên là tiếp cận chi tiết một hệ dịch EBMT, tìm hiểu ý tưởng, cách thứcdịch và các thuật toán mà nó sử dụng Sau đó, trên cơ sở phân tích những ưu,khuyếtđiểm của hệ dịch này, kế thừa những ưu điểm và đề xuất một số ý tưởng để cải tiến
nó (về thời gian vè hiệu suất dịch)
Chương 4: Dựa trên mô hình đã xây dựng ở Chương 3, Chương này tiến
hành cài đặt hệ dịch.Các công đoạn chính được luận văn đề cập là: phân tích hệthống về mặt chức năng; phân tích, thiết kế và tổ chức lưu trữ dữ liệu; các bước càiđặt một số module chính trong hệ thống
Chương 5: Tập trung vào việc thử nghiệm và đánh giá các kết quả thu được,
kết hợp so sánh, đối chiếu với một số hệ dịch có sẵn trên thị trường hiện nay Tiếnhành đúc kết lại những việc đã làm được, những việc chưa hoàn thành để đề rahướng nghiên cứu và phát triển đề tài trong tương lai
Chương 1: Tổng quan về dịch máy
Những nội dung chính:
Tổng quan về bài toán dịch máy: Đôi nét về lịch sử; khái niệm, kiến trúc và vai trò của dịch máy.
Một số phương pháp tiếp cận bài toán dịch máy.
Tình hình nghiên cứu và triển khái ứng dụng dịch máy tại Việt Nam hiện nay.
Xác định nhiệm vụ và phạm vi của đồ án tốt nghiệp.
Trang 131.1 Lịch sử của dịch máy:
Sau Đại chiến lần thứ hai, do sự phát triển của máy tính điện tử và do nhucầu cần nắm bắt những thông tin kịp thời và chính xác trước sự bùng nổ thông tinkhoa học- kỹ thuật ngày càng lớn, người ta thấy cần phải trao cho máy tính điện tửnhiệm vụ dịch các văn bản từ ngôn ngữ này sang ngôn ngữ khác, đặc biệt là các vănbản khoa học, kỹ thuật
Việc dịch ngôn ngữ tự nhiên hay còn được gọi là dịch máy (MachineTranslation), bắt đầu được quan tâm nghiên cứu từ những năm đầu thập niên 50 củathế kỷ 20.Có thể nói rằng đây là một trong những bài toán khó nhất trong loạt các bàitoán về ứng dụng trí tuệ nhân tạo vào thực tế, đồng thời cũng là vấn đề thời sự gâytranh cãi và được bàn thảo sôi nổi nhất từ trước đến nay
Thời kỳ đầu tiên, dịch máy cố gắng nhấn mạnh sự quan trọng của việc dịchtừng từ dựa trên sự tra từ điển song ngữ và dựa trên thông tin thống kê, tần số từ vànhững mẫu tuần tự.Trong thời kỳ những năm 1960, dịch máy gặp rất nhiều khó khăn
và đã có lúc bị chỉ trích là “không thể thực hiện được” và “không xứng đáng bỏ côngsức để thực hiện” Các ý kiến chống đối cho rằng: “Việc dịch ngôn ngữ không nhữngchỉ cần những kiến thức về ngôn ngữ, mà còn cần đến cả những kiến thức ngoàingôn ngữ (extra-linguistic)” Dịch máy đã thực sự lắng xuống khi vào những năm
1975, chính phủ nhiều quốc gia đã không còn trợ cấp cho các chương trình nghiêncứu và triển khai các ứng dụng liên quan đến lĩnh vực này nữa
Tuy vậy, từ những năm cuối thập niên 80 trở lại đây, việc nghiên cứu vàtriển khai các ứng dụng của dịch máy thực sự trỗi dậy mạnh mẽ và đạt được nhữngthành tựu hết sức đáng khích lệ Sở dĩ có được sự hồi sinh đó là do nhiều nguyênnhân: Thứ nhất, sự phát triển của các lý thuyết về ngôn ngữ học, ngữ pháp học, từvựng học…Thứ hai, nhiều nhà khoa học đã mạnh dạn đề xuất các hướng tiếp cậnmới mẻ và đầy tính khả thi, mà nổi bật nhất là Nagao với phương pháp dịch trên nền
ví dụ ( hay còn có thể hiểu là dịch máy bằng So khớp tập mẫu ) năm 1984 Thứ ba,
đó là sự ra đời của rất nhiều các thế hệ máy tính mới với khả năng mạnh hơnnhiều…
Hiện nay, bài toán dịch máy đã trở nên phổ biến và được sự đầu tư quan tâmnghiên cứu của rất nhiều quốc gia trên thế giới, trong đó có Việt Nam Đặc biệt, cácquốc gia tiên tiến như: Mỹ, Nhật Bản đã xây dựng được một số hệ dịch với hiệu suấtdịch rất cao (Ví dụ: hệ D3, HPAT…) Tuy nhiên, cho đến nay, việc dịch máy vẫncòn nhiều hạn chế, và chủ yếu vẫn chỉ được sử dụng cho các tài liệu khoa học hơn làcác tài liệu văn học- nghệ thuật
1.2 Khái niệm, kiến trúc và vai trò của dịch máy trong việc thúc đẩy sự phát triển của lý thuyết ngôn ngữ
Dịch máy là một lĩnh vực nghiên cứu của ngành máy tính, hướng tới việc tìm ra những phương pháp, cách thức hiệu quả nhất để chuyển một văn bản ở ngôn ngữ nguồn sang ngôn ngữ đích.
Để thực hiện được điều đó, máy cần phải được “học” những quy tắc dịch docon người trang bị Ngày nay, với sự phát triển của khoa học-kỹ thuật, các chiến
Trang 14lược dịch ngày càng phong phú.Có chiến lược đi sâu vào bản chất ngôn ngữ (phântích sâu về mặt cú pháp, ngữ nghĩa), lại có chiến lược thiên về cài đặt các mô hìnhtoán học (chẳng hạn mô hình thống kê, xác suất…trên một số lượng lớn văn bảnmẫu) để tìm ra câu dịch phù hợp nhất Những chiến lược này sẽ được trình bày kháiquát ở mục sau của báo cáo.
Có thể nói rằng chính những thành tựu có được trong nghiên cứu dịch máy
đã thúc đẩy lý thuyết ngôn ngữ học phát triển rất mạnh Người ta phải chính xác hoá,hình thức hoá các khái niệm ngôn ngữ, phải phát hiện được các sự kiện bản chấttrong quan hệ giữa nội dung và hình thức ngôn ngữ, nghiên cứu các điểm giống nhaucủa ngôn ngữ
Hình vẽ dưới đây mô tả kiến trúc truyền thống của dịch máy.Tuy nhiên, ngàynay kiến trúc này đã được mở rộng ra nhiều bởi hàng loạt các hướng tiếp cận mới,hiện đại
Hình 1 1 Kiến trúc căn bản của Dịch máy
1.3 Một số chiến lược dịch máy điển hình
1.3.1 Dịch trực tiếp
Đây là lối dịch kiểu thay thế những từ trong ngôn ngữ nguồn với những từtrong ngôn ngữ đích một cách máy móc Những hệ dịch trực tiếp chỉ phù hợp chonhững ứng dụng nơi mà văn bản dịch có khối lượng từ nhỏ và số lượng câu giới hạn.Chúng hoạt động tương đối tốt khi dịch giữa các ngôn ngữ có cùng loại hình
Chuyển đổi cú pháp
Chuyển đổi trực tiếp từ - từ
Liên ngôn ngữ
Trang 15Hình 1 2 Sơ đồ khối của một hệ dịch trực tiếp
1.3.2 Dịch qua ngôn ngữ trung gian
Xây dựng một ngôn ngữ trung gian biểu diễn độc lập với mọi ngôn ngữ tựnhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế nhất của mọingôn ngữ có trong hệ dịch đó Khi dịch một ngôn ngữ nguồn A sang ngôn ngữ đích
B thì đầu tiên, thực hiện việc chuyển A sang một ngôn ngữ trung gian, sau đóchuyển từ ngôn ngữ trung gian dịch sang ngôn ngữ đích B
Hình 1 3 Mô hình hệ dịch trung gian.
Văn bản ở ngôn ngữ thứ 2
Văn bản ở ngôn ngữ thứ n Liên ngôn ngữ
Trang 16Như vậy, việc xử lý trong hệ thống dựa trên ngôn ngữ trung gian bao gồm haibước quan trọng, đó là:
Phân tích văn bản nguồn để biểu diễn lại dưới dạng thức của một ngônngữ trung gian
Sử dụng những đơn vị ngữ nghĩa và cấu trúc cú pháp của ngôn ngữđích để phát sinh văn bản kết quả từ cách biểu diễn theo dạng ngônngữ trung gian
Ưu điểm của hệ liên ngôn ngữ là số lượng bộ dịch được dùng bởi hệ dịch liênngôn ngữ không nhiều.Tuy nhiên, khó khăn của phương pháp lại nằm ở chỗ là không
dễ xây dựng một ngôn ngữ trung gian đáp ứng được những yêu cầu như thế (đủphong phú để biểu diễn được tất cả các đơn vị từ vựng và cú pháp của các ngôn ngữliên quan trong quá trình dịch)
1.3.3 Dịch dựa trên sự chuyển đổi
Phân tích cú pháp câu được nhập vào, sau đó áp dụng các luật ngôn ngữ và từvựng (còn được gọi là những luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ này sang ngôn ngữ khác Trước khi được chuyển đổi cú pháp, câu phải trải qua các quá trình phân tích như: Phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa…
Hình 1 4 Mô hình dịch dựa trên chuyển đổi cú pháp.
Chiến lược chuyển đổi cú pháp chia quá trình dịch thành 3 giai đoạn:
Trong các hệ dịch dựa trên chuyển đổi, bước chuyển đổi là bước quan trọng nhất,giữ vai trò quyết định chất lượng hệ dịch Chuyển đổi này bao gồm hai phần chuyển
đổi chính, đó là chuyển đổi từ vựng và chuyển đổi cấu trúc Chuyển đổi từ vựng là
quá trình chọn nghĩa đúng cho các từ ở ngôn ngữ nguồn thể hiện sang từ tương ứng
của ngôn ngữ đích Còn chuyển đổi cấu trúc là quá trình sắp xếp lại, thêm bớt, thay
Trang 17thế các thành phần cấu trúc của câu ở ngôn ngữ nguồn để có được cấu trúc tươngứng ở ngôn ngữ đích.
Hướng tiếp cận này có nhiều ưu điểm: Nếu tính tương đồng giũa ngôn ngữnguồn và đích càng cao thì các bước chuyển đổi càng đơn giản Hơn nữa, giai đoạnphân tích và phát sinh cũng sẽ đơn giản hơn so với các hệ dịch dựa trên ngôn ngữtrung gian Tuy nhiên, một trong những nhược điểm của phương pháp là không thểgiải quyết được các trường hợp nhập nhằng ngữ nghĩa của câu có cùng cấu trúcnhưng nghĩa khác nhau, tốn công sức xây dựng hệ luật, các luật không bao quát, cóhiện tượng luật thừa và luật mâu thuẫn…
Cũng chính vì tính khả thi cao này, đã có nhiều hệ dịch dựa trên sựchuyển đổi ra đời và hoạt động hiệu quả, tiêu biểu là: Hệ dịch Anh- Pháp METEO(xây dựng bởi đại học Montreal - TAUM) chuyên dịch các bản tin dự báo thời tiết,
hệ dịch GETA (Đại học Grenoble - 1971)… Ở Việt Nam, sản phẩm dịch EVTRANScũng được xây dựng theo hướng tiếp cận này
v
(1.1)Trong đó: e là văn bản ngôn ngữ nguồn
Áp dụng công thức Bayes ta có:
) (
) ( )
| ( max arg
e P
v P v e P v
v
Dễ dàng nhận thấy các giá trị P(v) và P(e) là hoàn toàn xác định, bởi vậy bài toán
được đưa về việc: Làm thế nào để P(e|v) là cực đại?
Để tính được P(e|v), chúng ta dựa vào việc đặt các liên kết tương ứng giữa các từtrong 2 câu (v) và (e) Chẳng hạn với cặp câu:
(e) I have a blue hat.
(v) Tôi có một cái mũ xanh.
Các từ tương ứng được xác định như sau (dựa vào công cụ có sẵn):
Gọi a=(ei,vi) là một liên kết, ta có :
I have a blue hat
Tôi có một cái mũ xanh
Trang 18| , ( )
a j t
1 (
1 )
|
,
(
Với: - l,m lần lượt là độ dài (số từ) của v và e
- pt(ej|vaj) chính là xác suất của ei khi có vaj (hay nói cách khác là xác suất hai
từ này có liên kết với nhau).Xác suất này hoàn toàn có thể thống kê được nhờ tập
mẫu.
Chẳng hạn, với 2 câu ví dụ trên, ta có:
5
) 1 5
(
1 )
P [pt(I|tôi).pt(have|có)…pt(hat|cái mũ)]
Xác suất trên hoàn toàn tính được, do vậy P(e|v) là tính được Trong số cáccâu (v) trong tập mẫu, câu nào cực đại hoá được P(e|v) chính là câu dịch cần chọn
Như vậy, thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệdịch này tự động xây dựng các từ điển, các quy luật dựa trên phương pháp thống kê
Rõ ràng, cách tiếp cận này không đòi hỏi một sự phân tích sâu về ngôn ngữ, chúngthực hiện hoàn toàn tự động các quá trình phân tích, chuyển đổi, tạo câu dựa trên kếtquả thống kê có được từ kho ngữ liệu
1.3.5 Dịch dựa trên ví dụ (Dịch so khớp tập mẫu)
Đặc điểm của các hệ dịch theo cách tiếp cận này là: thay vì việc phân tích vàchuyển đổi cú pháp cho các câu cần dịch; thay vì việc tạo ra hàng loạt các luậtchuyển đổi, quá trình dịch sẽ được thực hiện bằng cách tìm câu tương tự với câu cầndịch trong một tập mẫu (hay kho ngữ liệu) đã được xây dựng và huấn luyện trước
Có thể nói đây là một hướng tiếp cận khá đặc sắc, ở chỗ: Nó giúp hạn chế được đáng
kể những khó khăn của xử lý ngôn ngữ tự nhiên như nhập nhằng ngữ nghĩa, nhậpnhằng cú pháp…Dịch trên nền ví dụ có thể dịch tốt những câu với câu trúc ngữ pháprất phức tạp, điều mà các hướng tiếp cận khác có thể không làm được Tuy vậy, khókhăn lớn nhất cho phương pháp là làm sao có thể thu thập và xây dựng được một tậpmẫu đủ lớn để có thể dùng được Đi liền với nó là cách huấn luyện, tổ chức lưu trữ
và cơ chế tìm kiếm để đảm bảo về mặt tốc độ xử lý Do đây là hướng tiếp cận của
đồ án tốt nghiệp nên nó sẽ được trình bày kỹ trong chương 2 của báo cáo này.
1.4 Sơ lược về tình hình nghiên cứu và triển khai dịch máy tại Việt Nam hiện nay
Hiện nay, bài toán dịch máy đã được quan tâm hơn tại Việt Nam Bảng sauđây liệt kê một số nhóm chính đang nghiên cứu và các hướng tiếp cận :
1 National Center for
Trang 19sản phẩm dịch máy đã được thương mại hóa(EVTRAN 2.0, EVTRAN 3.0 )
2 Trường Đại học Khoa
(Dr Lê Anh Cường)
Trước đây: Tiếp cận theo hướng Rule-Based xâydựng hệ dịch Anh-Việt.Hệ thống đã xây dựng hoàntất nhưng chưa được công bố
Hiện nay: Chú trọng vào phương pháp thống kê,phát triển hệ thống dịch dựa trên luật nhờ kỹ thuậtthống kê
(Nguồn: Current Status of Machine Translation Research in Vietnam- Towards Asian wide multi language machine translation project )
Bảng 1 1: Phương pháp tiếp cận và tình hình nghiên cứu dịch máy tại một số
nhóm chính ở Việt Nam hiện nay.
Xét về hướng tiếp cận, đa số các nhóm đều xây dựng các hệ dịch dựa trênphân tích và ánh xạ cấu trúc ngữ pháp, kết hợp với phương pháp thống kê Hiện nay,Rule-Based có thể nói là hướng tiếp cận chủ đạo, với từ điển song ngữ và các luậtngữ pháp được xây dựng ngày càng công phu hơn (Điển hình là sản phẩmEVTRAN, phiên bản 2.0 với 3000 luật và 250.000 từ nhưng đến phiên bản 3.0 cáccon số tương ứng đã tăng lên là 10.000 và 530.000)
Tình hình xây dựng tập ngữ liệu ở nước ta vẫn còn nhiều hạn chế và bấtcập.Một trong những bộ ngữ liệu công phu nhất có thể kể đến EVC (Đại học khoahọc tự nhiên-Đại học Quốc gia TP.HCM xây dựng ) với khoảng 40.000 cặp câu songngữ Anh-Việt (xấp xỉ khoảng 5.500.000 câu) về lĩnh vực khoa học và công nghệ…Các câu trong tập ngữ liệu được xử lý về mặt hình thái, gán nhãn từ loại (POS-Tag)
ta cần có sự quan tâm hơn nữa đến cách tiếp cận này
Trang 201.5 Nhiệm vụ, phạm vi của đồ án tốt nghiệp
Đồ án tốt nghiệp cần phải thực hiện những nhiệm vụ sau:
Nghiên cứu sâu lý thuyết dịch máy dựa trên So khớp tập mẫu: Đặc trưng, môhình tổng quát, cách xây dựng, huấn luyện và sử dụng kho ngữ liệu, cácphương pháp so khớp (tìm kiếm ngữ liệu tương tự nhất)…
Tiếp cận với một hệ EBMT cụ thể để tìm hiểu cơ chế lưu trữ và huấn luyệntập mẫu, cơ chế tìm kiếm và điều hợp để thu được câu dịch tốt nhất Sau đó,đưa ra những nhận định, đánh giá các ưu, khuyết điểm của hệ thống này.Trên
cơ sở đánh giá đó, đề xuất các ý tưởng cải tiến cho hệ thống để nâng cao chấtlượng dịch và tối ưu hoá thời gian xử lý.Với mỗi thuật toán đề xuất, giải thích
lý do lựa chọn, đánh giá được hiệu quả và độ phức tạp
Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu là các cặpcâu song ngữ thành dạng có thể áp dụng được cho quá trình so khớp
Xây dựng tập luật chuyển đổi cú pháp Anh-Việt phục vụ cho bài toán phụ:Xác định vị trí của nghĩa của một từ trong câu dịch khi thêm từ đó vào câutiếng Anh tương ứng
Giải quyết bài toán lấy về từ tiếng Anh nguyên gốc từ các biến thể của nó(dạng số nhiều của danh từ, dạng quá khứ đơn, quá khứ phân từ của độngtừ…)
Những công việc này để chuẩn bị cho đồ án tốt nghiệp.Trong khuôn khổ của một đồ
án, tác giả giới hạn phạm vi như sau:
Hệ dịch chỉ dịch các văn bản và là từ tiếng Anh sang tiếng Việt (không cóchiều ngược lại)
Đồ án chỉ tập trung xây dựng phần lõi (core) của hệ dịch EBMT, từ giai đoạn
có câu vào (đã được tiền xử lý) đến lúc có câu dịch hoàn chỉnh
Đồ án sẽ không xây dựng mà kế thừa những kết quả sau :
o Tập mẫu Anh-Việt , từ điển đồng nghĩa, từ điển song ngữ
o Bộ phân tích cú pháp tiếng Anh (để phục vụ cho giai đoạn tiền xử lývăn bản đầu vào và giai đoạn dịch sau này) thông qua mã nguồn mở
Kết chương
Trong chương đầu tiên này, ta đã xác định được:
Lịch sử hình thành, khái niệm, kiến trúc và vai trò thúc đẩy sự phát triển củabài toán dịch máy
Tìm hiểu một số chiến lược dịch máy, tập trung vào 3 hướng tiếp cận chính:dịch trên nền luật, trên nền ví dụ và dịch dựa trên thống kê.Tình hình nghiêncứu dịch máy tại Việt Nam
Đề ra được nhiệm vụ cho đợt thực tập tốt nghiệp, gồm những nội dung chínhlà:
o Tìm hiểu lý thuyết dịch máy trên nền ví dụ (EBMT), tập trung vào cácvấn đề chính: Cách lưu trữ và huấn luyện tập ngữ liệu, các giải thuật sokhớp…
Trang 21o Nghiên cứu một hệ dịch EBMT cụ thể là hệ D3: cấu hình, hoạt độngcủa các khối xử lý chính, giải thuật chính mà hệ sử dụng: so khớp quyhoạch động (DP-Matching).
o Thiết kế một hệ dịch EBMT cho riêng mình, dựa trên nền D3, nhưngchỉnh sửa và bổ sung một số giải thuật để tối ưu chi phí thời gian xử lý
và chất lượng dịch.Nghiên cứu các lý thuyết sử dụng trong các thuậttoán đó: Lý thuyết đồ thị, Otomat, thuật toán A*…
Chương sau sẽ thực hiện nhiệm vụ đầu tiên, đó là nghiên cứu những lý thuyết chung
về phương pháp dịch máy trên nền ví dụ
Chương 2: Lý thuyết dịch máy dựa trên so khớp tập mẫu
2.1 Vài nét về lịch sử của lý thuyết EBMT
Có thể nói rằng ý tưởng đầu tiên về một phương pháp dịch máy mới mẻ vàđộc đáo- còn được gọi là dịch trên nền ví dụ, hay dịch dựa vào tập mẫu - được xuấthiện đầu tiên trong một tham luận tại một hội thảo khoa học năm 1981, của nhà khoahọc Nhật Bản có tên là Makoto Nagao Tuy nhiên, phải đến 3 năm sau, ý tuởng đómới được công bố rộng rãi, được giới khoa học quan tâm và biết đến Đây cùng làthời khắc mở đầu cho hàng loạt các công trình nghiên cứu về EBMT sau này
Bản chất của EBMT, mà sau này được diễn giải bằng những thuật ngữ như:
“Dịch bằng suy dẫn từ ví dụ”, hay “Dịch trên nguyên lý tương tự” đã được Nagaoviết một cách giản dị, dễ hiểu trong một bài báo của ông được đăng tài năm 1984 :
“ Man does not translate a simple sentence by doing deep linguistic analysis, rather, Man does translation, first, by properly decomposing an input sentence into certain fragmental phrases , then by translating these phrases into otherlanguage phrases, and finally by properly composing these fragmental translations into one
Những nội dung chính:
Khái niệm, đặc trưng và sơ đồ khối của một hệ EBMT.
Kho dữ liệu song ngữ (PC): Giới thiệu chung, các cách tổ chức lưu trữ và huấn luyện ngữ liệu.
Một số phương pháp so khớp hiệu quả được sử dụng trong các hệ EBMT.
Giới thiệu khái quát về hai hệ dịch EBMT điển hình
Trang 22
long sentence The translation of each fragmental phrase will bedone by the analogy translation principle with proper examples as its reference.”
(Nagao-1984)
Như vậy, theo ông, cái cốt lõi và bản chất nhất của EBMT dễ dàng phân biệt
so với các phương pháp, các cách tiếp cận khác, chính là việc không can thiệp sâuvào cấu trúc ngữ pháp của câu trong văn bản Thay vào đó, chúng ta phân tách câucần dịch thành những “câu con” đơn giản hơn Sau đó, áp dụng những thuật toán sokhớp để tìm kiếm trong tập mẫu câu tương tự nhất với mỗt câu con đó, và vì thế dịchđược chúng sang ngôn ngữ đích Công việc cuối cùng chỉ là làm sao để kết hợp đượccác câu ở ngôn ngữ đích một cách thích hợp để thu được câu dịch hoàn chỉnh, của dữliệu đầu vào Xuất phát từ quan điểm đó, Nagao định nghĩa 3 thành phần chínhtrong một hệ dịch kiểu Example-Based là:
Thành phần so khớp từng câu dựa vào tập mẫu (Matching FragmentComponent)
Thành phần nhận dạng các đoạn tương ứng giữa câu ở ngôn ngữ nguồn vàngôn ngữ đích
Thành phần kết hợp các đoạn đã được dịch để có được câu dịch hoàn chỉnh Đây là 3 thành phần chính trong một hệ EBMT truyền thống.Sau này, trongcác hệ dịch tiên tiến hơn như D3,… để nâng cao hiệu suất dịch, nhiều thành phầnkhác đã được bổ sung Nhưng tất cả chúng đều kế thừa những ý tưởng nguyên thuỷnày
Với mục đích minh hoạ cho bản chất của EBMT, Nagao và Sato đã đưa ramột ví dụ điển hình năm 1990 Trong ví dụ này, ngôn ngữ nguồn là Tiếng Anh vàngôn ngữ đích là Tiếng Nhật (quê hương của hai ông) Xin được lấy lại ví dụ nàyvới ngôn ngữ đích là Tiếng Việt:
(1) He buys a book on international politics
(2) a He buys a notebook.
Anh ấy mua một quyển vở
b I read a book on international politics.
Tôi đọc một cuốn sách chính trị quốc tế.
(3) Anh ấy mua một cuốn sách chính trị quốc tế
Trong ví dụ này, (1) là câu cần dịch Giả sử trong tập mẫu chúng ta đã có haicâu (2a) và (2b).Bằng cách xác định phần tương ứng Anh-Việt trong từng câu vàghép lại theo trật tự thích hợp, sẽ thu được câu dịch (3)
2.2 Khái niệm, đặc điểm và sơ đồ khối
2.2.1 Khái niệm và sơ đồ khối
EBMT là một trong hai chiến lược dịch máy dựa vào tập mẫu Khác vớiphương pháp thống kê, EBMT sử dụng tập mẫu một cách trực tiếp: Nó lọc ra từ đó
Trang 23ngữ liệu tương tự nhất E' với câu cần dịch E Sau đó, thực hiện biến đổi từ câu dịchV' của E' để có được câu dịch V cần tìm của E.
Về cấu trúc, một hệ EBMT gồm hai module chính:
trích ra từ kho ngữ liệu những cặp câu (E', V') (tương ứng là phần ngôn ngữ nguồn
và đích), với E' là tương tự nhất so với câu đầu vào E, dựa trên một số phép đo độđồng nghĩa độc lập với ngôn ngữ
thêm, xoá từ ) đối với V' để được câu dịch cần tìm V (dựa trên sự trợ giúp của từđiển song ngữ )
Từ câu trúc đó, ta thiết lập mô hình tổng quát cho một hệ EBMT như sau:
Hình 2 1 Mô hình tổng quát của hệ EBMT.
2.2.2 Phân biệt EBMT với TM (Translation Memory)
Khái niệm EBMT thường gắn liền với một kỹ thuật có liên quan, đó là "bộnhớ dịch" (Translation Memory).Mối quan hệ mật thiết này một phần xuất phát từviệc cả hai đều được công bố vào cùng một thời điểm; và sau này có nhiều người đã
sử dụng thuật ngữ “Memory-based translation” như một thuật ngữ đồng nghĩa vớiEBMT Đã có nhiều nhà khoa học cho rằng hai thuật ngữ nói trên về cơ bản là đồngnhất.Tuy nhiên, chúng vẫn là hai khái niệm độc lập.Trước hết, xét về sự tương đồngthì cả hai:
Đều có ý tưởng sử dụng lại các ví dụ (ngữ liệu) từ các bản dịch đã tồntại trước đó
Kho ngữ liệu song ngữ
Từ điển đồng nghĩa
Từ điển song ngữ
RETRIEVE+ADAPT
Độ tương tự
Trang 24 Đều phải giải quyết chung bài toán tổ chức lưu trữ kho ngữ liệu vớikích thước lớn; đồng thời có cơ chế so khớp để chọn ra được ngữ liệu mong muốn.Tuy vậy, chúng có những điểm khác biệt như sau:
TM là một công cụ tương tác cho các bộ dịch song ngữ, trong khi EBMT về bản chất là một kỹ thuật, phương pháp luận dịch tự động.
Trong việc định vị tập ngữ liệu tương đương, TM giao cho con ngườiquyết định, còn EBMT thì không: con người chỉ can thiệp được trong giai đoạntrước khi bắt đầu quá trình xử lý mà thôi
2.3 Kho ngữ liệu song ngữ (Parallel corpus-PC)
2.3.1 Giới thiệu chung
PC là một yếu tố không thể thiếu được đối với bất cứ một hệ EBMT nào Cóthể nói việc xây dựng và huấn luyện PC tốt là yếu tố tiên quyết đối với hiệu năng của
hệ dịch EBMT.Tuy nhiên, để làm được điều đó là không dễ dàng
Hầu hết các PC hiện nay đều được xây dựng dựa trên việc thu thập từ nhiềunguồn văn bản song ngữ khác nhau (sách, từ điển, ngữ liệu…) thuộc các lĩnh vựckhoa học, kỹ thuật, xã hội…Việc thu thập phải tuân thủ theo một số tiêu chí nhấtquán về mặt ngôn ngữ, văn phong, lĩnh vực…
Sau khi được thu thập từ nhiều nguồn khác nhau, nói chung hầu hết các PCđều trải qua các công đoạn tiền xử lý: chuẩn hoá về dạng văn bản (text only), fontchữ, chuẩn hoá chính tả…Sau đó, chúng được tiến hành đánh dấu tương ứng vớitừng cặp câu Các cặp câu này được đặt liên kết từ (Word align) một cách tự độngbằng chương trình (Liên kết từ là việc xác định mối liên kết giữa một ( hoặc nhiều)
từ Tiếng Anh với một (hoặc nhiều) từ Tiếng Việt tương ứng )
Ví dụ, dưới đây là mẫu ngữ liệu song ngữ đã được liên kết (của bộ ngữ liệusong ngữ Anh-Việt EVC: English-Vietnamese Corpus):
List the five most common types of computer system.
Liệt kê năm kiểu hệ thống máy tính phổ biến nhất.
1 1 3 6 9 9 8 8 5 5 4 10
Identify two unique features of supercomputers.
Xác định hai đặc trưng duy nhất của siêu máy tính.
[1_1,2][2_3][3_6,7][4_5,4][5_8][6_9,10,11][7,12]
Diffrentiate workstations from personal computers.
Phân biệt trạm làm việc với máy tính cá nhân.
1 1 2 2 2 0 5 5 4 4 6
Hình 2 2 Minh hoạ các cặp được liên kết trong ngữ liệu song ngữ
Các mối liên kết của một cặp câu được minh hoạ như hình dưới đây:
Trang 25Hình 2 3 Minh hoạ các mối liên kết của một cặp câu
2.3.2 Huấn luyện PC và tiền xử lý văn bản đầu vào bằng thư viện
OpenNLP
Thực ra trong mục (2.3.1) cũng đã đề cập đến một số bước huấn luyện PC,
đó là: Tiền xử lý (Pre-processing) và liên kết từ (Word-align) Mục này chỉ đề cậptiếp đến một số bước huấn luyện nữa, đi sâu vào những đặc trưng bản chất của ngôn
ngữ, cụ thể là cấu trúc ngữ pháp.Tuy nhiên, do đây không phải là trọng tâm
nghiên cứu của EBMT, nên báo cáo không tập trung đi sâu vào nghiên cứu thuật toán, chỉ giới thiệu khái quát các bước huấn luyện mà thôi Trong khi xây
dựng hệ dịch, để huấn luyện PC, tác giả sẽ sử dụng một thư viện các hàm đã đượcxây dựng sẵn để phục vụ cho các thao tác Xử lý ngôn ngữ tự nhiên, cụ thể hơn làPhân tích cú pháp Tiếng Anh; đó là bộ công cụ OpenNLP (mã nguồn mở, có thểdownload tại website: http://www.codeproject.com/csharp/englishparsing.asp ).Việc
sử dụng công cụ OpenNLP không những chỉ giúp huấn luyện PC mà còn giúp chúng
ta tiền xử lý văn bản đầu vào
Có thể sử dụng thư viện OpenNLP để thực hiện các công việc sau:
2.3.2.1 Gán nhãn từ loại (POS-Tagging)
Sau khi câu đã được tách từ, chúng ta tiến hành gán nhãn từ loại cho mỗi từ trong
nó Đúng như tên gọi, công việc này xác định xem trong câu, mỗi từ có kiểu từ loạinào Trong các hệ EBMT được xây dựng ở chương 3, thao tác này cần thiết phải ápdụng đối với cả mỗi câu Tiếng Anh trong PC và mỗi câu trong văn bản đầu vào vì nóphục vụ trực tiếp cho thuật toán so khớp
Hình dưới đây minh hoạ việc gán nhãn từ loại cho các câu trong 1 văn bản:
Trang 26Hình 2 4 Bộ gán nhãn từ loại trong thư viện OpenNLP
2.3.2.2 Phân đoạn (Chunking)
Phân đoạn câu là nhằm xác phân chia câu thành các ngữ (phrases) như: ngữđộng từ, ngữ danh từ…Việc phân chia này sẽ giúp xác định chính xác nghĩa của từtrong trường hợp từ có nhiều nghĩa Giai đoạn này thường được tiến hành sau khi đãgán xong nhãn từ loại cho câu
Chẳng hạn, câu:
It had been the outburst of a speculative builder
Có thể được phân đoạn như sau:
[NP It/PRP] [VP had/VBD been/VBN] [NP the/DT
outburst/NN] [PP of/IN] [NN a/DT speculative/JJ builder/NN ]
Trong đó: NP: cụm danh từ
VP: Cụm động từ
PP: Cụm giới từ…
2.3.2.3 Phân tích cú pháp đầy đủ(Parsing)
Đây là bước huấn luyện tổng hợp có được từ kết quả của các giai đoạn thành
phần nêu trên Trong đó câu sẽ được phân tích thành các thành phần cú pháp.Việctiến hành phân tích cú pháp cho các câu ở cả ngôn ngữ nguồn (Tiếng Anh) và ngônngữ đích (Tiếng Việt) là khâu quan trọng để xác định được các thành phần nào tươngứng với nhau trong từng cặp câu.Nếu không phân tích cú pháp, chắc chắn việc sảnsinh mẫu và chọn mẫu trong hệ dịch xây dựng sau này không thể thực hiện được(Chúng ta sẽ thấy rõ hơn tác dụng của pha này ở chương 3-Mô hình hệ dịch D3)
Trang 27Hình 2 5 Phân tích cú pháp đầy đủ cho câu “Claudia sat on a stool.”
2.3.3 Vấn đề kích thước của PC
Hẳn nhiều người đã đặt ra câu hỏi: Cần bao nhiêu cặp ngữ liệu là vừa, để cóthể đáp ứng cho 1 hệ EBMT tốt? Cho đến nay, vẫn chưa có một công trình hay bàibáo nào trả lời một cách chính thức và trọn vẹn cho câu hỏi trên Đầu tiên, phảikhẳng định rằng một hệ EBMT chỉ hoạt động tốt khi có một PC đủ lớn.Có thể thấy
rõ sự tác động của yếu tố này đến chất lượng hệ dịch thông qua ví dụ sau đây:
Trong tiếng Nhật có một cấu trúc danh-tính từ rất nhập nhằng và thườnggây ra lỗi khi dịch, đó là: A no B (có thể dịch ra rất nhiều cấu trúc tương ứng trong
Tiếng Anh như: B for A, B of A, B in A, A’s B hay AB…).Các nhà khoa học Nhật
Bản đã thử xây dựng 1 test-case riêng cho nó Đầu tiên với tập mẫu gồm 100 cặp câu(Nhật-Anh), tỷ lệ dịch đúng chỉ là 30%.Sau đó, kích thước được tăng tới con số 700câu, và thật bất ngờ khi tỷ lệ tương ứng đã tăng gấp hơn 2 lần, đến 65% Trong mộttest-case khác, ảnh hưởng tích cực này cũng được thể hiện rất rõ khi các tỷ lệ dịch
Trang 28đúng tương ứng với 2 tập mẫu 100 và 689 câu lần lượt là 75% và xấp xỉ 100% Bảngdưới đây mang lại một hình dung ban đầu về quy mô của các hệ EBMT lớn hiệnnay:
Bảng 2 1 Kích thước của một số hệ EBMT lớn
(Nguồn :Review Article: Example-based Machine Translation- HAROLD trang 120)
Một vấn đề đặt ra là: Càng nhiều câu ví dụ được đưa vào PC thì "tri thức"của hệ dịch càng lớn, độ bao phủ đối với văn bản đầu vào sẽ càng cao, và tất yếu sẽtối ưu hoá chất lượng dịch Tuy nhiên, có phải cứ càng tăng kích thước PC thì sẽcàng tốt không? Chắc chắn là không, nếu chưa muốn nói là trong một số trường hợphiệu quả là ngược lại Bởi lẽ một PC quá "khổng lồ" sẽ đặt ra rất nhiều khó khăn chovấn đề tổ chức, lưu trữ và sử dụng hiệu quả chúng.Hơn nữa, một PC lớn không hẳn
là một PC tốt Chẳng hạn: nếu trong đó bao gồm nhiều câu “thừa” (tối nghĩa, hay cócấu trúc quá phức tạp, rất ít khi hoặc hầu như không bao giờ phải dùng đến) sẽ gâytốn công sức lưu trữ, tìm kiếm, ảnh hưởng đến chi phí thời gian và chất lượng dịch.Bởi vậy, một PC có kích thước đủ lớn, nhưng bao hàm trong đó những cặp câu ví dụchính xác, có chất lượng, được tổ chức và lưu trữ tốt; cộng thêm một phương thức sokhớp hiệu quả (sẽ đề cập trong các phần sau) mới là các yếu tố tuyệt vời nhất xâynên một hệ EBMT hoàn hảo
2.3.4 Vấn đề lưu trữ:
Một trong những yếu tố tạo nên sự khác nhau về hiệu năng của một số hệEBMT hiện nay là cách thức tổ chức lưu trữ các câu trong kho ngữ liệu, bởi yếu tốnày đóng vai trò lớn trong việc quyết định hiệu quả cho thao tác tìm kiếm sau này
Ở mức độ đơn giản nhất, có thể tổ chức kho ngữ liệu thành tập các cặp câuđơn thuần mà không cần thêm thông tin gì khác đính kèm Tuy nhiên nếu chỉ dừnglại ở mức độ này thì công việc tìm kiếm sẽ gặp khó khăn, nhất là khi kích thước kho
là rất lớn
Một trong những phương thức lưu trữ ngữ liệu hiệu quả là: "Khái quát hoácâu ngữ liệu" Một điều chắc chắn là trong PC đủ lớn sẽ bao gồm nhiều câu tương tựnhau, chỉ sai khác ở một vài từ riêng lẻ Như vậy, nếu có thể kết hợp tất cả chúng lại
để chỉ lưu trữ như 1 câu duy nhất: Trong đó phần giống nhau được giữ nguyên, các
từ khác nhau thay thế bởi một từ tố (token), đại diện cho tên của nhóm tương đương
mà chúng sẽ được xếp vào, thì chắc chắn không gian lưu trữ trong bộ nhớ được tiết
Trang 29kiệm đáng kể Không những thế, khi so khớp sau này, thay vì phải làm việc trên từngcâu một, ta xét luôn cả một nhóm thông qua câu khái quát của chúng Cách tổ chứckiểu này được gọi là: Khái quát hoá ví dụ (Generalizing Examples) Câu khái quátcho một nhóm được gọi là mẫu (Pattern) của nhóm đó.
Để minh hoạ, xét ví dụ sau:
(a) We are watching an interesting performance
Chúng tôi đang xem một buổi biểu diễn thú vị
(b) We are watching the performance of Mary.
Chúng tôi đang xem buổi biểu diễn của Mary
(c) We are watching the performance of the national theatre
Chúng tôi đang xem biểu biểu diễn của nhà hát trung ương
(d) We are watching the performance of disables
Chúng tôi đang xem biểu biểu diễn của những người khuyết tật
(e) We are watching the film
Chúng tôi đang xem phim
Xét tập hợp đầu tiên gồm các cặp câu: (b), (c) và (d) Cả ba câu Tiếng Anhtương ứng đều “gần” giống nhau, chỉ khác nhau ở từ cuối (Mary-the nationaltheatre-disables).Vì vậy, nhóm 3 từ này lại thành 1 lớp tương đương:
Pattern cho cả 3 câu này là:
(Pattern-1) We are watching the performance of <CLASS-01>
Chúng tôi đang xem buổi biểu diễn của <CLASS-01>
Tiếp theo, (Pattern-01) lại được sử dụng với 2 câu còn lại để tiếp tục kháiquát hoá.Với cách là tương tự như trên cho 2 cặp: (e) và (Pattern-01) ta có:
<CLASS-02>
phim
performance of <CLASS-01>
buổi biểu diễn của <CLASS-01>
(Pattern-02) We are watching the <CLASS-02>
Chúng tôi đang xem <CLASS-02>
Cuối cùng, tập các cặp câu được khái quát hoá thành:
Trang 30(Pattern-03) We are watching <CLASS-03>
Chúng tôi đang xem <CLASS-03>
không, điều đó phụ thuộc vào hai yếu tố chính: Thứ nhất là cách lưu trữ và huấn luyện tập mẫu Thứ hai, đó chính là phương thức so khớp.Yếu tố đầu tiên đã được
đề cập trong mục 2.3.Mục này đi sâu vào việc xét một số phương pháp so khớp đãđược đề xuất để áp dụng cho các hệ EBMT
2.4.1 So khớp dựa trên ký tự: (Character-based Matching)
Có thể nói, đây là mức so khớp đơn giản nhất nhưng hiệu quả thấp nhất Khi cáccâu ngữ liệu cùng với câu đầu vào được biểu diễn bằng xâu, độ tương tự của 1 cặpcâu có thể được đo thông qua việc xét sự giống và khác nhau của từng cặp ký tựtương ứng “Sự tương tự” ở mức ký tự cũng chỉ được lượng hoá một cách đơn giảnnhất, đó là: 0 (hai ký tự giống nhau) và 1 trong trường hợp ngược lại
Trong ví dụ sau đây, do sự so khớp chỉ ở mức ký tự nên chỉ có 2 câu trong (2.4.1.1)
có thể so khớp được với nhau.Còn hai câu trong (2.4.1.2) không thể, bởi hệ thốngkhông thể biết được “large” và “small” có tương tự hay không?
(2.4.1.1) a This is shown as A in the diagram
b This is shown as B in the diagram
(2.4.1.2) a The large paper tray holds up to 400 sheets of A3 paper
b The small paper tray holds up to 300 sheets of A4 paper
2.4.2 So khớp mức từ: (Word-based Matching)
Có lẽ độ đo tương tự “cổ điển” nhất do Nagao đề xuất năm 1984 và được sử dụngtrong rất nhiều hệ EBMT sau này, đó là sử dụng Từ điển đồng nghĩa (Thesaurus)như là một công cụ để xác định mức độ tương tự giữa từ với từ, xét trên khía cạnhngữ nghĩa (meaning) hay cách dùng (usage) Ở đây, việc so khớp hoàn toàn đượcchấp nhận khi thay thế một từ trong câu đầu vào bởi từ đồng nghĩa với nó (đã có ởcâu ngữ liệu) Phương thức này tỏ ra rất có hiệu quả trong trường hợp cần phải chọn
ra một phương án dịch tốt nhất trong nhiều câu dịch khá giống nhau, mà có thể các
Trang 31phương pháp khác không giải quyết được Chẳng hạn, cần tìm câu dịch tốt nhất cho
2 câu Tiếng Anh là:
(2.1) a He eats popatoes
b Sunphuric acid eats iron
Trong kho ngữ liệu có sẵn 2 cặp câu (E, V) như sau:
(2.2) a A man eats vegetables
Một người đàn ông ăn rau
b Acid eats metal
Axit ăn mòn kim loại
Trong ví dụ này, từ “eats” có hai cách dịch là: “ăn” và “ăn mòn”.Làm sao để dịchđúng từ “eats” trong (2.1a) theo nghĩa là “ăn” (thực phẩm), và “eats” trong (2.1b) là
“ăn mòn” (kim loại)? Câu trả lời nằm ở chỗ: Chính độ đồng nghĩa của các cặp từ(potatoes-vegetables) và (iron-metal) trong Thesaurus sẽ giúp hệ thống chọn ra câungữ liệu phù hợp nhất trong tập hợp 2 ứng viên này
2.4.3 Phương pháp “Góc tương tự” của Carroll
Một trong những cách thức so khớp còn chưa được nhiều người biết đến, do Carroll
đề xuất, đó là đo độ tương tự bằng góc lượng giác Cách đo này xem xét đến cả yếu
tố độ dài (length), lẫn nội dung (content) của hai câu Đầu tiên, xét ví dụ sau: Nếuxem (2.3a) là câu cần dịch, thì trong tập ứng viên gồm các câu từ (2.3b-2.3d), đâu làgiải pháp so khớp tốt nhất?
Ví dụ (2.3):
a Select ‘Symbol’ in the Insert menu
b Select ‘Symbol’ in the Insert menu to enter a character from the symbol set
c Select ‘Paste’ in the Edit menu
d Select ‘Paste’ in the Edit menu to enter some text from the clip board
Theo như các phương pháp so khớp vừa trình bày ở trên, chắc chắn (2.3c) sẽ là câutrả lời, bởi so với câu đầu vào, nó chỉ khác ở 2 từ mà thôi, trong khi con số tươngứng đối với (2.3b) là 8 từ Tuy nhiên, nhìn bằng trực quan cũng có thể thấy đượcchính (2.3b) mới là câu so khớp tốt nhất Không những thế, độ tương tự giữa (2.3a)
và (2.3c), tưởng chừng như sẽ lớn hơn so với cặp (2.3b) và (2.3d), nhưng thực tế lạihoàn toàn ngược lại Phương pháp “Góc tương tự” do Carroll đề xuất sau đây sẽ giảiquyết tình huống này
Đầu tiên, Carroll định nghĩa khoảng cách (x, y) giữa hai câu x và y dựa trên yếu
tố ngữ nghĩa của các từ thành phần cấu tạo nên chúng (Cách định nghĩa này hoàntoàn tương tự như khái niệm khoảng cách trong giải thuật DP-Matching, mà cáchtính nó sẽ được trình bày chi tiết trong mục 3.1.4.2).Ở đây chỉ xin được nêu qua ýtưởng của nó Khoảng cách thực chất là tổng chi phí khi so khớp các cặp từ tươngứng giữa hai câu.Nếu trong quá trình so khớp, chúng ta bắt gặp cặp từ:
Giống nhau hoàn toàn: Lúc này chi phí so khớp sẽ là 0
Khác nhau: Lúc đó, căn cứ vào mức độ gần gũi về mặt ngữ nghĩa để quyếtđịnh chi phí dành cho chúng Lẽ dĩ nhiên, nếu chúng càng tương tự nhau
Trang 32(chẳng hạn: cùng kiểu từ loại, có độ đồng nghĩa cao trong Thesaurus), chúng
sẽ được thay thế cho nhau, và chi phí cho một phép thay thế thường rất thấp.Ngược lại, có thể phải áp dụng các thao tác so khớp với chi phí cao như:Insert (thêm từ), hay Delete (Xoá từ) (Các thao tác này cũng sẽ được trình bày
kỹ trong giải thuật DP-Matching)
Để dựng được “góc tương tự” giữa 2 câu x và y, ta xây dựng một tam giác với độdài 3 cạnh lần lượt là : (x, y); (x, ) và (y, ) (Trong đó (x, ) ; (y,
) lần lượt là khoảng cách giữa x và y với câu rỗng Góc tương tự xy giữa x và yđược xác định bởi công thức “nửa sin” sau đây:
, ,
, 2
sin
y x
y x
y x
đó, góc 0 độ ở dòng đầu tiên cho thấy sự sự tương tự hoàn toàn về mặt “chất” (haynói cách khác là nội dung) giữa (2.3a) và (2.3b), mặc dù chúng khác nhau về
“lượng” (độ dài) Tương tự, dòng thứ 2 và 3 cho thấy: Hai cặp câu (2.3a,c) và(2.3b,d) có khác nhau cả về “lượng” và “chất” , nhưng sự khác nhau trong cặp thứhai là “ít” hơn
Bảng 2 2 Góc tương tự giữa một số cặp câu trong ví dụ (2.3)
2.5 Giới thiệu hai kiểu hệ dịch EBMT thông dụng
2.5.1 Hệ D3 (Dp-match Driven transDucer)
Đây là một hệ EBMT cụ thể đã được Sumita đề xuất năm 2003, nghĩa là: Hệ dịchmáy dựa trên so khớp quy hoạch động Sở dĩ có tên như vậy, vì trong pha Tìm kiếm
(Retrieve), hệ chọn ra từ PC những câu tương tự nhất với đầu vào căn cứ vào
khoảng cách ngữ nghĩa giữa chúng thông qua giải thuật so khớp quy hoạch động(DP-Matching Algorithm) giữa hai dãy từ (word sequences)
D3 là hệ được lựa chọn làm nền để xây dựng nên hệ dịch cho đề tài này, do vậy nó
sẽ được trình bày rất kỹ trong chương 3 của luận văn Ở đây, chỉ xin được trình bàynhững khái niệm chung nhất về D3 để tiện so sánh với các hệ khác
Theo như giải thuật DP (được trình bày cụ thể ở chương 3), khoảng cách giữa câuđầu vào và câu ngữ liệu bất kỳ trong PC (biểu diễn dưới dạng word sequence) được
ký hiệu là dist và tính theo công thức:
Trang 33 I, D lần lượt là số Insertion và Deletion (các từ cần thêm vào và xoá đi
để thu được input từ example)
SEMDIST: là khoảng cách về mặt giữa 2 từ thay thế (Substitution)trong input và Example, có thể xác định dựa vào Thesaurus, có giá trị biếnthiên từ 0 đến 1
Linput, Lexample lần lượt là độ dài (số lượng từ) trong input và example
Xét một ví dụ đơn giản sau, với hai câu s1 và s2:
(a) I|don’t|like|the|color
(b) I|don’t|like|the|design
Dễ dàng nhận thấy : I=D=0, đồng thời do “color” và “design” không hề có sự tươngđồng nào về mặt nghĩa nên từ Thesaurus xác định được khoảng cách giữa chúng là :SEMDIST(“color”, “design”) = 1
Cuối cùng, bằng sự hỗ trợ của từ điển song ngữ, chúng ta sẽ điều chỉnh (adapt) được
câu dịch của mẫu thành câu dịch cho input
Đặc điểm đặc trưng nhất của D3 là trong giai đoạn dịch: không cần đến những sựphân tích cú pháp (như hệ HPAT dưới đây), nếu có câu tương tự với đầu vào trong
PC thì chắc chắn câu được chọn sẽ là tốt nhất vì bản thân độ đo DP đã được chứngminh là rất đáng tin cậy Hệ này đã được ứng dụng và triển khai rất thành công trongcác hệ dịch Nhật-Anh Chi tiết về nó được đề cập cụ thể trong chương 3
2.5.2 Hệ HPAT (Hierarchical Phrase Alignment based Translation)
Nếu D3 sử dụng tập mẫu để tính độ tương tự với đầu vào bằng giải thuật Matching, thì HPAT lại sử dụng để phân tích cú pháp nhằm tạo ra các mẫu chuyểnđổi (transfer patterns) thông qua bộ HPA (Hierarchical Phrase Alignment) HPA là
DP-bộ xác định các từ hoặc cụm từ tương ứng giữa 2 vế (ngôn ngữ nguồn và đích) trong
1 cặp câu song ngữ Nó nhận đầu vào là cặp câu đó và trả về tất cả các cụm từ tươngứng có thể giữa chúng Chẳng hạn, xét cặp câu:
(2.5.2.1) E: We are watching a football match on television
V: Chúng tôi đang xem một trận bóng đá trên ti-vi
Sau khi qua bộ HPA, chúng ta thu được các kết quả sau:
television ti-vi
on television trên ti-vi
a football match on television một trận bóng đá trên ti-vi
are watching a football match on television đang xem một trận bóng đá trên vi…
Trang 34ti-Cách thức làm việc của HPA như sau:
- Đầu tiên, 2 câu (chẳng hạn Tiếng Anh và Tiếng Việt) sẽ được phân tích cú phápmột cách độc lập, kết quả thu được 2 cây cú pháp
- Tiếp theo, sử dụng chương trình liên kết từ (alignement-program) để xác định các
* Cả hai đều có cùng kiểu ngữ pháp
Hình 2 6 Sơ đồ khối bộ HPA
2.5.3 So sánh giữa hai hệ dịch:
Có thể thấy rằng sự khác biệt chủ yếu giữa hai hệ dịch trên chính là ở chỗ cách sửdụng tập mẫu để chọn ngữ liệu phù hợp Nếu D3 sử dụng nó để tính độ tương tự vớiđầu vào bằng giải thuật DP-Matching, thì HPAT lại sử dụng để phân tích cú phápnhằm tạo ra các mẫu chuyển đổi (transfer patterns)
Xét về mặt chất lượng dịch, theo nghiên cứu và thống kê của các nhà khoa học NhậtBản, D3 mang lại chất lượng câu dịch tốt hơn, nhưng chỉ mang lại kết quả khi PC cóngữ liệu “đủ gần” với đầu vào Trong lúc đó, HPAT có chất lượng ở mức trung bìnhkhá
Tìm kiếm cặp cụm từ tương đương
Alignment
Trang 35D3 HPAT
Bảng 2 3 So sánh một số tính năng giữa D3 và HPAT
Để có được kết quả này, các nhà khoa học đã thử nghiệm với hai hệ bằng một sốlượng câu dịch khá lớn.Cách thức thử nghiệm như sau: Từ một tập gồm 200.000 câu,chọn ra tập con gồm 500 câu bất kỳ để dịch, 199.500 cặp còn lại là tập mẫu Kết quảthu được như sau Trong đó chất lượng câu dịch đánh giá bằng 5 mức:
-Mức S: Câu dịch hoàn hảo, như là người (chuyên gia) dịch
-Mức A: Câu dịch tốt, không sai về cả hai phương diện thông tin và ngữ pháp
-Mức B:Câu dịch dễ dàng để hiểu, dù mắc một vài lỗi nhỏ về ngữ pháp hay thông tinbiểu đặt
-Mức C:Câu dịch không rõ, còn sai ngữ pháp, nhưng cố thì vẫn có thể hiểu được.-Mức D:Câu dịch không thể chấp nhận được, thông tin quan trọng bị dịch sai hoàntoàn
Bảng 2 4 Số liệu thống kê chất lượng dịch giữa D3 và HPAT.
(Nguồn: EBMT, SMT, Hybrid and More:ATR Spoken Language Translation
System -Eiichiro SUMITA, Yasuhiro AKIBA, Takao DOI, Andrew FINCH, Kenji
IMAMURA, Hideo OKUMA, Michael PAUL, Mitsuo SHIMOHATA, Taro WATANABE )
Như vậy, tỷ lệ câu dịch hoàn hảo và tốt của D3 và HPAT lần lượt là: 70% và59.80%
Kết chương
Trang 36Chương này đã nêu lên bức tranh toàn cảnh về một lý thuyết dịch rất mới và cũng rất
hiệu quả: Lý thuyết dịch máy trên nền ví dụ (hay So khớp tập mẫu).Từ những
vấn đề khái quát nhất như: Khái niệm, đặc trưng và sơ đồ khối đến việc đi sâu tìmhiểu những lý thuyết được xem là nền tảng của Dịch máy trên nền ví dụ: Cách thứcxây dựng tập ngữ liệu, tổ chức lưu trữ các câu ngữ liệu; cách thức so khớp lọc ranhững ngữ liệu tương tự nhất và cơ chế điều chỉnh ngữ liệu để thu được câu dịchcuối cùng Chương 2 cũng giới thiệu khái quát hai hệ dịch EBMT rất nổi tiếng hiệnnay: hệ D3 và HPAT
Trong chương tiếp theo, báo cáo sẽ nghiên cứu chi tiết hệ D3, lấy đó làm khung xâydựng nên hệ dịch Anh-Việt cho tác giả, đồng thời đề xuất hệ thống các giải thuậtmới để làm cho hệ dịch được tốt hơn
Trang 37Chương 3: Bài toán xây dựng hệ dịch tự động Anh-Việt dựa trên
so khớp tập mẫu
3.1 Hệ dịch D3
3.1.1 Giới thiệu chung
D3 là một mô hình dịch máy trên nền ví dụ, được đề xướng bởi một nhà khoa họcNhật Bản có tên là Sumita Mô hình này đã được thử nghiệm và gây đuợc ấn tượngtrong một hệ dịch từ tiếng Nhật sang tiếng Anh trong lĩnh vực du lịch D3 yêu cầumột tập mẫu, gồm các cặp câu song ngữ, nhưng trong quá trình dịch chúng phảiđược biểu diễn dưới dạng dãy từ (word sequence)
Để dịch một câu đầu vào, hệ thống sẽ tìm kiếm trong tập ngữ liệu những cặp câunào có phần ngôn ngữ nguồn tương tự nhất với nó Khái niệm “tương tự” ở đây sẽđược lượng hoá bằng một độ đo ngữ nghĩa gọi là “edit-distance” Sau đó, với mỗimột cặp câu vừa được chọn ra, hệ thống sẽ so sánh phần ngôn ngữ nguồn của nó vớicâu đầu vào, lọc ra các thành phần khác nhau giữa chúng để tổng quát hoá câu ngữliệu thành các mẫu (patterns) Công đoạn cuối cùng chỉ là chọn ra mẫu phù hợp nhất
và thực hiện phép thay thế các thành phần khác nhau nói trên để có được câu dịchcần tìm từ phần ngôn ngữ đích của mẫu đó Hình sau sẽ mang lại một sự hình dung
đầu tiên về phương thức làm việc của D3, trong đó các công đoạn “tìm kiếm” và
“sản sinh mẫu” được thể hiện bằng hai khối “Retreival” và “Adapt”:
Trang 38Hình 3 1 Minh hoạ cách thức làm việc của D3
3.1.2 Các đặc điểm và tính năng
D3 là hệ dịch dựa hoàn toàn vào tập ngữ liệu để xây dựng phương thức dịchcho mình, không cần phải phân tích cú pháp của câu, hay xây dựng câychuyển đổi cú pháp giữa hai ngôn ngữ
D3 sản sinh ra các mẫu dịch (Translation Patterns) dựa trên sự so sánhnhững điểm giống và khác nhau giữa câu đầu vào với tập câu ứng viên(được xem là tương tự nhất) với nó sau khi lọc ra từ tập mẫu
3.1.3 Cấu hình
Output: Tôi / thích / màu sắc
Input: I / like / the / color
RETRIEVE
Example I / like / the / trademark
Tôi / thích / thương hiệu
ADAPT
Trang 39Hình 3 2 Cấu hình của D3 (Các nguồn dữ liệu và các khối xử lý chính)
Theo như hình trên, chúng ta thấy hệ dịch D3, cũng giống như một hệ dịch Based tổng quát, cần sử dụng tới 3 nguồn dữ liệu Đó là:
Example-* Kho dữ liệu song ngữ: (Bilingual Corpus):Yêu cầu huấn luyện đối với kho ngữ
liệu hoàn toàn giống như phần trình bày (2.3.2.) Tham gia vào giai đoạn “Tìm kiếmngữ liệu tương tự”
* Từ điển đồng nghĩa: (Thesaurus):
Tìm kiếm ngữ liệu tương tự
Sản sinh mẫu
Chọn mẫu phù hợp nhất
Thay thế Input Sentence
Output Sentence
Trang 40Hình 3 3 Cấu trúc phân cấp của Từ điển đồng nghĩa (Thesaurus)
Từ điển đồng ngữ được xây dựng với mục đích chính là giúp xác định được độ đồngnghĩa (hoặc khoảng cách về mặt ngữ nghĩa) giữa hai từ thuộc cùng một ngônngữ.Trong D3, từ điển đồng nghĩa được xây dựng ở cả ngôn ngữ nguồn và ngôn ngữđích.Chúng được sử dụng trong hai giai đoạn là: “Tìm kiếm ngữ liệu tương tự” và
- Mức của lớp ít trừu tượng nhất sẽ là 0 Dưới mức 0 này sẽ là các từ cụ thể.
- Nếu một lớp có mức là N thì lớp cha của nó (theo định nghĩa của cấu trúccây) sẽ có mức là N+1
Chẳng hạn, trong hình minh hoạ …thì các lớp fruit, vegetable, meat…có mức 0; lớp cha của chúng ingredients sẽ là mức 1, và cứ như vậy cho đến gốc của cây.
Nếu cây có số mức cao nhất là N, thì khoảng cách về ngữ nghĩa của hai từ trong từđiển được định nghĩa như sau:
N
K SEMDIST (3.1)
carrot potato Từ
Fruit
Apple Orange
meat
beef chicken ingredients
TOP food
N
K SEMDIST
…
Mức trừu tượng chung thấp nhất