1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH VIỆT

80 440 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 1,21 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chuyển đổi cấu trúc là bước sắp xếp các thành phần ngữ pháp của ngôn ngữ nguồn, bao gồm cả chèn, xoá các thành phần sao cho kết quả dịch tuân thủ những luật ngữ pháp của ngôn ngữ đích, v

Trang 1

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

KHOA CÔNG NGHỆ THÔNG TIN

BỘ MÔN CÔNG NGHỆ TRI THỨC

LUẬN VĂN CỬ NHÂN TIN HỌC

GIÁO VIÊN HƯỚNG DẪN

về tin học và ngôn ngữ học, giúp chúng em có được hiểu biết sâu hơn về một trong các ứng dụng có ý nghĩa vô cùng to lớn trong cuộc sống của tin học – vấn đề dịch máy

Chúng em cũng xin chân thành cảm ơn các thầy cô trong khoa Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ cho chúng em trong suốt thời gian chúng em học đại học và trong quá trình chúng em thực hiện luận văn

Chúng con xin chân thành cảm ơn ba mẹ, các anh và những người thân trong gia đình đã nuôi dạy, tạo mọi điều kiện tốt nhất cho chúng con học tập và động viên chúng con trong thời gian thực hiện luận văn

Và cuối cùng, chúng tôi xin gởi lời cảm ơn đến tất cả bạn bè

và nhất là các bạn trong nhóm VCL (Vietnamese Computational Linguistics), những người đã hỗ trợ chúng tôi trong quá trình chúng tôi hoàn thiện luận văn này

Tp Hồ Chí Minh, tháng 07 năm 2003

Nguyễn Lưu Thùy Ngân - 9912621

Đỗ Xuân Quang - 9912652

Trang 2

NHẬN XÉ CỦA GIÁO VIÊN HƯỚNG DẪN

Tp Hồ Chí Minh, tháng 07 năm 2003 TS Đinh Điền NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆ

Tp Hồ Chí Minh, tháng 07 năm 2003 Giáo viên phản biện

Trang 3

Lời nói đầu

Cho đến nay, sau hơn 50 năm phát triển, dịch máy chứng tỏ là một ứng dụng

vô cùng thiết thực, đồng thời cũng là một bài toán khá hóc búa đặt ra cho các nhà

khoa học trên toàn thế giới Từ đầu thập niên 1960, các nhà khoa học đã đúc kết lại

ba chiến lược dịch máy cơ bản, đó là dịch trực tiếp, dịch thông qua ngôn ngữ trung

gian và dịch dựa trên chuyển đổi Và qua thực tế, chiến lược dịch dựa trên chuyển

đổi đã khẳng định được tính hiệu quả và tiềm năng của nó, và đây cũng là cách tiếp

cận mà chúng em đã và đang theo đuổi để xây dựng một hệ dịch tự động từ tiếng

Anh sang tiếng Việt

Trong hệ dịch dựa trên sự chuyển đổi, khối chuyển đổi cây cú pháp (cấu trúc)

giữ một vai trò quan trọng, quyết định chất lượng hệ dịch Vì lý do đó, chúng em đã

quyết định chọn “Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch

Anh-Việt” làm đề tài luận văn tốt nghiệp cử nhân của mình Khối chuyển đổi cây cú

pháp đảm nhiệm việc thay đổi trật tự, chèn, xoá các thành phần trong cây cú pháp

của câu tiếng Anh sao cho sau khi hoàn tất việc gắn nghĩa, ta sẽ thu được câu tiếng

Việt có trật tự từ hợp lý

Luận văn được tổ chức thành các phần chính sau:

™ Chương 1: Giới thiệu tầm quan trọng, mục tiêu, phạm vi của đề tài, cơ sở

lý thuyết ngôn ngữ học, tin học và hướng tiếp cận vấn đề

™ Chương 2: Điểm qua các cách tiếp cận chuyển đổi cấu trúc

™ Chương 3: Thuật toán nền tảng, mô hình học và mô hình áp dụng chuyển

đổi cây cú pháp

™ Chương 4: Thiết kế – Cài đặt

™ Chương 5: Thử nghiệm – đánh giá

™ Chương 6: Kết quả – Kết luận – Hướng phát triển

™ Phần phụ lục Tài liệu tham khảo

Mục lục

Lời nói đ u u 5

Mục lục c 6

Danh sách các hình 11

Danh sách các bảng 13

Chươ g 1 1 14

TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY CÚ PHÁP 14

1.1 Đặt vấn đề 14

1.2 Các chiến lược dịch máy 16

1.1.1 Chiến lược dịch trực tiếp 16

1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian 17

1.1.3 Chiến lược dịch dựa trên sự chuyển đổi 18

1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi 20

1.3 Cơ sở lý thuyết 22

1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi 23

1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề 33

Chươ g 2 2 35

CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH MÁY 35

2.1 Hướng tiếp cận dựa trên luật cố định 35

2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định 35

2.1.2 Nhận xét 38

Trang 4

2.2 Hướng tiếp cận sử dụng case-frame 39

2.2.1 Chuyển đổi các thông tin cấp độ câu 40

2.2.2 Chuyển đổi ngữ động từ 41

2.2.3 Sự chuyển đổi của định ngữ, bổ ngữ 42

2.2.4 Tự điển chuyển đổi 43

2.2.5 Nhận xét 44

2.3 Hướng tiếp cận sử dụng TAG đồng bộ (STAG) 44

2.3.1 Văn phạm TAG 45

2.3.2 TAG đồng bộ (STAG) 49

2.3.3 Nhận xét 52

2.4 Cách tiếp cận phân tích ngữ pháp song song 53

2.4.1 Ngữ pháp chuyển dịch đảo có thống kê (SITG) 53

2.4.2 Thuật toán phân tích cú pháp song song với SITG 55

2.4.3 Đánh nhãn cấu trúc 58

2.4.4 Chuyển đổi cây cú pháp song song cho cả hai ngôn ngữ 58

2.4.5 Nhận xét 59

2.5 Cách tiếp cận dựa trên cấu trúc vị từ - đối số 60

2.5.1 Rút trích các cấu trúc vị từ - đối số 60

2.5.2 Khối chuyển đổi cấu trúc 62

2.5.3 Nhận xét 64

2.6 Tổng kết chương 65

Chươ g 3 3 66

MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP 66

3.1 Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái 66

3.1.1 Ý tưởng 66

3.1.2 Thuật toán học TBL của Eric Brill 68

3.1.3 Nhận xét 70

3.2 Thuật toán học nhanh FnTBL 71

3.2.1 Hình thức hóa TBL 72

3.2.2 Thuật toán FnTBL 73

3.3 Mô hình chuyển đổi cây cú pháp sử dụng thuật toán FnTBL 78

3.3.1 Mô hình áp dụng chuyển đổi cây cú pháp 80

3.3.2 Mô hình học luật chuyển đổi bằng phương pháp học FnTBL 82

3.4 Nâng cao khả năng mở rộng cho mô hình học 95

Chươ g 4 4 97

CÀI ĐẶT CHƯƠNG TRÌNH 97

4.1 Thiết kế 97

4.1.1 Mô hình tổng thể 97

4.2 Thuật toán gán nhãn cơ sở cho ngữ liệu 99

4.2.1 Thuật toán 99

4.2.2 Xây dựng cây cú pháp 99

4.2.3 Xây dựng cây quan hệ 103

4.2.4 Thuật toán chuyển đổi theo nguyên tắc 105

4.3 Học chuyển đổi cùng cấp 106

4.3.1 Xây dựng ngữ liệu học 106

4.3.2 Xây dựng khung luật cho bộ học chuyển đổi cùng cấp 108

4.3.3 Sơ đồ lớp của chương trình học 114

4.3.4 Xây dựng bộ luật (giai đoạn học cùng cấp) 114

4.3.5 Áp dụng bộ luật chuyển đổi cùng cấp 116

4.4 Học chuyển đổi khác cấp 117

4.4.1 Xây dựng ngữ liệu học 117

4.4.2 Xây dựng khung luật cho quá trình học chuyển đổi khác cấp 120

4.4.3 Sơ đồ lớp của chương trình học 125

4.4.4 Xây dựng bộ luật (giai đoạn học khác cấp) 125

Trang 5

4.4.5 Áp dụng bộ luật chuyển đổi khác cấp 127

Chươ g 5 5 128

THỬ NGHIỆM – ĐÁNH GIÁ 128

5.1 Thử nghiệm 128

5.1.1 Độ đo sử dụng 128

5.1.2 Kết quả học rút luật chuyển đổi 129

5.1.3 Một số kết quả chuyển đổi 131

5.2 Đánh giá 134

5.2.1 Ngữ liệu thử nghiệm 134

5.2.2 Nhận xét 135

Chươ g 6 6 137

TỔNG KẾT 137

6.1 Kết quả 137

6.2 Hướng phát triển 137

6.3 Kết luận 138

PHỤ LỤC 1 139

KHUNG LUẬT VÀ MỘT SỐ LUẬT CÙNG CẤP 139

PHỤ LỤC 2 141

KHUNG LUẬT VÀ MỘT SỐ LUẬT KHÁC CẤP 141

PHỤ LỤC 3 142

MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ PHÁP VCLTRANSFER 142

PHỤ LỤC 4 147

MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH 147

PHỤ LỤC 5 153

HỆ THỐNG NHÃN NGỮ PHÁP 153

PHỤ LỤC 6 156

CÁC NHÃN QUAN HỆ NGỮ PHÁP 156

TÀI LIỆU THAM KHẢO 157

Trang 6

Danh sách các hình

Hình 1: Mô hình dịch trực tiếp 16

Hình 2: Mô hình dịch dựa trên ngôn ngữ trung gian 17

Hình 3: Mô hình dịch dựa trên sự chuyển đổi 18

Hình 4: Hình tháp minh họa các chiến lược dịch máy 20

Hình 5: Cây cú pháp của câu “I have already read that interesting book.” 21

Hình 6: So sánh trật tự định ngữ tiếng Anh và tiếng Việt 26

Hình 7: Áp dụng luật cố định để thực hiện việc chuyển đổi cấu trúc 36

Hình 8: Trường hợp chuyển đổi khác cấp luật cố định không thể thực hiện được 37

Hình 9: Khả năng chuyển đổi cú pháp của luật cố định 38

Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG 46

Hình 11: Tác tố kết hợp 47

Hình 12: Tác tố thay thế 48

Hình 13: Một số mẫu cây sơ cấp trong tự điển chuyển đổi cây Anh-Pháp 50

Hình 14: Cây phân tích ngữ pháp chuyển dịch đảo 55

Hình 15: Chuyển đổi khung giữa các ngôn ngữ 63

Hình 16: Sơ đồ phương pháp học TBL tổng quát 70

Hình 17: Một ví dụ minh hoạ chuyển đổi cây cú pháp 79

Hình 18: Mô hình áp dụng chuyển đổi cây cú pháp 81

Hình 19: Mô hình học luật chuyển đổi cây cú pháp theo thuật toán FnTBL 82

Hình 20: Ví dụ về các quan hệ ngữ pháp trong ngữ 85

Hình 21: Xây dựng ngữ tiếng Việt từ các quan hệ ngữ pháp 86

Hình 22: Lưu đồ thuật toán gán nhãn chuyển đổi cơ sở cho ngữ liệu 87

Hình 23: Lưu đồ thuật toán học luật chuyển đổi cùng cấp – FnTBL 90

Hình 24: Lưu đồ học luật chuyển đổi khác cấp (FnTBL) 94

Hình 25: Mô hình tổng thể của quá trình học luật chuyển đổi Anh-Việt 97

Hình 26: Kết quả phân tích cú pháp: “Last week, I saw a very interesting film.” 100

Hình 27: Cây quan hệ của câu “Last week, I saw a very interesting film.” 104

Hình 28: Cây tiếng Anh đã chuyển đổi các thành phần đúng với tiếng Việt 107

Hình 29: Cây cú pháp của câu “What is a computer ?” 111

Hình 30: Cây cú pháp của (E) sau khi được áp dụng luật R 113 R Hình 31: Sơ đồ lớp khối học luật chuyển đổi cùng cấp 114

Hình 32: Mô hình áp dụng tập luật chuyển đổi cùng cấp 116

Hình 33: Cây cú pháp của câu tiếng Anh “It is a good type of book.” 118

Hình 34: Một cây cú pháp tiếng Anh sau khi chuyển sang cấu trúc tiếng Việt 119

Hình 35: Một phần cây cú pháp với đường đi của thành phần [ADVP] 123

Hình 36: Sơ đồ lớp khối học luật chuyển đổi khác cấp 125

Hình 37: Mô hình áp dụng tập luật chuyển đổi khác cấp 127

Hình 38: Đánh giá tập luật học chuyển đổi cùng cấp 130

Hình 39: Đánh giá tập luật học chuyển đổi khác cấp 131

Trang 7

Danh sách các bảng

Bảng 1: Trật tự các thành phần trong ngữ danh từ tiếng Anh 27

Bảng 2: Trật tự các thành phần trong ngữ danh từ tiếng Việt 28

Bảng 3: Danh sách 23 cấu trúc vị từ - đối số trong tiếng Hoa 61

Bảng 4: Một số quan hệ ngữ pháp được ánh xạ cùng các ngoại lệ 84

Bảng 5: Các quan hệ trong câu tiếng Anh 103

Bảng 6: Ý nghĩa các ký hiệu dùng trong mô tả ngữ liệu học giai đoạn 1 108

Bảng 7: Các thành phần trong khung luật học bước 1 109

Bảng 8: Các khung luật dùng trong học luật chuyển đổi cùng cấp 109

Bảng 9: Ý nghĩa các khuôn mẫu trong khung luật 110

Bảng 10: Các đặc trưng ngôn ngữ của các mẫu rút ra từ cây cú pháp tiếng Anh 112

Bảng 11: Các thành phần trong khung luật học chuyển đổi khác cấp 120

Bảng 12: Các khung luật dùng trong học luật chuyển đổi khác cấp 121

Bảng 13: Ý nghĩa các thành phần trong khung luật bước 2 122

Bảng 14: Một phần cây cú pháp minh hoạ việc đánh ID tương đối cho route 123

Bảng 15: Tóm tắt kết quả học luật chuyển đổi cùng cấp 130

Bảng 16: Tóm tắt kết quả học luật chuyển đổi cùng cấp 131

Bảng 17: Kết quả thử nghiệm việc áp dụng chuyển đổi cây cú pháp 135

Chương 1 TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY

CÚ PHÁP

Chương này giới thiệu về đề tài luận văn - mục đích và phạm vi thực hiện Phần 2 của chương trình bày một cách tổng quát về chuyển đổi cây cú pháp: vai trò,

vị trí của khối chuyển đổi cây cú pháp trong hệ dịch Anh-Việt Ngoài ra, những khái niệm then chốt liên quan đến đề tài, cũng như các cơ sở về lý thuyết ngôn ngữ học và tin học, là nền tảng để chúng em thực hiện luận văn, cũng lần lượt được nêu

rõ trong phần 3 của chương

1.1 Đặt vấn đề

Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người vượt qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất lâu trước khi máy tính điện tử ra đời Và chẳng bao lâu sau khi máy tính điện tử đầu tiên ra đời, bên cạnh những ứng dụng tính toán trong lĩnh vực toán học và vật lý, người ta đã nghĩ ngay đến việc sử dụng “bộ não máy tính” cho những ứng dụng không liên quan đến số, trong đó có vấn đề dịch tự động Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D Booth và Warren Weaver vào năm

1946 Vượt qua nhiều trở ngại về lý thuyết và công nghệ, Booth và các cộng sự của ông đã cho ra mắt “hệ dịch dựa trên tự điển” đầu tiên tại hội nghị của MIT vào năm

1952

Từ bước khởi đầu đó, dịch máy đã ngày càng thu hút được sự quan tâm nghiên cứu của nhiều nhà khoa học máy tính, nhiều nhà ngôn ngữ học, và được cộng đồng thế giới thừa nhận hiệu quả to lớn của nó Dịch máy không những giúp cho

Trang 8

việc dịch các tài liệu, dịch các trang Web nhanh chóng và ít tốn công sức hơn, việc

giao lưu trao đổi văn hoá giữa các nước dễ dàng hơn, mà còn có ý nghĩa trong việc

bảo mật cho tài liệu quan trọng cần dịch thuật

Tuy vậy, để có được một hệ dịch tự động cho kết quả dịch tốt là cả một quá

trình nghiên cứu và xây dựng cực kỳ phức tạp, phụ thuộc rất nhiều vào các ngôn

ngữ cần dịch Điều này khiến cho dịch máy đã từng lâm vào một thời kỳ “khủng

hoảng” về phương pháp xây dựng một hệ dịch Từ năm 1960, sau một thập kỷ ra

đời, dịch máy đã có nhiều chiến lược, phương pháp rõ ràng hơn cũng như mục tiêu

của hệ dịch máy được đặt ra sát với thực tế hơn Người ta nhận thấy rằng tham vọng

xây dựng được một hệ dịch tự động có khả năng dịch tất cả mọi câu của một ngôn

ngữ tự nhiên là điều không tưởng, mục tiêu hệ dịch phải thu gọn lại trong một lĩnh

vực hẹp để hạn chế bớt tính nhập nhằng của ngôn ngữ

Có 3 chiến lược dịch máy, đó là :

™ Dịch trực tiếp

™ Dịch dựa trên ngôn ngữ trung gian

™ Dịch dựa trên chuyển đổi

Cho đến nay, các hệ dịch dựa trên chuyển đổi được đánh giá cao vì tính khả

thi của nó Tùy thuộc vào hai ngôn ngữ cần dịch mà hệ thống có thể thiết kế các

khối phân tích, chuyển đổi, tái tạo với độ phức tạp thích hợp Một số hệ dịch dựa

trên chuyển đổi tiêu biểu như, hệ dịch Anh-Pháp METEO được xây dựng bởi đại

học Montreal - TAUM, được đưa vào sử dụng để dịch các bản tin dự báo thời tiết;

hệ dịch GETA (Đại học Grenoble, 1971-),

Trong các hệ dịch dựa trên chuyển đổi, bước chuyển đổi là bước quan trọng

nhất, giữ vai trò quyết định chất lượng hệ dịch Chuyển đổi này bao gồm hai phần

chuyển đổi chính, đó là chuyển đổi từ vựng và chuyển đổi cấu trúc Chuyển đổi từ

vựng là quá trình chọn nghĩa đúng cho các từ ở ngôn ngữ nguồn thể hiện sang từ

tương ứng của ngôn ngữ đích Còn chuyển đổi cấu trúc là quá trình sắp xếp lại,

thêm bớt, thay thế các thành phần cấu trúc của câu ở ngôn ngữ nguồn để có được

cấu trúc tương ứng ở ngôn ngữ đích

Trong luận văn này, chúng em tìm hiểu và xây dựng chương trình chuyển đổi cây cú pháp Anh-Việt, đóng vai trò là một khối chuyển đổi cấu trúc trong hệ dịch tự động Anh-Việt dựa trên sự chuyển đổi Như đã trình bày ở phần trên, việc thực hiện một chương trình có khả năng bao quát tất cả các cấu trúc chuyển đổi có thể có là một vấn đề không tưởng trong xử lý ngôn ngữ tự nhiên Do đó, chúng em giới hạn

đề tài chuyển đổi cây cú pháp này ở các văn bản thuộc lĩnh vực khoa học kỹ thuật Kết quả của chương trình chuyển đổi cây cú pháp Anh - Việt thể hiện gián tiếp qua trật tự từ trong câu tiếng Việt được dịch ra (không quan tâm đến nghĩa của từ chọn có thực sự chính xác hay không)

Trong phần tiếp theo, chúng em trình bày tóm tắt về ba chiến lược dịch máy

để chúng ta có thể có một cái nhìn bao quát hơn về hệ dịch dựa trên sự chuyển đổi, thấy được các ưu điểm của nó so với hai chiến dịch còn lại

1.2 Các chiến lược dịch máy

1.1.1 Chiến lược dịch trực tiếp

Chiến lược này có cách tiếp cận dịch máy đơn giản nhất Thiết kế của hệ xử

lý các hệ thống này rất đơn giản, bao gồm 3 khối chính :

™ Phân tích hình thái : đảm nhận việc đưa từ trong ngôn ngữ nguồn về dạng gốc của nó để có thể thực hiện việc tra tự điển

™ Tra từ điển song ngữ: xác định từ tương ứng từ gốc trong ngôn ngữ đích

™ Sắp xếp trật tự từ đơn giản : quá trình này thường dựa trên những qui luật

cố định và đơn giản vì ta không thể xây dựng luật xử lý trật tự phức tạp hơn nếu không có những phân tích ngôn ngữ nguồn cần thiết

Hình 1: Mô hình dịch trực tiếp

Văn bản nguồn

Phân tích hình thái Tra từ điển song ngữ trật tự đơn Sắp xếp

giản

Văn bản kết quả

Trang 9

Các hệ dịch này hạn chế tối đa các bước phân tích cần thiết để giải quyết nhập

nhằng, cũng như đơn giản hoá cả việc xác định các thành phần tương ứng ở ngôn

ngữ đích thông qua tự điển lẫn xác định trật tự đúng của các từ trong ngôn ngữ đích

Giữa khối phân tích và tái tạo câu không có bất kỳ bước trung gian nào Các từ

trong văn bản nguồn chỉ qua một bước phân tích hình thái duy nhất Cách làm này

chỉ phù hợp khi ngôn ngữ nguồn và đích có rất nhiều điểm giống nhau như tiếng

Anh và tiếng Tây Ban Nha, không phù hợp với phần lớn ngôn ngữ khác

1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian

Trong chiến lược này, ngữ nghĩa của văn bản ngôn ngữ nguồn được biểu diễn

lại theo một ngôn ngữ trung gian, và văn bản ngôn ngữ đích cũng được phát sinh từ

ngôn ngữ trung gian này Do đó, chỉ có duy nhất một cách biểu diễn cho một đơn vị

ngữ nghĩa, bất kể ngôn ngữ gốc của nó là gì

Hình 2: Mô hình dịch dựa trên ngôn ngữ trung gian

Xử lý trong hệ thống dựa trên ngôn ngữ trung gian bao gồm hai bước quan

trọng, đó là :

™ Phân tích văn bản nguồn để biểu diễn lại dưới dạng thức của một ngôn ngữ

trung gian

™ Sử dụng những đơn vị ngữ nghĩa và cấu trúc cú pháp của ngôn ngữ đích để

phát sinh văn bản kết quả từ cách biểu diễn theo dạng ngôn ngữ trung gian

Ngôn ngữ trung gian được sử dụng trong những hệ dịch như vậy đòi hỏi phải

đủ phong phú để biểu diễn được tất cả các đơn vị từ vựng và cú pháp của các ngôn

ngữ liên quan trong quá trình dịch Do đó, việc tự định nghĩa hay tìm kiếm một

Văn bản

Ngôn ngữ

ngôn ngữ trung gian thoả điều kiện là điều cực kỳ khó khăn Hơn nữa, tất cả những thông tin cần thiết trong bước tái tạo phải nằm trong ngôn ngữ trung gian này

1.1.3 Chiến lược dịch dựa trên sự chuyển đổi

Hình 3: Mô hình dịch dựa trên sự chuyển đổi

Chiến lược này chia quá trình dịch thành 3 giai đoạn

™ Phân tích

™ Chuyển đổi

™ Phát sinh Chiến lược dịch dựa trên chuyển đổi phân tích và biểu diễn lại câu ngôn ở ngữ nguồn theo một dạng thức trung gian thích hợp cho việc chuyển đổi Khối phát sinh câu sẽ nhận dạng thức trung gian của ngôn ngữ đích và tạo câu ở ngôn ngữ đích Sự chuyển đổi giữa hai dạng thức trung gian được thực hiện nhờ khối chuyển đổi, khối này sử dụng những tự điển chuyển đổi chứa các tương quan từ vựng giữa hai ngôn ngữ nguồn và đích và một tập hợp các luật chuyển đổi

Luật chuyển đổi /

Tự điển

Biểu diễn trung gian của ngôn ngữ đích Ngữ pháp ngôn

ngữ đích / Tự điển

PHÂN TÍCH

CHUYỂN ĐỔI

PHÁT SINH

Trang 10

Quá trình phân tích có thể được thực hiện ở nhiều cấp độ khác nhau tùy thuộc

vào hai ngôn ngữ, chẳng hạn như phân tích hình thái, cấu trúc, ngữ nghĩa, Các cấp

độ phân tích khác nhau dẫn đến nhiều cấp độ của dạng thức trung gian Những dạng

thức này chứa các thành phần từ vựng nguồn và đích, phản ánh cấu trúc của hai

ngôn ngữ Có nhiều loại biểu diễn khác nhau được sử dụng trong các hệ dịch dựa

trên sự chuyển đổi như: cây phụ thuộc, cấu trúc ngữ,

Chiến lược dịch máy dựa trên chuyển đổi có nhiều ưu điểm Trước hết, tính

tương đồng giữa ngôn ngữ nguồn và đích càng cao thì bước chuyển đổi càng đơn

giản Tương tự, giai đoạn phân tích và phát sinh cũng sẽ đơn giản hơn so với các hệ

dịch dựa trên ngôn ngữ trung gian

Trong ba chiến lược nói trên thì chiến lược dựa trên sự chuyển đổi được quan

tâm nhiều nhất vì tính khả thi cao và rất linh động Bằng chứng là có nhiều hệ dịch

dựa trên sự chuyển đổi ra đời và hoạt động hiệu quả.[21]

1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi

Hình 4: Hình tháp minh họa các chiến lược dịch máy 1

Trên lý thuyết, phân tích ngữ pháp càng sâu, gánh nặng ở bước chuyển đổi càng giảm Hai vấn đề lớn mà khối chuyển đổi cần giải quyết là chuyển đổi từ vựng

và chuyển đổi cấu trúc

Chuyển đổi từ vựng là thay thế các từ của văn bản nguồn bằng các từ tương ứng của ngôn ngữ đích Công việc này sẽ rất đơn giản nếu như mỗi từ của ngôn ngữ nguồn tương ứng với một từ duy nhất ở ngôn ngữ đích nhưng trên thực tế, mỗi từ ở ngôn ngữ nguồn có thể không có từ tương ứng hoặc có nhiều từ tương ứng ở ngôn ngữ đích Chọn lựa như thế nào cho đúng vào ngữ cảnh của câu cần dịch là vấn đề

mà chuyển đổi từ vựng phải giải quyết

Chuyển đổi cấu trúc là bước sắp xếp các thành phần ngữ pháp của ngôn ngữ nguồn, bao gồm cả chèn, xoá các thành phần sao cho kết quả dịch tuân thủ những luật ngữ pháp của ngôn ngữ đích, văn bản kết xuất sẽ gần với ngôn ngữ tự nhiên

1 Hình tháp này được nhóm GETA đưa ra vào năm 1968

Ngôn ngữ trung gian

Văn bản nguồn

Chuyển đổi

Dịch trực tiếp

Văn bản đích

Trang 11

hơn mà vẫn giữ đúng ngữ nghĩa và sắc thái của văn bản gốc Như vậy khối chuyển

đổi cấu trúc giữ nhiệm vụ thực hiện những thay đổi cần thiết khi biểu diễn trung

gian của ngôn ngữ nguồn không thể ánh xạ trực tiếp thành cách biểu diễn tương tự

trong ngôn ngữ đích do có sự khác biệt về cấu trúc của hai ngôn ngữ

Cấu trúc cú pháp của một câu được biểu diễn dưới dạng cây cú pháp Chuyển

đổi cấu trúc của một câu từ ngôn ngữ nguồn sang ngôn ngữ đích tức là quá trình xác

định mối liên hệ giữa các thành phần trong cây cú pháp và tìm ra những qui luật để

chuyển cây cú pháp đó về dạng phù hợp với ngôn ngữ đích Nói cách khác ta phải

tìm một cây cú pháp tương đương với cây cú pháp của ngôn ngữ nguồn

Ví dụ : Có câu tiếng Anh “I have read that interesting book.” được phân tích

cú pháp và các nghĩa của từ trong câu đã được chọn đúng như sau (từ có nghĩa ε

tức là từ chỉ đóng vai trò cú pháp, nó không có nghĩa thực sự) :

Hình 5: Cây cú pháp của câu “I have already read that

Nếu chỉ đơn thuần là gắn nghĩa thì câu tiếng Việt được phát sinh là “Tôi rồi

đọc đó thú vị cuốn sách ” Trong tiếng Việt, câu này hoàn toàn vô nghĩa vì trật tự

các thành phần ở sai vị trí sẽ dẫn đến trật tự từ sai và ta không biết được nghĩa chính xác của câu là gì

Chương trình chuyển đổi cây cú pháp có nhiệm vụ thay đổi vị trí, chèn hoặc xoá các thành phần trong cây cú pháp sao cho trật tự từ bề mặt của câu trở nên đúng Trong ví dụ trên, ta thấy nếu chương trình chuyển đổi thay đổi cây cú pháp của câu theo các luật sau :

1 (ADJP (DT) (A))→ (ADJP (A) (DT)) : Nếu ngữ tính từ bao gồm một chỉ định

từ (DT) đứng trước một tính từ (A) thì đảo trật tự 2 thành phần con đó

2 (NP (ADJP) (N)) → (NP (N) (ADJP)) : Nếu ngữ danh từ bao gồm một ngữ tính từ (ADJP) đứng trước danh từ (N) thì đảo trật tự 2 thành phần con đó

3 (VP (AUX have) (VP)) → (VP ε (VP)) : Nếu ngữ động từ bao gồm một trợ

động từ have đứng trước một ngữ động từ khác từ xoá trợ động từ đi

4 (VP (ADV already) (VP)) → (VP (VP) (ADV already)) : Nếu ngữ động từ bao

gồm trạng từ already đứng trước ngữ động từ thì đảo trật tự 2 thành phần

này

Æ câu tiếng Việt “Tôi đọc cuốn sách thú vị đó rồi.” sẽ là một câu có nghĩa

1.3 Cơ sở lý thuyết

Để chuyển đổi cây cú pháp, chúng ta phải có được :

™ Kết quả phân tích ngữ pháp của một câu tiếng Anh ra dạng cây cú pháp và những thông tin cần thiết khác để xác định mối liên hệ giữa các thành phần cây cú pháp Nhưng chỉ cần quan tâm đến những mối liên hệ có ảnh hưởng đến việc chuyển đổi cấu trúc cú pháp của câu

™ Bộ luật chuyển đổi từ cây cú pháp tiếng Anh sang cây cú pháp tiếng Việt

Trang 12

1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi

“Yếu tố nào gây ra sự khác biệt trong cấu trúc câu giữa hai ngôn ngữ ?”, đó là

câu hỏi đầu tiên đặt ra cho những người muốn tự động hoá việc chuyển đổi cấu trúc

câu giữa hai ngôn ngữ Đây cũng là một vấn đề lớn mà các nhà ngôn ngữ học so

sánh phải giải quyết Với cặp ngôn ngữ Anh - Việt, đã có nhiều công trình nghiên

cứu về vấn đề này, tuy nhiên hầu như chưa có công trình nào giải quyết trọn vẹn vì

ngay cả ngữ pháp tiếng Việt hiện vẫn chưa được nghiên cứu đầy đủ Có người quan

niệm ngữ pháp tiếng Việt cũng giống như ngữ pháp tiếng Anh (quan niệm “dĩ Âu vi

trung”), lại có ý kiến cho rằng nên phân tích ngữ pháp câu tiếng Việt theo cấu trúc

Đề - Thuyết

Vì mục tiêu cuối cùng của chương trình chuyển đổi cây cú pháp là trật tự các

từ trong câu phát sinh phải đúng, chúng em chọn cách phân tích cú pháp câu tiếng

Việt theo ngữ pháp tạo sinh của Chomsky với các nhãn cú pháp (thành tố kết thúc

và thành tố không kết thúc) giống như ngữ pháp tiếng Anh để so sánh sự khác biệt

cú pháp câu tiếng Việt và tiếng Anh nhằm giảm bớt độ phức tạp của bài toán đặt ra,

đồng thời sử dụng được nhiều kết quả của ngành ngôn ngữ học so sánh

1.3.1.1 Ngữ pháp tạo sinh

™ Ngữ pháp

Để tạo thành một câu có nghĩa trong một ngôn ngữ nào đó, ta không thể chỉ

đơn giản kết hợp các từ bất kỳ theo thứ tự ngẫu nhiên, mà sự kết hợp đó phải tuân

thủ những luật ngữ pháp của ngôn ngữ đó

Định nghĩa: Ngữ pháp G được định nghĩa là sự hợp thành của 4 thành phần

G= Σ , với :

™ N : tập hợp các thành tố không kết thúc (nonterminal) như NP, VP,

™ ∑ : tập hợp các thành tố kết thúc (terminal) như Adj, Noun,

™ P : Tập hợp các luật ngữ pháp

™ S0 : Ký hiệu thành tố khởi đầu câu

Tập hợp luật ngữ pháp bao gồm 2 loại luật là luật từ pháp và luật cú pháp Luật từ pháp đảm bảo cho mỗi từ tồn tại trong câu đều có nghĩa riêng Luật cú pháp quy định trật tự kết hợp các thành phần ngữ pháp để tạo thành một câu hoàn chỉnh

có nghĩa

™ Cây cú pháp Trong định nghĩa ngữ pháp trên ta thấy mọi câu đều bắt đầu bằng ký hiệu S0

và được biểu diễn bằng một chuỗi phân cấp của các thành tố Cấu trúc ngữ pháp của một câu có thể rất phức tạp, vì vậy để biểu diễn nó, người ta dùng cây cú pháp thể hiện các mối quan hệ giữa các thành phần trong luật ngữ pháp bằng sơ đồ trực quan dạng cây Mỗi cây cú pháp có một nút gốc đóng vai trò là S0, mỗi nút lá tương ứng với một từ (thành tố kết thúc)

Định nghĩa: Cho G=(N,Σ,P,S0) là một ngữ pháp phi ngữ cảnh S0 biểu diễn nút gốc hay nút khởi đầu của cây phân cấp

1 Nếu S0→X1 X2 Xn là một luật ngữ pháp (∈P) thì ta gắn các nút X1,X2, , Xn vào làm con của nút gốc theo thứ tự từ trái sang phải

2 Nếu có nút con Xi và các luật Xi→Y1 Y2 Yn, thì ta sẽ gắn các nút Y1,Y2, , Yn vào làm con trực tiếp của nút Xi theo thứ tự từ trái sang phải

3 Tiếp tục như thế cho đến khi tập hợp các nút con cuối cùng đều là thành tố kết thúc (terminal) hoặc là chuỗi rỗng ε

Trong luận văn này, chúng em sử dụng bộ phân tích cú pháp tiếng Anh EGT (2001) cho kết quả phân tích cú pháp có độ chính xác cao nhất trên thế giới hiện nay Bộ nhãn cú pháp và nhãn từ loại sử dụng là bộ nhãn của Penn Tree Bank (phụ lục 5)

1.3.1.2 Những khác biệt trong cấu trúc tiếng Việt so với tiếng Anh

Tiếng Anh và tiếng Việt cùng loại hình trật tự S-V-O là loại hình phổ biến thứ nhì sau loại hình S-O-V Tuy nhiên, trật tự từ trong các ngữ có một số điểm khác nhau, nhất là thành phần định ngữ trong danh ngữ Đối với tiếng Việt, trật tự từ và

từ hư là hai phương tiện ngữ pháp chủ yếu Theo quan điểm ngôn ngữ học truyền

Trang 13

thống: các nhân tố trật tự từ phụ thuộc vào cấu trúc của đơn vị ngôn ngữ và phụ

thuộc vào các mối quan hệ giữa các thành tố Có nhân tố bên ngoài và có nhân tố

bên trong, chuyển đổi cấu trúc chỉ tập trung vào những nhân tố bên ngoài chứ

không quan tâm đến cấu trúc của từ Do đó việc khảo sát trật tự từ trong các thành

phần trong ngữ và cao hơn là trật tự các thành phần trong câu sẽ là cơ sở để xây

dựng cách thức khai thác nguồn tri thức chuyển đổi cấu trúc

1.3.1.2.1 Trong phạm vi ngữ

™ Ngữ danh từ : trật tự các thành phần bổ nghĩa cho danh từ chính trong ngữ

danh từ có nhiều điểm khác biệt so với tiếng Anh Vị trí của thành phần bổ nghĩa so

với danh từ chính phụ thuộc vào loại chức năng bổ nghĩa của nó Định ngữ được

chia thành 2 loại căn cứ vào vị trí của nó so với danh từ chính: tiền định ngữ (đứng

trước) và hậu định ngữ (đứng sau)

™ Tiền định ngữ tiếng Anh có thể là tính từ miêu tả, danh từ, động danh từ, động

tính từ, phó từ, danh từ chỉ sở hữu cách, chỉ định từ, tính từ sở hữu, số từ Đối với

tiếng Việt, phần lớn các tiền định ngữ này đứng sau danh từ chính Tuy nhiên cũng

có một số trường hợp ngoại lệ

Hình 6: So sánh trật tự định ngữ tiếng Anh và tiếng Việt (0: vị trí danh từ chính trong ngữ, -: từ bổ nghĩa đứng trước danh từ chính, +: từ bổ nghĩa đứng sau danh từ chính)

Định ngữ là tính từ miêu tả :

a big red fox → một con chồn đỏ to lớn

Định ngữ là danh từ : the weather forecast → dự báo thời tiết -1 0 0 +1 Định ngữ là danh từ riêng :

forest Nam Cat Tien → rừng Nam Cát Tiên

Định ngữ là động danh từ hay động tính từ : freezing point → điểm đông đặc -1 0 0 +1 Định ngữ là phó từ:

the after years → những năm sau đó

One sister → một cô em gái -1 0 -1 0 Định ngữ là số thứ tự:

The last Mohicans → người Mohican cuối cùng

Trang 14

Dưới đây là bảng tóm tắt trật tự phổ biến của các thành phần trong danh ngữ

tiếng Anh và tiếng Việt Trong danh ngữ, thành phần nào có vị trí nhỏ hơn sẽ đứng

trước

4 Cardinal Number One, One hundred

8 Shape, length Round, long

6 Tính từ chỉ trạng thái vật liệu Thiếc

7 Quốc tịch Việt, Hoa

15 Tính từ chỉ sở hữu Của cô ta

Bảng 2: Trật tự các thành phần trong ngữ danh từ tiếng Việt

™ Hậu định ngữ Không có sự khác biệt về trật tự của hậu định ngữ so với danh từ chính trong tiếng Anh và tiếng Việt

The girl with blond hair → Cô gái có mái tóc vàng

™ Ngữ động từ, ngữ tính từ : Phần lớn có cấu trúc giống nhau ở 2 ngôn ngữ

1.3.1.2.2 Trong phạm vi mệnh đề

Ở mức mệnh đề, chúng ta quan tâm đến trật tự các thành phần ngữ pháp như : chủ từ, động từ chính, trợ động từ, túc từ trực tiếp, túc từ gián tiếp, trạng ngữ, Một cách đơn giản ta có thể coi mệnh đề là một câu đơn vì nó có các thành phần chủ từ, động từ chính

Tiếng Anh và tiếng Việt đều thuộc loại hình ngôn ngữ S-V-O, nên nhìn chung trật tự của nhánh trong cây cú pháp giữ vai trò là một quan hệ ngữ pháp trong mệnh

có xu hướng không thay đổi nhiều Theo kết quả khảo sát thì thành phần trạng ngữ

và thành phần hỏi trong câu hỏi tiếng Anh có trật tự bị thay đổi nhiều nhất

™ Trạng ngữ Trạng ngữ chỉ thời gian trong tiếng Anh thường nằm cuối câu, nhưng ngược lại trong tiếng Việt chúng thường nằm ở đầu câu Trạng ngữ chỉ thể cách, tần suất

Trang 15

trong tiếng Anh có thể xuất hiện ở đầu câu, sau chủ ngữ, hoặc cuối câu tùy theo

từng loại trạng ngữ Nói chung, đặc điểm riêng của từng ngôn ngữ và thói quen sử

dụng ngôn ngữ đã hình thành nên những trật tự tự nhiên không tuân theo một qui

luật cụ thể nào

Ví dụ :

I have not done my exercises yet

-> Tôi chưa làm bài tập

™ Câu hỏi

Phương tiện ngữ pháp “trật tự từ” trong tiếng Anh thể hiện rõ nhất qua các loại

câu hỏi Câu hỏi trong tiếng Anh được chia thành hai loại chính Yes/No và

WH-question Thành phần muốn hỏi được đảo lên đầu câu và được thay thế bằng từ hỏi

tương ứng Chẳng hạn khi muốn hỏi “Con chó của bạn đã cắn ai vậy?”, ta dùng

“Whom did your dog bite ?”, từ hỏi whom cho biết ta đang muốn hỏi túc từ của

động từ chính trong câu và whom giữ vị trí đầu câu

Trật tự các thành phần trong câu hỏi tiếng Việt không thay đổi so với các loại

câu khẳng định, phủ định Nhưng trong đó, xuất hiện các từ được thêm vào như

“không”, “phải không”,

1.3.1.2.3 Phạm vi câu

Thành phần được khảo sát trật tự là các mệnh đề Hầu hết mệnh đề (chính hay

phụ) trong tiếng Anh đều giữ nguyên trật tự khi dịch sang tiếng Việt Điều này làm

giảm bớt độ phức tạp cho bài toán chuyển đổi trật tự các thành phần trong một câu

1.3.1.2.4 Hư từ

Tiếng Việt có 3 tập hợp từ cơ bản:

™ Thực từ: chiếm số lượng lớn nhất trong vốn từ, mang ý nghĩa ngữ vựng

Thực từ có thể đứng làm trung tâm các ngữ, tập hợp chung quanh chúng là

những thành tố phụ Thực từ có thể giữ chức vụ ngữ pháp trong câu, tức là

làm thành phần câu (thành phần chính và phụ), xa hơn nữa là thực từ có

khả năng độc lập tạo câu

™ Từ tính thái: có số lượng nhỏ, nhưng có đặc trưng riêng về bản chất ngữ pháp Nó không có ý nghĩa từ vựng và cũng không có ý nghĩa ngữ pháp

Từ tình thái diễn đạt mối quan hệ giữa người nói với thực tại, nhờ đó góp phần hình thành mục đích phát ngôn Từ tình thái không làm thành phần của câu

™ Hư từ: có số lượng rất ít, có tính chất ngữ pháp, là phương tiện biểu đạt mối quan hệ giữa các khái niệm trong tư duy theo cách thức phản ánh bằng ngôn ngữ của người bản ngữ Hư từ không làm trung tâm của ngữ, chỉ làm thành tố phụ nhưng cũng rất ít, đa số các trường hợp, hư từ được dùng làm yếu tố liên kết “xúc tác” của các đơn vị cấu trúc ngữ pháp Hư từ không độc lập tạo câu và cũng không làm thành phần câu

Hư từ tiếng Việt bao gồm hai tập con: hư từ làm từ phụ diễn đạt các ý nghĩa ngữ pháp của thực từ, còn gọi là hư từ từ pháp, hư từ với chức năng liên kết, còn gọi

là hư từ cú pháp, bao gồm cả liên từ và giới từ

Trong bài toán chuyển đổi cây cú pháp, ta phải quan tâm đến hư từ vì nó có liên quan đến cấu trúc cả các đơn vị ngữ pháp, đồng thời hư từ từ loại là từ loại không có trong tiếng Anh, là những từ mà máy tự động thêm vào để câu dịch phát sinh có nghĩa rõ ràng và tự nhiên hơn

Ví dụ:

I am going to school → Tôi đang đi học

He ate a loaf of bread → Anh ta đã ăn một ổ bánh mì

1.3.1.3 Các nhân tố ảnh hưởng

Từ những kết quả nghiên cứu của ngành ngôn ngữ học so sánh, ta có thể xác định được những nhân tố nào ảnh hưởng đến sự khác biệt giữa cấu trúc tiếng Anh

và tiếng Việt Dựa trên cơ sở đó, chương trình chuyển đổi sẽ tự động rút ra các luật

để chuyển đổi các thành phần trong cây cú pháp của tiếng Anh cho phù hợp với tiếng Việt Trật tự các thành phần cây cú pháp phụ thuộc vào những nhân tố sau :

Trang 16

1.3.1.3.1 Nhân tố về loại hình ngôn ngữ

Theo kết quả nghiên cứu của Greenberg: trật tự và đặc điểm các thành phần

trong câu bị ảnh hưởng rất lớn bởi loại hình ngôn ngữ và loại hình trật tự từ Những

nghiên cứu về sự khác biệt trật tự các thành phần giữa hai ngôn ngữ Anh và Việt

nói trên cũng chứng minh thêm về điều này Chẳng hạn một số khác biệt:

™ Trong ngữ danh từ :

¾ Trật tự giữa tính từ và danh từ (tiếng Anh: tính từ trước danh từ chính,

tiếng Việt: danh từ chính đứng trước tính từ)

¾ Vị trí danh từ chính (head noun) (tiếng Anh: đứng sau các thành phần bổ

nghĩa, tiếng Việt: danh từ chính đứng trước)

™ Vị trí danh từ sở hữu và vật sở hữu : Mary’s shirt Æ áo sơ mi của Mary

™ Hư từ trong tiếng Việt: “I went to school” Æ “Tôi đã đi học” (có hư từ

“đã”), nhưng câu “I went to school yesterday” Æ “Tôi đi học hôm qua”

(không cần có hư từ “đã”)

1.3.1.3.2 Nhân tố về hình thái

Trong tiếng Việt, một trong những nhân tố ảnh hưởng đến trật tự các thành

phần là chiều dài của chúng Chẳng hạn, trong câu có hai thành phần bổ ngữ trực

tiếp và bổ ngữ gián tiếp thì thành phần nào “nặng” hơn (gồm nhiều từ hơn) sẽ nằm

sau thành phần bổ ngữ “nhẹ” hơn (gồm ít từ hơn) Ta có thể thấy rõ hơn trong ví dụ

sau:

™ Tôi viết thư cho mẹ (+);

Tôi viết cho mẹ thư (-)2

™ Tôi viết một lá thư dài đầy tình cảm cho mẹ (-);

Tôi viết cho mẹ một lá thư dài đầy tình cảm (+)

2 (+) : phổ biến, (-) : không phổ biến

1.3.1.3.3 Nhân tố về cú pháp

Một số nhân tố về cú pháp ảnh hưởng đến trật tự các thành phần trong câu là:

™ Thể (bị động/ chủ động) : Trong tiếng Anh, câu dạng bị động được sử dụng rất phổ biến (nhất là trong văn bản khoa học kỹ thuật) Tuy nhiên trong tiếng Việt, người ta lại thường dùng thể chủ động hơn

Ví dụ:

“Any computer is controlled by programmed instructions.” (Bị động)

Æ “Bất kỳ máy tính nào cũng được điều khiển bởi các lệnh được lập trình sẵn”

(Chủ động)

™ Ở tiếng Anh, người ta thường sử dụng dạng danh hoá (nominalization) Trong khi đó, ở tiếng Việt dạng động hoá (verbalization) lại được dùng nhiều hơn Trong các tài liệu khoa học kỹ thuật, hiện tượng này còn phổ biến hơn nữa Chẳng hạn như “machine translation” → “dịch máy”

1.3.1.3.4 Nhân tố về ngữ nghĩa

Ngữ nghĩa và cấu trúc của các thành phần câu có liên quan mật thiết với nhau Cấu trúc cũng thể hiện một phần ngữ nghĩa, và ngữ nghĩa cũng góp phần qui định cấu trúc Trong tiếng Việt, danh từ chỉ một loài/ thứ chung chung nào đó, sẽ được chuyển đổi (trật tự/ chèn/ xoá) khác với danh từ chỉ một loài/ thứ cụ thể

Trang 17

1.3.1.3.5 Các nhân tố khác

Ngoài những nhân tố nói trên, một số nhân tố khác cũng ảnh hưởng đến trật tự

các thành phần như:

™ Nhân tố chiến lược và định hướng của người nói

™ Nhân tố tôn ti trật tự của các sự vật trong thế giới khách quan

™ Nhân tố phân đoạn thực tại

™ Nhân tố đặc thù ngôn ngữ

Nhận xét :

Như vậy, trong thực tế có rất nhiều nhân tố có thể ảnh hưởng đến trật tự từ

trong câu hay trật tự các thành phần cú pháp trong cây cú pháp do ngôn ngữ tự

nhiên vốn rất đa dạng, phong phú Tuy nhiên, trong giới hạn luận văn này, như đã

nói, chúng em chỉ tập trung nghiên cứu giải quyết các cấu trúc trong văn bản tài liệu

khoa học kỹ thuật để phục vụ cho hệ dịch trong lĩnh vực khoa học kỹ thuật Mặt

khác, máy tính chỉ có thể làm việc với những thông tin biểu diễn được thành dữ liệu

trên máy Do đó, trong những nhân tố ảnh hưởng đã trình bày, những nhân tố được

đưa vào chương trình, xem như những đặc trưng cho quá trình chuyển đổi cây cú

pháp là các nhân tố về: loại hình ngôn ngữ, hình thái, và cú pháp

1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề

Tri thức chuyển đổi cú pháp giữa hai ngôn ngữ nằm trong những cặp câu dịch

tự nhiên Một người Việt biết tiếng Anh, tức là họ đã có hiểu biết về ngữ pháp cũng

như từ vựng tiếng Anh, khi gặp câu “I have an interesting book”, họ có thể dịch

ngay là “Tôi có một quyển sách thú vị” Tri thức chuyển đổi ngữ danh từ tiếng Anh

“an interesting book” thành “một quyển sách thú vị” chính là tri thức chuyển đổi

cần được khai thác, biểu diễn trên máy tính theo cách thức mà máy tính có thể đọc

và áp dụng được cho những trường hợp mới Trong luận văn này, chúng em chọn

cách biểu diễn tri thức chuyển đổi dưới dạng luật

Trong nhiều hệ dịch đơn giản trước đây, bộ luật chuyển đổi này được các

chuyên gia ngôn ngữ xây dựng bằng tay, một số hệ dịch sử dụng phương pháp

thống kê Tuy nhiên, cho dù xây dựng bằng phương pháp nào đi chăng nữa thì việc xây dựng cũng phải dựa trên cơ sở là những văn bản do chính con người dịch chứ không thể là những trường hợp do các chuyên gia dịch tự nghĩ ra Khi khối lượng

dữ liệu chứa tri thức chuyển đổi này ngày càng tăng thì việc xây dựng bằng tay trở nên khó khăn hơn Do đó, cần phải có một phương pháp tự động rút bộ luật chuyển đổi từ ngữ liệu

Các phương pháp máy học ra đời đã đáp ứng được nhu cầu đó Khối lượng dữ liệu lớn không còn là một vấn đề trở ngại Chúng ta cũng có thể lựa chọn phương pháp máy học phù hợp với loại ngữ liệu, mục đích của công việc, và tận dụng được tối đa ưu điểm của phương pháp đó Trong bài toán chuyển đổi cây cú pháp, chúng

em chọn phương pháp học dựa trên sự chuyển trạng thái (Transformation Based Learrning), gọi tắt là TBL, chúng em xây dựng thuật toán học dựa trên tư tưởng của thuật toán “TBL nhanh” [16] được cải tiến từ TBL gốc (được trình bày chi tiết trong chương 3)

Hiệu quả của thuật toán học rút luật chuyển đổi cú pháp không chỉ phụ thuộc vào tính đúng đắn và hiệu quả của bản thân thuật toán đó mà còn phụ thuộc vào: chất lượng của bộ phân tích ngữ pháp (cho thông tin cú pháp và từ loại), những thông tin phân tích phụ khác cho câu tiếng Anh (như vai trò của các thành phần trong cây cú pháp, )

Trang 18

Chương 2

CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI

CẤU TRÚC TRONG DỊCH MÁY

Vấn đề chuyển đổi cấu trúc giữa hai ngôn ngữ trong dịch máy là một trong các

vấn đề cần được quan tâm hàng đầu trong bất kỳ một hệ dịch nào Nhiều cách tiếp

cận khác nhau đã được đề xuất, trong đó mỗi cách tiếp cận thường sẽ phụ thuộc lớn

vào đặc trưng của cặp ngôn ngữ của hệ thống dịch cũng như các tài nguyên sẵn có

của hai ngôn ngữ nguồn và đích Trong chương này chúng em sẽ điểm lại một số

hướng tiếp cận chính đã và đang được sử dụng trong các hệ dịch máy trên toàn thế

giới cũng như đánh giá sơ bộ những ưu khuyết điểm của các hướng tiếp cận này

2.1 Hướng tiếp cận dựa trên luật cố định

Từ những thập niên 60-70, chiến lược dịch máy dựa trên chuyển đổi đã được

quan tâm và đầu tư nghiên cứu Trong các hệ dịch này, bộ phận chuyển đổi cấu trúc

được đảm nhận bởi các luật chuyển đổi cố định, đảm bảo việc ánh xạ các cấu trúc

cố định từ ngôn ngữ nguồn sang ngôn ngữ đích Đây là cách tiếp cận đơn giản nhất

và kết quả đạt được đặt biệt cao đối với những hệ dịch có lĩnh vực dịch hẹp và

chuyên biệt Các luật chuyển đổi là do con người nghĩ ra và được đưa ra bởi các

chuyên gia ngôn ngữ học sau đó được đưa vào bộ phận chuyển đổi trong hệ dịch

Đặc tính cơ bản cần được bảo đảm đối với các luật chuyển đổi cố định là chúng cần

phải gắn liền với các luật sinh của văn phạm được sử dụng để phân tích câu trong

ngôn ngữ nguồn

2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định

Giả sử chúng ta xét luật sinh đối với tiếng Anh như sau:

(E) NP → DT JJ NN3 trong đó:

NP là ngữ danh từ (thành tố không kết thúc)

DT là định từ (thành tố kết thúc)

JJ là tính từ (thành tố kết thúc)

NN là danh từ (thành tố kết thúc)

ví dụ danh ngữ tiếng Anh là : a/DT good/JJ book/NN

với tiếng Việt, tính từ bổ nghĩ cho danh từ thường đứng sau danh từ, chính vì vậy để

có thể dịch được danh ngữ trên sang tiếng Việt thì luật sinh phải được viết lại là:

Trang 19

Xét một phần cây tổng quát như hình bên dưới Ở đây ngữ tiếng Anh là “a

good type of book”, yêu cầu chuyển đổi sang trật tự từ tiếng Việt phải là “a type

book good (of)” → “một dạng sách hay” Chúng ta thấy xuất hiện một yêu cầu phải

chuyển bộ phận book/NN là con trực tiếp của thành tố không kết thúc PP sang làm

con trực tiếp của một thành tố không kết thúc khác là NP đồng thời xoá hẳn of/IN

Hình 8: Một trường hợp chuyển đổi khác nút cha mà luật cố định

không thể thực hiện được (a) ngữ tiếng Anh gốc; (b) trật tự mới

trong ngữ khi chuyển đổi sang cấu trúc tiếng Việt

Hướng tiếp cận dựa trên luật chuyển đổi cố định cung cấp khả năng chuyển

đổi, chèn, xoá các thành phần của vế phải của cùng một luật sinh trong văn phạm

xác định nhưng không thể mở rộng để áp dụng trong việc chuyển đổi giữa các thành

phần khác cấp hoặc khác cha Đây là một trong những khuyết điểm chính làm cho

các hệ dịch có bộ phận chuyển đổi cấu trúc theo hướng tiếp cận này nhanh chóng

gặp phải sự hạn chế về mặt thực tiễn Một khuyết điểm chính nữa của hướng tiếp

cận này là sự không bao quát của tập luật Để xây dựng được một bộ luật chuyển

đổi cố định từ cây cú pháp nguồn sang cây cú pháp đích người ta phải bỏ ra rất

nhiều công sức và thời gian và phải được xây dựng bởi các chuyên gia ngôn ngữ

học so sánh để đảm bảo cho tập luật đầy đủ và hiệu quả nhất Tuy nhiên lý do chính

để hướng tiếp cận này không khả thi là do sự xuất hiện của hiện tượng mâu thuẫn

giữa các luật chuyển đổi Một khi số lượng luật chuyển đổi tăng lên, việc đảm bảo

(a) (b)

cho các luật này tương tác được tốt với nhau mà không gây mâu thuẫn là gần như không thể thực hiện được bởi những đặc trưng hết sức đa dạng của ngôn ngữ

Hình 9: Khả năng chuyển đổi cú pháp của luật cố định

R 1 →R’ 1 : khả thi; R 1 →R” 1 : không khả thi

2.1.2 Nhận xét

Chuyển đổi cấu trúc dựa trên luật chuyển đổi cố định là một hướng tiếp cận mang tính đơn giản và giải quyết được khá nhiều trường hợp phổ biến trong các ngôn ngữ Tuy nhiên chất lượng đánh giá trên số lượng lớn các câu tiếng Anh khi được dịch sang tiếng Việt không cao, điều đó chứng tỏ rằng một giới hạn tiềm ẩn đã

được “định sẵn” cho hướng tiếp cận này Đặc tính của hệ thống luật được xây dựng

bằng tay có ảnh hưởng trực tiếp đến chất lượng chuyển đổi như số lượng luật, trật tự sắp xếp các luật cũng như tính hỗ tương giữa các luật này hoàn toàn là do cảm tính của người xây dựng Tuy nhiên điểm mạnh của cách tiếp cận dựa trên luật là cho phép chúng ta kiểm soát được các cấu trúc đặc thù và hạn chế được sự chuyển đổi quá tự do Việc bổ sung luật luôn cần phải được khảo sát cẩn thận và chính xác tránh xảy ra hiện tượng mâu thuẫn giữa các luật

Trang 20

2.2 Hướng tiếp cận sử dụng case-frame

Phương pháp chuyển đổi sử dụng cách biểu diễn trung gian case-frame (biểu

diễn khung) đã được ứng dụng cho tiếng Anh-Thổ Nhĩ Kỳ [20]

Trong cách tiếp cận này, câu tiếng Anh được phân tích thành dạng QLF

(Quasi Logical Form) [20], sau đó được chuyển thành biểu diễn trung gian dạng

case-frame QLF không được chọn làm biểu diễn trung gian cho giai đoạn chuyển

đổi vì nhiều lý do Trước hết, QLF là một cấu trúc vị từ đối số (predicate-argument),

nó không chứa đựng những chức năng cú pháp của một câu Thực hiện việc chuyển

đổi cấu trúc trên cách biểu diễn đó hoàn toàn không khả thi Hơn nữa, sử dụng QLF

làm biểu diễn trung gian sẽ giới hạn khả năng của hệ dịch máy vào bộ phân tích

CLE và do đó hệ thống sẽ chỉ làm việc với ngôn ngữ nguồn là tiếng Anh Một lý do

khác là thông tin cần thiết cho câu tiếng Thổ trong một QLF rất khó đạt được Vì

thế, để thực thi một hệ dịch máy có tính uyển chuyển, không phụ thuộc ngôn ngữ

nguồn hay một bộ phân tích nào đó, một cách biểu diễn tổng quát hơn, đó là

case-frame Case-frame đã được tận dụng như một cách biểu diễn trung gian

Quá trình chuyển đổi sử dụng case-frame thực chất là một quá trình ánh xạ

tuần tự từ case-frame này sang case-frame kia theo cách thức xây dựng dần Những

điểm đặc trưng và những mối quan hệ ngữ pháp của case-frame nhập được chuyển

đổi riêng Sau đó, chúng lại kết hợp với nhau để phát triển thành một case-frame

ngôn ngữ đích Những luật chuyển đổi có dạng sau (theo ký hiệu ngôn ngữ Prolog):

Rulename (SourceCF, Variable, Checklist) :-

If condition then Variable = TargetCf

Bước đầu tiên trong giai đoạn chuyển đổi là xác định loại câu nguồn, chẳng

hạn như : câu đơn, câu điều kiện, câu liên hợp, Nếu câu là một câu ghép chứa các

mệnh đề độc lập, thì những mệnh đề này được xem xét riêng như từng case-frame

riêng lẻ Tiếp tục đệ qui, mỗi case-frame này sẽ được phân tích để tạo ra một bản

liệt kê những mục cần kiểm tra (checklist) của câu bao gồm tất cả những thông tin

quan trọng về câu hay mệnh đề

Các thành tố của khối chuyển đổi chỉ có thể truy xuất một phần nào đó của case-frame, sau đó, nếu một luật chuyển đổi cần tham khảo đến những tính chất của một phần ở xa nó trong case-frame, thì những tính chất xác định đó có thể nằm ngoài phạm vi truy xuất của nó Để giải quyết vấn đề này, ở mức chiếu cực đại, thông tin quan trọng có thể đòi hỏi bới việc chuyển đổi từ vựng cấu trúc và phức hợp được lưu lại trong một bản liệt kê những mục cần kiểm tra Khi tiến trình chuyển đổi tiếp tục thực hiện, bản liệt kê này được tham chiếu đến để hạn chế việc dịch mặc định và kiểm soát những ngoại lệ

Có 3 loại bản liệt kê các mục cần kiểm tra được sử dụng trong suốt quá trình chuyển đổi, đó là bản liệt kê cấp độ câu, động từ, và danh ngữ Bản liệt kê câu có thể được truy xuất tới từ bất cứ đâu trong khối chuyển đổi, trong khi đó bản liệt kê động từ và danh ngữ được sử dụng cho chuyển đổi động từ và danh ngữ

2.2.1 Chuyển đổi các thông tin cấp độ câu

Bảng liệt kê những mục kiểm tra của câu không chỉ bao gồm những thuộc tính thể hiện trong case-frame chẳng hạn như cách (mood), thể (voice) và động từ (chỉ những động từ đòi hỏi chuyển đổi phức tạp) của câu, mà còn chứa những thông tin dẫn xuất sẽ được thêm vào case-frame của tiếng Thổ Những thông tin dẫn xuất là loại mệnh đề Thổ được quyết định từ động từ nguồn, loại bổ ngữ của câu nếu có, và thuộc tính hành động nói dẫn xuất từ thông tin về thì và thể

Theo sự phát triển của bản liệt kê các mục cần kiểm tra câu, khối chuyển đổi bắt đầu xây dựng cấu trúc case-frame tiếng Thổ theo cách từ trên xuống Đầu tiên, những thông tin mới, s-form và loại mệnh đề được lấy từ bản liệt kê các mục cần kiểm tra và được chèn vào biểu diễn trung gian Nếu câu được xử lý có một thuộc tính đặc trưng, thì quan hệ giữa đối tượng vị từ với chủ từ được xác lập

Ví dụ:

Biểu diễn case-frame tiếng Anh

Trang 21

inpformpparg2

ationn_Specificdescriptio

#subj

pp_bebe

tanim

#subjectarguments

to_be

#verb

activevoice

edeclarativact

speech

at_locrel

attribute

e

clause_typ

finiteform

s

Sau khi thêm thông tin mới, mỗi khe của case-frame nguồn được xử lý và ánh

xạ vào case-frame của ngôn ngữ đích, tiến trình ánh xạ thực hiện tuần tự như sau:

- thông tin câu,

- ngữ động từ

- định ngữ, bổ ngữ

- đối số

2.2.2 Chuyển đổi ngữ động từ

Chuyển đổi động từ được bắt đầu sau khi bản liệt kê các mục cần kiểm tra

động từ đã được tạo xong bao gồm những thuộc tính của động từ như: thì, dạng

khiếm khuyết, hoàn thành và tiếp diễn Một trong những vẫn đề cần giải quyết trong

quá trình chuyển đổi ngữ động từ là ánh xạ thì và những thông tin cụ thể Ánh xạ

này được con người xây dựng dựa vào sự so sánh giữa hai ngôn ngữ Thì, lĩnh vực,

tính khiếm khuyết và thể của động từ cùng với cách nói của câu nguồn sẽ được ánh

xạ sử dụng thuộc tính của động từ nguồn về thì, hoàn thành, tiếp diễn và tính khiếm khuyết Trong một số trường hợp, không có sự tương ứng một - một giữa thì và thông tin riêng biệt giữa tiếng Anh và tiếng Thổ Khi đó, sẽ chọn cách ánh xạ phù hợp nhất để phản ánh mục đích sử dụng của động từ Một số động từ cần sự chuyển đổi rất phức tạp

2.2.3 Sự chuyển đổi của định ngữ, bổ ngữ

Đối với mỗi bổ ngữ trong case-frame nguồn, bước đầu tiên là xác định xem cách dịch tiếng Thổ tương ứng sẽ ở vị trí đối số hay vị trí bổ ngữ

Sau khi các định ngữ, bổ ngữ được ánh xạ vào đối số được rút ra từ danh sách các bổ ngữ, những item còn lại sẽ được chuyển đổi dựa vào loại của chúng

Từ chính trong bổ ngữ có dạng ngữ giới từ sẽ xác định loại bổ ngữ mà mệnh

đề sẽ ánh xạ tới Phần ngữ danh từ được rút ra và ánh xạ riêng

Vidụ:

Before you use the program, read the file

Once program- ACC kullan- INF-ABL oku-IMP-PERS dosya-ACC

“Programi kullanmadan once dosyayi okuyun.”

Biểu diễn case-frame tiếng Anh

program

#objyou

#verbargs

use

#verb

activevoice

edeclarativmood

arg

beforepform

ppadjuncts

read

#verb

activevoice

imperativemood

Biểu diễn case-frame tiếng Thổ

Trang 22

#subject

arguments

program

#objdir

siz

#subjarguments

kullan

#verb

activevoice

edeclarativart

speech

epredicativtype

clause

adverbialform

s

argument

eventbeforetypeadv

2.2.4 Tự điển chuyển đổi

Các mục trong tự điển Chuyển đổi được chia thành các loại:

Mỗi động từ trong tự điển đi kèm với từ gốc, nghĩa logic và nghĩa tiếng Thổ

tương ứng Tương tự, thông tin hình thái như động từ có được dẫn xuất từ một từ

gốc khác hay không, loại từ của từ gốc và loại tiền tố đều được bao gồm trong tự

điển này Thành phần cuối cùng là thông tin về phân loại mịn hơn thể hiện chức

năng ngữ pháp của nhóm danh từ cần thiết cho một động từ nào đó

Động từ cần chuyển đổi phức tạp cũng được biểu diễn nguyên dạng trong tự

điển chuyển đổi Khác những động từ khác, những động từ này không được phân

tích bởi khối phân tích, chúng được đưa vào những luật chuyển đổi phức tạp dành chuyển đổi riêng cho những động từ đặc biệt

Những danh từ bao gồm thông tin : từ gốc, mặt nghĩa và từ tiếng Thổ tương ứng, kèm theo thuộc tính về sự tương hợp với động từ Các thành phần đặc biệt đi kèm với danh từ đó cũng được lưu trong tự điển

Các mục từ còn lại trong tự điển là định từ, lượng từ đi kèm với từ tiếng Thổ tương ứng

2.2.5 Nhận xét

Cách tiếp cận này đòi hỏi câu trong ngôn ngữ nguồn phải được phân tích khá chi tiết về mặt cấu trúc lẫn ngữ nghĩa Giai đoạn chuyển đổi chỉ đơn giản là tra tự điển để ánh xạ dần từng cấu trúc thành phần Cách làm này khiến cho câu dịch tạo

ra rất tự nhiên và hay Tuy nhiên nó có nhiều bất lợi Trước tiên là vấn đề xây dựng hoặc tìm ra một bộ phân tích ngôn ngữ nguồn cho kết quả dạng QLF chi tiết và chính xác cao Thứ hai là việc ánh xạ case-frame từ ngôn ngữ nguồn sang ngôn ngữ đích Công trình trên cũng được tác giả thừa nhận là các trường hợp chuyển đổi chỉ giới hạn trong những dạng case-frame được xây dựng, muốn dịch được nhiều dạng câu và dạng ngữ hơn thì cần phải mở rộng từ điển và tập luật chuyển đổi dạng case-frame Khả năng xây dựng đầy đủ bộ case-frame phức tạp như vậy cho một ngôn ngữ tự nhiên vượt quá khả năng con người

2.3 Hướng tiếp cận sử dụng TAG đồng bộ (STAG)

Phương pháp TAG đồng bộ được gọi tắt là STAG (Synchronous Tree Adjoining Grammar) [18] là phương pháp chuyển đổi dựa trên các cây sơ cấp của văn phạm TAG [19] Để có thể đi vào hướng tiếp cận sử dụng TAG đồng bộ, trước hết chúng em sẽ trình bày tóm lượt một số khái niệm chính trong văn phạm TAG để rồi từ đó đi vào STAG

Trang 23

™ I là tập hữu hạn các cây khởi tạo, các cây khởi tạo có các đặc điểm sau:

¾ Mọi nút là của cây được đánh nhãn là một thành tố kết thúc, hoặc thành

tố không kết thúc Mọi thành tố không kết thúc đều được đánh dấu cho

sự thay thế (substitution), việc đánh dấu này được ký hiệu trên cây bằng

một dấu mũi tên xuống

¾ Mọi nút không là nút lá được đánh nhãn là thành tố không kết thúc

™ A là tập hữu hạn các cây phụ trợ (auxiliary tree), các cây phụ trợ có các

đặc điểm sau:

¾ Mọi nút lá của cây được đánh nhãn là một thành tố kết thúc, hoặc thành

tố không kết thúc Mọi thành tố không kết thúc đều được đánh dấu cho

sự thay thế ngoại trừ một nút, được gọi là node Nhãn của

foot-node phải trùng với nhãn của nút gốc Foot-foot-node được ký hiệu trên cây

bằng một dấu sao (*)

¾ Mọi nút không là nút lá được đánh nhãn là thành tố không kết thúc

™ S là thành tố khởi đầu (thành tố nguyên thủy) của câu

Tập hợp mọi cây trong I ∪ A được gọi là tập hợp các cây sơ cấp (elementary

tree) Một cây sơ cấp được gọi là cây sơ cấp X nếu nút gốc của nó được đánh nhãn

bằng một thành tố không kết thúc X

Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG

Một cây được tạo thành từ sự kết hợp của những cây khác gọi là cây dẫn xuất (derived tree) Cây dẫn xuất được tạo thành từ những cây khác bằng hai tác tố: tác

tố kết hợp (adjoining) và tác tố thay thế (substitution)

™ Tác tố kết hợp: thực hiện việc kết hợp một cây phụ trợ vào một nút trong của một cây dẫn xuất Tác tố kết hợp là tác tố giữ vai trò quan trọng trong TAG

Z*

Các thành tố kết thúc hoặc các nút thay thế

foot-node

Trang 24

Hình 11: Tác tố kết hợp

™ Tác tố thay thế tạo cây dẫn xuất bằng cách thay thế mút được đánh dấu

thay thế bằng một cây khởi tạo tương ứng, cây khởi tạo này phải có nút

gốc được đánh nhãn của nút được đánh dấu thay thế

VP

V

Hình 12: Tác tố thay thế

TAG mô tả cú pháp của cây bằng sự kết hợp các cây sơ cấp để tạo thành cây

cú pháp Với tổ chức của TAG, cây kết quả sẽ không mang đầy đủ các thông tin lưu lại quá trình hình thành nên nó Điều đó đồng nghĩa với việc chúng ta không thê biết được cây kết quả được tạo thành từ bao nhiêu cây sơ cấp và các cây đó là những cây nào cũng như các cây đó được kết hợp với nhau tại những nút nào Để giải quyết

vấn đề này, khái niệm cây dẫn xuất (derivation tree) được định nghĩa như một đối

tượng xác định cách duy nhất một cây kết quả được tạo thành, cho phép xem xét và lưu giữ mọi thông tin về sự kết hợp và thay thế trong một sự dẫn xuất TAG Gọi T là cây mô tả sự dẫn xuất thì cây T có dạng như sau:

VP

V

Trang 25

™ Nút gốc của T được đánh nhãn là cây khởi tạo với yếu tố nguyên thủy S

™ Tất cả các nút trong cây dẫn xuất được đánh nhãn là cây phụ trợ nếu tác tố

kết hợp được sử dụng

™ Tất cả các nút trong cây dẫn xuất được đánh nhãn là cây khởi tạo nếu tác tố

thay thế được sử dụng

™ Mỗi nút trên T sẽ được gán một địa chỉ (trừ nút gốc) Địa chỉ này chính là

địa chỉ của nút trong cây cha mà có tác tố kết hợp hoặc thay thế được thực

hiện Các địa chỉ của mọi nút trong T là phân biệt

2.3.2 TAG đồng bộ (STAG)

2.3.2.1 Khái niệm TAG đồng bộ

TAG đồng bộ là một biến thể của văn phạm TAG, được sử dụng để mô tả sự

tương ứng giữa các ngôn ngữ có cấu trúc cây kết hợp khả thi STAG có thể được sử

dụng để liên kết các cây sơ cấp của hai ngôn ngữ khác nhau nhằm mục đích chuyển

đổi về cấu trúc từ ngôn ngữ nguồn sang ngôn ngữ đích (và có thể ngược lại) trong

các mô hình dịch máy [18], hoặc nó cũng có thể được sử dụng để liên kết một cây

cú pháp TAG với một cây ngữ nghĩa TAG cho cùng một ngôn ngữ [18] nhằm mục

đích phát sinh hoặc phân tích ngữ nghĩa Ở đây chúng em chỉ muốn đề cập đến khả

năng chuyển đổi cấu trúc của STAG

2.3.2.2 Cơ chế chuyển đổi cấu trúc của TAG đồng bộ

Giả sử chúng ta đang xét sự chuyển đổi đồng bộ giữa cấu trúc tiếng Anh và

cấu trúc tiếng Pháp Tạm gọi tiếng Anh là ngôn ngữ nguồn và tiếng Pháp là ngôn

ngữ đích (mặc dù với cách tiếp cận này có thể thực hiện được việc chuyển đổi ở cả

hai chiều) Xét câu tiếng Anh “Apparently, John misses Mary” 4 Đầu tiên, câu ở

ngôn ngữ nguồn sẽ được phân tích cú pháp dựa trên văn phạm của ngôn ngữ nguồn

(ở đây là tiếng Anh) Mỗi cây sơ cấp trong cây dẫn xuất nguồn sau đó được ánh xạ

4 “Bỗng nhiên John nhớ Mary”

đến một cây sơ cấp tương ứng bằng cách tra trong tự điển các cây chuyển đổi Câu đích sẽ được xác định từ cây dẫn xuất đích vừa được tạo ra

Hình 7 minh hoạ một số mẫu cây sơ cấp trong tự điển chuyển đổi cây

Tự điển cây chuyển đổi chứa những cặp cây tương ứng đôi một giữa ngôn ngữ nguồn và ngôn ngữ đích Mỗi cây là một phân mảnh của các cấu trúc trong một ngôn ngữ cụ thể (nên được gọi là cây sơ cấp) Giữa một cặp cây sơ cấp, các nút trên cây có thể được liên kết với nhau quy định trật tự đúng của chúng trong ngôn ngữ còn lại

Hình 13: Một số mẫu cây sơ cấp trong tự điển chuyển

đổi cây Anh-Pháp

S Adv S*

apparently apparement

S Adv S*

NP John

NP John

NP Mary

NP Mary

(δ)

(ψ)

Trang 26

Chúng ta bắt đầu đi từ cặp cây ψ Trên cặp cây này ta thấy có 3 mối liên kết

được thể hiện các bằng đường nối không liền nét Xét mối liên kết giữa thành tố

không kết thúc NP 0 (cây tiếng Anh) NP 1↓ (cây tiếng Pháp), ta sử dụng cặp cây α

để tiến hành tác tố thay thế (theo trật tự từ tiếng Anh thì John sẽ được liên kết đầu

tiên) Sau khi liên kết cặp α vào cặp cây gốc ψ, chúng ta được cây dẫn xuất α1

Bước tiếp theo, cặp cây β sẽ được nhúng vào α1 để tạo nên cây dẫn xuất α2

NP

John

NP John

1)

Kết quả của cây dẫn xuất α2 cho phép chúng ta dịch câu tiếng Anh

“Apparently, John missed Mary” sang câu tiếng Pháp tương ứng là “Apparement, Mary manque à John”

2.3.3 Nhận xét

2.3.3.1 Ưu điểm

™ TAG là một mô hình văn phạm mạnh mẽ, được sử dụng để làm nền tảng cho STAG

™ Các cặp cây sử dụng trong STAG giàu thông tin và đảm bảo tính đúng đắn

về mặt ngôn ngữ học (được các chuyên gia ngôn ngữ học xây dựng)

™ Không xảy ra mâu thuẫn trong quá trình chuyển đổi cây cú pháp

™ STAG giải quyết tốt các cấu trúc chìm của câu trong hai ngôn ngữ thông qua các mối liên kết

NP John

NP John Mary

Mary

Trang 27

2.3.3.2 Khuyết điểm

™ Hai từ điển cây sơ cấp của cả hai ngôn ngữ phải sẵn có, từ đó mới có thể sử

dụng các phương pháp máy học để rút ra các luật tạo các liên kết giữa các

cây sơ cấp

™ Việc xây dựng tự điển cây sơ cấp của các ngôn ngữ là một vấn đề lớn và

phải được thực hiện bởi các nhà ngôn ngữ học Thời gian và công sức để

xây dựng các tự điển này là rất lớn và không phải ngôn ngữ nào cũng sẵn

có để có thể sử dụng

2.4 Cách tiếp cận phân tích ngữ pháp song song

2.4.1 Ngữ pháp chuyển dịch đảo có thống kê (SITG)

Ngữ pháp chuyển dịch đảo là ngữ pháp được dùng để mô tả một cặp ngôn ngữ

có quan hệ tương quan về cấu trúc Đặc điểm hữu ích nhất của loại ngữ pháp này ở

tính chất sinh chuyển đổi, có nghĩa là sẽ có hai dòng kết xuất tương ứng với hai

ngôn ngữ

Văn phạm chuyển dịch đảo đơn giản là một trường hợp giới hạn của ngữ pháp

chuyển dịch đảo có tính chất hướng cú pháp và phi ngữ cảnh Ở đây, ta chỉ quan

tâm đến tính phi ngữ cảnh, trái với tính chất trạng thái hữu hạn (finite-state) vì mục

đích chủ yếu là tìm ra một mô hình có thể áp dụng cho nhiều ngôn ngữ, không

hướng đến tri thức về cấu trúc của bất kỳ một ngôn ngữ nào

Tuy nhiên , ngữ pháp chuyển dịch đơn giản không hoàn hảo, bởi vì nó đòi hỏi

hai ngôn ngữ phải có cấu trúc ngữ pháp giống hệt nhau, điều này hầu như không

xảy ra trong thực tế Mô hình ngữ pháp chuyển dịch đảo (ITG - Inversion

Transduction Grammars) là một mở rộng của ngữ pháp chuyển dịch đơn giản; nó

tăng khả năng sinh của luật Kết quả của ngữ pháp chuyển dịch đảo cũng giống như

trong ngữ pháp chuyển dịch đơn giản, chỉ khác ở chỗ trật tự từ có thể được tính theo

một trong hai hướng, không nhất thiết chỉ một hướng từ trái sang phải Toán tử [ ]

cho trật tự kết hợp bình thường ở cả hai chuỗi xuất, khi đó [AB] sinh ra cặp chuỗi

(C1,C2) với C1 = A1B1và C2 = A2B2 Còn toán tử 〈 〉 kết hợp các thành phần trong chuỗi xuất 1 theo trật tự bình thường, và đảo trật tự các thành phần trong chuỗi xuất

2, khi đó C1 = A1B1 nhưng C2 = B2A2

Văn phạm chuyển dịch đảo được biểu thị bởi G=(N,W1,W2,R,S), trong đó N là tập hợp hữu hạn các thành tố không kết thúc, W 1 là tập hợp hữu hạn các từ vựng của

ngôn ngữ 1, W2 là tập hợp hữu hạn các từ vựng của ngôn ngữ 2, không gian các cặp

từ X=(W1∪{ε})×(W2∪{ε}) chứa những cặp dịch tự điển x/y và những từ đơn độc x/ε

hay y/ε, trong đó x∈W 1 và y∈W 2 Kết quả có trật tự bình thường được viết ở dạng

A →[a 1 a 2 … a r ], và nếu có trật tự đảo ngược được viết dạng A→〈a 1 a 2 … a r 〉 với a i

∈N∪X và r là bậc của kết quả Tập hợp những chuyển đổi được sinh ra bởi G được

ký hiệu là T(G) Tập hợp các chuỗi được sinh ra bởi G trong ngôn ngữ thứ nhất và thứ hai được ký hiệu tương ứng là L1(G) và L2(G)

Văn phạm chuyển dịch đảo có thống kê (SITG) gắn mỗi luật ngữ pháp với một

xác suất Theo qui định chuẩn, a và b được dùng để ký hiệu xác suất cho các luật cú

pháp và từ vựng tương ứng Ví dụ, xác suất của luật NN

4 0

→x/y là b A( )x,y =0.001 W1, W2 là kích thước từ

vựng của 2 ngôn ngữ, và N={A1, ,AN} là tập hợp các thành tố không kết thúc với

chỉ số 1, … , N Với mọi i , 1≤iN, xác suất sử dụng phải thoả điều kiện :

w

y w x i jk i jk

i a b x y a

, 1

1 ]

[

2

1,

Trang 28

Hình 14: Cây phân tích ngữ pháp chuyển dịch đảo Các

mũi tên chỉ ra hai thành phần chuyển đổi trật tự cho nhau 5

Ví dụ như cây phân tích ngữ pháp chuyển dịch đảo như trong hình 8 xác định

cặp câu Anh - Việt tương ứng là:

(E) The young boy very quickly catchs his ball

(V) Cậu con trai trẻ bắt quả banh của cậu ấy rất nhanh

Biểu diễn dưới dạng ngoặc:

[[The <young/trẻ boy/cậu con trai>NP]NP <[very/rất quickly/nhanh]AVP

[catch/bắt <his/cậu ấy ball/quả banh>NP]VP>VP]SP ./•]S

2.4.2 Thuật toán phân tích cú pháp song song với SITG

Thuật toán này sẽ tính toán để chọn ra một cách phân tích cú pháp tốt nhất cho

một cặp câu, sử dụng phương pháp quy hoạch động Trong phân tích cú pháp song

ngữ, cũng như trong phân tích cú pháp đơn ngữ, tính xác suất cho ngữ pháp cho

young / trẻ boy / cậu con trai very / rất quickly / nhanh catchs / bắt

his / cậu ấy

phép giải quyết các nhập nhằng bằng cách chọn cách phân tích có khả năng cao nhất

Gọi câu tiếng Anh là e1,…,eX và câu đầu vào tương ứng là v1,…,vY Chuỗi các

từ es+1, es+2, ,et được viết tắt là es t và tương tự cho vu v; es s=ε là chuỗi rỗng Người

ta sử dụng một bộ 4 có dạng q=(s,t,u,v) để xác định các nút của cây phân tích ngữ

pháp, trong đó các chuỗi con es t và vu v đều có được từ nút q Ký hiệu nhãn không

kết thúc trên q bằng l(q) Khi đó, với mỗi nút q=(s,t,u,v), có định nghĩa sau:

[max)

i

q of subtrees stuv

q =δ =

δ subtrees of q, l(q)= i i,⇒∗ es t / v u v]

là xác suất lớn nhất của bất kỳ kết quả sinh từ bước i được phân tích cú pháp thành

công ở es t và vu v Cách phân tích cú pháp tốt nhất của một cặp câu sẽ có xác suất

làδ0X,0,Y(S) Thuật toán tính δ0X,0,Y(S) sử dụng phép truy hồi sau đây, trong đó điều kiện (S-s)(t-S) + (U-u)(v-U)≠0 , điều kiện này xác định rằng chuỗi con trong một ngôn ngữ có thể chia thành một chuỗi rỗng ε và chính nó hay không; đây là điểm dừng

cho đệ qui, nhưng vẫn cho phép các từ không được liên kết trong ngôn ngữ còn lại được ánh xạ đến ε

Bước 1: Khởi tạo

i v v t

1

1 (1)

1

0 (3)

01

v u s t

Y v u X t s N i

Trang 29

(),

]

i i khi

i i khi

i

stuv stuv

stuv stuv

stuv δ δ

δδ

θ

Trong đó:

)()(max

0 ) )(

)

0 ) )(

U v

Bước 3: Xây dựng lại

Khởi tạo cây cú pháp rỗng chỉ có một nút gốc là q1=(0,X,0,Y) với nhãn không

kết thúc và l(q1)=S Các nút con của cây cú pháp tối ưu q=(s,t,u,v) được lấy đệ qui:

2,

))(

2],

[))(

2

khikhikhi

))),()),(

,

(

)))(,)),(

,

(

NIL)

>

−+

=

−+

q q

s

q u q

s

q

q q q

q

q q

l

ll

l

ll

θ

θυ

σ

υσ

2,

))(

2],

[))(

2

khikhikhi

)))(,,)),(

(

))),(,)),(

(

NIL)

(

>

−+

=

−+

u t q

v q t q

q

q q q

q

q q

l

ll

l

ll

θ

θυ

σ

υσ

))())

Độ phức tạp của thuật toán này trong trường hợp tổng quát là Θ(N3X3Y3),

trong đó N là số lượng nhãn không kết thúc phân biệt và X và Y là chiều dài của 2

câu tiếng Anh và tiếng Việt tính bằng đơn vị từ

2.4.3 Đánh nhãn cấu trúc

Đánh nhãn cấu trúc (bracket) là một hình thức đánh dấu ngữ liệu trung gian, hữu ích trong trường hợp không có sẵn cách phân tích cú pháp như tiếng Việt Những thuật toán đánh nhãn cấu trúc tự động trước đây thực hiện trên văn bản đơn ngữ và do đó đòi hỏi nhiều luật ngữ pháp hơn

Dựa trên SITG và sử dụng sự tương ứng từ vựng giữa những câu song song có thể rút ra thông tin dùng để đánh cấu trúc từng phần ở cả hai câu Văn phạm chuyển dịch được sử dụng chỉ chứa một ký hiệu thành tố không kết thúc duy nhất A, được viết lại theo kiểu đệ qui dưới dạng một cặp A hay một cặp thành tố kết thúc :

A→a [ ]A, A→a A

A→b ij u i /v với mọi cách dịch tự điển Anh – Việt i,j

Ab iε

u i /ε với mọi từ vựng tiếng Anh i

A→bεj ε /vj với mọi từ vựng tiếng Việt j Phân phối b ij thực sự mã hoá từ điển dịch với các độ xác suất trên mỗi cặp dịch có thể Bộ phân tích cú pháp sẽ chọn cây phân tích cú pháp đáp ứng tốt nhất

những cách dịch từ điển đã được kết hợp, thể hiện bởi xác suất bij

2.4.4 Chuyển đổi cây cú pháp song song cho cả hai ngôn ngữ

2.4.4.1 Quan hệ giữa phân tích cú pháp đơn ngữ và vấn đề chuyển đổi cây cú pháp

Lưu ý rằng cây cú pháp tiếng Anh đã xác định điểm chia S để ngắt e0 X thành

2 cây con thành phần e0 S và eS X tương ứng, cùng với nhãn thành tố không kết thúc

j và k cho mỗi cây Áp dụng đệ qui cho mỗi cây con Chuyển S, j và k thành những

Trang 30

hàm quyết định trong thành phần cấu tạo tiếng Anh, viết là S st,j stk st biểu diễn

cho điểm chia và nhãn của cây con cho những thành phần es t Thuật toán có thể

được đơn giản hoá thành thuật toán phân tích cú pháp sau :

(

))()))(,,

(

)

(

q if v q v S

s

q if q v u S

s

q

LEFT

q q

st

q q

st

ll

ll

θθ

))())),(,(

)

q if q v t S

q if v q v t S

q

RIGHT

q q

st

q q

st

ll

ll

θθ

™ Đầu vào của thuật toán SITG chỉ đơn giản là ngữ liệu song ngữ (không cần

đánh nhãn liên kết cũng như nhãn chuyển đổi)

™ Uyển chuyển trong việc biểu diễn mọi cấu trúc chuyển đổi trật tự đối với mọi cặp ngôn ngữ

™ SITG có nền tảng lý thuyết chặt chẽ, đảm bảo tính đúng đắn và mạnh mẽ

2.4.5.2 Khuyết điểm

™ Chất lượng của kết quả chuyển đổi cấu trúc không cao qua thực nghiệm Mặc dù ngữ liệu học không cần được gán nhãn bởi con người (là một ưu điểm lớn) thì cách tiếp cận này lại có chất lượng không đáp ứng được yêu cầu về mặt chất lượng chuyển đổi [14]

2.5 Cách tiếp cận dựa trên cấu trúc vị từ - đối số

Cách tiếp cận này dựa trên các nguyên tắc để thực hiện việc ánh xạ các các trúc nhất định từ ngôn ngữ nguồn sang ngôn ngữ đích Các nguyên tắc này được thể hiện thông qua các cấu trúc vị từ - đối số được xây dựng dựa trên các quy luật về trật tự các thành phần trong câu [11] Cấu trúc vị từ đối số sẽ đưa động từ (chính) làm trung tâm để từ đó hình thành câu hoàn chỉnh bằng cách đưa các thành phần trong câu của ngôn ngữ nguồn vào đúng vị trí của nó trong câu ở ngôn ngữ đích

2.5.1 Rút trích các cấu trúc vị từ - đối số

Theo cách tiếp cận này, giai đoạn phân tích sẽ đóng vai trò quan trọng trong

việc xác định cấu trúc vị từ - đối số của câu Xác suất P(PAs|Cs, Ws) được sử dụng

để mô tả khả năng cấu trúc phù hợp với các thành phần của câu đã tồn tại Tuy nhiên với cách tiếp cận dựa trên cấu trúc vị từ - đối số đơn giản, xác suất này được thể hiện trong các luật cấu trúc cụ thể Các cấu trúc được xác định ở bước phân tích dựa trên chuỗi các ngữ và thông tin về từ trong câu Hướng tiếp cận dựa trên cấu trúc vị từ - đối số được hai tác giả K.H.Chen và H.H.Chen đựa vào mô hình hệ dịch dựa trên phương pháp lai của mình năm 1996 Trong công trình này hai ông đã đưa

ra hai mươi ba cấu trúc chính của tiếng Hoa như sau:

Trang 31

Dạng Cấu trúc vị từ - đối số Dạng Cấu trúc vị từ - đối số

Cna Complex-trans verb+noun+adj Tf Transitive verb + finite

that-clause Cnn/a Complex-trans

Tw Transitive verb + wh-clause

Dprt Double-trans verb+prep.+

to-infinitive

Vn Verb + noun

Dprw Double-trans verb+prep.+

wh-clause

Vng Verb + noun + -ing form

I Intransitive verb Vni Verb + noun + infinitive

Ip Intransitive verb + particle Vnt Verb + noun + to-infinitive

Ipr Intransitive verb + prep Vnn Verb + noun + noun

La Linking verb + adj Vnpr Verb + noun + prep

Bảng 3: Danh sách 23 cấu trúc vị từ - đối số trong tiếng Hoa

Khi một cấu trúc vị từ - đối số được chuyển thành công thức thì vấn đề di

chuyển của các thành phần trong cấu trúc cần được quan tâm Hai luật sau quy định

quá trình công thức hoá:

™ Nếu là câu bị động, cấu trúc vị từ - đối số của một động từ được thêm một

đối số Ví dụ động từ “eaten” trong câu “An apple is eaten by Mary” ⇒

eaten(Mary, apple)

™ Cấu trúc vị từ - đối số của một động từ trong một mệnh đề quan hệ có đại

từ quan hệ đóng vai trò làm bổ ngữ sẽ được thêm vào một đối số Ví dụ động từ “meet” trong câu “The man whom you met is my brother” ⇒ meet(you, man)

2.5.2 Khối chuyển đổi cấu trúc

Dựa trên kết quả rút trích các cấu trúc vị từ - đối số từ bước phân tích, bộ phận chuyển đổi cấu trúc cần tiến hành quá trình sắp xếp lại trật tự của các ngữ (đã được công thức hoá thành các vị từ với các đối số của nó) Việc tái tạo câu đích có trật tự đúng với ngôn ngữ đích được thực hiện qua hai bước Bước thứ nhất sẽ xây dựng

“khung” của câu, tức là trật tự đúng của các thành phần tổng quát trong câu và bước thứ hai sẽ sắp xếp lại trật tự bên trong của các thành phần này

2.5.2.1 Chuyển đổi khung câu

Giai đoạn chuyển đổi khung câu tập trung trên mối quan hệ giữa vị từ và đối

số của nó Cấu trúc vị từ - đối số hình thành nên khung của toàn bộ câu còn các thành phần khác sẽ đóng vai trò là các thành phần bổ nghĩa Trong ví dụ bên dưới, động từ “gave” là một động từ có hai bổ ngữ (một trự tiếp và một gián tiếp) chính vì vậy sẽ có hai đối số: một đối thực hiện hành động và một đối nhận hành động (E) I gave a book to Mary

(V) Tôi đưa cho Mary một cuốn sách6

Trong ví dụ trên, cấu trúc vị từ - đối số được hình thành bởi “gave”, “I”,

“Mary” và “book” Trong đó “gave” là vị từ ⇒ gave(I,Mary,book) “I” đóng vai trò ngoại đối còn hai đối số “Mary” và “book” đóng vai trò nội đối Trật tự từ trong

các cấu trúc vị từ - đối số được chuyển đổi trong giai đoạn tổng hợp

6 Ví dụ cho cặp câu Anh Việt được đưa ra nhằm minh hoạ cho cách tiếp cận chuyển đổi cấu trúc của hai tác giả Chen và Chen (1996) cho hệ dịch Anh-Hoa

Trang 32

Hình 15: Chuyển đổi khung giữa các ngôn ngữ

Trong cách tiếp cận này, một tập hợp các luật sẽ chịu trách nhiệm cho việc

chuyển đổi các cấu trúc vị từ - đối số giữa các ngôn ngữ

2.5.2.2 Tổng hợp

Giai đoạn tổng hợp theo hướng tiếp cận dựa trên mô hình lai sẽ có nhiệm vụ

tổng hợp ra câu hoàn chỉnh ở ngôn ngữ đích Như vậy, thực chất việc giải quyết trật

tự từ trong các thành phần của câu sẽ được thực hiện trong quá trình sản sinh ra câu

đích Tuy nhiên do rất nhiều giai đoạn khác nhau đã được thực hiện trước khi tới

giai đoạn tổng hợp nên giai đoạn tổng hợp tập trung chủ yếu trên việc sắp xếp lại

trật tự từ trong câu đích Có thể sử dụng nhiều cách tiếp cận khác nhau để tiến hành

giai đoạn này Chen và Chen (1996) đã sử dụng mô hình Makov học luật chuyển

đổi

)

|()(

)

|()

|(

)

|(),

|(),

|()

|(

) 1 ) 1 1 ) 1

) 1 ) 1 ) ) 1

) 1 (

)

)

j R j R l j i R m

i

i R l R m i i R i R m

i

m R

Wt Wt P O Wt

P

a

Ct Wt P a Ct Wt

P

a

Ct Wt P R Ct Wt P PAt Ct Wt P IFt Wt

P

i R

i R

a book ARG 1

Tôi ARG 0

đưa cho PREDICATE

Mary ARG 2

một cuốn sáchARG 1

Trong đó, R biểu diễn các luật chuyển đổi khung được lựa chọn hoặc là các luật kết gán trạng ngữ (Pre Phrase – PP) Vì vậy R đóng chức năng như hàm

chuyển đổi trật tự từ ánh xạ từ không gian có m từ ở ngôn ngữ nguồn sang một không gian có m từ tương ứng ở ngôn ngữ đích với trật tự phù hợp với ngôn ngữ

nguồn và ngôn ngữ đích lR(i) biểu diễn số các từ trong ngữ ngôn ngữ của ngôn ngữ nguồn C R(i) Khuyết điểm của mô hình Mokov là không đủ khả năng để chuyển đổi cho những ngữ dài Tuy nhiên điều này ít khi xảy ra vì trong giai đoạn tiền xử lý các ngữ đã được xử lý để có những ngữ phù hợp với mô hình

2.5.3 Nhận xét

Cách tiếp cận sử dụng cấu trúc vị từ - đối số là một cách tiếp cận cho phép chuyển đổi cấu trúc từ câu ở ngôn ngữ nguồn sang câu ở ngôn ngữ đích mà không phụ thuộc vào ngôn ngữ nguồn Đây là một lợi thế khá lớn so với các cách tiếp cận khác Một khi việc phân tích câu nguồn tốt, đảm bảo xác định chính xác các thành phần nòng cốt trong câu thì cách tiếp cận này có thể cho chất lượng chuyển đổi khá tốt Các luật chuyển đổi khung câu sẽ đảm bảo các thành phần trong câu nguồn sẽ được sắp xếp theo đúng ngữ pháp của ngôn ngữ đích Nếu động từ chính của câu có đầy đủ các đối số thì việc quan trọng là đặt các đối số này vào đúng chỗ của nó xung quanh động từ chính Tuy nhiên cách tiếp cận này cũng có những mặt hạn chế, việc đảm bảo xác định đúng các thành phần trong câu nguồn là điều không dễ Để xác định được chính xác các thành phần này cần có một quá trình phân tích cú pháp

và quan hệ hoàn chỉnh dựa trên các đặc trưng ở cả hai ngôn ngữ nguồn và đích để phục vụ cho quá trình tổng hợp câu đích được thực hiện hiệu quả từ những gì rút trích được từ câu của ngôn ngữ nguồn Các cấu trúc vị từ - đối số cần được các nhà ngôn ngữ học đưa ra một cách chính xác và có chọn lọc để đảm bảo bao quát hết mọi cấu trúc của ngôn ngữ đích Việc giải quyết trật tự từ trong các thành phần tổng quát sau khi chuyển đổi khung là một chiến lược có ý nghĩa làm tăng chất lượng chuyển đổi nhờ giảm thiểu rủi ro trong việc chuyển đổi trên toàn bộ câu

Trang 33

2.6 Tổng kết chương

Có thể thấy, để giải quyết vấn đề chuyển đổi cấu trúc trong các hệ dịch, người

ta có thể sử dụng nhiều cách tiếp cận khác nhau Chọn cách giải quyết nào còn tùy

thuộc vào nhiều yếu tố như: mô hình chung của hệ dịch, những tài nguyên sẵn có

(từ điển, công cụ phân tích), … Đồng thời sự khác biệt giữa hai ngôn ngữ cũng là

một yếu tố hàng đầu cần quan tâm để tận dụng tối đa những lợi thế ngôn ngữ học có

sẵn Tiếng Anh là ngôn ngữ biến hình (inflection) còn tiếng Việt là ngôn ngữ đơn

lập (isolation) Hai ngôn ngữ này thuộc hai loại hình (typology) ngôn ngữ khác

nhau, do đó có nhiều điểm khác biệt về mặt cấu trúc Tuy nhiên, chúng vẫn có

những điểm giống nhau, chẳng hạn như có cùng trật tự S-V-O (Chủ ngữ, động từ,

túc từ),

Do đó, chúng em xây dựng mô hình học chuyển đổi cấu trúc Anh-Việt kết hợp

giữa cách tiếp cận dựa trên luật với phương pháp máy học dựa trên sự chuyển đổi

trạng thái nhanh (FnTBL - cải tiến của phương pháp máy học dựa trên sự chuyển

đổi trạng thái TBL) để giải quyết bài toán chuyển đổi cây cú pháp Phương pháp

này có khả năng học luật chuyển đổi từ ngữ liệu song ngữ để đưa cấu trúc câu tiếng

Anh về trạng thái gần nhất với cấu trúc câu tiếng Việt, vừa đáp ứng được yêu cầu

phức tạp của bài toán, lại vừa tận dụng tốt sự tương tự giữa hai ngôn ngữ Ngữ liệu

huấn luyện có nguồn gốc từ ngữ liệu song ngữ Anh-Việt và đòi hỏi ít công sức

chuẩn bị hơn so với việc xây dựng bằng tay những từ điển chuyển đổi cấu trúc vô

cùng phức tạp như trong các cách tiếp cận dùng case-frame, STAG, …

Chương 3

MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP

Phần đầu tiên (3.1) của chương này giới thiệu phương pháp học hướng lỗi dựa trên sự chuyển trạng thái của Eric Brill (Transformation-Based Error-Driven Learning - TBL) Đây là cơ sở để Radu Floriance và Grace Ngai xây dựng thuật toán học nhanh (FnTBL - phần 3.2) cải tiến thuật toán ban đầu rất nhiều về mặt tốc

độ Phần 3.3 là mô hình áp dụng, mô hình học chuyển đổi cây cú pháp do chúng em

tự xây dựng dựa trên thuật toán học FnTBL áp dụng cho việc chuyển đổi cây cú pháp Các thuật toán liên quan cũng được trình bày trong phần này Phần cuối cùng (3.4) là một số kỹ thuật nhằm nâng cao tính mở rộng của chương trình

3.1 Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái (TBL)

Phương pháp học dựa trên sự chuyển trạng thái được Eric Brill đưa ra trong luận án tiến sĩ của ông năm 1993 [8] Từ đó đến nay TBL đã chứng tỏ được sức mạnh của nó trong nhiều bài toán liên quan đến học từ ngữ liệu, đặc biệt là những bài toán liên quan đến xử lý ngôn ngữ Từ ý tưởng ban đầu của Eric Brill và thuật toán TBL gốc, nhiều thuật toán cải tiến đã ra đời với những ưu điểm về mặt thời gian huấn luyện (tốc độ), bộ nhớ, và dạng luật như µ TBL, mTBL, k-bestTBL,…

Và gần đây là thuật toán TBL nhanh fnTBL

3.1.1 Ý tưởng

Chỉ cần cung cấp cho hệ thống học một ngữ liệu đã được gán nhãn chính xác

và dạng luật Hệ thống sẽ bỏ các nhãn chính xác đi, gán cho ngữ liệu bộ nhãn thô, sau đó tự động rút ra các luật chuyển đổi nhãn dần dần để ngữ liệu biến đổi đến

Trang 34

trạng thái có nhãn đúng như ban đầu Các luật chi tiết hơn sẽ sửa sai cho những luật

tổng quát hơn gây ra

Trong bài giảng về TBL, Samuel đã ví quá trình này cũng giống như tô màu

một bức hình theo mẫu [10] Chẳng hạn như ta có hình mẫu cần tô như sau :

Quá trình tô diễn ra theo thứ tự:

3 Dùng cọ vừa tô màu xanh lên

toàn bộ phần nón

4 Tô màu vàng lên phần nơ

màu xám ở phần kẽ nơ

3.1.2 Thuật toán học TBL của Eric Brill

Phần này sẽ giới thiệu tổng quan về phương pháp học hướng lỗi dựa trên sự chuyển trạng thái TBL Trước hết để giải một bài toán bằng phương pháp này, chúng ta cần quy bài toán về dạng bài toán gán nhãn Ý tưởng của cách tiếp cận là: học từ ngữ liệu một bộ luật có thứ tự Một luật khi áp dụng lên một thực thể sẽ làm thay đổi nhãn của nó làm cho thực thể chuyển từ trạng thái cũ sang trạng thái mới

Và sau khi áp dụng toàn bộ các luật trong bộ luật lên một thực thể, thì thực thể đó sẽ

có trạng thái gần với trạng thái đúng nhất

Phương pháp học dựa trên sự chuyển trạng thái là một phương pháp học có giám sát Trước khi đi vào quá trình học của TBL, có một số thuật ngữ mà chúng ta cần hiểu rõ:

- Các khung luật chuyển đổi: thể hiện tất cả các dạng chuyển đổi trạng thái nhãn có thể có Khung luật là sự tổng quát hoá các luật Mỗi khung luật

có 2 phần Phần đầu là các vị từ có ý nghĩa do ta qui định, phần sau là hành động thay đổi nhãn (trạng thái) Vị từ chứa các biến, chúng có giá trị sẽ được xác định trong quá trình học

Ví dụ : Khung luật

Nếu nhãn trước là Z thì chuyển đổi nhãn từ X thành Y

• X, Y, Z là các biến

• Nhãn trước là Z là một vị từ chứa biến Z

• Chuyển đổi nhãn từ X thành Y là hành động thay đổi trạng thái

Trang 35

Khi tất cả các biến trong khung luật đã nhận giá trị thực thì ta có một luật

cụ thể Số lượng khung luật thường nhỏ Tuy nhiên, phải đảm bảo có

khung luật “rộng” (ít điều kiện), có khung luật “hẹp” (điều kiện áp dụng

chặt hơn) để có thể rút ra được các luật có độ mịn khác nhau, luật “rộng”

có thể sửa được nhiều lỗi và luật “hẹp” có thể sửa các lỗi gây ra bởi việc

áp dụng luật “rộng”

™ Đầu ra

- Danh sách luật có thứ tự

Quá trình học diễn ra như sau :

- Bước 0: Ngữ liệu chưa gán nhãn được đưa vào hệ thống

- Bước 1: Hệ thống sử dụng tri thức về trạng thái khởi đầu đã có sẵn để gán

nhãn cho ngữ liệu luyện Trạng thái ban đầu này có thể rất đơn giản,

chẳng hạn như gán nhãn ngẫu nhiên, nhưng cũng có thể rất kỳ công như

được con người gán nhãn bằng tay

- Bước 2: Ngữ liệu huấn luyện sẽ được so sánh nhãn với ngữ liệu vàng Từ

những sai khác giữa ngữ liệu huấn luyện và ngữ liệu vàng mà ta có thể

gọi là lỗi, hệ thống sẽ tự động rút ra luật sửa lỗi có dạng thức theo các

khung luật đã được cung cấp Đồng thời, tính điểm cho các luật được rút

ra

Điểm luật = số lỗi của ngữ liệu hiện hành được sửa bởi luật - số lỗi

gây ra bởi áp dụng luật lên trạng thái ngữ liệu hiện hành

- Bước 3: Chọn luật có điểm cao nhất và so sánh điểm với ngưỡng

o Nếu (điểm cao nhất > ngưỡng) thì thực hiện bước 4

o Ngược lại, (điểm cao nhất <= ngưỡng), dừng quá trình học

- Bước 4: Đưa luật có điểm cao nhất vào tập luật Áp dụng luật vừa chọn

được lên ngữ liệu huấn luyện Lặp lại bước 2

Hình 16: Sơ đồ phương pháp học TBL tổng quát

3.1.3 Nhận xét

3.1.3.1 Ưu điểm

™ Bộ học dựa trên sự chuyển trạng thái có tính dễ mở rộng cao Chúng ta có thể thêm khung luật chuyển đổi nếu nhận thấy bộ học cần rút ra luật theo một dạng luật mới Nếu một khung luật không hữu dụng thì không có luật nào được rút ra theo khung luật đó, vì thế khung luật thừa cũng không làm chất lượng học bị giảm mà chỉ có thể làm tăng thời gian học

™ Bộ học dựa trên sự chuyển trạng thái có thể được sử dụng như một bộ phận hậu xử lý cho kết quả gán nhãn bởi con người hoặc một bộ gán nhãn tự động khác Điều này được thực hiện rất đơn giản bằng cách sử dụng kết quả gán nhãn từ nguồn khác làm kết quả của bộ gán nhãn cơ sở Thay vì sử dụng một cách gán nhãn cơ sở đơn giản, ta có thể sử dụng một cách gán nhãn phức tạp hơn và nhiệm vụ của bộ học lúc này chỉ là rút ra những luật sửa sai làm hoàn chỉnh thêm kết xuất

Ngữ liệu được gán nhãn

Bộ gán nhãn cơ sở

Bộ học (rút luật, đánh giá và chọn luật)

Bộ luật

Ngữ liệu huấn luyện chưa có nhãn

Trang 36

™ Tri thức ngôn ngữ và tri thức riêng của ngữ liệu không được lập trình

“cứng” trong mã nguồn, do đó bộ học có tính uyển chuyển cao Tri thức

được học ra dưới dạng luật theo khung luật dưới dạng ký hiệu, do đó rất dễ

hiểu đối với các chuyên gia về ngôn ngữ

™ Một khi có danh sách luật chuyển đổi, khi áp dụng lên một thực thể mới,

những việc cần làm chỉ đơn giản là đưa thực thể đó qua bộ gán nhãn cơ sở

rồi áp dụng từng luật theo thứ tự lên thực thể đó Ở bước áp dụng, không

có sự lựa chọn luật, thời gian gán nhãn dựa trên sự chuyển trạng thái tỉ lệ

tuyến tính với chiều dài của thực thể đầu vào

3.1.3.2 Nhược điểm

™ Thời gian huấn luyện khá lâu đối với khối lượng ngữ liệu lớn

™ Các luật rút ra có thể là luật tối ưu cục bộ, do đó có thể làm giảm kết quả

thực thi tổng thể Tuy nhiên những luật như thế không nhiều, rất dễ phát

hiện và được loại bỏ khỏi tập luật

3.2 Thuật toán học nhanh FnTBL

Mặc dù TBL là thuật toán học rất hiệu quả trong các ứng dụng về xử lý ngôn

ngữ, nhưng đặc điểm chung của các ứng dụng này là khối lượng ngữ liệu học rất

lớn Nếu dùng thuật toán TBL chuẩn như trình bày ở phần trên thì thời gian huấn

luyện rất lâu Chẳng hạn như một bộ đánh nhãn từ loại sử dụng phương pháp

chuyển trạng thái được cài đặt rất tốt cũng cần tiêu tốn hơn 38 giờ để hoàn tất việc

huấn luyện trên ngữ liệu có 1 triệu từ Để khắc phục hạn chế về mặt tốc độ đó, dựa

trên thuật toán TBL chuẩn, Radu Florian và Grace Ngai đã xây dựng thuật toán học

FnTBL dựa trên ý tưởng về miền lân cận Để hiểu thuật toán FnTBL một cách rõ

ràng hơn, chúng em trình bày tóm tắt TBL dưới dạng hình thức hoá và sử dụng

dạng hình thức hoá này cho FnTBL

3.2.1 Hình thức hóa TBL

Có thể thấy ý tưởng chính của phương pháp học dựa trên sự chuyển trạng thái

là học ra được một danh sách luật có thứ tự Tập luật này có khả năng cải tiến dần dần trạng thái hiện tại của tập huấn luyện Trạng thái khởi đầu dựa trên những thống

kê đơn giản, sau đó các luật được học theo cách thức “tham lam” để sửa những lỗi sai Các luật dần được rút ra cho đến khi không thể cải thiện thêm được nữa Một số ký hiệu :

™ S : Không gian mẫu

™ R : tập hợp tất cả các luật

™ Nếu r=(p,t) , pr biểu diễn cho thành phần p và tr biểu diễn cho thành phần t trong luật r

Luật r=(p r ,t r ) áp dụng được lên mẫu s nếu như p s (s) = true và t rC[ ]s

Như đã trình bày trong phần 1, để sử dụng phương pháp học này, cần có:

™ Bộ gán nhãn cơ sở

™ Các khung luật có thể có

™ Hàm lượng giá f cho việc học Khác những thuật toán học khác, hàm lượng

giá cho TBL sẽ trực tiếp tối ưu hoá hàm đánh giá Một ví dụ điển hình của hàm lượng giá là f r)=good r)−bad r)

Trang 37

Những luật cho giá trị hàm lượng giá âm đồng nghĩa với luật đó làm cho ngữ

liệu chuyển sang trạng thái sai hơn trước, và đương nhiên sẽ bị loại bỏ Do đó

chúng ta chỉ quan tâm đến những luật có giá trị hàm lượng giá dương Như vậy, ta

có thể thay đổi cách tiếp cận của thuật toán như sau:

1 Sử dụng tập khung luật để tạo ra các luật có khả năng sửa ít nhất một lỗi

good(r) > 0, bằng cách xem xét các mẫu sai (Mẫu sai s là mẫu có

2 Tính giá trị bad(.) cho mỗi luật r thoả điều kiện good(r) > f(b), lưu luật b có

điểm cao nhất lại, và trong quá trình tính bad(r), ta tiếp tục tính cho luật

khác nếu như f r)<f b)

Do đó, hệ thống sẽ học ra một danh sách luật theo kiểm “tham lam” Khi

không còn luật nào có thể cải thiện được trạng thái hiện hành của tập huấn luyện,

hoặc khả năng cải thiện quá thấp (điểm nhỏ hơn ngưỡng đặt trước) thì ngừng quá

trình học Trong quá trình áp dụng, tập đánh giá sẽ được gán nhãn cơ sở bằng bộ

gán nhãn cơ sở Sau đó, từng luật trong tập luật được áp dụng theo thứ tự lên tập

đánh giá Khi tất cả luật đã được áp dụng, ta sẽ được trạng thái kết quả

3.2.2 Thuật toán FnTBL

3.2.2.1 Một số định nghĩa

Trong cách tiếp cận này, ở mỗi bước lặp chương trình không phát sinh lại toàn

bộ tập luật từ các khung luật và các sai khác giữa ngữ liệu huấn luyện và ngữ liệu

vàng Các luật sẽ được phát sinh một lần và được lưu trong bộ nhớ cùng với hai giá

Æ good(r) là số mẫu sau khi áp dụng luật r thì sẽ được chuyển từ trạng thái sai

sang trạng thái đúng, khi đó : good( )r =G( )r

Æ bad(r) là số mẫu sau khi áp dụng luật r thì sẽ được chuyển từ trạng thái

đúng sang trạng thái sai, khi đó : bad( )r =B( )r

Ở mỗi bước lặp, giá trị good(d) và bad(r) sẽ được cập nhật lại và chương trình chỉ phát sinh luật mới khi cần thiết Như vậy, khi áp dụng luật b (luật tốt nhất được chọn) lên tập ngữ liệu S, ta phải xác định được những luật nào làm ảnh hưởng đến

hai tập hợp G[ ]r , B[ ]r Nếu hai tập hợp này đều không bị ảnh hưởng bởi luật b thì

số điểm của nó không đổi, ta không cần cập nhật các giá trị good(.), bad(.)

Trong các ứng dụng xử lý ngôn ngữ tự nhiên, các mẫu trong tập mẫu thường không hoàn toàn độc lập với nhau Thay đổi nhãn của mẫu này sẽ làm ảnh hưởng đến việc xác định nhãn của một mẫu lân cận nó Từ đó, ta có khái niệm về lân cận của một mẫu:

2 Định nghĩa: Lân cận của mẫu s V( )s là tập hợp các mẫu mà nhãn của mẫu

s có thể phụ thuộc vào

Có thể thấy

Æ s cũng thuộc lân cận của nó sV (s)

Æ Nếu các mẫu trong tập mẫu độc lập nhau thì V( ) { }s = s

Trang 38

sẽ xác định điều kiện của một luật thoả trường hợp (1) và (2) Trường hợp (3), (4)

tương tự

Ý tưởng cải tiến chính của thuật tốn là: khi xem xét ảnh hưởng của việc áp

dụng luật b lên mẫu s, ta chỉ cần kiểm tra những mẫu s' thuộc về tập lân cận của s

Cĩ thể bỏ qua những mẫu s' khơng thuộc về tập { }V( )s

s

bthay đổi

| ∪ vì s'=b( )s' Vì thế, cĩ thể sử dụng cơng thức này để “phát sinh” luật thỏa ít nhất một trong các cơng thức

từ (1)-(4) Chúng ta sẽ khai triển và khảo sát các cơng thức trên để được những điều

kiện cụ thể hơn mà cĩ thể sử dụng để “phát sinh” luật Nếu luật được “phát sinh” đã

tồn tại rồi thì cần cập nhật các giá trị good(.), bad(.) Nếu luật chưa cĩ trong tập

luật thì cần tạo và thêm luật đĩ vào tập luật, đồng thời tính good(.), bad(.) cho nĩ

Gọi s'∈V( )s là một mẫu trong vùng lân cận của mẫu s Cĩ 2 trường hợp xảy

ra: trường hợp b cĩ ảnh hưởng lên s' và trường hợp b khơng ảnh hưởng lên s':

1 Trường hợp 1 : C[ ]s'=C[ ]b( )s' (b khơng làm thay đổi nhãn của mẫu s')

r

r

r r r

r r

r

s b C s C s b T s T r

r r

r r

'

''

'''

'

''

'''

'

'

'

' ' ' '

sử dụng luật De Morgan và giả thiết

Cơng thức này cho chúng ta cách thức để phát sinh luật r bị ảnh hưởng bởi sự

thay đổi s'→b( )s' gồm các bước sau:

1 Tạo tất cả những vị từ p áp dụng được trên mẫu s'(sử dụng các khung vị từ

trong khung luật)

2 Nếu C[ ] [ ]s'≠T s' thì

a Nếu ( )b[ ]s' =false thì Giảm good( )r , r là luật đã được tạo ra cĩ vị từ p và đích là T[ ]s'

3 Ngược lại

a Nếu ( )b[ ]s' =false thì Giảm bad( )r cho mọi luật r cĩ vị từ là p và t rC[ ]s'

Thuật tốn phát sinh những luật r cần tăng good( )r trong cơng thức (4) cĩ thể được suy ra từ cơng thức (1), và trường hợp tăng bad( )r trong cơng thức (3) được suy ra từ cơng thức (2) Điều này được thực hiện dễ dàng bằng cách chuyển trạng thái của s' và b( )s' (truefalse) Trường hợp (3), khi s'→b( )s', ta phải phát sinh mới tất cả những luật cĩ thể cĩ

2 Trường hợp 2 C[ ]s'≠C[ ]b( )s' (b thay đổi nhãn của mẫu s') Trong trường hợp này, cơng thức (5) trở thành:

'''

'''

' '

s b C t false s b p s T t t s C true s p

s b T t t s b C false s b p s T t t s C true s p

r G s b r G s

r r

r r r

s b T s T r

r r

r r r

Tuy nhiên, trong trường hợp (2) thì đơn giản hơn Từ điều kiện C[ ]s'≠C[ ]b( )s'

sB( )r , cĩ thể suy ra b( ) ( )s'∉B r ; thật ra, điều kiện cần thiết để mẫu s' thuộc về tập B( )rs' được gán nhãn phân loại chính xác C[ ] [ ]s'=T s' Do T[ ]s'≠C[ ]b( )s' , kéo theo C[ ] [ ]b( )s' ≠T s', và do đĩ b( ) ( )s'∉B r Khi đĩ, điều kiện (4) tương đương với

Trang 39

3.2.2.3 Thuật toán

Đối với mỗi mẫu s thoả điều kiện C[ ] [ ]sT s

Phát sinh tất cả các luật r sửa sai cho s, tăng good (r)

Đối với mỗi mẫu s thoả điều kiện C[ ] [ ]s=T s

Phát sinh tất cả các vị từ p sao cho p( )s =true ; đối với mỗi luật r có

p

p r= và t rC[ ]s, tăng bad (r)

1: Tìm luật b=argmaxrR f( )r

Nếu (f( )b < Ngưỡng) thì Thoát

Đối với mỗi vị từ p,

vị từ p và đích T[ ]s' } Ngược lại

Nếu (b( )s')=false thì { Với tất cả các luật rR( )pt rC[ ]s', giảm bad (r)} Đối với mỗi vị từ p sao cho (b( )s')=true

Nếu (b( )s')=false thì { tăng good (r), với r=[p , s T[ ]'] } Ngược lại

Nếu (b( )s')=false thì { Với tất cả các luật rR( )pt rC[ ]s', tăng bad (r)} Ngược lại

Đối với mỗi vị từ p sao cho p( )s' =true

Nếu (b( )s')=falseC[ ]b( )s' =t r thì { giảm good (r), với r=[p , s T[ ]'] } Ngược lại

{ Với mỗi luật rR( )pt rC[ ]s', giảm bad (r) }

Đối với mỗi vị từ p sao cho (b( )s')=true

Nếu p( )s'=falseC[ ]s'=t r thì { tăng good (r), với r=[p , s T[ ]'] }

Ngược lại Với mỗi luật rR( )pt rC[ ]b( )s' , tăng bad (r)Lặp lại từ bước 1:

3.3 Mô hình chuyển đổi cây cú pháp sử dụng thuật toán FnTBL

Đầu vào của chương trình chuyển đổi cây cú pháp là câu tiếng Anh đã được phân tích cú pháp theo dạng cây cú pháp (hình 17) Chương trình chuyển đổi cây cú pháp thực hiện việc chuyển vị trí, chèn, xoá các thành phần trong cây cú pháp Và sau khi các từ tiếng Anh được gán ngữ nghĩa, ta sẽ có được câu tiếng Việt có nghĩa tuy chưa tự nhiên lắm Để được câu hoàn chỉnh cần một số xử lý thêm về mặt hình thái tiếng Việt

Trang 40

Hình 17: Minh hoạ chuyển đổi cây cú pháp cho câu “The

microprocessor is plugged into the computer’s motherboard.”

a: Trước khi chuyển đổi b: Sau khi chuyển đổi (Các thành phần bị xoá chỉ được đánh dấu xoá, không xoá trực tiếp trên cây cú pháp)

Sau khi gắn nghĩa vào cây ta có kết quả như sau:

bị

Chuyển đổi từ vựng

ợc

chính Câu

tiếng Việt

Bộ vi xử lý được gắn vào bản mạch chính của máy tính

3.3.1 Mô hình áp dụng chuyển đổi cây cú pháp

Quá trình chuyển đổi cây cú pháp cho một câu tiếng Anh diễn ra theo 4 bước:

1 Chuyển đổi trật tự theo nguyên tắc: Chuyển đổi trật tự các thành phần con của một thành phần cú pháp không kết thúc theo các nguyên tắc phổ biến được thống kê từ ngữ liệu dựa trên các mối quan hệ ngữ pháp Bước này phải đóng vai trò là bộ gán nhãn chuyển đổi cơ sở trong quá trình học để rút luật sửa sai

2 Chuyển đổi trật tự cùng cấp: Áp dụng luật học bằng phương pháp FnTBL

từ ngữ liệu song ngữ để chuyển đổi trật tự các thành phần con của một thành phần cú pháp không kết thúc Thực chất là quá trình sửa sai và hoàn chỉnh thêm cho bước 1

3 Chuyển đổi trật tự khác cấp: Áp dụng luật chuyển đổi được rút ra từ ngữ liệu song ngữ dạng cây bằng phương pháp FnTBL Bước này nhằm chuyển những thành phần về đúng vị trí của nó, vị trí mới và vị trí cũ có thể không cùng thành phần cha

4 Chèn, xoá: Bước này có nhiệm vụ chèn thêm những từ tiếng Việt có vai trò ngữ pháp trong câu mà không thuộc phạm vi chuyển đổi từ vựng (Chẳng hạn như “phải không” trong câu hỏi) Ngoài ra, nó còn đảm nhiệm việc xoá những thành phần không có vai trò ngữ pháp trong câu tiếng Việt (Chẳng hạn như trợ động từ) Thực chất của việc xoá chỉ là đánh dấu xoá chứ không xoá hẳn khỏi cây cú pháp

Ngày đăng: 15/10/2016, 22:50

HÌNH ẢNH LIÊN QUAN

Hình 5: Cây cú pháp của câu “I have already read that - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 5 Cây cú pháp của câu “I have already read that (Trang 11)
Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 10 Giản đồ cây khởi tạo và cây phụ trợ của TAG (Trang 23)
Hình 12: Tác tố thay thế - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 12 Tác tố thay thế (Trang 24)
Hình 11: Tác tố kết hợp - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 11 Tác tố kết hợp (Trang 24)
Hình 7 minh hoạ một số mẫu cây sơ cấp trong tự điển chuyển đổi cây. - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 7 minh hoạ một số mẫu cây sơ cấp trong tự điển chuyển đổi cây (Trang 25)
Hình 18: Mô hình áp dụng chuyển đổi cây cú pháp - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 18 Mô hình áp dụng chuyển đổi cây cú pháp (Trang 41)
Hình 19: Mô hình học luật chuyển đổi cây cú pháp theo thuật toán FnTBL - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 19 Mô hình học luật chuyển đổi cây cú pháp theo thuật toán FnTBL (Trang 41)
Bảng 4: Một số quan hệ ngữ pháp được ánh xạ cùng - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Bảng 4 Một số quan hệ ngữ pháp được ánh xạ cùng (Trang 42)
Hình 21: Xây dựng ngữ tiếng Việt từ các quan hệ ngữ pháp - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 21 Xây dựng ngữ tiếng Việt từ các quan hệ ngữ pháp (Trang 43)
Hình 22: Lưu đồ thuật toán gán nhãn chuyển đổi cơ sở cho ngữ liệu - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 22 Lưu đồ thuật toán gán nhãn chuyển đổi cơ sở cho ngữ liệu (Trang 44)
Hình 23: Lưu đồ thuật toán học luật chuyển đổi - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 23 Lưu đồ thuật toán học luật chuyển đổi (Trang 45)
Hình 29: Cây cú pháp của câu “What is a computer ?” - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 29 Cây cú pháp của câu “What is a computer ?” (Trang 56)
Hình 33: Cây cú pháp của câu tiếng Anh “It is a good type of book.” - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình 33 Cây cú pháp của câu tiếng Anh “It is a good type of book.” (Trang 59)
Bảng 11: Các thành phần trong khung luật học chuyển - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Bảng 11 Các thành phần trong khung luật học chuyển (Trang 60)
Hình có thể xem như là one-third(một phần - XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH  VIỆT
Hình c ó thể xem như là one-third(một phần (Trang 72)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm