1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng anh sang tiếng việt tương ứng

98 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 98
Dung lượng 1,15 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong luận văn này, chúng tôi xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh sang tiếng Việt tương ứng, tập luật này là một cơ sở để xây dựng kho ngữ liệu cụm động từ song ng

Trang 1

Tp HCM, ngày 30 tháng 11 năm 2008

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên : Huỳnh Thị Ngọc Thuý Giới tính : Nam/ Nữ 

Ngày, tháng, năm sinh : 20/07/1982 Nơi sinh : Trà Vinh

Khoá : 2006

1- TÊN ĐỀ TÀI :

Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng

Việt tương ứng

2- NHIỆM VỤ LUẬN VĂN :

- Nghiên cứu văn phạm tiếng Anh trong phạm vi động từ và trợ động từ

- Nghiên cứu văn phạm tiếng Việt trong phạm vi động từ và các thành tố

phụ phía trước của động từ

- Nghiên cứu các phương pháp ánh xạ cấu trúc cú pháp động từ tiếng Anh

sang tiếng Việt, chú ý những nét tương đồng và khác biệt giữa hai cấu trúc

- Xây dựng tập luật ánh xạ từ cấu trúc của động từ tiếng Anh sang tiếng

Việt

- Viết chương trình để dịch động từ tiếng Anh sang tiếng Việt

3- NGÀY GIAO NHIỆM VỤ : 15/06/2008

4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008

5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi

Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông

qua

(Họ tên và chữ ký)

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS.TS Phan Thị Tươi

Cán bộ chấm nhận xét 1 : TS Nguyễn Xuân Dũng

Cán bộ chấm nhận xét 2 : TS Quản Thành Thơ

Luận văn thạc sĩ được bảo vệ tại

HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng 02 năm 2009

Trang 3

Xin cảm ơn các bạn cùng lớp, gia đình, những người đã giúp đỡ, động viên tôi rất nhiều trong quá trình hoàn thành luận văn này

Trang 4

Tóm tắt

Dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine Translation_CBMT)

là mô hình dịch máy chiếm ưu thế trong thập kỉ vừa qua Trong các hệ thống CBMT có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus) gồm các chuỗi văn bản ở ngôn ngữ nguồn (source language) cùng với các chuỗi văn bản tương ứng ở ngôn ngữ đích (target language) Một trong hai hướng chính của CBMT là dịch máy dựa trên ví dụ (Example-Based Machine Translation_ EBMT)

Hệ thống EBMT dùng kỹ thuật so trùng các chuỗi trong văn bản đầu vào với các chuỗi ngôn ngữ nguồn trong kho ngữ liệu, rút trích các chuỗi ngôn ngữ đích tương ứng và kết hợp các chuỗi ngôn ngữ đích này lại để cho ra kết quả là văn bản đầu ra Đơn vị cơ bản của các đoạn văn bản trong kho ngữ liệu là chuỗi từ (cụm từ – phrase hoặc đoạn – fragment) Mức cụm từ được chọn để lưu trữ khi xây dựng kho ngữ liệu thay vì mức câu hay mức từ là do độ chính xác khi dịch ở mức cụm từ cao hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn mức câu Trong luận văn này, chúng tôi xây dựng tập luật ánh xạ cấu trúc từ cụm động

từ tiếng Anh sang tiếng Việt tương ứng, tập luật này là một cơ sở để xây dựng kho ngữ liệu cụm động từ song ngữ Anh-Việt Các luật ánh xạ được chúng tôi rút ra từ quá trình khảo sát cấu trúc cụm động từ tiếng Anh, tiếng Việt, các qui luật văn phạm của động từ tiếng Anh và dùng phương pháp chiếu thông qua kết quả đối sánh

từ

Trang 5

Corpus-Base Machine Translation (CBMT) has been the dominant model of machine translation in the last decade In CBMT, there is existence of bilingual parallel corpus comprises of texts in source language together with correlative texts

in target language Example-Based Machine Translation (EBMT) is one of the two main trends of CBMT The basic techniques for EBMT are the matching of the input strings again source strings in the corpus, the extraction of corresponding target language strings and the recombination the strings as output result

The basic unit in the corpus is sequence of words (phrase or fragment) To constructing the corpus, examples at phrase-level are chosen for storage instead of word-level or sentence-level It can explain that the translating at phrase-level is more exact than at word-level and the capacity as well as the gathering of examples

in phrase-level is more possible than in sentence level In this thesis, we construct a mapping rule set of verb phrase structure from English to Vietnamese, this set is a foundation for constructing English-Vietnamese verb-phrase bilingual parallel corpus The rules were shaped as the results of the studying processes in English verb phrase structure, Vietnamese verb phrase structure, English grammar and applying “projection across word-alignment” method

Trang 6

MỤC LỤC

Lời cảm ơn i

Tóm tắt ii

Abstract iii

Mục lục iv

Danh mục hình vi

Danh mục bảng biểu vii

Chương 1 Tổng quan 1

Chương 2 Các Nghiên Cứu Liên Quan 5

Chương 3 Cơ Sở Lý Thuyết 9

3.1 Trợ động từ và động từ chính trong cấu trúc cụm động từ tiếng Anh 10 3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh 10

3.1.2 Các thành tố phụ phía trước 11

3.1.3 Trung tâm của cụm động từ tiếng Anh 14

3.2 Phần phụ trước và động từ chính của cụm động từ tiếng Việt 15

3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt 15

3.2.2 Các thành tố phụ phía trước 16

3.2.3 Trung tâm của cụm động từ tiếng Việt 20

3.2.4 Các phạm trù ngữ pháp và trật tự 21

Chương 4 Tập luật ánh xạ Anh-Việt 23

4.1 Mô hình chuyển đổi cấu trúc “trợ động từ và động từ chính” tiếng Anh sang cấu trúc tiếng Việt tương ứng 23

4.2 Tập luật ánh xạ Anh-Việt 26

Trang 7

4.2.1 Các khái niệm 26

4.2.2 Diễn tả sự cho phép (permission): can, could, may 28

4.2.3 Diễn tả sự suy đoán về khả năng xảy ra (possibility): can, could, may, might 32

4.2.4 Diễn tả khả năng thực hiện (ability): can và be able 35

4.2.5 Diễn tả bổn phận (obligation): ought to, should, must, need 38

4.2.6 Diễn tả sự suy diễn (deduction) và giả định (assumption): must, have, will và should 41

4.2.7 Dare, need và used to 45

4.2.8 “Be, have, do” với vai trò là trợ động từ 47

4.2.9 Diễn đạt ý tương lai 55

Chương 5 Hiện thực và đánh giá 63

5.1 Hiện thực 63

5.1.1 Tiền xử lý 64

5.1.2 Ánh xạ cụm động từ tiếng Anh sang tiếng Việt 65

5.1.3 Giải quyết nhập nhằng 66

5.2 Đánh giá độ chính xác của chương trình 68

Chương 6 Kết luận 72

6.1 Đóng góp của luận văn 72

6.2 Hướng phát triển 73

Tài Liệu Tham Khảo 74

Phụ lục A GATE_công cụ rút trích cụm từ và gán nhãn từ loại cho câu tiếng Anh .77 Phụ lục B Bảng thống kê tập luật ánh xạ theo từng ý nghĩa

Phụ lục C Bảng thống kê tập luật ánh xạ theo từng trợ động từ

Trang 8

Danh mục hình

Hình 4.1 Cây cú pháp của câu “The boy will be playing the football”………… 24 Hình 4.2 Ánh xạ cấu trúc cú pháp của câu ở hình 3.1 sang cấu trúc cú pháp tiếng Việt tương ứng ……….24 Hình 4.3 Minh hoạ phép chiếu đối sánh từ ………25 Hình 5.1 Mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng Việt…… 64 Hình 5.2 Mô hình biểu diễn ý nghĩa của CAN dưới dạng tập mờ……… 67

Trang 9

Danh mục bảng biểu

Bảng 5.1 Kết quả đánh giá trên tập câu song ngữ huấn luyện rút ra từ tài liệu “Ngữ pháp tiếng Anh thực hành- A Practical English Grammar”……… 69 Bảng 5.2 Kết quả đánh giá trên tập câu rút ra từ tài liệu“The semantics of the modal auxiliaries” ……… 69 Bảng 5.3 Ví dụ cặp câu song ngữ Anh-Việt và kết quả đầu ra tương ứng khi chạy chương trình ……….69 Bảng 5.4 Kết quả đánh giá trên tập câu song ngữ huấn luyện ……….71 Bảng 5.5 Kết quả đánh giá trên tập câu trong tài liệu “The semantics of the modal auxiliaries” ……… 71

Trang 10

Chương 1 :

Tổng quan

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực nghiên cứu rất quan trọng, động cơ thúc đNy nhiều nhà khoa học máy tính quan tâm đến lĩnh vực này chính là khả năng xử lý ngôn ngữ tự nhiên sẽ cách mạng hoá cách thức máy tính được sử dụng Bởi vì phần lớn tri thức của con người được ghi lại dưới dạng ngôn ngữ, máy tính nếu có khả năng hiểu được ngôn ngữ tự nhiên sẽ tiếp cận được toàn bộ nguồn thông tin này Thêm vào đó, máy tính dùng những giao diện diễn đạt bằng ngôn ngữ tự nhiên sẽ cho phép mọi người, kể cả những người không chuyên, tiếp cận dễ dàng các hệ thống phức tạp

Dịch máy (machine translation - MT) là một trong nhiều ứng dụng của lĩnh vực

xử lý ngôn ngữ tự nhiên, mục đích của dịch máy là làm cho máy tính có thể chuyển văn bản hay giọng nói từ một ngôn ngữ tự nhiên này sang một ngôn ngữ tự nhiên khác mà vẫn giữ nguyên ngữ nghĩa và sự trong sáng của nó Trong thập kỉ vừa qua, các mô hình dịch máy dựa trên kho ngữ liệu (copus-based hoặc data-driven) có ưu thế vượt trội, điều này tương phản sâu sắc với các mô hình ở những năm 1980 và các thập kỉ trước, đó là mô hình dịch máy dựa trên luật (rule-based) [9]

Trong các hệ thống dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine

Translation – CBMT) có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus) gồm các đoạn (segments) văn bản ở ngôn ngữ nguồn cùng với các đoạn văn bản tương ứng ở ngôn ngữ đích, kích thước của các đoạn khác nhau tuỳ từng hệ thống, nhưng tiêu biểu là ở mức câu (sentence) Kho ngữ liệu này được sử dụng cho mục đích tra cứu, tham khảo để thu được các tri thức cần thiết cho mỗi lần

dịch mới Trong mô hình CBMT lại phân ra làm hai hướng phân biệt: dịch máy

thống kê (Statistical Machine Translation – SMT) và dịch máy dựa trên ví dụ

Trang 11

(Example-Based Machine Translation – EBMT) SMT chủ yếu dựa trên tần số xuất hiện của từ (word frequency) và sự kết hợp các từ (word combinations) còn EBMT dựa trên sự rút trích và kết hợp các cụm từ (hoặc các đoạn ngắn hơn mức cụm từ) [9]

Một hệ thống dịch máy được gọi là một hệ thống EBMT nếu nó dùng những đoạn (chuỗi từ chứ không phải từng từ riêng rẽ) văn bản ngôn ngữ nguồn được rút

ra từ kho ngữ liệu chứa các ví dụ mẫu để tạo nên các văn bản ngôn ngữ đích với cùng một nghĩa Đơn vị cơ bản của EBMT là chuỗi từ (cụm từ – phrase hoặc đoạn – fragment); và các kỹ thuật cơ bản là tìm kiếm các chuỗi ngôn ngữ nguồn trong kho ngữ liệu phù hợp với các chuỗi trong văn bản đầu vào, rút trích các chuỗi ngôn ngữ đích tương ứng và kết hợp lại các chuỗi ngôn ngữ đích này cho ra kết quả là câu ở ngôn ngữ đích có thể chấp nhận được

Vì EBMT là mô hình dịch máy dựa trên kho ngữ liệu, nên điều cần thiết đầu tiên là việc xây dựng kho ngữ liệu song ngữ song song Kho ngữ liệu có thể được xây dựng dựa vào các nguồn dữ liệu sẵn có như các trang World Wide Web (được trình bày bằng hai hoặc nhiều hơn hai ngôn ngữ) Ngoài ra kho ngữ liệu của hệ thống EBMT có thể do chính đội ngũ phát triển xây dựng, hoặc được trích lọc kỹ càng từ nguồn dữ liệu trong thực tế Cách làm thứ nhất có khuyết điểm là nếu lấy trực tiếp từ nguồn dữ liệu to lớn bên ngoài thì sẽ bao gồm những ví dụ (examples) trùng lắp lên nhau, điều này có thể dẫn đến việc cùng một ví dụ ở ngôn ngữ nguồn lại tương ứng với hơn một ví dụ ở ngôn ngữ đích [14] Đối với cách làm thứ hai, người ta đã sưu tập kho ngữ liệu song ngữ ở mức cụm từ thay vì mức câu hay mức

từ Người ta chọn mức cụm từ là do độ chính xác khi dịch dựa trên mức cụm từ cao hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn ở mức câu (vì chúng ta không thể lưu trữ hết tất cả các câu song ngữ trong quá khứ, hiện tại và tương lai) [5]

Để xây dựng kho ngữ liệu dựa trên cụm từ thì vấn đề cần quan tâm là việc nhận dạng và rút trích cụm từ (cụm danh từ, cụm động từ,…) trong văn bản song ngữ song song Vấn đề này đã được nhiều tác giả trên thế giới quan tâm nghiên cứu trên

Trang 12

nhiều ngôn ngữ khác nhau, ví dụ đối với tiếng Anh đã có công cụ GATE để nhận diện và rút trích cụm từ Còn trong tiếng Việt, các nghiên cứu trong lĩnh vực này vẫn còn khá ít ỏi, chủ yếu tập trung ở các trường Đại học Khoa học tự nhiên , Đại học Bách Khoa; ví dụ như công trình của tác giả Nguyễn Chí Hiếu [5] về nhận biết

và rút trích cụm danh từ tiếng Việt Như vậy cụm từ tiếng Việt vẫn còn nhiều vấn

đề mở cần được nghiên cứu, đặc biệt là cụm động từ vẫn chưa được nhiều người quan tâm Thế nhưng một cản trở cơ bản của tiếng Việt (cũng như hơn 200 ngôn ngữ khác trên thế giới) khi muốn phát triển các ứng dụng về xử lý ngôn ngữ tự nhiên đó là vấn đề thiếu vắng nguồn ngữ liệu có chú thích Để vượt qua cản trở đó, người ta có thể dựa vào kho ngữ liệu sẵn có và các công cụ xử lý ngôn ngữ của một ngôn ngữ giàu tài nguyên như tiếng Anh Ý tưởng này xuất phát từ công trình nghiên cứu của Yarowsky[18], trong đó tác giả đề xuất cách tiếp cận dùng phương pháp chiếu (projection) dựa trên kết quả đối sánh từ (word-alignment) để xác định cụm danh từ cơ sở, áp dụng cho cặp Anh-Pháp

Trong đề tài này, chúng tôi sẽ dựa trên những nét cơ bản về đối sánh từ của Yarowsky, tức là việc “xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh sang tiếng Việt tương ứng” sẽ dựa trên tiếp cận chiếu qua kết quả đối sánh từ Anh-Việt Kết quả là từ cụm động từ tiếng Anh (ngôn ngữ nguồn) thông qua luật ánh xạ

có thể đưa ra đượccấu trúccụm động từ tiếng Việt (ngôn ngữ đích) tương ứng Dựa vào tập luật ánh xạ này, từ một câu đơn tiếng Anh có chứa trợ động từ, ta có thể suy

ra được cụm động từ tiếng Việt có ý nghĩa tương đương với cụm động từ trong câu tiếng Anh, góp phần trong việc tạo ra kho ngữ liệu cụm động từ song ngữ Anh-Việt Tuy nhiên, trong cụm động từ có thể chứa cả cụm danh từ, cụm giới từ, trạng

từ, … , nếu xét cả cụm động từ thì khối lượng công việc rất lớn Cho nên trong luận

văn này chúng tôi chỉ giới hạn ở mức “xây dựng tập luật ánh xạ từ cấu trúc trợ động

từ và động từ chính tiếng Anh sang cấu trúc tiếng Việt tương ứng” hơn nữa, chúng tôi cũng không xem xét dạng câu hỏi (interrogative) và dạng bị động (passive)

Trong phần này, chúng tôi tạm gọi cấu trúc trợ động từ và động từ chính tiếng Anh và cấu trúc phụ từ và động từ chính tiếng Việt lần lượt là động từ tiếng Anh và

Trang 13

động từ tiếng Việt Qua quá trình nghiên cứu, phân tích và tổng hợp chúng tôi đã

đưa ra được những mối tương quan giữa động từ tiếng Anh và động từ tiếng Việt từ

đó tạo ra tập luật ánh xạ song ngữ từ động từ tiếng Anh sang động từ tiếng Việt trên

cơ sở phương pháp chiếu đối sánh từ

Trên nền tảng của tập luật ánh xạ, chúng tôi xây dựng một chương trình ánh xạ

cấu trúc từ động từ tiếng Anh sang tiếng Việt với đầu vào là câu đơn tiếng Anh và

đầu ra sẽ là động từ tiếng Việt có ý nghĩa tương đương với động từ tiếng Anh trong câu đầu vào

Tập luật ánh xạ này sẽ là cơ sở để xây dựng kho ngữ liệu song ngữ của cặp cụm động từ Anh-Việt trợ giúp cho những nghiên cứu liên quan trong lĩnh vực xử lý ngôn ngữ tự nhiên

Trang 14

Chương 2 :

Các nghiên cứu liên quan

Để xây dựng kho ngữ liệu song ngữ cho cụm từ, có thể có nhiều cách khác nhau như dựa trên tập ngữ liệu các câu song ngữ, hoặc có thể dựa trên một ngôn ngữ giàu tài nguyên (ví dụ tiếng Anh), từ đó thông qua các mô hình dịch cụm từ để thu được cụm từ ở ngôn ngữ đích (ví dụ tiếng Việt) Ta xem xét các nghiên cứu với hướng tiếp cận dựa trên ngôn ngữ [10],[11], [12], [16], [17] Các nghiên cứu này chủ yếu dựa trên các yếu tố ngôn ngữ như các luật ánh xạ cấu trúc, các mối quan hệ phụ thuộc giữa các cụm từ, … để thu được tri thức song ngữ

Trong [17], các tác giả mô tả hệ thống và phương pháp tìm cấu trúc tương ứng

từ cặp cấu trúc phụ thuộc của cặp câu nguồn và câu đích Hệ thống này đầu tiên là tìm từ tương ứng, sau đó mới tìm cụm từ tương ứng trên cơ sở các từ tương ứng Đầu vào của phương pháp là cặp câu đã được phân tích Phương pháp này gồm hai bước chính như sau:

B1 : Tìm các cặp từ tương ứng, nghĩa là sự tương ứng giữa các nút trên cây

phân tích cú pháp nguồn và đích

B2 : Tìm các cặp cụm từ tương ứng dựa trên các cặp từ tương ứng đã tìm

được ở bước B1, nghĩa là tìm một tập các cặp cụm từ tương ứng sao cho chúng bao phủ hết các thành phần của cây phân tích cú pháp

Ở bước B1, việc tìm các từ tương ứng dựa trên cơ sở dịch từ điển và giải quyết nhập nhằng bằng cách thiết lập từ dự tuyển tương ứng và chọn từ tương ứng thích hợp bằng cách tính khoảng cách ngữ nghĩa từ các cặp từ tương ứng dự tuyển đến một cặp từ tương ứng đã được giải quyết nhập nhằng Tuy nhiên yếu điểm của phương pháp là ngưỡng độ đo sẽ không chuNn, khi áp dụng cho các cặp ngôn ngữ khác nhau (xa nhau về ngữ hệ)

Trang 15

Trong giải thuật tìm cụm từ tương ứng, các tác giả đưa ra các khái niệm về cây giới hạn, cụm đóng và cụm mở, với các điểm neo là các từ tương ứng; cụm đóng là cụm mà các nút lá của cụm nguồn đều có điểm neo trong cụm đích; cụm mở là cụm còn ít nhất một nút lá không có điểm neo trên cụm đích Ý tưởng của giải thuật như sau :

1) Đầu tiên, tìm các cặp cụm từ tương ứng sao cho không có nút nào khác ngoài nút đầu và nút cuối là điểm neo

2) Kết hợp các cặp cụm mở tương ứng có chung nút mở để tạo thành cụm đóng

3) Kết hợp các cặp cụm tương ứng có chung nút mà không phải điểm neo 4) Tìm các đường đi mở Nếu nút gốc của đường đi là điểm neo thì trộn đường đi vào trong cặp cụm tương ứng chứa nút gốc đó Ngược lại, tạo một cặp cụm tương ứng mới bằng cách kết hợp các đường đi có nút gốc đó Tuy nhiên cụm từ của họ không phải là cụm đúng như nghĩa của ngôn ngữ học, và dữ liệu kiểm tra tương đối nhỏ để đánh giá (130 cặp câu)

Trong một nghiên cứu khác của các tác giả Hwang Y S., Paik K H và, Saraki Y [10], một phương pháp mới được đề xuất để thu được tri thức song ngữ, bằng cách khai thác mối quan hệ phụ thuộc giữa cụm từ trong câu Sau quá trình đối sánh, có thể thu được các mối quan hệ phụ thuộc giữa các cụm từ trong câu đích dựa vào mối quan hệ trong câu nguồn, nghĩa là câu đích sẽ đồng nhất cú pháp với câu nguồn mà không cần dùng đến công cụ phân tích cú pháp cho câu đích

Các tác giả đã tiến hành nghiên cứu trên cặp câu Nhật-Hàn Đầu vào của hệ thống là một cặp câu gồm một câu đã được phân tích cú pháp có những thông tin phụ thuộc đi kèm và một câu đã được gán nhãn từ loại Quá trình đối sánh sẽ được thực hiện ở cả mức cụm từ và từ, và gồm có ba bước chính như sau:

1) Đối sánh từ dựa trên từ điển song ngữ Ở bước này, hệ thống sẽ cố gắng dịch các từ dựa trên từ điển Các biến thể khác nhau, các hình thái khác nhau của từ, các danh từ riêng, … cũng được xem xét Để giải quyết nhập nhằng, các tác giả đã sử dụng mộ số ràng buộc ngôn ngữ như : vị trí của

Trang 16

một từ tương ứng sẽ chỉ nằm trong một kích thước cửa sổ cho trước vì trật tự từ trong hai ngôn ngữ là như nhau; một từ loại sau khi đối sánh sẽ vẫn giữ nguyên chức năng của nó

2) Đối sánh cụm từ bằng phương pháp thống kê với các ràng buộc là kết quả đối sánh từ ở bước 1) và dưạ trên đường biên của cụm từ trong ngôn ngữ nguồn Ở bước này, các tác giả đã sử dụng các luật đối sánh dựa trên cấu trúc cụm danh từ nguồn, sự tương tự về cấu trúc giữa hai ngôn ngữ cũng như các đối sánh tương ứng có được ở bước 1) Tuy nhiên, các luật đơn giản chỉ giải quyết được những trường hợp hai câu nguồn và đích có cấu trúc tương tự nhau Để giải quyết vấn đề trên, các tác giả đã sử dụng mô hình thống kê cho việc đối sánh cụm từ

3) Đối sánh từ bằng phương pháp thống kê Sau khi các cụm từ tương ứng

đã được đối sánh, các từ trong các cụm từ đó sẽ được tiếp tục đối sánh để cho kết quả cuối cùng

Với việc rút trích tri thức song ngữ, đầu tiên họ thu về các kết quả phân tích cú pháp song ngữ bằng cách chia sẻ những mối quan hệ phụ thuộc giữa từng cặp câu được đối sánh mức từ và mức cụm từ Kế đó họ duyệt đệ quy các kết quả phân tích

cú pháp đó để tiếp nhận những tri thức song ngữ khác nhau và áp dụng phương pháp lọc qua từng bước để thu được những thông tin có giá trị

Khác với các phương pháp thông thường, đối sánh dựa trên cây phân cấp cú pháp, các tác giả trong [16] đưa ra phương pháp gọi là phương pháp phân nhóm từ song ngữ, dựa trên hướng tiếp cận đối sánh các nhóm từ của ngôn ngữ nguồn và ngôn ngữ đích Mô hình của các tác giả gồm có ba thành phần : hai mô hình phân nhóm từ của hai ngôn ngữ nguồn và đích và sự ràng buộc của nhóm từ tương ứng trong hai ngôn ngữ Sự ràng buộc yêu cầu nhóm từ trong một ngôn ngữ chỉ tương ứng nhiều nhất với một nhóm từ của một ngôn ngữ khác Để thỏa mãn ràng buộc này trong cài đặt, các nhóm từ có lúc bị chia thành các đơn vị nhỏ hơn Ví dụ cụm

từ “the first man” có thể bị chia làm hai cụm là “the first” và “man” Cụ thể, mô hình phân nhóm từ bao gồm các bước chính như sau :

Trang 17

1) Đối sánh từ giữa hai câu trong ngôn ngữ nguồn và ngôn ngữ đích

2) Phân nhóm từ trong câu ngôn ngữ nguồn

3) Phân nhóm từ trong câu ngôn ngữ đích

Trong đó, bước 2) và 3) phải tuân theo nguyên tắc ràng buộc giữa các nhóm từ song ngữ

Ở giai đoạn phân nhóm từ, họ sử dụng mô hình “inter-chunk” và chunk”, để xác định nhóm từ của cả hai ngôn ngữ Anh-Trung Phương pháp đánh giá nhóm từ trên các chiều dài khác nhau, từ 1 đến 7 và kết quả tốt nhất với chiều dài cụm từ là 4 Tuy nhiên bất lợi của phương pháp là các nhóm từ này không phải

“intra-là nhóm từ do các nhà ngôn ngữ học định nghĩa và khi chiều dài câu cũng như trật

tự từ trong câu không đồng nhất thì độ chính xác sẽ bị giảm

Trong [11], các tác giả đưa ra hai hướng tiếp cận cho vấn đề rút trích tự động cụm danh từ song ngữ Anh-Việt từ kho ngữ liệu song ngữ Cách tiếp cận thứ nhất tập trung vào việc giải quyết vấn đề đối sánh rỗng và vấn đề đối sánh chồng chéo, bằng cách biến đổi cấu trúc cú pháp của câu trong ngôn ngữ nguồn sang dạng cấu trúc cú pháp tương ứng của câu trong ngôn ngữ đích, công việc này được tiến hành trong giai đoạn tiền xử lý

Cách tiếp cận thứ hai cung cấp một mô hình dịch máy dựa trên phương pháp thống kê Ý tưởng của cách tiếp cận thứ hai là đối với các cụm danh từ trong câu chỉ

để lại những từ tiêu biểu cho cụm danh từ, và loại bỏ những từ không tiêu biểu Và mỗi cụm danh từ cơ sở lúc này sẽ được hợp nhất lại như một từ đại diện (representative word) Kế đó dùng công cụ GIZA++ để tiến hành việc đối sánh từ trên các cặp câu mà trong đó các cụm danh từ đã được chuyển thành các từ đại diện Cách tiếp cận này thu được độ chính xác 88.2% và độ hồi quy 82.3% khi tiến hành trên bộ ngữ liệu vàng (golden standard data)

Trang 18

Chương 3 :

Cơ sở lý thuyết về động từ tiếng Anh, tiếng Việt

Động từ là từ loại được dùng để chỉ các dạng của vận động như:

- Chỉ hành động: drink (uống), listen (nghe), play (chơi), eat (ăn), throw

(ném)…

- Chỉ tiến trình: change (thay đổi), grow (phát triển), widen (mở rộng),

deteriorate (tồi tệ đi),…

- Chỉ cảm giác: ache (đau), feel (cảm thấy), hurt (đau)…

- Chỉ sự kiện quá độ: arrive (đến), die (chết), fall(ngã), land (hạ cánh), leave

(dời đi),…

- Chỉ trạng thái: believe (tin tưởng), intend (dự định), know (biết), remember

(nhớ), think (nghĩ), understand (hiểu), apply to (áp dụng cho), belong to (thuộc về), require (yêu cầu),…

Cụm động từ là một tổ hợp từ tự do có quan hệ chính phụ giữa thành tố chính với thành tố phụ, có động từ làm thành tố chính (trung tâm), có các đặc điểm sau:

- Cụm động từ cấu trúc theo nguyên tắc bao gồm một thành tố chính (trung tâm) do động từ đảm nhiệm và các thành tố phụ đứng trước hoặc đứng sau trung tâm

- Quan hệ giữa trung tâm và các thành tố phụ là quan hệ chính phụ trên nguyên tắc trung tâm không thể bị lược bỏ [4], [6]

Trang 19

3.1 Trợ động từ và động từ chính trong cấu trúc cụm

3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh

Các thành tố phụ ở phần đầu cụm động từ tiếng Anh bao giờ cũng là các trợ động từ (auxiliary verb) mà trợ động từ tình thái (modal verb) nếu có bao giờ cũng

đứng ở vị trí đầu tiên Các thành tố phía sau có thể là danh từ, tính từ, động từ không chia, số từ, trạng từ, cụm giới từ hoặc mệnh đề

• Ở dạng đầy đủ nhất, cụm động từ bao gồm 3 phần:

Các thành tố phụ phía trước + trung tâm + các thành tố phụ phía sau của cụm động từ, được mô tả ở sơ đồ dưới đây:

• Ở dạng không đầy đủ, cụm động từ tiếng Anh cũng có thể xuất hiện dưới dạng một thành phần (phần trung tâm) hoặc hai thành phần:

- Dạng đơn giản nhất: chỉ có phần trung tâm

(The sun) rises

- Thành tố phụ phía trước + trung tâm

Trung tâm

Cụm động từ

Thành tố phụ phía trước Trung tâm Thành tố phụ phía sau

Trang 20

- Trung tâm + thành tố phụ phía sau

(She) laughs at me

3.1.2 Các thành tố phụ phía trước

1/ Trợ động từ và trật tự

Trợ động từ (auxiliary verb) trong tiếng Anh gồm có ba trợ động từ chính “be,

have, do” , mười trợ động từ tình thái (modal verb) “can, could, may, might, must,

ought to, shall, should, will, would” và các trợ động từ bán khiếm khuyết

(semi-modal verb) “dare, need, used to”

Ngoài việc dùng để thành lập các thì (tense), trợ động từ khác với động từ chính (động từ mang ý nghĩa từ vựng _ lexical verb) ở chỗ chúng có thể xuất hiện với 4 cấu trúc ngữ pháp sau: phủ định, nghi vấn, mã (code) và khẳng định nhấn mạnh

(i) Phủ định: chỉ có trợ động từ mới có dạng phủ định, tức là đứng trước thành

tố phủ định “not” theo trật tự:

Trợ động từ (Aux) + not + động từ chính (V)

Ví dụ:

She is not studying

Hầu hết các trợ động từ trong tiếng Anh đều có dạng phủ định rút gọn và trong

trường hợp đó trợ động từ + từ phủ định “not” được xem như một từ

Ví dụ:

She isn’t studying

(ii) Nghi vấn: chỉ có trợ động từ mới có thể xuất hiện trước chủ ngữ (S) để tạo

thành câu nghi vấn:

Thành tố phụ phía trước Trung tâm

Trung tâm Thành tố phụ phía sau

Trang 21

Trợ động từ (Aux) + S + V

Ví dụ:

Does she sing?

(iii) Mã (code): chỉ có trợ động từ mới có thể thay thế cho toàn bộ cụm động từ

đã được đề cập trước đó, hoặc được ngầm hiểu trong những ngữ cảnh nhất định

Ví dụ:

“You want your money back, I suppose”, said George with a sneer

“Of course I do – I always did…” says Dobbin

Trong ví dụ trên “do” thay thế cho “want my money back” và “did” thay thế cho động ngữ “wanted my money back” đã được đề cập tới ở câu trước đó

(iv) Khẳng định, nhấn mạnh: chỉ có trợ động từ mới được dùng dưới dạng

khẳng định nhấn mạnh:

Trợ động từ + động từ chính

Ví dụ:

“You did have a round with the coachman”, Captain Dobbin said

“Anh chắc đã đánh nhau với người lái xe”, Đại úy Dobbin nói.

2/ Trật tự các thành tố phụ phía trước

Các thành tố phụ phía trước của cụm động từ tiếng Anh bao gồm trợ động từ và trạng ngữ Trong cùng một cụm động từ có thể có nhiều trợ động từ xuất hiện và trong trường hợp đó trật tự của chúng rất nghiêm ngặt: trợ động từ tình thái bao giờ cũng xuất hiện ở vị trí đầu rồi mới đến các trợ động từ khác Chúng ta có thể gặp các dạng cấu trúc có trật tự sau:

A Trợ động từ tình thái: bao giờ cũng đứng trước động từ trung tâm nguyên

dạng không có tiểu từ “to” theo trật tự: modal + V

Ví dụ:

I can see John at this minute… <Tôi có thể gặp John bây giờ…>

Trợ động từ tình thái có một số ý nghĩa khác nhau như: diễn đạt khả năng (possibility); diễn đạt năng lực (ability); diễn đạt sự chắc chắn, tính tất yếu logic;

Trang 22

diễn đạt sự phỏng đoán (prediction); diễn đạt dự đoán, khả năng có thể có (probability); diễn đạt bổn phận (obligation); diễn đạt sự cho phép (permission); diễn đạt lời khuyên, gợi ý

B Hoàn thành: trợ động từ “have” bao giờ cũng đứng trước dạng quá khứ phân

từ (past participle) của động từ trung tâm (có đuôi “ed” đối với động từ có qui tắc)

theo trật tự: “have” + V-ed

Ví dụ:

I have nourished a viper in my bosom <Tôi đã nuôi ong tay áo.>

C Tiếp diễn: trợ động từ “be” bao giờ cũng đứng trước dạng hiện tại phân từ

(present participle) của động từ trung tâm theo trật tự: “be” + V-ing

Ví dụ:

She is coming with me… <Cô ta sẽ đi cùng tôi…>

D Bị động: trợ động từ “be” bao giờ cũng đứng trước dạng quá khứ phân từ (past

participle) của động từ trung tâm (có đuôi “ed” đối với động từ có qui tắc) theo trật

tự: “be” + V-ed

Ví dụ:

I dreamed last night that I was flogged by Dr Raine

<Tối hôm qua tôi mơ mình bị tiến sỹ Raine trừng phạt.>

Bốn dạng cấu trúc cơ bản trên có thể kết hợp với nhau để tạo thành những cụm động từ phức tạp hơn với sự xuất hiện nhiều thành tố phụ phần đầu, nhưng sự kết hợp này bao giờ cũng phải theo thứ tự: A + B + C + D Trong thực tế, chúng ta ít gặp những cụm động từ có đầy đủ cả bốn thành phần trên cùng xuất hiện mà chỉ có hai hoặc ba dạng cấu trúc này cùng xuất hiện mà thôi

Ví dụ:

- He may have gone

A B

<Có lẽ ông ta đã đi rồi.>

- The phone have been ringing for two minutes

B C

Trang 23

<Chuông điện thoại đã (đang) reng hai phút.>

- One can’t be always thinking about Joseph

A C

<Người ta không thể lúc nào cũng nghĩ về Joseph được >

- I have been treated worse than any servants in the kitchen

B D

<Tôi đã bị đối xử tồi tệ hơn bất cứ người hầu nào ở dưới bếp.>

- she should have been robbed of her perquisites

A B D

<Lẽ ra cô ta đã bị cướp hết của cải rồi >

Như vậy, có thể nói rằng việc xuất hiện hình thái nào của trợ động từ là do trợ động từ đứng trước của nó quy định và theo một nguyên tắc rất chặt chẽ

Ngoài ra còn có một số thành tố khác điển hình là trạng ngữ chỉ tần xuất thường

xuất hiện ở vị trí giữa của phần đầu cụm động từ như: “always”, “generally”,

“regularly”, “sometimes”, “rarely”,…Tuy nhiên, đôi khi chúng không nằm trong cụm động từ mà lại xuất hiện ở đầu câu Cũng có thể vì lý do đó nên khi khảo sát cụm động từ, các nhà Anh ngữ học thường không nghiên cứu chúng trong cấu trúc cụm động từ mà thường xếp chúng vào một chương riêng

3.1.3 Trung tâm của cụm động từ tiếng Anh

Trung tâm của cụm động từ tiếng Anh là động từ Việc xác định động từ trung tâm trong tiếng Anh khá dễ dàng ngay cả trong trường hợp có nhiều động từ xuất hiện trong cùng một cụm động từ

Đối với cụm động từ có nhiều trợ động từ xuất hiện thì động từ trung tâm bao

giờ cũng là động từ chính (main verb hay lexical verb) và đứng sau tất cả các trợ

động từ này Về mặt hình thái, động từ chính khi xuất hiện với các trợ động từ thì

có các hình thái sau:

- Nguyên mẫu không có “to”

- Hình thái “V-ing”: hiện tại phân từ (present participle)

Trang 24

- Hình thái “V-ed”: quá khứ đơn (simple past) và quá khứ phân từ (past

participle)

Khi có nhiều động từ có ý nghĩa từ vựng (lexical verb) cùng xuất hiện trong một cụm động từ, thì chỉ có một động từ đã chia và động từ đó luôn đứng trước các động từ có ý nghĩa từ vựng khác và đó chính là động từ trung tâm

3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt

1/ Tổ chức nội bộ của cụm động từ

a) Ở dạng đầy đủ, cụm động từ gồm ba thành phần: phần giữa dành cho trung tâm

và phần đầu, phần cuối dành cho các thành tố phụ

Phần đầu Phần trung tâm Phần cuối

Ví dụ: (Nó) đang học bài này

b) Cụm động từ cũng có khả năng xuất hiện dưới dạng chỉ có hai phần:

- Dạng chỉ có phần đầu và phần trung tâm:

Phần đầu Phần trung tâm

Ví dụ: (Nó) đang học

-Dạng chỉ có phần trung tâm và phần cuối:

Phần trung tâm Phần cuối

Ví dụ: (Nó) học bài này

Trang 25

c) Xu thế bố trí thành tố phụ:

Phần cuối của cụm động từ gồm những thành tố phụ có ý nghĩa từ vựng chân thực Những thành tố phụ này rất đa dạng về mặt ngữ nghĩa cũng như về mặt tổ chức

Phần đầu của cụm động từ gồm những thành tố phụ mà phần lớn đều mang ý nghĩa thiên về ngữ pháp, phần lớn đều là những từ đơn có số lượng không nhiều lắm và không có khả năng phát triển thành cụm từ (trong đó các thành phần có quan

hệ chính-phụ) Do đó phần đầu thường có bề ngoài đơn giản hơn phần cuối

2/ Những nét đặc biệt của cụm động từ

Không có khả năng tồn tại cụm động từ ở dạng lý tưởng, tức là cụm động từ mà bao gồm hầu hết mọi thành tố phụ như trong cụm danh từ Cũng không có khả năng quy thành tố phụ vào vị trí rõ ràng dứt khoát giống như trong cụm danh từ

Động từ là một từ loại lớn bao gồm rất nhiều kiểu khác nhau, thường thường mỗi kiểu lại có những loại thành tố phụ của riêng mình Và trên thực tế không có động từ nào tập trung đầy đủ tất cả mọi khả năng kết hợp có ở các kiểu động từ khác Hơn nữa số lượng thành tố phụ ở cụm động từ cũng rất lớn [1], [2], [3]

3.2.2 Các thành tố phụ phía trước

1/ Phụ từ

Số lượng những từ có khả năng đứng ở phần đầu cụm động từ nói chung không nhiều lắm: tất cả chỉ có độ vài chục từ Có thể chia nhỏ chúng thành mấy nhóm như sau:

a) Nhóm đều, cũng, vẫn, cứ… với ý nghĩa khái quát là chỉ sự tiếp diễn tương tự

của hành động

b) Nhóm từng, đã, vừa, mới, đang, sẽ,… với ý nghĩa khái quát là chỉ thời gian của

hành động

c) Nhóm hãy, đừng, chớ…dùng để nêu lên ý sai khiến, bảo thực hiện hay không

thực hiện một hành động nào đấy

Trang 26

d) Nhóm chỉ, có, hay, không, chưa, chẳng,…dùng để khẳng định hay phủ định sự

tồn tại của hành động

đ) Nhóm rất, hơi, khí, quá,…dùng để miêu tả mức độ của trạng thái

e) Nhóm thường, hay, năng, ít, hiếm,… chỉ tần số ( số lần) khái quát của sự xuất

hiện hoạt động, trạng thái

Các thành tố phụ ở trước động từ không được phân phối vào những vị trí rõ ràng, dứt khoát, mà các từ thường kết hợp với nhau theo một trật tự không cố định

Vì vậy, chỉ có thể nêu lên được một số xu thế cơ bản nhất mà thôi Sau đây là những xu thế đó:

a) Về nhóm đều, cũng, vẫn, cứ… (ý nghĩa tiếp diễn tương tự)

Đây là một nhóm bao gồm những từ rất có khả năng kết hợp với nhau trong nội

bộ của nhóm Sự kết hợp này thường theo một trật tự không được cố định lắm Trong việc kết hợp với từ thuộc các nhóm khác, nhóm này luôn có xu thế đứng

ở trước Ví dụ: (+: có thể kết hợp với nhau, -: không thể kết hợp với nhau)

b) Về nhóm từng, đã, đang, sẽ,… (ý nghĩa thời gian)

Từ trong nhóm này, nói chung, ít có khả năng kết hợp với nhau trong cùng nội

bộ của nhóm Ngoại lệ: đã từng – từng đã, vừa mới – mới vừa

Có vị trí sau nhóm đều, cũng, vẫn nhưng trước tất cả các nhóm còn lại Ngoại lệ: không nói từng chưa mà nói chưa từng

c) Về nhóm hãy, đừng, chớ,… (ý nghĩa mệnh lệnh)

Trang 27

Có khả năng kết hợp trong nội bộ nhóm, theo trật tự cố định: hãy đừng, hãy

chớ

Trong việc kết hợp với các nhóm khác, vị trí thường gặp nhất của chúng là đứng sau nhóm đều, cũng,vẫn sau từ sẽ và trước một số từ như chỉ, hay, có, quá…

d) Về nhóm không, chưa, chẳng,…(ý nghĩa phủ định)

Từ trong nhóm này cũng không có khả năng kết hợp với nhau trong cùng nội bộ của nhóm

Không có khả năng kết hợp với hai nhóm hãy, đừng, chớ và rất, hơi, khí, quá Ngoại lệ: chưa quá, hãy không, hãy chưa

Có vị trí ở sau cùng, trong việc kết hợp với hai nhóm đều, cũng, vẫn và từng,

đã, đang, sẽ,…

đ) Về nhóm rất, hơi, khí, quá…(ý nghĩa mức độ)

Không có khả năng kết hợp nội bộ, trừ ngoại lệ: hơi quá

Không có khả năng kết hợp với các nhóm còn lại trừ trường hợp của từ quá:

không quá, chưa quá, đừng quá

Thường đứng sau hai nhóm đều, cũng, vẫn và từng, đã, đang, sẽ

Gặp hiện tượng có trật tự như thế thì cố nhiên không thể nào quy cho mỗi từ một vị trí khác nhau được Hơn nữa trong cụm động từ lại không thể tìm ra dạng lý tưởng chứa đựng đầy đủ mọi từ, cho nên ta sẽ đi đến một kết quả là rất khó vẽ nên một sơ đồ về trật tự phản ánh một cách hoàn chỉnh vị trí trước sau của tất cả mọi thành tố phụ được

Chỉ có thể khái quát như sau:

Nhóm không,chưa Nhóm từng, đã,

Trang 28

Trong lược đồ trên, ở phần giữa những nhóm nằm trong cùng một cột (thẳng đứng) là những nhóm bài trừ lẫn nhau, không xuất hiện đồng thời trong một cụm

từ

2/ Các động từ trống nghĩa (tình thái)

Khác với trong tiếng Anh, một ngôn ngữ có trợ động từ, trong tiếng Việt có một

nhóm những động từ trống nghĩa như: “cần, muốn, có thể, toan, định, dám, bị, được” Các động từ này ít mang ý nghĩa từ vựng và đã được ngữ pháp hóa Những

động từ này luôn luôn đứng trước động từ trung tâm [6]

Khác với trợ động từ tiếng Anh, những động từ trống nghĩa trong tiếng Việt không xuất hiện trong cùng một cụm động từ theo một trật tự nhất định

Các động từ trống nghĩa này có thể chia thành hai nhóm:

(i) nhóm 1 gồm những động từ:

+ chỉ sự cần thiết và khả năng như: cần, nên, phải, cần phải,…; có thể,

không thể, chưa thể…

+ chỉ ý chí _ ý muốn như: toan, định, đâm, chực, buồn, nỡ, dám…; muốn,

mong, ước, mong muốn, mong ước, ước muốn, chúc,…

(ii) nhóm 2 gồm những động từ chỉ sự “chịu đựng” như: bị, được, chịu, mắc,

phải,…

Trật tự của nhóm động từ trống nghĩa này là: nhóm 1 + nhóm 2

Như vậy, trật tự từ của cụm động từ có động từ trống nghĩa là:

(a) các phụ tố phía trước + (b1) động từ trống nghĩa + (b2) động từ trống nghĩa + (c) động từ trung tâm + (d) phần cuối

Trang 29

Dưới đây là bảng tổng kết của phần phụ trước cụm động từ tiếng Việt:

3.2.3 Trung tâm của cụm động từ tiếng Việt

Vấn đề xác định phần trung tâm ở cụm động từ là một vấn đề khó khăn và phức tạp Có thể chia thành hai trường hợp như sau:

a) Trường hợp dễ dàng xác định phần trung tâm, ví dụ: đang học bài, sẽ ăn cơm,

chưa viết xong,… thì các động từ học, ăn, viết là trung tâm của cụm động từ

b) Nhưng đối với những cụm động từ có hai, ba động từ thì việc xác định động từ nào là trung tâm thì không phải dễ dàng Ví dụ:

…nhưng ngay lúc anh định gõ cửa…

Em muốn khinh bỉ chồng em.

Vấn đề này được giải quyết bằng cách là động từ nào đứng đầu tiên thì đó sẽ là động từ chính đóng vai trò trung tâm (về mặt ngữ pháp) trong cụm động từ Thành

tố sau có tầm quan trọng lớn về mặt ý nghĩa từ vựng, nhưng thành tố đầu lại giữ vai trò chủ chốt, vai trò chi phối về mặt ngữ pháp

Như vậy trong 2 ví dụ trên, ”định” và “muốn” là những động từ chính về mặt ngữ pháp, còn “gõ”, ”khinh bỉ” là những động từ phụ về mặt ngữ pháp

Phụ từ Động từ trống nghĩa

chả, chẳng, không

còn, chưa, đang, đã, mới,

sẽ, sắp, từng, vừa rất, hơi, khí,

cần, nên, phải, cần phải,…;

có thể, không thể, chưa thể,…

toan, định, đâm, chực, buồn, nỡ, dám,…;

muốn, mong, ước, mong muốn, mong ước, ước muốn, chúc,…

bị, được, chịu, mắc, phải

Trang 30

Vì bản chất mỗi động từ ở trung tâm sẽ qui định cách cấu trúc của toàn cụm động từ nên khi nghiên cứu cấu trúc cụm động từ tiếng Việt, người ta thường đề cập đến một số tiểu loại động từ nhằm nghiên cứu ảnh hưởng của trung tâm đối với các

cơ cấu của cụm động từ (tức là trật tự từ trong cụm động từ)

3.2.4 Các phạm trù ngữ pháp và trật tự

1/ Các ý nghĩa thời thể và trật tự

Khác với tiếng Anh, một ngôn ngữ sử dụng các hình thái khác nhau của động từ

để diễn đạt thể, tiếng Việt sử dụng một số từ phụ của động từ để diễn đạt

thời-thể Các từ phụ đó là: “đã, đang, sẽ, từng, còn,chưa,…” Việc sử dụng từ phụ nào là

tùy thuộc vào ý nghĩa thời gian mà người nói muốn truyền đạt

a) “đã” thường tương đương với thì Hiện tại hoàn thành (present perfect), thì

Hiện tại hoàn thành tiếp diễn (present perfect progressive), thì Quá khứ hoàn thành (past perfect), thì Quá khứ hoàn thành tiếp diễn (past perfect progressive)

b) “đang” của tiếng Việt có thể tương đương với thể tiếp diễn (progressive aspect)

ở mọi thì của tiếng Anh

c) “sẽ” tương đương với thì tương lai trong tiếng Anh

d) “đã” + “từng” + “động từ trung tâm” V;

hoặc “từng” + “động từ trung tâm” V

chỉ ra ý nghĩa quá khứ so với thời điểm phát ngôn, hành động bắt đầu trong quá khứ

và kết thúc trong quá khứ Tương đương với dạng sau đây trong tiếng Anh:

“used to” + V-inf (động từ nguyên dạng)

Trang 31

Cô chưa từng thấy một người phía bên kia nào

f) phụ từ + “không/chẳng”: hình thành cụm động từ phủ định

Ví dụ:

Em sẽ không bước về nhà nữa.

g) “còn” + động từ trung tâm (V); “chưa” + động từ trung tâm (V): đều diễn đạt đặc điểm tiến độ của vận động – ý nghĩa thời-thể

- “Còn + động từ trung tâm” chỉ ra khả năng tiếp tục của vận động, tương đương với một trong các thời tiếp diễn của tiếng Anh

Ví dụ:

Hoàng Văn Hoan còn mượn lại để gây ra cả một phong trào…

- “Chưa + động từ trung tâm” nhấn mạnh vào sự chưa xuất hiện của vận động

Anh ấy mua phải của giả.

Nhóm từ bị, được, phải đi với động từ được dùng để diễn đạt ý nghĩa tiếp thụ

và đồng thời là ý nghĩa tình thái (cái may hay cái rủi theo quan điểm của người nói)

Trang 32

Chương 4 :

Tập luật ánh xạ Anh-Việt

Xét về cấp độ cụm từ thì tiếng Việt và tiếng Anh có nhiều khác biệt đáng kể, nhất là ở khía cạnh trật tự từ [4] Vì vậy trước khi trình bày tập luật ánh xạ cụm động từ Anh-Việt, chúng tôi sẽ giới thiệu mô hình chuyển đổi cấu trúc trợ động từ

và động từ chính tiếng Anh sang cấu trúc tiếng Việt tương ứng để giải thích rõ thêm

sự biến đổi cấu trúc từ tiếng Anh sang tiếng Việt trong các luật ánh xạ

4.1 Mô hình chuyển đổi cấu trúc “trợ động từ và động

từ chính” tiếng Anh sang cấu trúc tiếng Việt tương ứng

Từ những khảo sát về cấu trúc “trợ động từ và động từ chính” tiếng Anh và

“phụ từ và động từ chính” tiếng Việt đã được trình bày ở chương 3, cộng với việc tìm hiểu các qui luật văn phạm trong tiếng Anh (tham khảo công trình của hai tác giả A.J.Thomson và A.V.Martinet [15]) và dùng phương pháp chiếu thông qua kết quả đối sánh từ, ta sẽ có cơ sở để hình thành nên các luật ánh xạ từ cấu trúc “trợ động từ và động từ chính” tiếng Anh sang cấu trúc tiếng Việt tương ứng Xét ví dụ sau:

-The boy will be playing the football

<Hẳn là thằng bé đang chơi bóng đá.>

Cây cú pháp tương ứng với câu tiếng Anh “The boy will be playing the

football” ở hình 4.1 Hình 4.2 mô tả sự ánh xạ cấu trúc cú pháp của câu ở hình 4.1 sang cấu trúc cú pháp câu tiếng Việt tương ứng (ghi chú từ loại dùng trong cây cú pháp: SE, SV- câu tiếng Anh, câu tiếng Việt; NP- cụm danh từ; VP- cụm động từ; ART: mạo từ; N: danh từ; MD: động từ tình thái; VB: động từ nguyên mẫu; VBG-

Trang 33

động từ dạng hiện tại phân từ) Hình 4.3 minh hoạ phép chiếu dựa trên cơ sở đối sánh từ

Hình 4.1 Cây cú pháp của câu “The boy will be playing the football.”

Cây cú pháp tương ứng của câu tiếng Việt được hình thành sau phép ánh xạ:

Hình 4.2 Ánh xạ cấu trúc cú pháp của câu ở hình 3.1 sang cấu trúc cú pháp

tiếng Việt tương ứng.

Trang 34

Hình 4.3 Minh hoạ phép chiếu đối sánh từ, các cụm từ không phải động từ

sẽ để nguyên ở dạng nguồn

Có thể giải thích rõ hơn việc hình thành cây cú pháp của câu tiếng Việt bằng phương pháp ánh xạ cấu trúc cây cú pháp tiếng Anh sang tiếng Việt và bổ sung cho cây cú pháp tiếng Việt các từ đặc trưng của cú pháp động từ tiếng Việt Phần sau đâyminh hoạ luật sinh cụm động từ tiếng Việt được hình thành trên cơ sở phương pháp nói trên:

SE  NPE VPE SV  Hẳn là S

S  NPV VPV

VPE  will be VBG NPE VPV  đang VBV NPV

Như vậy từ một cụm:

VPE: will be playing/VBG (the football)/NP E

khi dịch qua tiếng Việt, để biểu thị ý nghĩa tình thái (ý suy đoán) của cấu trúc

will+be+động từ dạng hiện tại phân từ, ta phải thêm vào đầu câu phụ từ “hẳn là”,

phụ từ “đang” và chèn giữa hai phụ từ là chủ từ của câu Kết quả khi dịch sang

Trang 35

Trong đó SubjE, SubjV là chủ từ của câu tiếng Anh và tiếng Việt tương ứng

4.2 Tập luật ánh xạ Anh-Việt

Như đã trình bày trong phần 3.1 thì cụm động từ bao gồm ba phần: phần phụ phía trước, phần trung tâm và phần phụ phía sau Phần phụ phía trước của cụm động từ tiếng Anh gồm một trong các trợ động từ (auxiliary verb) cộng (có thể có

hoặc không có) trạng từ (adverb); phần trung tâm là động từ chính (main verb); phần phụ sau có thể là cụm danh từ, cụm tính từ, cụm giới từ,…

Trong phần “Xây dựng tập luật ánh xạ” này chúng tôi chỉ giới hạn việc xây

dựng tập luật cho cấu trúc gồm “trợ động từ và động từ chính” của tiếng Anh

Lý do là nếu xây dựng tập luật cho cả cụm động từ thì lúc đó phải xét cả cấu trúc các phần phụ sau (cụm danh từ, cụm tính từ, cụm giới từ,…), như vậy là khối lượng công việc rất lớn, thời gian đề tài không cho phép Và thêm nữa là chúng tôi không

xét dạng nghi vấn (interrogative) và dạng bị động (passive)

4.2.1 Các khái niệm

Có hai loại động từ trong tiếng Anh [15]:

Trợ động từ (auxiliary): to be, to have, to do; can, could, may, might, must,

ought to, shall, should, will, would; to need, to dare và used to

Còn lại tất cả các động từ khác được gọi là động từ thường: to work (làm việc),

to sing (ca hát), to pray (cầu nguyện), …

be, have, do

can, could, may, might, must, ought to, shall, should, will, would

need, dare, used to

Trang 36

Ngoài việc giúp hình thành các thì, trợ động từ còn kết hợp với động từ nguyên

thể để diễn tả các ý như sự cho phép (permission), khả năng thực hiện (ability), khả

năng xảy ra (possibility), bổn phận(obligation), …

Ví dụ:

<Nó nói được tiếng Pháp.>

<Chúng ta phải kh,n trương.>

Động từ thường có thể xuất hiện dưới các dạng sau:

Nguyên thể hiện tại

Nguyên thể hiện tại tiếp diễn

Nguyên thể hoàn thành

Nguyên thể hoàn thành tiếp diễn

(Present Perfect Continuous) to have been working

Hiện tại phân từ và danh động từ

Quá khứ phân từ

Xét luật sau:

Subj E may/might VBE  Có lẽ Subj V (sẽ) VB V

Trong đó:

- VBE: động từ nguyên thể tiếng Anh

- VBV: động từ tiếng Việt tương ứng với động từ tiếng Anh

Trang 37

- may/might: trợ động từ may hoặc might đều có thể áp dụng trên luật này

- Subj: viết tắt của Subject(chủ từ), không thuộc cụm động từ tiếng Anh, nhưng

khi được dịch qua tiếng Việt thì Subj lại xen vào giữa phụ từ (có lẽ) và các phần còn

lại của cấu trúc tiếng Việt, nên phải để Subj ở bên phần cấu trúc tiếng Anh

- (sẽ): khi được dịch sang tiếng Việt, có thể có hoặc không có từ sẽ, tuỳ tình

huống cụ thể

Xét thêm ví dụ sau:

You(Context) may VBE  Tôi cho phép anh VB V

- You(Context): nghĩa là chủ từ you đóng vai trò là ngữ cảnh (context), bởi vì trợ

động từ may trong luật này diễn tả sự cho phép Trong tình huống này khi chủ từ ở

ngôi thứ hai (you) thì sẽ có nghĩa là người nói cho phép người nghe (you) thực hiện một hành động nào đó, nên từ You trong luật này đóng vai trò là ngữ cảnh (context)

Ngoài ra còn có VBGE là hiện tại phân từ/ danh động từ (present participle/

gerund) của động từ tiếng Anh VBNE là quá khứ phân từ (past participle) của

động từ tiếng Anh

Sau đây là các luật ánh xạ được trình bày theo từng nhóm ý nghĩa khác nhau

của các trợ động từ, ví dụ như để diễn tả ý cho phép (permission) thì có các trợ

động từ may, can, để diễn tả bổn phận (obligation) thì có nhóm trợ động từ ought

to, should, must, need Vì đối với từng trợ động từ thì tuỳ tình huống cụ thể mà nó

diễn đạt những ý nghĩa khác nhau, như should chẳng hạn, trong tình huống nào đó thì nó diễn tả ý nghĩa bổn phận nhưng trong tình huống khác thì should lại diễn tả ý nghĩa suy diễn, cho nên ta phải xét theo từng nhóm ý nghĩa khác nhau để thấy rõ

những khả năng có thể xảy ra khi dịch một trợ động từ từ tiếng Anh sang tiếng Việt

4.2.2 Diễn tả sự cho phép (permission): can, could, may

lai

a/ Chủ từ ở ngôi thứ nhất

Trang 38

Dạng I/we can là dạng phổ biến nhất Ví dụ:

-I can leave

<Tôi được phép rời khỏi.>

-I can take a day off whenever I want

<Bất cứ khi nào tôi muốn là tôi cũng có thể nghỉ một ngày.>

Dạng I/we may cũng có ý nghĩa tương tự như vậy

-I may leave the office as soon as I have finished

<Ngay khi làm xong việc là tôi có thể rời văn phòng.>

Trong câu tường thuật, thường gặp dạng I/we may/might

-“You may leave when you’ve finished”, he says/said

=He says we may leave/ He said we might leave

<Ông ta nói chúng tôi có thể về.>

Thế nhưng trong cách nói thông thường thì dạng I/we can/could xuất hiện

nhiều hơn

-He says we can leave/ He said we could leave

<Ông ta nói chúng tôi có thể về.>

Trợ động từ can/may, với ý nghĩa chủ từ được chấp thuận làm một việc gì đó, khi dịch sang tiếng Việt có thể là được phép hoặc có thể, nhưng được phép mang ý nghĩa của sự cho phép rõ ràng hơn Rút ra được các luật sau:

• I/we(Context) can/may VBE  Tôi/chúng tôi được phép/có thể VB V

• I/we(Context) can/may not VBE

-You may park here

<Tôi cho phép anh đậu xe ở đây.>

Trang 39

Còn can diễn tả ý được phép (having permission):

-You can park here

Có thể mang nghĩa là: <Tôi cho phép anh/ Cảnh sát cho phép/ Anh có quyền đậu xe ở đây.>

Trong cách dùng này, can được dịch như thế nào là tuỳ thuộc vào ngữ cảnh

Như trên đây ngữ cảnh liên quan đến việc đậu xe thì người nói có thể là cảnh sát nói

với người lái xe “Tôi cho phép anh đậu xe ở đây”, hoặc là một người nào đó thông báo cho người lái xe biết là “Cảnh sát cho phép đậu xe ở đây” Ở ví dụ sau ngữ

cảnh xảy ra trong thư viện

Ví dụ:

-You can take two book home with you

<Tôi cho phép/ Thư viện cho phép anh mang hai cuốn sách về nhà.>

-You can’t eat sandwiches in the library

<Tôi không cho phép/Người thủ thư không cho phép/Anh không được phép ăn bánh kẹp trong thư viện.>

Ta có các luật:

• You(Context) may VBE  Tôi cho phép anh VB V

 Anh có thể VB V

• You(Context) can VBE  Anh có quyền/có thể VB V

 Tôi cho phép anh VB V

• You(Context) can/may not VBE



 Anh không được phép/không thể VB V  Tôi không cho phép anh VB V

c/ Chủ từ ở ngôi thứ ba

Can/may có thể ánh xạ thành “…có quyền/có thể…” hoặc “Tôi cho phép…” khi

người nói cho phép chủ từ ở ngôi thứ ba làm một việc gì đó

Ví dụ:

-He may take my car

<Anh ta có thể lấy xe tôi đi./Tôi cho phép anh ta lấy xe.>

Trang 40

Còn trong các câu không ngôi (impersonal statements, không chỉ đến một đối tượng cụ thể) liên quan đến quyền hành authority) và sự cho phép, không áp dụng cách ánh xạ can/may thành “Tôi cho phép ”

Ví dụ:

In certain circumstances a police officer may ask a driver to take a breath test

<Trong một vài tình huống, cảnh sát có thể/có quyền yêu cầu người lái xe cho kiểm tra hơi thở để đo mức độ rượu anh ta đã uống.>

2/ could dùng diễn tả sự cho phép nói chung trong quá khứ Tuy

nhiên could not lại được dùng rộng rãi hơn could

Ví dụ:

-On Sundays we could stay up late

<Vào chủ nhật chúng tôi được phép/có thể thức khuya.>

-We couldn’t bring our dog into the restaurant

<Chúng tôi không thể dẫn chó vào nhà hàng.>

Ta có các luật:

• could VB E  được phép/có thể VB V

• could not VB E  không được phép/không thể VB V

Ngày đăng: 08/03/2021, 23:54

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Diệp Quang Ban, 1989, “Ngữ pháp tiếng Việt phổ thông (tập 1, tập 2)”, Nhà xuất bản Đại học và Trung học chuyên nghiệp Sách, tạp chí
Tiêu đề: Ng"ữ" pháp ti"ế"ng Vi"ệ"t ph"ổ" thông (t"ậ"p 1, t"ậ"p 2)”
Nhà XB: Nhà xuất bản Đại học và Trung học chuyên nghiệp
[2] Đinh Văn Đức, 2001, “Ngữ pháp tiếng Việt (từ loại)”, Nhà xuất bản Đại học quốc gia Hà Nội Sách, tạp chí
Tiêu đề: “Ng"ữ" pháp ti"ế"ng Vi"ệ"t (t"ừ" lo"ạ"i)”
Nhà XB: Nhà xuất bản Đại học quốc gia Hà Nội
[3] Nguyễn Tài CNn, 1981, “Ngữ pháp tiếng Việt”, Nhà xuất bản Đại học và Trung học chuyên nghiệp Sách, tạp chí
Tiêu đề: “Ng"ữ" pháp ti"ế"ng Vi"ệ"t”
Nhà XB: Nhà xuất bản Đại học và Trung học chuyên nghiệp
[4] Nguyễn Hân, 2006, “Đối chiếu trật tự của các thành tố phụ trong đoản ngữ tiếng Việt và tiếng Anh”, Luận văn thạc sĩ ngữ văn, Trường đại học Khoa học Xã hội và Nhân văn thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Đố"i chi"ế"u tr"ậ"t t"ự" c"ủ"a các thành t"ố" ph"ụ" trong "đ"o"ả"n ng"ữ" ti"ế"ng Vi"ệ"t và ti"ế"ng Anh
[5] Nguyễn Chí Hiếu, 2008, “Xây dựng mô hình xác định cụm danh từ tiếng Việt trong cặp câu song ngữ Anh-Việt”, Luận án tiến sĩ kỹ thuật, Đại học quốc gia Thành phố Hồ Chí Minh, Đại học Bách Khoa Sách, tạp chí
Tiêu đề: Xây d"ự"ng mô hình xác "đị"nh c"ụ"m danh t"ừ" ti"ế"ng Vi"ệ"t trong c"ặ"p câu song ng"ữ" Anh-Vi"ệ"t
[6] Vũ Ngọc Tú, 1996, “Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu trúc cú pháp cơ bản”, Tóm tắt luận án phó tiến sĩ khoa học ngữ văn, Đại học quốc gia Hà Nội, Trường đại học khoa học xã hội và nhân văn.• Tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên c"ứ"u "đố"i chi"ế"u tr"ậ"t t"ự" t"ừ" Anh-Vi"ệ"t trên m"ộ"t s"ố" c"ấ"u trúc cú pháp c"ơ" b"ả"n
[7] Micheal Carl, Anday Way, 2003, “Recent advances in example-based machine translation”, Dordrecht: Kluwer Academic Publisher Sách, tạp chí
Tiêu đề: “Recent advances in example-based machine translation”
[8] Jennifer Coates, 1983, “The sematics of the modal auxiliaries”, Croom Helm Publisher Sách, tạp chí
Tiêu đề: “The sematics of the modal auxiliaries”
[9] John Hutchins, 2006, “Example-based machine translation: a review and commentary”, Machine Translation, Vol. 19, Issue 3-4, pp. 197-211 Sách, tạp chí
Tiêu đề: Example-based machine translation: a review and commentary”, "Machine Translation
[10] Y.S. Hwang, K. Paik, Y. Saraki, 2004, “Bilingual Knowledge Extraction using Chunk Alignment”, In Proceedings of PACLIC 18, Waseda University, Tokyo, December 8 th -10 th Sách, tạp chí
Tiêu đề: Bilingual Knowledge Extraction using Chunk Alignment”, In "Proceedings of PACLIC 18
[11] H.C. Nguyen, T.T. Phan, D.X. Nguyen, H.M. Le, 2006, “English- Vietnamse Noun Phrase Extraction”, In Proceedings of The 9 th International Oriental COCOSDA 2006 Conference, O-COCOSDA’06, pp. 161-164 Sách, tạp chí
Tiêu đề: English-Vietnamse Noun Phrase Extraction”, In "Proceedings of The 9"th" International Oriental COCOSDA 2006 Conference, O-COCOSDA’06
[12] T.P. Nguyen, A. Shimazu, 2006, “Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation”, In Proceedings of the 7 th Conference of the Assoctiation for Machine Translation in the Americas, Cambridge, August, pp. 138-147 Sách, tạp chí
Tiêu đề: Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation”, In "Proceedings of the 7"th"Conference of the Assoctiation for Machine Translation in the Americas
[13] M.F. Porter, 1997, “An algorithm for suffix stripping”, Readings in Information Retrieval 1997, Morgan Kaufmman Publishers Inc., pp. 313-316 Sách, tạp chí
Tiêu đề: An algorithm for suffix stripping”, "Readings in Information Retrieval 1997
[14] Harold Somers, 1999, “Review Article: Example-Based Machine Translation”, Machine Translation, Vol. 14, Issue 2, Kluwer Academic Publishers, pp. 113-157 Sách, tạp chí
Tiêu đề: Review Article: Example-Based Machine Translation”, "Machine Translation
[15] A.J.Thomson, A.V.Martinet, “Ngữ pháp tiếng Anh thực hành- A Practical English Grammar”, dịch và chú giải Nguyễn Trung Tánh, Nhà xuất bản Thành phố Hồ Chí Minh, 1996 Sách, tạp chí
Tiêu đề: “Ng"ữ" pháp ti"ế"ng Anh th"ự"c hành- A Practical English Grammar”
Nhà XB: Nhà xuất bản Thành phố Hồ Chí Minh
[16] W. Wang, M. Zhou, 2002, “Structure Alignment Using Bilingual Chunking”, In Proceedings of The 19 th International Conference on Computational Linguistics, Coling Sách, tạp chí
Tiêu đề: Structure Alignment Using Bilingual Chunking”, In "Proceedings of The 19"th" International Conference on Computational Linguistics
[17] H. Wantanabe, S. Kurohashi, and E. Aramakia, 2000, “Finding Structural Correspondences from Bilingual Parsed Corpus for Corpus-based Translation”, In Proceedings of The 18 th conference on Computational Linguistics, Germany, July 31- August 04 Sách, tạp chí
Tiêu đề: Finding Structural Correspondences from Bilingual Parsed Corpus for Corpus-based Translation”, In "Proceedings of The 18"th" conference on Computational Linguistics
[18] D.Yarowsky and G.Ngai, 2001, “Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection across Aligned Corpora”, In Second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies 2001, Pittspurgh, Pennsylvania, June 01-07, pp. 1-8 Sách, tạp chí
Tiêu đề: Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection across Aligned Corpora”, In "Second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies 2001

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w