Trong luận văn này, chúng tôi xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh sang tiếng Việt tương ứng, tập luật này là một cơ sở để xây dựng kho ngữ liệu cụm động từ song ng
Trang 1Tp HCM, ngày 30 tháng 11 năm 2008
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Huỳnh Thị Ngọc Thuý Giới tính : Nam/ Nữ
Ngày, tháng, năm sinh : 20/07/1982 Nơi sinh : Trà Vinh
Khoá : 2006
1- TÊN ĐỀ TÀI :
Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng
Việt tương ứng
2- NHIỆM VỤ LUẬN VĂN :
- Nghiên cứu văn phạm tiếng Anh trong phạm vi động từ và trợ động từ
- Nghiên cứu văn phạm tiếng Việt trong phạm vi động từ và các thành tố
phụ phía trước của động từ
- Nghiên cứu các phương pháp ánh xạ cấu trúc cú pháp động từ tiếng Anh
sang tiếng Việt, chú ý những nét tương đồng và khác biệt giữa hai cấu trúc
- Xây dựng tập luật ánh xạ từ cấu trúc của động từ tiếng Anh sang tiếng
Việt
- Viết chương trình để dịch động từ tiếng Anh sang tiếng Việt
3- NGÀY GIAO NHIỆM VỤ : 15/06/2008
4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông
qua
(Họ tên và chữ ký)
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : PGS.TS Phan Thị Tươi
Cán bộ chấm nhận xét 1 : TS Nguyễn Xuân Dũng
Cán bộ chấm nhận xét 2 : TS Quản Thành Thơ
Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng 02 năm 2009
Trang 3Xin cảm ơn các bạn cùng lớp, gia đình, những người đã giúp đỡ, động viên tôi rất nhiều trong quá trình hoàn thành luận văn này
Trang 4Tóm tắt
Dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine Translation_CBMT)
là mô hình dịch máy chiếm ưu thế trong thập kỉ vừa qua Trong các hệ thống CBMT có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus) gồm các chuỗi văn bản ở ngôn ngữ nguồn (source language) cùng với các chuỗi văn bản tương ứng ở ngôn ngữ đích (target language) Một trong hai hướng chính của CBMT là dịch máy dựa trên ví dụ (Example-Based Machine Translation_ EBMT)
Hệ thống EBMT dùng kỹ thuật so trùng các chuỗi trong văn bản đầu vào với các chuỗi ngôn ngữ nguồn trong kho ngữ liệu, rút trích các chuỗi ngôn ngữ đích tương ứng và kết hợp các chuỗi ngôn ngữ đích này lại để cho ra kết quả là văn bản đầu ra Đơn vị cơ bản của các đoạn văn bản trong kho ngữ liệu là chuỗi từ (cụm từ – phrase hoặc đoạn – fragment) Mức cụm từ được chọn để lưu trữ khi xây dựng kho ngữ liệu thay vì mức câu hay mức từ là do độ chính xác khi dịch ở mức cụm từ cao hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn mức câu Trong luận văn này, chúng tôi xây dựng tập luật ánh xạ cấu trúc từ cụm động
từ tiếng Anh sang tiếng Việt tương ứng, tập luật này là một cơ sở để xây dựng kho ngữ liệu cụm động từ song ngữ Anh-Việt Các luật ánh xạ được chúng tôi rút ra từ quá trình khảo sát cấu trúc cụm động từ tiếng Anh, tiếng Việt, các qui luật văn phạm của động từ tiếng Anh và dùng phương pháp chiếu thông qua kết quả đối sánh
từ
Trang 5Corpus-Base Machine Translation (CBMT) has been the dominant model of machine translation in the last decade In CBMT, there is existence of bilingual parallel corpus comprises of texts in source language together with correlative texts
in target language Example-Based Machine Translation (EBMT) is one of the two main trends of CBMT The basic techniques for EBMT are the matching of the input strings again source strings in the corpus, the extraction of corresponding target language strings and the recombination the strings as output result
The basic unit in the corpus is sequence of words (phrase or fragment) To constructing the corpus, examples at phrase-level are chosen for storage instead of word-level or sentence-level It can explain that the translating at phrase-level is more exact than at word-level and the capacity as well as the gathering of examples
in phrase-level is more possible than in sentence level In this thesis, we construct a mapping rule set of verb phrase structure from English to Vietnamese, this set is a foundation for constructing English-Vietnamese verb-phrase bilingual parallel corpus The rules were shaped as the results of the studying processes in English verb phrase structure, Vietnamese verb phrase structure, English grammar and applying “projection across word-alignment” method
Trang 6MỤC LỤC
Lời cảm ơn i
Tóm tắt ii
Abstract iii
Mục lục iv
Danh mục hình vi
Danh mục bảng biểu vii
Chương 1 Tổng quan 1
Chương 2 Các Nghiên Cứu Liên Quan 5
Chương 3 Cơ Sở Lý Thuyết 9
3.1 Trợ động từ và động từ chính trong cấu trúc cụm động từ tiếng Anh 10 3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh 10
3.1.2 Các thành tố phụ phía trước 11
3.1.3 Trung tâm của cụm động từ tiếng Anh 14
3.2 Phần phụ trước và động từ chính của cụm động từ tiếng Việt 15
3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt 15
3.2.2 Các thành tố phụ phía trước 16
3.2.3 Trung tâm của cụm động từ tiếng Việt 20
3.2.4 Các phạm trù ngữ pháp và trật tự 21
Chương 4 Tập luật ánh xạ Anh-Việt 23
4.1 Mô hình chuyển đổi cấu trúc “trợ động từ và động từ chính” tiếng Anh sang cấu trúc tiếng Việt tương ứng 23
4.2 Tập luật ánh xạ Anh-Việt 26
Trang 74.2.1 Các khái niệm 26
4.2.2 Diễn tả sự cho phép (permission): can, could, may 28
4.2.3 Diễn tả sự suy đoán về khả năng xảy ra (possibility): can, could, may, might 32
4.2.4 Diễn tả khả năng thực hiện (ability): can và be able 35
4.2.5 Diễn tả bổn phận (obligation): ought to, should, must, need 38
4.2.6 Diễn tả sự suy diễn (deduction) và giả định (assumption): must, have, will và should 41
4.2.7 Dare, need và used to 45
4.2.8 “Be, have, do” với vai trò là trợ động từ 47
4.2.9 Diễn đạt ý tương lai 55
Chương 5 Hiện thực và đánh giá 63
5.1 Hiện thực 63
5.1.1 Tiền xử lý 64
5.1.2 Ánh xạ cụm động từ tiếng Anh sang tiếng Việt 65
5.1.3 Giải quyết nhập nhằng 66
5.2 Đánh giá độ chính xác của chương trình 68
Chương 6 Kết luận 72
6.1 Đóng góp của luận văn 72
6.2 Hướng phát triển 73
Tài Liệu Tham Khảo 74
Phụ lục A GATE_công cụ rút trích cụm từ và gán nhãn từ loại cho câu tiếng Anh .77 Phụ lục B Bảng thống kê tập luật ánh xạ theo từng ý nghĩa
Phụ lục C Bảng thống kê tập luật ánh xạ theo từng trợ động từ
Trang 8Danh mục hình
Hình 4.1 Cây cú pháp của câu “The boy will be playing the football”………… 24 Hình 4.2 Ánh xạ cấu trúc cú pháp của câu ở hình 3.1 sang cấu trúc cú pháp tiếng Việt tương ứng ……….24 Hình 4.3 Minh hoạ phép chiếu đối sánh từ ………25 Hình 5.1 Mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng Việt…… 64 Hình 5.2 Mô hình biểu diễn ý nghĩa của CAN dưới dạng tập mờ……… 67
Trang 9Danh mục bảng biểu
Bảng 5.1 Kết quả đánh giá trên tập câu song ngữ huấn luyện rút ra từ tài liệu “Ngữ pháp tiếng Anh thực hành- A Practical English Grammar”……… 69 Bảng 5.2 Kết quả đánh giá trên tập câu rút ra từ tài liệu“The semantics of the modal auxiliaries” ……… 69 Bảng 5.3 Ví dụ cặp câu song ngữ Anh-Việt và kết quả đầu ra tương ứng khi chạy chương trình ……….69 Bảng 5.4 Kết quả đánh giá trên tập câu song ngữ huấn luyện ……….71 Bảng 5.5 Kết quả đánh giá trên tập câu trong tài liệu “The semantics of the modal auxiliaries” ……… 71
Trang 10Chương 1 :
Tổng quan
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực nghiên cứu rất quan trọng, động cơ thúc đNy nhiều nhà khoa học máy tính quan tâm đến lĩnh vực này chính là khả năng xử lý ngôn ngữ tự nhiên sẽ cách mạng hoá cách thức máy tính được sử dụng Bởi vì phần lớn tri thức của con người được ghi lại dưới dạng ngôn ngữ, máy tính nếu có khả năng hiểu được ngôn ngữ tự nhiên sẽ tiếp cận được toàn bộ nguồn thông tin này Thêm vào đó, máy tính dùng những giao diện diễn đạt bằng ngôn ngữ tự nhiên sẽ cho phép mọi người, kể cả những người không chuyên, tiếp cận dễ dàng các hệ thống phức tạp
Dịch máy (machine translation - MT) là một trong nhiều ứng dụng của lĩnh vực
xử lý ngôn ngữ tự nhiên, mục đích của dịch máy là làm cho máy tính có thể chuyển văn bản hay giọng nói từ một ngôn ngữ tự nhiên này sang một ngôn ngữ tự nhiên khác mà vẫn giữ nguyên ngữ nghĩa và sự trong sáng của nó Trong thập kỉ vừa qua, các mô hình dịch máy dựa trên kho ngữ liệu (copus-based hoặc data-driven) có ưu thế vượt trội, điều này tương phản sâu sắc với các mô hình ở những năm 1980 và các thập kỉ trước, đó là mô hình dịch máy dựa trên luật (rule-based) [9]
Trong các hệ thống dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine
Translation – CBMT) có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus) gồm các đoạn (segments) văn bản ở ngôn ngữ nguồn cùng với các đoạn văn bản tương ứng ở ngôn ngữ đích, kích thước của các đoạn khác nhau tuỳ từng hệ thống, nhưng tiêu biểu là ở mức câu (sentence) Kho ngữ liệu này được sử dụng cho mục đích tra cứu, tham khảo để thu được các tri thức cần thiết cho mỗi lần
dịch mới Trong mô hình CBMT lại phân ra làm hai hướng phân biệt: dịch máy
thống kê (Statistical Machine Translation – SMT) và dịch máy dựa trên ví dụ
Trang 11(Example-Based Machine Translation – EBMT) SMT chủ yếu dựa trên tần số xuất hiện của từ (word frequency) và sự kết hợp các từ (word combinations) còn EBMT dựa trên sự rút trích và kết hợp các cụm từ (hoặc các đoạn ngắn hơn mức cụm từ) [9]
Một hệ thống dịch máy được gọi là một hệ thống EBMT nếu nó dùng những đoạn (chuỗi từ chứ không phải từng từ riêng rẽ) văn bản ngôn ngữ nguồn được rút
ra từ kho ngữ liệu chứa các ví dụ mẫu để tạo nên các văn bản ngôn ngữ đích với cùng một nghĩa Đơn vị cơ bản của EBMT là chuỗi từ (cụm từ – phrase hoặc đoạn – fragment); và các kỹ thuật cơ bản là tìm kiếm các chuỗi ngôn ngữ nguồn trong kho ngữ liệu phù hợp với các chuỗi trong văn bản đầu vào, rút trích các chuỗi ngôn ngữ đích tương ứng và kết hợp lại các chuỗi ngôn ngữ đích này cho ra kết quả là câu ở ngôn ngữ đích có thể chấp nhận được
Vì EBMT là mô hình dịch máy dựa trên kho ngữ liệu, nên điều cần thiết đầu tiên là việc xây dựng kho ngữ liệu song ngữ song song Kho ngữ liệu có thể được xây dựng dựa vào các nguồn dữ liệu sẵn có như các trang World Wide Web (được trình bày bằng hai hoặc nhiều hơn hai ngôn ngữ) Ngoài ra kho ngữ liệu của hệ thống EBMT có thể do chính đội ngũ phát triển xây dựng, hoặc được trích lọc kỹ càng từ nguồn dữ liệu trong thực tế Cách làm thứ nhất có khuyết điểm là nếu lấy trực tiếp từ nguồn dữ liệu to lớn bên ngoài thì sẽ bao gồm những ví dụ (examples) trùng lắp lên nhau, điều này có thể dẫn đến việc cùng một ví dụ ở ngôn ngữ nguồn lại tương ứng với hơn một ví dụ ở ngôn ngữ đích [14] Đối với cách làm thứ hai, người ta đã sưu tập kho ngữ liệu song ngữ ở mức cụm từ thay vì mức câu hay mức
từ Người ta chọn mức cụm từ là do độ chính xác khi dịch dựa trên mức cụm từ cao hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn ở mức câu (vì chúng ta không thể lưu trữ hết tất cả các câu song ngữ trong quá khứ, hiện tại và tương lai) [5]
Để xây dựng kho ngữ liệu dựa trên cụm từ thì vấn đề cần quan tâm là việc nhận dạng và rút trích cụm từ (cụm danh từ, cụm động từ,…) trong văn bản song ngữ song song Vấn đề này đã được nhiều tác giả trên thế giới quan tâm nghiên cứu trên
Trang 12nhiều ngôn ngữ khác nhau, ví dụ đối với tiếng Anh đã có công cụ GATE để nhận diện và rút trích cụm từ Còn trong tiếng Việt, các nghiên cứu trong lĩnh vực này vẫn còn khá ít ỏi, chủ yếu tập trung ở các trường Đại học Khoa học tự nhiên , Đại học Bách Khoa; ví dụ như công trình của tác giả Nguyễn Chí Hiếu [5] về nhận biết
và rút trích cụm danh từ tiếng Việt Như vậy cụm từ tiếng Việt vẫn còn nhiều vấn
đề mở cần được nghiên cứu, đặc biệt là cụm động từ vẫn chưa được nhiều người quan tâm Thế nhưng một cản trở cơ bản của tiếng Việt (cũng như hơn 200 ngôn ngữ khác trên thế giới) khi muốn phát triển các ứng dụng về xử lý ngôn ngữ tự nhiên đó là vấn đề thiếu vắng nguồn ngữ liệu có chú thích Để vượt qua cản trở đó, người ta có thể dựa vào kho ngữ liệu sẵn có và các công cụ xử lý ngôn ngữ của một ngôn ngữ giàu tài nguyên như tiếng Anh Ý tưởng này xuất phát từ công trình nghiên cứu của Yarowsky[18], trong đó tác giả đề xuất cách tiếp cận dùng phương pháp chiếu (projection) dựa trên kết quả đối sánh từ (word-alignment) để xác định cụm danh từ cơ sở, áp dụng cho cặp Anh-Pháp
Trong đề tài này, chúng tôi sẽ dựa trên những nét cơ bản về đối sánh từ của Yarowsky, tức là việc “xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh sang tiếng Việt tương ứng” sẽ dựa trên tiếp cận chiếu qua kết quả đối sánh từ Anh-Việt Kết quả là từ cụm động từ tiếng Anh (ngôn ngữ nguồn) thông qua luật ánh xạ
có thể đưa ra đượccấu trúccụm động từ tiếng Việt (ngôn ngữ đích) tương ứng Dựa vào tập luật ánh xạ này, từ một câu đơn tiếng Anh có chứa trợ động từ, ta có thể suy
ra được cụm động từ tiếng Việt có ý nghĩa tương đương với cụm động từ trong câu tiếng Anh, góp phần trong việc tạo ra kho ngữ liệu cụm động từ song ngữ Anh-Việt Tuy nhiên, trong cụm động từ có thể chứa cả cụm danh từ, cụm giới từ, trạng
từ, … , nếu xét cả cụm động từ thì khối lượng công việc rất lớn Cho nên trong luận
văn này chúng tôi chỉ giới hạn ở mức “xây dựng tập luật ánh xạ từ cấu trúc trợ động
từ và động từ chính tiếng Anh sang cấu trúc tiếng Việt tương ứng” hơn nữa, chúng tôi cũng không xem xét dạng câu hỏi (interrogative) và dạng bị động (passive)
Trong phần này, chúng tôi tạm gọi cấu trúc trợ động từ và động từ chính tiếng Anh và cấu trúc phụ từ và động từ chính tiếng Việt lần lượt là động từ tiếng Anh và
Trang 13động từ tiếng Việt Qua quá trình nghiên cứu, phân tích và tổng hợp chúng tôi đã
đưa ra được những mối tương quan giữa động từ tiếng Anh và động từ tiếng Việt từ
đó tạo ra tập luật ánh xạ song ngữ từ động từ tiếng Anh sang động từ tiếng Việt trên
cơ sở phương pháp chiếu đối sánh từ
Trên nền tảng của tập luật ánh xạ, chúng tôi xây dựng một chương trình ánh xạ
cấu trúc từ động từ tiếng Anh sang tiếng Việt với đầu vào là câu đơn tiếng Anh và
đầu ra sẽ là động từ tiếng Việt có ý nghĩa tương đương với động từ tiếng Anh trong câu đầu vào
Tập luật ánh xạ này sẽ là cơ sở để xây dựng kho ngữ liệu song ngữ của cặp cụm động từ Anh-Việt trợ giúp cho những nghiên cứu liên quan trong lĩnh vực xử lý ngôn ngữ tự nhiên
Trang 14Chương 2 :
Các nghiên cứu liên quan
Để xây dựng kho ngữ liệu song ngữ cho cụm từ, có thể có nhiều cách khác nhau như dựa trên tập ngữ liệu các câu song ngữ, hoặc có thể dựa trên một ngôn ngữ giàu tài nguyên (ví dụ tiếng Anh), từ đó thông qua các mô hình dịch cụm từ để thu được cụm từ ở ngôn ngữ đích (ví dụ tiếng Việt) Ta xem xét các nghiên cứu với hướng tiếp cận dựa trên ngôn ngữ [10],[11], [12], [16], [17] Các nghiên cứu này chủ yếu dựa trên các yếu tố ngôn ngữ như các luật ánh xạ cấu trúc, các mối quan hệ phụ thuộc giữa các cụm từ, … để thu được tri thức song ngữ
Trong [17], các tác giả mô tả hệ thống và phương pháp tìm cấu trúc tương ứng
từ cặp cấu trúc phụ thuộc của cặp câu nguồn và câu đích Hệ thống này đầu tiên là tìm từ tương ứng, sau đó mới tìm cụm từ tương ứng trên cơ sở các từ tương ứng Đầu vào của phương pháp là cặp câu đã được phân tích Phương pháp này gồm hai bước chính như sau:
B1 : Tìm các cặp từ tương ứng, nghĩa là sự tương ứng giữa các nút trên cây
phân tích cú pháp nguồn và đích
B2 : Tìm các cặp cụm từ tương ứng dựa trên các cặp từ tương ứng đã tìm
được ở bước B1, nghĩa là tìm một tập các cặp cụm từ tương ứng sao cho chúng bao phủ hết các thành phần của cây phân tích cú pháp
Ở bước B1, việc tìm các từ tương ứng dựa trên cơ sở dịch từ điển và giải quyết nhập nhằng bằng cách thiết lập từ dự tuyển tương ứng và chọn từ tương ứng thích hợp bằng cách tính khoảng cách ngữ nghĩa từ các cặp từ tương ứng dự tuyển đến một cặp từ tương ứng đã được giải quyết nhập nhằng Tuy nhiên yếu điểm của phương pháp là ngưỡng độ đo sẽ không chuNn, khi áp dụng cho các cặp ngôn ngữ khác nhau (xa nhau về ngữ hệ)
Trang 15Trong giải thuật tìm cụm từ tương ứng, các tác giả đưa ra các khái niệm về cây giới hạn, cụm đóng và cụm mở, với các điểm neo là các từ tương ứng; cụm đóng là cụm mà các nút lá của cụm nguồn đều có điểm neo trong cụm đích; cụm mở là cụm còn ít nhất một nút lá không có điểm neo trên cụm đích Ý tưởng của giải thuật như sau :
1) Đầu tiên, tìm các cặp cụm từ tương ứng sao cho không có nút nào khác ngoài nút đầu và nút cuối là điểm neo
2) Kết hợp các cặp cụm mở tương ứng có chung nút mở để tạo thành cụm đóng
3) Kết hợp các cặp cụm tương ứng có chung nút mà không phải điểm neo 4) Tìm các đường đi mở Nếu nút gốc của đường đi là điểm neo thì trộn đường đi vào trong cặp cụm tương ứng chứa nút gốc đó Ngược lại, tạo một cặp cụm tương ứng mới bằng cách kết hợp các đường đi có nút gốc đó Tuy nhiên cụm từ của họ không phải là cụm đúng như nghĩa của ngôn ngữ học, và dữ liệu kiểm tra tương đối nhỏ để đánh giá (130 cặp câu)
Trong một nghiên cứu khác của các tác giả Hwang Y S., Paik K H và, Saraki Y [10], một phương pháp mới được đề xuất để thu được tri thức song ngữ, bằng cách khai thác mối quan hệ phụ thuộc giữa cụm từ trong câu Sau quá trình đối sánh, có thể thu được các mối quan hệ phụ thuộc giữa các cụm từ trong câu đích dựa vào mối quan hệ trong câu nguồn, nghĩa là câu đích sẽ đồng nhất cú pháp với câu nguồn mà không cần dùng đến công cụ phân tích cú pháp cho câu đích
Các tác giả đã tiến hành nghiên cứu trên cặp câu Nhật-Hàn Đầu vào của hệ thống là một cặp câu gồm một câu đã được phân tích cú pháp có những thông tin phụ thuộc đi kèm và một câu đã được gán nhãn từ loại Quá trình đối sánh sẽ được thực hiện ở cả mức cụm từ và từ, và gồm có ba bước chính như sau:
1) Đối sánh từ dựa trên từ điển song ngữ Ở bước này, hệ thống sẽ cố gắng dịch các từ dựa trên từ điển Các biến thể khác nhau, các hình thái khác nhau của từ, các danh từ riêng, … cũng được xem xét Để giải quyết nhập nhằng, các tác giả đã sử dụng mộ số ràng buộc ngôn ngữ như : vị trí của
Trang 16một từ tương ứng sẽ chỉ nằm trong một kích thước cửa sổ cho trước vì trật tự từ trong hai ngôn ngữ là như nhau; một từ loại sau khi đối sánh sẽ vẫn giữ nguyên chức năng của nó
2) Đối sánh cụm từ bằng phương pháp thống kê với các ràng buộc là kết quả đối sánh từ ở bước 1) và dưạ trên đường biên của cụm từ trong ngôn ngữ nguồn Ở bước này, các tác giả đã sử dụng các luật đối sánh dựa trên cấu trúc cụm danh từ nguồn, sự tương tự về cấu trúc giữa hai ngôn ngữ cũng như các đối sánh tương ứng có được ở bước 1) Tuy nhiên, các luật đơn giản chỉ giải quyết được những trường hợp hai câu nguồn và đích có cấu trúc tương tự nhau Để giải quyết vấn đề trên, các tác giả đã sử dụng mô hình thống kê cho việc đối sánh cụm từ
3) Đối sánh từ bằng phương pháp thống kê Sau khi các cụm từ tương ứng
đã được đối sánh, các từ trong các cụm từ đó sẽ được tiếp tục đối sánh để cho kết quả cuối cùng
Với việc rút trích tri thức song ngữ, đầu tiên họ thu về các kết quả phân tích cú pháp song ngữ bằng cách chia sẻ những mối quan hệ phụ thuộc giữa từng cặp câu được đối sánh mức từ và mức cụm từ Kế đó họ duyệt đệ quy các kết quả phân tích
cú pháp đó để tiếp nhận những tri thức song ngữ khác nhau và áp dụng phương pháp lọc qua từng bước để thu được những thông tin có giá trị
Khác với các phương pháp thông thường, đối sánh dựa trên cây phân cấp cú pháp, các tác giả trong [16] đưa ra phương pháp gọi là phương pháp phân nhóm từ song ngữ, dựa trên hướng tiếp cận đối sánh các nhóm từ của ngôn ngữ nguồn và ngôn ngữ đích Mô hình của các tác giả gồm có ba thành phần : hai mô hình phân nhóm từ của hai ngôn ngữ nguồn và đích và sự ràng buộc của nhóm từ tương ứng trong hai ngôn ngữ Sự ràng buộc yêu cầu nhóm từ trong một ngôn ngữ chỉ tương ứng nhiều nhất với một nhóm từ của một ngôn ngữ khác Để thỏa mãn ràng buộc này trong cài đặt, các nhóm từ có lúc bị chia thành các đơn vị nhỏ hơn Ví dụ cụm
từ “the first man” có thể bị chia làm hai cụm là “the first” và “man” Cụ thể, mô hình phân nhóm từ bao gồm các bước chính như sau :
Trang 171) Đối sánh từ giữa hai câu trong ngôn ngữ nguồn và ngôn ngữ đích
2) Phân nhóm từ trong câu ngôn ngữ nguồn
3) Phân nhóm từ trong câu ngôn ngữ đích
Trong đó, bước 2) và 3) phải tuân theo nguyên tắc ràng buộc giữa các nhóm từ song ngữ
Ở giai đoạn phân nhóm từ, họ sử dụng mô hình “inter-chunk” và chunk”, để xác định nhóm từ của cả hai ngôn ngữ Anh-Trung Phương pháp đánh giá nhóm từ trên các chiều dài khác nhau, từ 1 đến 7 và kết quả tốt nhất với chiều dài cụm từ là 4 Tuy nhiên bất lợi của phương pháp là các nhóm từ này không phải
“intra-là nhóm từ do các nhà ngôn ngữ học định nghĩa và khi chiều dài câu cũng như trật
tự từ trong câu không đồng nhất thì độ chính xác sẽ bị giảm
Trong [11], các tác giả đưa ra hai hướng tiếp cận cho vấn đề rút trích tự động cụm danh từ song ngữ Anh-Việt từ kho ngữ liệu song ngữ Cách tiếp cận thứ nhất tập trung vào việc giải quyết vấn đề đối sánh rỗng và vấn đề đối sánh chồng chéo, bằng cách biến đổi cấu trúc cú pháp của câu trong ngôn ngữ nguồn sang dạng cấu trúc cú pháp tương ứng của câu trong ngôn ngữ đích, công việc này được tiến hành trong giai đoạn tiền xử lý
Cách tiếp cận thứ hai cung cấp một mô hình dịch máy dựa trên phương pháp thống kê Ý tưởng của cách tiếp cận thứ hai là đối với các cụm danh từ trong câu chỉ
để lại những từ tiêu biểu cho cụm danh từ, và loại bỏ những từ không tiêu biểu Và mỗi cụm danh từ cơ sở lúc này sẽ được hợp nhất lại như một từ đại diện (representative word) Kế đó dùng công cụ GIZA++ để tiến hành việc đối sánh từ trên các cặp câu mà trong đó các cụm danh từ đã được chuyển thành các từ đại diện Cách tiếp cận này thu được độ chính xác 88.2% và độ hồi quy 82.3% khi tiến hành trên bộ ngữ liệu vàng (golden standard data)
Trang 18Chương 3 :
Cơ sở lý thuyết về động từ tiếng Anh, tiếng Việt
Động từ là từ loại được dùng để chỉ các dạng của vận động như:
- Chỉ hành động: drink (uống), listen (nghe), play (chơi), eat (ăn), throw
(ném)…
- Chỉ tiến trình: change (thay đổi), grow (phát triển), widen (mở rộng),
deteriorate (tồi tệ đi),…
- Chỉ cảm giác: ache (đau), feel (cảm thấy), hurt (đau)…
- Chỉ sự kiện quá độ: arrive (đến), die (chết), fall(ngã), land (hạ cánh), leave
(dời đi),…
- Chỉ trạng thái: believe (tin tưởng), intend (dự định), know (biết), remember
(nhớ), think (nghĩ), understand (hiểu), apply to (áp dụng cho), belong to (thuộc về), require (yêu cầu),…
Cụm động từ là một tổ hợp từ tự do có quan hệ chính phụ giữa thành tố chính với thành tố phụ, có động từ làm thành tố chính (trung tâm), có các đặc điểm sau:
- Cụm động từ cấu trúc theo nguyên tắc bao gồm một thành tố chính (trung tâm) do động từ đảm nhiệm và các thành tố phụ đứng trước hoặc đứng sau trung tâm
- Quan hệ giữa trung tâm và các thành tố phụ là quan hệ chính phụ trên nguyên tắc trung tâm không thể bị lược bỏ [4], [6]
Trang 193.1 Trợ động từ và động từ chính trong cấu trúc cụm
3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh
Các thành tố phụ ở phần đầu cụm động từ tiếng Anh bao giờ cũng là các trợ động từ (auxiliary verb) mà trợ động từ tình thái (modal verb) nếu có bao giờ cũng
đứng ở vị trí đầu tiên Các thành tố phía sau có thể là danh từ, tính từ, động từ không chia, số từ, trạng từ, cụm giới từ hoặc mệnh đề
• Ở dạng đầy đủ nhất, cụm động từ bao gồm 3 phần:
Các thành tố phụ phía trước + trung tâm + các thành tố phụ phía sau của cụm động từ, được mô tả ở sơ đồ dưới đây:
• Ở dạng không đầy đủ, cụm động từ tiếng Anh cũng có thể xuất hiện dưới dạng một thành phần (phần trung tâm) hoặc hai thành phần:
- Dạng đơn giản nhất: chỉ có phần trung tâm
(The sun) rises
- Thành tố phụ phía trước + trung tâm
Trung tâm
Cụm động từ
Thành tố phụ phía trước Trung tâm Thành tố phụ phía sau
Trang 20
- Trung tâm + thành tố phụ phía sau
(She) laughs at me
3.1.2 Các thành tố phụ phía trước
1/ Trợ động từ và trật tự
Trợ động từ (auxiliary verb) trong tiếng Anh gồm có ba trợ động từ chính “be,
have, do” , mười trợ động từ tình thái (modal verb) “can, could, may, might, must,
ought to, shall, should, will, would” và các trợ động từ bán khiếm khuyết
(semi-modal verb) “dare, need, used to”
Ngoài việc dùng để thành lập các thì (tense), trợ động từ khác với động từ chính (động từ mang ý nghĩa từ vựng _ lexical verb) ở chỗ chúng có thể xuất hiện với 4 cấu trúc ngữ pháp sau: phủ định, nghi vấn, mã (code) và khẳng định nhấn mạnh
(i) Phủ định: chỉ có trợ động từ mới có dạng phủ định, tức là đứng trước thành
tố phủ định “not” theo trật tự:
Trợ động từ (Aux) + not + động từ chính (V)
Ví dụ:
She is not studying
Hầu hết các trợ động từ trong tiếng Anh đều có dạng phủ định rút gọn và trong
trường hợp đó trợ động từ + từ phủ định “not” được xem như một từ
Ví dụ:
She isn’t studying
(ii) Nghi vấn: chỉ có trợ động từ mới có thể xuất hiện trước chủ ngữ (S) để tạo
thành câu nghi vấn:
Thành tố phụ phía trước Trung tâm
Trung tâm Thành tố phụ phía sau
Trang 21Trợ động từ (Aux) + S + V
Ví dụ:
Does she sing?
(iii) Mã (code): chỉ có trợ động từ mới có thể thay thế cho toàn bộ cụm động từ
đã được đề cập trước đó, hoặc được ngầm hiểu trong những ngữ cảnh nhất định
Ví dụ:
“You want your money back, I suppose”, said George with a sneer
“Of course I do – I always did…” says Dobbin
Trong ví dụ trên “do” thay thế cho “want my money back” và “did” thay thế cho động ngữ “wanted my money back” đã được đề cập tới ở câu trước đó
(iv) Khẳng định, nhấn mạnh: chỉ có trợ động từ mới được dùng dưới dạng
khẳng định nhấn mạnh:
Trợ động từ + động từ chính
Ví dụ:
“You did have a round with the coachman”, Captain Dobbin said
“Anh chắc đã đánh nhau với người lái xe”, Đại úy Dobbin nói.
2/ Trật tự các thành tố phụ phía trước
Các thành tố phụ phía trước của cụm động từ tiếng Anh bao gồm trợ động từ và trạng ngữ Trong cùng một cụm động từ có thể có nhiều trợ động từ xuất hiện và trong trường hợp đó trật tự của chúng rất nghiêm ngặt: trợ động từ tình thái bao giờ cũng xuất hiện ở vị trí đầu rồi mới đến các trợ động từ khác Chúng ta có thể gặp các dạng cấu trúc có trật tự sau:
A Trợ động từ tình thái: bao giờ cũng đứng trước động từ trung tâm nguyên
dạng không có tiểu từ “to” theo trật tự: modal + V
Ví dụ:
I can see John at this minute… <Tôi có thể gặp John bây giờ…>
Trợ động từ tình thái có một số ý nghĩa khác nhau như: diễn đạt khả năng (possibility); diễn đạt năng lực (ability); diễn đạt sự chắc chắn, tính tất yếu logic;
Trang 22diễn đạt sự phỏng đoán (prediction); diễn đạt dự đoán, khả năng có thể có (probability); diễn đạt bổn phận (obligation); diễn đạt sự cho phép (permission); diễn đạt lời khuyên, gợi ý
B Hoàn thành: trợ động từ “have” bao giờ cũng đứng trước dạng quá khứ phân
từ (past participle) của động từ trung tâm (có đuôi “ed” đối với động từ có qui tắc)
theo trật tự: “have” + V-ed
Ví dụ:
I have nourished a viper in my bosom <Tôi đã nuôi ong tay áo.>
C Tiếp diễn: trợ động từ “be” bao giờ cũng đứng trước dạng hiện tại phân từ
(present participle) của động từ trung tâm theo trật tự: “be” + V-ing
Ví dụ:
She is coming with me… <Cô ta sẽ đi cùng tôi…>
D Bị động: trợ động từ “be” bao giờ cũng đứng trước dạng quá khứ phân từ (past
participle) của động từ trung tâm (có đuôi “ed” đối với động từ có qui tắc) theo trật
tự: “be” + V-ed
Ví dụ:
I dreamed last night that I was flogged by Dr Raine
<Tối hôm qua tôi mơ mình bị tiến sỹ Raine trừng phạt.>
Bốn dạng cấu trúc cơ bản trên có thể kết hợp với nhau để tạo thành những cụm động từ phức tạp hơn với sự xuất hiện nhiều thành tố phụ phần đầu, nhưng sự kết hợp này bao giờ cũng phải theo thứ tự: A + B + C + D Trong thực tế, chúng ta ít gặp những cụm động từ có đầy đủ cả bốn thành phần trên cùng xuất hiện mà chỉ có hai hoặc ba dạng cấu trúc này cùng xuất hiện mà thôi
Ví dụ:
- He may have gone
A B
<Có lẽ ông ta đã đi rồi.>
- The phone have been ringing for two minutes
B C
Trang 23<Chuông điện thoại đã (đang) reng hai phút.>
- One can’t be always thinking about Joseph
A C
<Người ta không thể lúc nào cũng nghĩ về Joseph được >
- I have been treated worse than any servants in the kitchen
B D
<Tôi đã bị đối xử tồi tệ hơn bất cứ người hầu nào ở dưới bếp.>
- she should have been robbed of her perquisites
A B D
<Lẽ ra cô ta đã bị cướp hết của cải rồi >
Như vậy, có thể nói rằng việc xuất hiện hình thái nào của trợ động từ là do trợ động từ đứng trước của nó quy định và theo một nguyên tắc rất chặt chẽ
Ngoài ra còn có một số thành tố khác điển hình là trạng ngữ chỉ tần xuất thường
xuất hiện ở vị trí giữa của phần đầu cụm động từ như: “always”, “generally”,
“regularly”, “sometimes”, “rarely”,…Tuy nhiên, đôi khi chúng không nằm trong cụm động từ mà lại xuất hiện ở đầu câu Cũng có thể vì lý do đó nên khi khảo sát cụm động từ, các nhà Anh ngữ học thường không nghiên cứu chúng trong cấu trúc cụm động từ mà thường xếp chúng vào một chương riêng
3.1.3 Trung tâm của cụm động từ tiếng Anh
Trung tâm của cụm động từ tiếng Anh là động từ Việc xác định động từ trung tâm trong tiếng Anh khá dễ dàng ngay cả trong trường hợp có nhiều động từ xuất hiện trong cùng một cụm động từ
Đối với cụm động từ có nhiều trợ động từ xuất hiện thì động từ trung tâm bao
giờ cũng là động từ chính (main verb hay lexical verb) và đứng sau tất cả các trợ
động từ này Về mặt hình thái, động từ chính khi xuất hiện với các trợ động từ thì
có các hình thái sau:
- Nguyên mẫu không có “to”
- Hình thái “V-ing”: hiện tại phân từ (present participle)
Trang 24- Hình thái “V-ed”: quá khứ đơn (simple past) và quá khứ phân từ (past
participle)
Khi có nhiều động từ có ý nghĩa từ vựng (lexical verb) cùng xuất hiện trong một cụm động từ, thì chỉ có một động từ đã chia và động từ đó luôn đứng trước các động từ có ý nghĩa từ vựng khác và đó chính là động từ trung tâm
3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt
1/ Tổ chức nội bộ của cụm động từ
a) Ở dạng đầy đủ, cụm động từ gồm ba thành phần: phần giữa dành cho trung tâm
và phần đầu, phần cuối dành cho các thành tố phụ
Phần đầu Phần trung tâm Phần cuối
Ví dụ: (Nó) đang học bài này
b) Cụm động từ cũng có khả năng xuất hiện dưới dạng chỉ có hai phần:
- Dạng chỉ có phần đầu và phần trung tâm:
Phần đầu Phần trung tâm
Ví dụ: (Nó) đang học
-Dạng chỉ có phần trung tâm và phần cuối:
Phần trung tâm Phần cuối
Ví dụ: (Nó) học bài này
Trang 25c) Xu thế bố trí thành tố phụ:
Phần cuối của cụm động từ gồm những thành tố phụ có ý nghĩa từ vựng chân thực Những thành tố phụ này rất đa dạng về mặt ngữ nghĩa cũng như về mặt tổ chức
Phần đầu của cụm động từ gồm những thành tố phụ mà phần lớn đều mang ý nghĩa thiên về ngữ pháp, phần lớn đều là những từ đơn có số lượng không nhiều lắm và không có khả năng phát triển thành cụm từ (trong đó các thành phần có quan
hệ chính-phụ) Do đó phần đầu thường có bề ngoài đơn giản hơn phần cuối
2/ Những nét đặc biệt của cụm động từ
Không có khả năng tồn tại cụm động từ ở dạng lý tưởng, tức là cụm động từ mà bao gồm hầu hết mọi thành tố phụ như trong cụm danh từ Cũng không có khả năng quy thành tố phụ vào vị trí rõ ràng dứt khoát giống như trong cụm danh từ
Động từ là một từ loại lớn bao gồm rất nhiều kiểu khác nhau, thường thường mỗi kiểu lại có những loại thành tố phụ của riêng mình Và trên thực tế không có động từ nào tập trung đầy đủ tất cả mọi khả năng kết hợp có ở các kiểu động từ khác Hơn nữa số lượng thành tố phụ ở cụm động từ cũng rất lớn [1], [2], [3]
3.2.2 Các thành tố phụ phía trước
1/ Phụ từ
Số lượng những từ có khả năng đứng ở phần đầu cụm động từ nói chung không nhiều lắm: tất cả chỉ có độ vài chục từ Có thể chia nhỏ chúng thành mấy nhóm như sau:
a) Nhóm đều, cũng, vẫn, cứ… với ý nghĩa khái quát là chỉ sự tiếp diễn tương tự
của hành động
b) Nhóm từng, đã, vừa, mới, đang, sẽ,… với ý nghĩa khái quát là chỉ thời gian của
hành động
c) Nhóm hãy, đừng, chớ…dùng để nêu lên ý sai khiến, bảo thực hiện hay không
thực hiện một hành động nào đấy
Trang 26d) Nhóm chỉ, có, hay, không, chưa, chẳng,…dùng để khẳng định hay phủ định sự
tồn tại của hành động
đ) Nhóm rất, hơi, khí, quá,…dùng để miêu tả mức độ của trạng thái
e) Nhóm thường, hay, năng, ít, hiếm,… chỉ tần số ( số lần) khái quát của sự xuất
hiện hoạt động, trạng thái
Các thành tố phụ ở trước động từ không được phân phối vào những vị trí rõ ràng, dứt khoát, mà các từ thường kết hợp với nhau theo một trật tự không cố định
Vì vậy, chỉ có thể nêu lên được một số xu thế cơ bản nhất mà thôi Sau đây là những xu thế đó:
a) Về nhóm đều, cũng, vẫn, cứ… (ý nghĩa tiếp diễn tương tự)
Đây là một nhóm bao gồm những từ rất có khả năng kết hợp với nhau trong nội
bộ của nhóm Sự kết hợp này thường theo một trật tự không được cố định lắm Trong việc kết hợp với từ thuộc các nhóm khác, nhóm này luôn có xu thế đứng
ở trước Ví dụ: (+: có thể kết hợp với nhau, -: không thể kết hợp với nhau)
b) Về nhóm từng, đã, đang, sẽ,… (ý nghĩa thời gian)
Từ trong nhóm này, nói chung, ít có khả năng kết hợp với nhau trong cùng nội
bộ của nhóm Ngoại lệ: đã từng – từng đã, vừa mới – mới vừa
Có vị trí sau nhóm đều, cũng, vẫn nhưng trước tất cả các nhóm còn lại Ngoại lệ: không nói từng chưa mà nói chưa từng
c) Về nhóm hãy, đừng, chớ,… (ý nghĩa mệnh lệnh)
Trang 27Có khả năng kết hợp trong nội bộ nhóm, theo trật tự cố định: hãy đừng, hãy
chớ
Trong việc kết hợp với các nhóm khác, vị trí thường gặp nhất của chúng là đứng sau nhóm đều, cũng,vẫn sau từ sẽ và trước một số từ như chỉ, hay, có, quá…
d) Về nhóm không, chưa, chẳng,…(ý nghĩa phủ định)
Từ trong nhóm này cũng không có khả năng kết hợp với nhau trong cùng nội bộ của nhóm
Không có khả năng kết hợp với hai nhóm hãy, đừng, chớ và rất, hơi, khí, quá Ngoại lệ: chưa quá, hãy không, hãy chưa
Có vị trí ở sau cùng, trong việc kết hợp với hai nhóm đều, cũng, vẫn và từng,
đã, đang, sẽ,…
đ) Về nhóm rất, hơi, khí, quá…(ý nghĩa mức độ)
Không có khả năng kết hợp nội bộ, trừ ngoại lệ: hơi quá
Không có khả năng kết hợp với các nhóm còn lại trừ trường hợp của từ quá:
không quá, chưa quá, đừng quá
Thường đứng sau hai nhóm đều, cũng, vẫn và từng, đã, đang, sẽ
Gặp hiện tượng có trật tự như thế thì cố nhiên không thể nào quy cho mỗi từ một vị trí khác nhau được Hơn nữa trong cụm động từ lại không thể tìm ra dạng lý tưởng chứa đựng đầy đủ mọi từ, cho nên ta sẽ đi đến một kết quả là rất khó vẽ nên một sơ đồ về trật tự phản ánh một cách hoàn chỉnh vị trí trước sau của tất cả mọi thành tố phụ được
Chỉ có thể khái quát như sau:
Nhóm không,chưa Nhóm từng, đã,
Trang 28Trong lược đồ trên, ở phần giữa những nhóm nằm trong cùng một cột (thẳng đứng) là những nhóm bài trừ lẫn nhau, không xuất hiện đồng thời trong một cụm
từ
2/ Các động từ trống nghĩa (tình thái)
Khác với trong tiếng Anh, một ngôn ngữ có trợ động từ, trong tiếng Việt có một
nhóm những động từ trống nghĩa như: “cần, muốn, có thể, toan, định, dám, bị, được” Các động từ này ít mang ý nghĩa từ vựng và đã được ngữ pháp hóa Những
động từ này luôn luôn đứng trước động từ trung tâm [6]
Khác với trợ động từ tiếng Anh, những động từ trống nghĩa trong tiếng Việt không xuất hiện trong cùng một cụm động từ theo một trật tự nhất định
Các động từ trống nghĩa này có thể chia thành hai nhóm:
(i) nhóm 1 gồm những động từ:
+ chỉ sự cần thiết và khả năng như: cần, nên, phải, cần phải,…; có thể,
không thể, chưa thể…
+ chỉ ý chí _ ý muốn như: toan, định, đâm, chực, buồn, nỡ, dám…; muốn,
mong, ước, mong muốn, mong ước, ước muốn, chúc,…
(ii) nhóm 2 gồm những động từ chỉ sự “chịu đựng” như: bị, được, chịu, mắc,
phải,…
Trật tự của nhóm động từ trống nghĩa này là: nhóm 1 + nhóm 2
Như vậy, trật tự từ của cụm động từ có động từ trống nghĩa là:
(a) các phụ tố phía trước + (b1) động từ trống nghĩa + (b2) động từ trống nghĩa + (c) động từ trung tâm + (d) phần cuối
Trang 29Dưới đây là bảng tổng kết của phần phụ trước cụm động từ tiếng Việt:
3.2.3 Trung tâm của cụm động từ tiếng Việt
Vấn đề xác định phần trung tâm ở cụm động từ là một vấn đề khó khăn và phức tạp Có thể chia thành hai trường hợp như sau:
a) Trường hợp dễ dàng xác định phần trung tâm, ví dụ: đang học bài, sẽ ăn cơm,
chưa viết xong,… thì các động từ học, ăn, viết là trung tâm của cụm động từ
b) Nhưng đối với những cụm động từ có hai, ba động từ thì việc xác định động từ nào là trung tâm thì không phải dễ dàng Ví dụ:
…nhưng ngay lúc anh định gõ cửa…
Em muốn khinh bỉ chồng em.
Vấn đề này được giải quyết bằng cách là động từ nào đứng đầu tiên thì đó sẽ là động từ chính đóng vai trò trung tâm (về mặt ngữ pháp) trong cụm động từ Thành
tố sau có tầm quan trọng lớn về mặt ý nghĩa từ vựng, nhưng thành tố đầu lại giữ vai trò chủ chốt, vai trò chi phối về mặt ngữ pháp
Như vậy trong 2 ví dụ trên, ”định” và “muốn” là những động từ chính về mặt ngữ pháp, còn “gõ”, ”khinh bỉ” là những động từ phụ về mặt ngữ pháp
Phụ từ Động từ trống nghĩa
chả, chẳng, không
còn, chưa, đang, đã, mới,
sẽ, sắp, từng, vừa rất, hơi, khí,
cần, nên, phải, cần phải,…;
có thể, không thể, chưa thể,…
toan, định, đâm, chực, buồn, nỡ, dám,…;
muốn, mong, ước, mong muốn, mong ước, ước muốn, chúc,…
bị, được, chịu, mắc, phải
Trang 30Vì bản chất mỗi động từ ở trung tâm sẽ qui định cách cấu trúc của toàn cụm động từ nên khi nghiên cứu cấu trúc cụm động từ tiếng Việt, người ta thường đề cập đến một số tiểu loại động từ nhằm nghiên cứu ảnh hưởng của trung tâm đối với các
cơ cấu của cụm động từ (tức là trật tự từ trong cụm động từ)
3.2.4 Các phạm trù ngữ pháp và trật tự
1/ Các ý nghĩa thời thể và trật tự
Khác với tiếng Anh, một ngôn ngữ sử dụng các hình thái khác nhau của động từ
để diễn đạt thể, tiếng Việt sử dụng một số từ phụ của động từ để diễn đạt
thời-thể Các từ phụ đó là: “đã, đang, sẽ, từng, còn,chưa,…” Việc sử dụng từ phụ nào là
tùy thuộc vào ý nghĩa thời gian mà người nói muốn truyền đạt
a) “đã” thường tương đương với thì Hiện tại hoàn thành (present perfect), thì
Hiện tại hoàn thành tiếp diễn (present perfect progressive), thì Quá khứ hoàn thành (past perfect), thì Quá khứ hoàn thành tiếp diễn (past perfect progressive)
b) “đang” của tiếng Việt có thể tương đương với thể tiếp diễn (progressive aspect)
ở mọi thì của tiếng Anh
c) “sẽ” tương đương với thì tương lai trong tiếng Anh
d) “đã” + “từng” + “động từ trung tâm” V;
hoặc “từng” + “động từ trung tâm” V
chỉ ra ý nghĩa quá khứ so với thời điểm phát ngôn, hành động bắt đầu trong quá khứ
và kết thúc trong quá khứ Tương đương với dạng sau đây trong tiếng Anh:
“used to” + V-inf (động từ nguyên dạng)
Trang 31Cô chưa từng thấy một người phía bên kia nào
f) phụ từ + “không/chẳng”: hình thành cụm động từ phủ định
Ví dụ:
Em sẽ không bước về nhà nữa.
g) “còn” + động từ trung tâm (V); “chưa” + động từ trung tâm (V): đều diễn đạt đặc điểm tiến độ của vận động – ý nghĩa thời-thể
- “Còn + động từ trung tâm” chỉ ra khả năng tiếp tục của vận động, tương đương với một trong các thời tiếp diễn của tiếng Anh
Ví dụ:
Hoàng Văn Hoan còn mượn lại để gây ra cả một phong trào…
- “Chưa + động từ trung tâm” nhấn mạnh vào sự chưa xuất hiện của vận động
Anh ấy mua phải của giả.
Nhóm từ bị, được, phải đi với động từ được dùng để diễn đạt ý nghĩa tiếp thụ
và đồng thời là ý nghĩa tình thái (cái may hay cái rủi theo quan điểm của người nói)
Trang 32Chương 4 :
Tập luật ánh xạ Anh-Việt
Xét về cấp độ cụm từ thì tiếng Việt và tiếng Anh có nhiều khác biệt đáng kể, nhất là ở khía cạnh trật tự từ [4] Vì vậy trước khi trình bày tập luật ánh xạ cụm động từ Anh-Việt, chúng tôi sẽ giới thiệu mô hình chuyển đổi cấu trúc trợ động từ
và động từ chính tiếng Anh sang cấu trúc tiếng Việt tương ứng để giải thích rõ thêm
sự biến đổi cấu trúc từ tiếng Anh sang tiếng Việt trong các luật ánh xạ
4.1 Mô hình chuyển đổi cấu trúc “trợ động từ và động
từ chính” tiếng Anh sang cấu trúc tiếng Việt tương ứng
Từ những khảo sát về cấu trúc “trợ động từ và động từ chính” tiếng Anh và
“phụ từ và động từ chính” tiếng Việt đã được trình bày ở chương 3, cộng với việc tìm hiểu các qui luật văn phạm trong tiếng Anh (tham khảo công trình của hai tác giả A.J.Thomson và A.V.Martinet [15]) và dùng phương pháp chiếu thông qua kết quả đối sánh từ, ta sẽ có cơ sở để hình thành nên các luật ánh xạ từ cấu trúc “trợ động từ và động từ chính” tiếng Anh sang cấu trúc tiếng Việt tương ứng Xét ví dụ sau:
-The boy will be playing the football
<Hẳn là thằng bé đang chơi bóng đá.>
Cây cú pháp tương ứng với câu tiếng Anh “The boy will be playing the
football” ở hình 4.1 Hình 4.2 mô tả sự ánh xạ cấu trúc cú pháp của câu ở hình 4.1 sang cấu trúc cú pháp câu tiếng Việt tương ứng (ghi chú từ loại dùng trong cây cú pháp: SE, SV- câu tiếng Anh, câu tiếng Việt; NP- cụm danh từ; VP- cụm động từ; ART: mạo từ; N: danh từ; MD: động từ tình thái; VB: động từ nguyên mẫu; VBG-
Trang 33động từ dạng hiện tại phân từ) Hình 4.3 minh hoạ phép chiếu dựa trên cơ sở đối sánh từ
Hình 4.1 Cây cú pháp của câu “The boy will be playing the football.”
Cây cú pháp tương ứng của câu tiếng Việt được hình thành sau phép ánh xạ:
Hình 4.2 Ánh xạ cấu trúc cú pháp của câu ở hình 3.1 sang cấu trúc cú pháp
tiếng Việt tương ứng.
Trang 34Hình 4.3 Minh hoạ phép chiếu đối sánh từ, các cụm từ không phải động từ
sẽ để nguyên ở dạng nguồn
Có thể giải thích rõ hơn việc hình thành cây cú pháp của câu tiếng Việt bằng phương pháp ánh xạ cấu trúc cây cú pháp tiếng Anh sang tiếng Việt và bổ sung cho cây cú pháp tiếng Việt các từ đặc trưng của cú pháp động từ tiếng Việt Phần sau đâyminh hoạ luật sinh cụm động từ tiếng Việt được hình thành trên cơ sở phương pháp nói trên:
SE NPE VPE SV Hẳn là S
S NPV VPV
VPE will be VBG NPE VPV đang VBV NPV
Như vậy từ một cụm:
VPE: will be playing/VBG (the football)/NP E
khi dịch qua tiếng Việt, để biểu thị ý nghĩa tình thái (ý suy đoán) của cấu trúc
will+be+động từ dạng hiện tại phân từ, ta phải thêm vào đầu câu phụ từ “hẳn là”,
phụ từ “đang” và chèn giữa hai phụ từ là chủ từ của câu Kết quả khi dịch sang
Trang 35Trong đó SubjE, SubjV là chủ từ của câu tiếng Anh và tiếng Việt tương ứng
4.2 Tập luật ánh xạ Anh-Việt
Như đã trình bày trong phần 3.1 thì cụm động từ bao gồm ba phần: phần phụ phía trước, phần trung tâm và phần phụ phía sau Phần phụ phía trước của cụm động từ tiếng Anh gồm một trong các trợ động từ (auxiliary verb) cộng (có thể có
hoặc không có) trạng từ (adverb); phần trung tâm là động từ chính (main verb); phần phụ sau có thể là cụm danh từ, cụm tính từ, cụm giới từ,…
Trong phần “Xây dựng tập luật ánh xạ” này chúng tôi chỉ giới hạn việc xây
dựng tập luật cho cấu trúc gồm “trợ động từ và động từ chính” của tiếng Anh
Lý do là nếu xây dựng tập luật cho cả cụm động từ thì lúc đó phải xét cả cấu trúc các phần phụ sau (cụm danh từ, cụm tính từ, cụm giới từ,…), như vậy là khối lượng công việc rất lớn, thời gian đề tài không cho phép Và thêm nữa là chúng tôi không
xét dạng nghi vấn (interrogative) và dạng bị động (passive)
4.2.1 Các khái niệm
Có hai loại động từ trong tiếng Anh [15]:
Trợ động từ (auxiliary): to be, to have, to do; can, could, may, might, must,
ought to, shall, should, will, would; to need, to dare và used to
Còn lại tất cả các động từ khác được gọi là động từ thường: to work (làm việc),
to sing (ca hát), to pray (cầu nguyện), …
be, have, do
can, could, may, might, must, ought to, shall, should, will, would
need, dare, used to
Trang 36Ngoài việc giúp hình thành các thì, trợ động từ còn kết hợp với động từ nguyên
thể để diễn tả các ý như sự cho phép (permission), khả năng thực hiện (ability), khả
năng xảy ra (possibility), bổn phận(obligation), …
Ví dụ:
<Nó nói được tiếng Pháp.>
<Chúng ta phải kh,n trương.>
Động từ thường có thể xuất hiện dưới các dạng sau:
Nguyên thể hiện tại
Nguyên thể hiện tại tiếp diễn
Nguyên thể hoàn thành
Nguyên thể hoàn thành tiếp diễn
(Present Perfect Continuous) to have been working
Hiện tại phân từ và danh động từ
Quá khứ phân từ
Xét luật sau:
Subj E may/might VBE Có lẽ Subj V (sẽ) VB V
Trong đó:
- VBE: động từ nguyên thể tiếng Anh
- VBV: động từ tiếng Việt tương ứng với động từ tiếng Anh
Trang 37- may/might: trợ động từ may hoặc might đều có thể áp dụng trên luật này
- Subj: viết tắt của Subject(chủ từ), không thuộc cụm động từ tiếng Anh, nhưng
khi được dịch qua tiếng Việt thì Subj lại xen vào giữa phụ từ (có lẽ) và các phần còn
lại của cấu trúc tiếng Việt, nên phải để Subj ở bên phần cấu trúc tiếng Anh
- (sẽ): khi được dịch sang tiếng Việt, có thể có hoặc không có từ sẽ, tuỳ tình
huống cụ thể
Xét thêm ví dụ sau:
You(Context) may VBE Tôi cho phép anh VB V
- You(Context): nghĩa là chủ từ you đóng vai trò là ngữ cảnh (context), bởi vì trợ
động từ may trong luật này diễn tả sự cho phép Trong tình huống này khi chủ từ ở
ngôi thứ hai (you) thì sẽ có nghĩa là người nói cho phép người nghe (you) thực hiện một hành động nào đó, nên từ You trong luật này đóng vai trò là ngữ cảnh (context)
Ngoài ra còn có VBGE là hiện tại phân từ/ danh động từ (present participle/
gerund) của động từ tiếng Anh VBNE là quá khứ phân từ (past participle) của
động từ tiếng Anh
Sau đây là các luật ánh xạ được trình bày theo từng nhóm ý nghĩa khác nhau
của các trợ động từ, ví dụ như để diễn tả ý cho phép (permission) thì có các trợ
động từ may, can, để diễn tả bổn phận (obligation) thì có nhóm trợ động từ ought
to, should, must, need Vì đối với từng trợ động từ thì tuỳ tình huống cụ thể mà nó
diễn đạt những ý nghĩa khác nhau, như should chẳng hạn, trong tình huống nào đó thì nó diễn tả ý nghĩa bổn phận nhưng trong tình huống khác thì should lại diễn tả ý nghĩa suy diễn, cho nên ta phải xét theo từng nhóm ý nghĩa khác nhau để thấy rõ
những khả năng có thể xảy ra khi dịch một trợ động từ từ tiếng Anh sang tiếng Việt
4.2.2 Diễn tả sự cho phép (permission): can, could, may
lai
a/ Chủ từ ở ngôi thứ nhất
Trang 38Dạng I/we can là dạng phổ biến nhất Ví dụ:
-I can leave
<Tôi được phép rời khỏi.>
-I can take a day off whenever I want
<Bất cứ khi nào tôi muốn là tôi cũng có thể nghỉ một ngày.>
Dạng I/we may cũng có ý nghĩa tương tự như vậy
-I may leave the office as soon as I have finished
<Ngay khi làm xong việc là tôi có thể rời văn phòng.>
Trong câu tường thuật, thường gặp dạng I/we may/might
-“You may leave when you’ve finished”, he says/said
=He says we may leave/ He said we might leave
<Ông ta nói chúng tôi có thể về.>
Thế nhưng trong cách nói thông thường thì dạng I/we can/could xuất hiện
nhiều hơn
-He says we can leave/ He said we could leave
<Ông ta nói chúng tôi có thể về.>
Trợ động từ can/may, với ý nghĩa chủ từ được chấp thuận làm một việc gì đó, khi dịch sang tiếng Việt có thể là được phép hoặc có thể, nhưng được phép mang ý nghĩa của sự cho phép rõ ràng hơn Rút ra được các luật sau:
• I/we(Context) can/may VBE Tôi/chúng tôi được phép/có thể VB V
• I/we(Context) can/may not VBE
-You may park here
<Tôi cho phép anh đậu xe ở đây.>
Trang 39Còn can diễn tả ý được phép (having permission):
-You can park here
Có thể mang nghĩa là: <Tôi cho phép anh/ Cảnh sát cho phép/ Anh có quyền đậu xe ở đây.>
Trong cách dùng này, can được dịch như thế nào là tuỳ thuộc vào ngữ cảnh
Như trên đây ngữ cảnh liên quan đến việc đậu xe thì người nói có thể là cảnh sát nói
với người lái xe “Tôi cho phép anh đậu xe ở đây”, hoặc là một người nào đó thông báo cho người lái xe biết là “Cảnh sát cho phép đậu xe ở đây” Ở ví dụ sau ngữ
cảnh xảy ra trong thư viện
Ví dụ:
-You can take two book home with you
<Tôi cho phép/ Thư viện cho phép anh mang hai cuốn sách về nhà.>
-You can’t eat sandwiches in the library
<Tôi không cho phép/Người thủ thư không cho phép/Anh không được phép ăn bánh kẹp trong thư viện.>
Ta có các luật:
• You(Context) may VBE Tôi cho phép anh VB V
Anh có thể VB V
• You(Context) can VBE Anh có quyền/có thể VB V
Tôi cho phép anh VB V
• You(Context) can/may not VBE
Anh không được phép/không thể VB V Tôi không cho phép anh VB V
c/ Chủ từ ở ngôi thứ ba
Can/may có thể ánh xạ thành “…có quyền/có thể…” hoặc “Tôi cho phép…” khi
người nói cho phép chủ từ ở ngôi thứ ba làm một việc gì đó
Ví dụ:
-He may take my car
<Anh ta có thể lấy xe tôi đi./Tôi cho phép anh ta lấy xe.>
Trang 40Còn trong các câu không ngôi (impersonal statements, không chỉ đến một đối tượng cụ thể) liên quan đến quyền hành authority) và sự cho phép, không áp dụng cách ánh xạ can/may thành “Tôi cho phép ”
Ví dụ:
In certain circumstances a police officer may ask a driver to take a breath test
<Trong một vài tình huống, cảnh sát có thể/có quyền yêu cầu người lái xe cho kiểm tra hơi thở để đo mức độ rượu anh ta đã uống.>
2/ could dùng diễn tả sự cho phép nói chung trong quá khứ Tuy
nhiên could not lại được dùng rộng rãi hơn could
Ví dụ:
-On Sundays we could stay up late
<Vào chủ nhật chúng tôi được phép/có thể thức khuya.>
-We couldn’t bring our dog into the restaurant
<Chúng tôi không thể dẫn chó vào nhà hàng.>
Ta có các luật:
• could VB E được phép/có thể VB V
• could not VB E không được phép/không thể VB V