Những nghiên cứu trong lĩnh vực này đã đạt được nhiều thành tựu và được ứng dụng trong đời sống như chữa lỗi văn bản, nhận dạng chữ viết, dịch máy… Một trong những kết quả nghiên cứu đó
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
KHOA VĂN HỌC VÀ NGÔN NGỮ
PHẠM THỊ KIM UYÊN
XÂY DỰNG BỘ LUẬT VĂN PHẠM TIẾNG VIỆT THEO
NGÔN NGỮ HÌNH THỨC
LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH NGÔN NGỮ HỌC
THÀNH PHỐ HỒ CHÍ MINH - NĂM 2015
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, được sự hướng dẫn khoa học của PGS.TS Đinh Điền
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Tác giả
Phạm Thị Kim Uyên
Trang 3LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành cảm ơn PGS.TS Đinh Điền, người đã tận tình dẫn dắt tôi trong suốt quá trình thực hiện luận văn Những lời hướng dẫn, chỉ dạy, những tài liệu quý báu của thầy đã giúp tôi vững tin vượt qua những khó khăn trong thời gian thực hiện
Tôi cũng xin cảm ơn quý thầy cô trong Khoa Văn học & Ngôn ngữ, những người đã truyền dạy cho tôi những kiến thức trong quá trình học tập tại trường Đại học Khoa học Xã hội và Nhân văn - ĐHQG TP.HCM
Bên cạnh đó, tôi cũng xin cảm ơn các anh chị em trong nhóm VCL, những người đã luôn góp ý, động viên tôi một cách chân thành
Cuối cùng, tôi xin cảm ơn gia đình, người thân, bạn bè… đã luôn ở bên cạnh
cổ vũ, hỗ trợ tôi trong khi thực hiện đề tài này
Học viên
Phạm Thị Kim Uyên
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC BẢNG vi
DANH MỤC HÌNH vii
MỞ ĐẦU 1
1 Lí do chọn đề tài 1
2 Lịch sử nghiên cứu đề tài 1
3 Đối tượng và phạm vi nghiên cứu 5
4 Mục đích, nhiệm vụ nghiên cứu 5
5 Ý nghĩa khoa học và ý nghĩa thực tiễn 5
6 Phương pháp nghiên cứu 5
CHƯƠNG 1 : CƠ SỞ LÝ THUYẾT 7
1.1 MỘT SỐ KHÁI NIỆM CỦA NGÔN NGỮ HÌNH THỨC 7
1.1.1 Định nghĩa ngôn ngữ hình thức 7
1.1.2 Phân loại văn phạm của Chomsky 9
1.1.3 Luật văn phạm tiếng Việt 11
1.1.4 Cây suy dẫn 12
1.2 MỘT SỐ KHÁI NIỆM CỦA NGÔN NGỮ TỰ NHIÊN 13
1.2.1 Ranh giới từ 13
1.2.2 Từ loại 16
1.2.3 Ranh giới ngữ 18
1.2.4 Ngữ và các cách hiểu về ngữ 18
1.2.5 Cây cú pháp 24
CHƯƠNG 2 : CÁC LUẬT VĂN PHẠM CỦA NGỮ VÀ CÂU TIẾNG VIỆT THEO NGÔN NGỮ HÌNH THỨC 28
2.1 XÂY DỰNG TẬP LUẬT CHO NGỮ 30
2.1.1 Luật 1: Ngữ danh từ (NP) 30
2.1.1.1 Thành tố trung tâm của ngữ danh từ 31
2.1.1.2 Thành tố phụ trước của ngữ danh từ 36
2.1.1.3 Thành tố phụ sau của ngữ danh từ 38
2.1.2 Luật 2: Ngữ động từ (VP) 44
2.1.2.1 Thành tố trung tâm của ngữ động từ 44
2.1.2.2 Thành tố phụ trước của ngữ động từ 50
2.1.2.3 Thành tố phụ sau của ngữ động từ 51
2.1.3 Luật 3: Ngữ tính từ (ADJP) 56
2.1.3.1 Thành tố trung tâm của ngữ tính từ 56
2.1.3.2 Thành tố phụ trước của ngữ tính từ 57
2.1.3.3 Thành tố phụ sau của ngữ tính từ 58
2.1.4 Luật 4: Ngữ lượng từ (QP) 62
2.1.4.1 Thành tố trung tâm của ngữ lượng từ 62
2.1.4.2 Thành tố phụ trước của ngữ số từ 64
2.1.4.3 Thành tố phụ sau của ngữ giới từ 65
Trang 52.1.5 Luật 5: Ngữ giới từ (PP) 70
2.1.5.1 Thành tố trung tâm của ngữ giới từ 70
2.1.5.2 Thành tố phụ sau của ngữ giới từ 70
2.1.6 Luật 6: Ngữ phụ từ (RP) 74
2.1.7 Luật 7: Ngữ không cùng loại được nối với nhau bằng liên từ đẳng lập (UCP) 76
2.1.8 Luật 8: Ngữ đại từ nghi vấn (QNP) 77
2.1.9 Luật 9: Ngữ tình thái (MDP) 79
2.2 XÂY DỰNG TẬP LUẬT CHO MỆNH ĐỀ/ CÂU 82
2.2.1 Luật 10: Câu trần thuật (S) 82
2.2.2 Luật 11: Câu nghi vấn (SQ) 84
2.2.3 Luật 12: Câu mệnh lệnh (SIMP) 87
2.2.4 Luật 13: Câu cảm thán (SEXC) 88
2.2.5 Luật 14: Câu đặc biệt (SPL) 89
2.2.6 Luật 15: Mệnh đề phụ kết (SBAR) 91
CHƯƠNG 3 : CÁC LUẬT VĂN PHẠM CỦA THÀNH PHẦN CHỨC NĂNG VÀ THÀNH PHẦN RỖNG TIẾNG VIỆT THEO NGÔN NGỮ HÌNH THỨC 95
3.1 XÂY DỰNG TẬP LUẬT CHO THÀNH PHẦN CHỨC NĂNG 95
3.1.1 Luật 16: Chủ ngữ (SBJ) 95
3.1.2 Luật 17: Chủ ngữ logic (LGS) 95
3.1.3 Luật 18: Vị ngữ không phải động từ (PRD) 97
3.1.4 Luật 19: Tân ngữ trực tiếp (DOB) 97
3.1.5 Luật 20: Tân ngữ gián tiếp (IOB) 98
3.1.6 Luật 21: Bổ ngữ chỉ phạm vi, tần suất (EXT) 99
3.1.7 Luật 22: Khởi ngữ (TPC) 100
3.1.8 Luật 23: Giải ngữ (PRN) 104
3.1.9 Luật 24: Hô ngữ (VOC) 107
3.1.10 Luật 25: Nguyên nhân, mục đích, lý do (PRP) 107
3.1.11 Luật 26: Điều kiện, giả thiết (CND) 108
3.1.12 Luật 27: Nhượng bộ (CNC) 108
3.1.13 Luật 28: Thời gian (TMP) 109
3.1.14 Luật 29: Địa điểm, nơi chốn (LOC) 110
3.1.15 Luật 30: Phương tiện, cách thức (MNR) 110
3.1.16 Luật 31: Hướng hoạt động (DIR) 110
3.1.17 Luật 32: Tựa đề (HLN) 111
3.1.18 Luật 33: Tựa đề được trích dẫn trong nội dung (TTL) 112
3.2 XÂY DỰNG TẬP LUẬT CHO THÀNH PHẦN RỖNG 113
3.2.1 Luật 34: Thành phần rỗng ứng với hiện tượng tỉnh lược, có sự lưu vết trong câu (*) 113
3.2.2 Luật 35: Thành phần rỗng ứng với hiện tượng tỉnh lược, không có sự lưu vết trong câu (*E*) 115
3.2.3 Luật 36: Thành phần rỗng ứng với hiện tượng chuyển đổi vị trí trong câu (*T*) 119
3.2.4 Luật 37: Thành phần rỗng ứng với vị trí hư từ bị tỉnh lược (*0*) 120
3.2.5 Luật 38: Chỉ số kết nối (-1, -2, -3…) 121
3.3 CÁC TRƯỜNG HỢP NHẬP NHẰNG 122
3.3.1 Các cấu trúc sử dụng liên từ đẳng lập 122
Trang 63.3.2 Ngữ hay một vế câu ghép bị tỉnh lược 128
KẾT LUẬN 136
1 Đánh giá kết quả 136
2 Phạm vi ứng dụng 136
3 Hướng phát triển 137
DANH MỤC TÀI LIỆU THAM KHẢO 138
1 Tiếng Việt 138
2 Tiếng Anh 139
3 Trang Web 140
PHỤ LỤC 1: DANH SÁCH NHÃN TỪ LOẠI, CÚ PHÁP TIẾNG VIỆT 142
1 Danh sách nhãn từ loại tiếng việt 142
2 Danh sách nhãn cú pháp tiếng việt 145
PHỤ LỤC 2: TẬP LUẬT CÚ PHÁP TIẾNG VIỆT 147
1 Tập luật của ngữ 147
2 Tập luật của câu 153
PHỤ LỤC 3: GÁN NHÃN CÚ PHÁP CHO NGỮ LIỆU 155
Trang 7DANH MỤC BẢNG
Bảng 2.1 Nhãn cụm từ cho hệ phân cụm từ Việt 23 Bảng 2.2 Mô tả quá trình sinh ra dạng dữ liệu phân cụm 24 Bảng 3.1 Các thành phần của ngữ danh từ 38
Trang 8DANH MỤC HÌNH
Hình 1.1 So sánh về độ lớn của các lớp ngôn ngữ theo phân loại của Chomsky 11
Hình 1.2 Hình cây suy dẫn thứ nhất của câu nhập nhằng 12
Hình 1.3 Hình cây suy dẫn thứ hai của câu nhập nhằng 13
Hình 3.1 Cấu tạo của ngữ: ngữ danh từ, ngữ động từ, ngữ tính từ 30
Trang 9MỞ ĐẦU
1 Lí do chọn đề tài
Trong thời đại bùng nổ thông tin như hiện nay, văn bản trên internet xuất hiện ngày càng nhiều Vì vậy mà việc phân tích ngôn ngữ tự động trở nên vô cùng cần thiết Và để có thể phân tích tự động, ta cần có hệ thống nhãn ngôn ngữ hình thức
Từ những năm 1955, Noam Chomsky đã quan tâm đến việc hệ thống hóa phân tích ngôn ngữ tự động Từ đó đến nay, việc phân tích cú pháp ngôn ngữ và tiến hành hệ thống hóa chúng luôn là những vấn đề được nhiều nhà khoa học trên thế giới quan tâm, tìm hiểu Những nghiên cứu trong lĩnh vực này đã đạt được nhiều thành tựu và được ứng dụng trong đời sống như chữa lỗi văn bản, nhận dạng chữ viết, dịch máy… Một trong những kết quả nghiên cứu đó phải
kể đến là xây dựng ngân hàng ngữ liệu và hệ thống hóa phân tích ngôn ngữ tự động của các ngôn ngữ như tiếng Anh (Penn Treebank), tiếng Hoa (Chinese Treebank) Việc xây dựng treebank tiếng Anh, tiếng Hoa và phân tích ngôn ngữ tự động của các thứ tiếng này đã có bước tiến đáng kể
Ở Việt Nam, gán các thông tin về ngôn ngữ (như ngữ pháp, ngữ nghĩa…) đã được nhóm Đinh Điền, Hồ Tú Bảo đào sâu nghiên cứu với nhiều công trình Những công trình của nhóm Đinh Điền tập trung chủ yếu vào việc gán nhãn hình thái (ranh giới từ: WS), gán nhãn từ loại (POS) và phân tích tự động
Nhóm Hồ Tú Bảo ngoài việc gán nhãn từ loại còn quan tâm đến việc gán nhãn cú pháp trong công trình “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt” với “Xây dựng tập nhãn và thiết kế gán nhãn cú pháp” phân tích bằng tay, “hệ thống trình diễn một số sản phẩm của nhánh đề tài Xử lí văn bản (VLSP) bằng máy (http://vlsp.vietlp.org:8080/demo/?page=home) Tuy nhiên, đánh giá kết quả gán nhãn chỉ ra độ đồng thuận chưa cao, xử lý ngôn ngữ tự động (VLSP) chưa chính xác trong nhiều trường hợp
Chính vì những lý do đó mà luận văn đã chọn đề tài “Xây dựng bộ luật văn phạm tiếng Viêt theo ngôn ngữ hình thức” làm đối tượng nghiên cứu Luận văn trên cơ sở kế thừa tập nhãn của từ loại của Đinh Điền (phụ lục 1) để tiếp tục xây dựng nhãn cú pháp, tham khảo, rút kinh nghiệm từ những công trình về thiết kế tập nhãn cú pháp trước đó với hy vọng có thể xây dựng nên Việt Treebank (Vietnamese Treebank - VTB)
2 Lịch sử nghiên cứu đề tài
Trang 10Những năm 1955, Noam Chomsky đã áp dụng các mô hình toán học để
hệ thống hóa phân tích ngôn ngữ tự động Mô hình ngôn ngữ tự nhiên được hình thức hóa đầu tiên của ông dựa trên ý kiến cho rằng ngôn ngữ tự nhiên tuân theo quy luật của chuỗi Markov, mang tên ngữ pháp các trạng thái hữu hạn Những mô hình này có nhiều ứng dụng trong việc xây dựng mô hình thông tin trong dịch tự động và trong tâm lý - ngôn ngữ học Noam Chomsky còn xây dựng các ngữ pháp hình thức theo hướng tổng hợp và đưa ra mô hình ngữ pháp tạo sinh Bên cạnh đó, S.Marcus đưa ra các mô hình ngôn ngữ theo hướng phân tích và một mô hình kết hợp của hai mô hình ngôn ngữ theo hướng tổng hợp, phân tích là mô hình ngữ pháp phạm trù
Kế thừa những công trình của các nhà khoa học trước, những nhà nghiên cứu xử lý ngôn ngữ ở Anh, Pháp, Nhật, Hoa đã tiến hành xây dựng và phân tích
từ loại, cú pháp ngôn ngữ của họ, xử lý ngôn ngữ tự động trên máy tính
Trong tiếng Anh, phải kể đến những bài báo, công trình gán nhãn từ loại,
cú pháp như Part-of-Speech tagging guidelines for the penn treebank project (1990) của Santorini tại trường Pennsylvania (Philadelphia, Mĩ), A comprehensive grammar of the English language (1985) của nhóm Quirk tại Anh, Building a large annotated corpus of English (1993) và The Penn treebank: Annotating predicate argument structure, in Procceedings of the human laguage technology workshop (1994) của nhóm Marcus (San Francisco, Mĩ), bracketing guidelines for the treenbank II style penn treebank project (1995) của nhóm Ann Bies (Mĩ), Bracketing switchboard: An addendum to the treebank II bracketing guidelines (1996) của nhóm Ann Taylor (Mĩ), Addendum to the penn treebank II style bracketing guidelines (2004) của nhóm Ann Bies (Mĩ)…
Các công trình nghiên cứu này đều tập trung xây dựng tập nhãn từ loại, gán nhãn từ loại, thiết kế tập nhãn và hướng dẫn cách gán nhãn cú pháp cho tiếng Anh Trong đó, phải kể đến công trình “Bracketing Guidelines for the Treenbank II Style Penn Treebank Project” với hướng dẫn gán nhãn cụ thể, chi tiết
Tiếp thu và học hỏi Penn Treebank, những nhà xử lý ngôn ngữ tiếng Hoa cũng xây dựng Chinese Treebank Những công trình về lĩnh vực này như: The Bracketing Guidelines for the Penn Chinese Treebank (3.0) (2000), Chinese word segmentation as LMR tagging (2003), Annotating the propositions in the Penn Chinese Treebank (2003), The Penn Chinese TreeBank: Phrase structure annotation of a large corpus (2005) của nhóm tác giả Nianwen Xue…
Trang 11Ở Việt Nam, việc xử lý ngôn ngữ tiếng Việt trong thời gian gần đây mới được quan tâm nghiên cứu Trong các bài giảng về Trí tuệ nhân tạo, Lý thuyết nhận dạng, Xử lý tín hiệu, Khai phá dữ liệu ở nhiều đại học, các nội dung và kỹ thuật xử lý ngôn ngữ đã ít nhiều được đề cập Các nghiên cứu về việc xử lý ngôn ngữ tiếng Việt, các dự án xử lý ngôn ngữ tự động trên máy tính đã được các nhà khoa học triển khai thực hiện
Nghiên cứu về xử lý ngôn ngữ (văn bản) đã được theo đuổi bởi một số tập thể như: ĐH Bách khoa Hà Nội, ĐH Khoa học Tự nhiên Hà Nội, ĐH Bách khoa TP.HCM, ĐH Khoa học Tự nhiên TP.HCM, ĐH Bách Khoa Đà Nẵng,
ĐH Công nghệ, Viện Ứng dụng Công nghệ và Viện Công nghệ Thông tin… Các vấn đề được những người xử lý ngôn ngữ quan tâm nghiên cứu như dịch máy, các bài toán cơ bản của xử lý tiếng Việt (2001, 2003), tóm tắt văn bản (2004), tìm kiếm và trích chọn thông tin (1998), phân loại và chia nhóm văn bản (2001), khai phá web (2005), gióng hàng văn bản (2003), mô hình từ điển điện tử (2003), xây dựng kho ngữ liệu (2002)… và gần đây là đề tài nhà nước
“Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt” (2001-2004), “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt” (2010)
Bên cạnh đó, đề tài KC01.01/06-10 “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt” (VLSP), hệ thống trình diễn một số sản phẩm của nhánh đề tài “Xử lí văn bản” tại http://vlsp.vietlp.org:8080/demo/?page=home do nhóm tác giả thực hiện và
GS Hồ Tú Bảo chủ trì đã đạt được nhiều kết quả Công trình đã thiết kế và gán nhãn từ loại, thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp cho tiếng Việt Các sản phẩm được trình diễn bao gồm:
SP7.2: Từ điển tiếng Việt dùng cho xử lí ngôn ngữ tự nhiên
SP7.3: Kho ngữ liệu câu tiếng Việt có chú giải
SP7.4: Hai kho ngữ liệu câu Anh-Việt phổ quát-chuyên ngành
SP8.2: Hệ phân đoạn từ tiếng Việt
SP8.3: Hệ phân loại từ tiếng Việt
SP8.4: Hệ phân cụm từ tiếng Việt
SP8.5: Hệ phân tích câu tiếng Việt
Bài viết “Về xử lý tiếng Việt trong công nghệ thông tin” Hồ Tú Bảo, Lương Chi Mai - Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Tiên tiến Nhật Bản Bài viết giới thiệu những khái niệm cơ bản và tình hình nghiên cứu về xử lý ngôn ngữ nói chung, cũng như những nội dung và khó khăn trong xử lý tiếng Việt (văn bản và tiếng nói)
Trang 12Dự án “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn” SP 7.3 - Dự
án VLSP của nhóm tác giả Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền, Đào Minh Thu, Đào Thị Minh Ngọc, Lê Kim Ngân hướng dẫn gán nhãn cú pháp cho Treebank tiếng Việt Với mỗi hiện tượng ngữ pháp, tài liệu đã trình bày cách nhận diện, cách gán nhãn cùng với các ví dụ cụ thể để minh họa
Dựa trên những ngữ liệu (260 câu) đã được gán nhãn theo công trình
“Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”, Nguyễn Lê Minh và Cao Hoàng Trụ đã tiến hành xác định ranh giới từ tiếng Việt trên máy tính Công trình bước đầu đạt được kết quả khả quan Hay “Xây dựng hệ thống phân tích
cú pháp tiếng Việt sử dụng văn phạm PUSG” của Đỗ Bá Lâm, Lê Thanh Hương cho phép xử lý các vấn đề bùng nổ tổ hợp, nhập nhằng cấu trúc và các câu đặc biệt bằng cách sử dụng các luật cấu tạo cú pháp và ràng buộc ngữ nghĩa
Bài báo “Xây dựng treebank tiếng Việt” của Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền - Đề tài nhánh SP7.3 thuộc đề tài nhà nước “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC01.01/06-10 đã tiến hành thu thập các bài báo thuộc chủ đề Chính trị-Xã hội của báo Tuổi Trẻ điện tử và tiến hành gán nhãn Nội dung cụ thể, bài báo đã trình bày các phần gồm tập nhãn từ loại và hướng dẫn gán nhãn từ loại, tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp, công
cụ hỗ trợ người làm ngữ liệu, quy trình gán nhãn cú pháp Bài báo có được những kết quả bước đầu trong quá trình xây dựng Treebank tiếng Việt như: xây dựng tập nhãn từ loại, xây dựng tập nhãn cú pháp, xây dựng công cụ, triển khai gán nhãn Tuy nhiên, công trình vẫn còn nhiều vấn đề phải giải quyết như cải tiến lý thuyết xây dựng tài liệu hướng dẫn gán nhãn Trong phần đánh giá kết quả gán nhãn, bài báo chỉ ra là độ đồng thuận giữa những người gán nhãn còn chưa cao chứng tỏ còn nhiều vấn đề cần được giải quyết
Đinh Điền với rất nhiều bài báo, công trình về xử lý ngôn ngữ tự động trên máy tính Những công trình liên quan đến lĩnh vực xây dựng bộ luật văn phạm tiếng Việt như gán nhãn hình thái (ranh giới từ: WS) và gán nhãn từ loại (POS), xây dựng tập nhãn và gán nhãn cú pháp: Xây dựng và khai thác kho ngữ liệu song ngữ Anh-Việt điện tử, Vấn đề về ranh giới từ trong ngữ liệu song ngữ Anh-Việt, Hướng dẫn phân tách từ tiếng Việt, Hướng dẫn gán nhãn ngôn ngữ tiếng Việt phiên bản 1.0…
Bên ngoài Việt Nam, cũng có những nỗ lực về xử lý tiếng Việt như nhóm dịch Anh-Việt của TS Phạm Hải và các cộng sự (Mĩ) khởi đầu từ đầu các năm 1990, tiến sĩ Lê Tăng Hồ và phần mềm tổng hợp tiếng Việt VVV
Trang 13(Canada)… đặc biệt là của các cán bộ và nghiên cứu sinh Việt Nam tại Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST) với 6 nghiên cứu sinh về
xử lý ngôn ngữ
Bên cạnh đó, những luận văn tốt nghiệp các ngành Ngôn ngữ học, Công nghệ thông tin cấp bậc thạc sĩ, tiến sĩ cũng quan tâm, chọn những vấn đề này làm đối tượng nghiên cứu, chẳng hạn như: Luận văn tốt nghiệp cao học “Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt” (2009) của Lưu Văn Tăng, “Xác định ranh giới từ tiếng Việt dựa trên song ngữ Anh-Việt” (2008) của Phạm Tú Anh, “Phân tích hình thái từ tiếng Việt theo tiếp cận ngữ dụng học và ứng dụng trong dịch máy thống kê Anh-Việt” (2009) của Vũ Đình Hồng…
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Các đơn vị cú pháp tiếng Việt dựa trên ngữ liệu
là 230 câu trích rút từ báo Tuổi Trẻ
Phạm vi nghiên cứu: Khảo sát trên ngữ liệu gồm 230 câu Ngữ liệu này
trong kho ngữ liệu mà Đinh Điền rút trích từ báo Tuổi Trẻ từ tháng 3/2004 đến tháng 9/2004 thuộc lĩnh vực Chính trị - Xã hội
4 Mục đích, nhiệm vụ nghiên cứu
Mục đích nghiên cứu: Xây dựng bộ luật văn phạm tiếng Việt theo ngôn
ngữ hình thức
Nhiệm vụ nghiên cứu:
- Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp tiếng Việt
theo ngôn ngữ hình thức
- Thực hiện gán nhãn cú pháp cho ngữ liệu (230 câu) để kiểm chứng thực nghiệm
- Rút ra các luật của ngữ, câu tiếng Việt theo ngôn ngữ hình thức
5 Ý nghĩa khoa học và ý nghĩa thực tiễn
Ý nghĩa khoa học: Xây dựng được các luật văn phạm tiếng Việt để
hướng dẫn gán nhãn ngữ liệu, gán nhãn ngữ liệu bằng tay làm cơ sở cho việc phân tích ngôn ngữ tự động trên máy tính
Ý nghĩa thực tiễn: Trong một khuôn khổ nào đó, đề tài có thể là cơ sở
dữ liệu để xây dựng các chương trình phân tích cú pháp tự động, kết nối với các
hệ thống xử lý ngôn ngữ tự động, là nguồn tư liệu giúp cho những người quan tâm và có mong muốn tìm hiểu về cấu trúc tiếng Việt
6 Phương pháp nghiên cứu
Trong khi thực hiện đề tài “Bộ luật văn phạm tiếng Việt theo ngôn ngữ hình thức”, luận văn đã sử dụng các phương pháp sau:
Trang 14Phương pháp phân tích: Thu thập ngữ liệu thô và tiến hành phân
tích cú pháp, xác định từ loại của từ/ ngữ đang mang nghĩa trong ngữ/câu Gán nhãn từ loại trong ngữ/ câu
Phương pháp thống kê: Lập danh sách và thống kê các nhãn ngữ, câu từ kho ngữ liệu đã phân tích
Trang 15CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người Để thực hiện chức năng giao tiếp, mỗi dân tộc khác nhau sẽ sử dụng những ngôn ngữ khác nhau chẳng hạn như người Việt sử dụng tiếng Việt, người Anh sử dụng tiếng Anh, người Nga sử dụng tiếng Nga… Tuy nhiên, cũng có những trường hợp hai hay nhiều dân tộc sử dụng cùng một ngôn ngữ hoặc một dân tộc có nhiều ngôn ngữ khác nhau
Những ngôn ngữ mà con người sử dụng hằng ngày để thực hiện chức năng giao tiếp này được gọi là ngôn ngữ tự nhiên (để phân biệt với các khái niệm ngôn ngữ khác chẳng hạn như ngôn ngữ hình thức) Để xây dựng nên ngôn ngữ tự nhiên, mỗi dân tộc đã tạo ra những quy tắc như quy tắc về ngữ âm, từ vựng - ngữ nghĩa, ngữ pháp Những quy tắc này là quy tắc chung mà tất cả những người sử dụng ngôn ngữ đó phải tuân theo, tuy vậy nhưng trong thực tế vẫn xảy ra những hiện tượng gây nhập nhằng hoặc không cùng cách hiểu như nhau Hiện tượng nhập nhằng này đều xảy ra ở các ngôn ngữ khác nhau hoặc nhiều hoặc ít Một số trường hợp nhập nhằng như: nhập nhằng do từ đồng âm (ví dụ: đường có thể là đường trong con đường, đường trong ký đường), do tính đa nghĩa của từ (ví dụ: đi có nghĩa là di chuyển bằng chân nhưng đi cũng có thể có nghĩa là qua đời), nhập nhằng về từ loại, nhập nhằng về ranh giới từ (ví dụ: học sinh học sinh học), nhập nhằng khi phân tích cú pháp
Khi khoa học công nghệ phát triển, máy tính ra đời, để “giao tiếp” với máy tính người ta cũng phải sử dụng ngôn ngữ Tuy nhiên, thứ ngôn ngự tự nhiên của chúng ta lại luôn chứa đựng những sự nhập nhằng Điều này sẽ khiến cho máy tính không hiểu, xử lý không đúng hoặc không thống nhất với cùng một trường hợp Bên cạnh đó, ngôn ngữ còn gắn liền với ngữ cảnh Vì vậy, khi xử lý, máy tính sẽ không thể hiểu, xử lý linh hoạt trong những ngữ cảnh khác nhau này Cũng chính vì
lý đó mà chúng ta phải xây dựng nên các quy tắc chặt chẽ hơn cho việc xử lý thống nhất ngôn ngữ tự nhiên Và ngôn ngữ mà chúng ta xây dựng nên được gọi là ngôn ngữ hình thức Để hiểu rõ hơn về ngôn ngữ hình thức, chúng ta sẽ đi tìm hiểu, phân tích khái niệm về ngôn ngữ hình thức và các khái niệm dùng để hình thức hóa ngôn ngữ trong chương 1
1.1 MỘT SỐ KHÁI NIỆM CỦA NGÔN NGỮ HÌNH THỨC
1.1.1 Định nghĩa ngôn ngữ hình thức
Để việc giao tiếp giữa người mà máy được thực hiện thành công thì ta cần có một thứ ngôn ngữ mà các quy tắc ngữ nghĩa và cú pháp của ngôn ngữ này phải thật chặt chẽ, nghĩa là một từ hoặc một câu chỉ gồm một nghĩa duy nhất Chỉ có như vậy
Trang 16thì máy tính mới có thể hiểu đúng được những điều mà con người muốn giao tiếp với chúng Ngôn ngữ này được gọi là ngôn ngữ hình thức
Ngôn ngữ hình thức tập trung vào các vấn đề về ngữ pháp hơn là các vấn đề
về ngữ nghĩa Một đặc tả về cú pháp của một ngôn ngữ có hữu hạn từ, ít nhất về nguyên tắc, có thể được cho bằng cách liệt kê các từ Tuy nhiên, ngôn ngữ lại rất nhiều từ và các cách thức liên kết các từ lại thành câu Do đó, nhiệm vụ của ngôn ngữ hình thức là nghiên cứu các cách đặc tả hữu hạn của các ngôn ngữ vô hạn [44, tr.1]
Ví dụ: ta có ngữ học sinh học sinh học Khi máy tính xử lý, máy có thể hiểu
theo các kiểu: học_sinh học sinh_học hoặc học sinh_học sinh_học hoặc học_sinh học_sinh học Đây là trường hợp nhập nhằng về ranh giới từ trong ngôn ngữ tự nhiên Để máy tính hiểu rõ câu này là học_sinh học sinh_học thì ta phải xây dựng các nguyên tắc chặt chẽ cho máy tính Thứ ngôn ngữ này là ngôn ngữ hình thức Như vậy, khi các nguyên tắc này được xây dựng thì máy tính chỉ hiểu đường trong:
“Con đường này rộng quá” là lối đi chứ không phải đường là chất kết tinh thành hạt Máy tính có thể căn cứ vào danh từ chỉ loại con (Nc) đi trước đường để xác định rằng đây là đường để đi Vì đường để ăn không có danh từ chỉ loại đứng trước
Trong khi đó, theo toán học và khoa học máy tính, thì ngôn ngữ hình thức được định nghĩa như sau:
Một ngôn ngữ hình thức được xây dựng dựa trên một bảng chữ cái (alphabet)
và chúng được ràng buộc bởi các luật (rule) hoặc văn phạm (grammar) đã được định nghĩa trước Alphabet có thể là tập các kí tự trong ngôn ngữ tự nhiên (natural language) hoặc tập tự định nghĩa các kí tự
Giả sử có một alphabet Σ = {a, b} và kí hiệu L là ngôn ngữ Như vậy, ta có thể định nghĩa một số ngôn ngữ trên alphabet Σ như sau:
L1 = {aa, aaa}
L2 = {aba, aab}
L3 = {ab, ba, aabb, , aaabbb, }
Lĩnh vực mà lý thuyết ngôn ngữ hình thức nghiên cứu là những mẫu hình (pattern) có cấu trúc bên trong những ngôn ngữ hình thức và đó là những khía cạnh hoàn toàn mang tính chất có cú pháp Ngôn ngữ hình thức không còn đơn giản chỉ
là để định nghĩa ngôn ngữ tự nhiên, mà nó đã vượt ra ngoài khỏi phạm vi đó và nó cũng là một cách để hiểu được những quy tắc có cú pháp của ngôn ngữ tự nhiên [47]
Để xử lý ngôn ngữ tự nhiên bằng máy tính người ta phải tiến hành hình thức hóa chúng (formalization) Mô hình ngôn ngữ tự nhiên đầu tiên được hình thức hóa
là của Noam Chomsky (dựa trên ý kiến cho rằng ngôn ngữ tự nhiên tuân theo quy luật của chuỗi Markov) và mang tên ngữ pháp các trạng thái hữu hạn [7, tr.53]
Trang 17Ví dụ: những ngữ, câu của tiếng Việt được hình thức hóa bằng các ký hiệu
để cho máy tính hiểu Các ngữ như ngữ danh từ được ký hiệu bằng NP, ngữ tính từ được ký hiệu bằng VP, ngữ giới từ là PP… Các câu như câu trần thuật được ký hiệu
là S, câu nghi vấn SQ, câu cảm thán SEXC… Máy tính dựa vào những ký hiệu mà con người mặc định để hiểu thứ ngôn ngữ mà con người giao tiếp với nó
1.1.2 Phân loại văn phạm của Chomsky
Văn phạm hiểu theo nghĩa đơn giản là một tập các quy tắc về cấu tạo từ và các quy tắc về cách thức liên kết các từ lại thành câu
Năm 1956, N Chomsky là người đầu tiên xây dựng các ngữ pháp hình thức theo hướng tổng hợp và đưa ra mô hình văn phạm tạo sinh [7, tr 54]
1.1.2.1 Định nghĩa văn phạm
Văn phạm G là một bộ sắp thứ tự gồm 4 thành phần: G = <N, Σ, P, S> Trong đó:
N là tập các từ vựng phụ trợ, như các phạm trù ngữ pháp, được gọi là các ký hiệu không kết thúc
Σ là một bảng chữ cái, gọi là bảng chữ cái cơ bản (hay bảng chữ cái kết thúc), mỗi phần tử của nó được gọi là một ký hiệu kết thúc hay ký hiệu cơ bản
S ∈ N được gọi là ký hiệu xuất phát hay tiên đề Nó được dùng làm điểm xuất phát cho các sản sinh trong P Nói cách khác, S là yếu tố đứng ở vế trái của quy tắc đầu tiên của hệ sản sinh P
P là tập các luật văn phạm, là tập hợp các quy tắc sinh (production) có dạng α→β, α được gọi là vế trái và β được gọi là vế phải của quy tắc này, với α, β ∈ (Σ ∪ N)* và trong α chứa ít nhất một ký hiệu không kết thúc
Ví dụ sau đây là một văn phạm: G4 = < N, Σ, P, S>, trong đó:
Σ = {hoa, cá, cơm, đi, chạy, cha, lá, đoàn, lớp}
<danh từ 1> → lá, <danh từ 2> → đàn, <danh từ 2> → lớp}
1.1.2.2 Phân loại
Tùy theo đặc điểm của các sản sinh trong P mà ta có các kiểu văn phạm khác nhau Theo Noam Chomsky, văn phạm được chia thành bốn nhóm: văn phạm
Trang 18không hạn chế (unrestricted), văn phạm cảm ngữ cảnh (context-sensitive), phi ngữ cảnh (context-free grammar), văn phạm tuyến tính phải [7, tr.56]
Nếu mọi sản sinh đều có dạng: với (N )* và (N )+đây là văn phạm không hạn chế (unrestricted) hay văn phạm loại 0 Văn phạm này được đoán nhận bằng một máy Turing
Nếu mọi sản sinh đều có dạng: 1X2 12 với X, , 1, 2 (N )+ thì văn phạm đó gọi là cảm ngữ cảnh (context-sensitive) hay văn phạm loại 1, được đoán nhận bằng máy Turing Có thể cảm ngữ cảnh trái (1X 2) hay cảm ngữ cảnh phải (X1 1)
Ví dụ: Cho văn phạm G = <{a, b, c}, {S, A, B, C}, S, P>, trong đó: P = {S
→ aSAC, S → abC, CA → BA, BA → BC, BC → AC, bA → bb, C → c} Khi đó
G là văn phạm cảm ngữ cảnh
Nếu mọi sản sinh đều có dạng: X với X N, (N )+ thì văn
phạm đó gọi là phi ngữ cảnh (context-free grammar: CFG) hay văn phạm loại 2 Sự
áp dụng các luật sản sinh trong P không bị điều kiện gì về ngữ cảnh ràng buộc Văn phạm này được đoán nhận bằng một ôtômát đẩy xuống (PDA: PushDown Acceptor)
Nếu mọi sản sinh đều có dạng: X và X Y với X, Y N và
thì văn phạm đó gọi là tuyến tính phải (right-linear) hay văn phạm loại 3 Văn phạm
này được đoán nhận bằng một ôtômát trạng thái hữu hạn (finite-state automat)
Từ các khái niệm trên, ta thấy lớp văn phạm không hạn chế là rộng nhất, nó chứa đựng các văn phạm cảm ngữ cảnh, lớp văn phạm cảm ngữ cảnh chứa các văn phạm phi ngữ cảnh và lớp văn phạm phi ngữ cảnh chứa các văn phạm tuyến tính phải
Ngôn ngữ hình thức được gọi là ngôn ngữ tổng quát (hay cảm ngữ cảnh, phi ngữ cảnh, chính quy) nếu tồn tại văn phạm loại tương ứng sinh ra nó Vì vậy, đối với các lớp ngôn ngữ, nếu ký hiệu L0, L1, L2, L3 lần lượt là các lớp ngôn ngữ không hạn chế, cảm ngữ cảnh, phi ngữ cảnh và tuyến tính phải thì ta có hàm thức:
Hình 1.1: So sánh về độ lớn của các lớp ngôn ngữ theo phân loại của Chomsky cho thấy lớp ngôn ngữ chính quy L3 là nhỏ nhất, nó bị chứa trong lớp ngôn ngữ phi ngữ cảnh L2, lớp ngôn ngữ phi ngữ cảnh lại bị chứa trong lớp ngôn ngữ cảm ngữ cảnh L1 và cuối cùng lớp ngôn ngữ không hạn chế L0 là rộng nhất
Trang 19Hình 1.1 So sánh về độ lớn của các lớp ngôn ngữ theo phân loại của Chomsky 1.1.3 Luật văn phạm tiếng Việt
Khi xây dựng các luật ngôn ngữ thật chặt chẽ và hình thức hóa bằng các ký hiệu ta được các luật văn phạm Các ký hiệu trong luật văn phạm tiếng Việt gồm: ký hiệu kết thúc và ký hiệu không kết thúc Các ký hiệu kết thúc là những ký hiệu không có còn phát sinh thêm các nhánh trên cây cú pháp và câu được hoàn thành Trong khi đó, các câu, các ngữ có khả năng phát sinh thêm các nhánh trên cây cú pháp
V (động từ) = {chơi, chạy, xây_dựng, phát_sáng…}
A (tính từ) = {trẻ, vui_vẻ, ngạc_nhiên, lo_lắng…}
Cm (giới từ) = {với, của, về…}
Trang 20Ví dụ: Câu Tôi nhìn cô gái với ống nhòm, theo lớp văn phạm con trên thì câu
này có hai câu cú pháp Ta nói văn phạm này nhập nhằng và câu đang xét là nhập nhằng Nhập nhằng trường hợp này là do xác định từ bổ sung nghĩa
S
Hình 1.2 Hình cây suy dẫn thứ nhất của câu nhập nhằng
Trang 21Hình 1.3 Hình cây suy dẫn thứ hai của câu nhập nhằng
Cây cú pháp thứ 1, với ống nhòm bổ sung nghĩa cho cô gái Cây này với ý nghĩa tôi nhìn cô gái và cô gái ấy có một cái ống nhòm Cây cú pháp thứ 2, với ống nhòm bổ sung nghĩa cho nhìn Cây này có thể hiểu là tôi dùng ống nhòm để nhìn cô
Xác định ranh giới của từ là phân biệt từ với những đơn vị cũng có hai mặt như nó:
- Phân biệt từ với đơn vị ở cấp độ thấp hơn là hình vị
- Phân biệt từ với đơn vị ở cấp độ cao hơn là ngữ cố định
- Phân biệt từ với đơn vị ở cấp độ cú pháp là cụm từ tự do
Trang 22Ví vậy, đưa ra những tiêu chí để nhận diện từ giúp ta xác định ranh giới từ Tuy nhiên, việc đưa ra một định nghĩa về từ được mọi người chấp nhận không phải
dễ, nếu không muốn nói là tới nay vẫn còn nan giải Hiện nay, có đến trên 300 định nghĩa khác nhau về từ và mỗi định nghĩa đều cố gắng giải thích một cách khái quát nhất, đầy đủ nhất, đúng bản chất của từ nhất cho tất cả các ngôn ngữ
Do nhu cầu xử lý ngôn ngữ tự động trên máy tính, chúng ta cũng sẽ phải đưa
ra một cách xác định về từ với những tiêu chí nhất quán nào đó Những tiêu chí xác định từ này sẽ mang tính hình thức nên chúng có thể không đúng hoàn toàn với quan điểm về từ trong ngôn ngữ học Dưới đây là quan điểm mà luận văn sẽ theo và thống nhất trong suốt quá trình xây dựng bộ luật văn phạm tiếng Việt
1.2.1.1 Tiếng và vai trò của tiếng trong việc nhận diện từ
Xem tiếng (còn gọi là tiếng một về mặt âm hay chữ về mặt chữ viết) là hình
vị trong tiếng Việt Sở dĩ như vậy là vì việc nhận diện tiếng trong tiếng Việt của người và máy rất dễ dàng Đối với người Việt, khi nói, họ sẽ nhận diện được mỗi tiếng bao giờ cũng phát ra thành một hơi, nghe thành một tiếng và có một thanh điệu nhất định Trong khi viết, mỗi tiếng bao giờ cũng viết rời thành từng chữ (ngăn cách bằng khoảng trắng hay các dấu ngắt) [7, tr.27] Đối với máy tính, việc lưu trữ,
xử lý, tìm kiếm và sắp xếp tiếng dễ dàng Bởi số lượng của tiếng không nhiều khoảng 10.000, chiều dài tiếng chỉ tối đa 7 ký tự
Tiếng đối với người Việt là đơn vị tự nhiên và họ đã sử dụng nó từ lâu Khi xét các tiêu chí của từ (về hình thức, nội dung, khả năng) thì tiếng chưa hẳn là từ Đây là quan điểm được hầu hết các nhà Việt ngữ học chấp nhận
1.2.1.2 Từ và các tiêu chú xác định ranh giới từ
Khi đã xem tiếng là hình vị thì việc tiếp theo cần phải làm là nhận diện từ
Để nhận diện được đâu là từ, các nhà ngôn ngữ các nước qua các thời kỳ đã đưa ra nhiều khái niệm Một số khái niệm điển hình như sau:
L Bloomfield cho rằng “từ là một hình thái tự do nhỏ nhất”
Theo Solncev thì “từ là đơn vị ngôn ngữ có tính hai mặt: âm và nghĩa Từ có khả năng độc lập về cú pháp khi sử dụng trong lời”
Với B Golovin “từ là đơn vị nhỏ nhất có nghĩa của ngôn ngữ, được vận dụng độc lập tái hiện tự do trong lời nói để xây dựng nên câu”
Như vậy, để nhận diện từ toàn diện và đầy đủ hơn, ta có thể dựa vào 2 tiêu chuẩn: hình thức, nội dung
Tiêu chuẩn về hình thức
Trang 23Tính cố định: đó là sự vững chắc về mặt cấu tạo và không thể chiêm xen Tính độc lập: dùng để phân biệt từ (đơn vị có nghĩa độc lập) và hình vị (đơn
vị có nghĩa không độc lập)
Tính từ loại và quan hệ cú pháp: trong ngữ/ câu, từ đảm nhận những chức năng cú pháp nhất định nên mọi từ phải mang một từ loại nào đó, còn hình vị thì không có tính chất từ loại Quan hệ giữa các từ là quan hệ cú pháp còn giữa các hình vị không phải là quan hệ cú pháp
Tiêu chuẩn về nội dung
Chức năng định danh: chức năng này dùng để xác định tư cách của từ (từ thực), coi đó là đặc trưng để phân biệt giữa từ và hình vị
Biểu thị khái niệm: có những từ biểu thị khái niệm nhưng có những từ không biểu thị khái niệm
Ý nghĩa biểu niệm: tiêu chí để phân biệt ý nghĩa từ vựng và ý nghĩa ngữ pháp
Hoàn chỉnh về nghĩa: tiêu chí quan trọng để xác định tư cách của từ Tiêu chuẩn này liên quan đến tính thành ngữ và tính võ đoán
Phân loại từ tiếng Việt
Dựa vào cấu tạo của từ tiếng Việt, ta chia tiếng Việt thành 4 loại:
Từ đơn: là từ chỉ có 1 tiếng Ví dụ: hát, trắng, viết
Từ ghép: là từ có hai tiếng trở lại ghép lại với nhau, giữa các tiếng đó có
quan hệ với nhau về ý nghĩa Ví dụ: sách vở, máy bay, xe đạp… Từ ghép chia thành
2 loại:
Từ ghép đẳng lập: là từ ghép mà các thành tố có quan hệ bình đẳng với nhau
về nghĩa Trong đó, có thể các thành tố trong từ đều rõ nghĩa (quần áo, vợ chồng…) hoặc có thể có thành tố không rõ nghĩa (chợ búa, giá cả…) Từ ghép đẳng lập biểu
thị ý nghĩa khái quát và tổng hợp
Từ ghép chính phụ: là từ ghép mà trong đó có một thành tố chính và một
thành tố phụ Thành tố phụ đóng vai trò phân loại cho thành tố chính Ví dụ: tre pheo, hoa hồng, máy bơm…
Từ láy: là từ có hai tiếng trở lên và quan hệ giữa chúng là quan hệ về âm Ví
dụ: xanh xanh, sạch sành sanh, lưa thưa… Từ láy được phân thành 2 loại:
Từ láy hoàn toàn: chuồn chuồn, xanh xanh, xa xa…
Từ láy bộ phận (láy phụ âm đầu và láy phần vần): bươm bướm, tim tím…
Trang 24Từ ngẫu hợp: là từ mà mối quan hệ giữa ngữ âm và ngữ nghĩa không tìm
thấy mối quan hệ Ví dụ: bồ hóng, mồ hôi, cà nhắc…
Trên đây là các tiêu chí nhận diện từ trên cơ sở ngôn ngữ học giúp xác định ranh giới từ
Để nhận diện ranh giới từ trên máy tính, tiếng Anh nhận diện bằng các khoảng trắng hay các dấu câu (từ tiếng Anh là từ chính tả, mỗi từ riêng lẻ đã mang trọn vẹn một nghĩa nên có thể nhận diện bằng khoảng trắng) Tiếng Việt là ngôn ngữ đơn lập (tiếng Anh là ngôn ngữ biến hình), từ vựng chủ yếu là các từ ghép, nếu dựa vào cách xác định ranh giới từ này thì không chính xác Muốn xác định ranh giới từ tiếng Việt, chúng ta phải dựa vào các thông tin ở mức cao hơn như hình thái,
từ pháp, cú pháp, ngữ nghĩa, có khi cả ngữ dụng
Trong bài toán tách từ, cần phải nắm vững các tiêu chí ranh giới từ tiếng Việt
được xây dựng dựa trên cơ sở ngôn ngữ học Ta phải biết gia đình, ngôi nhà, con
gà, cây xoài, cá trê có phải là từ hay không, trên cơ sở đó, mới có thể “dạy cho
máy” cách nhận diện từ tự động Để nhận diện từ, người ta có thể sử dụng một số
mô hình như: MM (Maximum Matching: forward/ backward hay còn gọi là LRMM: Left Right), giải thuật học cải biến TBL, mạng chuyển dịch trạng thái hữu hạn có trọng số WFST, giải thuật dựa trên nén…
Dựa vào ý nghĩa khái quát và đặc điểm hoạt động ngữ pháp của các lớp từ trong tiếng Việt, cách chia từ loại được nhiều nhà ngôn ngữ đồng tình là chia tiếng Việt thành 2 loại lớn: thực từ và hư từ
1.2.2.1 Thực từ
Trang 25Thực từ gồm 3 loại: danh từ, động từ, tính từ Trong danh từ có thể tách ra danh từ đơn vị và số từ Trong động từ còn có động từ chỉ hướng
Danh từ là từ có thể làm thành tố chính (đầu tố) trong cụm từ, có ý nghĩa thực thể (chỉ sự vật theo cách hiểu rộng), kết hợp được ở phía trước với các từ
những, các…, ở phía sau với các từ chỉ định như này, kia… thường làm chủ ngữ hay
bổ ngữ trong câu [4, tr.315]
Động từ là từ có khả năng làm yếu tố chính (đầu tố) trong cụm từ, có ý nghĩa ngữ pháp khái quát là nêu đặc trưng ‘động’ hoặc đặc trưng ‘tĩnh’ (rõ nhất là trong quan hệ với chủ ngữ) của sự việc được phản ánh, kết hợp được về phía trước với
các phó từ như đã, đang…, về phía sau với từ rồi, xong, động từ thường làm yếu tố
chính ở vị ngữ trong câu [4, tr.324]
Tính từ là từ có khả năng làm yếu tố chính (đầu tố) trong cụm từ chính phụ,
có ý nghĩa ngữ pháp khái quát là chỉ đặc trưng về tính chất của sự vật nêu ở danh từ
mà nó có liên quan hoặc chỉ đặc trưng của động từ hay của tính từ khác mà nó có liên quan Khả năng kết hợp với phó từ của tính từ lệ thuộc vào kiểu tính từ cụ thể xét theo nghĩa [4, 330]
1.2.2.2 Hư từ
Hư từ gồm phụ từ (tương đương với phó từ) và kết từ (tương đương với liên
từ và giới từ) Ngoài ra còn có đại từ, trợ từ, cảm từ (hay thán từ) Tuy đại từ là để
trỏ nhưng không thể dùng định danh như thực từ
Phó từ chuyên đi kèm động từ và tính từ, vị trí ở phía trước và phía sau (ít hơn) động từ, tính từ [4, tr.336] Ví dụ: rất, đang, quá…
Kết từ là những hư từ dùng để nối kết các từ, cụm từ, các mệnh đề trong một câu, các câu với nhau Trong nhiều ngôn ngữ, quan hệ từ được phân biệt rõ thành giới từ và liên từ
Trợ từ: là những từ dùng để nhấn mạnh vào một từ, một cụm từ, một câu nào
đó mà nó kèm theo Trợ từ không có ý nghĩa của riêng mình Hai trợ từ nhấn mạnh
thường gặp là mà và thì [4, tr.342]
Thán từ (cảm từ) là từ-tín hiệu phản ánh các trạng thái tâm-sinh lí, chúng gần với tiếng kêu tự phát nhiều hơn Thán từ có nét riêng về cú pháp là nó có thể một mình làm thành câu riêng hoặc là một vế câu cùng với vế câu khác chỉ sự việc làm thành một câu ghép [4, tr.347]
Đại từ là từ làm nhiệm vụ thay thế cho từ ngữ rõ nghĩa đã được dùng ở chỗ khác của ngữ cảnh hoặc thay thế một tên gọi vắng mặt hoặc chỉ trỏ vào vật để xác
Trang 26định Tự thân đại từ không có nghĩa, nó được hiểu bởi từ hay vật mà nó thay thế, chỉ trỏ Khả năng kết hợp của nó, chức vụ cú pháp của nó giống từ ngữ mà nó thay thế
Trên cơ sở kế thừa các nhãn từ loại trong công trình “Hướng dẫn gán nhãn từ
loại tiếng Việt (2012)” (nhóm Đinh Điền) để áp dụng cho việc gán nhãn cú pháp,
nên các tiểu từ loại ở đây sẽ theo các nhãn này Luận văn có thay đổi một số nhãn trong tập nhãn Chi tiết xem ở bảng 1 ở phụ lục 1
Để thuận tiện cho việc xử lý ngôn ngữ, hệ thống phân loại của từ loại tiếng Việt gồm các loại: danh từ, động từ, tính từ, lượng từ, phụ từ, kết từ, giới từ, trợ từ
Đại từ: đại từ chỉ định, đại từ nhân xưng
Phụ từ: phụ từ cho tính từ, phụ từ cho động từ, phụ từ cho danh từ, phụ từ cho câu
Kết từ/ liên từ: kết từ nối từ, ngữ, kết từ nối mệnh đề
1.2.3 Ranh giới ngữ
Xác định ranh giới ngữ có thể hiểu là việc gộp một dãy liên tiếp các từ trong câu để gán nhãn cú pháp Việc xác định ranh giới ngữ cho tiếng Anh, Trung, Nhật, Pháp đã được thực hiện từ khá lâu Với tiếng Việt, xác định ranh giới ngữ gần đây
đã được nhiều nhà xử lý ngôn ngữ quan tâm thực hiện bởi nó có một vai quan trọng trong ứng dụng thực tế như tìm kiếm thông tin, trích chọn thông tin và dịch máy
Để có thể xác định ranh giới ngữ, chúng ta sẽ nhận diện ngữ, cấu tạo của ngữ, các loại ngữ trong tiếng Việt
1.2.4 Ngữ và các cách hiểu về ngữ
Ngữ trong ngữ pháp tiếng Việt được hiểu theo nhiều nghĩa khác nhau, tùy theo các nhà nghiên cứu
Ngữ trong nghĩa cụm từ được Nguyễn Kim Thản (1963-1964) gọi bằng từ tổ
với tác dụng định loại từ và xác định thành phần câu
Ngữ là cách gọi gọi của đoản ngữ do Nguyễn Tài Cẩn 1975 sử dụng, nó tương đương với cụm từ, không tính sự có mặt của giới từ đứng đầu
Trang 27Ngữ là cách gọi của Trương Văn Chình, Nguyễn Hiến Lê để chỉ cái mà người khác gọi là từ ghép chính phụ như thợ mộc, máy bay
Trong những năm gần đây, ngữ được dùng với nghĩa ngữ của tiếng Anh Như vậy, ngữ có thể một từ, một tổ hợp từ, đảm nhiệm chức năng cú pháp trong câu Nó có thể có hay không có giới từ (preposition) đứng đầu (Ngữ trong tiếng Anh là một từ hoặc nhóm các từ có chức năng là một đơn vị ngữ pháp trong câu)
Một quan điểm khác, tiếng Anh vừa có ngữ, vừa có cụm từ Ngữ là kết quả của sự phân tích câu ra thành các bộ phận cú pháp, cụm từ là sự mở rộng một từ Như vậy, một ngữ có thể do một cụm từ đảm nhiệm mà cũng có thể do một cụm từ (hay một từ) cùng với giới từ đứng trước đảm nhiệm, tổ hợp từ có giới từ dẫn đầu được gọi là giới ngữ (theo M.A.K.Halliday)
Trong các sách ngữ pháp tiếng Việt, cụm từ và ngữ đều được dùng Khi phân tích câu theo các chức vụ cú pháp ở bậc câu thì ngữ được sử dụng Khi phân tích cách tổ chức nội bộ của một tổ hợp từ (không có giới từ đứng đầu) thì từ được sử dụng
Ngữ theo quan điểm của luận văn tương đương ngữ trong tiếng Anh Nó là một tổ hợp từ, cũng có thể là một từ đảm nhiệm chức năng cú pháp trong câu Ngữ này cũng có thể là giới ngữ (ngữ với giới từ đứng đầu) Ngữ trong tiếng Việt có thể chia thành các loại: Ngữ danh từ, ngữ động từ, ngữ tính từ, ngữ giới từ, ngữ lượng
từ, ngữ phụ từ
1.2.4.1 Cấu tạo ngữ
Mỗi loại ngữ có cấu tạo khác nhau Tuy nhiên trong một ngữ, luôn có thành
tố giữ vai trò trung tâm Từ loại của thành tố trung tâm quyết định loại của ngữ Ví dụ: thành tố trung tâm là danh từ thì ngữ đó là ngữ danh từ Bên cạnh các thành tố trung tâm, các ngữ có thể có thêm các thành tố phụ trước, phụ sau (tùy từng loại ngữ)
Ngữ danh từ, ngữ động từ, ngữ tính từ có kiểu cấu tạo gồm 3 thành tố: Thành
tố trung tâm, thành tố phụ trước và thành tố phụ sau Các thành tố phụ trước, phụ sau có thể vắng mặt
Tùy từng loại ngữ mà cấu trúc của ngữ sẽ có thể khác nhau Chẳng hạn như: Ngữ giới từ gồm giới từ đóng vai trò là thành tố trung tâm, thành tố phụ sau
là các ngữ hoặc mệnh đề
Ngữ phụ từ gồm các phụ từ kết hợp với nhau tạo thành ngữ, phụ từ đứng đầu
có thể đảm nhiệm vai trò thành tố trung tâm
Trang 28Ngữ lượng từ có số từ, lượng từ là thành tố trung tâm, thành tố phụ trước và sau có thể là ngữ tính từ, ngữ danh từ, ngữ giới từ biểu thị số lượng không xác định
Khi trong câu gồm nhiều ngữ (các ngữ kết hợp với nhau tạo thành câu) việc xác định ranh giới ngữ lúc này là điều cần thiết
1.2.4.2 Phương pháp phân tích cấu tạo ngữ
Xét cấu tạo của ngữ, ta có thể thấy ngữ được cấu tạo như sau:
Ngữ do một từ cấu tạo nên Từ cấu tạo nên ngữ này cũng là thành tố trung tâm của ngữ
Ngữ do nhiều từ cấu tạo nên Một ngữ gồm nhiều thành tố: thành tố trung tâm, phụ trước, phụ sau
Hình 1.4 Cấu tạo của ngữ: ngữ danh từ, ngữ động từ, ngữ tính từ
Phân tích ngữ theo thành tố trung tâm
Để phân tích cấu tạo của một ngữ, ta xác định các thành tố trung tâm của ngữ Thành tố trung tâm của ngữ sẽ có những tính chất [25, tr.151]:
- Thành tố cần thiết nhất của ngữ Dù ngữ có thay đổi thì trung tâm vẫn giữ nguyên, không thể lược bỏ
- Thành tố duy nhất có quan hệ trực tiếp về mặt cú pháp với các yếu tố khác nằm ở ngoài ngữ
- Thành tố chi phối bản chất cũng như chức năng của toàn ngữ Trung tâm là danh từ, ngữ có tính chất danh từ và có chức năng như danh từ
- Thành tố chi phối tổ chức bên trong của ngữ Danh từ làm trung tâm thì
trước nó có thể là tất cả, cả, những, các, mấy… và sau là này, ấy…
- Về mặt ý nghĩa, trung tâm cũng có khi liên quan đến vấn đề tổ chức của ngữ
Ví dụ: Tôi ngủ giường này => có thể bỏ này
Tôi ngủ chỗ này => không thể bỏ này
Trang 29Có sự khác nhau này là vì giường là một trung tâm có nội dung ý nghĩa rõ
ràng, chỗ có ý nghĩa mơ hồ
Để xác định thành tố trung tâm của ngữ, ta có thể thực hiện các cách sau:
- Dùng phép lược: Lược bỏ các thành tố trong ngữ nếu thành tố nào khi lược
bỏ làm cho nghĩa và thuộc tính ngữ pháp thay đổi thì thành tố đó là thành tố trung tâm
- Dựa vào cấu trúc của ngữ: Các ngữ thường có cấu trúc thành tố phụ trước
và thành tố phụ sau đặc trưng
- Xác định vị trí: Thành phần chính thường đứng trước các thành phần phụ
Ví dụ: con mèo, con đứng trước mèo, con là thành tố trung tâm, mèo là thành tố phụ sau
Trường hợp cần lưu là một ngữ có thể có một hoặc nhiều thành tố trung tâm
Các thành tố trung tâm này này nối với nhau bằng các liên từ đẳng lập như và, hoặc hoặc dấy phẩy (,)
Ví dụ: Xét ngữ con mèo thì con là trung tâm của ngữ, mèo là thành tố phụ sau Ngữ lực lượng khai thác than thì lực lượng là thành tố trung tâm, khai thác than là thành tố phụ sau trong ngữ lực lượng khai thác than Đến lượt xét cấu tạo của ngữ khai thac than thì khai thác là thành tố trung tâm, than là thành tố phụ sau Ngữ yêu nước thì yêu là thành tố trung tâm, nước là thành tố phụ sau
Sau khi xác định thành tố trung tâm, ta tiếp tục xác định các thành tố phụ trước (thành tố đứng trước thành tố trung tâm), thành tố phụ sau (thành tố đứng sau thành tố trung tâm)
Phân tích ngữ theo luật cấu trúc ngữ
Một cách hình thức, một ngữ được xác định qua tập các luật cấu trúc ngữ (phrase structure rules) do Chomsky đề xuất Ngữ pháp sử dụng các luật cấu trúc ngữ được gọi là ngữ pháp cấu trúc ngữ (phrase structure grammar)
Luật cấu trúc ngữ thường ở dạng: A → B C, có nghĩa là một thành phần (constituent) A được chia thành hai thành phần con (sub-constituents) B và C Ví dụ trong tiếng Anh, các luật sau thể hiện ngữ:
S NP VP (1)
NP Det N1 (2)
N1 (AP) N1 (PP) (3)
Trang 30Luật thứ nhất có ý nghĩa: câu S bao gồm một ngữ danh từ (NP), theo sau là một ngữ động từ (VP) Luật thứ hai có nghĩa: một ngữ danh từ bao gồm một định từ (Det), theo sau là một danh từ (N1) Luật thứ ba có ý nghĩa: một danh từ (N1) có thể bao gồm ba thành phần: ngữ tính từ (AP), danh từ (N1) và ngữ giới từ (PP) Ngữ tính từ và ngữ giới từ có thể có hoặc không có
Áp dụng luật cấu trúc ngữ để phân tích ngữ trong tiếng Việt giúp ta biết được cấu tạo cụ thể của từng ngữ trong tiếng Việt
NP (QP) + Noun-H + (Noun/Adj/ Verb) + (NP/ADJP/VP/PP/ SBAR)ADJP (RP) + Adj-H + (NP/ADJP) + (RP)
(QP _(3)
(Num-H hai)) (Nn-H luồng)
(Nn ý_kiến) (ADJP _(4)
(Aa-H khác) (NP _(5)
(Nn-H nhau))))) Luật thứ 1: VP Ve-H + NP
Trang 31(ADJP _(2)
(Aa-H xa) (NP _(3)
(Nn-H xứ))))Luật thứ 1: NP Nn-H + Nn + ADJP
Luật thứ 2: ADJP Aa-H + NP
Luật thứ 3: NP Nn-H
Bài toán xác định ranh giới từ tiếng Việt trên máy tính đã được bên xử lý ngôn ngữ quan tâm và thực hiện Nguyễn Lê Minh, Cao Hoàng Trụ trong bài viết
Phân cụm từ tiếng Việt bằng phương pháp học máy cấu trúc đã dựa vào các phương
pháp học máy được áp dụng thành công cho các ngôn ngữ Sau đó, các tác giả đã lựa chọn phương pháp Conditional Random Fileds và Online Learning như là công
cụ chính trong việc xây dựng một bộ phân ngữ TiếngViệt
WHNP Cụm đại từ nghi vấn (ai, cái gì, con gì, v.v.)
WHADJP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v.)
WHADVP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v
WPUP Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v.)
Bảng 1.1 Nhãn cụm từ cho hệ phân cụm từ Việt
Số lượng các câu được sử dụng để thực nghiệm là 260 câu tiếng Việt được gán nhãn câu 215 câu làm dữ liệu huấn luyện và 45 câu được sử dụng như dữ liệu
để đánh giá độ chính xác của chương trình Kết quả của việc phân cụm từ (ngữ) tiếng Việt của nhóm tác giả theo họ là rất đáng khích lệ (65,27%)
Các tác giả thực hiện việc trích lọc dữ liệu từ tập corpus VTB hiện có Cách
dữ liệu chunking từ 1 cây VTB sẽ là:
Trang 32Bước 1: Lấy một cây trong VTB
Bước 2: Duyệt đến nút lá trong cây và sinh ra các thành phần [Word, POS, Chunk]
Bước 3: Chuẩn hóa dữ liệu dưới dạng B-I-O
TP Y NP-LOC HCM Y NP-LOC
2005 M NP S-TTL
Bảng 1.2 Mô tả quá trình sinh ra dạng dữ liệu phân cụm
Như vậy, để máy có thể xác định được ranh giới ngữ tiếng Việt, máy tính sẽ
“học” dữ liệu gán nhãn cú pháp mà con người sẽ gán nhãn bằng tay
1.2.5 Cây cú pháp
1.2.5.1 Định nghĩa
Cây phân tích cú pháp (parse tree) là một cây có gốc và thứ tự dùng để thể hiện cấu trúc cú pháp học của một chuỗi theo như một vài dạng ngữ pháp chính thức [7, tr 137]
Cây phân tích cú pháp minh họa ký hiệu ban đầu của một văn phạm dẫn đến một chuỗi trong ngôn ngữ
Nếu ký hiệu chưa kết thúc A có luật sinh A à XYZ thì cây phân tích cú pháp
có thể có một nút trong có nhãn A và có 3 nút con có nhãn tương ứng từ trái qua phải là X, Y, Z
Trang 33Một cách hình thức, cho một văn phạm phi ngữ cảnh thì cây phân tích cú pháp là một cây có các tính chất sau đây:
a Nút gốc có nhãn là ký hiệu bắt đầu
b Mỗi một lá có nhãn là một ký hiệu kết thúc hoặc một e
c Mỗi nút trong có nhãn là một ký hiệu chưa kết thúc
d Nếu A là một ký hiệu chưa kết thúc được dùng làm nhãn cho một nút trong nào đó và X1 Xn là nhãn của các con của nó theo thứ tự từ trái sang phải thì
A X1X2 Xn là một luật sinh Ở đây X1, , Xn có thể là ký hiệu kết thúc hoặc chưa kết thúc Ðặc biệt, nếu A e thì nút có nhãn A có thể có một con có nhãn e
Một văn phạm có thể sinh ra nhiều hơn một cây phân tích cú pháp thì đó là trường hợp nhập nhằng Vì vậy, khi phân tích cú pháp để tránh sự nhập nhằng, ta cần thiết kế các tập luật rõ ràng, không có sự mơ hồ, bổ sung thêm các qui tắc nếu cần thiết
Ví dụ: Phân tích câu The young student sat in the class theo cây cú pháp
Trang 341.2.5.2 Phân tích tiếng Việt theo cây cú pháp
Có hai quan điểm phân tích cú pháp tiếng Việt của các nhà Việt ngữ học
Phân tích cú pháp tiếng Việt theo quan hệ chủ - vị
Đây là cách phân tích cú pháp vẫn thường thấy của các ngôn ngữ châu Âu Tiếng Việt cũng chịu ảnh hưởng của cách phân tích này Phân tích cú pháp tiếng Việt theo quan hệ chủ - vị chia câu thành hai thành phần là chủ ngữ và vị ngữ (C-V) Chủ ngữ, vị ngữ sẽ chia thành các thành phần nhỏ hơn Động từ, tính từ giữ vai trò làm thành tố chính trong vị ngữ, ngoài ra còn có các thành phần bổ ngữ (bổ sung nghĩa cho động từ), định ngữ (bổ sung nghĩa cho danh từ) Danh từ thường giữ vai trò làm thành tố chính trong chủ ngữ, ngoài ra cũng có thể là tính từ, động từ Ngoài thành phần chủ ngữ, vị ngữ, câu còn có các thành phần trạng ngữ, đề ngữ… Mở rộng hơn tiếng Việt có dạng: S-V-O
Phân tích cú pháp tiếng Việt theo quan hệ đề - thuyết
Nếu việc phân tích cú pháp tiếng Việt theo quan hệ chủ - vị thiên về cấu trúc thì cách phân tích đề - thuyết lại dựa vào chức năng Phần đề là phần nêu lên chủ đề của câu Phần thuyết có vị từ và các tham tố Vị từ là thành phần chính của thuyết,
Trang 35đó có thể là động từ, tính từ Tham tố là các thành phần xoay quanh vị từ, bổ sung ý nghĩa cho vị từ Trong cấu trúc đề - thuyết có thêm một thành phần là chủ đề
Để phân tích cú pháp tiếng Việt theo cây cú pháp, luận văn chọn quan điểm phân tích theo quan hệ chủ -vị Sau đó, thiết kế bộ luật văn phạm và phân tích câu tiếng Việt theo cây cú pháp
Ví dụ câu Tôi là sinh viên của ngành Ngôn ngữ được thể hiện dưới dạng cây
Trang 36CHƯƠNG 2: CÁC LUẬT VĂN PHẠM CỦA NGỮ VÀ CÂU
TIẾNG VIỆT THEO NGÔN NGỮ HÌNH THỨC
Các đơn vị của ngôn ngữ như từ, ngữ, câu được hình thức hóa bằng những
ký hiệu hình thức Khi phân tích cú pháp tiếng Việt, ta sử dụng những ký hiệu này
để gán nhãn Và để gán nhãn nhất quán, làm cơ sở cho việc xử lý ngôn ngữ tự động, luận văn tiến hành thiết kế tập nhãn cú pháp (chi tiết ở bảng 2, phụ lục 1) và hướng dẫn gán nhãn cho từng loại ngữ, câu trong tiếng Việt Đây chính là hai nhiệm vụ mà luận văn sẽ tập trung thực hiện trong chương 3 này
Quy tắc gán nhãn cú pháp
Gán nhãn từ trái qua phải, từ cấp bậc cao đến cấp bậc thấp: cấp câu đến cấp ngữ và đến cấp từ loại
Gán nhãn câu và những ngữ chính cấu tạo nên câu
Ví dụ: S (NP Báo chí thế giới) (VP đưa tin CĐV Malaysia đánh fan Việt Nam)
(S
(NP Báo_chí thế_giới) (VP đưa_tin CĐV Malaysia đánh fan Việt_Nam) (PU.))
Gán nhãn cú pháp trước rồi đến nhãn chức năng Một ngữ chỉ có một nhãn
cú pháp nhưng có thể có hơn một nhãn chức năng
Ví dụ: S (NP-SBJ Báo chí thế giới) (VP đưa tin CĐV Malaysia đánh fan Việt Nam)
(S
(NP-SBJ Báo_chí thế_giới) (VP đưa_tin CĐV Malaysia đánh fan Việt_Nam) (PU.))
Gán nhãn ngữ và những thành phần cấu tạo nên ngữ Trong ngữ, xác định thành tố trung tâm, sau đó xác định các thành tố phụ trước, phụ sau để gán nhãn Một ngữ có thể có nhiều thành tố trung tâm Thành tố trung tâm có thể có nhiều thành tố phụ trước, phụ sau Thành tố phụ trước, phụ sau có thể có dạng từ loại, ngữ hoặc câu
Trang 37Ví dụ: NP (Nn-H Báo_chí) (Nn thế_giới)
(NP _
(Nn-H Báo_chí) (Nn thế_giới)) (VP (Vv-H đưa_tin) (S CĐV Malaysia đánh fan Việt_Nam) (VP _
(Vv-H đưa_tin) (S CĐV Malaysia đánh fan Việt_Nam)) Nếu thành tố phụ trước và thành tố phụ sau có dạng ngữ, câu và có nhãn chức năng thì gán nhãn chức năng
Ví dụ: tặng nó quyển sách
VP (Vv-H tặng) (NP-IOB nó) (NP-DOB quyển sách) (VP _
(Vv-H tặng) (NP-IOB nó) (NP-DOB quyển sách)) Nếu thành tố phụ trước và thành tố phụ sau có dạng ngữ thì tiếp tục phân tích ngữ đó thành thành tố trung tâm và các thành tố phụ trước, phụ sau của ngữ Nếu có dạng câu thì tiếp tục phân tích những ngữ chính cấu tạo nên câu, cùng nhãn chức năng của nó Tiếp tục phân tích cho đến khi đến cấp độ thấp nhất - từ loại
Ví dụ: S (NP CĐV Malaysia) (VP đánh fan Việt_Nam)
S (NP-SBJ CĐV Malaysia) (VP đánh fan Việt_Nam)
NP (Nn-H CĐV) (Nr Malaysia)
VP (Vv-H đánh) (NP fan Việt_Nam)
NP (Nn-H fan) (Nr Việt_Nam) (S _
(NP CĐV Malaysia) (VP đánh fan Việt_Nam)) (NP _
(Nn-H CĐV) (Nr Malaysia)) (VP _
(Vv-H đánh) (NP fan Việt_Nam)) (NP _
(FW-H fan) (Nr Việt_Nam)) Khi phân tích và gán nhãn hết một câu ta sẽ có câu được gán nhãn hoàn chỉnh như sau:
Trang 38(S
(NP-SBJ_
(Nn-H Báo_chí) (Nn thế_giới)) (VP _
(Vv-H đưa_tin) (S _
(NP-SBJ_
(Nn-H CĐV) (Nr Malaysia)) (VP _
(Vv-H đánh) (NP _
(FW-H fan) (Nr
Việt_Nam)))))
(PU.))
2.1 XÂY DỰNG TẬP LUẬT CHO NGỮ
Để có thể gán nhãn cho ngữ, ta phải xác định thành tố trung tâm của ngữ (ký hiệu là H), các thành tố phụ trước, phụ sau
Hình 2.1 Cấu tạo của ngữ: ngữ danh từ, ngữ động từ, ngữ tính từ
Trang 39Ngữ danh từ dạng đầy đủ gồm có 3 thành phần: Thành tố trung tâm, thành tố phụ trước, thành tố phụ sau Dạng không đầy đủ chỉ có 2 thành phần, vắng mặt thành tố phụ trước hoặc phụ sau
2.1.1.1 Thành tố trung tâm của ngữ danh từ
Ngữ danh từ là ngữ có tần số xuất hiện khá cao Đây cũng là ngữ có cấu tạo
đa dạng và phức tạp Việc xác định thành tố trung tâm của ngữ danh từ cũng có nhiều quan điểm khác nhau
- Quan điểm 1: Danh từ chỉ đơn vị quy ước là thành tố trung tâm (ví dụ: con,
tấm, miếng, cái…)
- Quan điểm 2: Danh từ chỉ đơn vị tự nhiên là thành tố trung tâm (ví dụ: mèo,
áo, vải, nhà…)
- Quan điểm 3: Danh từ chỉ đơn vị quy ước và danh từ chỉ đơn vị tự nhiên là
thành tố trung tâm (ví dụ: con mèo, cái nhà, tấm áo…)
Theo quan điểm 1 có Nguyễn Tài Cẩn, quan điểm 2 có Lê Văn Lý, Ủy ban Khoa học Xã hội Việt Nam, quan điểm 3 có Diệp Quang Ban
Để tiện cho việc xây dựng bộ luật và gán nhãn cú pháp cũng như phân tích tự động trên máy tính, luận văn chọn quan điểm 1 danh từ chỉ đơn vị quy ước (danh từ chỉ loại) là thành tố trung tâm của ngữ - trung tâm về mặt ngữ pháp
2.1.1.1.1 Thành tố trung tâm là danh từ chỉ loại: NP = Nc-H
Danh từ chỉ loại để chỉ đơn vị rời khi được kết hợp với các danh từ có ý
nghĩa tổng loại Ví dụ: cái, con, quả, củ, tấm, bức, sợi, quyển, cơn, trận, viên, hòn,
bộ, vị, ngài, cây, người, đàn, làn Những từ này được sử dụng cùng với các danh
từ có ý nghĩa tổng loại để thể hiện tính chất cụ thể của danh từ đó
- Danh từ chỉ loại có thể đi với danh từ vật thể như: con, cái, củ, bức, tấm, tờ,
cuốn, quyển, sợi, thanh…
- Danh từ chỉ loại có thể đi với danh từ chất thể (các chất thuộc thể rắn, lỏng,
khí) như: cục, hòn, thanh, tấm, miếng, mẩu, vụn, hạt, giọt, làn, luồng…
- Danh từ chỉ loại có thể đi với danh từ chỉ hiện tượng thời tiết (mưa, gió,
bão, sấm, chớp) như: làn, cơn, trận, tiếng, tia, ánh…
Danh từ chỉ loại làm thành tố trung tâm của ngữ danh từ sẽ được gán nhãn chức năng H bên cạnh nhãn từ loại Nc, giữa chúng là dấu gạch nối Thành tố đứng liền sau danh từ trung tâm sẽ gán nhãn từ loại, các thành tố phụ khác gán nhãn ngữ
Để thuận tiện cho việc phân tích, luận văn xin trình bày các ví dụ dưới dạng cây, phân chia theo cấp bậc
Ví dụ: cái nhà, con gà, cây bưởi, tia nắng, làn khói, trái bóng, con dao…
(NP _
(Nc-H cái)
Trang 40(Nn nhà)) (NP _
(Nc-H con) (Nn gà))
2.1.1.1.2 Thành tố trung tâm là danh từ chỉ loại đặc biệt: NP = Ncs-H
Danh từ chỉ loại đặc biệt như sự, việc, niềm, nỗi… Theo sau danh từ chỉ loại
đặc biệt là các từ loại như: tính từ, động từ… Những từ này khi kết hợp với danh từ chỉ loại đặc biệt sẽ tạo thành những ngữ danh từ
Ví dụ: sự khó khăn, niềm vui, nỗi buồn, sự cô đơn, sự thành đạt…
(NP _
(Ncs-H sự) (Aa khó_khăn)) (NP _
(Ncs-H niềm) (Aa vui))
2.1.1.1.3 Thành tố trung tâm là danh từ chỉ thời gian: NP = Nt-H
Danh từ chỉ thời gian biểu thị các khái niệm về thời gian như: ngày, tháng, năm, tuần, mùa, thời, thời kỳ, sáng, trưa, chiều, tối, đêm, ban ngày, ban trưa, bữa, lúc, khi, dạo, hồi, giờ, phút, giây… Nó cũng có thể là các con số biểu thị ý nghĩa
thời gian: 23-10-1989, 12/2014, 19/8… Danh từ chỉ thời gian có thể kết hợp với các
đại từ chỉ định: này, kia, nọ, nay, ấy, với các số từ để chỉ một khoảng thời gian ngắn: một lúc, một hồi, một dạo…
Ví dụ: ngày 23-10, lúc cách mạng tháng 8 bùng nổ, mùa xuân, 3 ngày sau…
(NP _
(Nt-H lúc) (SBAR cách mạng tháng 8 bùng nổ)) (NP _
(QP 3) (Nt-H ngày) (Nn sau))
2.1.1.1.4 Thành tố trung tâm là danh từ đơn vị: NP = Nu-H
Danh từ đơn vị từ biểu thị đơn vị đo lường, có thể chính xác hoặc không
chính xác Đơn vị đo lường chính xác do các nhà khoa học đặt ra như: tấn, tạ, km,