ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ---[\--- HỒNG THANH LUẬN XÁC ĐỊNH CÁC CỤM DANH TỪ, TỪ ĐẶC TRƯNG NGỮ NGHĨA CHO CÂU TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SUPPORT V
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-[\ -
HỒNG THANH LUẬN
XÁC ĐỊNH CÁC CỤM DANH TỪ, TỪ ĐẶC TRƯNG NGỮ NGHĨA CHO CÂU TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINES
Chuyên ngành : Khoa học máy tính
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 7 năm 2007
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: PGS TS.PHAN THỊ TƯƠI
Cán bộ chấm nhận xét 1: PGS TS.CAO HOÀNG TRỤ
Cán bộ chấm nhận xét 2: PGS TS.ĐỖ PHÚC
Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày… tháng… năm 2007
Trang 3TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự do – Hạnh phúc
-
-oOo -Tp HCM, ngày 11 tháng 07 năm 2007 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: Hồng Thanh Luận Giới tính: Nam ;/ Nữ Ngày, tháng, năm sinh: 12/10/1980 Nơi sinh: Cần Thơ
Chuyên ngành: Khoa học Máy tính
Khóa: 2005
1- TÊN ĐỀ TÀI: Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt bằng phương pháp Support Vector Machines
2- NHIỆM VỤ LUẬN VĂN:
- Nghiên cứu ngữ pháp tiếng Việt, tập trung vào từ loại và cấu trúc cụm danh từ
- Nghiên cứu phương pháp học máy Support Vector Machines So sánh, đánh giá tính hiệu quả của SVMs với các phương pháp học máy khác
- Xây dựng kho ngữ liệu huấn luyện phù hợp với mục tiêu của luận văn
- Hiện thực hệ thống xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt bằng phương pháp Support Vector Machines
3- NGÀY GIAO NHIỆM VỤ:
4- NGÀY HOÀN THÀNH NHIỆM VỤ:
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PHAN THỊ TƯƠI
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua
(Họ tên và chữ ký)
Trang 4Tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGs Ts.Phan Thị Tươi, người
đã trang bị cho tôi những kiến thức quí báu ở bậc Cao học, hướng dẫn tôi đến với lĩnh vực nghiên cứu mới và tận tình hướng dẫn để tôi có thể hoàn thành tốt luận văn này Tôi cũng xin bày tỏ lòng biết ơn đối với NCS Nguyễn Quang Châu vì đã tận tình truyền đạt những kinh nghiệm quí báu cũng như động viên tôi trong suốt thời gian thực hiện luận văn
Cuối cùng, tôi cũng xin gửi lời cảm ơn đến tất cả bạn bè và đồng nghiệp đã tạo mọi điều kiện thuận lợi trong suốt thời gian thực hiện luận văn để tôi có thể hoàn thành tốt nhiệm vụ học tập của mình
Trang 5Chúng tôi áp dụng Support Vector Machines (SVMs) trong việc xác định các cụm
từ đặc trưng trong câu truy vấn tiếng Việt nhằm hỗ trợ về mặt ngữ nghĩa cho các bộ máy tìm kiếm thông tin cũng như phục vụ cho các hệ thống trả lời tự động bằng tiếng Việt Mục tiêu của chúng tôi là loại bỏ các từ vô nghĩa trong câu truy vấn, giữ lại các
từ và cụm từ mang nhiều ý nghĩa nhất Cụ thể, chúng tôi xây dựng hệ thống cho phép người dùng nhập vào câu truy vấn tiếng Việt, qua các giai đoạn xử lý như: phân đoạn
từ, gán nhãn từ loại, xác định các cụm danh từ và từ đặc trưng ngữ nghĩa, kết quả trả
về của hệ thống là các cụm danh từ và từ đặc trưng ngữ nghĩa mà chúng tôi gọi chung
là các cụm từ đặc trưng Từ kết quả đó, thông qua các bộ máy tìm kiếm thông tin, các
hệ thống trả lời tự động, người sử dụng có thể tìm được những thông tin cần thiết một cách nhanh chóng và chính xác
We apply a Support Vector Machines (SVMs) to identify automatically key phrases in Vietnamese query in order to support the meaning for either search engines and automatic answers system in Vietnamese Our purpose is rejecting meaningless words in queries, keeping words and phrases which are meaningful For instance, we build a system that allows users to input their Vietnamese query and to cross processing stages such as word segmentation, POS tagging, base noun phrase identification and meaningfulness word identification The result of system is base noun phrases and key features which are called key phrases From that result, by using search engines and automatic answers system, users can find the essential information quickly and accurately
Trang 6MỤC LỤC
Trang
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1
1.1 PHÁT BIỂU VẤN ĐỀ 1
1.2 MỤC TIÊU NGHIÊN CỨU 2
CHƯƠNG 2: NHỮNG KẾT QUẢ NGHIÊN CỨU LIÊN QUAN 3
2.1 NHỮNG KẾT QUẢ NGHIÊN CỨU TRONG NƯỚC 3
2.2 NHỮNG KẾT QUẢ NGHIÊN CỨU NƯỚC NGOÀI 5
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TIẾNG VIỆT 8
3.1 TỪ LOẠI 9
3.1.1 Danh từ 9
3.1.2 Động từ 14
3.1.3 Tính từ 18
3.1.4 Đại từ 20
3.1.5 Phụ từ 22
3.1.6 Kết từ 25
3.1.7 Trợ từ 26
3.1.8 Cảm từ 27
3.2 CỤM DANH TỪ 28
3.2.1 Khái niệm 28
Trang 73.2.2 Cấu tạo 28
3.2.3 Chức năng 39
3.3 CÂU TIẾNG VIỆT 40
3.3.1 Định nghĩa 40
3.3.2 Phân loại câu 40
CHƯƠNG 4: SUPPORT VECTOR MACHINES (SVMs) 42
4.1 GIỚI THIỆU 42
4.2 CÁC KHÁI NIỆM 42
4.2.1 Nguyên tắc Structural Risk Minization 42
4.2.2 Khái niệm VC-Dimension 43
4.3 PHÂN LOẠI TUYẾN TÍNH 44
4.3.1 Trường hợp phân biệt được 44
4.3.2 Trường hợp không phân biệt được 49
4.4 PHÂN LOẠI PHI TUYẾN (NON-LINEAR) 52
4.4.1 Hàm Kernel 53
4.4.2 Huấn luyện 54
4.4.3 Phân loại 54
4.5 MỞ RỘNG PHÂN LOẠI TRONG SVMs 55
4.5.1 Kỹ thuật so sánh Một - Một (One vs One) 55
4.5.2 Kỹ thuật so sánh Một - Phần dư còn lại (One vs Rest) 56
4.6 CÁC ỨNG DỤNG CỦA SUPPORT VECTOR MACHINES 57
Trang 84.7 CÁC KẾT QUẢ THỰC NGHIỆM CỦA PHƯƠNG PHÁP SUPPORT
VECTOR MACHINES 58
4.8 CÁC THUẬT TOÁN CỦA SUPPORT VECTOR MACHINES 64
CHƯƠNG 5: ỨNG DỤNG SVMs TRONG VIỆC XÁC ĐỊNH CÁC CỤM TỪ ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU .67
5.1 CÁC KHÁI NIỆM 67
5.2 XÁC ĐỊNH CÁC CỤM TỪ ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU 68
5.2.1 Giai đoạn tiền xử lý 72
5.2.2 Giai đoạn xác định các cụm danh từ trong câu 72
5.2.3 Giai đoạn xác định các từ bổ sung nét ngữ nghĩa trong câu 81
5.2.4 Kết quả thực nghiệm của hệ thống 86
CHƯƠNG 6: MỘT SỐ HÌNH ẢNH VỀ CHƯƠNG TRÌNH 88
CHƯƠNG 7: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 95
7.1 ĐÁNH GIÁ 95
7.2 HƯỚNG PHÁT TRIỂN 96
TÀI LIỆU THAM KHẢO 97
PHỤ LỤC 101
Trang 9DANH SÁCH CÁC BẢNG
Trang
Bảng 3.1: Phân loại từ 9
Bảng 3.2: Phân loại danh từ 13
Bảng 3.3: Phân loại động từ 18
Bảng 3.4: Phân loại tính từ 19
Bảng 3.5: Phân loại đại từ xưng hô có ngôi xác định 20
Bảng 3.6: Phân loại đại từ 22
Bảng 3.7: Phân loại phụ từ 25
Bảng 3.8: Phân loại kết từ 26
Bảng 4.1: Kỹ thuật phân loại Một - Phần dư còn lại (One vs Rest) 56
Bảng 4.2: Kết quả phân loại văn bản dùng 5 phương pháp học khác nhau 59
Bảng 4.3: Kết quả nhận dạng khuôn mặt người bằng phương pháp SVMs 60
Bảng 4.4: Các phương pháp phân loại trong R (version 1.6.1) 61
Bảng 4.5: Sai số thử nghiệm của 17 giải thuật học máy (Mean 1) 62
Bảng 4.6: Sai số thử nghiệm của 17 giải thuật học máy (Mean 2) 63
Bảng 5.1: Kho ngữ liệu cho giai đoạn xác định cụm danh từ 78
Bảng 5.2: Kết quả phân loại nhãn gom cụm IOB 80
Bảng 5.3: So sánh kết quả phân loại nhãn gom cụm IOB bằng hai phương pháp 81
Bảng 5.4: Kho ngữ liệu cho giai đoạn xác định các từ bổ sung nét ngữ nghĩa 85
Bảng 5.5: Kết quả phân loại từ bổ sung nét ngữ nghĩa 86
Trang 10Bảng 5.6: Tập dữ liệu thực nghiệm của hệ thống 87 Bảng 5.7: Kết quả thực nghiệm của hệ thống 87
Trang 11DANH SÁCH CÁC HÌNH VẼ
Trang
Hình 3.1: Cấu trúc cây của câu 41
Hình 4.1: Nguyên lý Structural Risk Minization 43
Hình 4.2: 3 điểm trong mặt phẳng R2 được chia bởi đường thẳng tuyến tính 44
Hình 4.3: Các mặt phẳng phân tách 45
Hình 4.4: Mặt phẳng phân tách với độ rộng biên cực đại 46
Hình 4.5: Một trường hợp không phân biệt được 50
Hình 4.6: Quá trình ánh xạ từ không gian nhập vào không gian đặc trưng 53
Hình 4.7: Ba giải thuật huấn luyện SVMs: Chunking, Osuna và SMO 65
Hình 5.1: Mô hình xử lý của hệ thống xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt 70
Hình 5.2: Ví dụ quá trình xử lý của hệ thống xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt 71
Hình 6.1: Giao diện chính của chương trình 88
Hình 6.2: Menu Program 89
Hình 6.3: Menu Commands 90
Hình 6.4: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định cụm danh từ 91
Hình 6.5: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định các từ bổ sung nét ngữ nghĩa 92
Hình 6.6: Huấn luyện mô hình 93
Hình 6.7: Xác định các cụm từ đặc trưng trong câu 94
Trang 12CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 PHÁT BIỂU VẤN ĐỀ
Trong thời đại bùng nổ thông tin như hiện nay, con người dễ bị bao vây bởi lượng
thông tin vô cùng phong phú và khái niệm “Information overload” thường được đề
cập tới do sự thiếu thốn các công cụ, phương pháp giúp con người tìm thấy các thông tin cần thiết và khai thác chúng một cách có hiệu quả Do đó, vấn đề cốt lõi được đặt ra trong các hệ thống khai thác thông tin như truy cập thông tin (Information Retrieval), tóm tắt văn bản (Text Summarization) và rút trích thông tin (Information Extraction),…là phải xác định được các cụm từ đặc trưng ngữ nghĩa của văn bản nhằm giúp người sử dụng tìm được các thông tin cần thiết một cách nhanh chóng và chính xác Tuy nhiên, việc xác định thủ công các cụm từ đặc trưng ngữ nghĩa sẽ tiêu tốn rất nhiều thời gian và chi phí nhất là không phù hợp với các hệ thống cung cấp dịch vụ thời gian thực Do đó, việc rút trích các cụm từ đặc trưng ngữ nghĩa của văn bản một cách tự động là nhu cầu, là mong muốn của các nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên bằng máy tính
Trên thế giới đã có nhiều công trình nghiên cứu tập trung vào vấn đề này và đã đạt được nhiều kết quả đáng khích lệ nhưng đối với Việt ngữ, nhất là vấn đề rút trích cụm từ đặc trưng ngữ nghĩa trong câu, đang là nhu cầu đang bị bỏ ngõ trong các hệ thống khai thác thông tin Nhu cầu này cũng chính là vấn đề cần giải quyết đối với hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross Language Information Retrieval), là hệ thống tìm kiếm thông tin cho phép người dùng nhập vào câu truy vấn chứa thông tin cần tìm trên Internet bằng ngôn ngữ tiếng Việt và kết quả trả về
sẽ là các tài liệu liên quan (bằng ngôn ngữ khác) một cách chính xác Vì vậy, việc
triển khai đề tài “Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt bằng phương pháp Support Vector Machines” thực sự là cần thiết
trong thực tế, làm nền tảng và hỗ trợ về mặt ngữ nghĩa cho các ứng dụng khai thác thông tin trong văn bản tiếng Việt
Trang 131.2 MỤC TIÊU NGHIÊN CỨU
Mục tiêu chính của luận văn là tìm hiểu các công trình nghiên cứu làm nền tảng cho giai đoạn tiền xử lý như phân đoạn từ (Word Segmentation) và gán nhãn từ loại (POS Tagging), các phương pháp đã được sử dụng để xác định các cụm từ đặc trưng trong văn bản (Key Phrase), cũng như phương pháp học máy Support Vector Machines Từ đó, xây dựng một công cụ cho phép rút trích tự động các cụm từ đặc trưng ngữ nghĩa trong câu tiếng Việt
Với mục tiêu đặt ra như trên, cấu trúc của luận văn được chia làm 7 chương:
Chương 1: Giới thiệu sơ lược về đề tài, nội dung nghiên cứu cũng như cấu trúc
của đề tài
Chương 2: Phân tích và đánh giá các công trình nghiên cứu trong và ngoài nước
có liên quan đến nội dung nghiên cứu của đề tài
Chương 3: Trình bày cơ sở lý thuyết của tiếng Việt, tập trung vào tìm hiểu từ
loại và cấu trúc cụm danh từ
Chương 4: Trình bày cơ sở lý thuyết của phương pháp học máy Support Vector
Machines, đánh giá tính hiệu quả của phương pháp này so với các phương pháp phân loại có giám sát khác (supervised classification)
Chương 5: Hiện thực hệ thống xác định các cụm danh từ, từ đặc trưng ngữ
nghĩa trong câu tiếng Việt bằng phương pháp học máy Support Vector Machines
Chương 6: Trình bày một số hình ảnh về hoạt động của chương trình
Chương 7: Một số nhận xét kết luận và hướng phát triển của đề tài
Trang 14CHƯƠNG 2: NHỮNG KẾT QUẢ NGHIÊN CỨU LIÊN QUAN 2.1 NHỮNG KẾT QUẢ NGHIÊN CỨU TRONG NƯỚC
Các công trình nghiên cứu xử lý ngôn ngữ tự nhiên tập trung chủ yếu ở các nhóm nghiên cứu và cá nhân thuộc các trường Đại Học Bách Khoa TP.HCM, Đại Học Khoa Học Tự Nhiên TP.HCM, Đại Học Công Nghiệp TP.HCM,…tập trung theo các hướng chính như Semantic Web, Text Categorization, Text Summarization, Machine Learning
Các nghiên cứu này đều tập trung vào việc xử lý và hỗ trợ tiếng Việt, bước đầu đã
có một số kết quả thành công nhất định, bao gồm các công trình sau:
2.1.1 Trần Ngọc Tuấn (2001) Phân đoạn từ tiếng Việt dùng Corpus và các mô hình thống kê Luận văn Thạc sĩ, Đại Học Bách Khoa TP.HCM [36]
Tác giả đã dùng mô hình thống kê dựa vào tập ngữ liệu huấn luyện và không dùng từ điển Phương pháp huấn luyện dựa vào việc xây dựng các mô hình Markov
ẩn cấp 1 và cấp 2 (tương ứng với bi-gram và tri-gram), thống kê dựa vào tập ngữ liệu thô Công trình đã đạt được kết quả rất khả quan Tuy nhiên, vì đi theo hướng thống kê nên để đạt độ chính xác cao thì cần phải tốn nhiều công sức để cập nhật,
bổ sung kho ngữ liệu
2.1.2 Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phong (2003) Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt In Proceedings
of ICT.rda’03, Hanoi Feb, Việt Nam, pp 22-23 [29]
Các tác giả trình bày chi tiết thử nghiệm về gán nhãn từ loại cho các văn bản tiếng Việt bằng cách áp dụng bộ gán nhãn QTAG, một bộ gán nhãn xác suất độc lập với ngôn ngữ Các tác giả đã sử dụng hai bộ nhãn với độ mịn khác nhau Kết quả đạt độ chính xác ~ 94% đối với bộ nhãn thứ nhất (9 nhãn từ loại và 10 nhãn cho các loại kí hiệu), trong khi với bộ nhãn thứ hai chỉ đạt tới ~ 85% (48 nhãn từ loại và 10 nhãn cho các loại kí hiệu) Tuy nhiên, để ứng dụng phương pháp gán nhãn này vào thực tế thì cần phải giải quyết nhiều vấn đề như: giải quyết nhập nhằng sau khi phân
Trang 15đoạn từ nếu có nhiều cách phân tích khác nhau, chưa nhận dạng được các cụm từ là tên riêng, tên viết tắt…
2.1.3 Nguyễn Quang Châu (2005) Phân đoạn từ và gán nhãn từ loại cho từ trong tiếng Việt Trong Đề tài trọng điểm cấp nhà nước “Viet Nam Semantic Web” (KC01-21) do PGS TS Cao Hoàng Trụ làm chủ nhiệm đề tài [28]
Tác giả đã sử dụng mô hình thống kê N-Gram dựa vào tập ngữ liệu huấn luyện để phân đoạn từ và gán nhãn từ loại bằng phương pháp xác suất cho các từ trong văn bản tiếng Việt Công trình đã đạt được độ chính xác trên 90%, cũng như với tốc độ
xử lý khá nhanh, có thể áp dụng cho giai đoạn tiền xử lý trong các hệ thống xử lý
tiếng Việt khác như tóm tắt văn bản (Text Summarization), truy cập thông tin (Information Retrieval), rút trích thông tin (Information Extraction), Thành công
của tác giả là đã xây dựng được kho ngữ liệu huấn luyện tiếng Việt tương đối lớn khoảng 72.000 từ với một tập gồm 49 từ loại ở 10 miền giới hạn nhằm phục vụ cho các công trình nghiên cứu khác
2.1.4 Lại Thị Hạnh (2002) Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu thông tin đa ngôn ngữ Luận văn Thạc sĩ, Đại Học Khoa Học Tự Nhiên TP.HCM [18]
Đây được coi là một trong những đề tài đầu tiên trong việc rút trích các cụm danh
từ trong văn bản tiếng Việt Tác giả đã sử dụng các phương pháp học dựa trên các luật biến đổi (TBL) để xây dựng tập luật biến đổi dựa trên ngữ cảnh phục vụ cho việc xác định cụm danh từ Công trình đã đạt được độ chính xác khoảng 75% Tuy nhiên để công trình có thể ứng dụng được vào thực tế, làm nền tảng cho các hệ thống xử lý tiếng Việt thì phải tốn thêm nhiều công sức để bổ sung kho ngữ liệu huấn luyện cũng như các luật ngữ pháp nhằm đạt được kết quả tốt hơn
Trang 162.2 NHỮNG KẾT QUẢ NGHIÊN CỨU NƯỚC NGOÀI
Nhiều kết quả nghiên cứu theo nhiều hướng tại các trường Đại học ở Mỹ, Canada, Châu Âu, Nhật Bản, Trung Quốc, Hàn Quốc, Đài Loan đã được công bố rộng rãi trên Internet, bao gồm các công trình tiêu biểu sau:
2.2.1 Cheng, Alex (2002) Base Noun Phrase Chunking with Support Vector Machines Final Project Report, Cornell University, Ithaca, New York, USA [4]
Tác giả đã sử dụng phương pháp phân loại mẫu (pattern classification) Support Vector Machines để xác định cụm danh từ cơ bản trong tiếng Anh Bằng cách sử dụng các thuộc tính của từ cùng với các từ lân cận như giá trị từ loại, nhãn từ loại và giá trị của từ được in hoa cộng với cách biểu diễn IOB, tác giả cho thấy công trình đạt được độ chính xác khoảng 94% Đây là một kết quả rất khả quan nhưng để đạt được kết quả đó thì phải tốn rất nhiều công sức để xây dựng kho ngữ liệu huấn luyện mà theo tác giả thì chứa khoảng 10.000 câu với khoảng 211.000 từ
2.2.2 Ong, Thian-Huat and Chen, Hsinchun (1999) Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A Linguistic Foundation for Knowledge Management In Proceedings of the Second Asian Digital Library Conference, Taipei, Taiwan, pp 63-84 [30]
Nhóm tác giả đã đề ra phương pháp rút trích tự động các cụm từ khóa trong các tài liệu tiếng Hoa bằng cách dựa trên PAT-Tree và các thông tin chung cũng như tần
số xuất hiện của các cụm từ trong văn bản Đây là sự cải tiến của cách tiếp cận trong [5] mà sự khác nhau đó là cách rút trích các cụm từ dự tuyển bằng việc sử dụng
“stop words” và phương pháp rút trích các cụm từ khóa Theo thử nghiệm của các tác giả thì giải thuật này đạt được độ chính xác khoảng 50% (so với giải thuật chưa cải tiến là 30%) Cách tiếp cận này đã áp dụng thành công và đạt hiệu quả cao trong các nghiên cứu thuộc lĩnh vực truy cập thông tin (Information Retrieval) như phân loại văn bản (Document Classification), lập chỉ mục tài liệu (Book Indexing)…Tuy nhiên, vì giai đoạn rút trích các cụm từ dự tuyển không tập trung theo hướng ngôn ngữ, chỉ rút trích các cụm từ có độ dài bất kỳ không chứa “stop words”, nên giải
Trang 17thuật vẫn cịn hạn chế về mặt ngữ nghĩa Mặt khác, các tác giả chỉ thử nghiệm giải thuật trên phần tĩm tắt của văn bản (abstract) chứ khơng phải tồn văn bản nên độ chính xác sẽ giảm khi áp dụng cho cả văn bản
2.2.3 Frantzi, K., Ananiadou, S and Mina, H (2000) Automatic Recognition
of Multi-word Terms: the C-value/NC-value Method International Journal on Digital Library, pp 115-130 [11]
Các tác giả tiếp cận vấn đề theo hướng kết hợp giữa ngơn ngữ và thống kê để rút trích tự động các cụm từ khĩa trong các tài liệu tiếng Anh Trong giai đoạn rút trích các cụm từ dự tuyển, các tác giả sử dụng các mẫu cụm danh từ hoặc cụm tính từ thường dùng dựa trên từ loại nhưng số lượng các mẫu này vẫn khá khiêm tốn Cịn trong giai đoạn rút trích các cụm từ khĩa, họ dựa trên các thuộc tính đã được thống
kê của các cụm từ khĩa như tần số xuất hiện trong kho ngữ liệu, độ dài, tần số xuất hiện trong các cụm từ dài hơn,…Qua thử nghiệm cơng trình đã đạt được kết quả tương đối tốt, độ chính xác chấp nhận được là khoảng 64% và được đánh giá cao Tuy nhiên, để cĩ thể ứng dụng vào thực tế thì cần phải cải tiến hoặc bổ sung giải thuật trong giai đoạn xử lý dựa trên ngơn ngữ để rút trích được các cụm từ mang ngữ nghĩa tốt hơn
2.2.3 Medelyna, Olena (2005) Automatic Keyphrase Indexing with a Specific Thesaurus MSc thesis, University of Waikato, New Zealand [20]
Domain-Tác giả đã cải tiến giải thuật KEA [10] trong giai đoạn rút trích các cụm từ dự tuyển bằng cách dựa vào một từ điển đồng nghĩa theo hướng kết hợp giữa ngơn ngữ
và thống kê bao gồm các bước sau: Đầu tiên xác định các cụm từ khĩa dự tuyển bằng phương pháp từ vựng và tính các giá trị của chúng dựa trên các thuộc tính
TFxIDF (Term Frequency x Inverse Document Frequency), First occurrence, Length và Node degree của chúng, sau đĩ sử dụng giải thuật học máy (Nạve
Bayes) dựa trên kho ngữ liệu đã được xác định cụm từ khĩa mẫu để dự đốn và rút
ra bảng các giá trị xác suất tiêu chuẩn phục vụ cho giai đoạn rút trích các cụm từ khĩa sau này Theo thử nghiệm của tác giả thì giải thuật này đạt được độ chính xác
Trang 18khoảng 28.3% (so với giải thuật KEA chưa cải tiến là 13.3%) Đây là giải thuật đơn giản, dễ thiết kế, cài đặt, thời gian huấn luyện nhanh chóng mà mang lại hiệu quả tương đối cao nhưng muốn ứng dụng được vào thực tế thì cần phải cải tiến thêm ở
cả hai giai đoạn rút trích các cụm từ dự tuyển và rút trích các cụm từ đặc trưng
Trang 19CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TIẾNG VIỆT
Trong chương này, chúng ta sẽ tìm hiểu cơ sở lý thuyết về ngữ pháp tiếng Việt nhằm làm nền tảng kiến thức cho các giai đoạn về sau Tuy nhiên, vì mục tiêu của luận văn là xác định các cụm từ đặc trưng trong câu tiếng Việt, hỗ trợ về mặt ngữ nghĩa cho các bộ máy tìm kiếm thông tin, các hệ thống trả lời tự động nên trong các công trình nghiên cứu thực hiện tóm tắt văn bản ([14], [20], [30]), mặc dù không phù hợp quan điểm với mục tiêu này nhưng tất cả đều khẳng định tính hiệu quả trong việc tập trung xác định các cụm từ là cụm danh từ Mặt khác, cụm danh từ luôn đóng vai trò quan trọng trong các tác vụ truy xuất, rút trích và tìm kiếm thông tin [4], (Phụ lục D, E) Thêm vào đó, thông qua các thống kê sơ bộ (Phụ lục B, C) ta cũng thấy rằng trong các câu truy vấn dưới dạng câu tường thuật hoặc câu hỏi thì các cụm danh từ đều là các cụm từ đặc trưng Do đó, trong chương này, do giới hạn của luận văn nên chúng ta chỉ tập trung vào việc tìm hiểu từ loại và cấu trúc cụm danh từ trong tiếng Việt
Trang 20Bảng 3.1: Phân loại từ
3.1.1 Danh từ
3.1.1.1 Đặc trưng
Ý nghĩa từ vựng: là ý nghĩa thực thể Hiểu theo nghĩa rộng, ý nghĩa thực
thể là ý nghĩa chỉ sự vật, chỉ khái niệm về sự vật và những gì được “sự vật hóa”
Khả năng kết hợp: có khả năng kết hợp với đại từ chỉ định: này, nọ,
ấy,…
ĐẶC ĐIỂM CÁC LOẠI
Trang 21Chức năng cú pháp: có đầy đủ chức năng cú pháp của thực từ Trong mối
quan hệ với động từ, tính từ, nét riêng biệt của danh từ là ít được dùng làm vị ngữ đặt trực tiếp sau chủ ngữ của câu
3.1.1.2 Phân loại
a Danh từ chỉ sự vật đơn thể (danh từ đơn thể)
Biểu thị các sự vật đơn thể như: bàn, ghế, bò, người,…
Ví dụ: Tôi vơ quần áo mặc vào người
Khả năng kết hợp của danh từ tổng hợp với danh từ chỉ số lượng là rất hạn chế Danh từ tổng hợp không đứng sau các danh từ chỉ loại hay chỉ đơn vị rời
(như: cái, con, chiếc,…)
Ví dụ: Có thể nói : “hai mươi căn nhà ấy”
nhưng không thể nói : “hai mươi căn nhà cửa ấy”
Có thể nói : “toàn thể quần chúng”
nhưng không thể nói: “ba quần chúng”
Tuy vậy, đáng chú ý là có những danh từ khi thì dùng theo nghĩa tổng thể, khi thì dùng theo nghĩa đơn thể
Ví dụ: “toàn thể giáo viên” hay “hai đồng chí giáo viên”
Trang 22c Danh từ chỉ loại thể sự vật (danh từ loại thể)
Bao gồm các từ như: cái, con, tấm, miếng, mảnh, ông, bà, chú, bác, anh,
chị,
Ví dụ: cái nhà, cái áo, chị giáo viên,…
d Danh từ chỉ đơn vị sự vật (danh từ đơn vị)
Bao gồm các từ như: lít, mẫu, cân, tấn, sào,…
Ví dụ: hai lít nước
một mẫu đất
Ngoài ra còn có những danh từ đơn vị khác:
- Danh từ đơn vị tính toán, đo lường ước lượng, không chính xác, như:
nắm, ngụm, nồi,…
Ví dụ: một nắm muối
hai ngụm rượu mấy nồi cơm
- Danh từ đơn vị thời gian như: giờ, phút, giây, lúc,…
Ví dụ: một giờ nghỉ
mấy phút suy nghĩ
- Danh từ đơn vị tổ chức như: làng, xã, tỉnh, khu, lớp, đoàn, tổ,…
Ví dụ: một tổ công nhân
e Danh từ chỉ sự vật trừu tượng (danh từ trừu tượng)
Xét về mặt nghĩa, sự vật trừu tượng đây là những khái niệm như: tình
cảm, ý nghĩ, quyền lợi, tư tưởng, thái độ, quan điểm, lập trường, trí tuệ,…
Ví dụ: hai thái độ
những ý nghĩ
Trang 23f Danh từ chỉ số lượng sự vật (danh từ số lượng)
Được biểu thị bằng những từ như: một, hai, ba, mười, một trăm, những,
các, vài, mấy, tất cả, số đông, phần lớn,…
Trang 24Các lớp con danh từ Ví dụ
Danh từ riêng Nguyễn Đình Chiểu, MêKông,
Trà Vinh,…
Danh từ đơn thể bàn, ghế, bò, người,…
Danh từ tổng thể bàn ghế, nhà cửa, trâu bò, máy
Danh từ trừu tượng tư tưởng, thái độ, quan điểm, lập
Trang 253.1.2 Động từ
3.1.2.1 Đặc trưng
Ý nghĩa từ vựng: biểu thị ý nghĩa khái quát về quá trình Ý nghĩa quá
trình thể hiện trực tiếp đặc trưng vận động của thực thể Đó là ý nghĩa hành động Ý nghĩa trạng thái được khái quát hóa trong mối liên hệ với vận động của thực thể trong thời gian và không gian
Khả năng kết hợp: thường có các phụ từ đi kèm để biểu thị các ý nghĩa
quan hệ có tính tình thái giữa quá trình với cách thức và với các đặc trưng vận động của quá trình trong không gian, thời gian và hiện thực Động từ còn kết hợp được với thực từ (danh từ) nhằm phản ánh các quan hệ trong nội dung vận động của quá trình
Chức năng cú pháp: có đầy đủ chức năng cú pháp của thực từ Nhưng
chức năng phổ biến và quan trọng nhất là làm vị ngữ trong cấu tạo câu, có vị trí trực tiếp sau chủ ngữ
3.1.2.2 Phân loại
a Động từ chỉ những hoạt động có bắc cầu sang sự vật ở ngoài nó (động
từ ngoại động)
Đó là những hoạt động như ăn, viết, đọc, xây dựng, cải tiến,…
Lớp động từ này khi làm thành phần câu thường đòi hỏi kết hợp với thực
từ hay tổ hợp thực từ để khỏi “trống” nghĩa
Trang 26Hay là sự vật hình thành nên từ hoạt động
Ví dụ: viết thư
may áo xây dựng chủ nghĩa xã hội
b Động từ chỉ những hoạt động không bắc cầu sang sự vật ở ngoài nó (động từ nội động)
Đó là những hoạt động như: ngủ, tắm, cười, chạy, bay, làm lụng, nghỉ
ngơi,…
Về ý nghĩa, biểu thị quá trình (hành động hoặc trạng thái) Ý nghĩa quá trình có thể nhận thức tương đối rõ, ngay cả trong trường hợp động từ không có từ khác đi kèm để bổ nghĩa
Ví dụ: Em bé đang ngủ
Chim bay
Mọi người đang làm lụng ngoài đồng
c Động từ chỉ hoạt động như nghĩ ngợi, nhận biết, thụ cảm,…(động từ cảm nghĩ)
Đó là những hoạt động tâm lý diễn ra do chịu tác động của sự vật nhất
định như: nghe, biết, yêu, nhớ, nghi ngờ,…
tin người nhớ quê hương
Lớp động từ này còn có thể dùng kèm phụ từ chỉ mức độ
Ví dụ: rất yêu nước
rất biết lẽ phải
Trang 27Đặc điểm ngữ pháp này làm cho tiểu loại động từ cảm nghĩ khác với động từ ngoại động, nội động
Ví dụ: không thể nói: “rất soạn nhạc”
nhưng có thể nói “rất biết nhạc”, “rất yêu nhạc”
Đặc điểm này cũng làm cho động từ cảm nghĩ có phần gần gũi với tính
từ
Ví dụ: có thể nói “rất yêu nhạc” và cũng có thể nói “rất giỏi nhạc”
d Động từ chỉ những hoạt động có bao hàm phương hướng (động từ phương hướng)
Bao gồm các từ chỉ hướng dời chuyển như: ra, vào, lên, xuống,…
Ví dụ: khách vào
máy bay xuống
Nhưng cũng có thể kết hợp với thực từ để nói rõ thêm cái đích của hoạt động
Ví dụ: khách vào nhà nghỉ
máy bay xuống sân bay Tân Sơn Nhất
e Động từ chỉ trạng thái tồn tại của sự vật (động từ tồn tại )
Bao gồm các từ chỉ trạng thái tồn tại của sự vật như: có, còn, hết, mất,…
Ví dụ: có tiền
còn gạo
hết đạn
f Động từ chỉ trạng thái biến hoá của sự vật (động từ biến hóa)
Những động từ chỉ các trạng thái biến hóa như: hóa, tránh, nên, trở
thành,
Trang 28h Động từ chỉ trạng thái tiếp thụ (động từ tiếp thụ)
Đối lập với trạng thái ý chí là trạng thái tiếp thụ, có tính chất thụ động
Có hai trạng thái chính là bị hoặc phải, và được
Trang 29Các lớp động từ Ví dụ Ngoại động ăn, viết, đọc, xây dựng, cải tiến,…
Nội động ngủ, tắm, cười, chạy, bay, làm lụng, nghỉ
ngơi,…
Cảm nghĩ nghe, biết, yêu, nhớ, nghi ngờ,…
Phương hướng ra, vào, lên, xuống,…
Biến hóa hóa, tránh, nên, trở thành,
Ý chí muốn, quyết, dám, toan, định,
Khả năng kết hợp: có khả năng kết hợp với phụ từ, nhưng không kết hợp
được với hãy, đừng, chớ (đối lập với động từ) Tính từ cũng có thể kết hợp với thực
từ đi kèm để bổ nghĩa cho tính từ
Trang 30Chức năng cú pháp: làm vị ngữ trong câu được coi là chức năng chính
của tính từ, nhưng tính từ cũng được dùng kèm với danh từ hoặc động từ để bổ nghĩa cho danh từ hay động từ
3.1.3.2 Phân loại
a Tính từ chỉ những tính chất của sự vật bao hàm giá trị về chất (tính từ hàm chất)
Đó là những tính chất như: tốt, đẹp, xấu, giỏi, ngoan, thông minh, khôn,
tích cực, trong sạch, bẩn, ngu, ngu xuẩn,…
Hàm chất tốt, đẹp, xấu, giói, ngoan, thông minh, khôn, tích cực, trong
sạch, bẩn, ngu, ngu xuẩn,…
Hàm lượng cao, thấp, ngắn, dài, rộng, hẹp, gần, xa, nông, sâu,…
Bảng 3.4: Phân loại tính từ
Trang 313.1.4 Đại từ
3.1.4.1 Đặc trưng
Ý nghĩa từ vựng: dùng để thay thế và chỉ trỏ Đại từ không biểu thị ý
nghĩa thực thể, quá trình hoặc đặc trưng như danh từ, động từ và tính từ Đại từ chỉ biểu thị các ý nghĩa đó một cách gián tiếp: chúng mang nội dung phản ánh vốn có của các thực từ mà chúng thay thế
Khả năng kết hợp: vì đảm nhiệm chức năng thay thế nên đại từ không đòi
hỏi các yếu tố phụ bổ sung cho nó
Chức năng cú pháp: có thể đảm nhiệm các chức năng cú pháp của thực
từ được thay thế
3.1.4.2 Phân loại
a Đại từ xưng hô
Ví dụ: Hai năm trước đây, tôi đã gặp Bình
Cương vị ngôi của các đối tượng trong quan hệ giao tiếp
Ngôi 1
(người nói)
Ngôi 2 (người nghe)
Ngôi 3 (người, vật được nói đến)
Ý nghĩa số lượng đối tượng giao tiếp theo ngôi
đơn thể) chúng tôi, chúng
Bảng 3.5: Phân loại đại từ xưng hô có ngôi xác định
b Đại từ không gian, thời gian
Bao gồm các từ như: đây, đấy, đó, kia, ấy, nọ, này, nay, bây giờ, bấy
giờ,…
Trang 32Ví dụ: người này
quyển sách ấy
c Đại từ số lượng: bấy nhiêu
Ví dụ: tôi chỉ có bấy nhiêu thôi
d Đại từ hoạt động, tính chất
Tức là đại từ dùng để trỏ hoạt động, tính chất Bao gồm các từ: thế, vậy
Ví dụ: thế là h ng rồi
e Đại từ nghi vấn
Là đại từ dùng để trỏ trong câu hỏi
Có thể phân những đại từ nghi vấn này thành các nhóm sau đây:
- ai: để hỏi về người
- gì, chi: để hỏi về sự vật
- đâu, bao giờ: để hỏi về không gian, thời gian
- bao nhiêu, mấy: để hỏi về số lượng
- sao, thế nào: để hỏi về hoạt động, tính chất
Ví dụ: Cái của đồng chí số mấy?
Không có ai tên thế thật à?
Trang 33Các lớp đại từ Ví dụ
Không gian, thời gian đây, đấy, đó, kia, ấy, nọ, này, nay, bây giờ, bấy giờ,…
Hoạt động, tính chất thế, vậy
Nghi vấn
ai
gì, chi đâu, bao giờ bao nhiêu, mấy sao, thế nào
Bảng 3.6: Phân loại đại từ
3.1.5 Phụ từ
3.1.5.1 Đặc trưng
Ý nghĩa từ vựng: biểu thị ý nghĩa về quan hệ giữa quá trình và đặc trưng
với thực tại, đồng thời cũng biểu hiện ý nghĩa về cách thức nhận thức và phản ánh các quá trình và đặc trưng trong hiện thực
Khả năng kết hợp: thường dùng kèm với thực từ (động từ, tính từ)
Chức năng cú pháp: không có khả năng làm trung tâm ngữ nghĩa – ngữ
pháp trong kết hợp thực từ, và rất ít có khả năng làm thành phần chính trong câu
3.1.5.2 Phân loại
a Phụ từ thời gian
Đó là các từ: đã, sẽ, đang, vừa, mới, sắp, từng, liền, bên, rồi,…
Trang 34Chỉ quan hệ về thời gian với quá trình hay đặc trưng trong cách phản ánh của tư duy Quan hệ thời gian được xác định theo một điểm mốc tương ứng với thời điểm thực tại, hoặc tương ứng với thời điểm phản ánh, hoặc tương ứng với thời gian giữa các quá trình hay các đặc trưng
Ví dụ: Nó đã đi đâu kia chứ
Anh ấy đã về rồi
Những từ như: hoàn toàn, hết sức, tuyệt đối, cực,…Cũng có thể coi là
Những phụ từ đó cũng là: cũng, đều, vẫn, cứ, còn, mãi, luôn, luôn luôn,
mãi mãi, hoài,…Những từ hay ngữ như: liên tục, liên tiếp, không ngừng,…cũng có
thể dùng làm phụ từ so sánh
Nghĩa đồng nhất của hoạt động, trạng thái được biểu thị rõ khi hoàn cảnh so sánh được nêu trong câu
Ví dụ: Người ta bảo chớ đi, Lan vẫn đi
Các bạn ra về, Mai còn ngồi lại
Trang 35Ví dụ: Nó không nói dối (phủ định )
Nó nói dối (khẳng định bình thường)
Nó có nói dối (khẳng định nhấn mạnh)
e Phụ từ mệnh lệnh
Chỉ ý nghĩa quan hệ có nội dung khuyên bảo, ngăn cấm, đòi hỏi, sai khiến
Đó là những phụ từ: hãy, chớ, đừng, nên, phải, cần
Ví dụ: Em hãy nhìn vào mặt anh đây
Trang 36Các lớp phụ từ Ví dụ Thời gian đã, sẽ, đang, vừa, mới, sắp, từng, liền, bên, rồi,…
Mức độ rất, khá, khi, hơi, quá, lắm, thật,…
Ý nghĩa từ vựng: biểu thị quan hệ giữa các khái niệm và đối tượng được
phản ánh Kết từ là dấu hiệu biểu thị các quan hệ cú pháp giữa các thực từ và hư từ một cách tường minh
Khả năng kết hợp và chức năng cú pháp: dùng nối kết các từ, các kết
hợp từ, các câu và đoạn văn có quan hệ cú pháp
Trang 37Ví dụ: Quần áo của tôi
b Kết từ liên hợp
Tức là kết từ biểu thị quan hệ liên hợp
Đó là những từ như: và, với, hay, hoặc, cùng, những, song, thì,…và những từ có thể dùng thành cặp như: nếu…thì, tuy…nhưng, vì…cho nên, không
và, với, hay, hoặc, cùng, những, song, thì,…
nếu…thì, tuy…nhưng, vì…cho nên, không những…mà còn, càng…càng, vừa…vừa…
Bảng 3.8: Phân loại kết từ
3.1.7 Trợ từ
Ý nghĩa từ vựng: biểu thị ý nghĩa tình thái trong câu với mục đích nhấn
mạnh, tăng cường: ngay, ngay cả, chính, đích, thật ra, đúng, đúng là,…
Khả năng kết hợp: có khả năng kết hợp như thực từ và phần lớn các loại hư
từ
Chức năng cú pháp: được dùng trong câu với chức năng biểu thị các ý
nghĩa quan hệ có tính tình thái ở bậc câu và ở văn bản Vị trí trợ từ trong câu không nhất thiết là cố định, các trợ từ có thể đi theo những bộ phận khác nhau trong cấu trúc câu
Trang 38Ví dụ: Ngay cả tôi cũng còn bị hắn lừa
Đúng là t i giặc đuổi theo rồi
3.1.8 Cảm từ
Ý nghĩa từ vựng: biểu thị ý nghĩa tình thái trong câu thiên về diễn đạt các
cảm xúc của người nói: à, ư, nhỉ, nhé, hả, hử, ơi, hỡi, ôi,…
Khả năng kết hợp: có khả năng kết hợp như thực từ và phần lớn các loại hư
từ
Chức năng cú pháp: được dùng trong câu với chức năng biểu thị các ý
nghĩa quan hệ có tính tình thái biểu lộ cảm xúc ở bậc câu và ở văn bản Vị trí cảm
từ trong câu thường là cố định, các cảm từ có thể đứng ở đầu hoặc ở cuối câu
Đây mày đánh ông đi
Trang 39Cấu tạo chung của cụm danh từ gồm có 3 phần:
Phần phụ trước - Phần trung tâm - Phần phụ sau
Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếp theo một trật tự nhất định Ở phần phụ sau thường nhận ra được hai vị trí có trật tự
ổn định Phần phụ trước của cụm danh từ chuyên dùng để chỉ về số lượng của sự vật nêu ở trung tâm, phần phụ sau chủ yếu dùng chỉ chất lượng của sự vật nêu ở trung tâm Chúng ta sẽ qui ước đánh số các vị trí tại các phần như trong lược đồ dưới đây:
-3 -2 -1 0 1 2 Quan hệ giữa phần trung tâm và các phần phụ có bản chất của quan hệ chính phụ nên số lượng vị trí của các phần phụ là có giới hạn và chỉ có phần trung tâm có quan hệ với các yếu tố khác nằm ngoài cấu trúc của cụm danh từ Ví dụ: trong câu
“Cha tôi đi vắng” với cụm danh từ là “cha tôi” thì chỉ có từ trung tâm “cha” là có quan hệ với yếu tố nằm ngoài cụm danh từ “đi vắng”
Xét về phương diện ngữ nghĩa thì toàn bộ cơ cấu của cụm danh từ bị chi phối bởi đặc điểm ngữ nghĩa của chính phần trung tâm Với ý nghĩa đó, phần trung tâm
sẽ qui định có bao nhiêu thành phần phụ và những thành phần phụ nào có thể quan
hệ với nó Mọi biến đổi diễn ra trong cấu trúc cụm danh từ đều có liên quan đến ngữ nghĩa của phần trung tâm
Trang 40a Phần trung tâm
* Liên quan đến vấn đề xác định phần trung tâm của cụm danh từ, hiện nay vẫn còn có nhiều tranh cãi, nhưng theo các quan điểm của [6], [18], [24], [25], [38] thì chủ yếu có ba ý kiến sau:
- Ý kiến thứ nhất cho rằng đối với các cụm danh từ như: cuốn sách này,
bác nông dân ấy, bức tranh đó,…thì xem các yếu tố cuốn, bức, bác là thành tố
chính còn các danh từ theo sau chỉ là bổ sung, định ngữ cho danh từ chính Cách giải quyết này có triết lý ngữ pháp mạnh nhưng chỉ tồn tại với điều kiện là không quan tâm đến ngữ nghĩa mà chỉ xem cụm danh từ như là chuỗi thuần túy của một trật tự các từ Do đó, trong cách giải quyết này đã có nghịch lý khi xem cái “sự vật” xác định cho cái “phi sự vật” và như vậy chỉ có một số ít danh từ chỉ loại có khả năng làm trung tâm cụm danh từ còn các danh từ “sự vật” chỉ có thể là thành tố phụ
- Ngược lại, có ý kiến cho rằng các yếu tố cuốn, bức, bác chỉ là thành tố phụ, còn sách, nông dân, tranh mới là bộ phận chính Ý kiến này dựa trên quan điểm cuốn, bức, bác chỉ dùng để nêu đơn vị, là thành tố phụ, còn sách, nông dân,
tranh mới là sự vật chính được nêu lên ở cụm danh từ Tuy nhiên, giải quyết như
vậy sẽ không hoàn toàn đúng vì trong một số trường hợp thì cuốn, bức vẫn hoàn
toàn giữ khả năng kết hợp y như các danh từ khác, tạo thành cụm danh từ có đầy đủ
tất cả mọi thành tố phụ của cụm danh từ và trong đó chúng là thành tố chính (ba
cuốn này, hai bức vừa mới mua hôm qua) Ngoài ra, trong tiếng Việt lại có hiện
tượng dùng những từ anh, cái, bức, người,…trước một động từ, tính từ để tạo thành cụm danh từ dùng để chỉ sự vật, ví dụ: người mua, anh đưa thư, bức vẽ,…với thành
tố trung tâm là các danh từ người, anh, bức còn các bộ phận sau chỉ là định tố, có
nghĩa bổ sung thêm cho các danh từ chính
- Ngoài ra, còn có một giải pháp khác đề xuất rằng trung tâm của cụm danh
từ không phải chỉ có một yếu tố Giải pháp này do Nguyễn Tài Cẩn nêu ra, mang một tính chất cụ thể và có mục đích thực tiễn Theo ông thì trung tâm cụm danh từ
là một trung tâm ghép gồm hai thành tố kết hợp với nhau T1 và T2 (anh-T1+sinh