1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng việt bằng phương pháp support vector machines

116 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 116
Dung lượng 1,05 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ---[—\--- HỒNG THANH LUẬN XÁC ĐỊNH CÁC CỤM DANH TỪ, TỪ ĐẶC TRƯNG NGỮ NGHĨA CHO CÂU TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SUPPORT V

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-[—\ -

HỒNG THANH LUẬN

XÁC ĐỊNH CÁC CỤM DANH TỪ, TỪ ĐẶC TRƯNG NGỮ NGHĨA CHO CÂU TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINES

Chuyên ngành : Khoa học máy tính

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 7 năm 2007

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: PGS TS.PHAN THỊ TƯƠI

Cán bộ chấm nhận xét 1: PGS TS.CAO HOÀNG TRỤ

Cán bộ chấm nhận xét 2: PGS TS.ĐỖ PHÚC

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày… tháng… năm 2007

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự do – Hạnh phúc

-

-oOo -Tp HCM, ngày 11 tháng 07 năm 2007 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: Hồng Thanh Luận Giới tính: Nam ;/ Nữ … Ngày, tháng, năm sinh: 12/10/1980 Nơi sinh: Cần Thơ

Chuyên ngành: Khoa học Máy tính

Khóa: 2005

1- TÊN ĐỀ TÀI: Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt bằng phương pháp Support Vector Machines

2- NHIỆM VỤ LUẬN VĂN:

- Nghiên cứu ngữ pháp tiếng Việt, tập trung vào từ loại và cấu trúc cụm danh từ

- Nghiên cứu phương pháp học máy Support Vector Machines So sánh, đánh giá tính hiệu quả của SVMs với các phương pháp học máy khác

- Xây dựng kho ngữ liệu huấn luyện phù hợp với mục tiêu của luận văn

- Hiện thực hệ thống xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt bằng phương pháp Support Vector Machines

3- NGÀY GIAO NHIỆM VỤ:

4- NGÀY HOÀN THÀNH NHIỆM VỤ:

5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PHAN THỊ TƯƠI

Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

(Họ tên và chữ ký)

Trang 4

Tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGs Ts.Phan Thị Tươi, người

đã trang bị cho tôi những kiến thức quí báu ở bậc Cao học, hướng dẫn tôi đến với lĩnh vực nghiên cứu mới và tận tình hướng dẫn để tôi có thể hoàn thành tốt luận văn này Tôi cũng xin bày tỏ lòng biết ơn đối với NCS Nguyễn Quang Châu vì đã tận tình truyền đạt những kinh nghiệm quí báu cũng như động viên tôi trong suốt thời gian thực hiện luận văn

Cuối cùng, tôi cũng xin gửi lời cảm ơn đến tất cả bạn bè và đồng nghiệp đã tạo mọi điều kiện thuận lợi trong suốt thời gian thực hiện luận văn để tôi có thể hoàn thành tốt nhiệm vụ học tập của mình

Trang 5

Chúng tôi áp dụng Support Vector Machines (SVMs) trong việc xác định các cụm

từ đặc trưng trong câu truy vấn tiếng Việt nhằm hỗ trợ về mặt ngữ nghĩa cho các bộ máy tìm kiếm thông tin cũng như phục vụ cho các hệ thống trả lời tự động bằng tiếng Việt Mục tiêu của chúng tôi là loại bỏ các từ vô nghĩa trong câu truy vấn, giữ lại các

từ và cụm từ mang nhiều ý nghĩa nhất Cụ thể, chúng tôi xây dựng hệ thống cho phép người dùng nhập vào câu truy vấn tiếng Việt, qua các giai đoạn xử lý như: phân đoạn

từ, gán nhãn từ loại, xác định các cụm danh từ và từ đặc trưng ngữ nghĩa, kết quả trả

về của hệ thống là các cụm danh từ và từ đặc trưng ngữ nghĩa mà chúng tôi gọi chung

là các cụm từ đặc trưng Từ kết quả đó, thông qua các bộ máy tìm kiếm thông tin, các

hệ thống trả lời tự động, người sử dụng có thể tìm được những thông tin cần thiết một cách nhanh chóng và chính xác

We apply a Support Vector Machines (SVMs) to identify automatically key phrases in Vietnamese query in order to support the meaning for either search engines and automatic answers system in Vietnamese Our purpose is rejecting meaningless words in queries, keeping words and phrases which are meaningful For instance, we build a system that allows users to input their Vietnamese query and to cross processing stages such as word segmentation, POS tagging, base noun phrase identification and meaningfulness word identification The result of system is base noun phrases and key features which are called key phrases From that result, by using search engines and automatic answers system, users can find the essential information quickly and accurately

Trang 6

MỤC LỤC

Trang

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1

1.1 PHÁT BIỂU VẤN ĐỀ 1

1.2 MỤC TIÊU NGHIÊN CỨU 2

CHƯƠNG 2: NHỮNG KẾT QUẢ NGHIÊN CỨU LIÊN QUAN 3

2.1 NHỮNG KẾT QUẢ NGHIÊN CỨU TRONG NƯỚC 3

2.2 NHỮNG KẾT QUẢ NGHIÊN CỨU NƯỚC NGOÀI 5

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TIẾNG VIỆT 8

3.1 TỪ LOẠI 9

3.1.1 Danh từ 9

3.1.2 Động từ 14

3.1.3 Tính từ 18

3.1.4 Đại từ 20

3.1.5 Phụ từ 22

3.1.6 Kết từ 25

3.1.7 Trợ từ 26

3.1.8 Cảm từ 27

3.2 CỤM DANH TỪ 28

3.2.1 Khái niệm 28

Trang 7

3.2.2 Cấu tạo 28

3.2.3 Chức năng 39

3.3 CÂU TIẾNG VIỆT 40

3.3.1 Định nghĩa 40

3.3.2 Phân loại câu 40

CHƯƠNG 4: SUPPORT VECTOR MACHINES (SVMs) 42

4.1 GIỚI THIỆU 42

4.2 CÁC KHÁI NIỆM 42

4.2.1 Nguyên tắc Structural Risk Minization 42

4.2.2 Khái niệm VC-Dimension 43

4.3 PHÂN LOẠI TUYẾN TÍNH 44

4.3.1 Trường hợp phân biệt được 44

4.3.2 Trường hợp không phân biệt được 49

4.4 PHÂN LOẠI PHI TUYẾN (NON-LINEAR) 52

4.4.1 Hàm Kernel 53

4.4.2 Huấn luyện 54

4.4.3 Phân loại 54

4.5 MỞ RỘNG PHÂN LOẠI TRONG SVMs 55

4.5.1 Kỹ thuật so sánh Một - Một (One vs One) 55

4.5.2 Kỹ thuật so sánh Một - Phần dư còn lại (One vs Rest) 56

4.6 CÁC ỨNG DỤNG CỦA SUPPORT VECTOR MACHINES 57

Trang 8

4.7 CÁC KẾT QUẢ THỰC NGHIỆM CỦA PHƯƠNG PHÁP SUPPORT

VECTOR MACHINES 58

4.8 CÁC THUẬT TOÁN CỦA SUPPORT VECTOR MACHINES 64

CHƯƠNG 5: ỨNG DỤNG SVMs TRONG VIỆC XÁC ĐỊNH CÁC CỤM TỪ ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU .67

5.1 CÁC KHÁI NIỆM 67

5.2 XÁC ĐỊNH CÁC CỤM TỪ ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU 68

5.2.1 Giai đoạn tiền xử lý 72

5.2.2 Giai đoạn xác định các cụm danh từ trong câu 72

5.2.3 Giai đoạn xác định các từ bổ sung nét ngữ nghĩa trong câu 81

5.2.4 Kết quả thực nghiệm của hệ thống 86

CHƯƠNG 6: MỘT SỐ HÌNH ẢNH VỀ CHƯƠNG TRÌNH 88

CHƯƠNG 7: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 95

7.1 ĐÁNH GIÁ 95

7.2 HƯỚNG PHÁT TRIỂN 96

TÀI LIỆU THAM KHẢO 97

PHỤ LỤC 101

Trang 9

DANH SÁCH CÁC BẢNG

Trang

Bảng 3.1: Phân loại từ 9

Bảng 3.2: Phân loại danh từ 13

Bảng 3.3: Phân loại động từ 18

Bảng 3.4: Phân loại tính từ 19

Bảng 3.5: Phân loại đại từ xưng hô có ngôi xác định 20

Bảng 3.6: Phân loại đại từ 22

Bảng 3.7: Phân loại phụ từ 25

Bảng 3.8: Phân loại kết từ 26

Bảng 4.1: Kỹ thuật phân loại Một - Phần dư còn lại (One vs Rest) 56

Bảng 4.2: Kết quả phân loại văn bản dùng 5 phương pháp học khác nhau 59

Bảng 4.3: Kết quả nhận dạng khuôn mặt người bằng phương pháp SVMs 60

Bảng 4.4: Các phương pháp phân loại trong R (version 1.6.1) 61

Bảng 4.5: Sai số thử nghiệm của 17 giải thuật học máy (Mean 1) 62

Bảng 4.6: Sai số thử nghiệm của 17 giải thuật học máy (Mean 2) 63

Bảng 5.1: Kho ngữ liệu cho giai đoạn xác định cụm danh từ 78

Bảng 5.2: Kết quả phân loại nhãn gom cụm IOB 80

Bảng 5.3: So sánh kết quả phân loại nhãn gom cụm IOB bằng hai phương pháp 81

Bảng 5.4: Kho ngữ liệu cho giai đoạn xác định các từ bổ sung nét ngữ nghĩa 85

Bảng 5.5: Kết quả phân loại từ bổ sung nét ngữ nghĩa 86

Trang 10

Bảng 5.6: Tập dữ liệu thực nghiệm của hệ thống 87 Bảng 5.7: Kết quả thực nghiệm của hệ thống 87

Trang 11

DANH SÁCH CÁC HÌNH VẼ

Trang

Hình 3.1: Cấu trúc cây của câu 41

Hình 4.1: Nguyên lý Structural Risk Minization 43

Hình 4.2: 3 điểm trong mặt phẳng R2 được chia bởi đường thẳng tuyến tính 44

Hình 4.3: Các mặt phẳng phân tách 45

Hình 4.4: Mặt phẳng phân tách với độ rộng biên cực đại 46

Hình 4.5: Một trường hợp không phân biệt được 50

Hình 4.6: Quá trình ánh xạ từ không gian nhập vào không gian đặc trưng 53

Hình 4.7: Ba giải thuật huấn luyện SVMs: Chunking, Osuna và SMO 65

Hình 5.1: Mô hình xử lý của hệ thống xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt 70

Hình 5.2: Ví dụ quá trình xử lý của hệ thống xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt 71

Hình 6.1: Giao diện chính của chương trình 88

Hình 6.2: Menu Program 89

Hình 6.3: Menu Commands 90

Hình 6.4: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định cụm danh từ 91

Hình 6.5: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định các từ bổ sung nét ngữ nghĩa 92

Hình 6.6: Huấn luyện mô hình 93

Hình 6.7: Xác định các cụm từ đặc trưng trong câu 94

Trang 12

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 PHÁT BIỂU VẤN ĐỀ

Trong thời đại bùng nổ thông tin như hiện nay, con người dễ bị bao vây bởi lượng

thông tin vô cùng phong phú và khái niệm “Information overload” thường được đề

cập tới do sự thiếu thốn các công cụ, phương pháp giúp con người tìm thấy các thông tin cần thiết và khai thác chúng một cách có hiệu quả Do đó, vấn đề cốt lõi được đặt ra trong các hệ thống khai thác thông tin như truy cập thông tin (Information Retrieval), tóm tắt văn bản (Text Summarization) và rút trích thông tin (Information Extraction),…là phải xác định được các cụm từ đặc trưng ngữ nghĩa của văn bản nhằm giúp người sử dụng tìm được các thông tin cần thiết một cách nhanh chóng và chính xác Tuy nhiên, việc xác định thủ công các cụm từ đặc trưng ngữ nghĩa sẽ tiêu tốn rất nhiều thời gian và chi phí nhất là không phù hợp với các hệ thống cung cấp dịch vụ thời gian thực Do đó, việc rút trích các cụm từ đặc trưng ngữ nghĩa của văn bản một cách tự động là nhu cầu, là mong muốn của các nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên bằng máy tính

Trên thế giới đã có nhiều công trình nghiên cứu tập trung vào vấn đề này và đã đạt được nhiều kết quả đáng khích lệ nhưng đối với Việt ngữ, nhất là vấn đề rút trích cụm từ đặc trưng ngữ nghĩa trong câu, đang là nhu cầu đang bị bỏ ngõ trong các hệ thống khai thác thông tin Nhu cầu này cũng chính là vấn đề cần giải quyết đối với hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross Language Information Retrieval), là hệ thống tìm kiếm thông tin cho phép người dùng nhập vào câu truy vấn chứa thông tin cần tìm trên Internet bằng ngôn ngữ tiếng Việt và kết quả trả về

sẽ là các tài liệu liên quan (bằng ngôn ngữ khác) một cách chính xác Vì vậy, việc

triển khai đề tài “Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng Việt bằng phương pháp Support Vector Machines” thực sự là cần thiết

trong thực tế, làm nền tảng và hỗ trợ về mặt ngữ nghĩa cho các ứng dụng khai thác thông tin trong văn bản tiếng Việt

Trang 13

1.2 MỤC TIÊU NGHIÊN CỨU

Mục tiêu chính của luận văn là tìm hiểu các công trình nghiên cứu làm nền tảng cho giai đoạn tiền xử lý như phân đoạn từ (Word Segmentation) và gán nhãn từ loại (POS Tagging), các phương pháp đã được sử dụng để xác định các cụm từ đặc trưng trong văn bản (Key Phrase), cũng như phương pháp học máy Support Vector Machines Từ đó, xây dựng một công cụ cho phép rút trích tự động các cụm từ đặc trưng ngữ nghĩa trong câu tiếng Việt

Với mục tiêu đặt ra như trên, cấu trúc của luận văn được chia làm 7 chương:

Chương 1: Giới thiệu sơ lược về đề tài, nội dung nghiên cứu cũng như cấu trúc

của đề tài

Chương 2: Phân tích và đánh giá các công trình nghiên cứu trong và ngoài nước

có liên quan đến nội dung nghiên cứu của đề tài

Chương 3: Trình bày cơ sở lý thuyết của tiếng Việt, tập trung vào tìm hiểu từ

loại và cấu trúc cụm danh từ

Chương 4: Trình bày cơ sở lý thuyết của phương pháp học máy Support Vector

Machines, đánh giá tính hiệu quả của phương pháp này so với các phương pháp phân loại có giám sát khác (supervised classification)

Chương 5: Hiện thực hệ thống xác định các cụm danh từ, từ đặc trưng ngữ

nghĩa trong câu tiếng Việt bằng phương pháp học máy Support Vector Machines

Chương 6: Trình bày một số hình ảnh về hoạt động của chương trình

Chương 7: Một số nhận xét kết luận và hướng phát triển của đề tài

Trang 14

CHƯƠNG 2: NHỮNG KẾT QUẢ NGHIÊN CỨU LIÊN QUAN 2.1 NHỮNG KẾT QUẢ NGHIÊN CỨU TRONG NƯỚC

Các công trình nghiên cứu xử lý ngôn ngữ tự nhiên tập trung chủ yếu ở các nhóm nghiên cứu và cá nhân thuộc các trường Đại Học Bách Khoa TP.HCM, Đại Học Khoa Học Tự Nhiên TP.HCM, Đại Học Công Nghiệp TP.HCM,…tập trung theo các hướng chính như Semantic Web, Text Categorization, Text Summarization, Machine Learning

Các nghiên cứu này đều tập trung vào việc xử lý và hỗ trợ tiếng Việt, bước đầu đã

có một số kết quả thành công nhất định, bao gồm các công trình sau:

2.1.1 Trần Ngọc Tuấn (2001) Phân đoạn từ tiếng Việt dùng Corpus và các mô hình thống kê Luận văn Thạc sĩ, Đại Học Bách Khoa TP.HCM [36]

Tác giả đã dùng mô hình thống kê dựa vào tập ngữ liệu huấn luyện và không dùng từ điển Phương pháp huấn luyện dựa vào việc xây dựng các mô hình Markov

ẩn cấp 1 và cấp 2 (tương ứng với bi-gram và tri-gram), thống kê dựa vào tập ngữ liệu thô Công trình đã đạt được kết quả rất khả quan Tuy nhiên, vì đi theo hướng thống kê nên để đạt độ chính xác cao thì cần phải tốn nhiều công sức để cập nhật,

bổ sung kho ngữ liệu

2.1.2 Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phong (2003) Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt In Proceedings

of ICT.rda’03, Hanoi Feb, Việt Nam, pp 22-23 [29]

Các tác giả trình bày chi tiết thử nghiệm về gán nhãn từ loại cho các văn bản tiếng Việt bằng cách áp dụng bộ gán nhãn QTAG, một bộ gán nhãn xác suất độc lập với ngôn ngữ Các tác giả đã sử dụng hai bộ nhãn với độ mịn khác nhau Kết quả đạt độ chính xác ~ 94% đối với bộ nhãn thứ nhất (9 nhãn từ loại và 10 nhãn cho các loại kí hiệu), trong khi với bộ nhãn thứ hai chỉ đạt tới ~ 85% (48 nhãn từ loại và 10 nhãn cho các loại kí hiệu) Tuy nhiên, để ứng dụng phương pháp gán nhãn này vào thực tế thì cần phải giải quyết nhiều vấn đề như: giải quyết nhập nhằng sau khi phân

Trang 15

đoạn từ nếu có nhiều cách phân tích khác nhau, chưa nhận dạng được các cụm từ là tên riêng, tên viết tắt…

2.1.3 Nguyễn Quang Châu (2005) Phân đoạn từ và gán nhãn từ loại cho từ trong tiếng Việt Trong Đề tài trọng điểm cấp nhà nước “Viet Nam Semantic Web” (KC01-21) do PGS TS Cao Hoàng Trụ làm chủ nhiệm đề tài [28]

Tác giả đã sử dụng mô hình thống kê N-Gram dựa vào tập ngữ liệu huấn luyện để phân đoạn từ và gán nhãn từ loại bằng phương pháp xác suất cho các từ trong văn bản tiếng Việt Công trình đã đạt được độ chính xác trên 90%, cũng như với tốc độ

xử lý khá nhanh, có thể áp dụng cho giai đoạn tiền xử lý trong các hệ thống xử lý

tiếng Việt khác như tóm tắt văn bản (Text Summarization), truy cập thông tin (Information Retrieval), rút trích thông tin (Information Extraction), Thành công

của tác giả là đã xây dựng được kho ngữ liệu huấn luyện tiếng Việt tương đối lớn khoảng 72.000 từ với một tập gồm 49 từ loại ở 10 miền giới hạn nhằm phục vụ cho các công trình nghiên cứu khác

2.1.4 Lại Thị Hạnh (2002) Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu thông tin đa ngôn ngữ Luận văn Thạc sĩ, Đại Học Khoa Học Tự Nhiên TP.HCM [18]

Đây được coi là một trong những đề tài đầu tiên trong việc rút trích các cụm danh

từ trong văn bản tiếng Việt Tác giả đã sử dụng các phương pháp học dựa trên các luật biến đổi (TBL) để xây dựng tập luật biến đổi dựa trên ngữ cảnh phục vụ cho việc xác định cụm danh từ Công trình đã đạt được độ chính xác khoảng 75% Tuy nhiên để công trình có thể ứng dụng được vào thực tế, làm nền tảng cho các hệ thống xử lý tiếng Việt thì phải tốn thêm nhiều công sức để bổ sung kho ngữ liệu huấn luyện cũng như các luật ngữ pháp nhằm đạt được kết quả tốt hơn

Trang 16

2.2 NHỮNG KẾT QUẢ NGHIÊN CỨU NƯỚC NGOÀI

Nhiều kết quả nghiên cứu theo nhiều hướng tại các trường Đại học ở Mỹ, Canada, Châu Âu, Nhật Bản, Trung Quốc, Hàn Quốc, Đài Loan đã được công bố rộng rãi trên Internet, bao gồm các công trình tiêu biểu sau:

2.2.1 Cheng, Alex (2002) Base Noun Phrase Chunking with Support Vector Machines Final Project Report, Cornell University, Ithaca, New York, USA [4]

Tác giả đã sử dụng phương pháp phân loại mẫu (pattern classification) Support Vector Machines để xác định cụm danh từ cơ bản trong tiếng Anh Bằng cách sử dụng các thuộc tính của từ cùng với các từ lân cận như giá trị từ loại, nhãn từ loại và giá trị của từ được in hoa cộng với cách biểu diễn IOB, tác giả cho thấy công trình đạt được độ chính xác khoảng 94% Đây là một kết quả rất khả quan nhưng để đạt được kết quả đó thì phải tốn rất nhiều công sức để xây dựng kho ngữ liệu huấn luyện mà theo tác giả thì chứa khoảng 10.000 câu với khoảng 211.000 từ

2.2.2 Ong, Thian-Huat and Chen, Hsinchun (1999) Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A Linguistic Foundation for Knowledge Management In Proceedings of the Second Asian Digital Library Conference, Taipei, Taiwan, pp 63-84 [30]

Nhóm tác giả đã đề ra phương pháp rút trích tự động các cụm từ khóa trong các tài liệu tiếng Hoa bằng cách dựa trên PAT-Tree và các thông tin chung cũng như tần

số xuất hiện của các cụm từ trong văn bản Đây là sự cải tiến của cách tiếp cận trong [5] mà sự khác nhau đó là cách rút trích các cụm từ dự tuyển bằng việc sử dụng

“stop words” và phương pháp rút trích các cụm từ khóa Theo thử nghiệm của các tác giả thì giải thuật này đạt được độ chính xác khoảng 50% (so với giải thuật chưa cải tiến là 30%) Cách tiếp cận này đã áp dụng thành công và đạt hiệu quả cao trong các nghiên cứu thuộc lĩnh vực truy cập thông tin (Information Retrieval) như phân loại văn bản (Document Classification), lập chỉ mục tài liệu (Book Indexing)…Tuy nhiên, vì giai đoạn rút trích các cụm từ dự tuyển không tập trung theo hướng ngôn ngữ, chỉ rút trích các cụm từ có độ dài bất kỳ không chứa “stop words”, nên giải

Trang 17

thuật vẫn cịn hạn chế về mặt ngữ nghĩa Mặt khác, các tác giả chỉ thử nghiệm giải thuật trên phần tĩm tắt của văn bản (abstract) chứ khơng phải tồn văn bản nên độ chính xác sẽ giảm khi áp dụng cho cả văn bản

2.2.3 Frantzi, K., Ananiadou, S and Mina, H (2000) Automatic Recognition

of Multi-word Terms: the C-value/NC-value Method International Journal on Digital Library, pp 115-130 [11]

Các tác giả tiếp cận vấn đề theo hướng kết hợp giữa ngơn ngữ và thống kê để rút trích tự động các cụm từ khĩa trong các tài liệu tiếng Anh Trong giai đoạn rút trích các cụm từ dự tuyển, các tác giả sử dụng các mẫu cụm danh từ hoặc cụm tính từ thường dùng dựa trên từ loại nhưng số lượng các mẫu này vẫn khá khiêm tốn Cịn trong giai đoạn rút trích các cụm từ khĩa, họ dựa trên các thuộc tính đã được thống

kê của các cụm từ khĩa như tần số xuất hiện trong kho ngữ liệu, độ dài, tần số xuất hiện trong các cụm từ dài hơn,…Qua thử nghiệm cơng trình đã đạt được kết quả tương đối tốt, độ chính xác chấp nhận được là khoảng 64% và được đánh giá cao Tuy nhiên, để cĩ thể ứng dụng vào thực tế thì cần phải cải tiến hoặc bổ sung giải thuật trong giai đoạn xử lý dựa trên ngơn ngữ để rút trích được các cụm từ mang ngữ nghĩa tốt hơn

2.2.3 Medelyna, Olena (2005) Automatic Keyphrase Indexing with a Specific Thesaurus MSc thesis, University of Waikato, New Zealand [20]

Domain-Tác giả đã cải tiến giải thuật KEA [10] trong giai đoạn rút trích các cụm từ dự tuyển bằng cách dựa vào một từ điển đồng nghĩa theo hướng kết hợp giữa ngơn ngữ

và thống kê bao gồm các bước sau: Đầu tiên xác định các cụm từ khĩa dự tuyển bằng phương pháp từ vựng và tính các giá trị của chúng dựa trên các thuộc tính

TFxIDF (Term Frequency x Inverse Document Frequency), First occurrence, Length và Node degree của chúng, sau đĩ sử dụng giải thuật học máy (Nạve

Bayes) dựa trên kho ngữ liệu đã được xác định cụm từ khĩa mẫu để dự đốn và rút

ra bảng các giá trị xác suất tiêu chuẩn phục vụ cho giai đoạn rút trích các cụm từ khĩa sau này Theo thử nghiệm của tác giả thì giải thuật này đạt được độ chính xác

Trang 18

khoảng 28.3% (so với giải thuật KEA chưa cải tiến là 13.3%) Đây là giải thuật đơn giản, dễ thiết kế, cài đặt, thời gian huấn luyện nhanh chóng mà mang lại hiệu quả tương đối cao nhưng muốn ứng dụng được vào thực tế thì cần phải cải tiến thêm ở

cả hai giai đoạn rút trích các cụm từ dự tuyển và rút trích các cụm từ đặc trưng

Trang 19

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TIẾNG VIỆT

Trong chương này, chúng ta sẽ tìm hiểu cơ sở lý thuyết về ngữ pháp tiếng Việt nhằm làm nền tảng kiến thức cho các giai đoạn về sau Tuy nhiên, vì mục tiêu của luận văn là xác định các cụm từ đặc trưng trong câu tiếng Việt, hỗ trợ về mặt ngữ nghĩa cho các bộ máy tìm kiếm thông tin, các hệ thống trả lời tự động nên trong các công trình nghiên cứu thực hiện tóm tắt văn bản ([14], [20], [30]), mặc dù không phù hợp quan điểm với mục tiêu này nhưng tất cả đều khẳng định tính hiệu quả trong việc tập trung xác định các cụm từ là cụm danh từ Mặt khác, cụm danh từ luôn đóng vai trò quan trọng trong các tác vụ truy xuất, rút trích và tìm kiếm thông tin [4], (Phụ lục D, E) Thêm vào đó, thông qua các thống kê sơ bộ (Phụ lục B, C) ta cũng thấy rằng trong các câu truy vấn dưới dạng câu tường thuật hoặc câu hỏi thì các cụm danh từ đều là các cụm từ đặc trưng Do đó, trong chương này, do giới hạn của luận văn nên chúng ta chỉ tập trung vào việc tìm hiểu từ loại và cấu trúc cụm danh từ trong tiếng Việt

Trang 20

Bảng 3.1: Phân loại từ

3.1.1 Danh từ

3.1.1.1 Đặc trưng

Ý nghĩa từ vựng: là ý nghĩa thực thể Hiểu theo nghĩa rộng, ý nghĩa thực

thể là ý nghĩa chỉ sự vật, chỉ khái niệm về sự vật và những gì được “sự vật hóa”

Khả năng kết hợp: có khả năng kết hợp với đại từ chỉ định: này, nọ,

ấy,…

ĐẶC ĐIỂM CÁC LOẠI

Trang 21

Chức năng cú pháp: có đầy đủ chức năng cú pháp của thực từ Trong mối

quan hệ với động từ, tính từ, nét riêng biệt của danh từ là ít được dùng làm vị ngữ đặt trực tiếp sau chủ ngữ của câu

3.1.1.2 Phân loại

a Danh từ chỉ sự vật đơn thể (danh từ đơn thể)

Biểu thị các sự vật đơn thể như: bàn, ghế, bò, người,…

Ví dụ: Tôi vơ quần áo mặc vào người

Khả năng kết hợp của danh từ tổng hợp với danh từ chỉ số lượng là rất hạn chế Danh từ tổng hợp không đứng sau các danh từ chỉ loại hay chỉ đơn vị rời

(như: cái, con, chiếc,…)

Ví dụ: Có thể nói : “hai mươi căn nhà ấy”

nhưng không thể nói : “hai mươi căn nhà cửa ấy”

Có thể nói : “toàn thể quần chúng”

nhưng không thể nói: “ba quần chúng”

Tuy vậy, đáng chú ý là có những danh từ khi thì dùng theo nghĩa tổng thể, khi thì dùng theo nghĩa đơn thể

Ví dụ: “toàn thể giáo viên” hay “hai đồng chí giáo viên”

Trang 22

c Danh từ chỉ loại thể sự vật (danh từ loại thể)

Bao gồm các từ như: cái, con, tấm, miếng, mảnh, ông, bà, chú, bác, anh,

chị,

Ví dụ: cái nhà, cái áo, chị giáo viên,…

d Danh từ chỉ đơn vị sự vật (danh từ đơn vị)

Bao gồm các từ như: lít, mẫu, cân, tấn, sào,…

Ví dụ: hai lít nước

một mẫu đất

Ngoài ra còn có những danh từ đơn vị khác:

- Danh từ đơn vị tính toán, đo lường ước lượng, không chính xác, như:

nắm, ngụm, nồi,…

Ví dụ: một nắm muối

hai ngụm rượu mấy nồi cơm

- Danh từ đơn vị thời gian như: giờ, phút, giây, lúc,…

Ví dụ: một giờ nghỉ

mấy phút suy nghĩ

- Danh từ đơn vị tổ chức như: làng, xã, tỉnh, khu, lớp, đoàn, tổ,…

Ví dụ: một tổ công nhân

e Danh từ chỉ sự vật trừu tượng (danh từ trừu tượng)

Xét về mặt nghĩa, sự vật trừu tượng đây là những khái niệm như: tình

cảm, ý nghĩ, quyền lợi, tư tưởng, thái độ, quan điểm, lập trường, trí tuệ,…

Ví dụ: hai thái độ

những ý nghĩ

Trang 23

f Danh từ chỉ số lượng sự vật (danh từ số lượng)

Được biểu thị bằng những từ như: một, hai, ba, mười, một trăm, những,

các, vài, mấy, tất cả, số đông, phần lớn,…

Trang 24

Các lớp con danh từ Ví dụ

Danh từ riêng Nguyễn Đình Chiểu, MêKông,

Trà Vinh,…

Danh từ đơn thể bàn, ghế, bò, người,…

Danh từ tổng thể bàn ghế, nhà cửa, trâu bò, máy

Danh từ trừu tượng tư tưởng, thái độ, quan điểm, lập

Trang 25

3.1.2 Động từ

3.1.2.1 Đặc trưng

Ý nghĩa từ vựng: biểu thị ý nghĩa khái quát về quá trình Ý nghĩa quá

trình thể hiện trực tiếp đặc trưng vận động của thực thể Đó là ý nghĩa hành động Ý nghĩa trạng thái được khái quát hóa trong mối liên hệ với vận động của thực thể trong thời gian và không gian

Khả năng kết hợp: thường có các phụ từ đi kèm để biểu thị các ý nghĩa

quan hệ có tính tình thái giữa quá trình với cách thức và với các đặc trưng vận động của quá trình trong không gian, thời gian và hiện thực Động từ còn kết hợp được với thực từ (danh từ) nhằm phản ánh các quan hệ trong nội dung vận động của quá trình

Chức năng cú pháp: có đầy đủ chức năng cú pháp của thực từ Nhưng

chức năng phổ biến và quan trọng nhất là làm vị ngữ trong cấu tạo câu, có vị trí trực tiếp sau chủ ngữ

3.1.2.2 Phân loại

a Động từ chỉ những hoạt động có bắc cầu sang sự vật ở ngoài nó (động

từ ngoại động)

Đó là những hoạt động như ăn, viết, đọc, xây dựng, cải tiến,…

Lớp động từ này khi làm thành phần câu thường đòi hỏi kết hợp với thực

từ hay tổ hợp thực từ để khỏi “trống” nghĩa

Trang 26

Hay là sự vật hình thành nên từ hoạt động

Ví dụ: viết thư

may áo xây dựng chủ nghĩa xã hội

b Động từ chỉ những hoạt động không bắc cầu sang sự vật ở ngoài nó (động từ nội động)

Đó là những hoạt động như: ngủ, tắm, cười, chạy, bay, làm lụng, nghỉ

ngơi,…

Về ý nghĩa, biểu thị quá trình (hành động hoặc trạng thái) Ý nghĩa quá trình có thể nhận thức tương đối rõ, ngay cả trong trường hợp động từ không có từ khác đi kèm để bổ nghĩa

Ví dụ: Em bé đang ngủ

Chim bay

Mọi người đang làm lụng ngoài đồng

c Động từ chỉ hoạt động như nghĩ ngợi, nhận biết, thụ cảm,…(động từ cảm nghĩ)

Đó là những hoạt động tâm lý diễn ra do chịu tác động của sự vật nhất

định như: nghe, biết, yêu, nhớ, nghi ngờ,…

tin người nhớ quê hương

Lớp động từ này còn có thể dùng kèm phụ từ chỉ mức độ

Ví dụ: rất yêu nước

rất biết lẽ phải

Trang 27

Đặc điểm ngữ pháp này làm cho tiểu loại động từ cảm nghĩ khác với động từ ngoại động, nội động

Ví dụ: không thể nói: “rất soạn nhạc”

nhưng có thể nói “rất biết nhạc”, “rất yêu nhạc”

Đặc điểm này cũng làm cho động từ cảm nghĩ có phần gần gũi với tính

từ

Ví dụ: có thể nói “rất yêu nhạc” và cũng có thể nói “rất giỏi nhạc”

d Động từ chỉ những hoạt động có bao hàm phương hướng (động từ phương hướng)

Bao gồm các từ chỉ hướng dời chuyển như: ra, vào, lên, xuống,…

Ví dụ: khách vào

máy bay xuống

Nhưng cũng có thể kết hợp với thực từ để nói rõ thêm cái đích của hoạt động

Ví dụ: khách vào nhà nghỉ

máy bay xuống sân bay Tân Sơn Nhất

e Động từ chỉ trạng thái tồn tại của sự vật (động từ tồn tại )

Bao gồm các từ chỉ trạng thái tồn tại của sự vật như: có, còn, hết, mất,…

Ví dụ: có tiền

còn gạo

hết đạn

f Động từ chỉ trạng thái biến hoá của sự vật (động từ biến hóa)

Những động từ chỉ các trạng thái biến hóa như: hóa, tránh, nên, trở

thành,

Trang 28

h Động từ chỉ trạng thái tiếp thụ (động từ tiếp thụ)

Đối lập với trạng thái ý chí là trạng thái tiếp thụ, có tính chất thụ động

Có hai trạng thái chính là bị hoặc phải, và được

Trang 29

Các lớp động từ Ví dụ Ngoại động ăn, viết, đọc, xây dựng, cải tiến,…

Nội động ngủ, tắm, cười, chạy, bay, làm lụng, nghỉ

ngơi,…

Cảm nghĩ nghe, biết, yêu, nhớ, nghi ngờ,…

Phương hướng ra, vào, lên, xuống,…

Biến hóa hóa, tránh, nên, trở thành,

Ý chí muốn, quyết, dám, toan, định,

Khả năng kết hợp: có khả năng kết hợp với phụ từ, nhưng không kết hợp

được với hãy, đừng, chớ (đối lập với động từ) Tính từ cũng có thể kết hợp với thực

từ đi kèm để bổ nghĩa cho tính từ

Trang 30

Chức năng cú pháp: làm vị ngữ trong câu được coi là chức năng chính

của tính từ, nhưng tính từ cũng được dùng kèm với danh từ hoặc động từ để bổ nghĩa cho danh từ hay động từ

3.1.3.2 Phân loại

a Tính từ chỉ những tính chất của sự vật bao hàm giá trị về chất (tính từ hàm chất)

Đó là những tính chất như: tốt, đẹp, xấu, giỏi, ngoan, thông minh, khôn,

tích cực, trong sạch, bẩn, ngu, ngu xuẩn,…

Hàm chất tốt, đẹp, xấu, giói, ngoan, thông minh, khôn, tích cực, trong

sạch, bẩn, ngu, ngu xuẩn,…

Hàm lượng cao, thấp, ngắn, dài, rộng, hẹp, gần, xa, nông, sâu,…

Bảng 3.4: Phân loại tính từ

Trang 31

3.1.4 Đại từ

3.1.4.1 Đặc trưng

Ý nghĩa từ vựng: dùng để thay thế và chỉ trỏ Đại từ không biểu thị ý

nghĩa thực thể, quá trình hoặc đặc trưng như danh từ, động từ và tính từ Đại từ chỉ biểu thị các ý nghĩa đó một cách gián tiếp: chúng mang nội dung phản ánh vốn có của các thực từ mà chúng thay thế

Khả năng kết hợp: vì đảm nhiệm chức năng thay thế nên đại từ không đòi

hỏi các yếu tố phụ bổ sung cho nó

Chức năng cú pháp: có thể đảm nhiệm các chức năng cú pháp của thực

từ được thay thế

3.1.4.2 Phân loại

a Đại từ xưng hô

Ví dụ: Hai năm trước đây, tôi đã gặp Bình

Cương vị ngôi của các đối tượng trong quan hệ giao tiếp

Ngôi 1

(người nói)

Ngôi 2 (người nghe)

Ngôi 3 (người, vật được nói đến)

Ý nghĩa số lượng đối tượng giao tiếp theo ngôi

đơn thể) chúng tôi, chúng

Bảng 3.5: Phân loại đại từ xưng hô có ngôi xác định

b Đại từ không gian, thời gian

Bao gồm các từ như: đây, đấy, đó, kia, ấy, nọ, này, nay, bây giờ, bấy

giờ,…

Trang 32

Ví dụ: người này

quyển sách ấy

c Đại từ số lượng: bấy nhiêu

Ví dụ: tôi chỉ có bấy nhiêu thôi

d Đại từ hoạt động, tính chất

Tức là đại từ dùng để trỏ hoạt động, tính chất Bao gồm các từ: thế, vậy

Ví dụ: thế là h ng rồi

e Đại từ nghi vấn

Là đại từ dùng để trỏ trong câu hỏi

Có thể phân những đại từ nghi vấn này thành các nhóm sau đây:

- ai: để hỏi về người

- gì, chi: để hỏi về sự vật

- đâu, bao giờ: để hỏi về không gian, thời gian

- bao nhiêu, mấy: để hỏi về số lượng

- sao, thế nào: để hỏi về hoạt động, tính chất

Ví dụ: Cái của đồng chí số mấy?

Không có ai tên thế thật à?

Trang 33

Các lớp đại từ Ví dụ

Không gian, thời gian đây, đấy, đó, kia, ấy, nọ, này, nay, bây giờ, bấy giờ,…

Hoạt động, tính chất thế, vậy

Nghi vấn

ai

gì, chi đâu, bao giờ bao nhiêu, mấy sao, thế nào

Bảng 3.6: Phân loại đại từ

3.1.5 Phụ từ

3.1.5.1 Đặc trưng

Ý nghĩa từ vựng: biểu thị ý nghĩa về quan hệ giữa quá trình và đặc trưng

với thực tại, đồng thời cũng biểu hiện ý nghĩa về cách thức nhận thức và phản ánh các quá trình và đặc trưng trong hiện thực

Khả năng kết hợp: thường dùng kèm với thực từ (động từ, tính từ)

Chức năng cú pháp: không có khả năng làm trung tâm ngữ nghĩa – ngữ

pháp trong kết hợp thực từ, và rất ít có khả năng làm thành phần chính trong câu

3.1.5.2 Phân loại

a Phụ từ thời gian

Đó là các từ: đã, sẽ, đang, vừa, mới, sắp, từng, liền, bên, rồi,…

Trang 34

Chỉ quan hệ về thời gian với quá trình hay đặc trưng trong cách phản ánh của tư duy Quan hệ thời gian được xác định theo một điểm mốc tương ứng với thời điểm thực tại, hoặc tương ứng với thời điểm phản ánh, hoặc tương ứng với thời gian giữa các quá trình hay các đặc trưng

Ví dụ: Nó đã đi đâu kia chứ

Anh ấy đã về rồi

Những từ như: hoàn toàn, hết sức, tuyệt đối, cực,…Cũng có thể coi là

Những phụ từ đó cũng là: cũng, đều, vẫn, cứ, còn, mãi, luôn, luôn luôn,

mãi mãi, hoài,…Những từ hay ngữ như: liên tục, liên tiếp, không ngừng,…cũng có

thể dùng làm phụ từ so sánh

Nghĩa đồng nhất của hoạt động, trạng thái được biểu thị rõ khi hoàn cảnh so sánh được nêu trong câu

Ví dụ: Người ta bảo chớ đi, Lan vẫn đi

Các bạn ra về, Mai còn ngồi lại

Trang 35

Ví dụ: Nó không nói dối (phủ định )

Nó nói dối (khẳng định bình thường)

Nó có nói dối (khẳng định nhấn mạnh)

e Phụ từ mệnh lệnh

Chỉ ý nghĩa quan hệ có nội dung khuyên bảo, ngăn cấm, đòi hỏi, sai khiến

Đó là những phụ từ: hãy, chớ, đừng, nên, phải, cần

Ví dụ: Em hãy nhìn vào mặt anh đây

Trang 36

Các lớp phụ từ Ví dụ Thời gian đã, sẽ, đang, vừa, mới, sắp, từng, liền, bên, rồi,…

Mức độ rất, khá, khi, hơi, quá, lắm, thật,…

Ý nghĩa từ vựng: biểu thị quan hệ giữa các khái niệm và đối tượng được

phản ánh Kết từ là dấu hiệu biểu thị các quan hệ cú pháp giữa các thực từ và hư từ một cách tường minh

Khả năng kết hợp và chức năng cú pháp: dùng nối kết các từ, các kết

hợp từ, các câu và đoạn văn có quan hệ cú pháp

Trang 37

Ví dụ: Quần áo của tôi

b Kết từ liên hợp

Tức là kết từ biểu thị quan hệ liên hợp

Đó là những từ như: và, với, hay, hoặc, cùng, những, song, thì,…và những từ có thể dùng thành cặp như: nếu…thì, tuy…nhưng, vì…cho nên, không

và, với, hay, hoặc, cùng, những, song, thì,…

nếu…thì, tuy…nhưng, vì…cho nên, không những…mà còn, càng…càng, vừa…vừa…

Bảng 3.8: Phân loại kết từ

3.1.7 Trợ từ

Ý nghĩa từ vựng: biểu thị ý nghĩa tình thái trong câu với mục đích nhấn

mạnh, tăng cường: ngay, ngay cả, chính, đích, thật ra, đúng, đúng là,…

Khả năng kết hợp: có khả năng kết hợp như thực từ và phần lớn các loại hư

từ

Chức năng cú pháp: được dùng trong câu với chức năng biểu thị các ý

nghĩa quan hệ có tính tình thái ở bậc câu và ở văn bản Vị trí trợ từ trong câu không nhất thiết là cố định, các trợ từ có thể đi theo những bộ phận khác nhau trong cấu trúc câu

Trang 38

Ví dụ: Ngay cả tôi cũng còn bị hắn lừa

Đúng là t i giặc đuổi theo rồi

3.1.8 Cảm từ

Ý nghĩa từ vựng: biểu thị ý nghĩa tình thái trong câu thiên về diễn đạt các

cảm xúc của người nói: à, ư, nhỉ, nhé, hả, hử, ơi, hỡi, ôi,…

Khả năng kết hợp: có khả năng kết hợp như thực từ và phần lớn các loại hư

từ

Chức năng cú pháp: được dùng trong câu với chức năng biểu thị các ý

nghĩa quan hệ có tính tình thái biểu lộ cảm xúc ở bậc câu và ở văn bản Vị trí cảm

từ trong câu thường là cố định, các cảm từ có thể đứng ở đầu hoặc ở cuối câu

Đây mày đánh ông đi

Trang 39

Cấu tạo chung của cụm danh từ gồm có 3 phần:

Phần phụ trước - Phần trung tâm - Phần phụ sau

Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếp theo một trật tự nhất định Ở phần phụ sau thường nhận ra được hai vị trí có trật tự

ổn định Phần phụ trước của cụm danh từ chuyên dùng để chỉ về số lượng của sự vật nêu ở trung tâm, phần phụ sau chủ yếu dùng chỉ chất lượng của sự vật nêu ở trung tâm Chúng ta sẽ qui ước đánh số các vị trí tại các phần như trong lược đồ dưới đây:

-3 -2 -1 0 1 2 Quan hệ giữa phần trung tâm và các phần phụ có bản chất của quan hệ chính phụ nên số lượng vị trí của các phần phụ là có giới hạn và chỉ có phần trung tâm có quan hệ với các yếu tố khác nằm ngoài cấu trúc của cụm danh từ Ví dụ: trong câu

“Cha tôi đi vắng” với cụm danh từ là “cha tôi” thì chỉ có từ trung tâm “cha” là có quan hệ với yếu tố nằm ngoài cụm danh từ “đi vắng”

Xét về phương diện ngữ nghĩa thì toàn bộ cơ cấu của cụm danh từ bị chi phối bởi đặc điểm ngữ nghĩa của chính phần trung tâm Với ý nghĩa đó, phần trung tâm

sẽ qui định có bao nhiêu thành phần phụ và những thành phần phụ nào có thể quan

hệ với nó Mọi biến đổi diễn ra trong cấu trúc cụm danh từ đều có liên quan đến ngữ nghĩa của phần trung tâm

Trang 40

a Phần trung tâm

* Liên quan đến vấn đề xác định phần trung tâm của cụm danh từ, hiện nay vẫn còn có nhiều tranh cãi, nhưng theo các quan điểm của [6], [18], [24], [25], [38] thì chủ yếu có ba ý kiến sau:

- Ý kiến thứ nhất cho rằng đối với các cụm danh từ như: cuốn sách này,

bác nông dân ấy, bức tranh đó,…thì xem các yếu tố cuốn, bức, bác là thành tố

chính còn các danh từ theo sau chỉ là bổ sung, định ngữ cho danh từ chính Cách giải quyết này có triết lý ngữ pháp mạnh nhưng chỉ tồn tại với điều kiện là không quan tâm đến ngữ nghĩa mà chỉ xem cụm danh từ như là chuỗi thuần túy của một trật tự các từ Do đó, trong cách giải quyết này đã có nghịch lý khi xem cái “sự vật” xác định cho cái “phi sự vật” và như vậy chỉ có một số ít danh từ chỉ loại có khả năng làm trung tâm cụm danh từ còn các danh từ “sự vật” chỉ có thể là thành tố phụ

- Ngược lại, có ý kiến cho rằng các yếu tố cuốn, bức, bác chỉ là thành tố phụ, còn sách, nông dân, tranh mới là bộ phận chính Ý kiến này dựa trên quan điểm cuốn, bức, bác chỉ dùng để nêu đơn vị, là thành tố phụ, còn sách, nông dân,

tranh mới là sự vật chính được nêu lên ở cụm danh từ Tuy nhiên, giải quyết như

vậy sẽ không hoàn toàn đúng vì trong một số trường hợp thì cuốn, bức vẫn hoàn

toàn giữ khả năng kết hợp y như các danh từ khác, tạo thành cụm danh từ có đầy đủ

tất cả mọi thành tố phụ của cụm danh từ và trong đó chúng là thành tố chính (ba

cuốn này, hai bức vừa mới mua hôm qua) Ngoài ra, trong tiếng Việt lại có hiện

tượng dùng những từ anh, cái, bức, người,…trước một động từ, tính từ để tạo thành cụm danh từ dùng để chỉ sự vật, ví dụ: người mua, anh đưa thư, bức vẽ,…với thành

tố trung tâm là các danh từ người, anh, bức còn các bộ phận sau chỉ là định tố, có

nghĩa bổ sung thêm cho các danh từ chính

- Ngoài ra, còn có một giải pháp khác đề xuất rằng trung tâm của cụm danh

từ không phải chỉ có một yếu tố Giải pháp này do Nguyễn Tài Cẩn nêu ra, mang một tính chất cụ thể và có mục đích thực tiễn Theo ông thì trung tâm cụm danh từ

là một trung tâm ghép gồm hai thành tố kết hợp với nhau T1 và T2 (anh-T1+sinh

Ngày đăng: 08/03/2021, 23:54

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4] Cheng, Alex. (2002). Base Noun Phrase Chunking with Support Vector Machines. Final Project Report, Cornell University, Ithaca, New York, USA Sách, tạp chí
Tiêu đề: Final Project Report
Tác giả: Cheng, Alex
Năm: 2002
[5] Chien, L-F. (1997). PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval. In Proceedings of the 1997 ACM SIGIR, Philadelphia, PA, USA, pp. 50-58 Sách, tạp chí
Tiêu đề: Proceedings of the 1997 ACM SIGIR
Tác giả: Chien, L-F
Năm: 1997
[11] Frantzi, K., Ananiadou, S. and Mina, H. (2000). Automatic Recognition of Multi-word Terms: the C-value/NC-value Method. International Journal on Digital Library, pp. 115-130 Sách, tạp chí
Tiêu đề: International Journal on Digital Library
Tác giả: Frantzi, K., Ananiadou, S. and Mina, H
Năm: 2000
[12] Gunn, Steve R. (1998). Support Vector Machines for Classification and Regression. Technical Report, Faculty of Engineering, Science and Mathematics, School of Electronics and Computer Science, University of Southamton, UK Sách, tạp chí
Tiêu đề: Technical Report
Tác giả: Gunn, Steve R
Năm: 1998
[15] Joachims, Thorsten. (1998). Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Technical Report 23, University of Dortmund, Germany Sách, tạp chí
Tiêu đề: Technical Report 23
Tác giả: Joachims, Thorsten
Năm: 1998
[16] Jones, Steve. And W.Paynter, Gordon. (2001). Human Evaluation of KEA, an automatic Keyphrasing System. In Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries, Roanoke, Virginia, USA Sách, tạp chí
Tiêu đề: Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries
Tác giả: Jones, Steve. And W.Paynter, Gordon
Năm: 2001
[17] Kudo, Taku. And Matsumoto, Yuji. (2001). Chunking with Support Vector Machines. In Proceedings of the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL), Pittsburgh, PA, USA Sách, tạp chí
Tiêu đề: Proceedings of the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL)
Tác giả: Kudo, Taku. And Matsumoto, Yuji
Năm: 2001
[18] Lại Thị Hạnh. (2002). Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu thông tin đa ngôn ngữ. Luận văn Thạc sĩ, Đại Học Khoa Học Tự Nhiên TP.HCM Sách, tạp chí
Tiêu đề: Luận văn Thạc sĩ
Tác giả: Lại Thị Hạnh
Năm: 2002
[23] Mukherjee, Sayan. (2002). Classifying Microarray Data using Support Vector Machines. Understanding And Using Microarray Analysis Techniques: A Practical Guide, Boston: Kluwer Academic Publishers Sách, tạp chí
Tiêu đề: Understanding And Using Microarray Analysis Techniques: A Practical Guide
Tác giả: Mukherjee, Sayan
Năm: 2002
[28] Nguyễn Quang Châu. (2005). Phân đoạn từ và gán nhãn từ loại cho từ trong tiếng Việt. Trong Đề tài trọng điểm cấp nhà nước “Viet Nam Semantic Web”(KC01-21) do PGS TS. Cao Hoàng Trụ làm chủ nhiệm đề tài Sách, tạp chí
Tiêu đề: Đề tài trọng điểm cấp nhà nước “Viet Nam Semantic Web” "(KC01-21)
Tác giả: Nguyễn Quang Châu
Năm: 2005
[29] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phong. (2003). Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt. In Proceedings of ICT.rda’03, Hanoi Feb, Việt Nam, pp. 22-23 Sách, tạp chí
Tiêu đề: Proceedings of ICT.rda’03
Tác giả: Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phong
Năm: 2003
[30] Ong, Thian-Huat. and Chen, Hsinchun. (1999). Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A Linguistic Foundation for Knowledge Management. In Proceedings of the Second Asian Digital Library Conference, Taipei, Taiwan, pp. 63-84 Sách, tạp chí
Tiêu đề: Proceedings of the Second Asian Digital Library Conference
Tác giả: Ong, Thian-Huat. and Chen, Hsinchun
Năm: 1999
[36] Trần Ngọc Tuấn. (2001). Phân đoạn từ tiếng Việt dùng Corpus và các mô hình thống kê. Luận văn Thạc sĩ, Đại Học Bách Khoa TP.HCM Sách, tạp chí
Tiêu đề: Luận văn Thạc sĩ
Tác giả: Trần Ngọc Tuấn
Năm: 2001
[37] Turney, P. (1999). Extraction Keyphrases from Text: Evaluation of Four Algorithms. NRC Technical Report ERB-1051, National Research Council of Canada Sách, tạp chí
Tiêu đề: NRC Technical Report ERB-1051
Tác giả: Turney, P
Năm: 1999
[1] Bùi Tất Tươm, Nguyễn Văn Bằng, Hoàng Xuân Tâm, Nguyễn Thị Quy, Hoàng Diệu Minh. (1995). Giáo trình Tiếng Việt. Nhà Xuất Bản Giáo Dục Khác
[2] Cao Xuân Hạo. (2004). Tiếng Việt – Sơ thảo ngữ pháp chức năng. Nhà Xuất Bản Giáo Dục Khác
[3] Cao Xuân Hạo. (2004). Tiếng Việt – Mấy vấn đề ngữ âm, ngữ nghĩa, ngữ pháp. Nhà Xuất Bản Giáo Dục Khác
[6] Diệp Quang Ban. (2005). Ngữ pháp Tiếng Việt (Tập 1,2). Nhà Xuất Bản Giáo Dục Khác
[7] Đinh Điền. (2004). Giáo trình xử lý ngôn ngữ tự nhiên. Đại học Khoa Học Tự Nhiên Tp.HCM Khác
[8] Đỗ Thị Kim Liên. (1999). Ngữ pháp Tiếng Việt. Nhà Xuất Bản Giáo Dục Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w