1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

220 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 220
Dung lượng 1,52 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

3.10 Minh họa gán nhãn thành phần lỗi cụm giới từ trong tiếng Việt 1093.12 Minh họa lỗi gán nhãn thành phần giữa thành phần con và cấu 3.13 Minh họa lỗi gán nhãn thành phần giữa cấu trúc

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

_

Nguyễn Thị Lương

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2020

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

_

Nguyễn Thị Lương

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ

PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT

THEO TIẾP CẬN HỌC MÁY THỐNG KÊ

Chuyên ngành: Cơ sở toán cho tin học

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Lê Hồng Phương PGS.TS Đỗ Trung Tuấn

XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ

CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN

Chủ tịch hội đồng đánh giá

Luận án Tiến sĩ

Người hướng dẫn khoa học

Hà Nội - 2020

Trang 3

Lời cam đoanTôi xin cam đoan đây là công trình nghiên cứu khoa học của tôi Các số liệu

sử dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theođúng quy định Các kết quả này chưa từng được công bố trong bất kỳnghiên cứu nào khác

Hà Nội, ngày 10 tháng 3 năm

2020

Nghiên cứu sinh

Nguyễn Thị Lương

Trang 4

Lời cảm ơn

Trong quá trình thực hiện đề tài “Nghiên cứu nâng cao hiệu quả phân tích

cú pháp tiếng Việt theo tiếp cận học máy thống kê”, tôi đã nhận được rất nhiều

sự giúp đỡ, tạo điều kiện của Ban Giám hiệu, thầy cô trong khoa Sau Đại học

và khoa Toán - Cơ - Tin học của trường Đại học Khoa học Tự nhiên, Đại họcQuốc gia Hà Nội Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ đó

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Hồng Phương, PGS.TS ĐỗTrung Tuấn - những người thầy đã tận tình hướng dẫn trực tiếp cho tôihoàn thành luận án này

Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô trong khoa Công nghệThông tin, trường Đại học Đà Lạt nơi tôi đang công tác và gia đình, bạn bè

đã động viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thựchiện và hoàn thành luận án này

Hà Nội, ngày 10 tháng 3 năm

2020

Nghiên cứu sinhNguyễn Thị Lương

Trang 5

Mục lục

1.1 Khái niệm cơ bản trong tiếng Việt 7

1.1.1 Từ 7

1.1.2 Từ loại 7

1.1.3 Cụm từ 10

1.1.4 Câu 11

1.1.5 Cú pháp 14

1.1.6 Vai nghĩa 17

1.2 Cú pháp thành phần 20

1.2.1 Bài toán phân tích cú pháp thành phần 21

1.2.2 Phương pháp phân tích cú pháp thành phần 22

1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 25 1.3 Cú pháp phụ thuộc 28

1.3.1 Bài toán phân tích cú pháp phụ thuộc 28

1.3.2 Biểu diễn cú pháp phụ thuộc 29

1.3.3 Các thuật toán phân tích cú pháp phụ thuộc 31

1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc 37 1.4 Gán nhãn vai nghĩa 43

1.4.1 Bài toán gán nhãn vai nghĩa 43

1.4.2 Các công trình liên quan 44

1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa 48

1.5 Biểu diễn phân bố từ 49

1.5.1 Mô hình Skip-gram 50

1.5.2 Mô hình túi từ liên tục 51

1.5.3 Mô hình GloVe 52

1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu 52

1.6 Kết luận 54

Trang 6

2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa

2.1 Kho ngữ liệu Treebank 56

2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc 57

2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt 59

2.2.2 Xác định cụm từ trung tâm 69

2.2.3 Xác định nhãn phụ thuộc 70

2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc 70

2.2.5 Đánh giá 75

2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt 78

2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt 78

2.3.2 Tập luật gán nhãn nhãn vai nghĩa 81

2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô 82

2.3.4 Đánh giá kết quả 82

2.4 Kết luận 83

3 Nâng cao hiệu quả phân tích cú pháp tiếng Việt 86 3.1 Phân tích cú pháp thành phần 87

3.1.1 Một số văn phạm phổ biến 87

3.1.2 Phương pháp phân tích Shift-Reduce 92

3.1.3 Phương pháp self-attention 99

3.1.4 Đánh giá kết quả 102

3.1.5 Kết luận phân tích cú pháp thành phần 112

3.2 Phân tích cú pháp phụ thuộc tiếng Việt 113

3.2.1 Phân tích cú pháp phụ thuộc dựa trên bước chuyển 113

3.2.2 Phân tích cú pháp dựa trên đồ thị 116

3.2.3 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc 118

3.2.4 Đánh giá kết quả 122

3.2.5 Kết luận phân tích cú pháp phụ thuộc 128

3.3 Kết luận 129

4 Phương pháp quy hoạch tuyến tính nguyên gán nhãn vai nghĩa tiếng Việt 130 4.1 Mô tả thuật toán

130 4.1.1 Khảo sát một số phương pháp 130 4.1.2 Phương pháp đề xuất

132 ii

Trang 7

4.2 Quy hoạch tuyến tính nguyên 135

4.3 Tập đặc trưng sử dụng 138

4.3.1 Đặc trưng cơ bản 138

4.3.2 Đặc trưng mới 139

4.4 Đánh giá kết quả 139

4.4.1 Phương pháp đánh giá 139

4.4.2 Hệ thống cơ bản 139

4.4.3 Chiến lược gán nhãn 140

4.4.4 Phân tích đặc trưng 141

4.4.5 Cải tiến dựa vào ILP 141

4.4.6 Tốc độ học 144

4.4.7 Sử dụng biểu diễn phân bố từ trong SRL 145

4.5 Kết luận 145

Trang 8

Danh sách bảng

1.1 Tập nhãn từ loại tiếng Việt 9

1.2 Tập nhãn cụm từ tiếng Việt 11

1.3 Tổ chức câu trong tiếng Việt 12

1.4 Tập nhãn mệnh đề tiếng Việt 14

1.5 Tập nhãn chức năng cú pháp tiếng Việt 17

1.6 Các đặc trưng dùng trong MSTParser 33

1.7 Các đặc trưng dùng trong MaltParser 36

1.8 Ví dụ về phân tích cú pháp dựa vào các bước chuyển 38

1.9 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Anh và tiếng Trung 40

1.10 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Việt 42

1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes 48

2.1 Thống kê nhãn thành phần trong kho viettreebank 57

2.2 Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt 58

2.3 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD) 68

2.4 Tập quy tắc xác định phần tử trung tâm 69

2.5 Một số luật sử dụng để xác định nhãn phụ thuộc 70

2.6 Câu tiếng Việt theo định dạng CoNLL-X chưa được phân tích 76

2.7 Câu tiếng Việt theo định dạng CoNLL-X đã được phân tích phụ thuộc 76

2.8 Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] 77

2.9 Tập nhãn phụ thuộc của Nguyễn Kiêm Hiếu[28] 77

2.10 Tập nhãn phụ trợ tiếng Việt 79

2.11 Một số luật xác định gán nhãn vai nghĩa thô 81

2.12 Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô 82

2.13 Một số nhãn vai nghĩa phổ biến 83

2.14 Một số câu tiếng Việt gán nhãn vai nghĩa 85

3.1 Tập luật sinh ra dữ liệu huấn luyện trong Shift-Reduce 94

3.2 Luật suy diễn trong phân tích cú pháp Shift-reduce mở rộng 95

iv

Trang 9

3.3 Tập mẫu đặc trưng mở rộng 95

3.4 Dãy bước chuyển phân tích câu “Mảnh đất của đạn bom không còn người nghèo.” 97

3.5 Tập đặc trưng cơ bản 98

3.6 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt 98

3.7 Kết quả với tập dữ liệu có số từ ≤ 10 103

3.8 Kết quả với tập dữ liệu có số từ ≤ 35 103

3.9 Một số kết quả phân tích theo mô hình tích hợp đặc trưng phân bố từ 104

3.10 So sánh F1 sử dụng đặc trưng CharLSTM và EMLo 105

3.11 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng CharL-STM 105

3.12 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng ELMo 106 3.13 Lỗi phân cụm trong phân tích cú pháp thành phần tiếng Việt 106 3.14 Kết quả của MaltParser 116

3.15 Kết quả của MSTParser 118

3.16 Đặc trưng MaltParser cho tiếng Việt 124

3.17 Đặc trưng MSTParser cho tiếng Việt 124

3.18 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa trên các bước chuyển 125

3.19 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MaltParser126 3.20 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MSTParser126 3.21 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên Bist-Parser127 3.22 Kết quả phân tích cú pháp phụ thuộc với VTB trên Bist-Parser 127 3.23 Kết quả so sánh các phương pháp phân tích cú pháp phụ thuộc trên VTB_UD 128

3.24 Độ chính xác ASL của một số nhãn phụ thuộc trên VTB_UD 128 4.1 Độ chính xác của 3 thuật toán rút trích 139

4.2 Độ chính xác của hệ thống cơ bản 140

4.3 Độ chính xác của 2 chiến lược gán nhãn 140

4.4 Tập đặc trưng 141

4.5 Độ chính xác của tập đặc trưng trong bảng 4.4 141

4.6 Tập đặc trưng 142

4.7 Độ chính xác của tập đặc trưng trong bảng 4.6 142

4.8 Ảnh hưởng của ILP 142

4.9 Độ chính xác của mỗi loại đối số 143

Trang 10

4.10 Độ chính xác của 2 thuật toán rút trích 144

4.11 Độ chính xác của hệ thống 144

4.12 Ảnh hưởng véctơ từ của vị tự 145

4.13 Ảnh hưởng véctơ từ của từ chính 145

vi

Trang 11

Danh sách hình vẽ

1 Các bước cơ bản trong xử lý ngôn ngữ tự nhiên 1

2 Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa 2

3 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng 3

1.1 Phân loại từ trong tiếng Việt 8

1.2 Cây cú pháp thành phần trong tiếng Việt 20

1.3 Quá trình phân tích cú pháp thành phần 21

1.4 Cấu trúc phụ thuộc 28

1.5 Đồ thị phụ thuộc của một câu tiếng Việt 30

1.6 Ví dụ về phân tích cú pháp dựa trên đồ thị 34

1.7 Câu tiếng Anh được gán nhãn vai nghĩa 44

1.8 Khung vị từ Communication trong FrameNet 45

1.9 Khung vị từ Cognition trong FrameNet 45

1.10 Mô hình CBOW 51

2.1 Cây cú pháp thành phần “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.” 71

2.2 Cú pháp phụ thuộc câu “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.” 71

2.3 Câu tiếng Việt được gán nhãn vai nghĩa 80

3.1 Toán tử thay thế 90

3.2 Toán tử nối 90

3.3 Quá trình phân tích cú pháp thành phần 93

3.4 Cây cú pháp thành phần “Mảnh đất của đạn bom không còn người nghèo.” 96

3.5 Mô hình phân tích cú pháp thành phần sử dụng phương pháp self-attention[53] 99

3.6 Bước mã hóa tổng quát[53] 100

3.7 Bước mã hóa tổng quát[53] 101

3.8 Minh họa gán nhãn thành phần lỗi giữa cụm động từ với mệnh đề trong tiếng Việt 107

3.9 Minh họa gán nhãn thành phần lỗi giữa cụm danh từ trong tiếng Việt 108

Trang 12

3.10 Minh họa gán nhãn thành phần lỗi cụm giới từ trong tiếng Việt 109

3.12 Minh họa lỗi gán nhãn thành phần giữa thành phần con và cấu

3.13 Minh họa lỗi gán nhãn thành phần giữa cấu trúc riêng và cấu

3.15 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc dựa trên

4.1 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu

4.4 Trích xuất thành phần của câu “Bà nói nó là con trai tôi mà” với

viii

Trang 13

Danh mục từ viết tắt

kiện

grammar

Trang 14

Mở đầu

Giới thiệu

Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các

hệ thống máy tính hiểu ngôn ngữ của con người và là vấn đề được nhiều

nhà khoa học trên thế giới quan tâm Các ứng dụng về lĩnh vực này đa

đạng và phong phú như dịch máy, sinh văn bản, chuyển các văn bản thành

dữ liệu có cấu trúc, phân loại văn bản, rút trích thông tin, v.v Quá trình

xử lý ngôn ngữ tự nhiên gồm một số vấn đề chính sau: phân tích hình thái

từ, phân tích từ loại, phân tích cú pháp và phân tích ngữ nghĩa như hình 1

Hình 1: Các bước cơ bản trong xử lý ngôn ngữ tự nhiên

Phân tích cú pháp là vấn đề quan trọng và cơ bản trong xử lý ngôn ngữ

tự nhiên Mục đích của phân tích cú pháp là nhận biết được cấu trúc cú

pháp của câu để hiểu được ý nghĩa của văn bản Nó cung cấp một nền tảng

vững chắc cho lĩnh vực xử lý văn bản thông minh Có nhiều văn phạm có

thể sử dụng trong phân tích cú pháp như phân tích cú pháp sử dụng văn

phạm phi ngữ cảnh, văn phạm phi ngữ cảnh kết hợp xác suất từ vựng hóa,

văn phạm cấu trúc hướng trung tâm, văn phạm kết nối cây, v.v Trong đó

phân tích cú pháp thành phần sử dụng văn phạm phi ngữ cảnh và phân tích

cú pháp phụ thuộc đang được nhiều nhóm quan tâm nghiên cứu

Việc phân tích cú pháp câu có thể chia làm hai mức chính [31]:

do bước trước cung cấp

Do tiếng Việt là ngôn ngữ đơn âm tiết nên chúng ta thường gặp phải vấn

đề nhập nhằng ở cả hai mức Tiếp theo sau của bước phân tích cú pháp là

bước phân tích ngữ nghĩa trong tiếng Việt Gán nhãn vai nghĩa là một

nhánh trong phân tích ngữ nghĩa của câu Kết quả của phân tích cú pháp và

gán nhãn vai nghĩa tốt có thể được tích hợp vào những ứng dụng trong xử

lý ngôn ngữ tự nhiên như: dịch máy, tóm tắt văn bản, hệ thống trả lời tự

động, trích rút thông tin, v.v

1

Trang 15

Đa số các phương pháp để nâng cao hiệu quả phân tích cú pháp và gánnhãn vai nghĩa là sử dụng học máy thống kê Học máy thống kê có mặttrong hàng loạt ứng dụng hiện đại như: công nghệ tìm kiếm thông tin;chương trình lọc thư rác; xe ô tô, máy bay không người lái; xử lý ngôn ngữ,tiếng nói, hình ảnh; các chương trình bảo mật mạng,v.v Mục tiêu chínhcủa học máy thống kê là phối hợp thuật toán máy tính và các mô hình thống

kê để tìm ra các cấu trúc có liên hệ về mặt toán học trong những tập dữ liệuhỗn tạp, đa dạng và nhiều nhiễu như mạng Internet toàn cầu, giao dịchchứng khoán, hình ảnh X-quang chẩn bệnh Đặc biệt, trong nhưng năm gầnđây kết quả của phân tích cú pháp và gán nhãn vai nghĩa sử dụng học máythống kê đạt được kết quả cao trên nhiều ngôn ngữ khác như tiếng Anh,tiếng Trung, v.v Đối với tiếng Việt, đã có một số nghiên cứu về phân tích

cú pháp thành phần tuy nhiên độ chính xác chưa cao so với ngôn ngữ khác

Do đó, luận án đã tập trung giải quyết bài toán sau:

và gán nhãn vai nghĩa

Gồm các bước chính sau:

tổng quát sử dụng học máy thống kê cho bài toán phân tích cú pháp và gánnhãn vai nghĩa tiếng Việt trong hình 2

Hình 2: Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa.

Trang 16

Mô hình sử dụng thuật toán học có giám sát Dữ liệu huấn luyện là kho ngữ liệu

được gán nhãn cú pháp và gán nhãn vai nghĩa Kết quả của bước huấn luyện sẽ

thu được mô hình phân tích cú pháp và gán nhãn vai nghĩa Mô hình phân tích

chứa tập tham số cũng như một số đặc trưng riêng Sử dụng mô hình phân tích

để dự đoán gán nhãn cú pháp và vai nghĩa cho dữ liệu mới Để phân tích cú pháp

và gán nhãn vai nghĩa đạt độ chính xác cao, chúng ta phải quan tâm đến hai vấn

đề chính sau: việc xây dựng kho ngữ liệu gán nhãn cú pháp và vai nghĩa; phương

pháp phân tích cú pháp và gán nhãn vai nghĩa Kho ngữ liệu gán nhãn cú pháp và

vai nghĩa chính là dữ liệu huấn luyện và dữ liệu để kiểm tra tính chính xác của

công cụ phân tích cú pháp và vai nghĩa Đối với tiếng Việt, kho ngữ liệu hơn

10,000 câu được gán nhãn cú pháp thành phần của dự án VLSP chính là tập dữ

liệu chính thức đầu tiên được xây dựng và hiệu chỉnh trong những năm gần đây

Tuy nhiên, kho ngữ liệu về cú pháp tiếng Việt vẫn còn rất hạn chế kể cả số lượng

lẫn chất lượng và chưa có kho ngữ liệu gán nhãn vai nghĩa dẫn đến chưa có

nhiều nghiên cứu về vấn đề phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt

nói chung Vì vậy, việc xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai

nghĩa tiếng Việt là giai đoạn quan trọng Dựa trên thông tin cú pháp thành phần

trong viettreebank, tác giả đã rút trích các thông tin để xây dựng kho dữ liệu gán

cú pháp phụ thuộc và kho dữ liệu gán nhãn vai nghĩa Xét ví dụ câu “Nam đá

bóng.” được gán nhãn cú pháp thành phần, cú pháp phụ thuộc và vai nghĩa như

trong hình 3: Hình 3.a cho biết thông

Hình 3: Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng

Nam đá bóng bóng N V N bóng

a Cây cú pháp thành phần b Cây cú pháp phụ thuộc c Gán nhãn vai nghĩa

tin cụm chủ ngữ (NP-SUB) là “Nam”, “đá bóng” là cụm động từ VP Từ hình 3.a

có thể xác định được các thông tin cho cú pháp phụ thuộc như (hình 3.b): đá là

động từ chính trong cụm động từ VP và “bóng” là tân ngữ trực tiếp cho động từ

chính từ đó xác định được thông tin phụ thuộc giữa (đá, bóng) có nhãn là tân

ngữ trực tiếp (dobj); đá cũng chính là từ chính trong câu, từ đó xác định được

Trang 17

3

Trang 18

các quan hệ phụ thuộc: nsubj(đá, Nam) nghĩa là Nam chủ ngữ cho động từ

đá, punct(đá, ) “.” là dấu câu phụ thuộc vào từ chính Hoặc xác định thôngtin cho vai nghĩa như (hình 3.c): “Nam” là chủ ngữ của câu có thể xác địnhnhãn vai nghĩa cho “Nam” là vai tác thể (Arg0); đá là động từ chính cũngchính là vị từ (Rel) của câu; bóng là tân ngữ trực tiếp cũng là bị thể cho vị từ

đá có nhãn vai nghĩa (Arg1) Qua khảo sát tác giả nhận thấy ngoài việc khaithác thông tin cú pháp phụ thuộc từ viettreebank có thể khai thác thêmthông tin gán nhãn vai nghĩa Đó cũng là lý do bổ sung thêm nghiên cứugán nhãn vai nghĩa trong đề tài này

Tiếp theo, để nâng cao hiệu quả phân tích cú pháp và vai nghĩa luận án

đã nghiên cứu một số phương pháp phân tích cú pháp và vai nghĩa trêntiếng Anh từ đó xác định vấn đề và đưa ra giải pháp cho tiếng Việt

Mục tiêu luận án

Từ những hạn chế trong lĩnh vực phân tích cú pháp và gán nhãn vainghĩa tiếng Việt cả về mặt kho ngữ liệu lẫn phương pháp, luận án tập trunggiải quyết các vấn đề chính sau:

nghĩa cho tiếng Việt

phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt

Tóm tắt luận án

Luận án trình bày một số vấn đề chính sau: trình bày cơ sở lý thuyết về

cú pháp tiếng Việt, gán nhãn vai nghĩa và biểu diễn phân bố từ Xây dựngtập nhãn phụ thuộc và vai nghĩa cho tiếng Việt Sau đó luận án đề xuấtphương pháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gánnhãn vai nghĩa cho tiếng Việt Sử dụng kho ngữ liệu gán nhãn cú phápthành phần tiếng Việt tác giả đã thử nghiệm phân tích cú pháp thành phầntrên 2 phương pháp chính: dựa trên phương pháp shift-reduce và phươngpháp self-attention Tích hợp đặc trưng biểu diễn phân bố từ vào phươngpháp phân tích cú pháp phụ thuộc dựa trên đồ thị và dựa trên các bướcchuyển Phần cuối cùng, dựa trên kho ngữ liệu gán nhãn vai nghĩa tác giả

đã xây dựng và trình bày phương pháp gán nhãn vai nghĩa trên tiếng Việt

4

Trang 19

Đóng góp của luận án

Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần được xây dựng bởi nhómVSLP, luận án đã có hai đóng góp chính: đóng góp về mặt dữ liệu, đóng góp vềmặt phương pháp trên phân tích cú pháp và gán nhãn vai nghĩa cho tiếng Việt

1 Về dữ liệu: xây dựng tập nhãn cú pháp phụ thuộc và tập nhãn vai nghĩa trêntiếng Việt Luận án đề xuất thuật toán chuyển dữ liệu từ dữ liệu gán nhãn cú phápthành phần sang dữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa trên tiếng Việt Tácgiả đã xây dựng thành công 10,165 câu tiếng Việt được gán nhãn cú pháp phụ thuộc.Thực hiện gán nhãn phụ thuộc đa ngôn ngữ lại thủ công được 3,000 câu tiếng Việt đưalên kho ngữ liệu cú pháp phụ thuộc đa ngôn ngữ tại địa chỉhttp://universaldependencies.org/ Đồng thời, tác giả đã xây dựng được 5,460 câu gánnhãn vai nghĩa cho tiếng Việt

gán nhãn vai nghĩa:

véctơ phân bố từ vào hệ thống phân tích cú pháp thành phần dựa trên bướcchuyển shift-reduce để nâng cao hiệu quả phân tích cú pháp thành phần trêntiếng Việt Phân tích lỗi dành cho tiếng Việt dựa trên phương pháp phân tích cúpháp thành phần self-attention

đã xây dựng tác giả đề xuất tích hợp véctơ phân bố từ vào hệ thống phân tích

cú pháp phụ thuộc MaltParser, MSTParser và Bist-parser

hoạch tuyến tính nguyên với đề xuất tập ràng buộc dành riêng cho tiếng Việt và

đề xuất thuật toán rút trích thành phần để nâng cao hiệu quả gán nhãn vai nghĩatiếng Việt

Cấu trúc luận án

Phần tiếp theo của luận án được trình bày lần lượt như sau:

• Chương 1: trình bày các khái niệm cơ bản từ, cụm từ, cú pháp trong tiếngViệt Sau đó luận án trình bày các khái niệm liên quan đến cú pháp thành phần, cúpháp phụ thuộc và vai nghĩa trong tiếng Việt Tiếp theo là 4 phương pháp để biểudiễn phân bố từ: Skip-gram, CBOW, GloVe, ELMo

• Chương 2: luận án mô tả chi tiết về phương pháp xây dựng tập nhãn phụthuộc và vai nghĩa trên tiếng Việt Đề xuất phương pháp chuyển kho ngữ

Trang 20

liệu cú pháp thành phần sang kho ngữ liệu gán nhãn phụ thuộc và vai nghĩa tiếng Việt.

• Chương 3: trình bày phương pháp nâng cao hiệu quả phân tích cú phápthành phần, cú pháp phụ thuộc trên tiếng Việt Đầu tiên, luận án giới thiệu một sốvăn phạm phổ biến phân tích cú pháp thành phần Tiếp theo, trình bày chi tiết vàđánh giá kết quả thử nghiệm phân tích cú pháp thành phần tiếng Việt trên 2 phươngpháp: shift-reduce và self-attention Cuối cùng, tác giả trình bày và đánh giá thửnghiệm phân tích cú pháp phụ thuộc dựa trên bước chuyển và đồ thị cho tiếng Việt

Đề xuất tích hợp đặc trưng biểu diễn phân bố từ vào các hệ thống MaltPaser,MSTParser và Bist-Parser cho phân tích cú pháp phụ thuộc tiếng Việt

tuyến tính để gán nhãn vai nghĩa cho tiếng Việt Đánh giá và phân tích kết quảgán nhãn vai nghĩa tiếng Việt

trong tương lai

6

Trang 21

Chương 1

Cơ sở lý thuyết

Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trongluận án Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt[1,2,10] như từ, từ loại, cụm từ, Tiếp theo, mục 2, 3, 4 trình bày bài toánphân tích cú pháp thành phần, bài toán phân tích cú pháp phụ thuộc và bàitoán gán nhãn vai nghĩa Mục 5 trình bày các mô hình biểu diễn phân bố từ:skip-gram, túi từ liên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu

1.1 Khái niệm cơ bản trong tiếng Việt

1.1.1 Từ

nghĩa và có thể hoạt động tự do trong câu Đơn vị cơ sở cấu tạo của từ tiếngViệt là tiếng Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt và có thể

tự mình không có nghĩa [1]

Từ có nhiều cách phân loại khác nhau Xét về số lượng tiếng có:

cửa, xanh lè, sạch sẽ

Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất

có nghĩa, ta có:

Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách

ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ Kết hợp cả ba mặttrên, có phân loại từ theo lược đồ trong hình 1.1:

1.1.2 Từ loại

Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau

về đặc trưng từ loại Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự

Trang 22

Từ đơn Từ phức (1 tiếng) (nhiều tiếng)

Từ láy Từ ngẫu kết Từ ghép

Từ đơn tố Từ đa tố

Hình 1.1: Phân loại từ trong tiếng Việt.

nhất trí hoàn toàn Các tiêu chuẩn đặc trưng để phân loại thường dùng bao gồm:

• Ý nghĩa khái quát Ý nghĩa từ loại là ý nghĩa khái quát của từng lớp từ,trên cơ sở khái quát hóa từ vựng thành khái quát hóa phạm trù ngữ pháp chung.Các từ loại đều phù hợp với định nghĩa của các phạm trù phân loại Đó là nhữngnhóm từ rất lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vậtthể, phẩm chất, hành động hoặc trạng thái

nghĩa: ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượtthay thế nhau, trong khi đó, ở các vị trí khác trong sự kết hợp, các từ còn lại tạo

ra bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên Khả năngkết hợp của từ trong các ngôn ngữ thuộc loại hình đơn lập, là sự phân bố trật tự

và việc sử dụng các từ phụ để biểu hiện các ý nghĩa ngữ pháp bên ngoài từ

• Chức năng cú pháp Tham gia vào cấu tạo câu, các từ có thể đứng ở một

vị trí hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở các vị trí đó,

và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành phần kháctrong cấu tạo câu, có thể phân vào một từ loại Tuy nhiên phải xem xét chức năng

cú pháp nào của từ là chủ yếu để làm căn cứ

8

Trang 23

phân loại, vì một từ có thể giữ nhiều chức năng cú pháp khác nhau trong câu.

Dựa vào khái niệm từ loại, các nhà nghiên cứu tiếng Việt đã đưa ra tậpnhãn từ loại được sử dụng trong kho ngữ liệu cú pháp thành phần viettreebank[72] như sau: về nguyên tắc, các thông tin về từ có thể được chứa trong nhãn

từ loại bao gồm: từ loại cơ sở (danh từ, động từ, v.v ), thông tin hình thái (số

ít, số nhiều, thì, ngôi, v.v ), thông tin về phân loại con (ví dụ động từ đi vớidanh từ, động từ đi với mệnh đề, v.v ), thông tin ngữ nghĩa, hay một số thôngtin cú pháp khác Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thôngtin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loạicon, v.v Tiếng Việt có hệ thống từ loại theo bảng 1.1.2

Bảng 1.1: Tập nhãn từ loại tiếng Việt.

Trang 24

Việt, có thể gặp những loại cụm từ sau đây:

Mỗi loại cụm từ được chia thành ba bộ phận rõ rệt:

nó gắn bó mật thiết với chức vụ cú pháp của thành tố chính Thành tố chínhtrong cụm từ còn chi phối tất cả các thành tố trực tiếp phụ thuộc vào mình,

nó quyết định chức vụ cú pháp của tất cả các thành tố phụ có liên quan Nộidung ý nghĩa của thành tố chính quyết định khả năng gia nhập các kiến trúclớn hơn của toàn bộ cụm từ Tuy nhiên, phải nhờ có thành tố phụ thì mới cóthể xác định được bản chất từ loại, tiểu loại và thậm chí là ý nghĩa của từlàm thành tố chính Cách sử dụng của cụm từ hay các thành tố trong cụm

từ bao giờ cũng gắn với những tình huống cụ thể

Ví dụ 1.1.2 Trong cụm danh từ “Tất cả những con mèo đen ấy” thì có “Tất

cả những con” là phần phụ trước, “mèo” là phần trung tâm và “đen ấy” làphần phụ sau

Tóm lại, cụm từ là một thành phần quan trọng trong câu Phân tích cụm từ làbước quá độ trong quá trình phân tích cú pháp của một câu Hiểu được cấutạo của cụm từ một cách rõ ràng thì bước phân tích cú pháp phụ thuộc sẽ

10

Trang 25

chính xác hơn Trong kho ngữ liệu viettreebank [72], đã sử dụng tập nhãncụm từ tiếng Việt chứa các nhãn mô tả các thành phần cú pháp cơ bản làcụm từ và mệnh đề Nhãn thành phần cú pháp là thông tin cơ bản nhất trêncây cú pháp, nó tạo thành xương sống của cây cú pháp Tập nhãn cụm từcủa tiếng Việt theo bảng 1.2.

1.1.4 Câu

Theo học phái ngữ pháp Alexandria [1]: Câu là sự tổng hợp của các từbiểu thị một tư tưởng trọn vẹn Tuy nhiên về mặt nghiên cứu khoa học, địnhnghĩa về câu phải xét trên nhiều yếu tố sau:

tính chất tự lập và có một ngữ điệu kết thúc

có thể đi kèm thái độ của người nói hay nội dung là thái độ, tình cảm của ngườinói

đạt tư tưởng, tình cảm Nó là đơn vị thông báo nhỏ nhất

11

Trang 26

Dựa vào các yếu tố trên có thể định nghĩa về câu như sau:Câu là đơn vịnghiên cứu ngôn ngữ có cấu tạo ngữ pháp (bên trong và bên ngoài) tự lập

và có ngữ điệu kết thúc, mang một ý nghĩ tương đối trọng vẹn hay thái độ,

sự đánh giá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá củangười nói, giúp hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm Câuđồng thời là đơn vị thông báo nhỏ nhất của ngôn ngữ

Hiểu rõ hơn về câu, Diệp Quang Ban và Hoàng Văn Thung [1] xét đếnchức năng cú pháp của các từ và tổ hợp từ trong câu Mỗi từ, mỗi cụm từ,hay tổ hợp từ đều giữ một chức năng cú pháp nhất định, trừ những kết từ

có tác dụng đánh dấu chức năng cú pháp của từ hay tổ hợp từ đi với chúng

và những liên từ nối hai từ hoặc tổ hợp từ trong cùng một chức năng cúpháp Có thể lược đồ hóa tổ chức của câu như trong bảng 1.3:

Bảng 1.3: Tổ chức câu trong tiếng Việt.

Trạng ngữ

• Câu đơn: Là câu chỉ có một vế Cần phân biệt câu đơn với câu ghép và câu

mở rộng thành phần Câu đơn thường có một chủ ngữ, một vị ngữ và có thể có mộthoặc nhiều trạng ngữ nhưng có một số trường hợp câu đơn không xác định được chủngữ, vị ngữ Đó là trường hợp câu đặc biệt Ví dụ:

– Câu đơn bình thường: Trời mưa

– Câu đơn thuộc trường hợp đặc biệt: Vâng ạ!

• Câu ghép: Câu ghép là câu do nhiều vế câu ghép lại, mỗi vế câu thường

có cấu tạo giống câu đơn có cụm chủ-vị và thể hiện một ý có quan hệ chặt chẽ với ýcủa những câu khác Các câu ghép bắt buộc phải có hai cụm chủ-vị trở lên Hai vếcủa câu ghép được nói bằng nhiều cách Nhưng cách cơ bản nhất là nối trực tiếp,nối bằng quan hệ từ và cặp từ hô ứng

– Câu ghép đẳng lập: Là câu ghép được nối với nhau bằng cách sử dụng cách nối trực tiếp

Ví dụ: Lan học khoa ngữ văn, Tình học khoa công nghệ thông tin.– Câu ghép chính – phụ: Là câu ghép được nối với nhau bằng cách

sử dụng quan hệ từ hoặc cặp từ hô ứng

Ví dụ: Nếu em học giỏi thì ba mẹ em sẽ rất mừng

12

Trang 27

• Câu chủ động: Là câu có chủ ngữ chỉ người, vật thực hiện một hoạt động hướng vào người, vật khác.

Ví dụ: Mẹ đang khen Lan nấu ăn ngon

người, vật khác hướng vào

Ví dụ: Lan được mẹ khen nấu ăn ngon

Theo nghiên cứu tác giả Nguyễn Văn Hiệp [4] về cú pháp tiếng Việt vàtác giả Nguyễn Phương Thái cùng cộng sự trong dự án VLSP năm 2008đưa ra tập quy tắc cú pháp tiếng Việt cho thành phần câu bao gồm: chủngữ, vị ngữ, bổ ngữ và một số loại ngữ khác trong câu Phạm trù ngữ phápthành phần câu trong hệ thống phân loại lấy cấu trúc chủ - vị làm cơ sởphân biệt các thành phần câu: thành phần chính và thành phần phụ Thànhphần chính gồm chủ ngữ và vị ngữ Thành phần phụ được chia thành: cácthành phần phụ chứa trong thành phần của nòng cốt: định ngữ, bổ ngữ, ;các thành phần phụ ngoài nòng cốt: trạng ngữ, đề ngữ, phụ ngữ câu ; cácthành phần phụ biệt lập với nòng cốt câu: hô ngữ, liên ngữ, chủ ngữ, Một số quy tắc cú pháp của các thành phần câu:

• Chủ ngữ: chủ ngữ trong phần lớn các trường hợp mang ý nghĩa chỉ người

và sự vật nhưng nó có thể có các ý nghĩa khác Chủ ngữ có thể là danh từ, danhngữ, đại từ, tính từ, tính ngữ, số từ, động từ, động ngữ

• Vị ngữ: vị ngữ là một thành phần chính của câu và có tác động đến toàn

bộ câu Vị ngữ là trung tâm tổ chức câu và do vậy vị ngữ có nhiều vấn đề phức tạphơn chủ ngữ Vị ngữ trong tiếng Việt có thể do nhiều loại từ và ngữ đảm nhận Đó

là động từ, tính từ hoặc nhóm động từ, nhóm tính từ và một số từ loại khác như đại

từ, số từ, danh từ, động từ đặc biệt “là”,

bổ nghĩa cho động từ tính từ đó, tạo nên cụm từ làm thành phần câu gọi là bổngữ Một số bổ ngữ thường gặp như:

– Bổ ngữ hình thái do các tiểu loại phụ từ tạo thành thường đứng trướcđộng từ hay tính từ, biểu thị các tình thái khẳng định, thời gian, thểthức diễn biến của hành động và của trạng thái, tính chất, quan hệ,

được nêu ở động từ hay tính từ trung tâm đó

– Bổ ngữ đối tượng biểu thị các sự vật có quan hệ với động từ hay tính từ trung tâm Bổ ngữ đối tượng thường do danh từ, danh ngữ, đại từ tạo thành Bổ ngữ đối tượng có thể kết nối với động từ hoặc tính từ theo cách trực tiếp hoặc gián tiếp, bổ ngữ miêu tả

Trang 28

• Một số loại ngữ khác:

– Trạng ngữ: là thành phần của câu được xét trong chỉnh thể của câu nói chung Trạng ngữ là thành phần phụ biểu thị hoàn cảnh được nêu

ở nòng cốt câu Trạng ngữ do từ, cụm từ hay kết cấu chủ vị tạo thành

Có các loại trạng ngữ sau: trạng ngữ thời gian, trang ngữ nơi chốn, trạng ngữ nguyên nhân, trạng ngữ mục đích và trạng ngữ cách thức

– Định ngữ: là thành phần phụ trong câu Định ngữ được nhận diện thông qua từ mà nó hạn định Quan hệ giữa định ngữ và đối tượng được định ngữ là quan hệ hạn định Trong câu, danh từ thường có các định ngữ sau: định ngữ chỉ lượng, định ngữ chỉ loại, định ngữ miêu tả, định ngữ chỉ xuất

Dựa trên khái niệm câu, tập nhãn mệnh đề của tiếng Việt mô tả trong bảng 1.4

cú bản vị và (3) giai đoạn ngữ pháp chức năng và ngữ pháp ngữ nghĩa.Tiếng Việt thuộc ngôn ngữ đơn lập, một tiếng (âm tiết) được phát âm táchrời được thể hiện bằng một chữ viết, có một số đặc trưng nổi bật sau:

dụng ký tự khoảng trống “ “ để phân định âm tiết Tiếng có thể là từ hoặc yếu tốcấu tạo từ

2 Từ không biến đổi hình thái khi được sử dụng trong câu Do đó, việc xác định

từ loại mỗi từ phải dựa trên ngữ cảnh của câu Khi từ kết hợp từ thành

14

Trang 29

các kết cấu như ngữ, câu thì tiếng Việt rất coi trọng phương thức trật tự

từ và hư từ

là danh từ, tính từ hoặc giới từ

Cú pháp là chủ đề nghiên cứu của hai cộng đồng gồm những người làm ngônngữ và những người làm tin học Cú pháp vừa là đối tượng nghiên cứu, vừa làmột trong các cấp độ cần mô tả đối với cộng đồng những người làm ngôn ngữ.Đối với cộng đồng những người làm tin học, cần làm cho máy tính phân tích được

cú pháp với hai mục tiêu là xây dựng các ứng dụng, giải quyết một số bài toánthực tế, đối tượng nghiên cứu của họ là các hệ hình thức và các thuật toán

Cú pháp là quy tắc dùng các tiếng để đặt câu văn cho chính xác Để sửdụng ngôn ngữ linh hoạt, ta phải hiểu rõ về cú pháp Muốn hiểu rõ về cúpháp, ta phải hiểu thế nào là câu, các loại câu, mệnh đề, các loại mệnh đề,cùng cấu trúc của chúng

Tác giả Nguyễn Văn Hiệp [4] đã chỉ ra nghiên cứu cú pháp đòi hỏi phảinắm được quan hệ ngữ pháp Có 3 loại quan hệ ngữ pháp đã được thừanhận gồm: quan hệ đẳng lập, quan hệ chính phụ và quan hệ chủ-vị (C-V)

mặt ngữ pháp và thể hiện ở chỗ các thành tố có vai trò như nhau trong việcquyết định đặc điểm ngữ pháp của cả tổ hợp Quan hệ đẳng lập có thể chia làm

4 loại:

(a) Quan hệ liệt kê: thường được nối kết với các liên từ như và, cùng, lẫn,

Ví dụ như: cô ấy với tôi, sống và làm việc

(b) Quan hệ lựa chọn thường được nối kết bởi các liên từ như hay, hoặc,

Ví dụ: sống hay chết, cô ấy hoặc tôi

cùng sở chỉ Vì vậy về nguyên tắc có thể sử dụng từ là để xác lập một quan hệđồng nhất giữa hai yếu tố có quan hệ giải thích Ví dụ: Bác tôi là cụ Nguyễn ĐạoQuán

(d) Quan hệ qua lại: thường được nối kết bởi các cặp liên từ hay phó từ

như tuy nhưng, vì nên, đã lại, càng càng Ví dụ: Tuy ông không giàu nhưng vẫn đủ tiền mua xe hơi

2 Quan hệ chính phụ: là quan hệ giữa những yếu tố không bình đẳng với nhau

về mặt ngữ pháp, theo đó một thành tố đóng vai trò chính còn gọi là thành tố trung tâm

và các thành tố khác đóng vai trò phụ Thành tố chính quy

Trang 30

định đặc điểm ngữ pháp của toàn bộ ngữ đoạn, chẳng hạn nếu thành

tố chính là danh từ thì toàn bộ ngữ đoạn mang tính chất của danh từ.Trong tiếng Việt, để nhận biết thành tố chính thì dựa vào hai trườnghợp xẩy ra sau:

thống, đối với tổ hợp “hư từ + thực từ”, thực từ luôn được coi là thành tố chính

Ví dụ: đã đi, rất giỏi, giỏi hơn

và ngữ điệu Khi nhấn mạnh nhằm mục đích biểu cảm, hoặc khi muốntạo câu có thông báo “gộp”, người ta cũng có thể thay đổi vị trí, đưathành tố vị lên đứng trước ví dụ như Rơi cái ví tiền kìa

Trong kho ngữ liệu viettreebank [72] đưa ra tập nhãn chức năng ngữpháp Nhãn chức năng của một thành phần cú pháp cho biết vai trò của nótrong thành phần cú pháp mức cao hơn Nhãn chức năng cú pháp đượcgán cho các thành phần chính trong câu như chủ ngữ, vị ngữ, tân ngữ Nhờthông tin do nhãn chức năng cung cấp ta có thể xác định các loại quan hệngữ pháp cơ bản sau đây:

Trang 31

Bảng 1.5: Tập nhãn chức năng cú pháp tiếng Việt.

Với một câu có thể có hai cách phân tích cú pháp: phân tích cú pháp thànhphần và phân tích cú pháp phụ thuộc

1.1.6 Vai nghĩa

Khái niệm vai nghĩa được các nhà ngôn ngữ dùng với nhiều thuật ngữkhác như: các trường hợp, quan hệ ngữ nghĩa, vai nghĩa hoặc vai tham tố

Có rất nhiều định nghĩa khác nhau về khái niệm vai nghĩa

Fillmore [33] đã đưa ra một số vai nghĩa mà ông cho là có tính phổ quát, cóthể tìm thấy trong mọi ngôn ngữ, phản ánh một phương diện chung trong cáchthức chúng ta tri nhận về thế giới: “Ý niệm về cách bao gồm một tập hợp kháiniệm phổ quát, được giả định là bẩm sinh, xác định những kiểu tri nhận nào đócủa con người về những sự tình đang diễn ra quanh họ, tri nhận những vấn đềnhư ai thực hiện nó, nó xảy ra đối với ai, và cái gì thay đổi” [5]

Tác giả Nguyễn Văn Hiệp [5] đã mô tả về vai nghĩa tiếng Việt khá đầy đủ trongcuốn sách “Cơ sở ngữ nghĩa phân tích cú pháp” Tác giả cũng chỉ ra danh sáchcác vai nghĩa có nhiều tác giả đề xuất và khác nhau Tên gọi của các vai có thểkhác nhau Có tình trạng một số tác giả dùng chung tên gọi vai nghĩa nhưng quanniệm khác nhau và cũng có tên gọi vai nghĩa khác nhau nhưng quan niệm lạigiống nhau Tuy nhiên, tác giả cũng đưa ra nguyên tắc trong việc phân định vàtrừu xuất vai nghĩa:“Vai nghĩa mà một thực thể đảm nhiệm trong sự

17

Trang 32

tình luôn luôn phụ thuộc vào bản chất của sự tình đó, và thực là vô nghĩanếu ta tách biệt các vai nghĩa khỏi sự tình mà trong đó chúng xuất hiện” Từ

đó, tác giả Nguyễn Văn Hiệp cũng đã liệt kê ra danh sách các vai nghĩa phổbiến và được đa số các nhà nghiên cứu thống nhất sử dụng gồm:

• Vai kẻ hưởng lợi (Benefactive, viết tắt là Ben): biểu thị kẻ được hưởng thành

quả từ một hành động do một ai đó thực hiện Ví dụ: “Nó chữa cái xe cho chị ấyBen ”

đến một thay đổi nào đó Sự thay đổi này có thể là sự thay đổi về vật lí, tâm lí

• Vai công cụ (Instrument, viết tắt là Instr): chỉ công cụ được dùng để thực

• Vai thực hiện hành động (Effector): chỉ vật trực tiếp tác động đến đối tượngnào đó, vai này gần gũi với vai công cụ (trong tiếng Anh, cả hai đều có thể đánh dấubởi giới từ with) Ví dụ: “Larry broke the window a rockEf f ector

.” (Larry đập vỡ kính cửa sổ bằng một hòn đá.) (ví dụ dẫn theo Van Valin 1993, 44)

• Vai địa điểm, vị trí (Location hay Locative, viết tắt là Lo): chỉ nơi chốn của

điểm xuất phát của chuyển động, hay nguồn của trạng thái Ví dụ: “Nó từ

• Vai điểm đến (Goal, viết tắt là Go): chỉ đích đến của một chuyển động Ví

18

Trang 33

• Vai kẻ tham chiếu (Reference, viết tắt là Ref): chỉ người hay vật được

dùng để tham chiếu trong một trạng thái, quan hệ, Ví dụ: “Nhà xa

hướng của chuyển động Ví dụ: “Bộ đội tiến quân dọc theo bờ sôngDir/P ath.”

• Vai chủ sở hữu (Possessor, viết tắt là Poss): chỉ chủ sở hữu của sự vật Ví

• Vai thể chuyển động (Theme): chỉ một thực thể tồn tại ở một vị trí nào đó,hoặc thực thể chuyển động, chịu một sự thay đổi về một vị trí do một tác

nhân nào đó Vai này cũng dùng để chỉ thực thể được sở hữu hay chịu

• Một số vai khác có tính chất ngoại vi cũng được tác giả thừa nhận, như vainguyên nhân (Reason), vai mục đích (Purpose), vai cách thức (Manner)

Ngoài ra, theo khảo sát của tác giả Phan Thị Huê [6] thì danh sách vainghĩa dành cho tiếng việt cần bổ sung thêm một số vai nghĩa được CaoXuân Hạo [3] đưa ra hết sức hợp lý như:

đánh Bắc

hành động đó không làm thay đổi trạng thái, vị trí hay làm cho đối tượng bị huỷ

• Vai quá thể (Processor): người hay vật hoạt động hoặc trải qua quá trình

Trang 34

• Vai tạo thể (Factitive, viết tắt là F): là sản phẩm của hành động tạo tác.

• Vai đối thể (Object, viết tắt là O): vật chịu sự tác động của hành động hay

1.2 Cú pháp thành phần

Định nghĩa 1 Cú pháp thành phần là cấu trúc câu theo thứ bậc các thành

phần của câu, sử dụng cấu trúc cụm từ

Ví dụ 1.2.1 Câu cú pháp thành phần (S (NP-SUB (P-H Tôi)) (VP (V-H

mong_mỏi)) (SBAR (S (NP-SUB (Nc-H sự) (A công_bằng)) (VP (VP (V-H

được)) (VP (VP (V-H thực_hiện)) (CC và) (VP (V-H trả) (R lại) (PP-DOB

(E-H cho) (NP (P-(E-H họ)))))))) ( .)) có cây cú pháp thành phần được biểu diễn

Trang 35

Trong ví dụ 1.2.1 có thể hiểu một số cụm từ như sau: “Tôi” là cụm danh

từ chủ ngữ (NP-SUB), “mong_mỏi” là cụm động từ (VP), “sự công_bằngđược thực_hiện và trả lại cho họ” mệnh đề phụ (SBAR)

20

Trang 36

1.2.1 Bài toán phân tích cú pháp thành phần

Quá trình phân tích cú pháp câu có thể chia làm hai mức chính [31]:

do bước trước cung cấp

Do tiếng Việt là ngôn ngữ đơn âm tiết nên thường gặp phải vấn đề nhậpnhằng ở cả hai mức Trong phần này, tác giả tập trung vào vấn đề phân tích

cú pháp thành phần cho câu

Hình 1.3: Quá trình phân tích cú pháp thành phần

Mô hình phân tích tổng quát phân tích câu (x) đã được tách từ và gánnhãn từ loại thành cấu trúc cấu (y) theo thứ bậc các thành phần của câu sửdụng cấu trúc cụm từ Mục tiêu của bài toán là tìm ra cú pháp thành phầncủa câu đầu vào x chính xác nhất Tổng quát:

– Câu x = w1, w2, , wn đã được tiền xử lý, tách từ và gán nhãn từ loại.Trong đó mỗi wi chứa thông tin từ và từ loại tương ứng của từ thứ i

trong câu x x có thể coi là 1 ma trận trong các mô hình học máy:

21

Trang 37

– Kho ngữ liệu gồm các câu đã được chú giải cú pháp thành phần Kho ngữ liệu được sử dụng trong quá trình huấn luyện ở các thuật toán.

Choe cùng cộng sự [20] đã định nghĩa hình thức cây cú pháp, với γ(x) làtập cấu trúc có thể có của x:

argmaxy 0 ∈γ(x) P (x, y0)Giả sử xem cây của (x, y) là một dãy tuần tự (z) biểu diễn các suy diễn đểsinh ra cây cấu trúc cú pháp thành phần như ví dụ 1.2.1, có thể định nghĩaphân phối xác suất trên (x, y) như sau:

“từ trên xuống” hoặc “dưới lên” Kỹ thuật phân tích cú pháp thống kê đượcgọi là “hướng dữ liệu” Kỹ thuật phân tích cú pháp dựa trên luật được gọi làcách tiếp cận “hướng ngữ pháp” [61]

1 Phân tích cú pháp thành phần dựa trên luật: trong phương pháp dựa trênluật, tập luật riêng biệt của từng ngôn ngữ được hình thành để nhận dạng ra cây cúpháp tốt nhất cho một ngữ pháp cụ thể Nhưng trong phương pháp này, tập luật sinh rađược áp dụng đệ quy dẫn đến chồng chéo Vấn đề được giải quyết hiệu quả bằng cách

sử dụng kỹ thuật quy hoạch động Bộ nhớ đệm cho cây cú pháp trong trình phân tích

cú pháp thành phần dựa trên quy hoạch động được gọi là “biểu đồ” và do đó trình phântích dựa trên quy hoạch động gọi là “trình phân tích cú pháp biểu đồ” Trình phân tích

cú pháp dựa trên luật sử dụng thuật toán CYK và thuật toán Early

2 Phân tích cú pháp thành phần dựa trên thống kê: thuật toán phân tích cúpháp dựa trên thống kê thu thập dữ liệu thống kê từ câu được phân tích cú pháp đúng

và phân giải nhập nhằng dựa trên dữ liệu thực nghiệm Ưu điểm

22

Trang 38

của phương pháp này là bao phủ toàn bộ ngữ pháp sử dụng của ngônngữ Hiệu suất của các trình phân tích cú pháp dựa trên thống kê phụthuộc vào kho ngữ liệu huấn luyện được sử dụng để thu thập thông tinthống kê về ngữ pháp của ngôn ngữ Thay vì sử dụng luật, trình phân tích

cú pháp dựa trên thống kê chọn cây cú pháp tốt nhất từ các ứng viên dựatrên thông tin thống kê Nhược điểm của phương pháp này là đôi khi thứ

tự cú pháp không hợp lệ Trình phân tích cú pháp dựa trên xác suất ví dụnhư ngữ pháp phi ngữ cảnh và ngữ pháp phi ngữ cảnh dựa trên xác suất

3 Phương pháp tiếp cận tổng quát: nền tảng của phương pháp phân tích cúpháp dựa trên luật tương tự như dựa vào thống kê Sử dụng ưu điểm này,Melamed [39] đã đề xuất một thuật toán phân tích cú pháp tổng quát dựa trên ýtưởng nửa vành phân tích cú pháp Thuật toán tổng quát này bao gồm 5 thànhphần: ngữ pháp, logic, nửa vành, ngữ pháp xác định ký hiệu kết thúc và ký hiệukhông kết thúc, tập luật sinh Logic xác định cơ chế trình phân tích cú pháp chạybằng cách tạo ra cây phân tích cú pháp cục bộ mới ra sao Nửa vành xác định cáccây cú pháp cục bộ được tính trọng số Chiến lược tìm kiếm xác định thứ tự các câyđược xử lý và điều kiện kết thúc xác định thời điểm dừng logic cần thiết

Mô hình sinh cho phân tích cú pháp

Để tìm ra cây cú pháp hợp lý nhất, trình phân tích cú pháp phải lựa chọn

định sử dụng để xây cây cú pháp Cho câu x có cây cú pháp y được địnhnghĩa bằng chuỗi các bước dẫn xuất Tính xác suất cho mỗi dẫn xuất bằng:

23

Trang 39

Mô hình phân biệt trong phân tích cú pháp

Michael Collins [24] cung cấp nền tảng chung gọi là mô hình tuyến tínhtoàn cục để mô tả cách tiếp cận rời rạc khác nhau cho quá trình học phântích cú pháp Cho x là đầu vào, y là đầu ra, Y tập cây cú pháp ứng viên

• Mỗi x ∈ X và y ∈ Y được ánh xạ vào véctơ đặc trưng d chiều Φ(x, y), mỗi

chiều là một số thực, tóm tắt một phần thông tin chứa trong (x, y)

• Véctơ trọng số w ∈ Rd gán trọng số cho mỗi đặc trưng trong Φ(x, y), biểudiễn độ quan trọng của đặc trưng đó Giá trị của Φ(x, y).w là trọng số của

(x, y) Trọng số càng cao thì độ chính xác y là đầu ra của x càng cao

cao nhất là đầu ra chính xác nhất:

có điều kiện định nghĩa xác suất có điều kiện như trọng số tuyến tính chomỗi ứng viên y:

X

y0∈GEN(x)

Mô hình tuyến tính toàn cục đơn giản là:

Nhiều kết quả thử nghiệm trong phân tích cú pháp chỉ ra mô hình tuyến tínhtoàn cục đơn giản bỏ qua bước chuẩn hóa thường cung cấp độ chính xác tương

tự khi so sánh với mô hình huấn luyện chuẩn hóa nhiều chi phí hơn Véctơ trọng

số w có thể được tính dựa trên phương pháp perceptron Perceptron bản chất

Trang 40

được giới thiệu như mạng nơrơn một lớp Nó được huấn luyện sử dụng họctrực tuyến, nghĩa là xử lý dữ liệu mẫu một lần trong đó nó điều chỉnh véctơtham số có được áp dụng trên dữ liệu đầu vào để tạo ra đầu ra tương ứng.Sau khi cập nhật, perceptron đảm bảo véctơ trọng số hiện tại có thể phânloại chính xác mẫu huấn luyện hiện tại.

Quá trình huấn luyện: Giả sử có m mẫu dữ liệu huấn luyện Thuật toán họcperceptron được mô tả ở thuật toán 1 Tham số trọng số véctơ w được khởi gán

Algorithm 1 Thuật toán gốc học perceptron

Đầu ra: Véc tơ trọng số w

1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần

Việc đánh giá độ chính xác của hệ thống phân tích cú pháp thành phần

sử dụng 3 chỉ số:

• LR = Recall = Tổng số thành phần trên cây đúng (gold)Số thành phần phân tích đúng

• LP = P recision = Tổng số thành phần trên cây phân tíchSố thành phần phân tích đúng

• Phương pháp shift-reduce được sử dụng để phân tích cú pháp thành phần

được đề xuất bởi tác giả Sagae và Lavie (2005) Tác giả Muhua Zhu cùng

1 Wall Street Journal

25

Ngày đăng: 13/11/2020, 16:01

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w