3.10 Minh họa gán nhãn thành phần lỗi cụm giới từ trong tiếng Việt 1093.12 Minh họa lỗi gán nhãn thành phần giữa thành phần con và cấu 3.13 Minh họa lỗi gán nhãn thành phần giữa cấu trúc
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_
Nguyễn Thị Lương
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2020
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_
Nguyễn Thị Lương
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
THEO TIẾP CẬN HỌC MÁY THỐNG KÊ
Chuyên ngành: Cơ sở toán cho tin học
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Lê Hồng Phương PGS.TS Đỗ Trung Tuấn
XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ
CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN
Chủ tịch hội đồng đánh giá
Luận án Tiến sĩ
Người hướng dẫn khoa học
Hà Nội - 2020
Trang 3Lời cam đoanTôi xin cam đoan đây là công trình nghiên cứu khoa học của tôi Các số liệu
sử dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theođúng quy định Các kết quả này chưa từng được công bố trong bất kỳnghiên cứu nào khác
Hà Nội, ngày 10 tháng 3 năm
2020
Nghiên cứu sinh
Nguyễn Thị Lương
Trang 4Lời cảm ơn
Trong quá trình thực hiện đề tài “Nghiên cứu nâng cao hiệu quả phân tích
cú pháp tiếng Việt theo tiếp cận học máy thống kê”, tôi đã nhận được rất nhiều
sự giúp đỡ, tạo điều kiện của Ban Giám hiệu, thầy cô trong khoa Sau Đại học
và khoa Toán - Cơ - Tin học của trường Đại học Khoa học Tự nhiên, Đại họcQuốc gia Hà Nội Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ đó
Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Hồng Phương, PGS.TS ĐỗTrung Tuấn - những người thầy đã tận tình hướng dẫn trực tiếp cho tôihoàn thành luận án này
Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô trong khoa Công nghệThông tin, trường Đại học Đà Lạt nơi tôi đang công tác và gia đình, bạn bè
đã động viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thựchiện và hoàn thành luận án này
Hà Nội, ngày 10 tháng 3 năm
2020
Nghiên cứu sinhNguyễn Thị Lương
Trang 5Mục lục
1.1 Khái niệm cơ bản trong tiếng Việt 7
1.1.1 Từ 7
1.1.2 Từ loại 7
1.1.3 Cụm từ 10
1.1.4 Câu 11
1.1.5 Cú pháp 14
1.1.6 Vai nghĩa 17
1.2 Cú pháp thành phần 20
1.2.1 Bài toán phân tích cú pháp thành phần 21
1.2.2 Phương pháp phân tích cú pháp thành phần 22
1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 25 1.3 Cú pháp phụ thuộc 28
1.3.1 Bài toán phân tích cú pháp phụ thuộc 28
1.3.2 Biểu diễn cú pháp phụ thuộc 29
1.3.3 Các thuật toán phân tích cú pháp phụ thuộc 31
1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc 37 1.4 Gán nhãn vai nghĩa 43
1.4.1 Bài toán gán nhãn vai nghĩa 43
1.4.2 Các công trình liên quan 44
1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa 48
1.5 Biểu diễn phân bố từ 49
1.5.1 Mô hình Skip-gram 50
1.5.2 Mô hình túi từ liên tục 51
1.5.3 Mô hình GloVe 52
1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu 52
1.6 Kết luận 54
Trang 62 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa
2.1 Kho ngữ liệu Treebank 56
2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc 57
2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt 59
2.2.2 Xác định cụm từ trung tâm 69
2.2.3 Xác định nhãn phụ thuộc 70
2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc 70
2.2.5 Đánh giá 75
2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt 78
2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt 78
2.3.2 Tập luật gán nhãn nhãn vai nghĩa 81
2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô 82
2.3.4 Đánh giá kết quả 82
2.4 Kết luận 83
3 Nâng cao hiệu quả phân tích cú pháp tiếng Việt 86 3.1 Phân tích cú pháp thành phần 87
3.1.1 Một số văn phạm phổ biến 87
3.1.2 Phương pháp phân tích Shift-Reduce 92
3.1.3 Phương pháp self-attention 99
3.1.4 Đánh giá kết quả 102
3.1.5 Kết luận phân tích cú pháp thành phần 112
3.2 Phân tích cú pháp phụ thuộc tiếng Việt 113
3.2.1 Phân tích cú pháp phụ thuộc dựa trên bước chuyển 113
3.2.2 Phân tích cú pháp dựa trên đồ thị 116
3.2.3 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc 118
3.2.4 Đánh giá kết quả 122
3.2.5 Kết luận phân tích cú pháp phụ thuộc 128
3.3 Kết luận 129
4 Phương pháp quy hoạch tuyến tính nguyên gán nhãn vai nghĩa tiếng Việt 130 4.1 Mô tả thuật toán
130 4.1.1 Khảo sát một số phương pháp 130 4.1.2 Phương pháp đề xuất
132 ii
Trang 74.2 Quy hoạch tuyến tính nguyên 135
4.3 Tập đặc trưng sử dụng 138
4.3.1 Đặc trưng cơ bản 138
4.3.2 Đặc trưng mới 139
4.4 Đánh giá kết quả 139
4.4.1 Phương pháp đánh giá 139
4.4.2 Hệ thống cơ bản 139
4.4.3 Chiến lược gán nhãn 140
4.4.4 Phân tích đặc trưng 141
4.4.5 Cải tiến dựa vào ILP 141
4.4.6 Tốc độ học 144
4.4.7 Sử dụng biểu diễn phân bố từ trong SRL 145
4.5 Kết luận 145
Trang 8Danh sách bảng
1.1 Tập nhãn từ loại tiếng Việt 9
1.2 Tập nhãn cụm từ tiếng Việt 11
1.3 Tổ chức câu trong tiếng Việt 12
1.4 Tập nhãn mệnh đề tiếng Việt 14
1.5 Tập nhãn chức năng cú pháp tiếng Việt 17
1.6 Các đặc trưng dùng trong MSTParser 33
1.7 Các đặc trưng dùng trong MaltParser 36
1.8 Ví dụ về phân tích cú pháp dựa vào các bước chuyển 38
1.9 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Anh và tiếng Trung 40
1.10 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Việt 42
1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes 48
2.1 Thống kê nhãn thành phần trong kho viettreebank 57
2.2 Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt 58
2.3 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD) 68
2.4 Tập quy tắc xác định phần tử trung tâm 69
2.5 Một số luật sử dụng để xác định nhãn phụ thuộc 70
2.6 Câu tiếng Việt theo định dạng CoNLL-X chưa được phân tích 76
2.7 Câu tiếng Việt theo định dạng CoNLL-X đã được phân tích phụ thuộc 76
2.8 Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] 77
2.9 Tập nhãn phụ thuộc của Nguyễn Kiêm Hiếu[28] 77
2.10 Tập nhãn phụ trợ tiếng Việt 79
2.11 Một số luật xác định gán nhãn vai nghĩa thô 81
2.12 Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô 82
2.13 Một số nhãn vai nghĩa phổ biến 83
2.14 Một số câu tiếng Việt gán nhãn vai nghĩa 85
3.1 Tập luật sinh ra dữ liệu huấn luyện trong Shift-Reduce 94
3.2 Luật suy diễn trong phân tích cú pháp Shift-reduce mở rộng 95
iv
Trang 93.3 Tập mẫu đặc trưng mở rộng 95
3.4 Dãy bước chuyển phân tích câu “Mảnh đất của đạn bom không còn người nghèo.” 97
3.5 Tập đặc trưng cơ bản 98
3.6 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt 98
3.7 Kết quả với tập dữ liệu có số từ ≤ 10 103
3.8 Kết quả với tập dữ liệu có số từ ≤ 35 103
3.9 Một số kết quả phân tích theo mô hình tích hợp đặc trưng phân bố từ 104
3.10 So sánh F1 sử dụng đặc trưng CharLSTM và EMLo 105
3.11 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng CharL-STM 105
3.12 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng ELMo 106 3.13 Lỗi phân cụm trong phân tích cú pháp thành phần tiếng Việt 106 3.14 Kết quả của MaltParser 116
3.15 Kết quả của MSTParser 118
3.16 Đặc trưng MaltParser cho tiếng Việt 124
3.17 Đặc trưng MSTParser cho tiếng Việt 124
3.18 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa trên các bước chuyển 125
3.19 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MaltParser126 3.20 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MSTParser126 3.21 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên Bist-Parser127 3.22 Kết quả phân tích cú pháp phụ thuộc với VTB trên Bist-Parser 127 3.23 Kết quả so sánh các phương pháp phân tích cú pháp phụ thuộc trên VTB_UD 128
3.24 Độ chính xác ASL của một số nhãn phụ thuộc trên VTB_UD 128 4.1 Độ chính xác của 3 thuật toán rút trích 139
4.2 Độ chính xác của hệ thống cơ bản 140
4.3 Độ chính xác của 2 chiến lược gán nhãn 140
4.4 Tập đặc trưng 141
4.5 Độ chính xác của tập đặc trưng trong bảng 4.4 141
4.6 Tập đặc trưng 142
4.7 Độ chính xác của tập đặc trưng trong bảng 4.6 142
4.8 Ảnh hưởng của ILP 142
4.9 Độ chính xác của mỗi loại đối số 143
Trang 104.10 Độ chính xác của 2 thuật toán rút trích 144
4.11 Độ chính xác của hệ thống 144
4.12 Ảnh hưởng véctơ từ của vị tự 145
4.13 Ảnh hưởng véctơ từ của từ chính 145
vi
Trang 11Danh sách hình vẽ
1 Các bước cơ bản trong xử lý ngôn ngữ tự nhiên 1
2 Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa 2
3 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng 3
1.1 Phân loại từ trong tiếng Việt 8
1.2 Cây cú pháp thành phần trong tiếng Việt 20
1.3 Quá trình phân tích cú pháp thành phần 21
1.4 Cấu trúc phụ thuộc 28
1.5 Đồ thị phụ thuộc của một câu tiếng Việt 30
1.6 Ví dụ về phân tích cú pháp dựa trên đồ thị 34
1.7 Câu tiếng Anh được gán nhãn vai nghĩa 44
1.8 Khung vị từ Communication trong FrameNet 45
1.9 Khung vị từ Cognition trong FrameNet 45
1.10 Mô hình CBOW 51
2.1 Cây cú pháp thành phần “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.” 71
2.2 Cú pháp phụ thuộc câu “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.” 71
2.3 Câu tiếng Việt được gán nhãn vai nghĩa 80
3.1 Toán tử thay thế 90
3.2 Toán tử nối 90
3.3 Quá trình phân tích cú pháp thành phần 93
3.4 Cây cú pháp thành phần “Mảnh đất của đạn bom không còn người nghèo.” 96
3.5 Mô hình phân tích cú pháp thành phần sử dụng phương pháp self-attention[53] 99
3.6 Bước mã hóa tổng quát[53] 100
3.7 Bước mã hóa tổng quát[53] 101
3.8 Minh họa gán nhãn thành phần lỗi giữa cụm động từ với mệnh đề trong tiếng Việt 107
3.9 Minh họa gán nhãn thành phần lỗi giữa cụm danh từ trong tiếng Việt 108
Trang 123.10 Minh họa gán nhãn thành phần lỗi cụm giới từ trong tiếng Việt 109
3.12 Minh họa lỗi gán nhãn thành phần giữa thành phần con và cấu
3.13 Minh họa lỗi gán nhãn thành phần giữa cấu trúc riêng và cấu
3.15 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc dựa trên
4.1 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu
4.4 Trích xuất thành phần của câu “Bà nói nó là con trai tôi mà” với
viii
Trang 13Danh mục từ viết tắt
kiện
grammar
Trang 14Mở đầu
Giới thiệu
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các
hệ thống máy tính hiểu ngôn ngữ của con người và là vấn đề được nhiều
nhà khoa học trên thế giới quan tâm Các ứng dụng về lĩnh vực này đa
đạng và phong phú như dịch máy, sinh văn bản, chuyển các văn bản thành
dữ liệu có cấu trúc, phân loại văn bản, rút trích thông tin, v.v Quá trình
xử lý ngôn ngữ tự nhiên gồm một số vấn đề chính sau: phân tích hình thái
từ, phân tích từ loại, phân tích cú pháp và phân tích ngữ nghĩa như hình 1
Hình 1: Các bước cơ bản trong xử lý ngôn ngữ tự nhiên
Phân tích cú pháp là vấn đề quan trọng và cơ bản trong xử lý ngôn ngữ
tự nhiên Mục đích của phân tích cú pháp là nhận biết được cấu trúc cú
pháp của câu để hiểu được ý nghĩa của văn bản Nó cung cấp một nền tảng
vững chắc cho lĩnh vực xử lý văn bản thông minh Có nhiều văn phạm có
thể sử dụng trong phân tích cú pháp như phân tích cú pháp sử dụng văn
phạm phi ngữ cảnh, văn phạm phi ngữ cảnh kết hợp xác suất từ vựng hóa,
văn phạm cấu trúc hướng trung tâm, văn phạm kết nối cây, v.v Trong đó
phân tích cú pháp thành phần sử dụng văn phạm phi ngữ cảnh và phân tích
cú pháp phụ thuộc đang được nhiều nhóm quan tâm nghiên cứu
Việc phân tích cú pháp câu có thể chia làm hai mức chính [31]:
do bước trước cung cấp
Do tiếng Việt là ngôn ngữ đơn âm tiết nên chúng ta thường gặp phải vấn
đề nhập nhằng ở cả hai mức Tiếp theo sau của bước phân tích cú pháp là
bước phân tích ngữ nghĩa trong tiếng Việt Gán nhãn vai nghĩa là một
nhánh trong phân tích ngữ nghĩa của câu Kết quả của phân tích cú pháp và
gán nhãn vai nghĩa tốt có thể được tích hợp vào những ứng dụng trong xử
lý ngôn ngữ tự nhiên như: dịch máy, tóm tắt văn bản, hệ thống trả lời tự
động, trích rút thông tin, v.v
1
Trang 15Đa số các phương pháp để nâng cao hiệu quả phân tích cú pháp và gánnhãn vai nghĩa là sử dụng học máy thống kê Học máy thống kê có mặttrong hàng loạt ứng dụng hiện đại như: công nghệ tìm kiếm thông tin;chương trình lọc thư rác; xe ô tô, máy bay không người lái; xử lý ngôn ngữ,tiếng nói, hình ảnh; các chương trình bảo mật mạng,v.v Mục tiêu chínhcủa học máy thống kê là phối hợp thuật toán máy tính và các mô hình thống
kê để tìm ra các cấu trúc có liên hệ về mặt toán học trong những tập dữ liệuhỗn tạp, đa dạng và nhiều nhiễu như mạng Internet toàn cầu, giao dịchchứng khoán, hình ảnh X-quang chẩn bệnh Đặc biệt, trong nhưng năm gầnđây kết quả của phân tích cú pháp và gán nhãn vai nghĩa sử dụng học máythống kê đạt được kết quả cao trên nhiều ngôn ngữ khác như tiếng Anh,tiếng Trung, v.v Đối với tiếng Việt, đã có một số nghiên cứu về phân tích
cú pháp thành phần tuy nhiên độ chính xác chưa cao so với ngôn ngữ khác
Do đó, luận án đã tập trung giải quyết bài toán sau:
và gán nhãn vai nghĩa
Gồm các bước chính sau:
tổng quát sử dụng học máy thống kê cho bài toán phân tích cú pháp và gánnhãn vai nghĩa tiếng Việt trong hình 2
Hình 2: Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa.
Trang 16Mô hình sử dụng thuật toán học có giám sát Dữ liệu huấn luyện là kho ngữ liệu
được gán nhãn cú pháp và gán nhãn vai nghĩa Kết quả của bước huấn luyện sẽ
thu được mô hình phân tích cú pháp và gán nhãn vai nghĩa Mô hình phân tích
chứa tập tham số cũng như một số đặc trưng riêng Sử dụng mô hình phân tích
để dự đoán gán nhãn cú pháp và vai nghĩa cho dữ liệu mới Để phân tích cú pháp
và gán nhãn vai nghĩa đạt độ chính xác cao, chúng ta phải quan tâm đến hai vấn
đề chính sau: việc xây dựng kho ngữ liệu gán nhãn cú pháp và vai nghĩa; phương
pháp phân tích cú pháp và gán nhãn vai nghĩa Kho ngữ liệu gán nhãn cú pháp và
vai nghĩa chính là dữ liệu huấn luyện và dữ liệu để kiểm tra tính chính xác của
công cụ phân tích cú pháp và vai nghĩa Đối với tiếng Việt, kho ngữ liệu hơn
10,000 câu được gán nhãn cú pháp thành phần của dự án VLSP chính là tập dữ
liệu chính thức đầu tiên được xây dựng và hiệu chỉnh trong những năm gần đây
Tuy nhiên, kho ngữ liệu về cú pháp tiếng Việt vẫn còn rất hạn chế kể cả số lượng
lẫn chất lượng và chưa có kho ngữ liệu gán nhãn vai nghĩa dẫn đến chưa có
nhiều nghiên cứu về vấn đề phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt
nói chung Vì vậy, việc xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai
nghĩa tiếng Việt là giai đoạn quan trọng Dựa trên thông tin cú pháp thành phần
trong viettreebank, tác giả đã rút trích các thông tin để xây dựng kho dữ liệu gán
cú pháp phụ thuộc và kho dữ liệu gán nhãn vai nghĩa Xét ví dụ câu “Nam đá
bóng.” được gán nhãn cú pháp thành phần, cú pháp phụ thuộc và vai nghĩa như
trong hình 3: Hình 3.a cho biết thông
Hình 3: Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng
Nam đá bóng bóng N V N bóng
a Cây cú pháp thành phần b Cây cú pháp phụ thuộc c Gán nhãn vai nghĩa
tin cụm chủ ngữ (NP-SUB) là “Nam”, “đá bóng” là cụm động từ VP Từ hình 3.a
có thể xác định được các thông tin cho cú pháp phụ thuộc như (hình 3.b): đá là
động từ chính trong cụm động từ VP và “bóng” là tân ngữ trực tiếp cho động từ
chính từ đó xác định được thông tin phụ thuộc giữa (đá, bóng) có nhãn là tân
ngữ trực tiếp (dobj); đá cũng chính là từ chính trong câu, từ đó xác định được
Trang 173
Trang 18các quan hệ phụ thuộc: nsubj(đá, Nam) nghĩa là Nam chủ ngữ cho động từ
đá, punct(đá, ) “.” là dấu câu phụ thuộc vào từ chính Hoặc xác định thôngtin cho vai nghĩa như (hình 3.c): “Nam” là chủ ngữ của câu có thể xác địnhnhãn vai nghĩa cho “Nam” là vai tác thể (Arg0); đá là động từ chính cũngchính là vị từ (Rel) của câu; bóng là tân ngữ trực tiếp cũng là bị thể cho vị từ
đá có nhãn vai nghĩa (Arg1) Qua khảo sát tác giả nhận thấy ngoài việc khaithác thông tin cú pháp phụ thuộc từ viettreebank có thể khai thác thêmthông tin gán nhãn vai nghĩa Đó cũng là lý do bổ sung thêm nghiên cứugán nhãn vai nghĩa trong đề tài này
Tiếp theo, để nâng cao hiệu quả phân tích cú pháp và vai nghĩa luận án
đã nghiên cứu một số phương pháp phân tích cú pháp và vai nghĩa trêntiếng Anh từ đó xác định vấn đề và đưa ra giải pháp cho tiếng Việt
Mục tiêu luận án
Từ những hạn chế trong lĩnh vực phân tích cú pháp và gán nhãn vainghĩa tiếng Việt cả về mặt kho ngữ liệu lẫn phương pháp, luận án tập trunggiải quyết các vấn đề chính sau:
nghĩa cho tiếng Việt
phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt
Tóm tắt luận án
Luận án trình bày một số vấn đề chính sau: trình bày cơ sở lý thuyết về
cú pháp tiếng Việt, gán nhãn vai nghĩa và biểu diễn phân bố từ Xây dựngtập nhãn phụ thuộc và vai nghĩa cho tiếng Việt Sau đó luận án đề xuấtphương pháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gánnhãn vai nghĩa cho tiếng Việt Sử dụng kho ngữ liệu gán nhãn cú phápthành phần tiếng Việt tác giả đã thử nghiệm phân tích cú pháp thành phầntrên 2 phương pháp chính: dựa trên phương pháp shift-reduce và phươngpháp self-attention Tích hợp đặc trưng biểu diễn phân bố từ vào phươngpháp phân tích cú pháp phụ thuộc dựa trên đồ thị và dựa trên các bướcchuyển Phần cuối cùng, dựa trên kho ngữ liệu gán nhãn vai nghĩa tác giả
đã xây dựng và trình bày phương pháp gán nhãn vai nghĩa trên tiếng Việt
4
Trang 19Đóng góp của luận án
Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần được xây dựng bởi nhómVSLP, luận án đã có hai đóng góp chính: đóng góp về mặt dữ liệu, đóng góp vềmặt phương pháp trên phân tích cú pháp và gán nhãn vai nghĩa cho tiếng Việt
1 Về dữ liệu: xây dựng tập nhãn cú pháp phụ thuộc và tập nhãn vai nghĩa trêntiếng Việt Luận án đề xuất thuật toán chuyển dữ liệu từ dữ liệu gán nhãn cú phápthành phần sang dữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa trên tiếng Việt Tácgiả đã xây dựng thành công 10,165 câu tiếng Việt được gán nhãn cú pháp phụ thuộc.Thực hiện gán nhãn phụ thuộc đa ngôn ngữ lại thủ công được 3,000 câu tiếng Việt đưalên kho ngữ liệu cú pháp phụ thuộc đa ngôn ngữ tại địa chỉhttp://universaldependencies.org/ Đồng thời, tác giả đã xây dựng được 5,460 câu gánnhãn vai nghĩa cho tiếng Việt
gán nhãn vai nghĩa:
véctơ phân bố từ vào hệ thống phân tích cú pháp thành phần dựa trên bướcchuyển shift-reduce để nâng cao hiệu quả phân tích cú pháp thành phần trêntiếng Việt Phân tích lỗi dành cho tiếng Việt dựa trên phương pháp phân tích cúpháp thành phần self-attention
đã xây dựng tác giả đề xuất tích hợp véctơ phân bố từ vào hệ thống phân tích
cú pháp phụ thuộc MaltParser, MSTParser và Bist-parser
hoạch tuyến tính nguyên với đề xuất tập ràng buộc dành riêng cho tiếng Việt và
đề xuất thuật toán rút trích thành phần để nâng cao hiệu quả gán nhãn vai nghĩatiếng Việt
Cấu trúc luận án
Phần tiếp theo của luận án được trình bày lần lượt như sau:
• Chương 1: trình bày các khái niệm cơ bản từ, cụm từ, cú pháp trong tiếngViệt Sau đó luận án trình bày các khái niệm liên quan đến cú pháp thành phần, cúpháp phụ thuộc và vai nghĩa trong tiếng Việt Tiếp theo là 4 phương pháp để biểudiễn phân bố từ: Skip-gram, CBOW, GloVe, ELMo
• Chương 2: luận án mô tả chi tiết về phương pháp xây dựng tập nhãn phụthuộc và vai nghĩa trên tiếng Việt Đề xuất phương pháp chuyển kho ngữ
Trang 20liệu cú pháp thành phần sang kho ngữ liệu gán nhãn phụ thuộc và vai nghĩa tiếng Việt.
• Chương 3: trình bày phương pháp nâng cao hiệu quả phân tích cú phápthành phần, cú pháp phụ thuộc trên tiếng Việt Đầu tiên, luận án giới thiệu một sốvăn phạm phổ biến phân tích cú pháp thành phần Tiếp theo, trình bày chi tiết vàđánh giá kết quả thử nghiệm phân tích cú pháp thành phần tiếng Việt trên 2 phươngpháp: shift-reduce và self-attention Cuối cùng, tác giả trình bày và đánh giá thửnghiệm phân tích cú pháp phụ thuộc dựa trên bước chuyển và đồ thị cho tiếng Việt
Đề xuất tích hợp đặc trưng biểu diễn phân bố từ vào các hệ thống MaltPaser,MSTParser và Bist-Parser cho phân tích cú pháp phụ thuộc tiếng Việt
tuyến tính để gán nhãn vai nghĩa cho tiếng Việt Đánh giá và phân tích kết quảgán nhãn vai nghĩa tiếng Việt
trong tương lai
6
Trang 21Chương 1
Cơ sở lý thuyết
Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trongluận án Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt[1,2,10] như từ, từ loại, cụm từ, Tiếp theo, mục 2, 3, 4 trình bày bài toánphân tích cú pháp thành phần, bài toán phân tích cú pháp phụ thuộc và bàitoán gán nhãn vai nghĩa Mục 5 trình bày các mô hình biểu diễn phân bố từ:skip-gram, túi từ liên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu
1.1 Khái niệm cơ bản trong tiếng Việt
1.1.1 Từ
nghĩa và có thể hoạt động tự do trong câu Đơn vị cơ sở cấu tạo của từ tiếngViệt là tiếng Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt và có thể
tự mình không có nghĩa [1]
Từ có nhiều cách phân loại khác nhau Xét về số lượng tiếng có:
cửa, xanh lè, sạch sẽ
Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất
có nghĩa, ta có:
Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách
ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ Kết hợp cả ba mặttrên, có phân loại từ theo lược đồ trong hình 1.1:
1.1.2 Từ loại
Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau
về đặc trưng từ loại Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự
Trang 22Từ đơn Từ phức (1 tiếng) (nhiều tiếng)
Từ láy Từ ngẫu kết Từ ghép
Từ đơn tố Từ đa tố
Hình 1.1: Phân loại từ trong tiếng Việt.
nhất trí hoàn toàn Các tiêu chuẩn đặc trưng để phân loại thường dùng bao gồm:
• Ý nghĩa khái quát Ý nghĩa từ loại là ý nghĩa khái quát của từng lớp từ,trên cơ sở khái quát hóa từ vựng thành khái quát hóa phạm trù ngữ pháp chung.Các từ loại đều phù hợp với định nghĩa của các phạm trù phân loại Đó là nhữngnhóm từ rất lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vậtthể, phẩm chất, hành động hoặc trạng thái
nghĩa: ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượtthay thế nhau, trong khi đó, ở các vị trí khác trong sự kết hợp, các từ còn lại tạo
ra bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên Khả năngkết hợp của từ trong các ngôn ngữ thuộc loại hình đơn lập, là sự phân bố trật tự
và việc sử dụng các từ phụ để biểu hiện các ý nghĩa ngữ pháp bên ngoài từ
• Chức năng cú pháp Tham gia vào cấu tạo câu, các từ có thể đứng ở một
vị trí hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở các vị trí đó,
và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành phần kháctrong cấu tạo câu, có thể phân vào một từ loại Tuy nhiên phải xem xét chức năng
cú pháp nào của từ là chủ yếu để làm căn cứ
8
Trang 23phân loại, vì một từ có thể giữ nhiều chức năng cú pháp khác nhau trong câu.
Dựa vào khái niệm từ loại, các nhà nghiên cứu tiếng Việt đã đưa ra tậpnhãn từ loại được sử dụng trong kho ngữ liệu cú pháp thành phần viettreebank[72] như sau: về nguyên tắc, các thông tin về từ có thể được chứa trong nhãn
từ loại bao gồm: từ loại cơ sở (danh từ, động từ, v.v ), thông tin hình thái (số
ít, số nhiều, thì, ngôi, v.v ), thông tin về phân loại con (ví dụ động từ đi vớidanh từ, động từ đi với mệnh đề, v.v ), thông tin ngữ nghĩa, hay một số thôngtin cú pháp khác Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thôngtin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loạicon, v.v Tiếng Việt có hệ thống từ loại theo bảng 1.1.2
Bảng 1.1: Tập nhãn từ loại tiếng Việt.
Trang 24Việt, có thể gặp những loại cụm từ sau đây:
Mỗi loại cụm từ được chia thành ba bộ phận rõ rệt:
nó gắn bó mật thiết với chức vụ cú pháp của thành tố chính Thành tố chínhtrong cụm từ còn chi phối tất cả các thành tố trực tiếp phụ thuộc vào mình,
nó quyết định chức vụ cú pháp của tất cả các thành tố phụ có liên quan Nộidung ý nghĩa của thành tố chính quyết định khả năng gia nhập các kiến trúclớn hơn của toàn bộ cụm từ Tuy nhiên, phải nhờ có thành tố phụ thì mới cóthể xác định được bản chất từ loại, tiểu loại và thậm chí là ý nghĩa của từlàm thành tố chính Cách sử dụng của cụm từ hay các thành tố trong cụm
từ bao giờ cũng gắn với những tình huống cụ thể
Ví dụ 1.1.2 Trong cụm danh từ “Tất cả những con mèo đen ấy” thì có “Tất
cả những con” là phần phụ trước, “mèo” là phần trung tâm và “đen ấy” làphần phụ sau
Tóm lại, cụm từ là một thành phần quan trọng trong câu Phân tích cụm từ làbước quá độ trong quá trình phân tích cú pháp của một câu Hiểu được cấutạo của cụm từ một cách rõ ràng thì bước phân tích cú pháp phụ thuộc sẽ
10
Trang 25chính xác hơn Trong kho ngữ liệu viettreebank [72], đã sử dụng tập nhãncụm từ tiếng Việt chứa các nhãn mô tả các thành phần cú pháp cơ bản làcụm từ và mệnh đề Nhãn thành phần cú pháp là thông tin cơ bản nhất trêncây cú pháp, nó tạo thành xương sống của cây cú pháp Tập nhãn cụm từcủa tiếng Việt theo bảng 1.2.
1.1.4 Câu
Theo học phái ngữ pháp Alexandria [1]: Câu là sự tổng hợp của các từbiểu thị một tư tưởng trọn vẹn Tuy nhiên về mặt nghiên cứu khoa học, địnhnghĩa về câu phải xét trên nhiều yếu tố sau:
tính chất tự lập và có một ngữ điệu kết thúc
có thể đi kèm thái độ của người nói hay nội dung là thái độ, tình cảm của ngườinói
đạt tư tưởng, tình cảm Nó là đơn vị thông báo nhỏ nhất
11
Trang 26Dựa vào các yếu tố trên có thể định nghĩa về câu như sau:Câu là đơn vịnghiên cứu ngôn ngữ có cấu tạo ngữ pháp (bên trong và bên ngoài) tự lập
và có ngữ điệu kết thúc, mang một ý nghĩ tương đối trọng vẹn hay thái độ,
sự đánh giá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá củangười nói, giúp hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm Câuđồng thời là đơn vị thông báo nhỏ nhất của ngôn ngữ
Hiểu rõ hơn về câu, Diệp Quang Ban và Hoàng Văn Thung [1] xét đếnchức năng cú pháp của các từ và tổ hợp từ trong câu Mỗi từ, mỗi cụm từ,hay tổ hợp từ đều giữ một chức năng cú pháp nhất định, trừ những kết từ
có tác dụng đánh dấu chức năng cú pháp của từ hay tổ hợp từ đi với chúng
và những liên từ nối hai từ hoặc tổ hợp từ trong cùng một chức năng cúpháp Có thể lược đồ hóa tổ chức của câu như trong bảng 1.3:
Bảng 1.3: Tổ chức câu trong tiếng Việt.
Trạng ngữ
• Câu đơn: Là câu chỉ có một vế Cần phân biệt câu đơn với câu ghép và câu
mở rộng thành phần Câu đơn thường có một chủ ngữ, một vị ngữ và có thể có mộthoặc nhiều trạng ngữ nhưng có một số trường hợp câu đơn không xác định được chủngữ, vị ngữ Đó là trường hợp câu đặc biệt Ví dụ:
– Câu đơn bình thường: Trời mưa
– Câu đơn thuộc trường hợp đặc biệt: Vâng ạ!
• Câu ghép: Câu ghép là câu do nhiều vế câu ghép lại, mỗi vế câu thường
có cấu tạo giống câu đơn có cụm chủ-vị và thể hiện một ý có quan hệ chặt chẽ với ýcủa những câu khác Các câu ghép bắt buộc phải có hai cụm chủ-vị trở lên Hai vếcủa câu ghép được nói bằng nhiều cách Nhưng cách cơ bản nhất là nối trực tiếp,nối bằng quan hệ từ và cặp từ hô ứng
– Câu ghép đẳng lập: Là câu ghép được nối với nhau bằng cách sử dụng cách nối trực tiếp
Ví dụ: Lan học khoa ngữ văn, Tình học khoa công nghệ thông tin.– Câu ghép chính – phụ: Là câu ghép được nối với nhau bằng cách
sử dụng quan hệ từ hoặc cặp từ hô ứng
Ví dụ: Nếu em học giỏi thì ba mẹ em sẽ rất mừng
12
Trang 27• Câu chủ động: Là câu có chủ ngữ chỉ người, vật thực hiện một hoạt động hướng vào người, vật khác.
Ví dụ: Mẹ đang khen Lan nấu ăn ngon
người, vật khác hướng vào
Ví dụ: Lan được mẹ khen nấu ăn ngon
Theo nghiên cứu tác giả Nguyễn Văn Hiệp [4] về cú pháp tiếng Việt vàtác giả Nguyễn Phương Thái cùng cộng sự trong dự án VLSP năm 2008đưa ra tập quy tắc cú pháp tiếng Việt cho thành phần câu bao gồm: chủngữ, vị ngữ, bổ ngữ và một số loại ngữ khác trong câu Phạm trù ngữ phápthành phần câu trong hệ thống phân loại lấy cấu trúc chủ - vị làm cơ sởphân biệt các thành phần câu: thành phần chính và thành phần phụ Thànhphần chính gồm chủ ngữ và vị ngữ Thành phần phụ được chia thành: cácthành phần phụ chứa trong thành phần của nòng cốt: định ngữ, bổ ngữ, ;các thành phần phụ ngoài nòng cốt: trạng ngữ, đề ngữ, phụ ngữ câu ; cácthành phần phụ biệt lập với nòng cốt câu: hô ngữ, liên ngữ, chủ ngữ, Một số quy tắc cú pháp của các thành phần câu:
• Chủ ngữ: chủ ngữ trong phần lớn các trường hợp mang ý nghĩa chỉ người
và sự vật nhưng nó có thể có các ý nghĩa khác Chủ ngữ có thể là danh từ, danhngữ, đại từ, tính từ, tính ngữ, số từ, động từ, động ngữ
• Vị ngữ: vị ngữ là một thành phần chính của câu và có tác động đến toàn
bộ câu Vị ngữ là trung tâm tổ chức câu và do vậy vị ngữ có nhiều vấn đề phức tạphơn chủ ngữ Vị ngữ trong tiếng Việt có thể do nhiều loại từ và ngữ đảm nhận Đó
là động từ, tính từ hoặc nhóm động từ, nhóm tính từ và một số từ loại khác như đại
từ, số từ, danh từ, động từ đặc biệt “là”,
bổ nghĩa cho động từ tính từ đó, tạo nên cụm từ làm thành phần câu gọi là bổngữ Một số bổ ngữ thường gặp như:
– Bổ ngữ hình thái do các tiểu loại phụ từ tạo thành thường đứng trướcđộng từ hay tính từ, biểu thị các tình thái khẳng định, thời gian, thểthức diễn biến của hành động và của trạng thái, tính chất, quan hệ,
được nêu ở động từ hay tính từ trung tâm đó
– Bổ ngữ đối tượng biểu thị các sự vật có quan hệ với động từ hay tính từ trung tâm Bổ ngữ đối tượng thường do danh từ, danh ngữ, đại từ tạo thành Bổ ngữ đối tượng có thể kết nối với động từ hoặc tính từ theo cách trực tiếp hoặc gián tiếp, bổ ngữ miêu tả
Trang 28• Một số loại ngữ khác:
– Trạng ngữ: là thành phần của câu được xét trong chỉnh thể của câu nói chung Trạng ngữ là thành phần phụ biểu thị hoàn cảnh được nêu
ở nòng cốt câu Trạng ngữ do từ, cụm từ hay kết cấu chủ vị tạo thành
Có các loại trạng ngữ sau: trạng ngữ thời gian, trang ngữ nơi chốn, trạng ngữ nguyên nhân, trạng ngữ mục đích và trạng ngữ cách thức
– Định ngữ: là thành phần phụ trong câu Định ngữ được nhận diện thông qua từ mà nó hạn định Quan hệ giữa định ngữ và đối tượng được định ngữ là quan hệ hạn định Trong câu, danh từ thường có các định ngữ sau: định ngữ chỉ lượng, định ngữ chỉ loại, định ngữ miêu tả, định ngữ chỉ xuất
Dựa trên khái niệm câu, tập nhãn mệnh đề của tiếng Việt mô tả trong bảng 1.4
cú bản vị và (3) giai đoạn ngữ pháp chức năng và ngữ pháp ngữ nghĩa.Tiếng Việt thuộc ngôn ngữ đơn lập, một tiếng (âm tiết) được phát âm táchrời được thể hiện bằng một chữ viết, có một số đặc trưng nổi bật sau:
dụng ký tự khoảng trống “ “ để phân định âm tiết Tiếng có thể là từ hoặc yếu tốcấu tạo từ
2 Từ không biến đổi hình thái khi được sử dụng trong câu Do đó, việc xác định
từ loại mỗi từ phải dựa trên ngữ cảnh của câu Khi từ kết hợp từ thành
14
Trang 29các kết cấu như ngữ, câu thì tiếng Việt rất coi trọng phương thức trật tự
từ và hư từ
là danh từ, tính từ hoặc giới từ
Cú pháp là chủ đề nghiên cứu của hai cộng đồng gồm những người làm ngônngữ và những người làm tin học Cú pháp vừa là đối tượng nghiên cứu, vừa làmột trong các cấp độ cần mô tả đối với cộng đồng những người làm ngôn ngữ.Đối với cộng đồng những người làm tin học, cần làm cho máy tính phân tích được
cú pháp với hai mục tiêu là xây dựng các ứng dụng, giải quyết một số bài toánthực tế, đối tượng nghiên cứu của họ là các hệ hình thức và các thuật toán
Cú pháp là quy tắc dùng các tiếng để đặt câu văn cho chính xác Để sửdụng ngôn ngữ linh hoạt, ta phải hiểu rõ về cú pháp Muốn hiểu rõ về cúpháp, ta phải hiểu thế nào là câu, các loại câu, mệnh đề, các loại mệnh đề,cùng cấu trúc của chúng
Tác giả Nguyễn Văn Hiệp [4] đã chỉ ra nghiên cứu cú pháp đòi hỏi phảinắm được quan hệ ngữ pháp Có 3 loại quan hệ ngữ pháp đã được thừanhận gồm: quan hệ đẳng lập, quan hệ chính phụ và quan hệ chủ-vị (C-V)
mặt ngữ pháp và thể hiện ở chỗ các thành tố có vai trò như nhau trong việcquyết định đặc điểm ngữ pháp của cả tổ hợp Quan hệ đẳng lập có thể chia làm
4 loại:
(a) Quan hệ liệt kê: thường được nối kết với các liên từ như và, cùng, lẫn,
Ví dụ như: cô ấy với tôi, sống và làm việc
(b) Quan hệ lựa chọn thường được nối kết bởi các liên từ như hay, hoặc,
Ví dụ: sống hay chết, cô ấy hoặc tôi
cùng sở chỉ Vì vậy về nguyên tắc có thể sử dụng từ là để xác lập một quan hệđồng nhất giữa hai yếu tố có quan hệ giải thích Ví dụ: Bác tôi là cụ Nguyễn ĐạoQuán
(d) Quan hệ qua lại: thường được nối kết bởi các cặp liên từ hay phó từ
như tuy nhưng, vì nên, đã lại, càng càng Ví dụ: Tuy ông không giàu nhưng vẫn đủ tiền mua xe hơi
2 Quan hệ chính phụ: là quan hệ giữa những yếu tố không bình đẳng với nhau
về mặt ngữ pháp, theo đó một thành tố đóng vai trò chính còn gọi là thành tố trung tâm
và các thành tố khác đóng vai trò phụ Thành tố chính quy
Trang 30định đặc điểm ngữ pháp của toàn bộ ngữ đoạn, chẳng hạn nếu thành
tố chính là danh từ thì toàn bộ ngữ đoạn mang tính chất của danh từ.Trong tiếng Việt, để nhận biết thành tố chính thì dựa vào hai trườnghợp xẩy ra sau:
thống, đối với tổ hợp “hư từ + thực từ”, thực từ luôn được coi là thành tố chính
Ví dụ: đã đi, rất giỏi, giỏi hơn
và ngữ điệu Khi nhấn mạnh nhằm mục đích biểu cảm, hoặc khi muốntạo câu có thông báo “gộp”, người ta cũng có thể thay đổi vị trí, đưathành tố vị lên đứng trước ví dụ như Rơi cái ví tiền kìa
Trong kho ngữ liệu viettreebank [72] đưa ra tập nhãn chức năng ngữpháp Nhãn chức năng của một thành phần cú pháp cho biết vai trò của nótrong thành phần cú pháp mức cao hơn Nhãn chức năng cú pháp đượcgán cho các thành phần chính trong câu như chủ ngữ, vị ngữ, tân ngữ Nhờthông tin do nhãn chức năng cung cấp ta có thể xác định các loại quan hệngữ pháp cơ bản sau đây:
Trang 31Bảng 1.5: Tập nhãn chức năng cú pháp tiếng Việt.
Với một câu có thể có hai cách phân tích cú pháp: phân tích cú pháp thànhphần và phân tích cú pháp phụ thuộc
1.1.6 Vai nghĩa
Khái niệm vai nghĩa được các nhà ngôn ngữ dùng với nhiều thuật ngữkhác như: các trường hợp, quan hệ ngữ nghĩa, vai nghĩa hoặc vai tham tố
Có rất nhiều định nghĩa khác nhau về khái niệm vai nghĩa
Fillmore [33] đã đưa ra một số vai nghĩa mà ông cho là có tính phổ quát, cóthể tìm thấy trong mọi ngôn ngữ, phản ánh một phương diện chung trong cáchthức chúng ta tri nhận về thế giới: “Ý niệm về cách bao gồm một tập hợp kháiniệm phổ quát, được giả định là bẩm sinh, xác định những kiểu tri nhận nào đócủa con người về những sự tình đang diễn ra quanh họ, tri nhận những vấn đềnhư ai thực hiện nó, nó xảy ra đối với ai, và cái gì thay đổi” [5]
Tác giả Nguyễn Văn Hiệp [5] đã mô tả về vai nghĩa tiếng Việt khá đầy đủ trongcuốn sách “Cơ sở ngữ nghĩa phân tích cú pháp” Tác giả cũng chỉ ra danh sáchcác vai nghĩa có nhiều tác giả đề xuất và khác nhau Tên gọi của các vai có thểkhác nhau Có tình trạng một số tác giả dùng chung tên gọi vai nghĩa nhưng quanniệm khác nhau và cũng có tên gọi vai nghĩa khác nhau nhưng quan niệm lạigiống nhau Tuy nhiên, tác giả cũng đưa ra nguyên tắc trong việc phân định vàtrừu xuất vai nghĩa:“Vai nghĩa mà một thực thể đảm nhiệm trong sự
17
Trang 32tình luôn luôn phụ thuộc vào bản chất của sự tình đó, và thực là vô nghĩanếu ta tách biệt các vai nghĩa khỏi sự tình mà trong đó chúng xuất hiện” Từ
đó, tác giả Nguyễn Văn Hiệp cũng đã liệt kê ra danh sách các vai nghĩa phổbiến và được đa số các nhà nghiên cứu thống nhất sử dụng gồm:
• Vai kẻ hưởng lợi (Benefactive, viết tắt là Ben): biểu thị kẻ được hưởng thành
quả từ một hành động do một ai đó thực hiện Ví dụ: “Nó chữa cái xe cho chị ấyBen ”
đến một thay đổi nào đó Sự thay đổi này có thể là sự thay đổi về vật lí, tâm lí
• Vai công cụ (Instrument, viết tắt là Instr): chỉ công cụ được dùng để thực
• Vai thực hiện hành động (Effector): chỉ vật trực tiếp tác động đến đối tượngnào đó, vai này gần gũi với vai công cụ (trong tiếng Anh, cả hai đều có thể đánh dấubởi giới từ with) Ví dụ: “Larry broke the window a rockEf f ector
.” (Larry đập vỡ kính cửa sổ bằng một hòn đá.) (ví dụ dẫn theo Van Valin 1993, 44)
• Vai địa điểm, vị trí (Location hay Locative, viết tắt là Lo): chỉ nơi chốn của
điểm xuất phát của chuyển động, hay nguồn của trạng thái Ví dụ: “Nó từ
• Vai điểm đến (Goal, viết tắt là Go): chỉ đích đến của một chuyển động Ví
18
Trang 33• Vai kẻ tham chiếu (Reference, viết tắt là Ref): chỉ người hay vật được
dùng để tham chiếu trong một trạng thái, quan hệ, Ví dụ: “Nhà xa
hướng của chuyển động Ví dụ: “Bộ đội tiến quân dọc theo bờ sôngDir/P ath.”
• Vai chủ sở hữu (Possessor, viết tắt là Poss): chỉ chủ sở hữu của sự vật Ví
• Vai thể chuyển động (Theme): chỉ một thực thể tồn tại ở một vị trí nào đó,hoặc thực thể chuyển động, chịu một sự thay đổi về một vị trí do một tác
nhân nào đó Vai này cũng dùng để chỉ thực thể được sở hữu hay chịu
• Một số vai khác có tính chất ngoại vi cũng được tác giả thừa nhận, như vainguyên nhân (Reason), vai mục đích (Purpose), vai cách thức (Manner)
Ngoài ra, theo khảo sát của tác giả Phan Thị Huê [6] thì danh sách vainghĩa dành cho tiếng việt cần bổ sung thêm một số vai nghĩa được CaoXuân Hạo [3] đưa ra hết sức hợp lý như:
đánh Bắc
hành động đó không làm thay đổi trạng thái, vị trí hay làm cho đối tượng bị huỷ
• Vai quá thể (Processor): người hay vật hoạt động hoặc trải qua quá trình
Trang 34• Vai tạo thể (Factitive, viết tắt là F): là sản phẩm của hành động tạo tác.
• Vai đối thể (Object, viết tắt là O): vật chịu sự tác động của hành động hay
1.2 Cú pháp thành phần
Định nghĩa 1 Cú pháp thành phần là cấu trúc câu theo thứ bậc các thành
phần của câu, sử dụng cấu trúc cụm từ
Ví dụ 1.2.1 Câu cú pháp thành phần (S (NP-SUB (P-H Tôi)) (VP (V-H
mong_mỏi)) (SBAR (S (NP-SUB (Nc-H sự) (A công_bằng)) (VP (VP (V-H
được)) (VP (VP (V-H thực_hiện)) (CC và) (VP (V-H trả) (R lại) (PP-DOB
(E-H cho) (NP (P-(E-H họ)))))))) ( .)) có cây cú pháp thành phần được biểu diễn
Trang 35Trong ví dụ 1.2.1 có thể hiểu một số cụm từ như sau: “Tôi” là cụm danh
từ chủ ngữ (NP-SUB), “mong_mỏi” là cụm động từ (VP), “sự công_bằngđược thực_hiện và trả lại cho họ” mệnh đề phụ (SBAR)
20
Trang 361.2.1 Bài toán phân tích cú pháp thành phần
Quá trình phân tích cú pháp câu có thể chia làm hai mức chính [31]:
do bước trước cung cấp
Do tiếng Việt là ngôn ngữ đơn âm tiết nên thường gặp phải vấn đề nhậpnhằng ở cả hai mức Trong phần này, tác giả tập trung vào vấn đề phân tích
cú pháp thành phần cho câu
Hình 1.3: Quá trình phân tích cú pháp thành phần
Mô hình phân tích tổng quát phân tích câu (x) đã được tách từ và gánnhãn từ loại thành cấu trúc cấu (y) theo thứ bậc các thành phần của câu sửdụng cấu trúc cụm từ Mục tiêu của bài toán là tìm ra cú pháp thành phầncủa câu đầu vào x chính xác nhất Tổng quát:
– Câu x = w1, w2, , wn đã được tiền xử lý, tách từ và gán nhãn từ loại.Trong đó mỗi wi chứa thông tin từ và từ loại tương ứng của từ thứ i
trong câu x x có thể coi là 1 ma trận trong các mô hình học máy:
21
Trang 37– Kho ngữ liệu gồm các câu đã được chú giải cú pháp thành phần Kho ngữ liệu được sử dụng trong quá trình huấn luyện ở các thuật toán.
Choe cùng cộng sự [20] đã định nghĩa hình thức cây cú pháp, với γ(x) làtập cấu trúc có thể có của x:
argmaxy 0 ∈γ(x) P (x, y0)Giả sử xem cây của (x, y) là một dãy tuần tự (z) biểu diễn các suy diễn đểsinh ra cây cấu trúc cú pháp thành phần như ví dụ 1.2.1, có thể định nghĩaphân phối xác suất trên (x, y) như sau:
“từ trên xuống” hoặc “dưới lên” Kỹ thuật phân tích cú pháp thống kê đượcgọi là “hướng dữ liệu” Kỹ thuật phân tích cú pháp dựa trên luật được gọi làcách tiếp cận “hướng ngữ pháp” [61]
1 Phân tích cú pháp thành phần dựa trên luật: trong phương pháp dựa trênluật, tập luật riêng biệt của từng ngôn ngữ được hình thành để nhận dạng ra cây cúpháp tốt nhất cho một ngữ pháp cụ thể Nhưng trong phương pháp này, tập luật sinh rađược áp dụng đệ quy dẫn đến chồng chéo Vấn đề được giải quyết hiệu quả bằng cách
sử dụng kỹ thuật quy hoạch động Bộ nhớ đệm cho cây cú pháp trong trình phân tích
cú pháp thành phần dựa trên quy hoạch động được gọi là “biểu đồ” và do đó trình phântích dựa trên quy hoạch động gọi là “trình phân tích cú pháp biểu đồ” Trình phân tích
cú pháp dựa trên luật sử dụng thuật toán CYK và thuật toán Early
2 Phân tích cú pháp thành phần dựa trên thống kê: thuật toán phân tích cúpháp dựa trên thống kê thu thập dữ liệu thống kê từ câu được phân tích cú pháp đúng
và phân giải nhập nhằng dựa trên dữ liệu thực nghiệm Ưu điểm
22
Trang 38của phương pháp này là bao phủ toàn bộ ngữ pháp sử dụng của ngônngữ Hiệu suất của các trình phân tích cú pháp dựa trên thống kê phụthuộc vào kho ngữ liệu huấn luyện được sử dụng để thu thập thông tinthống kê về ngữ pháp của ngôn ngữ Thay vì sử dụng luật, trình phân tích
cú pháp dựa trên thống kê chọn cây cú pháp tốt nhất từ các ứng viên dựatrên thông tin thống kê Nhược điểm của phương pháp này là đôi khi thứ
tự cú pháp không hợp lệ Trình phân tích cú pháp dựa trên xác suất ví dụnhư ngữ pháp phi ngữ cảnh và ngữ pháp phi ngữ cảnh dựa trên xác suất
3 Phương pháp tiếp cận tổng quát: nền tảng của phương pháp phân tích cúpháp dựa trên luật tương tự như dựa vào thống kê Sử dụng ưu điểm này,Melamed [39] đã đề xuất một thuật toán phân tích cú pháp tổng quát dựa trên ýtưởng nửa vành phân tích cú pháp Thuật toán tổng quát này bao gồm 5 thànhphần: ngữ pháp, logic, nửa vành, ngữ pháp xác định ký hiệu kết thúc và ký hiệukhông kết thúc, tập luật sinh Logic xác định cơ chế trình phân tích cú pháp chạybằng cách tạo ra cây phân tích cú pháp cục bộ mới ra sao Nửa vành xác định cáccây cú pháp cục bộ được tính trọng số Chiến lược tìm kiếm xác định thứ tự các câyđược xử lý và điều kiện kết thúc xác định thời điểm dừng logic cần thiết
Mô hình sinh cho phân tích cú pháp
Để tìm ra cây cú pháp hợp lý nhất, trình phân tích cú pháp phải lựa chọn
định sử dụng để xây cây cú pháp Cho câu x có cây cú pháp y được địnhnghĩa bằng chuỗi các bước dẫn xuất Tính xác suất cho mỗi dẫn xuất bằng:
23
Trang 39Mô hình phân biệt trong phân tích cú pháp
Michael Collins [24] cung cấp nền tảng chung gọi là mô hình tuyến tínhtoàn cục để mô tả cách tiếp cận rời rạc khác nhau cho quá trình học phântích cú pháp Cho x là đầu vào, y là đầu ra, Y tập cây cú pháp ứng viên
• Mỗi x ∈ X và y ∈ Y được ánh xạ vào véctơ đặc trưng d chiều Φ(x, y), mỗi
chiều là một số thực, tóm tắt một phần thông tin chứa trong (x, y)
• Véctơ trọng số w ∈ Rd gán trọng số cho mỗi đặc trưng trong Φ(x, y), biểudiễn độ quan trọng của đặc trưng đó Giá trị của Φ(x, y).w là trọng số của
(x, y) Trọng số càng cao thì độ chính xác y là đầu ra của x càng cao
cao nhất là đầu ra chính xác nhất:
có điều kiện định nghĩa xác suất có điều kiện như trọng số tuyến tính chomỗi ứng viên y:
X
y0∈GEN(x)
Mô hình tuyến tính toàn cục đơn giản là:
Nhiều kết quả thử nghiệm trong phân tích cú pháp chỉ ra mô hình tuyến tínhtoàn cục đơn giản bỏ qua bước chuẩn hóa thường cung cấp độ chính xác tương
tự khi so sánh với mô hình huấn luyện chuẩn hóa nhiều chi phí hơn Véctơ trọng
số w có thể được tính dựa trên phương pháp perceptron Perceptron bản chất
Trang 40được giới thiệu như mạng nơrơn một lớp Nó được huấn luyện sử dụng họctrực tuyến, nghĩa là xử lý dữ liệu mẫu một lần trong đó nó điều chỉnh véctơtham số có được áp dụng trên dữ liệu đầu vào để tạo ra đầu ra tương ứng.Sau khi cập nhật, perceptron đảm bảo véctơ trọng số hiện tại có thể phânloại chính xác mẫu huấn luyện hiện tại.
Quá trình huấn luyện: Giả sử có m mẫu dữ liệu huấn luyện Thuật toán họcperceptron được mô tả ở thuật toán 1 Tham số trọng số véctơ w được khởi gán
Algorithm 1 Thuật toán gốc học perceptron
Đầu ra: Véc tơ trọng số w
1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần
Việc đánh giá độ chính xác của hệ thống phân tích cú pháp thành phần
sử dụng 3 chỉ số:
• LR = Recall = Tổng số thành phần trên cây đúng (gold)Số thành phần phân tích đúng
• LP = P recision = Tổng số thành phần trên cây phân tíchSố thành phần phân tích đúng
• Phương pháp shift-reduce được sử dụng để phân tích cú pháp thành phần
được đề xuất bởi tác giả Sagae và Lavie (2005) Tác giả Muhua Zhu cùng
1 Wall Street Journal
25