Đặc biệt, trong nhưng năm gần đây kết quả của phân tích cú pháp và gán nhãn vai nghĩa sử dụng học máy thống kê đạt được kết quả cao trênnhiều ngôn ngữ khác như tiếng Anh, tiếng Trung, v.
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_
Nguyễn Thị Lương
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2020
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_
Nguyễn Thị Lương
NGHIÊN CỨU NÂNG CAO HIỆU QUẢ
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
THEO TIẾP CẬN HỌC MÁY THỐNG KÊ
Chuyên ngành: Cơ sở toán cho tin học
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Lê Hồng Phương PGS.TS Đỗ Trung Tuấn
XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ
CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN
Chủ tịch hội đồng đánh giá
Luận án Tiến sĩ
Người hướng dẫn khoa học
PGS.TS Phan Xuân Hiếu TS Lê Hồng Phương
Trang 3Lời cam đoan
Hà Nội, ngày 10 tháng 3 năm 2020
Nghiên cứu sinh
Nguyễn Thị Lương
Tôi xin cam đoan đây là công trình nghiên cứu khoa học của tôi Các số liệu
sử dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theo đúngquy định Các kết quả này chưa từng được công bố trong bất kỳ nghiên cứu nàokhác
Trang 4Lời cảm ơn
Trong quá trình thực hiện đề tài “Nghiên cứu nâng cao hiệu quả phân tích
cú pháp tiếng Việt theo tiếp cận học máy thống kê”, tôi đã nhận được rất nhiều
sự giúp đỡ, tạo điều kiện của Ban Giám hiệu, thầy cô trong khoa Sau Đại học
và khoa Toán - Cơ - Tin học của trường Đại học Khoa học Tự nhiên, Đại họcQuốc gia Hà Nội Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ đó.Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Hồng Phương, PGS.TS ĐỗTrung Tuấn - những người thầy đã tận tình hướng dẫn trực tiếp cho tôi hoànthành luận án này
Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô trong khoa Công nghệThông tin, trường Đại học Đà Lạt nơi tôi đang công tác và gia đình, bạn bè đãđộng viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thực hiện
và hoàn thành luận án này
Hà Nội, ngày 10 tháng 3 năm 2020
Nghiên cứu sinh
Nguyễn Thị Lương
Trang 5Mục lục
1.1 Khái niệm cơ bản trong tiếng Việt 7
1.1.1 Từ 7
1.1.2 Từ loại 7
1.1.3 Cụm từ 10
1.1.4 Câu 11
1.1.5 Cú pháp 14
1.1.6 Vai nghĩa 17
1.2 Cú pháp thành phần 20
1.2.1 Bài toán phân tích cú pháp thành phần 21
1.2.2 Phương pháp phân tích cú pháp thành phần 22
1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 25 1.3 Cú pháp phụ thuộc 28
1.3.1 Bài toán phân tích cú pháp phụ thuộc 28
1.3.2 Biểu diễn cú pháp phụ thuộc 29
1.3.3 Các thuật toán phân tích cú pháp phụ thuộc 31
1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc 37 1.4 Gán nhãn vai nghĩa 43
1.4.1 Bài toán gán nhãn vai nghĩa 43
1.4.2 Các công trình liên quan 44
1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa 48
1.5 Biểu diễn phân bố từ 49
1.5.1 Mô hình Skip-gram 50
1.5.2 Mô hình túi từ liên tục 51
1.5.3 Mô hình GloVe 52
1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu 52
1.6 Kết luận 54
Trang 62 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa
2.1 Kho ngữ liệu Treebank 56
2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc 57
2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt 59
2.2.2 Xác định cụm từ trung tâm 69
2.2.3 Xác định nhãn phụ thuộc 70
2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc 70
2.2.5 Đánh giá 75
2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt 78
2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt 78
2.3.2 Tập luật gán nhãn nhãn vai nghĩa 81
2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô 82
2.3.4 Đánh giá kết quả 82
2.4 Kết luận 83
3 Nâng cao hiệu quả phân tích cú pháp tiếng Việt 86 3.1 Phân tích cú pháp thành phần 87
3.1.1 Một số văn phạm phổ biến 87
3.1.2 Phương pháp phân tích Shift-Reduce 92
3.1.3 Phương pháp self-attention 99
3.1.4 Đánh giá kết quả 102
3.1.5 Kết luận phân tích cú pháp thành phần 112
3.2 Phân tích cú pháp phụ thuộc tiếng Việt 113
3.2.1 Phân tích cú pháp phụ thuộc dựa trên bước chuyển 113
3.2.2 Phân tích cú pháp dựa trên đồ thị 116
3.2.3 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc 118
3.2.4 Đánh giá kết quả 122
3.2.5 Kết luận phân tích cú pháp phụ thuộc 128
3.3 Kết luận 129
4 Phương pháp quy hoạch tuyến tính nguyên gán nhãn vai nghĩa tiếng Việt 130 4.1 Mô tả thuật toán 130
4.1.1 Khảo sát một số phương pháp 130
4.1.2 Phương pháp đề xuất 132
Trang 74.2 Quy hoạch tuyến tính nguyên 135
4.3 Tập đặc trưng sử dụng 138
4.3.1 Đặc trưng cơ bản 138
4.3.2 Đặc trưng mới 139
4.4 Đánh giá kết quả 139
4.4.1 Phương pháp đánh giá 139
4.4.2 Hệ thống cơ bản 139
4.4.3 Chiến lược gán nhãn 140
4.4.4 Phân tích đặc trưng 141
4.4.5 Cải tiến dựa vào ILP 141
4.4.6 Tốc độ học 144
4.4.7 Sử dụng biểu diễn phân bố từ trong SRL 145
4.5 Kết luận 145
Các công trình công bố của luận án 148
Trang 8Danh sách bảng
1.1 Tập nhãn từ loại tiếng Việt 9
1.2 Tập nhãn cụm từ tiếng Việt 11
1.3 Tổ chức câu trong tiếng Việt 12
1.4 Tập nhãn mệnh đề tiếng Việt 14
1.5 Tập nhãn chức năng cú pháp tiếng Việt 17
1.6 Các đặc trưng dùng trong MSTParser 33
1.7 Các đặc trưng dùng trong MaltParser 36
1.8 Ví dụ về phân tích cú pháp dựa vào các bước chuyển 38
1.9 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Anh và tiếng Trung 40
1.10 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Việt 42
1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes 48
2.1 Thống kê nhãn thành phần trong kho viettreebank 57
2.2 Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt 58
2.3 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD) 68
2.4 Tập quy tắc xác định phần tử trung tâm 69
2.5 Một số luật sử dụng để xác định nhãn phụ thuộc 70
2.6 Câu tiếng Việt theo định dạng CoNLL-X chưa được phân tích 76
2.7 Câu tiếng Việt theo định dạng CoNLL-X đã được phân tích phụ thuộc 76
2.8 Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] 77
2.9 Tập nhãn phụ thuộc của Nguyễn Kiêm Hiếu[28] 77
2.10 Tập nhãn phụ trợ tiếng Việt 79
2.11 Một số luật xác định gán nhãn vai nghĩa thô 81
2.12 Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô 82
2.13 Một số nhãn vai nghĩa phổ biến 83
2.14 Một số câu tiếng Việt gán nhãn vai nghĩa 85
3.1 Tập luật sinh ra dữ liệu huấn luyện trong Shift-Reduce 94
3.2 Luật suy diễn trong phân tích cú pháp Shift-reduce mở rộng 95
Trang 93.3 Tập mẫu đặc trưng mở rộng 95
3.4 Dãy bước chuyển phân tích câu “Mảnh đất của đạn bom không còn người nghèo.” 97
3.5 Tập đặc trưng cơ bản 98
3.6 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt 98
3.7 Kết quả với tập dữ liệu có số từ ≤ 10 103
3.8 Kết quả với tập dữ liệu có số từ ≤ 35 103
3.9 Một số kết quả phân tích theo mô hình tích hợp đặc trưng phân bố từ 104
3.10 So sánh F1 sử dụng đặc trưng CharLSTM và EMLo 105
3.11 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng CharL-STM 105
3.12 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng ELMo 106 3.13 Lỗi phân cụm trong phân tích cú pháp thành phần tiếng Việt 106 3.14 Kết quả của MaltParser 116
3.15 Kết quả của MSTParser 118
3.16 Đặc trưng MaltParser cho tiếng Việt 124
3.17 Đặc trưng MSTParser cho tiếng Việt 124
3.18 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa trên các bước chuyển 125
3.19 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MaltParser126 3.20 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MSTParser126 3.21 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên Bist-Parser127 3.22 Kết quả phân tích cú pháp phụ thuộc với VTB trên Bist-Parser 127 3.23 Kết quả so sánh các phương pháp phân tích cú pháp phụ thuộc trên VTB_UD 128
3.24 Độ chính xác ASL của một số nhãn phụ thuộc trên VTB_UD 128 4.1 Độ chính xác của 3 thuật toán rút trích 139
4.2 Độ chính xác của hệ thống cơ bản 140
4.3 Độ chính xác của 2 chiến lược gán nhãn 140
4.4 Tập đặc trưng 141
4.5 Độ chính xác của tập đặc trưng trong bảng 4.4 141
4.6 Tập đặc trưng 142
4.7 Độ chính xác của tập đặc trưng trong bảng 4.6 142
4.8 Ảnh hưởng của ILP 142
4.9 Độ chính xác của mỗi loại đối số 143
Trang 104.10 Độ chính xác của 2 thuật toán rút trích 144
4.11 Độ chính xác của hệ thống 144
4.12 Ảnh hưởng véctơ từ của vị tự 145
4.13 Ảnh hưởng véctơ từ của từ chính 145
Trang 11Danh sách hình vẽ
1 Các bước cơ bản trong xử lý ngôn ngữ tự nhiên 1
2 Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa 2
3 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng 3
1.1 Phân loại từ trong tiếng Việt 8
1.2 Cây cú pháp thành phần trong tiếng Việt 20
1.3 Quá trình phân tích cú pháp thành phần 21
1.4 Cấu trúc phụ thuộc 28
1.5 Đồ thị phụ thuộc của một câu tiếng Việt 30
1.6 Ví dụ về phân tích cú pháp dựa trên đồ thị 34
1.7 Câu tiếng Anh được gán nhãn vai nghĩa 44
1.8 Khung vị từ Communication trong FrameNet 45
1.9 Khung vị từ Cognition trong FrameNet 45
1.10 Mô hình CBOW 51
2.1 Cây cú pháp thành phần “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.” 71
2.2 Cú pháp phụ thuộc câu “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.” 71
2.3 Câu tiếng Việt được gán nhãn vai nghĩa 80
3.1 Toán tử thay thế 90
3.2 Toán tử nối 90
3.3 Quá trình phân tích cú pháp thành phần 93
3.4 Cây cú pháp thành phần “Mảnh đất của đạn bom không còn người nghèo.” 96
3.5 Mô hình phân tích cú pháp thành phần sử dụng phương pháp self-attention[53] 99
3.6 Bước mã hóa tổng quát[53] 100
3.7 Bước mã hóa tổng quát[53] 101
3.8 Minh họa gán nhãn thành phần lỗi giữa cụm động từ với mệnh đề trong tiếng Việt 107
3.9 Minh họa gán nhãn thành phần lỗi giữa cụm danh từ trong tiếng Việt 108
Trang 123.10 Minh họa gán nhãn thành phần lỗi cụm giới từ trong tiếng Việt 1093.11 Minh họa gán nhãn thành phần lỗi cụm liên từ trong tiếng Việt 1103.12 Minh họa lỗi gán nhãn thành phần giữa thành phần con và cấutrúc ngang cấp trong tiếng Việt 1113.13 Minh họa lỗi gán nhãn thành phần giữa cấu trúc riêng và cấutrúc con do lỗi đính kèm cụm danh từ NP trong tiếng Việt 1123.14 Quá trình lặp lại module trong RNN chuẩn chứa tầng đơn giản 1193.15 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc dựa trênbước chuyển [32] 1214.1 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câuNam đá bóng 1314.2 Một số lỗi 1324.3 Cách tiếp cận C-by-C và W-by-W 1324.4 Trích xuất thành phần của câu “Bà nói nó là con trai tôi mà” với
vị ngữ “là ” 1354.5 Tốc độ học của hệ thống 144
Trang 13Danh mục từ viết tắt
Từ viết tắt Tiếng Anh Ý nghĩa
MST Maximum Spanning Tree Cây bao trùm cực đại
CRF Conditional Random Field Trường ngẫu nhiên có điều
kiệnPCFG Probabilistic context free
grammar
Văn phạm phi ngữ cảnh kếthợp với xác suất
LTAG Lexicalized tree adjoining
grammar
Văn phạm kết nối cây từ vựng
LPCFG Lexicalized probabilistic
con-text free grammar
Văn phạm phi ngữ cảnh xácsuất từ vựng
SRL Semantic Role Labelling Gán nhãn vai nghĩa
ILP Integer Linear Programing Quy hoạch tuyến tính số
Mô hình nhúng của ngôn ngữ
biLM Bidirectional Language Model Mô hình ngôn ngữ hai chiềuGA-RNNG Gated Attention Recurrent
Neural Network Grammar
Văn phạm mạng nơ-rơn hồiquy với cơ chế chú ý cổngGLUE General Language Under-
standing Evaluation
Chỉ số đánh giá mức độ hiểungôn ngữ của hệ thống
Trang 14Mở đầu
Giới thiệu
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệthống máy tính hiểu ngôn ngữ của con người và là vấn đề được nhiều nhà khoahọc trên thế giới quan tâm Các ứng dụng về lĩnh vực này đa đạng và phongphú như dịch máy, sinh văn bản, chuyển các văn bản thành dữ liệu có cấu trúc,phân loại văn bản, rút trích thông tin, v.v Quá trình xử lý ngôn ngữ tự nhiêngồm một số vấn đề chính sau: phân tích hình thái từ, phân tích từ loại, phântích cú pháp và phân tích ngữ nghĩa như hình 1
Phân tích cú pháp là vấn đề quan trọng và cơ bản trong xử lý ngôn ngữ tựnhiên Mục đích của phân tích cú pháp là nhận biết được cấu trúc cú pháp củacâu để hiểu được ý nghĩa của văn bản Nó cung cấp một nền tảng vững chắc cholĩnh vực xử lý văn bản thông minh Có nhiều văn phạm có thể sử dụng trongphân tích cú pháp như phân tích cú pháp sử dụng văn phạm phi ngữ cảnh, vănphạm phi ngữ cảnh kết hợp xác suất từ vựng hóa, văn phạm cấu trúc hướngtrung tâm, văn phạm kết nối cây, v.v Trong đó phân tích cú pháp thànhphần sử dụng văn phạm phi ngữ cảnh và phân tích cú pháp phụ thuộc đangđược nhiều nhóm quan tâm nghiên cứu
Việc phân tích cú pháp câu có thể chia làm hai mức chính [31]:
• Mức thứ nhất là tách từ và xác định thông tin từ loại;
• Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại dobước trước cung cấp
Do tiếng Việt là ngôn ngữ đơn âm tiết nên chúng ta thường gặp phải vấn đềnhập nhằng ở cả hai mức Tiếp theo sau của bước phân tích cú pháp là bướcphân tích ngữ nghĩa trong tiếng Việt Gán nhãn vai nghĩa là một nhánh trongphân tích ngữ nghĩa của câu Kết quả của phân tích cú pháp và gán nhãn vainghĩa tốt có thể được tích hợp vào những ứng dụng trong xử lý ngôn ngữ tựnhiên như: dịch máy, tóm tắt văn bản, hệ thống trả lời tự động, trích rút thôngtin, v.v
Trang 15Đa số các phương pháp để nâng cao hiệu quả phân tích cú pháp và gán nhãnvai nghĩa là sử dụng học máy thống kê Học máy thống kê có mặt trong hàngloạt ứng dụng hiện đại như: công nghệ tìm kiếm thông tin; chương trình lọcthư rác; xe ô tô, máy bay không người lái; xử lý ngôn ngữ, tiếng nói, hình ảnh;các chương trình bảo mật mạng,v.v Mục tiêu chính của học máy thống kê làphối hợp thuật toán máy tính và các mô hình thống kê để tìm ra các cấu trúc
có liên hệ về mặt toán học trong những tập dữ liệu hỗn tạp, đa dạng và nhiềunhiễu như mạng Internet toàn cầu, giao dịch chứng khoán, hình ảnh X-quangchẩn bệnh Đặc biệt, trong nhưng năm gần đây kết quả của phân tích cú pháp
và gán nhãn vai nghĩa sử dụng học máy thống kê đạt được kết quả cao trênnhiều ngôn ngữ khác như tiếng Anh, tiếng Trung, v.v Đối với tiếng Việt, đã
có một số nghiên cứu về phân tích cú pháp thành phần tuy nhiên độ chính xácchưa cao so với ngôn ngữ khác
Do đó, luận án đã tập trung giải quyết bài toán sau:
• Đầu vào: Dữ liệu đã được tách từ và gán nhãn từ loại
• Đầu ra: Dữ liệu được gán nhãn cú pháp thành phần, cú pháp phụ thuộc vàgán nhãn vai nghĩa
• Phương pháp: sử dụng phương pháp học máy để giải quyết bài toán Gồmcác bước chính sau:
1 Xây dựng kho ngữ liệu cú pháp phụ thuộc tiếng Việt
2 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt
3 Tiếp cận các phương pháp học máy để giải quyết bài toán Mô hìnhtổng quát sử dụng học máy thống kê cho bài toán phân tích cú pháp
và gán nhãn vai nghĩa tiếng Việt trong hình 2
Hình 2: Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa.
Trang 16Mô hình sử dụng thuật toán học có giám sát Dữ liệu huấn luyện là kho ngữliệu được gán nhãn cú pháp và gán nhãn vai nghĩa Kết quả của bước huấnluyện sẽ thu được mô hình phân tích cú pháp và gán nhãn vai nghĩa Mô hìnhphân tích chứa tập tham số cũng như một số đặc trưng riêng Sử dụng mô hìnhphân tích để dự đoán gán nhãn cú pháp và vai nghĩa cho dữ liệu mới Để phântích cú pháp và gán nhãn vai nghĩa đạt độ chính xác cao, chúng ta phải quantâm đến hai vấn đề chính sau: việc xây dựng kho ngữ liệu gán nhãn cú pháp vàvai nghĩa; phương pháp phân tích cú pháp và gán nhãn vai nghĩa Kho ngữ liệugán nhãn cú pháp và vai nghĩa chính là dữ liệu huấn luyện và dữ liệu để kiểmtra tính chính xác của công cụ phân tích cú pháp và vai nghĩa Đối với tiếngViệt, kho ngữ liệu hơn 10,000 câu được gán nhãn cú pháp thành phần của dự
án VLSP chính là tập dữ liệu chính thức đầu tiên được xây dựng và hiệu chỉnhtrong những năm gần đây Tuy nhiên, kho ngữ liệu về cú pháp tiếng Việt vẫncòn rất hạn chế kể cả số lượng lẫn chất lượng và chưa có kho ngữ liệu gán nhãnvai nghĩa dẫn đến chưa có nhiều nghiên cứu về vấn đề phân tích cú pháp vàgán nhãn vai nghĩa tiếng Việt nói chung Vì vậy, việc xây dựng kho ngữ liệu gánnhãn cú pháp phụ thuộc và vai nghĩa tiếng Việt là giai đoạn quan trọng Dựatrên thông tin cú pháp thành phần trong viettreebank, tác giả đã rút trích cácthông tin để xây dựng kho dữ liệu gán cú pháp phụ thuộc và kho dữ liệu gánnhãn vai nghĩa Xét ví dụ câu “Nam đá bóng.” được gán nhãn cú pháp thànhphần, cú pháp phụ thuộc và vai nghĩa như trong hình 3: Hình 3.a cho biết thông
Hình 3: Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng
a Cây cú pháp thành phần b Cây cú pháp phụ thuộc c Gán nhãn vai nghĩa
tin cụm chủ ngữ (NP-SUB) là “Nam”, “đá bóng” là cụm động từ VP Từ hình 3.a
có thể xác định được các thông tin cho cú pháp phụ thuộc như (hình 3.b): đá làđộng từ chính trong cụm động từ VP và “bóng” là tân ngữ trực tiếp cho động từchính từ đó xác định được thông tin phụ thuộc giữa (đá, bóng) có nhãn là tânngữ trực tiếp (dobj); đá cũng chính là từ chính trong câu, từ đó xác định được
Trang 17các quan hệ phụ thuộc: nsubj(đá, Nam) nghĩa là Nam chủ ngữ cho động từ đá,punct(đá, ) “.” là dấu câu phụ thuộc vào từ chính Hoặc xác định thông tin chovai nghĩa như (hình 3.c): “Nam” là chủ ngữ của câu có thể xác định nhãn vainghĩa cho “Nam” là vai tác thể (Arg0); đá là động từ chính cũng chính là vị từ(Rel) của câu; bóng là tân ngữ trực tiếp cũng là bị thể cho vị từ đá có nhãn vainghĩa (Arg1) Qua khảo sát tác giả nhận thấy ngoài việc khai thác thông tin cúpháp phụ thuộc từ viettreebank có thể khai thác thêm thông tin gán nhãn vainghĩa Đó cũng là lý do bổ sung thêm nghiên cứu gán nhãn vai nghĩa trong đềtài này.
Tiếp theo, để nâng cao hiệu quả phân tích cú pháp và vai nghĩa luận án đãnghiên cứu một số phương pháp phân tích cú pháp và vai nghĩa trên tiếng Anh
từ đó xác định vấn đề và đưa ra giải pháp cho tiếng Việt
Mục tiêu luận án
Từ những hạn chế trong lĩnh vực phân tích cú pháp và gán nhãn vai nghĩatiếng Việt cả về mặt kho ngữ liệu lẫn phương pháp, luận án tập trung giải quyếtcác vấn đề chính sau:
• Xây dựng bộ nhãn phụ thuộc và bộ nhãn vai nghĩa cho tiếng Việt
• Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai nghĩacho tiếng Việt
• Nghiên cứu phương pháp học máy thống kê nhằm nâng cao hiệu quả phântích cú pháp và gán nhãn vai nghĩa tiếng Việt
Tóm tắt luận án
Luận án trình bày một số vấn đề chính sau: trình bày cơ sở lý thuyết về cúpháp tiếng Việt, gán nhãn vai nghĩa và biểu diễn phân bố từ Xây dựng tậpnhãn phụ thuộc và vai nghĩa cho tiếng Việt Sau đó luận án đề xuất phươngpháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai nghĩacho tiếng Việt Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần tiếng Việttác giả đã thử nghiệm phân tích cú pháp thành phần trên 2 phương pháp chính:dựa trên phương pháp shift-reduce và phương pháp self-attention Tích hợp đặctrưng biểu diễn phân bố từ vào phương pháp phân tích cú pháp phụ thuộc dựatrên đồ thị và dựa trên các bước chuyển Phần cuối cùng, dựa trên kho ngữ liệugán nhãn vai nghĩa tác giả đã xây dựng và trình bày phương pháp gán nhãn vainghĩa trên tiếng Việt
Trang 18Đóng góp của luận án
Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần được xây dựng bởi nhómVSLP, luận án đã có hai đóng góp chính: đóng góp về mặt dữ liệu, đóng góp vềmặt phương pháp trên phân tích cú pháp và gán nhãn vai nghĩa cho tiếng Việt
1 Về dữ liệu: xây dựng tập nhãn cú pháp phụ thuộc và tập nhãn vai nghĩatrên tiếng Việt Luận án đề xuất thuật toán chuyển dữ liệu từ dữ liệu gánnhãn cú pháp thành phần sang dữ liệu gán nhãn cú pháp phụ thuộc và vainghĩa trên tiếng Việt Tác giả đã xây dựng thành công 10,165 câu tiếng Việtđược gán nhãn cú pháp phụ thuộc Thực hiện gán nhãn phụ thuộc đa ngônngữ lại thủ công được 3,000 câu tiếng Việt đưa lên kho ngữ liệu cú phápphụ thuộc đa ngôn ngữ tại địa chỉ http://universaldependencies.org/ Đồngthời, tác giả đã xây dựng được 5,460 câu gán nhãn vai nghĩa cho tiếng Việt
2 Về phương pháp, tác giả áp dụng phương pháp phân tích cú pháp và gánnhãn vai nghĩa:
• Đối với bài toán phân tích cú pháp thành phần: đề xuất tích hợp véctơphân bố từ vào hệ thống phân tích cú pháp thành phần dựa trên bướcchuyển shift-reduce để nâng cao hiệu quả phân tích cú pháp thành phầntrên tiếng Việt Phân tích lỗi dành cho tiếng Việt dựa trên phương phápphân tích cú pháp thành phần self-attention
• Đối với bài toán phân tích cú pháp phụ thuộc: dựa trên kho ngữ liệu đãxây dựng tác giả đề xuất tích hợp véctơ phân bố từ vào hệ thống phântích cú pháp phụ thuộc MaltParser, MSTParser và Bist-parser
• Đối với bài toán gán nhãn vai nghĩa: áp dụng phương pháp quy hoạchtuyến tính nguyên với đề xuất tập ràng buộc dành riêng cho tiếng Việt
và đề xuất thuật toán rút trích thành phần để nâng cao hiệu quả gánnhãn vai nghĩa tiếng Việt
Cấu trúc luận án
Phần tiếp theo của luận án được trình bày lần lượt như sau:
• Chương 1: trình bày các khái niệm cơ bản từ, cụm từ, cú pháp trong tiếngViệt Sau đó luận án trình bày các khái niệm liên quan đến cú pháp thànhphần, cú pháp phụ thuộc và vai nghĩa trong tiếng Việt Tiếp theo là 4phương pháp để biểu diễn phân bố từ: Skip-gram, CBOW, GloVe, ELMo
• Chương 2: luận án mô tả chi tiết về phương pháp xây dựng tập nhãn phụthuộc và vai nghĩa trên tiếng Việt Đề xuất phương pháp chuyển kho ngữ
Trang 19liệu cú pháp thành phần sang kho ngữ liệu gán nhãn phụ thuộc và vai nghĩatiếng Việt.
• Chương 3: trình bày phương pháp nâng cao hiệu quả phân tích cú phápthành phần, cú pháp phụ thuộc trên tiếng Việt Đầu tiên, luận án giớithiệu một số văn phạm phổ biến phân tích cú pháp thành phần Tiếp theo,trình bày chi tiết và đánh giá kết quả thử nghiệm phân tích cú pháp thànhphần tiếng Việt trên 2 phương pháp: shift-reduce và self-attention Cuốicùng, tác giả trình bày và đánh giá thử nghiệm phân tích cú pháp phụthuộc dựa trên bước chuyển và đồ thị cho tiếng Việt Đề xuất tích hợp đặctrưng biểu diễn phân bố từ vào các hệ thống MaltPaser, MSTParser vàBist-Parser cho phân tích cú pháp phụ thuộc tiếng Việt
• Chương 4: tác giả mô tả tập đặc trưng và phương pháp quy hoạch tuyếntính để gán nhãn vai nghĩa cho tiếng Việt Đánh giá và phân tích kết quảgán nhãn vai nghĩa tiếng Việt
• Phần kết luận: tóm tắt một số kết quả đạt được và hướng phát triển trongtương lai
Trang 20Chương 1
Cơ sở lý thuyết
Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trong luận
án Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt [1,2,10] như
từ, từ loại, cụm từ, Tiếp theo, mục 2, 3, 4 trình bày bài toán phân tích cúpháp thành phần, bài toán phân tích cú pháp phụ thuộc và bài toán gán nhãnvai nghĩa Mục 5 trình bày các mô hình biểu diễn phân bố từ: skip-gram, túi từliên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu
1.1 Khái niệm cơ bản trong tiếng Việt
Ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị nhỏ nhất có nghĩa
và có thể hoạt động tự do trong câu Đơn vị cơ sở cấu tạo của từ tiếng Việt
là tiếng Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt và có thể tựmình không có nghĩa [1]
Từ có nhiều cách phân loại khác nhau Xét về số lượng tiếng có:
• Từ chỉ chứa một tiếng: là từ đơn Ví dụ: nhà, đã
• Từ gồm nhiều tiếng, phần lớn là hai tiếng, gọi là từ phức Ví dụ: nhà cửa,xanh lè, sạch sẽ
Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất cónghĩa, ta có:
• Từ chỉ có một từ tố, gọi là từ đơn tố Ví dụ: nhà, đủng đỉnh
• Từ chứa nhiều tố, gọi là từ đa tố Ví dụ: nhà cửa, xe đạp, sạch sẽ Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách
ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ Kết hợp cả ba mặt trên,
có phân loại từ theo lược đồ trong hình 1.1:
Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau
về đặc trưng từ loại Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự
Trang 21Từ phức (nhiều tiếng)
Từ đơn (1 tiếng)
Từ láy Từ ngẫu kết Từ ghép
Hình 1.1: Phân loại từ trong tiếng Việt.
nhất trí hoàn toàn Các tiêu chuẩn đặc trưng để phân loại thường dùng baogồm:
• Ý nghĩa khái quát Ý nghĩa từ loại là ý nghĩa khái quát của từng lớp từ,trên cơ sở khái quát hóa từ vựng thành khái quát hóa phạm trù ngữ phápchung Các từ loại đều phù hợp với định nghĩa của các phạm trù phân loại
Đó là những nhóm từ rất lớn về khối lượng mà mỗi nhóm có một đặc trưngphân loại: tính vật thể, phẩm chất, hành động hoặc trạng thái
• Khả năng kết hợp từ Các từ có khả năng tham gia vào một kết hợp cónghĩa: ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lầnlượt thay thế nhau, trong khi đó, ở các vị trí khác trong sự kết hợp, các từcòn lại tạo ra bối cảnh cho sự xuất hiện khả năng thay thế của những từnói trên Khả năng kết hợp của từ trong các ngôn ngữ thuộc loại hình đơnlập, là sự phân bố trật tự và việc sử dụng các từ phụ để biểu hiện các ýnghĩa ngữ pháp bên ngoài từ
• Chức năng cú pháp Tham gia vào cấu tạo câu, các từ có thể đứng ở một
vị trí hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ởcác vị trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp vớicác thành phần khác trong cấu tạo câu, có thể phân vào một từ loại Tuynhiên phải xem xét chức năng cú pháp nào của từ là chủ yếu để làm căn cứ
Trang 22phân loại, vì một từ có thể giữ nhiều chức năng cú pháp khác nhau trongcâu.
Dựa vào khái niệm từ loại, các nhà nghiên cứu tiếng Việt đã đưa ra tập nhãn
từ loại được sử dụng trong kho ngữ liệu cú pháp thành phần viettreebank [72]như sau: về nguyên tắc, các thông tin về từ có thể được chứa trong nhãn từ loạibao gồm: từ loại cơ sở (danh từ, động từ, v.v ), thông tin hình thái (số ít, sốnhiều, thì, ngôi, v.v ), thông tin về phân loại con (ví dụ động từ đi với danh
từ, động từ đi với mệnh đề, v.v ), thông tin ngữ nghĩa, hay một số thông tin
cú pháp khác Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thông tin
về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con,v.v Tiếng Việt có hệ thống từ loại theo bảng 1.1.2
Bảng 1.1: Tập nhãn từ loại tiếng Việt.
Trang 23• Cụm danh từ: mấy người này, hai người
• Cụm động từ: đã đọc rồi, vừa làm
• Cụm tính từ: vẫn tốt hơn, tốt quá
• Cụm số từ: độ ba mươi, hơn ba mươi một chút
• Cụm đại từ: hai chúng tôi, tất cả chúng tôi đây
Mỗi loại cụm từ được chia thành ba bộ phận rõ rệt:
sử dụng của cụm từ hay các thành tố trong cụm từ bao giờ cũng gắn với nhữngtình huống cụ thể
Ví dụ 1.1.2 Trong cụm danh từ “Tất cả những con mèo đen ấy” thì có “Tất cảnhững con” là phần phụ trước, “mèo” là phần trung tâm và “đen ấy” là phần phụsau
Tóm lại, cụm từ là một thành phần quan trọng trong câu Phân tích cụm
từ là bước quá độ trong quá trình phân tích cú pháp của một câu Hiểu đượccấu tạo của cụm từ một cách rõ ràng thì bước phân tích cú pháp phụ thuộc sẽ
Trang 24chính xác hơn Trong kho ngữ liệu viettreebank [72], đã sử dụng tập nhãn cụm
từ tiếng Việt chứa các nhãn mô tả các thành phần cú pháp cơ bản là cụm từ vàmệnh đề Nhãn thành phần cú pháp là thông tin cơ bản nhất trên cây cú pháp,
nó tạo thành xương sống của cây cú pháp Tập nhãn cụm từ của tiếng Việt theobảng 1.2
8 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì )
9 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao )
10 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn
11 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào )
Theo học phái ngữ pháp Alexandria [1]: Câu là sự tổng hợp của các từ biểuthị một tư tưởng trọn vẹn Tuy nhiên về mặt nghiên cứu khoa học, định nghĩa
về câu phải xét trên nhiều yếu tố sau:
• Yếu tố hình thức Câu có cấu tạo ngữ pháp bên trong và bên ngoài có tínhchất tự lập và có một ngữ điệu kết thúc
• Yếu tố nội dung Câu có nội dung là một tư tưởng tương đối trọn vẹn và
có thể đi kèm thái độ của người nói hay nội dung là thái độ, tình cảm củangười nói
• Yếu tố chức năng Câu có chức năng hình thành và biểu hiện, truyền đạt
tư tưởng, tình cảm Nó là đơn vị thông báo nhỏ nhất
• Lĩnh vực nghiên cứu Câu là đơn vị nghiên cứu của ngôn ngữ
Trang 25Dựa vào các yếu tố trên có thể định nghĩa về câu như sau:Câu là đơn vịnghiên cứu ngôn ngữ có cấu tạo ngữ pháp (bên trong và bên ngoài) tự lập và cóngữ điệu kết thúc, mang một ý nghĩ tương đối trọng vẹn hay thái độ, sự đánhgiá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá của người nói, giúphình thành và biểu hiện, truyền đạt tư tưởng, tình cảm Câu đồng thời là đơn vịthông báo nhỏ nhất của ngôn ngữ.
Hiểu rõ hơn về câu, Diệp Quang Ban và Hoàng Văn Thung [1] xét đến chứcnăng cú pháp của các từ và tổ hợp từ trong câu Mỗi từ, mỗi cụm từ, hay tổhợp từ đều giữ một chức năng cú pháp nhất định, trừ những kết từ có tác dụngđánh dấu chức năng cú pháp của từ hay tổ hợp từ đi với chúng và những liên
từ nối hai từ hoặc tổ hợp từ trong cùng một chức năng cú pháp Có thể lược đồhóa tổ chức của câu như trong bảng 1.3:
Bảng 1.3: Tổ chức câu trong tiếng Việt.
Trạng ngữ Liên từ Đề ngữ Chủ ngữ / Vị ngữ Phụ ngữ câu Giải ngữ
• Câu đơn: Là câu chỉ có một vế Cần phân biệt câu đơn với câu ghép và câu
mở rộng thành phần Câu đơn thường có một chủ ngữ, một vị ngữ và có thể
có một hoặc nhiều trạng ngữ nhưng có một số trường hợp câu đơn khôngxác định được chủ ngữ, vị ngữ Đó là trường hợp câu đặc biệt Ví dụ:– Câu đơn bình thường: Trời mưa
– Câu đơn thuộc trường hợp đặc biệt: Vâng ạ!
• Câu ghép: Câu ghép là câu do nhiều vế câu ghép lại, mỗi vế câu thường cócấu tạo giống câu đơn có cụm chủ-vị và thể hiện một ý có quan hệ chặt chẽvới ý của những câu khác Các câu ghép bắt buộc phải có hai cụm chủ-vịtrở lên Hai vế của câu ghép được nói bằng nhiều cách Nhưng cách cơ bảnnhất là nối trực tiếp, nối bằng quan hệ từ và cặp từ hô ứng
– Câu ghép đẳng lập: Là câu ghép được nối với nhau bằng cách sử dụngcách nối trực tiếp
Ví dụ: Lan học khoa ngữ văn, Tình học khoa công nghệ thông tin.– Câu ghép chính – phụ: Là câu ghép được nối với nhau bằng cách sửdụng quan hệ từ hoặc cặp từ hô ứng
Ví dụ: Nếu em học giỏi thì ba mẹ em sẽ rất mừng
Trang 26• Câu chủ động: Là câu có chủ ngữ chỉ người, vật thực hiện một hoạt độnghướng vào người, vật khác.
Ví dụ: Mẹ đang khen Lan nấu ăn ngon
• Câu bị động: Là câu có chủ ngữ chỉ người, vật được hoạt động của người,vật khác hướng vào
Ví dụ: Lan được mẹ khen nấu ăn ngon
Theo nghiên cứu tác giả Nguyễn Văn Hiệp [4] về cú pháp tiếng Việt và tác giảNguyễn Phương Thái cùng cộng sự trong dự án VLSP năm 2008 đưa ra tập quytắc cú pháp tiếng Việt cho thành phần câu bao gồm: chủ ngữ, vị ngữ, bổ ngữ vàmột số loại ngữ khác trong câu Phạm trù ngữ pháp thành phần câu trong hệthống phân loại lấy cấu trúc chủ - vị làm cơ sở phân biệt các thành phần câu:thành phần chính và thành phần phụ Thành phần chính gồm chủ ngữ và vịngữ Thành phần phụ được chia thành: các thành phần phụ chứa trong thànhphần của nòng cốt: định ngữ, bổ ngữ, ; các thành phần phụ ngoài nòng cốt:trạng ngữ, đề ngữ, phụ ngữ câu ; các thành phần phụ biệt lập với nòng cốtcâu: hô ngữ, liên ngữ, chủ ngữ,
Một số quy tắc cú pháp của các thành phần câu:
• Chủ ngữ: chủ ngữ trong phần lớn các trường hợp mang ý nghĩa chỉ người
và sự vật nhưng nó có thể có các ý nghĩa khác Chủ ngữ có thể là danh từ,danh ngữ, đại từ, tính từ, tính ngữ, số từ, động từ, động ngữ
• Vị ngữ: vị ngữ là một thành phần chính của câu và có tác động đến toàn
bộ câu Vị ngữ là trung tâm tổ chức câu và do vậy vị ngữ có nhiều vấn đềphức tạp hơn chủ ngữ Vị ngữ trong tiếng Việt có thể do nhiều loại từ vàngữ đảm nhận Đó là động từ, tính từ hoặc nhóm động từ, nhóm tính từ
và một số từ loại khác như đại từ, số từ, danh từ, động từ đặc biệt “là”,
• Bổ ngữ: thành phần phụ đứng trước hay sau một động từ hay tính từ, bổnghĩa cho động từ tính từ đó, tạo nên cụm từ làm thành phần câu gọi là
bổ ngữ Một số bổ ngữ thường gặp như:
– Bổ ngữ hình thái do các tiểu loại phụ từ tạo thành thường đứng trướcđộng từ hay tính từ, biểu thị các tình thái khẳng định, thời gian, thểthức diễn biến của hành động và của trạng thái, tính chất, quan hệ, được nêu ở động từ hay tính từ trung tâm đó
– Bổ ngữ đối tượng biểu thị các sự vật có quan hệ với động từ hay tính
từ trung tâm Bổ ngữ đối tượng thường do danh từ, danh ngữ, đại từtạo thành Bổ ngữ đối tượng có thể kết nối với động từ hoặc tính từtheo cách trực tiếp hoặc gián tiếp, bổ ngữ miêu tả
Trang 27• Một số loại ngữ khác:
– Trạng ngữ: là thành phần của câu được xét trong chỉnh thể của câunói chung Trạng ngữ là thành phần phụ biểu thị hoàn cảnh được nêu ởnòng cốt câu Trạng ngữ do từ, cụm từ hay kết cấu chủ vị tạo thành Cócác loại trạng ngữ sau: trạng ngữ thời gian, trang ngữ nơi chốn, trạngngữ nguyên nhân, trạng ngữ mục đích và trạng ngữ cách thức
– Định ngữ: là thành phần phụ trong câu Định ngữ được nhận diện thôngqua từ mà nó hạn định Quan hệ giữa định ngữ và đối tượng được địnhngữ là quan hệ hạn định Trong câu, danh từ thường có các định ngữsau: định ngữ chỉ lượng, định ngữ chỉ loại, định ngữ miêu tả, định ngữchỉ xuất
Dựa trên khái niệm câu, tập nhãn mệnh đề của tiếng Việt mô tả trong bảng 1.4
Lịch sử nghiên cứu cú pháp tiếng Việt là một quá trình liên tục và phản ánh
cố gắng của nhiều thế hệ nhà nghiên cứu trong và ngoài nước trong việc miêu
tả cơ cấu của cú pháp tiếng Việt Tuy nhiên, theo tác giả Nguyễn Văn Hiệp [4]trong cuốn sách “Cú pháp tiếng Việt” đã chia lịch sử nghiên cứu cú pháp tiếngViệt gồm 3 giai đoạn: (1) giai đoạn từ bản vị, (2) giai đoạn cú bản vị và (3) giaiđoạn ngữ pháp chức năng và ngữ pháp ngữ nghĩa Tiếng Việt thuộc ngôn ngữđơn lập, một tiếng (âm tiết) được phát âm tách rời được thể hiện bằng một chữviết, có một số đặc trưng nổi bật sau:
1 Tiếng hay còn gọi là âm tiết là đơn vị phát âm tự nhiên nhỏ nhất, sử dụng
ký tự khoảng trống “ “ để phân định âm tiết Tiếng có thể là từ hoặc yếu
tố cấu tạo từ
2 Từ không biến đổi hình thái khi được sử dụng trong câu Do đó, việc xácđịnh từ loại mỗi từ phải dựa trên ngữ cảnh của câu Khi từ kết hợp từ thành
Trang 28các kết cấu như ngữ, câu thì tiếng Việt rất coi trọng phương thức trật tự
từ và hư từ
3 Vị từ trong tiếng Việt không chỉ là động từ như tiếng Anh mà còn có thể
là danh từ, tính từ hoặc giới từ
Cú pháp là chủ đề nghiên cứu của hai cộng đồng gồm những người làm ngônngữ và những người làm tin học Cú pháp vừa là đối tượng nghiên cứu, vừa làmột trong các cấp độ cần mô tả đối với cộng đồng những người làm ngôn ngữ.Đối với cộng đồng những người làm tin học, cần làm cho máy tính phân tíchđược cú pháp với hai mục tiêu là xây dựng các ứng dụng, giải quyết một số bàitoán thực tế, đối tượng nghiên cứu của họ là các hệ hình thức và các thuật toán
Cú pháp là quy tắc dùng các tiếng để đặt câu văn cho chính xác Để sử dụngngôn ngữ linh hoạt, ta phải hiểu rõ về cú pháp Muốn hiểu rõ về cú pháp, taphải hiểu thế nào là câu, các loại câu, mệnh đề, các loại mệnh đề, cùng cấu trúccủa chúng
Tác giả Nguyễn Văn Hiệp [4] đã chỉ ra nghiên cứu cú pháp đòi hỏi phải nắmđược quan hệ ngữ pháp Có 3 loại quan hệ ngữ pháp đã được thừa nhận gồm:quan hệ đẳng lập, quan hệ chính phụ và quan hệ chủ-vị (C-V)
1 Quan hệ đẳng lập: là quan hệ giữa các yếu tố bình đẳng với nhau về mặtngữ pháp và thể hiện ở chỗ các thành tố có vai trò như nhau trong việcquyết định đặc điểm ngữ pháp của cả tổ hợp Quan hệ đẳng lập có thể chialàm 4 loại:
(a) Quan hệ liệt kê: thường được nối kết với các liên từ như và, cùng, lẫn,
Ví dụ như: cô ấy với tôi, sống và làm việc
(b) Quan hệ lựa chọn thường được nối kết bởi các liên từ như hay, hoặc,
Ví dụ: sống hay chết, cô ấy hoặc tôi
(c) Quan hệ giải thích: là quan hệ giữa những danh từ hay danh từ có cùng
sở chỉ Vì vậy về nguyên tắc có thể sử dụng từ là để xác lập một quan
hệ đồng nhất giữa hai yếu tố có quan hệ giải thích Ví dụ: Bác tôi là cụNguyễn Đạo Quán
(d) Quan hệ qua lại: thường được nối kết bởi các cặp liên từ hay phó từnhư tuy nhưng, vì nên, đã lại, càng càng Ví dụ: Tuy ông khônggiàu nhưng vẫn đủ tiền mua xe hơi
2 Quan hệ chính phụ: là quan hệ giữa những yếu tố không bình đẳng với nhau
về mặt ngữ pháp, theo đó một thành tố đóng vai trò chính còn gọi là thành
tố trung tâm và các thành tố khác đóng vai trò phụ Thành tố chính quy
Trang 29định đặc điểm ngữ pháp của toàn bộ ngữ đoạn, chẳng hạn nếu thành tốchính là danh từ thì toàn bộ ngữ đoạn mang tính chất của danh từ Trongtiếng Việt, để nhận biết thành tố chính thì dựa vào hai trường hợp xẩy rasau:
(a) Trường hợp hư từ kết hợp với thực từ: theo quan điểm truyền thống,đối với tổ hợp “hư từ + thực từ”, thực từ luôn được coi là thành tốchính Ví dụ: đã đi, rất giỏi, giỏi hơn
vị, ngoài ra quan hệ này còn được biểu thị thông qua hư từ như thì, là,
và ngữ điệu Khi nhấn mạnh nhằm mục đích biểu cảm, hoặc khi muốn tạocâu có thông báo “gộp”, người ta cũng có thể thay đổi vị trí, đưa thành tố
vị lên đứng trước ví dụ như Rơi cái ví tiền kìa
Trong kho ngữ liệu viettreebank [72] đưa ra tập nhãn chức năng ngữ pháp.Nhãn chức năng của một thành phần cú pháp cho biết vai trò của nó trongthành phần cú pháp mức cao hơn Nhãn chức năng cú pháp được gán cho cácthành phần chính trong câu như chủ ngữ, vị ngữ, tân ngữ Nhờ thông tin donhãn chức năng cung cấp ta có thể xác định các loại quan hệ ngữ pháp cơ bảnsau đây:
Trang 30Bảng 1.5: Tập nhãn chức năng cú pháp tiếng Việt.
9-12 TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt
Với một câu có thể có hai cách phân tích cú pháp: phân tích cú pháp thànhphần và phân tích cú pháp phụ thuộc
Khái niệm vai nghĩa được các nhà ngôn ngữ dùng với nhiều thuật ngữ khácnhư: các trường hợp, quan hệ ngữ nghĩa, vai nghĩa hoặc vai tham tố Có rấtnhiều định nghĩa khác nhau về khái niệm vai nghĩa
Fillmore [33] đã đưa ra một số vai nghĩa mà ông cho là có tính phổ quát, cóthể tìm thấy trong mọi ngôn ngữ, phản ánh một phương diện chung trong cáchthức chúng ta tri nhận về thế giới: “Ý niệm về cách bao gồm một tập hợp kháiniệm phổ quát, được giả định là bẩm sinh, xác định những kiểu tri nhận nào đócủa con người về những sự tình đang diễn ra quanh họ, tri nhận những vấn đềnhư ai thực hiện nó, nó xảy ra đối với ai, và cái gì thay đổi” [5]
Tác giả Nguyễn Văn Hiệp [5] đã mô tả về vai nghĩa tiếng Việt khá đầy đủtrong cuốn sách “Cơ sở ngữ nghĩa phân tích cú pháp” Tác giả cũng chỉ radanh sách các vai nghĩa có nhiều tác giả đề xuất và khác nhau Tên gọi của cácvai có thể khác nhau Có tình trạng một số tác giả dùng chung tên gọi vai nghĩanhưng quan niệm khác nhau và cũng có tên gọi vai nghĩa khác nhau nhưng quanniệm lại giống nhau Tuy nhiên, tác giả cũng đưa ra nguyên tắc trong việc phânđịnh và trừu xuất vai nghĩa:“Vai nghĩa mà một thực thể đảm nhiệm trong sự
Trang 31tình luôn luôn phụ thuộc vào bản chất của sự tình đó, và thực là vô nghĩa nếu
ta tách biệt các vai nghĩa khỏi sự tình mà trong đó chúng xuất hiện” Từ đó,tác giả Nguyễn Văn Hiệp cũng đã liệt kê ra danh sách các vai nghĩa phổ biến vàđược đa số các nhà nghiên cứu thống nhất sử dụng gồm:
• Vai tác thể (Agent, viết tắt là Ag): biểu thị người gây ra hành động Ví dụ:
• Vai lực tự nhiên (Force, viết tắt là Fo): chỉ tác nhân tự nhiên gây ra mộtbiến cố, thay đổi nào đó Ví dụ: “BãoF o làm đổ cây.”
• Vai bị thể (Patient, viết tắt là Pa): chỉ vật, người chịu sự tác động, dẫn đếnmột thay đổi nào đó Sự thay đổi này có thể là sự thay đổi về vật lí, tâm
lí Ví dụ: “Bộ đội phá cầuP a ”; “Nó doạ ma cô ấyP a ” ; “Nó đập vỡ cáicốcP a ”
• Vai công cụ (Instrument, viết tắt là Instr): chỉ công cụ được dùng để thựchiện hành động Ví dụ: “Nó đến trường bằng xe đạpInstr.”
• Vai thực hiện hành động (Effector): chỉ vật trực tiếp tác động đến đối tượngnào đó, vai này gần gũi với vai công cụ (trong tiếng Anh, cả hai đều có thểđánh dấu bởi giới từ with) Ví dụ: “Larry broke the window a rockEf f ector.” (Larry đập vỡ kính cửa sổ bằng một hòn đá.) (ví dụ dẫn theo Van Valin
1993, 44)
• Vai địa điểm, vị trí (Location hay Locative, viết tắt là Lo): chỉ nơi chốn của
sự tình, vị trí tồn tại của sự vật Ví dụ: “Tôi gặp chị ấy ngoài gaLo.” ; “Nósống ở Hà NộiLo.”
• Vai điểm xuất phát, hay nguồn của trạng thái (Source, viết tắt là So): chỉđiểm xuất phát của chuyển động, hay nguồn của trạng thái Ví dụ: “Nó từHải PhòngSo đến.”; “Nó chết mê chết mệt cô ấySo.”
• Vai điểm đến (Goal, viết tắt là Go): chỉ đích đến của một chuyển động Vídụ: “Hôm nay nó đến trườngGo.”
Trang 32• Vai kẻ tham chiếu (Reference, viết tắt là Ref): chỉ người hay vật đượcdùng để tham chiếu trong một trạng thái, quan hệ, Ví dụ: “Nhà xatrườngRef.” ; “Nó giống ông hàng xómRef.”.
• Vai kẻ cùng hành động (Comcomitant, viết tắt là Com): chỉ người cùnghành động trong một hành động Ví dụ: “Nó chơi cờ với bốCom.”
• Vai hướng chuyển động (Direction, viết tắt là Dir) hay lối đi (Path): chỉhướng của chuyển động Ví dụ: “Bộ đội tiến quân dọc theo bờ sôngDir/P ath.”
• Vai thời điểm (Temporal, viết tắt là Temp): chỉ thời điểm của sự tình Vídụ: “Nó sẽ gặp ông hiệu trưởng vào lúc 3 giờT emp.”
• Vai chủ sở hữu (Possessor, viết tắt là Poss): chỉ chủ sở hữu của sự vật Vídụ: “Cái bàn này của tôiP oss.”
• Vai thời lượng (Duration, viết tắt là Dur): chỉ thời gian kéo dài của hànhđộng, trạng thái, Ví dụ: “Năm ngoái, nó đi làm bốn thángDur.”
• Vai nội dung (Content): chỉ nội dung của sự hiểu biết Ví dụ: “Jesse knowsthat Chris liedContent.” (ví dụ dẫn theo Van Valin 2001, 24)
• Vai thể chuyển động (Theme): chỉ một thực thể tồn tại ở một vị trí nào đó,hoặc thực thể chuyển động, chịu một sự thay đổi về một vị trí do một tácnhân nào đó Vai này cũng dùng để chỉ thực thể được sở hữu hay chịu sựthay đổi về sở hữu Ví dụ: “Hòn đáT heme lăn xuống đồi”
• Một số vai khác có tính chất ngoại vi cũng được tác giả thừa nhận, như vainguyên nhân (Reason), vai mục đích (Purpose), vai cách thức (Manner).Ngoài ra, theo khảo sát của tác giả Phan Thị Huê [6] thì danh sách vai nghĩadành cho tiếng việt cần bổ sung thêm một số vai nghĩa được Cao Xuân Hạo [3]đưa ra hết sức hợp lý như:
• Vai tác thể (Ag): Người hay động vật thực hiện hành động làm thay đổitrạng thái hay vị trí, làm cho nó bị huỷ diệt, không còn tồn tại nữa Ví dụ:NamAg đánh Bắc
• Vai hành thể (Actor): Người hay động vật thực hiện hành động nhưng hànhđộng đó không làm thay đổi trạng thái, vị trí hay làm cho đối tượng bị huỷdiệt hay không còn tồn tại nữa Ví dụ: NamActor chạy
• Vai quá thể (Processor): người hay vật hoạt động hoặc trải qua quá trìnhkhông có chủ ý Ví dụ: NamP rocessor ngã
Trang 33• Vai tạo thể (Factitive, viết tắt là F): là sản phẩm của hành động tạo tác.
S
.
SBAR S
VP
VP
VP PP-DOB NP P-H họ
E-H cho
R lại
V-H trả
CC và
VP V-H thực_hiện
VP V-H được
NP-SUB
A công_bằng
Nc-H sự
VP V-H mong_mỏi
NP-SUB
P-H
Tôi
Hình 1.2: Cây cú pháp thành phần trong tiếng Việt.
Trong ví dụ 1.2.1 có thể hiểu một số cụm từ như sau: “Tôi” là cụm danh từchủ ngữ (NP-SUB), “mong_mỏi” là cụm động từ (VP), “sự công_bằng đượcthực_hiện và trả lại cho họ” mệnh đề phụ (SBAR)
Trang 341.2.1 Bài toán phân tích cú pháp thành phần
Quá trình phân tích cú pháp câu có thể chia làm hai mức chính [31]:
• Mức thứ nhất là tách từ và xác định thông tin từ loại
• Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại dobước trước cung cấp
Do tiếng Việt là ngôn ngữ đơn âm tiết nên thường gặp phải vấn đề nhậpnhằng ở cả hai mức Trong phần này, tác giả tập trung vào vấn đề phân tích cúpháp thành phần cho câu
Hình 1.3: Quá trình phân tích cú pháp thành phần
Mô hình phân tích tổng quát phân tích câu (x) đã được tách từ và gán nhãn
từ loại thành cấu trúc cấu (y) theo thứ bậc các thành phần của câu sử dụngcấu trúc cụm từ Mục tiêu của bài toán là tìm ra cú pháp thành phần của câuđầu vào x chính xác nhất Tổng quát:
• Đầu vào:
– Câu x = w1, w2, , wn đã được tiền xử lý, tách từ và gán nhãn từ loại.Trong đó mỗi wi chứa thông tin từ và từ loại tương ứng của từ thứ itrong câu x x có thể coi là 1 ma trận trong các mô hình học máy: mỗiphần tử là 1 vector cột mã hóa biểu diễn của từ wi
Trang 35– Kho ngữ liệu gồm các câu đã được chú giải cú pháp thành phần Khongữ liệu được sử dụng trong quá trình huấn luyện ở các thuật toán.
• Đầu ra: Cây cú pháp thành phần của câu x
Choe cùng cộng sự [20] đã định nghĩa hình thức cây cú pháp, với γ(x) là tậpcấu trúc có thể có của x:
argmaxy0 ∈γ(x)P (x, y0) (1.1)Giả sử xem cây của (x, y) là một dãy tuần tự (z) biểu diễn các suy diễn để sinh
ra cây cấu trúc cú pháp thành phần như ví dụ 1.2.1, có thể định nghĩa phânphối xác suất trên (x, y) như sau:
1 Phân tích cú pháp thành phần dựa trên luật: trong phương pháp dựa trênluật, tập luật riêng biệt của từng ngôn ngữ được hình thành để nhận dạng
ra cây cú pháp tốt nhất cho một ngữ pháp cụ thể Nhưng trong phươngpháp này, tập luật sinh ra được áp dụng đệ quy dẫn đến chồng chéo Vấn
đề được giải quyết hiệu quả bằng cách sử dụng kỹ thuật quy hoạch động
Bộ nhớ đệm cho cây cú pháp trong trình phân tích cú pháp thành phầndựa trên quy hoạch động được gọi là “biểu đồ” và do đó trình phân tích dựatrên quy hoạch động gọi là “trình phân tích cú pháp biểu đồ” Trình phântích cú pháp dựa trên luật sử dụng thuật toán CYK và thuật toán Early
2 Phân tích cú pháp thành phần dựa trên thống kê: thuật toán phân tích cúpháp dựa trên thống kê thu thập dữ liệu thống kê từ câu được phân tích cúpháp đúng và phân giải nhập nhằng dựa trên dữ liệu thực nghiệm Ưu điểm
Trang 36của phương pháp này là bao phủ toàn bộ ngữ pháp sử dụng của ngôn ngữ.Hiệu suất của các trình phân tích cú pháp dựa trên thống kê phụ thuộc vàokho ngữ liệu huấn luyện được sử dụng để thu thập thông tin thống kê vềngữ pháp của ngôn ngữ Thay vì sử dụng luật, trình phân tích cú pháp dựatrên thống kê chọn cây cú pháp tốt nhất từ các ứng viên dựa trên thôngtin thống kê Nhược điểm của phương pháp này là đôi khi thứ tự cú phápkhông hợp lệ Trình phân tích cú pháp dựa trên xác suất ví dụ như ngữpháp phi ngữ cảnh và ngữ pháp phi ngữ cảnh dựa trên xác suất.
3 Phương pháp tiếp cận tổng quát: nền tảng của phương pháp phân tích cúpháp dựa trên luật tương tự như dựa vào thống kê Sử dụng ưu điểm này,Melamed [39] đã đề xuất một thuật toán phân tích cú pháp tổng quát dựatrên ý tưởng nửa vành phân tích cú pháp Thuật toán tổng quát này baogồm 5 thành phần: ngữ pháp, logic, nửa vành, ngữ pháp xác định ký hiệukết thúc và ký hiệu không kết thúc, tập luật sinh Logic xác định cơ chếtrình phân tích cú pháp chạy bằng cách tạo ra cây phân tích cú pháp cục
bộ mới ra sao Nửa vành xác định các cây cú pháp cục bộ được tính trọng
số Chiến lược tìm kiếm xác định thứ tự các cây được xử lý và điều kiện kếtthúc xác định thời điểm dừng logic cần thiết
Mô hình sinh cho phân tích cú pháp
Để tìm ra cây cú pháp hợp lý nhất, trình phân tích cú pháp phải lựa chọntập dẫn xuất(3.1.1) ứng viên Cho tập dẫn xuất D = d1, , dn là chuỗi quyếtđịnh sử dụng để xây cây cú pháp Cho câu x có cây cú pháp y được định nghĩabằng chuỗi các bước dẫn xuất Tính xác suất cho mỗi dẫn xuất bằng:
Trang 37Mô hình phân biệt trong phân tích cú pháp
Michael Collins [24] cung cấp nền tảng chung gọi là mô hình tuyến tính toàncục để mô tả cách tiếp cận rời rạc khác nhau cho quá trình học phân tích cúpháp Cho x là đầu vào, y là đầu ra, Y tập cây cú pháp ứng viên
• Mỗi x ∈ X và y ∈ Y được ánh xạ vào véctơ đặc trưng d chiều Φ(x, y), mỗichiều là một số thực, tóm tắt một phần thông tin chứa trong (x, y)
• Véctơ trọng số w ∈ Rd gán trọng số cho mỗi đặc trưng trong Φ(x, y), biểudiễn độ quan trọng của đặc trưng đó Giá trị của Φ(x, y).w là trọng số của(x, y) Trọng số càng cao thì độ chính xác y là đầu ra của x càng cao
• Hàm GEN(x) tạo ra tập đầu ra y có thể với đầu vào x
Hàm Φ(x, y), w và GEN (x), chọn trọng số của cây ứng viên y∗ từ GEN (x) caonhất là đầu ra chính xác nhất:
F (x) = argmaxy∈GEN(x)p(y|x, w) (1.7)trong đó F (x) trả về y∗ có trọng số cao nhất từ GEN (x) Trường ngẫu nhiên
có điều kiện định nghĩa xác suất có điều kiện như trọng số tuyến tính cho mỗiứng viên y:
log p(y|x, w) = Φ(x, y).w − log X
y 0 ∈GEN(x)
exp(Φ(x, y0).w) (1.8)
Mô hình tuyến tính toàn cục đơn giản là:
F (x) = argmaxy∈GEN(x)Φ(x, y).w (1.9)Nhiều kết quả thử nghiệm trong phân tích cú pháp chỉ ra mô hình tuyến tínhtoàn cục đơn giản bỏ qua bước chuẩn hóa thường cung cấp độ chính xác tương
tự khi so sánh với mô hình huấn luyện chuẩn hóa nhiều chi phí hơn Véctơ trọng
số w có thể được tính dựa trên phương pháp perceptron Perceptron bản chất
Trang 38được giới thiệu như mạng nơrơn một lớp Nó được huấn luyện sử dụng học trựctuyến, nghĩa là xử lý dữ liệu mẫu một lần trong đó nó điều chỉnh véctơ tham
số có được áp dụng trên dữ liệu đầu vào để tạo ra đầu ra tương ứng Sau khicập nhật, perceptron đảm bảo véctơ trọng số hiện tại có thể phân loại chính xácmẫu huấn luyện hiện tại
Quá trình huấn luyện: Giả sử có m mẫu dữ liệu huấn luyện Thuật toán họcperceptron được mô tả ở thuật toán 1 Tham số trọng số véctơ w được khởi gán
Algorithm 1 Thuật toán gốc học perceptron
Đầu vào: Dữ liệu huấn luyện ((x1, y1), , (xm, ym)); số vòng lặp T
Đầu ra: Véc tơ trọng số w
end for
end for
giá trị 0
Quá trình dự đoán: Sử dụng véctơ trọng số w có được từ quá trình huấn luyện
và mô hình tuyến tính để dự đoán cú pháp thành phần cho câu x đầu vào nhưcông thức 1.9
Việc đánh giá độ chính xác của hệ thống phân tích cú pháp thành phần sửdụng 3 chỉ số:
• LR = Recall = Tổng số thành phần trên cây đúng (gold)Số thành phần phân tích đúng
• LP = P recision = Tổng số thành phần trên cây phân tíchSố thành phần phân tích đúng
• F1 = 2×LR×LPLR+LP
Đã có nhiều phương pháp nghiên cứu để giải quyết bài toán phân tích cúpháp thành phần và đạt độ chính xác phân tích cú pháp thành phần cao trêntiếng Anh Các kết quả đánh giá trên WSJ1 của kho ngữ liệu Penn Treebank
• Phương pháp shift-reduce được sử dụng để phân tích cú pháp thành phầnđược đề xuất bởi tác giả Sagae và Lavie (2005) Tác giả Muhua Zhu cùng
Trang 39cộng sự (2013) [63] đã đề xuất mở rộng của phương pháp shift-reduce nhằmloại bỏ sự khác biệt giữa kích thước các bước chuyển trong quá trình tìmkiếm Phương pháp đã đạt được kết quả phân tích cú pháp thành phần caonhất ở thời điểm nghiên cứu của tác giả cho tiếng Anh với F1=89.96%.
• Mô hình seq2seq1cho bài toán phân tích cú pháp thành đạt kết quả cao hơncác nghiên cứu khác trước đó được tác giả Vinyals cùng cộng sự (2015)[65]
đề xuất Cụ thể, nhóm tác giả sử dụng mô hình bán giám sát LSTM huấnluyện với dữ liệu lớn đã cho kết quả độ chính xác phân tích F1=92.1%
và tốc độ phân tích hơn 100 câu/1 giây Tác giả Jun Suzuki cùng cộng sự(2018) [47] khảo sát cấu trúc dựa trên mô hình seq2seq cho phân tích cúpháp thành phần Nhóm tác giả đã chỉ ra việc kết hợp một số kỹ thuật mãhóa - giải mã LSTM và LSTM-LM đã phát triển trong các tác vụ xử lýngôn ngữ đã đưa lại kết quả cao trong bài toán phân tích cú pháp thànhphần với F1=94.32%
• Mạng nơron hồi quy trong phân tích cú pháp thành phần được tác giảChris Dyer cùng cộng sự (2016) [22], đạt độ chính xác với F1=93.3% Tácgiả Kuncoro cùng cộng sự (2017) [12] thực hiện khảo sát mô hình mạngnơron hồi quy cho cú pháp thông qua kịch bản và tham số mới với cơ chếchú ý trên hàm thành phần Hàm thành phần là điểm khác biệt chính trênRNNG so với mô hình cú pháp khác nhằm tăng hiệu suất cho bài toánphân tích cú pháp thành phần, độ chính xác F1=93.6% Cùng năm, tác giảVaswani cùng cộng sự (2017) [86] đề xuất kiến trúc mạng đơn giản mới,Transformer, dựa trên kiến trúc chú ý đạt hiệu quả cao trong nhiều tác vụ
xử lý ngôn ngữ tự nhiên Đối với phân tích cú pháp thành phần cũng có kếtquả F1=92.7% Tác giả Takase Sho cùng cộng sự (2018) [82] đề xuất môhình ngôn ngữ mạng hồi quy làm tăng hiệu quả của mô hình ngôn ngữ dựatrên ma trận do Yang cùng cộng sự (2018) [89] đề xuất Phương pháp đãcải tiến mô hình ngôn ngữ mới nhất và đạt kết quả cao nhất tính tới thờiđiểm tác giả đề xuất trên bộ dữ liệu Penn Treebank và WikiText-2 Kết quảphân tích cú pháp thành phần dựa trên phương pháp này đạt F1=94.47%
• Mô hình sinh được tác giả Do Kook Choe và Eugene Charniak (2016) ápdụng trong phân tích cú pháp, LSTM-LM2, với độ chính xác F1=93.8%hiệu quả hơn sử dụng mô hình phân biệt do Chris Dyer (2016) [22] sử dụng.Tác giả Jiangming Liu và Yue Zhang (2017) [42] đề xuất hệ thống phântích cú pháp mới dựa trên bước khảo sát “có thứ tự”3 trên cây cú pháp
Trang 40thành phần, thiết kế tập các bước chuyển để tìm kiếm sự thống nhất giữathông tin thành phần từ dưới lên và từ trên xuống Dựa trên stack-LSTM
hệ thống phân tích cú pháp thành phần đạt F1=94.2% Cùng năm, tác giảDaniel Fried cùng cộng sự (2017) [26] dựa trên những nghiên cứu về môhình mạng nơron sinh cho phân tích cú pháp thành phần đã mô tả thuậttoán tìm kiếm trực tiếp trên mô hình sinh này và chỉ ra hiệu quả phân tích
cú pháp thành phần bằng mô hình kết hợp thì tốt hơn hiệu quả khi sử dụngmột phương pháp reranking Độ chính xác của hệ thống đạt F1=94.66%
• Mô hình self-attentive: tác giả Nikita Kitaev và Dan Klein (2018) [53], đãchỉ ra rằng việc thay thế bước mã hóa LSTM bằng self-attentive tăng hiệuquả phân tích cú pháp thành phần Phương pháp đề xuất kết hợp đặc trưng
mô hình ngôn ngữ nhúng (ELMo) đạt kết quả cao nhất so với các nghiêncứu trước đây trên phân tích cú pháp thành phần với F1=95.13%
• Mô hình BERT: tác giả Junru Zhou và Hai Zhao (2019) [48] đã sử dụng
mô hình kết hợp giữa phân tích cú pháp dựa trên văn phạm hướng trungtâm và mô hình BERT do Jacob Devlin cùng cộng sự (2018) [40] đề xuất.Phương pháp đề xuất đã đạt kết quả cao nhất cho bài toán phân tích cúpháp thành phần tính đến thời điểm hiện tại với độ chính xác F1=95.84%.Tuy nhiên, hiện nay chỉ có một số nghiên cứu về phân tích cú pháp thànhphần cho tiếng Việt và hiệu quả phân tích còn thấp so với các ngôn ngữ phổbiến như tiếng Anh, tiếng Trung
• Xây dựng kho ngữ liệu: tác giả Nguyễn Phương Thái cùng cộng sự [72] năm
2009 đã xây dựng kho ngữ liệu hơn 10.000 câu có chú giải cú pháp cho tiếngViệt Năm 2016, tác giả Nguyễn Thị Quý cùng cộng sự [75] xây dựng khongữ liệu có chú giải cú pháp thành phần với hơn 20.000 câu
• Văn phạm phi ngữ cảnh từ vựng hoá kết hợp xác suất (LPCFG): tác giảNguyễn Quốc Thể và Lê Thanh Hương [11] đã sử dụng văn phạm phi ngữcảnh từ vựng hoá kết hợp xác suất (LPCFG) để phân tích cú pháp thànhphần tiếng Việt vào năm 2007
• Văn phạm cấu trúc cụm hướng trung tâm (HPSG): tác giả Lê Thanh Hươngcùng cộng sự [35] năm 2010 cũng đã nghiên cứu phân tích cú pháp thànhphần sử dụng văn phạm cấu trúc cụm hướng trung tâm (HPSG)
• Văn phạm kết nối cây từ vựng hóa (LTAG): tác giả Lê Hồng Phương cùngcộng sự [69] năm 2010 đã khai thác tự động văn phạm kết nối cây từ vựnghóa (LTAG) từ kho ngữ liệu chú giải ngữ pháp tiếng Việt đồng thời xây