Danh mục các ký hiệu và chữ viết tắtAn-F-He-i Heuristic thứ i xác định yếu tố tiền ngữ cho từng đại từ hồi chỉ – Antecedent Finding HeuristicAn-F-Gr-NP-i Chiến lược tìm kiếm yếu tố tiền
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS TS NGUYỄN TUẤN ĐĂNG
Trang 3LỜI CAM ĐOAN
Tôi tên là Trần Trung
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫncủa PGS TS Nguyễn Tuấn Đăng và PGS TS Phạm Hữu Đức Các số liệu, kết quảnghiên cứu trình bày trong luận án là trung thực và chưa từng được công bố bởi tácgiả nào trong bất kỳ công trình nào khác
Tác giả luận án
Trần Trung
Trang 4LỜI CẢM ƠN
Luận án này được thực hiện và hoàn thành tại Khoa Khoa học máy tính, Trường Đạihọc Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh
Đầu tiên, xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Nguyễn Tuấn Đăng và PGS
TS Phạm Hữu Đức, là những người Thầy đã tận tình hướng dẫn, động viên vàtruyền đạt những kinh nghiệm quý báu trong nghiên cứu khoa học để em có thểhoàn thành tốt luận án này
Tôi xin chân thành cảm ơn nhà trường vì trong suốt quá trình học tập, tôi đã nhậnđược sự quan tâm, giúp đỡ của thầy cô giáo trong Khoa Khoa học máy tính, PhòngĐào tạo Sau đại học và Khoa học công nghệ và Ban giám hiệu Trường Đại họcCông nghệ thông tin
Cuối cùng, tôi muốn bày tỏ lòng biết ơn sâu sắc đến Cha, Mẹ, Em gái luôn là điểmtựa vững chắc, đã chăm sóc, ủng hộ và tạo mọi điều kiện thuận lợi nhất cho tôi cóthể hoàn thành tốt luận án này
Tp Hồ Chí Minh, tháng 06 năm 2020
Tác giả luận án
Trần Trung
Trang 5MỤC LỤC
MỤC LỤC 1
Danh mục các ký hiệu và chữ viết tắt 5
Danh mục các bảng 7
Danh mục các hình vẽ 8
MỞ ĐẦU 9
Đặt vấn đề và lý do lựa chọn đề tài 9
Mục tiêu và nội dung nghiên cứu 12
Phạm vi và đối tượng nghiên cứu 13
Phạm vi nghiên cứu 13
Đối tượng nghiên cứu 13
Phương thức tiếp cận 16
Đóng góp khoa học của luận án 17
Bố cục của luận án 19
CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 20
1.1 Hướng tiếp cận tóm tắt dựa trên trích xuất 21
1.2 Hướng tiếp cận tóm tắt trừu tượng 24
1.2.1 Phương pháp tiếp cận dựa trên cấu trúc 25
1.2.1.1 Phương pháp dựa trên cấu trúc mẫu 25
1.2.1.2 Phương pháp dựa trên ontology 25
1.2.1.3 Phương pháp dựa trên những ngữ đoạn đầu và thân 25
1.2.1.4 Phương pháp dựa trên quy tắc 26
1.2.2 Phương pháp tiếp cận dựa trên ngữ nghĩa 26
1.2.2.1 Phương pháp dựa trên ngữ nghĩa đa thể hiện 26
1.2.2.2 Phương pháp dựa trên mục tin tức 26
1.2.2.3 Phương pháp dựa trên đồ thị ngữ nghĩa 27
1.2.3 Hướng tiếp cận trộn câu - nén câu 27
1.2.3.1 Phương pháp sử dụng cây phụ thuộc 28
1.2.3.2 Phương pháp sử dụng đồ thị từ vựng 30
1.3 Kết chương 30
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 32
2.1 Giới thiệu 32
2.2 Phân tích và biểu diễn ngữ nghĩa 33
Trang 62.2.1 Lý thuyết biểu diễn diễn ngôn 33
2.2.2 Ngữ pháp dựa trên sự hợp nhất 35
2 4 .5 3 Nền tảng Ngôn ngữ học 36
2.3.1 Những dạng câu tiếng Việt và yếu tố hồi chỉ trong Ngữ pháp chức năng 36
2.3.1.1 Phân loại hình câu theo nghĩa biểu hiện của khung vị ngữ 36
2.3.1.2 Những dạng yếu tố hồi chỉ trong tiếng Việt 38
2.3.2 Những quy tắc cải biến trong Ngữ pháp cải biến – tạo sinh 40
2.3.2.1 Ngữ pháp cải biến – tạo sinh giai đoạn I của Noam Chomsky 40
2.3.2.2 Một số quy tắc cải biến 42
2 Tạo sinh ngôn ngữ tự nhiên 43
2 Kết chương 45
CHƯƠNG 3 PHÂN TÍCH VÀ BIỂU DIỄN NGỮ NGHĨA VĂN BẢN TIẾNG VIỆT 46
3.1 Giới thiệu 46
3.2 Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt 47
3.2.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 47
3.2.1.1 Cơ chế tạo dựng cấu trúc ngữ đoạn bề mặt 47
3.2.1.2 Chuyển đổi về các câu tiếng Việt có cấu trúc đơn giản 50
3.2.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 55
3.2.2.1 Phân tích đoạn văn bản và cấu trúc cú pháp câu tiếng Việt đầu vào 55
3.2.2.2 Mô tả đặc điểm ngữ pháp từ vựng và tạo dựng cấu trúc biểu diễn diễn ngôn 57
3.2.2.3 Xử lý đại từ hồi chỉ và tạo dựng cấu trúc biểu diễn diễn ngôn 59
3.3 Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn được gán nhãn 64
3.3.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 64
3.3.1.1 Cấu trúc đồ thị ngữ đoạn được gán nhãn 64
3.3.1.2 Cơ chế tạo dựng cấu trúc đồ thị ngữ đoạn được gán nhãn 66
3.3.1.3 Xác định yếu tố tiền ngữ tương ứng cho các yếu tố hồi chỉ 69
3.3.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 76
3.4 Kết chương 79
CHƯƠNG 4 TẠO SINH VĂN BẢN TIẾNG VIỆT 80
4.1 Giới thiệu 80
4.2 Từ biểu diễn của các cặp câu có quan hệ hệ quả 81
4.2.1 Phân nhóm những cặp câu được biểu diễn 81
4.2.2 Cơ chế tạo sinh 83
4.2.2.1 Phân tích cấu trúc biểu diễn diễn ngôn và Xác định mối quan hệ 83
Trang 74.2.2.2 Tạo sinh cấu trúc cú pháp của câu tiếng Việt mới 84
4.2.2.3 Hoàn chỉnh câu tiếng Việt mới 85
4.2.3 Thử nghiệm và đánh giá 87
4.2.3.1 Thiết kế thử nghiệm 87
4.2.3.2 Đánh giá 87
4.3 Từ biểu diễn của các cặp câu chỉ quá trình 89
4.3.1 Phân nhóm những cặp câu được biểu diễn 89
4.3.2 Cơ chế tạo sinh 90
4.3.2.1 Phân tích cấu trúc biểu diễn diễn ngôn và xác định mối quan hệ 90
4.3.2.2 Tạo sinh cấu trúc cú pháp của câu tiếng Việt mới 91
4.3.2.3 Hoàn chỉnh câu tiếng Việt được tạo sinh 92
4.3.3 Thử nghiệm và đánh giá 93
4.3.3.1 Xây dựng bộ ngữ liệu thử nghiệm 93
4.3.3.2 Thiết kế thử nghiệm 95
4.3.3.3 Đánh giá 97
4.4 Từ biểu diễn của những đoạn văn bản có nhiều hơn hai câu 100
4.4.1 Cơ chế tạo sinh 100
4.4.1.1 Tạo sinh cấu trúc cú pháp của từng câu tiếng Việt mới 100
4.4.1.2 Tạo sinh đoạn văn bản tóm tắt tiếng Việt 104
4.4.2 Thử nghiệm và đánh giá 108
4.4.2.1 Thiết kế thử nghiệm 108
4.4.2.2 Kết quả và Đánh giá 109
4.5 Kết chương 111
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 113
5.1 Kết luận 113
5.2 Hướng phát triển 113
TÀI LIỆU THAM KHẢO 115
6.1 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 115
6.2 TÀI LIỆU THAM KHẢO 118
6.2.1 Tiếng Việt 118
6.2.2 Tiếng Anh 118
PHỤ LỤC 139
PL.1 Tạo sinh đoạn văn bản ngôn ngữ tự nhiên từ Biểu diễn ý nghĩa phẳng 139
Trang 8PL.1.1 Cấu trúc biểu diễn ý nghĩa phẳng 139
PL.1.2 Cơ chế tạo sinh 141
PL.1.2.1 Phân tích biểu diễn ý nghĩa phẳng và Xác định mối quan hệ 141
PL.1.2.2 Tập hợp ngữ liệu từ vựng và cụm từ 143
PL.1.2.3 Tạo sinh cấu trúc cú pháp và Hoàn chỉnh đoạn văn bản ngôn ngữ tự nhiên 145
PL.1.3 Thử nghiệm và đánh giá 151
PL.1.3.1 Thử nghiệm và đánh giá với phần phát triển 152
PL.1.3.2 Thử nghiệm và đánh giá với phần thử nghiệm E2E thực 152
PL.1.4 Thảo luận 155
Trang 9Danh mục các ký hiệu và chữ viết tắt
An-F-He-i Heuristic thứ i xác định yếu tố tiền ngữ cho từng đại từ hồi chỉ –
Antecedent Finding HeuristicAn-F-Gr-NP-i Chiến lược tìm kiếm yếu tố tiền ngữ thứ i cho từng yếu tố hồi chỉ
trên đồ thị – Antecedent Finding Graph Noun PhraseCT-BD-NN-TT Cấu trúc biểu diễn ngữ nghĩa trừu tượng
CT-BD-DN Cấu trúc biểu diễn diễn ngôn
CT-BD-YN-P Cấu trúc biểu diễn ý nghĩa phẳng
DRS Cấu trúc biểu diễn diễn ngôn – Discourse Representation
StructureDRT Lý thuyết biểu diễn diễn ngôn – Discourse Representation TheoryE2E Đầu cuối – End-to-End
En-NL-Ref Văn bản ngôn ngữ tự nhiên tiếng Anh – English Natural Language
ReferenceFlat MR Biểu diễn ý nghĩa phẳng – Flat Meaning Representation
FP Ngữ đoạn chức năng – Function Phrase
F-ConvRules Bộ quy tắc chuyển đổi các câu tiếng Việt về câu có cấu trúc đơn
giản – Functional Conversion RulesF-Conv-i Quy tắc chuyển đổi thứ i từ các câu tiếng Việt về câu có cấu trúc
đơn giản – Function ConversionGULP Lập trình logic hợp nhất đồ thị – Graph Unification Logic
ProgrammingKN-CĐ-i Kinh nghiệm chuyển đổi thứ i từ các câu tiếng Việt về câu có cấu
trúc đơn giản – Kinh nghiệm chuyển đổiNLG Tạo sinh ngôn ngữ tự nhiên – Natural Language Generation
NP Ngữ đoạn danh từ – Noun Phrase
OP Ngữ đoạn đối tượng – Object Phrase
Pasp Vị từ ngữ nghĩa của hành động / trạng thái / quá trình trong DRS –
Semantic Predicate of Action / State / Process
Po Vị từ ngữ nghĩa của đối tượng trong DRS – Semantic Predicate of
Object
QH Yếu tố quan hệ
Trang 10QH-HQ Yếu tố quan hệ hệ quả
QH-VT-i Dạng quan hệ vị từ thứ i
S Câu – Sentence
SBG Hệ thống tạo sinh dựa trên cấu trúc – Structure-based GenerationTG-CĐ-i Quy tắc tinh giản và chuyển đổi thứ i từ cấu trúc đồ thị về DRSUBG Ngữ pháp dựa trên hợp nhất – Unification-based Grammar
VP Ngữ đoạn động từ – Verb Phrase
X Dạng câu quá trình chuyển thái
Y Dạng câu quá trình chuyển vị
Z Dạng câu quá trình tác động
↳ Nhóm quá trình 1 – QT-1
↰ Nhóm quá trình 2 – QT-2
⊗ Nhóm quá trình 3 – QT-3
Trang 11Danh mục các bảng
Bảng 0.1 Nguồn dữ liệu sách giáo khoa tiếng Việt cấp một 14
Bảng 0.2 Nguồn dữ liệu truyện ngắn song ngữ Anh – Việt trình độ A và B 14
Bảng 0.3 Nguồn dữ liệu trang web truyện cổ tích tiếng Việt và tiếng Anh 15
Bảng 0.4 Nguồn dữ liệu trang web từ điển 15
Bảng 1.1 Một số hệ thống tóm tắt văn bản theo hướng tiếp cận dựa trên trích xuất 23
Bảng 2.1 Sự phân loại dạng câu đơn tiếng Việt được nghiên cứu trong luận án [Cao 2006, tr 429] 36
Bảng 2.2 Cấu trúc đơn giản của câu tiếng Việt được nghiên cứu trong luận án 38
Bảng 2.3 Những dạng yếu tố hồi chỉ trong tiếng Việt được nghiên cứu trong luận án 39
Bảng 3.1 Bộ quy tắc chuyển đổi F-ConvRules 51
Bảng 4.1 Kết quả thử nghiệm với các nhóm cặp câu có quan hệ hệ quả 89
Bảng 4.2 Cấu trúc cú pháp của câu tiếng Việt mới cho các cặp câu chỉ quá trình 92
Bảng 4.3 Kết quả thử nghiệm các cặp câu chỉ quá trình 97
Bảng 4.4 Phân loại những dạng mối quan hệ cho từng cặp vị từ 100
Bảng 4.5 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-1 102
Bảng 4.6 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-2 102
Bảng 4.7 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-3 103
Bảng 4.8 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-4 103
Bảng 4.9 Độ ưu tiên của (Pas i-1 – Pas i ) cao hơn độ ưu tiên của (Pas i – Pas i+1 ) 105
Bảng 4.10 Hai độ ưu tiên bằng nhau 105
Bảng 4.11 Độ ưu tiên của (Pas i-1 – Pas i ) thấp hơn độ ưu tiên của (Pas i – Pas i+1 ) 105
Bảng PL.1 Các dạng thuộc tính trong CT-BD-YN-P 139
Bảng PL.2 Kết quả đánh giá tự động khi thử nghiệm SBG trên phần phát triển 152
Bảng PL.3 Kết quả đánh giá tự động khi thử nghiệm SBG trên phần thử nghiệm E2E thực 153
Bảng PL.4 Điểm số “Tính chất lượng” của hệ thống cao nhất trong từng cụm, hệ thống cơ sở và SBG 154
Bảng PL.5 Điểm số “Tính tự nhiên” của hệ thống cao nhất trong từng cụm, hệ thống cơ sở và SBG 154
Trang 12Danh mục các hình vẽ
Hình 0.1 Mô hình giải pháp tổng thể của luận án 17
Hình 1.1 Tổng quan các hướng tiếp cận trong lĩnh vực tóm tắt văn bản 21
Hình 2.1 CT-BD-DN của đoạn văn bản “Nhân thông minh Nó viết chương trình.” 35
Hình 2.2 Sơ đồ các thành phần của Ngữ pháp cải biến – tạo sinh giai đoạn I ([Chomsky 2002, tr 46]) 40
Hình 3.1 Sơ đồ tạo dựng cấu trúc bề mặt với Apache OpenNLP 49
Hình 3.2 Minh họa quá trình ánh xạ về các cấu trúc đơn giản 54
Hình 3.3 Sơ đồ luồng xử lý cơ chế tạo dựng CT-BD-DN từ đoạn văn bản tiếng Việt rút gọn 55
Hình 3.4 Cấu trúc đồ thị cho đoạn văn bản trong Ví dụ 3.7 65
Hình 4.1 Sơ đồ kiến trúc cơ chế tạo sinh câu và đoạn văn bản tiếng Việt 80
Hình 4.2 CT-BD-DN của đoạn văn bản “Nghĩa sửa angten Sét đánh nó.” 83
Hình 4.3 CT-BD-DN của đoạn văn bản “Sét đánh cành cây Nó bị gãy.” 90
Hình 4.4 Kết quả so sánh hiệu năng giữa những phương pháp tạo sinh những đoạn văn bản tiếng Việt mới 110
Hình PL.1 Ví dụ về hai dạng biểu diễn của một CT-BD-YN-P 140
Hình PL.2 Đồ thị biểu diễn mối quan hệ giữa những vị từ trong các CT-BD-YN-P 141
Hình PL.3 Mô tả từng thuộc tính trong CT-BD-YN-P 144
Hình PL.4: Xác định những từ tương đương nghĩa của “food” 145
Trang 13MỞ ĐẦU Đặt vấn đề và lý do lựa chọn đề tài
Được khởi đầu từ những năm 1950 với những nghiên cứu của [Baxendale1958], [Edmundson 1969] và [Luhn 1958], vấn đề mà [Jones 1999, 2007] định
nghĩa là “một tiến trình biến đổi rút gọn một văn bản nguồn thành một văn bản tóm
tắt bằng cách lựa chọn và / hoặc tổng quát hóa những gì được xem là quan trọng trong văn bản nguồn” hay còn được gọi ngắn gọn là “tóm tắt văn bản” đã trở thành
một lĩnh vực nghiên cứu quan trọng trong cộng đồng Xử lý ngôn ngữ tự nhiên trongsuốt hơn nửa thế kỷ qua Về cơ bản, [Jones 1999, 2007] đã đưa ra tiêu chuẩn chomột hệ thống tóm tắt hoàn chỉnh là thực hiện ba tiến trình liên tiếp để chuyển đổi
một văn bản nguồn thành một văn bản tóm tắt Tiến trình thứ nhất là diễn giải văn
bản đầu vào để có được một biểu diễn văn bản, là một dạng cấu trúc dữ liệu giúp
biểu diễn toàn bộ nội dung thông tin văn bản đầu vào Tiến trình thứ hai là chuyển
đổi biểu diễn văn bản sang một biểu diễn tóm tắt, là một dạng cấu trúc dữ liệu giúp
biểu diễn những nội dung thông tin chính của văn bản tóm tắt Tiến trình thứ ba là
tạo sinh ngôn ngữ và hoàn chỉnh văn bản tóm tắt từ biểu diễn tóm tắt
Từ những năm cuối thế kỷ XX và đầu thế kỷ XXI, nhiều tác giả đã dựa trêntiêu chuẩn của [Jones 1999, 2007] để đề xuất nhiều phương pháp khác nhau nhằmnâng cao hiệu quả chuyển đổi văn bản nguồn thành văn bản tóm tắt [Das và Martins2007; Fattah và Ren 2008; Jezek và Steinberger 2008; Jones 1999, 2007; Lloret2008; Mani và Maybury 1999; Mani 2001b] Dựa trên cách thức tạo ra văn bản tómtắt, các phương pháp được phân loại theo hai hướng nghiên cứu chính [Das và
Martins 2007]: hướng nghiên cứu thứ nhất được gọi là tóm tắt trích xuất (“Extractive Summarization”); hướng nghiên cứu thứ hai được gọi là tóm tắt trừu
tượng (“Abstractive Summarization”).
Cùng với sự phát triển của những phương pháp và kỹ thuật trong lĩnh vựcMáy học thống kê và Trích xuất thông tin, đa phần các nghiên cứu được thực hiệntheo hướng tiếp cận tóm tắt trích xuất [Das và Martins 2007; Fattah và Ren 2008;
Trang 14Jezek và Steinberger 2008; Jones 1999, 2007; Lloret 2008; Mani và Maybury 1999;Mani 2001b] Các tác giả đã áp dụng những phương pháp và kỹ thuật để tính toán
và xác định mức độ quan trọng của từng câu trong văn bản ban đầu Những đặcđiểm thường được sử dụng để tính toán mức độ quan trọng của câu là từ khóa, tiêu
đề, vị trí hoặc độ dài của câu, những ngữ đoạn đặc thù, Bằng việc đặt ra mộtngưỡng xác định, các hệ thống tóm tắt sẽ lựa chọn những câu hay ngữ đoạn có điểmtính toán cao hơn ngưỡng này để hợp thành văn bản tóm tắt Tuy nhiên, cách thứctạo thành văn bản tóm tắt như vậy cho thấy hầu hết các phương pháp theo hướngtiếp cận tóm tắt trích xuất mới dừng lại ở tiến trình thứ nhất theo định nghĩa trong[Jones 1999, 2007]
Một ưu điểm đáng chú ý của những phương pháp theo hướng tiếp cận tóm tắttrích xuất là chúng áp dụng rất tốt những giải thuật và kỹ thuật Máy học thống kê vàTrích xuất thông tin [Das và Martins 2007; Lloret 2008] Nhiệm vụ nghiên cứu chỉcần tập trung vào những yếu tố trên bề mặt mà không cần hiểu sâu về ngữ nghĩa củatoàn bộ văn bản Theo [Das và Martins 2007; Lloret 2008], cách thức tạo văn bảntóm tắt như vậy tỏ ra khá hiệu quả đối với các văn bản dài hoặc đa văn bản
Theo [Das và Martins 2007; Lloret 2008], mặc dù đã có nhiều giải pháp được
đề xuất và đạt được những kết quả quan trọng, một số vấn đề cơ bản của hướng tiếpcận tóm tắt trích xuất vẫn đang được các nhà khoa học nghiên cứu để khắc phục
Thứ nhất, những câu được trích xuất dựa trên việc xếp hạng mức độ quan trọng như
vậy có thể không xuất hiện liên tiếp nhau trong văn bản ban đầu Điều này dẫn đếnviệc mất đi sự liền mạch thông tin đã được thể hiện xuyên suốt thông qua các câu
liên tiếp trong văn bản nguồn Thứ hai, nhiều câu trong văn bản nguồn có sự xuất
hiện của các yếu tố hồi chỉ Mỗi yếu tố hồi chỉ sẽ có một yếu tố tiền ngữ tương ứngtrong văn bản Mối liên hệ giữa từng yếu tố hồi chỉ và yếu tố tiền ngữ tương ứngcũng giúp thể hiện sự liền mạch về nội dung và ngữ cảnh trong văn bản nguồn Việctrích xuất những câu không liên tiếp có thể khiến mối liên hệ giữa một số yếu tố hồichỉ và yếu tố tiền ngữ tương ứng bị mất đi Điều này dẫn đến việc nội dung và ngữ
cảnh thực sự của văn bản ban đầu sẽ không được thể hiện chính xác Thứ ba, việc
Trang 15trích xuất những ngữ đoạn không liên tiếp có thể khiến chúng bị rời rạc Việc kếthợp những ngữ đoạn này để tạo thành văn bản tóm tắt sẽ khiến nội dung bị lẫn lộn
và không liền mạch
Trong hướng tiếp cận tóm tắt trừu tượng, văn bản tóm tắt được tạo thành từ
mô hình biểu diễn nội dung ngữ nghĩa của văn bản nguồn [Das và Martins 2007;Kasture và cộng sự 2014; Khan và Salim 2014] Các từ vựng, ngữ đoạn và thậm chícâu trong văn bản tóm tắt có thể hoàn toàn mới so với văn bản nguồn Như vậy, haivấn đề quan trọng cần giải quyết trong hướng tiếp cận này là đề xuất được những
mô hình và cơ chế để: (a) hiểu và biểu diễn được ngữ nghĩa của văn bản nguồn và(b) tạo sinh được văn bản tóm tắt Tuy nhiên, trên thực tế, hiện nay chưa có nghiêncứu nào thực hiện đầy đủ ba tiến trình như trong định nghĩa của [Jones 1999, 2007].Hầu hết các nghiên cứu đều không thực hiện tiến trình thứ hai mà đi từ tiến trìnhthứ nhất thẳng đến tiến trình thứ ba Do vậy, cách tạo ra các câu ngôn ngữ tự nhiênmới chưa phải là tạo sinh theo đúng ý nghĩa được nêu bên trên
Ưu điểm rõ nét nhất của những phương pháp theo hướng tiếp cận tóm tắttrừu tượng là văn bản tóm tắt khá mạch lạc, giàu thông tin Từng câu có cấu trúc cúpháp phù hợp với ngôn ngữ được áp dụng và nội dung đáp ứng yêu cầu đặt ra Đểđạt được ưu điểm trên, những nhóm nghiên cứu theo hướng tóm tắt trừu tượng đã
cố gắng vượt qua những thách thức Đầu tiên, các tác giả phải đề xuất được cơ chế
hiểu và biểu diễn được nội dung ý nghĩa của văn bản nguồn Đặc biệt, những cơ chếnày phải phù hợp mục tiêu tóm tắt Một số cấu trúc đã được áp dụng để biểu diễnnội dung văn bản trong hướng tiếp cận tóm tắt trừu tượng như ontology [Lee vàcộng sự 2005], cây phụ thuộc [Barzilay và McKeown 2005; Filippova và Strube2008a], đồ thị từ vựng [Filippova 2010; Lloret và Palomar 2011] Những cấu trúcnày chưa biểu diễn được nhiều dạng đoạn văn bản khác nhau, và chưa thể hiện được
hết các mối quan hệ về ngữ cảnh ban đầu Thứ hai, cần phải có một mô hình biểu
diễn trừu tượng văn bản tóm tắt Cho đến hiện tại, mới chỉ có một số nghiên cứu vềtóm tắt văn bản có đề xuất một mô hình biểu diễn trừu tượng như vậy [Greenbacker2011; Genest và Lapalme 2010, 2011, 2012; Moawad và Aref 2012] Mặc dù đạt
Trang 16được một số kết quả đáng chú ý, nhưng những mô hình biểu diễn trừu tượng nàychưa bao phủ được nhiều dạng văn bản và cần tốn rất nhiều nỗ lực để xây dựng.
Cuối cùng là cơ chế tạo sinh câu và văn bản tóm tắt Việc đề xuất được những cơ
chế tạo sinh câu và đoạn văn bản hoàn chỉnh vẫn đang là thách thức không nhỏngay cả trong lĩnh vực Tạo sinh ngôn ngữ tự nhiên [Reiter và Dale 1997a, 1997b].Ngoài ra, một điểm quan trọng là việc áp dụng kiến thức về Ngôn ngữ học nhằmgiúp văn bản tóm tắt có được tính đúng đắn ngữ pháp trong khi đảm bảo về mặt ngữnghĩa
Dựa trên những khảo sát bên trên về lĩnh vực tóm tắt văn bản, luận án xácđịnh đi theo hướng tiếp cận tóm tắt trừu tượng với sự kết hợp những kỹ thuật vềkhoa học máy tính như Hiểu và biểu diễn văn bản, Tạo sinh ngôn ngữ tự nhiên vớinhững kiến thức Ngôn ngữ học phù hợp
Mục tiêu và nội dung nghiên cứu
Mục tiêu của luận án là đề xuất giải pháp tạo sinh đoạn văn bản tóm tắt nhằmtóm tắt nội dung thông tin của đoạn văn bản tiếng Việt cho trước
Để đạt được mục tiêu trên, luận án đề ra những nội dung cụ thể sau:
1 Đề xuất các phương pháp tạo dựng Cấu trúc biểu diễn ngữ nghĩa trừu tượng
(CT-BD-NN-TT) cho đoạn văn bản tiếng Việt đầu vào Nội dung này baogồm việc giải quyết hai bài toán con:
a Tạo dựng cấu trúc biểu diễn cấp độ bề mặt (CT-BD-CĐ-BM) cho đoạnvăn bản tiếng Việt đầu vào
b Chuyển đổi CT-BD-CĐ-BM về CT-BD-NN-TT
2 Đề xuất các phương pháp tạo sinh đoạn văn bản tóm tắt dựa trên NN-TT
Trang 17CT-BD-Phạm vi và đối tượng nghiên cứu
Phạm vi nghiên cứu
Đề xuất mô hình giải pháp tạo sinh đoạn văn bản tóm tắt nhằm tóm tắt nộidung thông tin đoạn văn bản tiếng Việt cho trước theo hướng tiếp cận tóm tắt trừutượng, với sự kết hợp những kỹ thuật tạo sinh ngôn ngữ tự nhiên và kiến thức ngônngữ học phù hợp trong Ngữ pháp chức năng [Cao 2006; Halliday và Matthiessen2004]
Luận án nghiên cứu sự phân loại các dạng câu đơn tiếng Việt theo nghĩa biểuhiện của chúng trong Ngữ pháp chức năng [Cao 2006], được thể hiện trong Bảng2.1
Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án là những dạng đoạn văn bản tiếng Việt,những yếu tố hồi chỉ trong tiếng Việt:
1 Đối tượng nghiên cứu thứ nhất là những cặp câu tiếng Việt đơn giản Từngcâu có cấu trúc đơn giản thuộc một trong các dạng trong Bảng 2.2 Mối quan
hệ giữa hai câu được thể hiện bởi một hoặc hai đại từ hồi chỉ trong câu thứhai Những đại từ hồi chỉ này thuộc dạng 1, 2 hoặc 3 trong Bảng 2.3
2 Đối tượng nghiên cứu thứ hai là những đoạn văn bản ngắn gồm nhiều hơnhai câu tiếng Việt Từng câu có cấu trúc đơn giản thuộc một trong các dạngtrong Bảng 2.2 Các câu có sự xuất hiện của một hoặc hai đại từ hồi chỉ Cácđại từ hồi chỉ này thuộc dạng 1, 2 hoặc 3 trong Bảng 2.3
3 Đối tượng nghiên cứu thứ ba là những đoạn văn bản tiếng Việt Mỗi đoạnvăn bản có từ 2 đến 5 câu ở thể trần thuật Từng câu có số lượng không quá
25 từ vựng tiếng Việt Trong từng đoạn văn bản có sự xuất hiện của các yếu
tố hồi chỉ thuộc các dạng trong Bảng 2.3
4 Đối tượng nghiên cứu thứ tư là những dạng yếu tố hồi chỉ trong tiếng Việt.Dựa trên sự phân loại những dạng yếu tố hồi chỉ trong tiếng Việt trong Ngữ
Trang 18pháp chức năng [Cao 2006], luận án nghiên cứu những dạng yếu tố hồi chỉtrong Bảng 2.3.
Luận án thu thập các đoạn văn bản tiếng Việt từ những nguồn dữ liệu:
1 Nguồn dữ liệu thứ nhất là bộ sách giáo khoa tiếng Việt cấp một:
Bảng 0.1 Nguồn dữ liệu sách giáo khoa tiếng Việt cấp một
1 Đặng Thị Lanh (chủ biên) (2012), Sách giáo khoa Tiếng Việt lớp 1, tập 1 – 2,Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo
2 Nguyễn Minh Thuyết (chủ biên) (2012), Sách giáo khoa Tiếng Việt lớp 2, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo
3 Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 3, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo
4 Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 4, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo
5 Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 5, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo
2 Nguồn tài liệu thứ hai là những bộ truyện ngắn song ngữ Anh – Việt:
Bảng 0.2 Nguồn dữ liệu truyện ngắn song ngữ Anh – Việt trình độ A và B
1 Tuyết Hồng, Minh Tâm (dịch) (1994), Tập dịch những mẩu chuyện vui tiếngAnh – Mỹ [Nguyên bản: L A Hill, Elementary Anecdotes in American English],tập 1, Nhà xuất bản Thành phố Hồ Chí Minh
2 Kim Tiến (dịch và biên soạn) (1994), Luyện đọc những mẩu chuyện tiếng Anh B[Nguyên bản: L A Hill, Further stories for reading comprehension B], Nhà xuấtbản Thành phố Hồ Chí Minh
3 Nguyễn Ngọc Hiếu (dịch) (2002), Tuyển tập truyện cười song ngữ Anh – Việt[Nguyên bản: Funny story collection in bilingual English – Vietnamese], Nhàxuất bản Văn hóa – Thông tin
4 Nguyễn Thế Dương (dịch) (2004), O-henry, Những truyện ngắn hay nhất thế giới
Trang 19[Nguyên bản: L A Hill, Further stories for reading comprehension B], Nhà xuấtbản Hải Phòng.
3 Nguồn tài liệu thứ ba là những trang web truyện cổ tích tiếng Việt và tiếngAnh:
Bảng 0.3 Nguồn dữ liệu trang web truyện cổ tích tiếng Việt và tiếng Anh
4 Nguồn tài liệu thứ tư là những trang web từ điển:
Bảng 0.4 Nguồn dữ liệu trang web từ điển
Trang 20• Giai đoạn 1 Luận án phân tích các đối tượng nghiên cứu là những dạng
đoạn văn bản tiếng Việt khác nhau và những yếu tố hồi chỉ xuất hiện trongtừng đoạn văn bản
• Giai đoạn 2 Luận án đề xuất các quy tắc và giải thuật để tạo dựng
CT-BD-CĐ-BM giúp biểu diễn toàn bộ nội dung thông tin của đoạn văn bản đầu vào.Giai đoạn này tương ứng với tiến trình thứ nhất theo tiêu chuẩn cho một hệthống tóm tắt hoàn chỉnh của [Jones 1999, 2007]
• Giai đoạn 3 Luận án đề xuất các quy tắc và giải thuật để chuyển đổi
CT-BD-CĐ-BM về CT-BD-NN-TT giúp biểu diễn nội dung thông tin chính củađoạn văn bản đầu vào Giai đoạn này tương ứng với tiến trình thứ hai theotiêu chuẩn cho một hệ thống tóm tắt hoàn chỉnh của [Jones 1999, 2007]
• Giai đoạn 4 Luận án đề xuất các cơ chế tạo sinh các câu và đoạn văn bản
tóm tắt từ CT-BD-NN-TT Giai đoạn này tương ứng với tiến trình thứ ba theotiêu chuẩn cho một hệ thống tóm tắt hoàn chỉnh của [Jones 1999, 2007].Phương thức tiếp cận của luận án được thể hiện qua mô hình giải pháp đượctrình bày trong Hình 0.1
Trang 21Mô hình giải pháp trong Hình 0.1 bao gồm hai thành phần chính:
1 Thành phần thứ nhất được gọi là Phân tích và Biểu diễn ngữ nghĩa văn bản
tiếng Việt Thành phần này nhận đầu vào là một đoạn văn bản tiếng Việt.
Đầu ra của thành phần này là một CT-BD-NN-TT
2 Thành phần thứ hai được gọi là Tạo sinh văn bản tiếng Việt Đầu vào của
thành phần này là CT-BD-NN-TT được tạo ra từ thành phần Phân tích vàBiểu diễn ngữ nghĩa văn bản tiếng Việt Đầu ra của thành phần này, cũng làkết quả cuối cùng của mô hình giải pháp, là một đoạn văn bản tiếng Việthoàn chỉnh
Đóng góp khoa học của luận án
Trong quá trình thực hiện luận án, tác giả đã có những đóng góp khoa họcchính:
1 Đề xuất mô hình giải pháp tạo sinh đoạn văn bản tóm tắt
2 Đề xuất những phương pháp tạo dựng CT-BD-NN-TT:
Hình 0.1 Mô hình giải pháp tổng thể của luận án.
Trang 22a Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt gồm hai giai đoạn Giai
đoạn thứ nhất, luận án đề xuất phương pháp tạo dựng một
CT-BD-CĐ-BM được gọi là cấu trúc ngữ đoạn bề mặt Cũng trọng giai đoạn này, luận
án đề xuất phương pháp dựa trên quy tắc để chuyển đổi CT-BD-CĐ-BM
về đoạn văn bản bao gồm các câu tiếng Việt có cấu trúc đơn giản, lànhững cấu trúc được trình bày trong Bảng 2.2 Nội dung việc thực hiệnGiai đoạn thứ nhất được trình bày trong công trình [CT 10] của tác giả
luận án Giai đoạn thứ hai, luận án đề xuất phương pháp xác định mối
liên hệ giữa từng yếu tố hồi chỉ thuộc dạng 1, 2, 3 trong Bảng 2.3 với yếu
tố tiền ngữ tương ứng đồng thời tạo dựng CT- BD-NN-TT của đoạn vănbản kết quả của Giai đoạn thứ nhất Nội dung việc thực hiện Giai đoạnthứ hai được trình bày trong các công trình [CT 1, CT 2, CT 5, CT 6,
CT 8, CT 13] của tác giả luận án
b Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn được gán nhãn gồm hai
giai đoạn Giai đoạn thứ nhất, luận án đề xuất phương pháp tạo dựng một
CT-BD-CĐ-BM được gọi là cấu trúc đồ thị ngữ đoạn được gán nhãn.Trong giai đoạn này, luận án đồng thời đề xuất phương pháp xác định mốiliên hệ giữa từng yếu tố hồi chỉ trong Bảng 2.3 với yếu tố tiền ngữ tươngứng Nội dung việc thực hiện Giai đoạn thứ nhất được trình bày trong các
công trình [CT 11, CT 12] của tác giả luận án Giai đoạn thứ hai, luận án
đề xuất phương pháp chuyển đổi mô hình biểu diễn trung gian thành BD-NN-TT Nội dung việc thực hiện Giai đoạn thứ hai được trình bàytrong công trình [CT 12] của tác giả luận án
CT-3 Đề xuất những phương pháp xác định yếu tố tiền ngữ cho những dạng yếu tốhồi chỉ khác nhau trong đoạn văn bản tiếng Việt nguồn Nội dung việc thựchiện những phương pháp này được trình bày trong các công trình [CT 1, CT
2, CT 5, CT 6, CT 8, CT 11, CT 13] của tác giả luận án
4 Đề xuất những phương pháp tạo sinh câu và đoạn văn bản tóm tắt tiếng Việtdựa trên một dạng CT-BD-NN-TT Nội dung việc thực hiện những phương
Trang 23pháp này được trình bày trong các công trình [CT 3, CT 4, CT 5, CT 6, CT.
7, CT 8, CT 9, CT 13] của tác giả luận án
Bố cục của luận án
Luận án được bố cục gồm các Chương, Mục như sau:
• Mở đầu Chương này giới thiệu tóm tắt: đặt vấn đề nghiên cứu; mục tiêunghiên cứu; phạm vi và đối tượng nghiên cứu; phương pháp nghiên cứu vàcách tiếp cận; nội dung nghiên cứu; các đóng góp khoa học của luận án; bốcục của luận án
• Chương 1 Chương này trình bày tổng quan về những nghiên cứu liên quantrong lĩnh vực tóm tắt văn bản Luận án phân tích một số ưu, nhược điểm củanhững nghiên cứu đại diện cho hai hướng tiếp cận tóm tắt trích xuất và trừutượng trong chương này
• Chương 2 Chương này trình bày những kiến thức nền tảng trong Khoa họcmáy tính và Ngôn ngữ học, là cơ sở để đề xuất những phương pháp, cơ chế
xử lý trong luận án
• Chương 3 Chương này trình bày các phương pháp được đề xuất để hiện thựcthành phần Phân tích và Biểu diễn ngữ nghĩa văn bản tiếng Việt trong môhình giải pháp ở Hình 0.1
• Chương 4 Chương này trình bày các phương pháp được đề xuất để hiện thựcthành phần Tạo sinh văn bản tiếng Việt trong mô hình giải pháp ở Hình 0.1
• Kết luận và hướng phát triển
• Tài liệu tham khảo
Trang 24Trong lĩnh vực tóm tắt văn bản, một câu hỏi được đặt ra là: Những nội dungthông tin quan trọng nào trong văn bản nguồn sẽ được giữ lại trong văn bản tóm tắt?Trong hơn nửa thế kỷ qua, nhiều mô hình và phương pháp đã được đề xuất để trả lờicho câu hỏi nói trên [Das và Martins 2007; Fattah và Ren 2008; Jezek vàSteinberger 2008; Jones 1999, 2007; Lloret 2008; Mani và Maybury 1999; Mani2001b; Saranyamol và Sindhu, 2014] Dựa trên cách thức xây dựng và tạo sinh vănbản tóm tắt, lĩnh vực tóm tắt văn bản được phân loại thành các hướng tiếp cận:
Trang 251.1 Hướng tiếp cận tóm tắt dựa trên trích xuất
Các nghiên cứu tóm tắt văn bản theo hướng tiếp cận tóm tắt dựa trên tríchxuất thông tin [Nguyễn và Lê 2008; Bracewell và cộng sự 2005; Brandow và cộng
sự 1995; Carenini và Cheung 2008; Chen và cộng sự 2002; Das và Martins 2007;Fattah và Ren 2008; Jezek và Steinberger 2008; Jones 1999, 2007; Le và cộng sự2010; Lloret 2008; Mani và cộng sự 1998; Mani và Maybury 1999; Mani 2001b;Nguyen và Nguyen 2013; Nguyen và cộng sự 2013; Nguyen và cộng sự 2004] tìmcách lựa chọn (trích xuất) những câu hoặc ngữ đoạn được đánh giá là quan trọngnhất trong văn bản nguồn để tạo thành văn bản tóm tắt Cách thức đánh giá tầmquan trọng của các câu và ngữ đoạn trong văn bản nguồn được dựa trên những phântích thống kê về các đặc điểm hình thức của văn bản như tần số xuất hiện của từ
Hình 1.1 Tổng quan các hướng tiếp cận trong lĩnh vực tóm tắt văn bản.
Trang 26vựng hoặc ngữ đoạn, vị trí xuất hiện trong những câu được trích xuất v.v Đặc điểmcủa cách tiếp cận này là bỏ qua những phân tích sâu về ngữ nghĩa của văn bản.
Về cơ bản, một quá trình tóm tắt dựa trên trích xuất sẽ bao gồm hai bướcchính [Nguyễn và Lê 2008; Bracewell và cộng sự 2005; Brandow và cộng sự 1995;Carenini và Cheung 2008; Das và Martins 2007; Fattah và Ren 2008; Jezek vàSteinberger 2008; Jones 1999, 2007; Le và cộng sự 2010; Lloret 2008; Mani vàcộng sự 1998; Mani và Maybury 1999; Mani 2001b; Nguyen và Nguyen 2013;
Nguyen và cộng sự 2013; Nguyen và cộng sự 2004] Bước thứ nhất là tiền xử lý.
Bước tiền xử lý sẽ thực hiện biểu diễn cấu trúc của văn bản nguồn Bước này baogồm các tác vụ: (a) xác định ranh giới giữa các câu; (b) loại bỏ những từ thôngthường không có nghĩa và thông tin liên quan tác vụ; (c) nhận về thân hoặc cơ số
của từng từ mà nhấn mạnh ngữ nghĩa của nó Bước thứ hai thực hiện việc xác định
và tính toán những đặc trưng có ảnh hưởng đến sự liên quan của các câu Cácphương pháp học có trọng số thường được áp dụng để gán trọng số cho những đặctrưng này Những câu có điểm cao nhất sẽ được chọn để tạo văn bản tóm tắt
Những đặc trưng sau đây thường được dùng để đánh giá điểm số về mức độquan trọng của các câu [Gupta và Lehal 2010; Lloret 2008] Đầu tiên là đặc trưng
về từ vựng trong nội dung văn bản (các từ khóa) Các từ khóa thường là danh từ Để
trích xuất từ khóa, các nghiên cứu trước đây thường sử dụng các phương pháp tríchxuất dựa trên ba bước [Gupta và Lehal 2010; Lloret 2008]: đánh giá hình thái họccủa từ - trích xuất và cho điểm những ngữ đoạn danh từ - phân nhóm và cho điểmnhững ngữ đoạn danh từ Ngoài đặc trưng về từ nội dung, các nghiên cứu còn sử
dụng đặc trưng về từ tiêu đề Những câu có chứa các từ xuất hiện trong tiêu đề
thường có liên hệ đến chủ đề của văn bản Những câu này có khả năng cao được
trích xuất để tạo văn bản tóm tắt Kế tiếp là đặc trưng về vị trí của câu Những câu
nằm ở vị trí đầu và cuối của đoạn đầu và đoạn cuối của một văn bản thường đượcxem là có quan hệ mật thiết với chủ đề của văn bản và dễ dàng được chọn để tạo
văn bản tóm tắt Một đặc trưng nữa là độ dài của câu Những câu quá dài hoặc quá ngắn thường bị loại bỏ trong quá trình tạo thành tóm tắt Một đặc trưng nữa là danh
Trang 27từ riêng Danh từ riêng thường là tên riêng của người, địa danh, … và chúng được
xem là có quan hệ mật thiết đến chủ đề của văn bản Những câu chứa danh từ riêng
do đó thường có khả năng cao được chọn để tạo thành tóm tắt Từ viết hoa cũng là
một đặc trưng hay được sử dụng Những từ viết hoa thường là danh từ riêng hoặc từviết tắt đại diện cho một cụm từ quan trọng Do vậy, những câu có chứa những từnày được xem xét là có ý nghĩa quan trọng trong văn bản và thường được trích xuất
để tạo thành tóm tắt Đặc trưng về cụm từ gợi ý / liên kết là một đặc trưng liên quan
đến ngôn ngữ được dùng trong văn bản Những câu có chứa cụm từ gợi ý / liên kếtnhư “tóm lại”, “kết luận”, “mục đích”,… thường được xem xét trích xuất để tạothành tóm tắt do có quan hệ mật thiết đến chủ đề của văn bản Một số nghiên cứu
còn sử dụng đặc trưng về từ quan trọng được xác định trước Nếu những câu nào đó
trong văn bản có chứa những từ quan trọng được liệt kê trong một danh sách đượcxác định trước thì những câu này cũng được xem là quan trọng và thường được
trích xuất để tạo văn bản tóm tắt Một đặc trưng nữa là phông chữ Những câu có
chứa các từ được viết hoa, in đậm, in nghiêng hay gạch dưới thường là những câu
quan trọng và được trích xuất để tạo thành tóm tắt Một đặc trưng khác nữa là đại
từ Những đại từ như “cô”, “anh”, “họ”, “nó”,… không được đưa vào trong tóm tắt
trừ khi được diễn giải bằng những cụm danh từ tương ứng Ngoài ra còn những đặcđiểm khác cũng được sử dụng để đánh giá mức độ quan trọng của các câu trong vănbản [Gupta và Lehal 2010; Lloret 2008]: mức độ tương tự giữa các câu hay giữa cáccâu với trọng tâm của văn bản; sự xuất hiện của những thông tin ít quan trọng,…
Bảng 1.1 Một số hệ thống tóm tắt văn bản theo hướng tiếp cận dựa trên trích xuất
• Lọc thuật ngữ và tần số từ vựng đượcthực thi
• Những câu được đánh trọng số bởi
Trang 28những thuật ngữ quan trọng bên trong.
• Phân loại và trích xuất câu được thực thi.[Edmundson
1969]
Đơn vănbản
Những bàibáo
• Những kỹ thuật sử dụng: tần số từvựng, ngữ đoạn chính, từ trong tiêu
đề và mở đầu, vị trí câu
• Sử dụng một phương pháp xử lý từvựng
ANES
[Lloret
2008]
Đơn vănbản
Tin tức • Dùng độ đo tf x idf
Những tiểusử
Tin tức • Dựa trên các kỹ thuật máy học
• Sử dụng thuật toán mạng nơ-ron nhântạo
1.2 Hướng tiếp cận tóm tắt trừu tượng
Các phương pháp theo hướng tiếp cận tóm tắt trừu tượng được phân chia tiếpthành hai phương thức tiếp cận nhỏ hơn [Kasture và cộng sự 2014; Khan và Salim
2014; Lloret 2008]: Phương thức tiếp cận thứ nhất là dựa trên cấu trúc (“structured
based”) Trong phương thức tiếp cận này, các tác giả cố gắng xác định những nộidung quan trọng bằng cách sử dụng những cấu trúc như cây, mẫu, ontology, …
Phương thức tiếp cận thứ hai là dựa trên ngữ nghĩa (“semantic based”) Trong
phương thức tiếp cận này, các tác giả đã áp dụng các phương pháp dựa trên tạo sinhngôn ngữ tự nhiên để tạo ra những biểu diễn ngữ nghĩa
Trang 291.2.1 Phương pháp tiếp cận dựa trên cấu trúc
1.2.1.1 Phương pháp dựa trên cấu trúc mẫu
Trong phương pháp tiếp cận này, các tác giả sẽ xây dựng một cấu trúc mẫu lànhững mẩu văn bản nhỏ để biểu diễn các văn bản cho trước và tạo sinh văn bản tómtắt Họ áp dụng những quy tắc trong một hệ thống trích xuất thông tin [Harabagiu
và Lacatusu 2002] để trích xuất những thông tin từ nhiều văn bản Những thông tinnày được sử dụng để lấp đầy các mẫu và tạo ra các tóm tắt đa văn bản Hạn chế củaphương pháp tiếp cận này là: (a) Nó đòi hỏi các câu ngôn ngữ tự nhiên mới phảixuất hiện trong những văn bản nguồn; (b) Không thể xác định những thông tintương tự và khác nhau giữa những văn bản nguồn
1.2.1.2 Phương pháp dựa trên ontology
Phương pháp này sử dụng các ontology, đặc biệt là các ontology mờ, để cảitiến quá trình tóm tắt Phương pháp này giúp cho việc xử lý những dữ liệu hay thayđổi và có thể tóm tắt tốt những văn bản trên những trang điện tử có cấu trúc dữ liệuriêng Tuy nhiên, vì những chuyên gia lĩnh vực phải tốn rất nhiều công sức để địnhnghĩa từ điển và từ vựng tin tức nên cho đến hiện tại, phương pháp này mới chỉđược áp dụng để tóm tắt những trang tin tức bằng tiếng Trung Quốc với nhữngnghiên cứu của [Lee và cộng sự 2005]
1.2.1.3 Phương pháp dựa trên những ngữ đoạn đầu và thân.
Những nghiên cứu theo phương pháp này tập trung vào việc viết lại nhữngcâu mở đầu bằng việc sử dụng cách thức thêm và thay thế những ngữ đoạn trong
những câu mở đầu cũng như những câu ở phần thân có chung cấu trúc cú pháp đầu
(“head chunk”) [Tanaka và cộng sự 2009] đã đề xuất một phương pháp theo cáchtiếp cận này và áp dụng để tóm tắt những bản tin phát thanh Họ xác định nhữngngữ đoạn lớn nhất của từng cấu trúc cú pháp đầu trong những câu mở đầu và câu ởphần thân Những thao tác thay thế và thêm được áp dụng cho những ngữ đoạn này
để sửa lại câu mở đầu Bằng cách sử dụng phương pháp này, họ có thể tìm đượcnhững cách viết lại phù hợp theo ngữ nghĩa Tuy nhiên, tương tự những phương
Trang 30pháp dựa trên cấu trúc khác, hạn chế của phương pháp này là chưa đề xuất đượcmột mô hình hoàn chỉnh.
1.2.1.4 Phương pháp dựa trên quy tắc
[Genest và Lapalme 2012] đã trình bày một phương pháp với ba thành phần
Thành phần thứ nhất thực hiện việc trích xuất thông tin Thành phần này xác định
những quy tắc ứng viên cho từng thể của động từ và danh từ Thành phần thứ hai
thực hiện việc lựa chọn nội dung Thành phần này lựa chọn quy tắc tốt nhất cho
từng thể Thành phần thứ ba thực hiện việc tóm tắt Thành phần này tạo văn bản
đầu ra sử dụng những mẫu tạo sinh Với phương pháp này, các tác giả đã tạo ranhững văn bản tóm tắt với thông tin nhiều hơn Tuy nhiên, họ cũng tốn rất nhiềucông sức để xây dựng thủ công tất cả các quy tắc và mẫu
1.2.2 Phương pháp tiếp cận dựa trên ngữ nghĩa
1.2.2.1 Phương pháp dựa trên ngữ nghĩa đa thể hiện
Một nền tảng được đề xuất bởi [Greenbacker 2011] dựa trên ngữ nghĩa đa thể
hiện (“multimodal”) với ba bước chính Bước thứ nhất là sử dụng ontology để xây
dựng một biểu diễn mô hình ngữ nghĩa những nội dung của những văn bản đa thể
hiện Bước thứ hai là một metric đánh giá những khái niệm trong ontology với
nhiều yếu tố như tính đầy đủ của những thuộc tính, số lượng mối quan hệ với những
khái niệm khác,… Bước thứ ba là một bộ tạo sinh sẽ tạo tóm tắt với những khái
niệm quan trọng nhất Ý tưởng để tạo sinh tóm tắt tóm tắt là đóng góp quan trọngnhất của nền tảng này vì nó bao gồm nội dung nguyên văn nổi bật và sinh động.Một điểm cần nghiên cứu sâu hơn là việc đánh giá được thực hiện thủ công
1.2.2.2 Phương pháp dựa trên mục tin tức
Một nghiên cứu khác trong tóm tắt tóm tắt đa văn bản được thực hiện bởi[Genest và Lapalme 2011] tập trung tạo sinh tóm tắt từ biểu diễn trừu tượng của
những văn bản nguồn được gọi là mục tin tức (“information item”) Các tác giả giới thiệu một nền tảng để tóm tắt với những thành phần chính Thành phần thứ nhất
thực hiện việc lấy mục tin tức Thành phần này phân tích cú pháp của văn bản
Trang 31nguồn và trích xuất những chủ đề của động từ và đối tượng Thành phần thứ hai thực hiện việc tạo sinh câu mới Thành phần thứ ba thực hiện việc lựa chọn câu.
Thành phần này đánh giá những câu được tạo sinh với những điểm số phù hợp
Thành phần thứ tư thực hiện việc tạo sinh tóm tắt Thành phần này kết hợp những
câu được tạo sinh có điểm cao nhất với những thông tin về ngày tháng và địa điểm
để tạo thành tóm tắt hoàn chỉnh Mặc dù tóm tắt ngắn ngọn, có tính mạch lạc, giàuthông tin và ít rườm rà, vẫn còn đó những giới hạn của phương pháp tiếp cận này:(a) Có thể bỏ qua một số những mục tin tức mà có thể khó khăn trong việc tạo thànhnhững câu có ý nghĩa và đúng ngữ pháp; (b) Trong thành phần lấy mục tin, nếu việcphân tích thành cây cú pháp không chính xác, như vậy chất lượng ngôn ngữ học củatóm tắt là không cao
1.2.2.3 Phương pháp dựa trên đồ thị ngữ nghĩa
[Moawad và Aref 2012] tạo thành một đồ thị ngữ nghĩa gọi là đồ thị ngữ
nghĩa giàu (“Rich Semantic Graph”) để biểu diễn ngữ nghĩa của văn bản nguồn Đồ
thị này sẽ được làm giảm đi bằng việc sử dụng những quy tắc heuristic và chuyểnđổi thành tóm tắt tóm tắt Kết quả đầu ra của phương pháp này có thể súc tích, mạchlạc và ít rườm rà Tuy nhiên, phương pháp này thiếu những kiến thức trong những
lý thuyết ngôn ngữ học Do vậy, tóm tắt có thể không hoàn toàn đúng ngữ pháp vàkhông mang tính tự nhiên trong ngôn ngữ được áp dụng
1.2.3 Hướng tiếp cận trộn câu - nén câu
Những kỹ thuật trộn câu và nén câu được đề xuất là hướng tiếp cận hẹp củatóm tắt văn bản theo hướng tóm tắt trừu tượng Nén câu bao gồm những chiến lượcnhư thay thế một câu hay ngữ đoạn trong văn bản nguồn bởi một từ thay thế và loại
bỏ những từ không cần thiết trong câu hay ngữ đoạn này Một số nghiên cứu gầnđây để nén câu tiếng Việt cũng đã được một số tác giả thực hiện [Luong và cộng sự2015; Tran và cộng sự 2015] Thuật ngữ trộn câu được giới thiệu lần đầu bởi
[Barzilay và McKeown 2005] Họ định nghĩa trộn câu là một kỹ thuật tạo sinh văn
bản - tới - văn bản (“text-to-text generation”) cho việc tổng hợp những thông tin
Trang 32chung qua những văn bản Về cơ bản trộn câu là một kỹ thuật chuyển đổi thông tin
từ một hay nhiều câu thành một câu đơn đầu ra Ý niệm của trộn câu đã tồn tại trước
đó những với những tên gọi khác nhau Nó được sử dụng đầu tiên để tóm tắt văn
bản tự động bởi [Barzilay và cộng sự 1999] dưới tên gọi trộn thông tin
(“information fusion”) [Jing và cộng sự 1998] cũng sử dụng trộn câu cho tóm tắt
văn bản tự động và họ sử dụng thuật ngữ kết hợp câu (“sentence combination”).
Một số tác giả cũng đã thực hiện nghiên cứu trộn các đoạn văn bản có nội dungtương tự để tạo thành văn bản tóm tắt [Ung và cộng sự 2015] Trong nghiên cứu nàycác tác giả tập trung vào việc xem xét những bản tin và phân tích những đặc trưngnổi trội để tạo thành văn bản tóm tắt sau cùng
Trộn câu có thể được phân tách thành hai dạng, trộn hỗn hợp (“union fusion”) và trộn giao nhau (“intersection fusion”), dựa trên thông tin trong câu đầu
ra được tạo sinh [Barzilay và McKeown 2005] Trong trộn hỗn hợp, câu đầu ra chứanhững thông tin xuất hiện trong cả hai câu ban đầu Trong trộn giao nhau, câu đầu
ra chứa những thông tin chung xuất hiện trong cả hai câu Phương pháp trộn câuđược đề xuất bởi [Barzilay và McKeown 2005] là một ví dụ của trộn giao nhau
1.2.3.1 Phương pháp sử dụng cây phụ thuộc
Cây phụ thuộc (“dependency tree”) là một dạng biểu diễn kết quả phân tích
cú pháp của một câu Dạng biểu diễn này thể hiện các mối liên hệ ngữ pháp và phụthuộc giữa các từ vựng trong câu Trong hướng tiếp cận trộn câu, các câu được trộntrước tiên sẽ được biễu diễn dưới dạng những cây phụ thuộc Những cây này sẽđược trộn lại thành một cây duy nhất và sau đó được chuyển đổi thành một câu mớigọi là câu trộn Quá trình chuyển đổi một cây phụ thuộc thành một chuỗi từ vựng
được gọi là sự tuyến tính hóa cây (“tree linearization”).
[Barzilay và McKeown 2005] phát triển một phương pháp trộn câu trong ngữ
cảnh của tóm tắt đa văn bản với ba bước xử lý chính Bước thứ nhất là nhận biết
những thông tin chung Trong bước này, những thông tin được chia sẻ giữa hai câunguồn sẽ được nhận biết Trước tiên, từng câu sẽ được biểu diễn cấu trúc cú pháp
Trang 33thành cây phụ thuộc Sau đó, những cây này sẽ được so khớp Những cây phụ thuộcđược thiết kết tốt với những thông tin của từng từ vựng trong câu được lưu trữ tại
mỗi nút Bước thứ hai là so khớp những cây phụ thuộc Trong bước này những cây
phụ thuộc sẽ được kết hợp để tạo thành một cây duy nhất Cây được tạo thành sẽđược tiếp tục điều chỉnh thông qua hai bước: (a) làm giàu cây bằng cách thêm vàonhững đường đi và cây con với điều kiện chúng xuất hiện đủ nhiều trong những câuban đầu; (b) tỉa cây bằng cách loại bớt những cây con không xuất hiện nhiều trongcác cây đầu vào và không có tầm quan trọng về ngữ pháp được quy định trước
Bước thứ ba là tuyến tính hóa cây là tác vụ cuối cùng trong hệ thống trộn câu theo
phương pháp này Cây phụ thuộc đầu ra sẽ được sử dụng làm nền tảng tạo sinh câungôn ngữ tự nhiên mới Những chuỗi câu ứng viên khác nhau sẽ được tạo sinh vàđược xếp hạng dựa theo một mô hình ngôn ngữ tri-gram
[Krahmer và cộng sự 2008] mở rộng tiếp cận trong [Barzilay và McKeown2005] để thực hiện trộn câu trong ngữ cảnh của các hệ thống hỏi đáp Họ không chỉthực hiện trộn giao nhau mà còn thực hiện trộn hỗn hợp Thực hiện tương tự[Barzilay và McKeown 2005] cho ba thành phần chính của một hệ thống trộn câu:(a) ở thành phần sắp hàng, đề xuất chiến lược để hiểu thêm làm thế nào những từvựng và ngữ đoạn trong các câu đầu vào liên hệ với nhau, trong đó có sự chồngchéo thông tin, diễn giải thông tin theo các cách khác nhau, sự kế thừa thông tin,…;(b) ở thành phần trộn, xác định trước dạng trộn là hỗn hợp hay giao nhau để quyếtđịnh trộn cây phụ thuộc; (c) xác định sự tuyến tính hóa tốt nhất với một mô hìnhngôn ngữ
[Filippova và Strube 2008a] đề xuất phương pháp trộn câu không giám sát.Phương pháp này bắt đầu với việc sắp hàng các cây phụ thuộc của các câu có quan
hệ với nhau để tạo thành một đồ thị phụ thuộc Tiếp đến, họ sử dụng lập trình tuyến
tính số nguyên (“integer linear programming”) để nén đồ thị này và tạo thành cây
mới Các đồng đối số trong câu kết quả sẽ được kiểm tra tính hợp lệ về cú pháp vàngữ nghĩa
Trang 341.2.3.2 Phương pháp sử dụng đồ thị từ vựng
Phương pháp sử dụng đồ thị từ vựng (“word graph”) được [Filippova 2010]
đề xuất với ưu điểm là không sử dụng tài nguyên bên ngoài Phương pháp này baogồm việc sử dụng một đồ thị từ vựng của các câu cần được trộn và nén, từ đó xácđịnh đường đi ngắn nhất có chứa các thông tin chung để tạo văn bản tóm tắt Một số
kỹ thuật được sử dụng trong phương pháp này là tách từ (“tokenizer”) và gán nhãn
từ vựng (“part-of-speech tagger”).
[Boudin và Morin 2013] đã cải tiến phương pháp trong [Filippova 2010]bằng cách đề xuất phương pháp đánh giá lại dựa theo việc trích xuất những cụm từkhóa và tạo ra những câu nén có nhiều thông tin và được nhấn mạnh hơn
Chương này đã trình bày tổng quan về bài toán tóm tắt văn bản và tập trungphân tích ưu điểm, hạn chế của các phương pháp tóm tắt văn bản truyền thống Bắtđầu từ những nghiên cứu đầu tiên trong [Baxendale 1958, Edmundson 1969; Luhn
1958], suốt hơn nửa thế kỉ, nhiều phương pháp tóm tắt văn bản được đề xuất dựatrên những kỹ thuật và giải thuật trong lĩnh vực Máy học và Trích xuất thông tin[Das và Martins 2007; Fattah và Ren 2008; Jezek và Steinberger 2008] Trongkhoảng một thập kỉ gần đây, hướng tiếp cận “tóm tắt trừu tượng” bắt đầu phát triểnvới một số nghiên cứu đáng chú ý [Alguliev và Aliguliyev 2005; Chaowalit vàSornil 2014; Chopra và cộng sự 2016; Clarke và Lapata 2006a, 2006b, 2008, 2010;Cohn và Lapata 2008; Copeck và cộng sự 2002; Elsner và Santhanam 2011;Filippova và Strube 2008a, 2008b; Gerani và cộng sự 2014; Harabagiu và Lacatusu2002; Jagadish và cộng sự 2014; Kasture và cộng sự 2014; Khan và Salim 2014;Kyoomarsi và cộng sự 2008; Le và Le 2013; Liu và cộng sự 2015; Lloret 2008;Lloret và Palomar 2010; Marsi và Krahmer 2005; Mohan và cộng sự 2016;Muralikrishna và Reddy 2015; Nallapati và cộng sự 2016; Paulus và cộng sự 2017;Radev và cộng sự 2002; Rush và cộng sự 2015; Saggion và Lapalme 2002;Sornlertlamvanich và cộng sự 2001; Suanmali 2009; Sunitha và cộng sự 2016;
Trang 35Svore và cộng sự 2007; Tanaka 2009; Thadani và McKeown 2013; Tran và Nguyen2014a, 2014b, 2014c, 2016] Những phương pháp được đề xuất theo hướng tiếp cận
“tóm tắt trừu tượng” hay tiếp cận lai đòi hỏi phải xây dựng được cơ chế hiểu và biểudiễn được ngữ nghĩa của văn bản đầu vào ở một mức độ nhất định Tiếp theo, nhữngphương pháp này cũng phải xây dựng được cơ chế tạo sinh câu hoặc văn bản mớidựa trên biểu diễn ngữ nghĩa này
Trên cơ sở khảo sát các nghiên cứu liên quan, mục tiêu và phạm vi của luận
án là tập trung nghiên cứu đề xuất mô hình giải pháp tạo sinh câu và đoạn văn bảntóm tắt nhằm tóm tắt nội dung thông tin đoạn văn bản tiếng Việt cho trước theohướng tiếp cận tóm tắt trừu tượng, với sự kết hợp những kỹ thuật tạo sinh ngôn ngữ
tự nhiên và kiến thức ngôn ngữ học phù hợp trong Ngữ pháp chức năng [Cao 2006;Halliday và Matthiessen 2004] Để thực hiện mục tiêu này, luận án đề xuất xâydựng mô hình giải pháp tóm tắt được trình bày trong Hình 0.1 với những nghiêncứu cụ thể được trình bày trong các công trình khoa học liên quan luận án
Trang 36CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Giới thiệu
Chương này trình bày sơ lược những kiến thức nền tảng trong Khoa học máytính và Ngôn ngữ học, là cơ sở để đề xuất những phương pháp, cơ chế xử lý trongluận án
Trong nội dung chính thứ nhất, luận án trình bày 02 mô hình biểu diễn ngữ
nghĩa trừu tượng trong lĩnh vực Xử lý Ngôn ngữ tự nhiên Mô hình thứ nhất là Cấu
trúc biểu diễn diễn ngôn Mô hình thứ hai là Ngữ pháp dựa trên sự hợp nhất Hai
mô hình này được áp dụng trong luận án để thực hiện thành phần Phân tích và Biểudiễn ngữ nghĩa văn bản tiếng Việt trong mô hình giải pháp ở Hình 0.1 Cấu trúc biểudiễn diễn ngôn được sử dụng để biểu diễn trừu tượng những nội dung thông tinchính của đoạn văn bản nguồn và là nền tảng để thực hiện các cơ chế tạo sinh câu
và đoạn văn bản tiếng Việt
Trong nội dung chính thứ hai, luận án trình bày những kiến thức Ngôn ngữhọc phù hợp, làm nền tảng để đề xuất các luật, phương pháp xử lý và cơ chế tạosinh Nền tảng kiến thức Ngôn ngữ học đầu tiên là những dạng câu tiếng Việt đơngiản và yếu tố hồi chỉ được trình bày trong Ngữ pháp chức năng [Cao 2006] Luận
án đề xuất những phương pháp chuyển đổi các câu tiếng Việt thông thường vềnhững câu có dạng đơn giản, đồng thời đề xuất những chiến lược tìm kiếm yếu tốtiền ngữ tương ứng cho từng yếu tố hồi chỉ, từ đó giúp tạo dựng Cấu trúc biểu diễndiễn ngôn Những dạng câu tiếng Việt đơn giản được nghiên cứu cũng làm nền tảng
để đề xuất những cơ chế tạo sinh câu và đoạn văn bản tiếng Việt tóm tắt từ Cấu trúcbiểu diễn diễn ngôn Nền tảng kiến thức Ngôn ngữ học thứ hai là những quy tắc cảibiến trong Ngữ pháp cải biến – tạo sinh [Chomsky 2002] Những quy tắc cải biếnđược áp dụng trong luận án để đề xuất các cơ chế tạo sinh cấu trúc cú pháp phù hợpcủa các câu tiếng Anh từ Cấu trúc biểu diễn ý nghĩa phẳng
Trong nội dung chính thứ ba, luận án trình bày những điểm chính yếu để xâydựng một hệ thống Tạo sinh ngôn ngữ tự nhiên Những điểm này là nền tảng để
Trang 37luận án đề xuất các cơ chế tạo sinh câu và đoạn văn bản tiếng Việt từ Cấu trúc biểudiễn diễn ngôn.
2.2 Phân tích và biểu diễn ngữ nghĩa
2.2.1 Lý thuyết biểu diễn diễn ngôn
Lý thuyết biểu diễn diễn ngôn (“Discourse Representation Theory” – DRT)
[Blackburn và Bos 1999; Covington và cộng sự 1988, 1989; Kamp 1981] là mộtnền tảng để khám phá ý nghĩa theo cách tiếp cận ngữ nghĩa hình thức, trong lĩnhvực diễn giải động ngôn ngữ tự nhiên DRT bao gồm một mức độ biểu diễn tinhthần trừu tượng (là một dạng cấu trúc biểu diễn) bên trong hình thức của nó, manglại khả năng nội tại để xử lý ý nghĩa xuyên qua các ranh giới câu Ý tưởng chính củahướng tiếp cận là một diễn ngôn ngôn ngữ tự nhiên (hay có thể hiểu là một đoạnvăn bản ngôn ngữ tự nhiên – một chuỗi câu được nói ra bởi cùng một diễn giả) đượcdiễn giải trong ngữ cảnh của một cấu trúc biểu diễn Kết quả của việc xử lý mộtđoạn văn bản trong ngữ cảnh của cấu trúc biểu diễn A là một cấu trúc biểu diễn mớiA’ Cấu trúc mới A’ được xem như một phiên bản cập nhật của A
Cấu trúc biểu diễn cho những thông tin được thu thập trong một đoạn văn
bản được gọi là cấu trúc biểu diễn diễn ngôn (CT-BD-DN) (“Discourse
Representation Structure” – DRS) [Blackburn và Bos 1999; Covington và cộng sự
1988, 1989; Kamp 1981], được mô tả đồ họa dưới dạng hộp Một cách hình thức,
một CT-BD-DN bao gồm hai phần: một danh sách hữu hạn U chứa đựng những liên
hệ diễn ngôn (“discourse referent”) mà thực chất là những chỉ số riêng biệt đại diện
cho những đối tượng khác nhau của diễn ngôn; và một danh sách hữu hạn Con chứa
đựng những điều kiện (“condition”) hay có thể hiểu là những vị từ (“predicate”) hay
phương thức (“function”) mà những đối tượng được đại diện bởi các chỉ số trong
danh sách U phải thỏa Những ngôn ngữ CT-BD-DN (hay ngôn ngữ hộp) được xâydựng xung quanh những từ vựng Chúng chứa đựng những ký hiệu ¬, , →, =.∨Ngoài ra, những ngôn ngữ CT-BD-DN chứa đựng những ký hiệu ký tự như x, y, z,
…, và chúng được gọi là những liên hệ diễn ngôn, không phải là biến số Chúng ta
Trang 38xây dựng những CT-BD-DN và vị từ với các mệnh đề sau [Blackburn và Bos 1999;Covington và cộng sự 1988, 1989; Kamp 1981]:
1 Nếu x1, …, xn là những liên hệ diễn ngôn (n ≥ 0) và P 1, …, Pm (m ≥ 0) lànhững vị từ, thì biểu diễn hộp rỗng sau là một CT-BD-DN:
2 Nếu R là một ký hiệu quan hệ của n, và x1, …, xn là những hằng số hay liên
được gọi là một CT-BD-DN rỗng, hay hộp rỗng Những vị từ được chỉ rõ bởi mệnh
đề 2 và 3 được gọi là những vị từ nguyên thủy Những vị từ được chỉ rõ bởi cácmệnh đề 4, 5 và 6 được gọi là những vị từ phức hợp: ¬ thể hiện thông tin phủ định; thể hiện thông tin phân biệt; thể hiện cả thông tin điều kiện và định lượng phổ
dụng
Ví dụ 2.1 đoạn văn bản gồm hai câu tiếng Việt đơn giản “Nhân thông minh.
Nó viết chương trình.” có CT-BD-DN bao gồm hai danh sách: (i) Danh sách U chứa
Trang 39đựng những chỉ số riêng biệt đại diện cho những đối tượng khác nhau của đoạn vănbản: 1 – nhân, 2 – chương trình; (ii) Danh sách Con chứa đựng những vị từ:
nhân(1), chương_trình(2), thông_minh(1), viết(1,2) CT-BD-DN nàyđược biểu diễn dưới dạng hộp như sau:
Ngữ pháp dựa trên sự hợp nhất (“Unification-based Grammar” – UBG) được
giới thiệu trong [Covington 2007; Shieber, 2003] với ý tưởng cơ bản: UBG là mộthình thức trong đó những lý thuyết về ngữ pháp có thể được biểu diễn, với vai trònổi bật của việc hợp nhất những cấu trúc đặc điểm
Trong phân tích cấu trúc cú pháp của câu, ở từng ngữ đoạn hoặc từ vựng, cóthể mô tả thêm cấu trúc đặc điểm của ngữ đoạn hay từ vựng này Những thông tinđặc điểm này có thể truyền lên xuống giữa các ngữ đoạn, và tạo nên cấu trúc đặcđiểm từ những thông tin được truyền đến Như một ví dụ, xét phân tích cấu trúc cúpháp câu thành danh ngữ và động ngữ [Shieber, 2003, tr.10]:
{sem: {sem: {sem:
in~X1, in~X1, in~X2,
out~X3} out~X2} out~X3}
Trong quy tắc phân tích trên, đặc điểm sem của S có 2 giá trị: X1 đượctruyền đến từ bên ngoài, X3 sẽ được truyền ra ngoài X1 sau đó được truyền xuốngcho NP và trở thành một giá trị của đặc điểm sem của NP Giá trị thứ hai của đặcđiểm sem của NP là X2 được tạo thành từ sự biến đổi X1 bằng cách nào đó, rồi
Trang 40truyền qua cho VP và trở thành một giá trị đầu vào của đặc điểm sem của VP Giá trịnày tiếp tục được biến đổi trở thành X3, và cũng trở thành đầu ra của S.
2.3 Nền tảng Ngôn ngữ học
2.3.1 Những dạng câu tiếng Việt và yếu tố hồi chỉ trong Ngữ pháp chức năng
2.3.1.1 Phân loại hình câu theo nghĩa biểu hiện của khung vị ngữ
Dựa theo Ngữ pháp chức năng cho tiếng Việt [Cao 2006], nghĩa biểu hiệnphản ánh cái sự tình của thế giới được nói đến trong câu, chỉ bao gồm các thànhphần thông tin cốt lõi của câu và bỏ qua tất cả những yếu tố khác như thì, thức, thể,tình thái, phong cách, hàm ý, ngữ dụng, logic, … Có ba loại nghĩa biểu hiện cơ bản
[Cao 2006]: (i) những câu chỉ sự tồn tại cho biết rằng có cái gì ở trong một thế giới hay ở một nơi nào đó; (ii) những câu chỉ biến cố, trong đó được phân biệt ra thành câu chỉ hành động và câu chỉ quá trình; (iii) những câu chỉ tình hình, trong đó phân
biệt ra thành câu chỉ trạng thái và câu chỉ quan hệ Bảng 2.1 trình bày sự phânhoạch bốn loại câu được nghiên cứu trong luận án
Bảng 2.1 Sự phân loại dạng câu đơn tiếng Việt được nghiên cứu trong luận án [Cao 2006,
(-) di chuyển
Quá trình (- chủ ý)
(+) chuyển tác tác động
tạo diệt(-) chuyển tác chuyển biến
sinh diệtTrạng thái (+ nội tại)
Tính chất (+ trường tồn) phẩm chất (+ thể chất)
tính khí (- thể chất)Tình trạng (- trường tồn) (+) thể chất