1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt đoạn văn bản tiếng việt dựa trên cách tiếp cận tạo sinh

160 69 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 160
Dung lượng 1,32 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Danh mục các ký hiệu và chữ viết tắtAn-F-He-i Heuristic thứ i xác định yếu tố tiền ngữ cho từng đại từ hồi chỉ – Antecedent Finding HeuristicAn-F-Gr-NP-i Chiến lược tìm kiếm yếu tố tiền

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS TS NGUYỄN TUẤN ĐĂNG

Trang 3

LỜI CAM ĐOAN

Tôi tên là Trần Trung

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫncủa PGS TS Nguyễn Tuấn Đăng và PGS TS Phạm Hữu Đức Các số liệu, kết quảnghiên cứu trình bày trong luận án là trung thực và chưa từng được công bố bởi tácgiả nào trong bất kỳ công trình nào khác

Tác giả luận án

Trần Trung

Trang 4

LỜI CẢM ƠN

Luận án này được thực hiện và hoàn thành tại Khoa Khoa học máy tính, Trường Đạihọc Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Đầu tiên, xin bày tỏ lòng biết ơn sâu sắc đến PGS TS Nguyễn Tuấn Đăng và PGS

TS Phạm Hữu Đức, là những người Thầy đã tận tình hướng dẫn, động viên vàtruyền đạt những kinh nghiệm quý báu trong nghiên cứu khoa học để em có thểhoàn thành tốt luận án này

Tôi xin chân thành cảm ơn nhà trường vì trong suốt quá trình học tập, tôi đã nhậnđược sự quan tâm, giúp đỡ của thầy cô giáo trong Khoa Khoa học máy tính, PhòngĐào tạo Sau đại học và Khoa học công nghệ và Ban giám hiệu Trường Đại họcCông nghệ thông tin

Cuối cùng, tôi muốn bày tỏ lòng biết ơn sâu sắc đến Cha, Mẹ, Em gái luôn là điểmtựa vững chắc, đã chăm sóc, ủng hộ và tạo mọi điều kiện thuận lợi nhất cho tôi cóthể hoàn thành tốt luận án này

Tp Hồ Chí Minh, tháng 06 năm 2020

Tác giả luận án

Trần Trung

Trang 5

MỤC LỤC

MỤC LỤC 1

Danh mục các ký hiệu và chữ viết tắt 5

Danh mục các bảng 7

Danh mục các hình vẽ 8

MỞ ĐẦU 9

Đặt vấn đề và lý do lựa chọn đề tài 9

Mục tiêu và nội dung nghiên cứu 12

Phạm vi và đối tượng nghiên cứu 13

Phạm vi nghiên cứu 13

Đối tượng nghiên cứu 13

Phương thức tiếp cận 16

Đóng góp khoa học của luận án 17

Bố cục của luận án 19

CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 20

1.1 Hướng tiếp cận tóm tắt dựa trên trích xuất 21

1.2 Hướng tiếp cận tóm tắt trừu tượng 24

1.2.1 Phương pháp tiếp cận dựa trên cấu trúc 25

1.2.1.1 Phương pháp dựa trên cấu trúc mẫu 25

1.2.1.2 Phương pháp dựa trên ontology 25

1.2.1.3 Phương pháp dựa trên những ngữ đoạn đầu và thân 25

1.2.1.4 Phương pháp dựa trên quy tắc 26

1.2.2 Phương pháp tiếp cận dựa trên ngữ nghĩa 26

1.2.2.1 Phương pháp dựa trên ngữ nghĩa đa thể hiện 26

1.2.2.2 Phương pháp dựa trên mục tin tức 26

1.2.2.3 Phương pháp dựa trên đồ thị ngữ nghĩa 27

1.2.3 Hướng tiếp cận trộn câu - nén câu 27

1.2.3.1 Phương pháp sử dụng cây phụ thuộc 28

1.2.3.2 Phương pháp sử dụng đồ thị từ vựng 30

1.3 Kết chương 30

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 32

2.1 Giới thiệu 32

2.2 Phân tích và biểu diễn ngữ nghĩa 33

Trang 6

2.2.1 Lý thuyết biểu diễn diễn ngôn 33

2.2.2 Ngữ pháp dựa trên sự hợp nhất 35

2 4 .5 3 Nền tảng Ngôn ngữ học 36

2.3.1 Những dạng câu tiếng Việt và yếu tố hồi chỉ trong Ngữ pháp chức năng 36

2.3.1.1 Phân loại hình câu theo nghĩa biểu hiện của khung vị ngữ 36

2.3.1.2 Những dạng yếu tố hồi chỉ trong tiếng Việt 38

2.3.2 Những quy tắc cải biến trong Ngữ pháp cải biến – tạo sinh 40

2.3.2.1 Ngữ pháp cải biến – tạo sinh giai đoạn I của Noam Chomsky 40

2.3.2.2 Một số quy tắc cải biến 42

2 Tạo sinh ngôn ngữ tự nhiên 43

2 Kết chương 45

CHƯƠNG 3 PHÂN TÍCH VÀ BIỂU DIỄN NGỮ NGHĨA VĂN BẢN TIẾNG VIỆT 46

3.1 Giới thiệu 46

3.2 Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt 47

3.2.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 47

3.2.1.1 Cơ chế tạo dựng cấu trúc ngữ đoạn bề mặt 47

3.2.1.2 Chuyển đổi về các câu tiếng Việt có cấu trúc đơn giản 50

3.2.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 55

3.2.2.1 Phân tích đoạn văn bản và cấu trúc cú pháp câu tiếng Việt đầu vào 55

3.2.2.2 Mô tả đặc điểm ngữ pháp từ vựng và tạo dựng cấu trúc biểu diễn diễn ngôn 57

3.2.2.3 Xử lý đại từ hồi chỉ và tạo dựng cấu trúc biểu diễn diễn ngôn 59

3.3 Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn được gán nhãn 64

3.3.1 Tạo dựng cấu trúc biểu diễn cấp độ bề mặt 64

3.3.1.1 Cấu trúc đồ thị ngữ đoạn được gán nhãn 64

3.3.1.2 Cơ chế tạo dựng cấu trúc đồ thị ngữ đoạn được gán nhãn 66

3.3.1.3 Xác định yếu tố tiền ngữ tương ứng cho các yếu tố hồi chỉ 69

3.3.2 Tạo dựng cấu trúc biểu diễn diễn ngôn 76

3.4 Kết chương 79

CHƯƠNG 4 TẠO SINH VĂN BẢN TIẾNG VIỆT 80

4.1 Giới thiệu 80

4.2 Từ biểu diễn của các cặp câu có quan hệ hệ quả 81

4.2.1 Phân nhóm những cặp câu được biểu diễn 81

4.2.2 Cơ chế tạo sinh 83

4.2.2.1 Phân tích cấu trúc biểu diễn diễn ngôn và Xác định mối quan hệ 83

Trang 7

4.2.2.2 Tạo sinh cấu trúc cú pháp của câu tiếng Việt mới 84

4.2.2.3 Hoàn chỉnh câu tiếng Việt mới 85

4.2.3 Thử nghiệm và đánh giá 87

4.2.3.1 Thiết kế thử nghiệm 87

4.2.3.2 Đánh giá 87

4.3 Từ biểu diễn của các cặp câu chỉ quá trình 89

4.3.1 Phân nhóm những cặp câu được biểu diễn 89

4.3.2 Cơ chế tạo sinh 90

4.3.2.1 Phân tích cấu trúc biểu diễn diễn ngôn và xác định mối quan hệ 90

4.3.2.2 Tạo sinh cấu trúc cú pháp của câu tiếng Việt mới 91

4.3.2.3 Hoàn chỉnh câu tiếng Việt được tạo sinh 92

4.3.3 Thử nghiệm và đánh giá 93

4.3.3.1 Xây dựng bộ ngữ liệu thử nghiệm 93

4.3.3.2 Thiết kế thử nghiệm 95

4.3.3.3 Đánh giá 97

4.4 Từ biểu diễn của những đoạn văn bản có nhiều hơn hai câu 100

4.4.1 Cơ chế tạo sinh 100

4.4.1.1 Tạo sinh cấu trúc cú pháp của từng câu tiếng Việt mới 100

4.4.1.2 Tạo sinh đoạn văn bản tóm tắt tiếng Việt 104

4.4.2 Thử nghiệm và đánh giá 108

4.4.2.1 Thiết kế thử nghiệm 108

4.4.2.2 Kết quả và Đánh giá 109

4.5 Kết chương 111

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 113

5.1 Kết luận 113

5.2 Hướng phát triển 113

TÀI LIỆU THAM KHẢO 115

6.1 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 115

6.2 TÀI LIỆU THAM KHẢO 118

6.2.1 Tiếng Việt 118

6.2.2 Tiếng Anh 118

PHỤ LỤC 139

PL.1 Tạo sinh đoạn văn bản ngôn ngữ tự nhiên từ Biểu diễn ý nghĩa phẳng 139

Trang 8

PL.1.1 Cấu trúc biểu diễn ý nghĩa phẳng 139

PL.1.2 Cơ chế tạo sinh 141

PL.1.2.1 Phân tích biểu diễn ý nghĩa phẳng và Xác định mối quan hệ 141

PL.1.2.2 Tập hợp ngữ liệu từ vựng và cụm từ 143

PL.1.2.3 Tạo sinh cấu trúc cú pháp và Hoàn chỉnh đoạn văn bản ngôn ngữ tự nhiên 145

PL.1.3 Thử nghiệm và đánh giá 151

PL.1.3.1 Thử nghiệm và đánh giá với phần phát triển 152

PL.1.3.2 Thử nghiệm và đánh giá với phần thử nghiệm E2E thực 152

PL.1.4 Thảo luận 155

Trang 9

Danh mục các ký hiệu và chữ viết tắt

An-F-He-i Heuristic thứ i xác định yếu tố tiền ngữ cho từng đại từ hồi chỉ –

Antecedent Finding HeuristicAn-F-Gr-NP-i Chiến lược tìm kiếm yếu tố tiền ngữ thứ i cho từng yếu tố hồi chỉ

trên đồ thị – Antecedent Finding Graph Noun PhraseCT-BD-NN-TT Cấu trúc biểu diễn ngữ nghĩa trừu tượng

CT-BD-DN Cấu trúc biểu diễn diễn ngôn

CT-BD-YN-P Cấu trúc biểu diễn ý nghĩa phẳng

DRS Cấu trúc biểu diễn diễn ngôn – Discourse Representation

StructureDRT Lý thuyết biểu diễn diễn ngôn – Discourse Representation TheoryE2E Đầu cuối – End-to-End

En-NL-Ref Văn bản ngôn ngữ tự nhiên tiếng Anh – English Natural Language

ReferenceFlat MR Biểu diễn ý nghĩa phẳng – Flat Meaning Representation

FP Ngữ đoạn chức năng – Function Phrase

F-ConvRules Bộ quy tắc chuyển đổi các câu tiếng Việt về câu có cấu trúc đơn

giản – Functional Conversion RulesF-Conv-i Quy tắc chuyển đổi thứ i từ các câu tiếng Việt về câu có cấu trúc

đơn giản – Function ConversionGULP Lập trình logic hợp nhất đồ thị – Graph Unification Logic

ProgrammingKN-CĐ-i Kinh nghiệm chuyển đổi thứ i từ các câu tiếng Việt về câu có cấu

trúc đơn giản – Kinh nghiệm chuyển đổiNLG Tạo sinh ngôn ngữ tự nhiên – Natural Language Generation

NP Ngữ đoạn danh từ – Noun Phrase

OP Ngữ đoạn đối tượng – Object Phrase

Pasp Vị từ ngữ nghĩa của hành động / trạng thái / quá trình trong DRS –

Semantic Predicate of Action / State / Process

Po Vị từ ngữ nghĩa của đối tượng trong DRS – Semantic Predicate of

Object

QH Yếu tố quan hệ

Trang 10

QH-HQ Yếu tố quan hệ hệ quả

QH-VT-i Dạng quan hệ vị từ thứ i

S Câu – Sentence

SBG Hệ thống tạo sinh dựa trên cấu trúc – Structure-based GenerationTG-CĐ-i Quy tắc tinh giản và chuyển đổi thứ i từ cấu trúc đồ thị về DRSUBG Ngữ pháp dựa trên hợp nhất – Unification-based Grammar

VP Ngữ đoạn động từ – Verb Phrase

X Dạng câu quá trình chuyển thái

Y Dạng câu quá trình chuyển vị

Z Dạng câu quá trình tác động

↳ Nhóm quá trình 1 – QT-1

↰ Nhóm quá trình 2 – QT-2

⊗ Nhóm quá trình 3 – QT-3

Trang 11

Danh mục các bảng

Bảng 0.1 Nguồn dữ liệu sách giáo khoa tiếng Việt cấp một 14

Bảng 0.2 Nguồn dữ liệu truyện ngắn song ngữ Anh – Việt trình độ A và B 14

Bảng 0.3 Nguồn dữ liệu trang web truyện cổ tích tiếng Việt và tiếng Anh 15

Bảng 0.4 Nguồn dữ liệu trang web từ điển 15

Bảng 1.1 Một số hệ thống tóm tắt văn bản theo hướng tiếp cận dựa trên trích xuất 23

Bảng 2.1 Sự phân loại dạng câu đơn tiếng Việt được nghiên cứu trong luận án [Cao 2006, tr 429] 36

Bảng 2.2 Cấu trúc đơn giản của câu tiếng Việt được nghiên cứu trong luận án 38

Bảng 2.3 Những dạng yếu tố hồi chỉ trong tiếng Việt được nghiên cứu trong luận án 39

Bảng 3.1 Bộ quy tắc chuyển đổi F-ConvRules 51

Bảng 4.1 Kết quả thử nghiệm với các nhóm cặp câu có quan hệ hệ quả 89

Bảng 4.2 Cấu trúc cú pháp của câu tiếng Việt mới cho các cặp câu chỉ quá trình 92

Bảng 4.3 Kết quả thử nghiệm các cặp câu chỉ quá trình 97

Bảng 4.4 Phân loại những dạng mối quan hệ cho từng cặp vị từ 100

Bảng 4.5 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-1 102

Bảng 4.6 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-2 102

Bảng 4.7 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-3 103

Bảng 4.8 Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-4 103

Bảng 4.9 Độ ưu tiên của (Pas i-1 – Pas i ) cao hơn độ ưu tiên của (Pas i – Pas i+1 ) 105

Bảng 4.10 Hai độ ưu tiên bằng nhau 105

Bảng 4.11 Độ ưu tiên của (Pas i-1 – Pas i ) thấp hơn độ ưu tiên của (Pas i – Pas i+1 ) 105

Bảng PL.1 Các dạng thuộc tính trong CT-BD-YN-P 139

Bảng PL.2 Kết quả đánh giá tự động khi thử nghiệm SBG trên phần phát triển 152

Bảng PL.3 Kết quả đánh giá tự động khi thử nghiệm SBG trên phần thử nghiệm E2E thực 153

Bảng PL.4 Điểm số “Tính chất lượng” của hệ thống cao nhất trong từng cụm, hệ thống cơ sở và SBG 154

Bảng PL.5 Điểm số “Tính tự nhiên” của hệ thống cao nhất trong từng cụm, hệ thống cơ sở và SBG 154

Trang 12

Danh mục các hình vẽ

Hình 0.1 Mô hình giải pháp tổng thể của luận án 17

Hình 1.1 Tổng quan các hướng tiếp cận trong lĩnh vực tóm tắt văn bản 21

Hình 2.1 CT-BD-DN của đoạn văn bản “Nhân thông minh Nó viết chương trình.” 35

Hình 2.2 Sơ đồ các thành phần của Ngữ pháp cải biến – tạo sinh giai đoạn I ([Chomsky 2002, tr 46]) 40

Hình 3.1 Sơ đồ tạo dựng cấu trúc bề mặt với Apache OpenNLP 49

Hình 3.2 Minh họa quá trình ánh xạ về các cấu trúc đơn giản 54

Hình 3.3 Sơ đồ luồng xử lý cơ chế tạo dựng CT-BD-DN từ đoạn văn bản tiếng Việt rút gọn 55

Hình 3.4 Cấu trúc đồ thị cho đoạn văn bản trong Ví dụ 3.7 65

Hình 4.1 Sơ đồ kiến trúc cơ chế tạo sinh câu và đoạn văn bản tiếng Việt 80

Hình 4.2 CT-BD-DN của đoạn văn bản “Nghĩa sửa angten Sét đánh nó.” 83

Hình 4.3 CT-BD-DN của đoạn văn bản “Sét đánh cành cây Nó bị gãy.” 90

Hình 4.4 Kết quả so sánh hiệu năng giữa những phương pháp tạo sinh những đoạn văn bản tiếng Việt mới 110

Hình PL.1 Ví dụ về hai dạng biểu diễn của một CT-BD-YN-P 140

Hình PL.2 Đồ thị biểu diễn mối quan hệ giữa những vị từ trong các CT-BD-YN-P 141

Hình PL.3 Mô tả từng thuộc tính trong CT-BD-YN-P 144

Hình PL.4: Xác định những từ tương đương nghĩa của “food” 145

Trang 13

MỞ ĐẦU Đặt vấn đề và lý do lựa chọn đề tài

Được khởi đầu từ những năm 1950 với những nghiên cứu của [Baxendale1958], [Edmundson 1969] và [Luhn 1958], vấn đề mà [Jones 1999, 2007] định

nghĩa là “một tiến trình biến đổi rút gọn một văn bản nguồn thành một văn bản tóm

tắt bằng cách lựa chọn và / hoặc tổng quát hóa những gì được xem là quan trọng trong văn bản nguồn” hay còn được gọi ngắn gọn là “tóm tắt văn bản” đã trở thành

một lĩnh vực nghiên cứu quan trọng trong cộng đồng Xử lý ngôn ngữ tự nhiên trongsuốt hơn nửa thế kỷ qua Về cơ bản, [Jones 1999, 2007] đã đưa ra tiêu chuẩn chomột hệ thống tóm tắt hoàn chỉnh là thực hiện ba tiến trình liên tiếp để chuyển đổi

một văn bản nguồn thành một văn bản tóm tắt Tiến trình thứ nhất là diễn giải văn

bản đầu vào để có được một biểu diễn văn bản, là một dạng cấu trúc dữ liệu giúp

biểu diễn toàn bộ nội dung thông tin văn bản đầu vào Tiến trình thứ hai là chuyển

đổi biểu diễn văn bản sang một biểu diễn tóm tắt, là một dạng cấu trúc dữ liệu giúp

biểu diễn những nội dung thông tin chính của văn bản tóm tắt Tiến trình thứ ba là

tạo sinh ngôn ngữ và hoàn chỉnh văn bản tóm tắt từ biểu diễn tóm tắt

Từ những năm cuối thế kỷ XX và đầu thế kỷ XXI, nhiều tác giả đã dựa trêntiêu chuẩn của [Jones 1999, 2007] để đề xuất nhiều phương pháp khác nhau nhằmnâng cao hiệu quả chuyển đổi văn bản nguồn thành văn bản tóm tắt [Das và Martins2007; Fattah và Ren 2008; Jezek và Steinberger 2008; Jones 1999, 2007; Lloret2008; Mani và Maybury 1999; Mani 2001b] Dựa trên cách thức tạo ra văn bản tómtắt, các phương pháp được phân loại theo hai hướng nghiên cứu chính [Das và

Martins 2007]: hướng nghiên cứu thứ nhất được gọi là tóm tắt trích xuất (“Extractive Summarization”); hướng nghiên cứu thứ hai được gọi là tóm tắt trừu

tượng (“Abstractive Summarization”).

Cùng với sự phát triển của những phương pháp và kỹ thuật trong lĩnh vựcMáy học thống kê và Trích xuất thông tin, đa phần các nghiên cứu được thực hiệntheo hướng tiếp cận tóm tắt trích xuất [Das và Martins 2007; Fattah và Ren 2008;

Trang 14

Jezek và Steinberger 2008; Jones 1999, 2007; Lloret 2008; Mani và Maybury 1999;Mani 2001b] Các tác giả đã áp dụng những phương pháp và kỹ thuật để tính toán

và xác định mức độ quan trọng của từng câu trong văn bản ban đầu Những đặcđiểm thường được sử dụng để tính toán mức độ quan trọng của câu là từ khóa, tiêu

đề, vị trí hoặc độ dài của câu, những ngữ đoạn đặc thù, Bằng việc đặt ra mộtngưỡng xác định, các hệ thống tóm tắt sẽ lựa chọn những câu hay ngữ đoạn có điểmtính toán cao hơn ngưỡng này để hợp thành văn bản tóm tắt Tuy nhiên, cách thứctạo thành văn bản tóm tắt như vậy cho thấy hầu hết các phương pháp theo hướngtiếp cận tóm tắt trích xuất mới dừng lại ở tiến trình thứ nhất theo định nghĩa trong[Jones 1999, 2007]

Một ưu điểm đáng chú ý của những phương pháp theo hướng tiếp cận tóm tắttrích xuất là chúng áp dụng rất tốt những giải thuật và kỹ thuật Máy học thống kê vàTrích xuất thông tin [Das và Martins 2007; Lloret 2008] Nhiệm vụ nghiên cứu chỉcần tập trung vào những yếu tố trên bề mặt mà không cần hiểu sâu về ngữ nghĩa củatoàn bộ văn bản Theo [Das và Martins 2007; Lloret 2008], cách thức tạo văn bảntóm tắt như vậy tỏ ra khá hiệu quả đối với các văn bản dài hoặc đa văn bản

Theo [Das và Martins 2007; Lloret 2008], mặc dù đã có nhiều giải pháp được

đề xuất và đạt được những kết quả quan trọng, một số vấn đề cơ bản của hướng tiếpcận tóm tắt trích xuất vẫn đang được các nhà khoa học nghiên cứu để khắc phục

Thứ nhất, những câu được trích xuất dựa trên việc xếp hạng mức độ quan trọng như

vậy có thể không xuất hiện liên tiếp nhau trong văn bản ban đầu Điều này dẫn đếnviệc mất đi sự liền mạch thông tin đã được thể hiện xuyên suốt thông qua các câu

liên tiếp trong văn bản nguồn Thứ hai, nhiều câu trong văn bản nguồn có sự xuất

hiện của các yếu tố hồi chỉ Mỗi yếu tố hồi chỉ sẽ có một yếu tố tiền ngữ tương ứngtrong văn bản Mối liên hệ giữa từng yếu tố hồi chỉ và yếu tố tiền ngữ tương ứngcũng giúp thể hiện sự liền mạch về nội dung và ngữ cảnh trong văn bản nguồn Việctrích xuất những câu không liên tiếp có thể khiến mối liên hệ giữa một số yếu tố hồichỉ và yếu tố tiền ngữ tương ứng bị mất đi Điều này dẫn đến việc nội dung và ngữ

cảnh thực sự của văn bản ban đầu sẽ không được thể hiện chính xác Thứ ba, việc

Trang 15

trích xuất những ngữ đoạn không liên tiếp có thể khiến chúng bị rời rạc Việc kếthợp những ngữ đoạn này để tạo thành văn bản tóm tắt sẽ khiến nội dung bị lẫn lộn

và không liền mạch

Trong hướng tiếp cận tóm tắt trừu tượng, văn bản tóm tắt được tạo thành từ

mô hình biểu diễn nội dung ngữ nghĩa của văn bản nguồn [Das và Martins 2007;Kasture và cộng sự 2014; Khan và Salim 2014] Các từ vựng, ngữ đoạn và thậm chícâu trong văn bản tóm tắt có thể hoàn toàn mới so với văn bản nguồn Như vậy, haivấn đề quan trọng cần giải quyết trong hướng tiếp cận này là đề xuất được những

mô hình và cơ chế để: (a) hiểu và biểu diễn được ngữ nghĩa của văn bản nguồn và(b) tạo sinh được văn bản tóm tắt Tuy nhiên, trên thực tế, hiện nay chưa có nghiêncứu nào thực hiện đầy đủ ba tiến trình như trong định nghĩa của [Jones 1999, 2007].Hầu hết các nghiên cứu đều không thực hiện tiến trình thứ hai mà đi từ tiến trìnhthứ nhất thẳng đến tiến trình thứ ba Do vậy, cách tạo ra các câu ngôn ngữ tự nhiênmới chưa phải là tạo sinh theo đúng ý nghĩa được nêu bên trên

Ưu điểm rõ nét nhất của những phương pháp theo hướng tiếp cận tóm tắttrừu tượng là văn bản tóm tắt khá mạch lạc, giàu thông tin Từng câu có cấu trúc cúpháp phù hợp với ngôn ngữ được áp dụng và nội dung đáp ứng yêu cầu đặt ra Đểđạt được ưu điểm trên, những nhóm nghiên cứu theo hướng tóm tắt trừu tượng đã

cố gắng vượt qua những thách thức Đầu tiên, các tác giả phải đề xuất được cơ chế

hiểu và biểu diễn được nội dung ý nghĩa của văn bản nguồn Đặc biệt, những cơ chếnày phải phù hợp mục tiêu tóm tắt Một số cấu trúc đã được áp dụng để biểu diễnnội dung văn bản trong hướng tiếp cận tóm tắt trừu tượng như ontology [Lee vàcộng sự 2005], cây phụ thuộc [Barzilay và McKeown 2005; Filippova và Strube2008a], đồ thị từ vựng [Filippova 2010; Lloret và Palomar 2011] Những cấu trúcnày chưa biểu diễn được nhiều dạng đoạn văn bản khác nhau, và chưa thể hiện được

hết các mối quan hệ về ngữ cảnh ban đầu Thứ hai, cần phải có một mô hình biểu

diễn trừu tượng văn bản tóm tắt Cho đến hiện tại, mới chỉ có một số nghiên cứu vềtóm tắt văn bản có đề xuất một mô hình biểu diễn trừu tượng như vậy [Greenbacker2011; Genest và Lapalme 2010, 2011, 2012; Moawad và Aref 2012] Mặc dù đạt

Trang 16

được một số kết quả đáng chú ý, nhưng những mô hình biểu diễn trừu tượng nàychưa bao phủ được nhiều dạng văn bản và cần tốn rất nhiều nỗ lực để xây dựng.

Cuối cùng là cơ chế tạo sinh câu và văn bản tóm tắt Việc đề xuất được những cơ

chế tạo sinh câu và đoạn văn bản hoàn chỉnh vẫn đang là thách thức không nhỏngay cả trong lĩnh vực Tạo sinh ngôn ngữ tự nhiên [Reiter và Dale 1997a, 1997b].Ngoài ra, một điểm quan trọng là việc áp dụng kiến thức về Ngôn ngữ học nhằmgiúp văn bản tóm tắt có được tính đúng đắn ngữ pháp trong khi đảm bảo về mặt ngữnghĩa

Dựa trên những khảo sát bên trên về lĩnh vực tóm tắt văn bản, luận án xácđịnh đi theo hướng tiếp cận tóm tắt trừu tượng với sự kết hợp những kỹ thuật vềkhoa học máy tính như Hiểu và biểu diễn văn bản, Tạo sinh ngôn ngữ tự nhiên vớinhững kiến thức Ngôn ngữ học phù hợp

Mục tiêu và nội dung nghiên cứu

Mục tiêu của luận án là đề xuất giải pháp tạo sinh đoạn văn bản tóm tắt nhằmtóm tắt nội dung thông tin của đoạn văn bản tiếng Việt cho trước

Để đạt được mục tiêu trên, luận án đề ra những nội dung cụ thể sau:

1 Đề xuất các phương pháp tạo dựng Cấu trúc biểu diễn ngữ nghĩa trừu tượng

(CT-BD-NN-TT) cho đoạn văn bản tiếng Việt đầu vào Nội dung này baogồm việc giải quyết hai bài toán con:

a Tạo dựng cấu trúc biểu diễn cấp độ bề mặt (CT-BD-CĐ-BM) cho đoạnvăn bản tiếng Việt đầu vào

b Chuyển đổi CT-BD-CĐ-BM về CT-BD-NN-TT

2 Đề xuất các phương pháp tạo sinh đoạn văn bản tóm tắt dựa trên NN-TT

Trang 17

CT-BD-Phạm vi và đối tượng nghiên cứu

Phạm vi nghiên cứu

Đề xuất mô hình giải pháp tạo sinh đoạn văn bản tóm tắt nhằm tóm tắt nộidung thông tin đoạn văn bản tiếng Việt cho trước theo hướng tiếp cận tóm tắt trừutượng, với sự kết hợp những kỹ thuật tạo sinh ngôn ngữ tự nhiên và kiến thức ngônngữ học phù hợp trong Ngữ pháp chức năng [Cao 2006; Halliday và Matthiessen2004]

Luận án nghiên cứu sự phân loại các dạng câu đơn tiếng Việt theo nghĩa biểuhiện của chúng trong Ngữ pháp chức năng [Cao 2006], được thể hiện trong Bảng2.1

Đối tượng nghiên cứu

Đối tượng nghiên cứu trong luận án là những dạng đoạn văn bản tiếng Việt,những yếu tố hồi chỉ trong tiếng Việt:

1 Đối tượng nghiên cứu thứ nhất là những cặp câu tiếng Việt đơn giản Từngcâu có cấu trúc đơn giản thuộc một trong các dạng trong Bảng 2.2 Mối quan

hệ giữa hai câu được thể hiện bởi một hoặc hai đại từ hồi chỉ trong câu thứhai Những đại từ hồi chỉ này thuộc dạng 1, 2 hoặc 3 trong Bảng 2.3

2 Đối tượng nghiên cứu thứ hai là những đoạn văn bản ngắn gồm nhiều hơnhai câu tiếng Việt Từng câu có cấu trúc đơn giản thuộc một trong các dạngtrong Bảng 2.2 Các câu có sự xuất hiện của một hoặc hai đại từ hồi chỉ Cácđại từ hồi chỉ này thuộc dạng 1, 2 hoặc 3 trong Bảng 2.3

3 Đối tượng nghiên cứu thứ ba là những đoạn văn bản tiếng Việt Mỗi đoạnvăn bản có từ 2 đến 5 câu ở thể trần thuật Từng câu có số lượng không quá

25 từ vựng tiếng Việt Trong từng đoạn văn bản có sự xuất hiện của các yếu

tố hồi chỉ thuộc các dạng trong Bảng 2.3

4 Đối tượng nghiên cứu thứ tư là những dạng yếu tố hồi chỉ trong tiếng Việt.Dựa trên sự phân loại những dạng yếu tố hồi chỉ trong tiếng Việt trong Ngữ

Trang 18

pháp chức năng [Cao 2006], luận án nghiên cứu những dạng yếu tố hồi chỉtrong Bảng 2.3.

Luận án thu thập các đoạn văn bản tiếng Việt từ những nguồn dữ liệu:

1 Nguồn dữ liệu thứ nhất là bộ sách giáo khoa tiếng Việt cấp một:

Bảng 0.1 Nguồn dữ liệu sách giáo khoa tiếng Việt cấp một

1 Đặng Thị Lanh (chủ biên) (2012), Sách giáo khoa Tiếng Việt lớp 1, tập 1 – 2,Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo

2 Nguyễn Minh Thuyết (chủ biên) (2012), Sách giáo khoa Tiếng Việt lớp 2, tập 1 –

2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo

3 Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 3, tập 1 –

2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo

4 Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 4, tập 1 –

2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo

5 Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 5, tập 1 –

2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo

2 Nguồn tài liệu thứ hai là những bộ truyện ngắn song ngữ Anh – Việt:

Bảng 0.2 Nguồn dữ liệu truyện ngắn song ngữ Anh – Việt trình độ A và B

1 Tuyết Hồng, Minh Tâm (dịch) (1994), Tập dịch những mẩu chuyện vui tiếngAnh – Mỹ [Nguyên bản: L A Hill, Elementary Anecdotes in American English],tập 1, Nhà xuất bản Thành phố Hồ Chí Minh

2 Kim Tiến (dịch và biên soạn) (1994), Luyện đọc những mẩu chuyện tiếng Anh B[Nguyên bản: L A Hill, Further stories for reading comprehension B], Nhà xuấtbản Thành phố Hồ Chí Minh

3 Nguyễn Ngọc Hiếu (dịch) (2002), Tuyển tập truyện cười song ngữ Anh – Việt[Nguyên bản: Funny story collection in bilingual English – Vietnamese], Nhàxuất bản Văn hóa – Thông tin

4 Nguyễn Thế Dương (dịch) (2004), O-henry, Những truyện ngắn hay nhất thế giới

Trang 19

[Nguyên bản: L A Hill, Further stories for reading comprehension B], Nhà xuấtbản Hải Phòng.

3 Nguồn tài liệu thứ ba là những trang web truyện cổ tích tiếng Việt và tiếngAnh:

Bảng 0.3 Nguồn dữ liệu trang web truyện cổ tích tiếng Việt và tiếng Anh

4 Nguồn tài liệu thứ tư là những trang web từ điển:

Bảng 0.4 Nguồn dữ liệu trang web từ điển

Trang 20

Giai đoạn 1 Luận án phân tích các đối tượng nghiên cứu là những dạng

đoạn văn bản tiếng Việt khác nhau và những yếu tố hồi chỉ xuất hiện trongtừng đoạn văn bản

Giai đoạn 2 Luận án đề xuất các quy tắc và giải thuật để tạo dựng

CT-BD-CĐ-BM giúp biểu diễn toàn bộ nội dung thông tin của đoạn văn bản đầu vào.Giai đoạn này tương ứng với tiến trình thứ nhất theo tiêu chuẩn cho một hệthống tóm tắt hoàn chỉnh của [Jones 1999, 2007]

Giai đoạn 3 Luận án đề xuất các quy tắc và giải thuật để chuyển đổi

CT-BD-CĐ-BM về CT-BD-NN-TT giúp biểu diễn nội dung thông tin chính củađoạn văn bản đầu vào Giai đoạn này tương ứng với tiến trình thứ hai theotiêu chuẩn cho một hệ thống tóm tắt hoàn chỉnh của [Jones 1999, 2007]

Giai đoạn 4 Luận án đề xuất các cơ chế tạo sinh các câu và đoạn văn bản

tóm tắt từ CT-BD-NN-TT Giai đoạn này tương ứng với tiến trình thứ ba theotiêu chuẩn cho một hệ thống tóm tắt hoàn chỉnh của [Jones 1999, 2007].Phương thức tiếp cận của luận án được thể hiện qua mô hình giải pháp đượctrình bày trong Hình 0.1

Trang 21

Mô hình giải pháp trong Hình 0.1 bao gồm hai thành phần chính:

1 Thành phần thứ nhất được gọi là Phân tích và Biểu diễn ngữ nghĩa văn bản

tiếng Việt Thành phần này nhận đầu vào là một đoạn văn bản tiếng Việt.

Đầu ra của thành phần này là một CT-BD-NN-TT

2 Thành phần thứ hai được gọi là Tạo sinh văn bản tiếng Việt Đầu vào của

thành phần này là CT-BD-NN-TT được tạo ra từ thành phần Phân tích vàBiểu diễn ngữ nghĩa văn bản tiếng Việt Đầu ra của thành phần này, cũng làkết quả cuối cùng của mô hình giải pháp, là một đoạn văn bản tiếng Việthoàn chỉnh

Đóng góp khoa học của luận án

Trong quá trình thực hiện luận án, tác giả đã có những đóng góp khoa họcchính:

1 Đề xuất mô hình giải pháp tạo sinh đoạn văn bản tóm tắt

2 Đề xuất những phương pháp tạo dựng CT-BD-NN-TT:

Hình 0.1 Mô hình giải pháp tổng thể của luận án.

Trang 22

a Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt gồm hai giai đoạn Giai

đoạn thứ nhất, luận án đề xuất phương pháp tạo dựng một

CT-BD-CĐ-BM được gọi là cấu trúc ngữ đoạn bề mặt Cũng trọng giai đoạn này, luận

án đề xuất phương pháp dựa trên quy tắc để chuyển đổi CT-BD-CĐ-BM

về đoạn văn bản bao gồm các câu tiếng Việt có cấu trúc đơn giản, lànhững cấu trúc được trình bày trong Bảng 2.2 Nội dung việc thực hiệnGiai đoạn thứ nhất được trình bày trong công trình [CT 10] của tác giả

luận án Giai đoạn thứ hai, luận án đề xuất phương pháp xác định mối

liên hệ giữa từng yếu tố hồi chỉ thuộc dạng 1, 2, 3 trong Bảng 2.3 với yếu

tố tiền ngữ tương ứng đồng thời tạo dựng CT- BD-NN-TT của đoạn vănbản kết quả của Giai đoạn thứ nhất Nội dung việc thực hiện Giai đoạnthứ hai được trình bày trong các công trình [CT 1, CT 2, CT 5, CT 6,

CT 8, CT 13] của tác giả luận án

b Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn được gán nhãn gồm hai

giai đoạn Giai đoạn thứ nhất, luận án đề xuất phương pháp tạo dựng một

CT-BD-CĐ-BM được gọi là cấu trúc đồ thị ngữ đoạn được gán nhãn.Trong giai đoạn này, luận án đồng thời đề xuất phương pháp xác định mốiliên hệ giữa từng yếu tố hồi chỉ trong Bảng 2.3 với yếu tố tiền ngữ tươngứng Nội dung việc thực hiện Giai đoạn thứ nhất được trình bày trong các

công trình [CT 11, CT 12] của tác giả luận án Giai đoạn thứ hai, luận án

đề xuất phương pháp chuyển đổi mô hình biểu diễn trung gian thành BD-NN-TT Nội dung việc thực hiện Giai đoạn thứ hai được trình bàytrong công trình [CT 12] của tác giả luận án

CT-3 Đề xuất những phương pháp xác định yếu tố tiền ngữ cho những dạng yếu tốhồi chỉ khác nhau trong đoạn văn bản tiếng Việt nguồn Nội dung việc thựchiện những phương pháp này được trình bày trong các công trình [CT 1, CT

2, CT 5, CT 6, CT 8, CT 11, CT 13] của tác giả luận án

4 Đề xuất những phương pháp tạo sinh câu và đoạn văn bản tóm tắt tiếng Việtdựa trên một dạng CT-BD-NN-TT Nội dung việc thực hiện những phương

Trang 23

pháp này được trình bày trong các công trình [CT 3, CT 4, CT 5, CT 6, CT.

7, CT 8, CT 9, CT 13] của tác giả luận án

Bố cục của luận án

Luận án được bố cục gồm các Chương, Mục như sau:

• Mở đầu Chương này giới thiệu tóm tắt: đặt vấn đề nghiên cứu; mục tiêunghiên cứu; phạm vi và đối tượng nghiên cứu; phương pháp nghiên cứu vàcách tiếp cận; nội dung nghiên cứu; các đóng góp khoa học của luận án; bốcục của luận án

• Chương 1 Chương này trình bày tổng quan về những nghiên cứu liên quantrong lĩnh vực tóm tắt văn bản Luận án phân tích một số ưu, nhược điểm củanhững nghiên cứu đại diện cho hai hướng tiếp cận tóm tắt trích xuất và trừutượng trong chương này

• Chương 2 Chương này trình bày những kiến thức nền tảng trong Khoa họcmáy tính và Ngôn ngữ học, là cơ sở để đề xuất những phương pháp, cơ chế

xử lý trong luận án

• Chương 3 Chương này trình bày các phương pháp được đề xuất để hiện thựcthành phần Phân tích và Biểu diễn ngữ nghĩa văn bản tiếng Việt trong môhình giải pháp ở Hình 0.1

• Chương 4 Chương này trình bày các phương pháp được đề xuất để hiện thựcthành phần Tạo sinh văn bản tiếng Việt trong mô hình giải pháp ở Hình 0.1

• Kết luận và hướng phát triển

• Tài liệu tham khảo

Trang 24

Trong lĩnh vực tóm tắt văn bản, một câu hỏi được đặt ra là: Những nội dungthông tin quan trọng nào trong văn bản nguồn sẽ được giữ lại trong văn bản tóm tắt?Trong hơn nửa thế kỷ qua, nhiều mô hình và phương pháp đã được đề xuất để trả lờicho câu hỏi nói trên [Das và Martins 2007; Fattah và Ren 2008; Jezek vàSteinberger 2008; Jones 1999, 2007; Lloret 2008; Mani và Maybury 1999; Mani2001b; Saranyamol và Sindhu, 2014] Dựa trên cách thức xây dựng và tạo sinh vănbản tóm tắt, lĩnh vực tóm tắt văn bản được phân loại thành các hướng tiếp cận:

Trang 25

1.1 Hướng tiếp cận tóm tắt dựa trên trích xuất

Các nghiên cứu tóm tắt văn bản theo hướng tiếp cận tóm tắt dựa trên tríchxuất thông tin [Nguyễn và Lê 2008; Bracewell và cộng sự 2005; Brandow và cộng

sự 1995; Carenini và Cheung 2008; Chen và cộng sự 2002; Das và Martins 2007;Fattah và Ren 2008; Jezek và Steinberger 2008; Jones 1999, 2007; Le và cộng sự2010; Lloret 2008; Mani và cộng sự 1998; Mani và Maybury 1999; Mani 2001b;Nguyen và Nguyen 2013; Nguyen và cộng sự 2013; Nguyen và cộng sự 2004] tìmcách lựa chọn (trích xuất) những câu hoặc ngữ đoạn được đánh giá là quan trọngnhất trong văn bản nguồn để tạo thành văn bản tóm tắt Cách thức đánh giá tầmquan trọng của các câu và ngữ đoạn trong văn bản nguồn được dựa trên những phântích thống kê về các đặc điểm hình thức của văn bản như tần số xuất hiện của từ

Hình 1.1 Tổng quan các hướng tiếp cận trong lĩnh vực tóm tắt văn bản.

Trang 26

vựng hoặc ngữ đoạn, vị trí xuất hiện trong những câu được trích xuất v.v Đặc điểmcủa cách tiếp cận này là bỏ qua những phân tích sâu về ngữ nghĩa của văn bản.

Về cơ bản, một quá trình tóm tắt dựa trên trích xuất sẽ bao gồm hai bướcchính [Nguyễn và Lê 2008; Bracewell và cộng sự 2005; Brandow và cộng sự 1995;Carenini và Cheung 2008; Das và Martins 2007; Fattah và Ren 2008; Jezek vàSteinberger 2008; Jones 1999, 2007; Le và cộng sự 2010; Lloret 2008; Mani vàcộng sự 1998; Mani và Maybury 1999; Mani 2001b; Nguyen và Nguyen 2013;

Nguyen và cộng sự 2013; Nguyen và cộng sự 2004] Bước thứ nhất là tiền xử lý.

Bước tiền xử lý sẽ thực hiện biểu diễn cấu trúc của văn bản nguồn Bước này baogồm các tác vụ: (a) xác định ranh giới giữa các câu; (b) loại bỏ những từ thôngthường không có nghĩa và thông tin liên quan tác vụ; (c) nhận về thân hoặc cơ số

của từng từ mà nhấn mạnh ngữ nghĩa của nó Bước thứ hai thực hiện việc xác định

và tính toán những đặc trưng có ảnh hưởng đến sự liên quan của các câu Cácphương pháp học có trọng số thường được áp dụng để gán trọng số cho những đặctrưng này Những câu có điểm cao nhất sẽ được chọn để tạo văn bản tóm tắt

Những đặc trưng sau đây thường được dùng để đánh giá điểm số về mức độquan trọng của các câu [Gupta và Lehal 2010; Lloret 2008] Đầu tiên là đặc trưng

về từ vựng trong nội dung văn bản (các từ khóa) Các từ khóa thường là danh từ Để

trích xuất từ khóa, các nghiên cứu trước đây thường sử dụng các phương pháp tríchxuất dựa trên ba bước [Gupta và Lehal 2010; Lloret 2008]: đánh giá hình thái họccủa từ - trích xuất và cho điểm những ngữ đoạn danh từ - phân nhóm và cho điểmnhững ngữ đoạn danh từ Ngoài đặc trưng về từ nội dung, các nghiên cứu còn sử

dụng đặc trưng về từ tiêu đề Những câu có chứa các từ xuất hiện trong tiêu đề

thường có liên hệ đến chủ đề của văn bản Những câu này có khả năng cao được

trích xuất để tạo văn bản tóm tắt Kế tiếp là đặc trưng về vị trí của câu Những câu

nằm ở vị trí đầu và cuối của đoạn đầu và đoạn cuối của một văn bản thường đượcxem là có quan hệ mật thiết với chủ đề của văn bản và dễ dàng được chọn để tạo

văn bản tóm tắt Một đặc trưng nữa là độ dài của câu Những câu quá dài hoặc quá ngắn thường bị loại bỏ trong quá trình tạo thành tóm tắt Một đặc trưng nữa là danh

Trang 27

từ riêng Danh từ riêng thường là tên riêng của người, địa danh, … và chúng được

xem là có quan hệ mật thiết đến chủ đề của văn bản Những câu chứa danh từ riêng

do đó thường có khả năng cao được chọn để tạo thành tóm tắt Từ viết hoa cũng là

một đặc trưng hay được sử dụng Những từ viết hoa thường là danh từ riêng hoặc từviết tắt đại diện cho một cụm từ quan trọng Do vậy, những câu có chứa những từnày được xem xét là có ý nghĩa quan trọng trong văn bản và thường được trích xuất

để tạo thành tóm tắt Đặc trưng về cụm từ gợi ý / liên kết là một đặc trưng liên quan

đến ngôn ngữ được dùng trong văn bản Những câu có chứa cụm từ gợi ý / liên kếtnhư “tóm lại”, “kết luận”, “mục đích”,… thường được xem xét trích xuất để tạothành tóm tắt do có quan hệ mật thiết đến chủ đề của văn bản Một số nghiên cứu

còn sử dụng đặc trưng về từ quan trọng được xác định trước Nếu những câu nào đó

trong văn bản có chứa những từ quan trọng được liệt kê trong một danh sách đượcxác định trước thì những câu này cũng được xem là quan trọng và thường được

trích xuất để tạo văn bản tóm tắt Một đặc trưng nữa là phông chữ Những câu có

chứa các từ được viết hoa, in đậm, in nghiêng hay gạch dưới thường là những câu

quan trọng và được trích xuất để tạo thành tóm tắt Một đặc trưng khác nữa là đại

từ Những đại từ như “cô”, “anh”, “họ”, “nó”,… không được đưa vào trong tóm tắt

trừ khi được diễn giải bằng những cụm danh từ tương ứng Ngoài ra còn những đặcđiểm khác cũng được sử dụng để đánh giá mức độ quan trọng của các câu trong vănbản [Gupta và Lehal 2010; Lloret 2008]: mức độ tương tự giữa các câu hay giữa cáccâu với trọng tâm của văn bản; sự xuất hiện của những thông tin ít quan trọng,…

Bảng 1.1 Một số hệ thống tóm tắt văn bản theo hướng tiếp cận dựa trên trích xuất

• Lọc thuật ngữ và tần số từ vựng đượcthực thi

• Những câu được đánh trọng số bởi

Trang 28

những thuật ngữ quan trọng bên trong.

• Phân loại và trích xuất câu được thực thi.[Edmundson

1969]

Đơn vănbản

Những bàibáo

• Những kỹ thuật sử dụng: tần số từvựng, ngữ đoạn chính, từ trong tiêu

đề và mở đầu, vị trí câu

• Sử dụng một phương pháp xử lý từvựng

ANES

[Lloret

2008]

Đơn vănbản

Tin tức • Dùng độ đo tf x idf

Những tiểusử

Tin tức • Dựa trên các kỹ thuật máy học

• Sử dụng thuật toán mạng nơ-ron nhântạo

1.2 Hướng tiếp cận tóm tắt trừu tượng

Các phương pháp theo hướng tiếp cận tóm tắt trừu tượng được phân chia tiếpthành hai phương thức tiếp cận nhỏ hơn [Kasture và cộng sự 2014; Khan và Salim

2014; Lloret 2008]: Phương thức tiếp cận thứ nhất là dựa trên cấu trúc (“structured

based”) Trong phương thức tiếp cận này, các tác giả cố gắng xác định những nộidung quan trọng bằng cách sử dụng những cấu trúc như cây, mẫu, ontology, …

Phương thức tiếp cận thứ hai là dựa trên ngữ nghĩa (“semantic based”) Trong

phương thức tiếp cận này, các tác giả đã áp dụng các phương pháp dựa trên tạo sinhngôn ngữ tự nhiên để tạo ra những biểu diễn ngữ nghĩa

Trang 29

1.2.1 Phương pháp tiếp cận dựa trên cấu trúc

1.2.1.1 Phương pháp dựa trên cấu trúc mẫu

Trong phương pháp tiếp cận này, các tác giả sẽ xây dựng một cấu trúc mẫu lànhững mẩu văn bản nhỏ để biểu diễn các văn bản cho trước và tạo sinh văn bản tómtắt Họ áp dụng những quy tắc trong một hệ thống trích xuất thông tin [Harabagiu

và Lacatusu 2002] để trích xuất những thông tin từ nhiều văn bản Những thông tinnày được sử dụng để lấp đầy các mẫu và tạo ra các tóm tắt đa văn bản Hạn chế củaphương pháp tiếp cận này là: (a) Nó đòi hỏi các câu ngôn ngữ tự nhiên mới phảixuất hiện trong những văn bản nguồn; (b) Không thể xác định những thông tintương tự và khác nhau giữa những văn bản nguồn

1.2.1.2 Phương pháp dựa trên ontology

Phương pháp này sử dụng các ontology, đặc biệt là các ontology mờ, để cảitiến quá trình tóm tắt Phương pháp này giúp cho việc xử lý những dữ liệu hay thayđổi và có thể tóm tắt tốt những văn bản trên những trang điện tử có cấu trúc dữ liệuriêng Tuy nhiên, vì những chuyên gia lĩnh vực phải tốn rất nhiều công sức để địnhnghĩa từ điển và từ vựng tin tức nên cho đến hiện tại, phương pháp này mới chỉđược áp dụng để tóm tắt những trang tin tức bằng tiếng Trung Quốc với nhữngnghiên cứu của [Lee và cộng sự 2005]

1.2.1.3 Phương pháp dựa trên những ngữ đoạn đầu và thân.

Những nghiên cứu theo phương pháp này tập trung vào việc viết lại nhữngcâu mở đầu bằng việc sử dụng cách thức thêm và thay thế những ngữ đoạn trong

những câu mở đầu cũng như những câu ở phần thân có chung cấu trúc cú pháp đầu

(“head chunk”) [Tanaka và cộng sự 2009] đã đề xuất một phương pháp theo cáchtiếp cận này và áp dụng để tóm tắt những bản tin phát thanh Họ xác định nhữngngữ đoạn lớn nhất của từng cấu trúc cú pháp đầu trong những câu mở đầu và câu ởphần thân Những thao tác thay thế và thêm được áp dụng cho những ngữ đoạn này

để sửa lại câu mở đầu Bằng cách sử dụng phương pháp này, họ có thể tìm đượcnhững cách viết lại phù hợp theo ngữ nghĩa Tuy nhiên, tương tự những phương

Trang 30

pháp dựa trên cấu trúc khác, hạn chế của phương pháp này là chưa đề xuất đượcmột mô hình hoàn chỉnh.

1.2.1.4 Phương pháp dựa trên quy tắc

[Genest và Lapalme 2012] đã trình bày một phương pháp với ba thành phần

Thành phần thứ nhất thực hiện việc trích xuất thông tin Thành phần này xác định

những quy tắc ứng viên cho từng thể của động từ và danh từ Thành phần thứ hai

thực hiện việc lựa chọn nội dung Thành phần này lựa chọn quy tắc tốt nhất cho

từng thể Thành phần thứ ba thực hiện việc tóm tắt Thành phần này tạo văn bản

đầu ra sử dụng những mẫu tạo sinh Với phương pháp này, các tác giả đã tạo ranhững văn bản tóm tắt với thông tin nhiều hơn Tuy nhiên, họ cũng tốn rất nhiềucông sức để xây dựng thủ công tất cả các quy tắc và mẫu

1.2.2 Phương pháp tiếp cận dựa trên ngữ nghĩa

1.2.2.1 Phương pháp dựa trên ngữ nghĩa đa thể hiện

Một nền tảng được đề xuất bởi [Greenbacker 2011] dựa trên ngữ nghĩa đa thể

hiện (“multimodal”) với ba bước chính Bước thứ nhất là sử dụng ontology để xây

dựng một biểu diễn mô hình ngữ nghĩa những nội dung của những văn bản đa thể

hiện Bước thứ hai là một metric đánh giá những khái niệm trong ontology với

nhiều yếu tố như tính đầy đủ của những thuộc tính, số lượng mối quan hệ với những

khái niệm khác,… Bước thứ ba là một bộ tạo sinh sẽ tạo tóm tắt với những khái

niệm quan trọng nhất Ý tưởng để tạo sinh tóm tắt tóm tắt là đóng góp quan trọngnhất của nền tảng này vì nó bao gồm nội dung nguyên văn nổi bật và sinh động.Một điểm cần nghiên cứu sâu hơn là việc đánh giá được thực hiện thủ công

1.2.2.2 Phương pháp dựa trên mục tin tức

Một nghiên cứu khác trong tóm tắt tóm tắt đa văn bản được thực hiện bởi[Genest và Lapalme 2011] tập trung tạo sinh tóm tắt từ biểu diễn trừu tượng của

những văn bản nguồn được gọi là mục tin tức (“information item”) Các tác giả giới thiệu một nền tảng để tóm tắt với những thành phần chính Thành phần thứ nhất

thực hiện việc lấy mục tin tức Thành phần này phân tích cú pháp của văn bản

Trang 31

nguồn và trích xuất những chủ đề của động từ và đối tượng Thành phần thứ hai thực hiện việc tạo sinh câu mới Thành phần thứ ba thực hiện việc lựa chọn câu.

Thành phần này đánh giá những câu được tạo sinh với những điểm số phù hợp

Thành phần thứ tư thực hiện việc tạo sinh tóm tắt Thành phần này kết hợp những

câu được tạo sinh có điểm cao nhất với những thông tin về ngày tháng và địa điểm

để tạo thành tóm tắt hoàn chỉnh Mặc dù tóm tắt ngắn ngọn, có tính mạch lạc, giàuthông tin và ít rườm rà, vẫn còn đó những giới hạn của phương pháp tiếp cận này:(a) Có thể bỏ qua một số những mục tin tức mà có thể khó khăn trong việc tạo thànhnhững câu có ý nghĩa và đúng ngữ pháp; (b) Trong thành phần lấy mục tin, nếu việcphân tích thành cây cú pháp không chính xác, như vậy chất lượng ngôn ngữ học củatóm tắt là không cao

1.2.2.3 Phương pháp dựa trên đồ thị ngữ nghĩa

[Moawad và Aref 2012] tạo thành một đồ thị ngữ nghĩa gọi là đồ thị ngữ

nghĩa giàu (“Rich Semantic Graph”) để biểu diễn ngữ nghĩa của văn bản nguồn Đồ

thị này sẽ được làm giảm đi bằng việc sử dụng những quy tắc heuristic và chuyểnđổi thành tóm tắt tóm tắt Kết quả đầu ra của phương pháp này có thể súc tích, mạchlạc và ít rườm rà Tuy nhiên, phương pháp này thiếu những kiến thức trong những

lý thuyết ngôn ngữ học Do vậy, tóm tắt có thể không hoàn toàn đúng ngữ pháp vàkhông mang tính tự nhiên trong ngôn ngữ được áp dụng

1.2.3 Hướng tiếp cận trộn câu - nén câu

Những kỹ thuật trộn câu và nén câu được đề xuất là hướng tiếp cận hẹp củatóm tắt văn bản theo hướng tóm tắt trừu tượng Nén câu bao gồm những chiến lượcnhư thay thế một câu hay ngữ đoạn trong văn bản nguồn bởi một từ thay thế và loại

bỏ những từ không cần thiết trong câu hay ngữ đoạn này Một số nghiên cứu gầnđây để nén câu tiếng Việt cũng đã được một số tác giả thực hiện [Luong và cộng sự2015; Tran và cộng sự 2015] Thuật ngữ trộn câu được giới thiệu lần đầu bởi

[Barzilay và McKeown 2005] Họ định nghĩa trộn câu là một kỹ thuật tạo sinh văn

bản - tới - văn bản (“text-to-text generation”) cho việc tổng hợp những thông tin

Trang 32

chung qua những văn bản Về cơ bản trộn câu là một kỹ thuật chuyển đổi thông tin

từ một hay nhiều câu thành một câu đơn đầu ra Ý niệm của trộn câu đã tồn tại trước

đó những với những tên gọi khác nhau Nó được sử dụng đầu tiên để tóm tắt văn

bản tự động bởi [Barzilay và cộng sự 1999] dưới tên gọi trộn thông tin

(“information fusion”) [Jing và cộng sự 1998] cũng sử dụng trộn câu cho tóm tắt

văn bản tự động và họ sử dụng thuật ngữ kết hợp câu (“sentence combination”).

Một số tác giả cũng đã thực hiện nghiên cứu trộn các đoạn văn bản có nội dungtương tự để tạo thành văn bản tóm tắt [Ung và cộng sự 2015] Trong nghiên cứu nàycác tác giả tập trung vào việc xem xét những bản tin và phân tích những đặc trưngnổi trội để tạo thành văn bản tóm tắt sau cùng

Trộn câu có thể được phân tách thành hai dạng, trộn hỗn hợp (“union fusion”) và trộn giao nhau (“intersection fusion”), dựa trên thông tin trong câu đầu

ra được tạo sinh [Barzilay và McKeown 2005] Trong trộn hỗn hợp, câu đầu ra chứanhững thông tin xuất hiện trong cả hai câu ban đầu Trong trộn giao nhau, câu đầu

ra chứa những thông tin chung xuất hiện trong cả hai câu Phương pháp trộn câuđược đề xuất bởi [Barzilay và McKeown 2005] là một ví dụ của trộn giao nhau

1.2.3.1 Phương pháp sử dụng cây phụ thuộc

Cây phụ thuộc (“dependency tree”) là một dạng biểu diễn kết quả phân tích

cú pháp của một câu Dạng biểu diễn này thể hiện các mối liên hệ ngữ pháp và phụthuộc giữa các từ vựng trong câu Trong hướng tiếp cận trộn câu, các câu được trộntrước tiên sẽ được biễu diễn dưới dạng những cây phụ thuộc Những cây này sẽđược trộn lại thành một cây duy nhất và sau đó được chuyển đổi thành một câu mớigọi là câu trộn Quá trình chuyển đổi một cây phụ thuộc thành một chuỗi từ vựng

được gọi là sự tuyến tính hóa cây (“tree linearization”).

[Barzilay và McKeown 2005] phát triển một phương pháp trộn câu trong ngữ

cảnh của tóm tắt đa văn bản với ba bước xử lý chính Bước thứ nhất là nhận biết

những thông tin chung Trong bước này, những thông tin được chia sẻ giữa hai câunguồn sẽ được nhận biết Trước tiên, từng câu sẽ được biểu diễn cấu trúc cú pháp

Trang 33

thành cây phụ thuộc Sau đó, những cây này sẽ được so khớp Những cây phụ thuộcđược thiết kết tốt với những thông tin của từng từ vựng trong câu được lưu trữ tại

mỗi nút Bước thứ hai là so khớp những cây phụ thuộc Trong bước này những cây

phụ thuộc sẽ được kết hợp để tạo thành một cây duy nhất Cây được tạo thành sẽđược tiếp tục điều chỉnh thông qua hai bước: (a) làm giàu cây bằng cách thêm vàonhững đường đi và cây con với điều kiện chúng xuất hiện đủ nhiều trong những câuban đầu; (b) tỉa cây bằng cách loại bớt những cây con không xuất hiện nhiều trongcác cây đầu vào và không có tầm quan trọng về ngữ pháp được quy định trước

Bước thứ ba là tuyến tính hóa cây là tác vụ cuối cùng trong hệ thống trộn câu theo

phương pháp này Cây phụ thuộc đầu ra sẽ được sử dụng làm nền tảng tạo sinh câungôn ngữ tự nhiên mới Những chuỗi câu ứng viên khác nhau sẽ được tạo sinh vàđược xếp hạng dựa theo một mô hình ngôn ngữ tri-gram

[Krahmer và cộng sự 2008] mở rộng tiếp cận trong [Barzilay và McKeown2005] để thực hiện trộn câu trong ngữ cảnh của các hệ thống hỏi đáp Họ không chỉthực hiện trộn giao nhau mà còn thực hiện trộn hỗn hợp Thực hiện tương tự[Barzilay và McKeown 2005] cho ba thành phần chính của một hệ thống trộn câu:(a) ở thành phần sắp hàng, đề xuất chiến lược để hiểu thêm làm thế nào những từvựng và ngữ đoạn trong các câu đầu vào liên hệ với nhau, trong đó có sự chồngchéo thông tin, diễn giải thông tin theo các cách khác nhau, sự kế thừa thông tin,…;(b) ở thành phần trộn, xác định trước dạng trộn là hỗn hợp hay giao nhau để quyếtđịnh trộn cây phụ thuộc; (c) xác định sự tuyến tính hóa tốt nhất với một mô hìnhngôn ngữ

[Filippova và Strube 2008a] đề xuất phương pháp trộn câu không giám sát.Phương pháp này bắt đầu với việc sắp hàng các cây phụ thuộc của các câu có quan

hệ với nhau để tạo thành một đồ thị phụ thuộc Tiếp đến, họ sử dụng lập trình tuyến

tính số nguyên (“integer linear programming”) để nén đồ thị này và tạo thành cây

mới Các đồng đối số trong câu kết quả sẽ được kiểm tra tính hợp lệ về cú pháp vàngữ nghĩa

Trang 34

1.2.3.2 Phương pháp sử dụng đồ thị từ vựng

Phương pháp sử dụng đồ thị từ vựng (“word graph”) được [Filippova 2010]

đề xuất với ưu điểm là không sử dụng tài nguyên bên ngoài Phương pháp này baogồm việc sử dụng một đồ thị từ vựng của các câu cần được trộn và nén, từ đó xácđịnh đường đi ngắn nhất có chứa các thông tin chung để tạo văn bản tóm tắt Một số

kỹ thuật được sử dụng trong phương pháp này là tách từ (“tokenizer”) và gán nhãn

từ vựng (“part-of-speech tagger”).

[Boudin và Morin 2013] đã cải tiến phương pháp trong [Filippova 2010]bằng cách đề xuất phương pháp đánh giá lại dựa theo việc trích xuất những cụm từkhóa và tạo ra những câu nén có nhiều thông tin và được nhấn mạnh hơn

Chương này đã trình bày tổng quan về bài toán tóm tắt văn bản và tập trungphân tích ưu điểm, hạn chế của các phương pháp tóm tắt văn bản truyền thống Bắtđầu từ những nghiên cứu đầu tiên trong [Baxendale 1958, Edmundson 1969; Luhn

1958], suốt hơn nửa thế kỉ, nhiều phương pháp tóm tắt văn bản được đề xuất dựatrên những kỹ thuật và giải thuật trong lĩnh vực Máy học và Trích xuất thông tin[Das và Martins 2007; Fattah và Ren 2008; Jezek và Steinberger 2008] Trongkhoảng một thập kỉ gần đây, hướng tiếp cận “tóm tắt trừu tượng” bắt đầu phát triểnvới một số nghiên cứu đáng chú ý [Alguliev và Aliguliyev 2005; Chaowalit vàSornil 2014; Chopra và cộng sự 2016; Clarke và Lapata 2006a, 2006b, 2008, 2010;Cohn và Lapata 2008; Copeck và cộng sự 2002; Elsner và Santhanam 2011;Filippova và Strube 2008a, 2008b; Gerani và cộng sự 2014; Harabagiu và Lacatusu2002; Jagadish và cộng sự 2014; Kasture và cộng sự 2014; Khan và Salim 2014;Kyoomarsi và cộng sự 2008; Le và Le 2013; Liu và cộng sự 2015; Lloret 2008;Lloret và Palomar 2010; Marsi và Krahmer 2005; Mohan và cộng sự 2016;Muralikrishna và Reddy 2015; Nallapati và cộng sự 2016; Paulus và cộng sự 2017;Radev và cộng sự 2002; Rush và cộng sự 2015; Saggion và Lapalme 2002;Sornlertlamvanich và cộng sự 2001; Suanmali 2009; Sunitha và cộng sự 2016;

Trang 35

Svore và cộng sự 2007; Tanaka 2009; Thadani và McKeown 2013; Tran và Nguyen2014a, 2014b, 2014c, 2016] Những phương pháp được đề xuất theo hướng tiếp cận

“tóm tắt trừu tượng” hay tiếp cận lai đòi hỏi phải xây dựng được cơ chế hiểu và biểudiễn được ngữ nghĩa của văn bản đầu vào ở một mức độ nhất định Tiếp theo, nhữngphương pháp này cũng phải xây dựng được cơ chế tạo sinh câu hoặc văn bản mớidựa trên biểu diễn ngữ nghĩa này

Trên cơ sở khảo sát các nghiên cứu liên quan, mục tiêu và phạm vi của luận

án là tập trung nghiên cứu đề xuất mô hình giải pháp tạo sinh câu và đoạn văn bảntóm tắt nhằm tóm tắt nội dung thông tin đoạn văn bản tiếng Việt cho trước theohướng tiếp cận tóm tắt trừu tượng, với sự kết hợp những kỹ thuật tạo sinh ngôn ngữ

tự nhiên và kiến thức ngôn ngữ học phù hợp trong Ngữ pháp chức năng [Cao 2006;Halliday và Matthiessen 2004] Để thực hiện mục tiêu này, luận án đề xuất xâydựng mô hình giải pháp tóm tắt được trình bày trong Hình 0.1 với những nghiêncứu cụ thể được trình bày trong các công trình khoa học liên quan luận án

Trang 36

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Giới thiệu

Chương này trình bày sơ lược những kiến thức nền tảng trong Khoa học máytính và Ngôn ngữ học, là cơ sở để đề xuất những phương pháp, cơ chế xử lý trongluận án

Trong nội dung chính thứ nhất, luận án trình bày 02 mô hình biểu diễn ngữ

nghĩa trừu tượng trong lĩnh vực Xử lý Ngôn ngữ tự nhiên Mô hình thứ nhất là Cấu

trúc biểu diễn diễn ngôn Mô hình thứ hai là Ngữ pháp dựa trên sự hợp nhất Hai

mô hình này được áp dụng trong luận án để thực hiện thành phần Phân tích và Biểudiễn ngữ nghĩa văn bản tiếng Việt trong mô hình giải pháp ở Hình 0.1 Cấu trúc biểudiễn diễn ngôn được sử dụng để biểu diễn trừu tượng những nội dung thông tinchính của đoạn văn bản nguồn và là nền tảng để thực hiện các cơ chế tạo sinh câu

và đoạn văn bản tiếng Việt

Trong nội dung chính thứ hai, luận án trình bày những kiến thức Ngôn ngữhọc phù hợp, làm nền tảng để đề xuất các luật, phương pháp xử lý và cơ chế tạosinh Nền tảng kiến thức Ngôn ngữ học đầu tiên là những dạng câu tiếng Việt đơngiản và yếu tố hồi chỉ được trình bày trong Ngữ pháp chức năng [Cao 2006] Luận

án đề xuất những phương pháp chuyển đổi các câu tiếng Việt thông thường vềnhững câu có dạng đơn giản, đồng thời đề xuất những chiến lược tìm kiếm yếu tốtiền ngữ tương ứng cho từng yếu tố hồi chỉ, từ đó giúp tạo dựng Cấu trúc biểu diễndiễn ngôn Những dạng câu tiếng Việt đơn giản được nghiên cứu cũng làm nền tảng

để đề xuất những cơ chế tạo sinh câu và đoạn văn bản tiếng Việt tóm tắt từ Cấu trúcbiểu diễn diễn ngôn Nền tảng kiến thức Ngôn ngữ học thứ hai là những quy tắc cảibiến trong Ngữ pháp cải biến – tạo sinh [Chomsky 2002] Những quy tắc cải biếnđược áp dụng trong luận án để đề xuất các cơ chế tạo sinh cấu trúc cú pháp phù hợpcủa các câu tiếng Anh từ Cấu trúc biểu diễn ý nghĩa phẳng

Trong nội dung chính thứ ba, luận án trình bày những điểm chính yếu để xâydựng một hệ thống Tạo sinh ngôn ngữ tự nhiên Những điểm này là nền tảng để

Trang 37

luận án đề xuất các cơ chế tạo sinh câu và đoạn văn bản tiếng Việt từ Cấu trúc biểudiễn diễn ngôn.

2.2 Phân tích và biểu diễn ngữ nghĩa

2.2.1 Lý thuyết biểu diễn diễn ngôn

Lý thuyết biểu diễn diễn ngôn (“Discourse Representation Theory” – DRT)

[Blackburn và Bos 1999; Covington và cộng sự 1988, 1989; Kamp 1981] là mộtnền tảng để khám phá ý nghĩa theo cách tiếp cận ngữ nghĩa hình thức, trong lĩnhvực diễn giải động ngôn ngữ tự nhiên DRT bao gồm một mức độ biểu diễn tinhthần trừu tượng (là một dạng cấu trúc biểu diễn) bên trong hình thức của nó, manglại khả năng nội tại để xử lý ý nghĩa xuyên qua các ranh giới câu Ý tưởng chính củahướng tiếp cận là một diễn ngôn ngôn ngữ tự nhiên (hay có thể hiểu là một đoạnvăn bản ngôn ngữ tự nhiên – một chuỗi câu được nói ra bởi cùng một diễn giả) đượcdiễn giải trong ngữ cảnh của một cấu trúc biểu diễn Kết quả của việc xử lý mộtđoạn văn bản trong ngữ cảnh của cấu trúc biểu diễn A là một cấu trúc biểu diễn mớiA’ Cấu trúc mới A’ được xem như một phiên bản cập nhật của A

Cấu trúc biểu diễn cho những thông tin được thu thập trong một đoạn văn

bản được gọi là cấu trúc biểu diễn diễn ngôn (CT-BD-DN) (“Discourse

Representation Structure” – DRS) [Blackburn và Bos 1999; Covington và cộng sự

1988, 1989; Kamp 1981], được mô tả đồ họa dưới dạng hộp Một cách hình thức,

một CT-BD-DN bao gồm hai phần: một danh sách hữu hạn U chứa đựng những liên

hệ diễn ngôn (“discourse referent”) mà thực chất là những chỉ số riêng biệt đại diện

cho những đối tượng khác nhau của diễn ngôn; và một danh sách hữu hạn Con chứa

đựng những điều kiện (“condition”) hay có thể hiểu là những vị từ (“predicate”) hay

phương thức (“function”) mà những đối tượng được đại diện bởi các chỉ số trong

danh sách U phải thỏa Những ngôn ngữ CT-BD-DN (hay ngôn ngữ hộp) được xâydựng xung quanh những từ vựng Chúng chứa đựng những ký hiệu ¬, , →, =.∨Ngoài ra, những ngôn ngữ CT-BD-DN chứa đựng những ký hiệu ký tự như x, y, z,

…, và chúng được gọi là những liên hệ diễn ngôn, không phải là biến số Chúng ta

Trang 38

xây dựng những CT-BD-DN và vị từ với các mệnh đề sau [Blackburn và Bos 1999;Covington và cộng sự 1988, 1989; Kamp 1981]:

1 Nếu x1, …, xn là những liên hệ diễn ngôn (n ≥ 0) và P 1, …, Pm (m ≥ 0) lànhững vị từ, thì biểu diễn hộp rỗng sau là một CT-BD-DN:

2 Nếu R là một ký hiệu quan hệ của n, và x1, …, xn là những hằng số hay liên

được gọi là một CT-BD-DN rỗng, hay hộp rỗng Những vị từ được chỉ rõ bởi mệnh

đề 2 và 3 được gọi là những vị từ nguyên thủy Những vị từ được chỉ rõ bởi cácmệnh đề 4, 5 và 6 được gọi là những vị từ phức hợp: ¬ thể hiện thông tin phủ định; thể hiện thông tin phân biệt; thể hiện cả thông tin điều kiện và định lượng phổ

dụng

Ví dụ 2.1 đoạn văn bản gồm hai câu tiếng Việt đơn giản “Nhân thông minh.

Nó viết chương trình.” có CT-BD-DN bao gồm hai danh sách: (i) Danh sách U chứa

Trang 39

đựng những chỉ số riêng biệt đại diện cho những đối tượng khác nhau của đoạn vănbản: 1 – nhân, 2 – chương trình; (ii) Danh sách Con chứa đựng những vị từ:

nhân(1), chương_trình(2), thông_minh(1), viết(1,2) CT-BD-DN nàyđược biểu diễn dưới dạng hộp như sau:

Ngữ pháp dựa trên sự hợp nhất (“Unification-based Grammar” – UBG) được

giới thiệu trong [Covington 2007; Shieber, 2003] với ý tưởng cơ bản: UBG là mộthình thức trong đó những lý thuyết về ngữ pháp có thể được biểu diễn, với vai trònổi bật của việc hợp nhất những cấu trúc đặc điểm

Trong phân tích cấu trúc cú pháp của câu, ở từng ngữ đoạn hoặc từ vựng, cóthể mô tả thêm cấu trúc đặc điểm của ngữ đoạn hay từ vựng này Những thông tinđặc điểm này có thể truyền lên xuống giữa các ngữ đoạn, và tạo nên cấu trúc đặcđiểm từ những thông tin được truyền đến Như một ví dụ, xét phân tích cấu trúc cúpháp câu thành danh ngữ và động ngữ [Shieber, 2003, tr.10]:

{sem: {sem: {sem:

in~X1, in~X1, in~X2,

out~X3} out~X2} out~X3}

Trong quy tắc phân tích trên, đặc điểm sem của S có 2 giá trị: X1 đượctruyền đến từ bên ngoài, X3 sẽ được truyền ra ngoài X1 sau đó được truyền xuốngcho NP và trở thành một giá trị của đặc điểm sem của NP Giá trị thứ hai của đặcđiểm sem của NP là X2 được tạo thành từ sự biến đổi X1 bằng cách nào đó, rồi

Trang 40

truyền qua cho VP và trở thành một giá trị đầu vào của đặc điểm sem của VP Giá trịnày tiếp tục được biến đổi trở thành X3, và cũng trở thành đầu ra của S.

2.3 Nền tảng Ngôn ngữ học

2.3.1 Những dạng câu tiếng Việt và yếu tố hồi chỉ trong Ngữ pháp chức năng

2.3.1.1 Phân loại hình câu theo nghĩa biểu hiện của khung vị ngữ

Dựa theo Ngữ pháp chức năng cho tiếng Việt [Cao 2006], nghĩa biểu hiệnphản ánh cái sự tình của thế giới được nói đến trong câu, chỉ bao gồm các thànhphần thông tin cốt lõi của câu và bỏ qua tất cả những yếu tố khác như thì, thức, thể,tình thái, phong cách, hàm ý, ngữ dụng, logic, … Có ba loại nghĩa biểu hiện cơ bản

[Cao 2006]: (i) những câu chỉ sự tồn tại cho biết rằng có cái gì ở trong một thế giới hay ở một nơi nào đó; (ii) những câu chỉ biến cố, trong đó được phân biệt ra thành câu chỉ hành động và câu chỉ quá trình; (iii) những câu chỉ tình hình, trong đó phân

biệt ra thành câu chỉ trạng thái và câu chỉ quan hệ Bảng 2.1 trình bày sự phânhoạch bốn loại câu được nghiên cứu trong luận án

Bảng 2.1 Sự phân loại dạng câu đơn tiếng Việt được nghiên cứu trong luận án [Cao 2006,

(-) di chuyển

Quá trình (- chủ ý)

(+) chuyển tác tác động

tạo diệt(-) chuyển tác chuyển biến

sinh diệtTrạng thái (+ nội tại)

Tính chất (+ trường tồn) phẩm chất (+ thể chất)

tính khí (- thể chất)Tình trạng (- trường tồn) (+) thể chất

Ngày đăng: 22/01/2021, 11:45

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm