Ngoài ra, hướng tiếp cận tinh chỉnh mô hình tóm tắt đơn văn bản được huấn luyện trước bằng việc huấn luyện tiếp mô hình tóm tắt đơn văn bản trên các bộ dữ liệu thử nghiệm của tóm tắt đa
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LƯU MINH TUẤN
NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP TÓM TẮT VĂN BẢN SỬ DỤNG KĨ THUẬT HỌC SÂU
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
HÀ NỘI - 2022
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LƯU MINH TUẤN
NGHIÊN CỨU, PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP TÓM TẮT VĂN BẢN SỬ DỤNG KĨ THUẬT HỌC SÂU
Ngành: Hệ thống thông tin
Mã số: 9480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LÊ THANH HƯƠNG
HÀ NỘI - 2022
Trang 3LỜI CAM ĐOAN
Tôi tên là Lưu Minh Tuấn, xin cam đoan đây là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học Các kết quả nghiên cứu trình bày trong luận án là trung thực, chính xác và chưa từng được công bố trong bất kỳ công trình nào khác Các kết quả nghiên cứu viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án Các kết quả sử dụng để tham khảo đều được trích dẫn đầy đủ và theo đúng quy định
Nghiên cứu sinh
Lưu Minh Tuấn
NGƯỜI HƯỚNG DẪN KHOA HỌC
Trang 4LỜI CẢM ƠN
Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và ý kiến đóng góp quý báu của các thầy cô Lời đầu tiên, nghiên cứu sinh xin được bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS TS Lê Thanh Hương - người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể hoàn thành được luận án này Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS TS Nguyễn Bình Minh về những ý kiến đóng góp quý báu trong những buổi
xê mi na khoa học nhiều gian nan trong suốt thời gian nghiên cứu và hoàn thành luận án Nghiên cứu sinh xin gửi lời cảm ơn đến các thầy cô của Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin và truyền thông, Phòng đào tạo, Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập và nghiên cứu đã tạo điều kiện tốt nhất có thể cho nghiên cứu sinh trong suốt thời gian học tập và nghiên cứu để nghiên cứu sinh có thể hoàn thành luận án tiến sĩ một cách tốt nhất Xin cảm ơn Ban giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông tin và Kinh tế số, các thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh công tác và các đồng nghiệp đã luôn quan tâm giúp đỡ, tạo điều kiện tốt nhất để nghiên cứu sinh có thể hoàn thành tốt kế hoạch học tập và nghiên cứu của mình Lời cuối, nghiên cứu sinh xin chân thành cảm ơn các thành viên trong gia đình, người thân, bạn bè đã dành cho nghiên cứu sinh những tình cảm tốt đẹp, luôn động viên, giúp đỡ nghiên cứu sinh vượt qua những khó khăn trong quá trình học tập và nghiên cứu để đạt được kết quả như ngày hôm nay Đây cũng là món quà tinh thần mà nghiên cứu sinh trân trọng gửi tặng đến các thành viên trong gia đình và người thân Một lần nữa nghiên cứu sinh xin chân thành cảm ơn!
Trang 5MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ix
DANH MỤC KÝ HIỆU TOÁN HỌC xi
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 12
1.1 Giới thiệu về tóm tắt văn bản 12
1.1.1 Giới thiệu bài toán tóm tắt văn bản 12
1.1.2 Phân loại bài toán tóm tắt văn bản 13
1.1.3 Các bước thực hiện trong tóm tắt văn bản 14
1.1.4 Một số đặc trưng của văn bản 14
1.2 Một số phương pháp đánh giá văn bản tóm tắt tự động 15
1.2.1 Phương pháp dựa trên độ tương tự về nội dung 15
1.2.2 Phương pháp dựa trên độ tương quan phù hợp 15
1.2.3 Phương pháp ROUGE 16
1.3 Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản 19
1.4 Các phương pháp tóm tắt văn bản hướng trích rút cơ sở 21
1.4.1 PageRank 21
1.4.2 TextRank 21
1.4.3 LexRank 21
1.4.4 Lead-Based 22
1.5 Các bộ dữ liệu thử nghiệm 22
1.5.1 Các bộ dữ liệu văn bản tiếng Anh 22
1.5.2 Các bộ dữ liệu văn bản tiếng Việt 25
1.6 Kết luận chương 1 26
Chương 2 CÁC KIẾN THỨC NỀN TẢNG 28
2.1 Các kỹ thuật học sâu cơ sở 28
2.1.1 Mạng Perceptron nhiều lớp 28
2.1.2 Mạng nơ ron tích chập 28
2.1.3 Mạng nơ ron hồi quy 31
2.1.4 Các biến thể của RNN 32
2.1.5 Mô hình chuỗi sang chuỗi cơ bản 36
2.1.6 Cơ chế chú ý 37
2.1.7 Cơ chế tự chú ý và mô hình Transformer 40
2.2 Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước 43
2.2.1 Mã hóa từ 43
Trang 62.2.2 Phương pháp Word2Vec 43
2.2.3 Mô hình BERT 45
2.2.4 Các phiên bản chủ yếu của mô hình BERT 48
2.3 Kỹ thuật học tăng cường Q-Learning 50
2.3.1 Học tăng cường Q-Learning 50
2.3.2 Thuật toán học tăng cường Deep Q-Learning 51
2.4 Tìm kiếm Beam 52
2.5 Phương pháp độ liên quan cận biên tối đa 52
2.6 Kết luận chương 2 54
Chương 3 PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT 55
3.1 Giới thiệu bài toán và hướng tiếp cận 55
3.2 Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS 57
3.2.1 Giới thiệu mô hình 57
3.2.2 Mô hình tóm tắt văn bản đề xuất 57
3.2.3 Thử nghiệm mô hình 60
3.2.4 Đánh giá và so sánh kết quả 64
3.3 Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS 65
3.3.1 Giới thiệu mô hình 65
3.3.2 Mô hình tóm tắt văn bản đề xuất 65
3.3.3 Thử nghiệm mô hình 68
3.3.4 Đánh giá và so sánh kết quả 72
3.4 Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_ seq2seq_DeepQL_ESDS 72
3.4.1 Giới thiệu mô hình 72
3.4.2 Mô hình tóm tắt văn bản đề xuất 73
3.4.3 Huấn luyện mô hình với kỹ thuật học tăng cường 75
3.4.4 Thử nghiệm mô hình 76
3.4.5 Đánh giá và so sánh kết quả 79
3.5 So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút đề xuất 80
3.6 Kết luận chương 3 81
Chương 4 PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC 83
4.1 Giới thiệu bài toán và hướng tiếp cận 83
4.2 Mô hình tóm tắt cơ sở 85
4.2.1 Mô hình seq2seq của mô hình 85
Trang 74.2.2 Cơ chế chú ý áp dụng trong mô hình 86
4.2.3 Mạng sao chép từ - sinh từ 87
4.2.4 Cơ chế bao phủ 88
4.3 Mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS 88 4.3.1 Các đặc trưng đề xuất thêm mới cho mô hình 89
4.3.2 Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất 90
4.4 Thử nghiệm mô hình 91
4.4.1 Các bộ dữ liệu thử nghiệm 91
4.4.2 Tiền xử lý dữ liệu 91
4.4.3 Thiết kế thử nghiệm 91
4.5 Đánh giá và so sánh kết quả 92
4.6 Kết luận chương 4 94
Chương 5 PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 95 5.1 Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận 95
5.2 Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS 96
5.2.1 Giới thiệu mô hình 96
5.2.2 Các thành phần chính của mô hình 97
5.2.3 Mô hình tóm tắt đa văn bản đề xuất 99
5.2.4 Thử nghiệm mô hình và kết quả 104
5.2.5 So sánh và đánh giá kết quả 106
5.3 Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản được huấn luyện trước 109
5.3.1 Đặt vấn đề 109
5.3.2 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS 110 5.3.3 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước Ext_Abs_AMDS-mds-mmr 120 5.4 Kết luận chương 5 131
KẾT LUẬN 132
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 135
TÀI LIỆU THAM KHẢO 136
PHỤ LỤC 1
Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ 1
Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm 3
Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm 9
Trang 8DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
AMDS Abstractive Multi-Document
biGRU Bidirectional Gated Recurrent Unit Mạng GRU 2 chiều
biLSTM Bidirectional Long Short Term
Memory
Mạng LSTM 2 chiều
BPTT Backpropagation Through Time Thuật toán lan truyền ngược
liên hồi ConvNet Convolutional Neural Network Mạng nơ ron tích chập
DE Document Embedding Mã hóa văn bản
DeepQL Deep Q-Learning Thuật toán học tăng cường
dựa trên mạng nơ ron sâu EMDS Extractive Multi-Document
Summarization
Tóm tắt đa văn bản hướng trích rút
ESDS Extractive Single-Document
GRU Gated Recurrent Unit Mô hình đơn vị hồi quy có
kiểm soát 1 chiều ILP Integer Linear Programming Quy hoạch tuyến tính
nguyên
IR Information Retrieval Tìm kiếm thông tin
LCS Longest Common Subsequence Dãy con chung lớn nhất LDA Latent Dirichlet Allocation Mô hình chủ đề ẩn
LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn LSTM Long Short Term Memory Mô hình mạng bộ nhớ ngắn
hạn dài hạn 1 chiều mBERT BERT multilingual Mô hình BERT đa ngôn ngữ mds multi-document summarization Tóm tắt đa văn bản
MLP Multi Layer Perceptron Mạng Perceptron nhiều lớp MMR Maximal Marginal Relevance Độ liên quan cận biên tối đa NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
Trang 9OOV Out Of Vocabulary Không có trong bộ từ vựng
PE Position Embedding Mã hóa vị trí
PG Pointer – Generator Mô hình mạng Pointer –
Generator
hỗ trợ cho tiếng Việt
PT Pre-trained Huấn luyện trước
RL Reinforcement Learning Học tăng cường
RNN Recurrent Neural Network Mạng nơ ron hồi quy
hỗ trợ cho tiếng Anh ROUGE Recall-Oriented Understudy for
Gisting Evaluation
Độ đo Rouge
SE Sentence Embedding Mã hóa câu
seq2seq Sequence to sequence Mô hình chuỗi sang chuỗi SQuAD Stanford Question Answering Dataset Bộ dữ liệu hỏi đáp của
Stanford SVM Support Vector Machine Mô hình máy véc tơ hỗ trợ TF-IDF Term Frequency – Inverse Document
Frequency
Trọng số của từ (mức độ quan trọng của từ) trong văn bản của một tập văn bản
warmup warmup Quá trình huấn luyện ban
đầu (số bước) với tỉ lệ học nhỏ
Trang 10DANH MỤC CÁC BẢNG
Bảng 1.1 Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh 13
Bảng 1.2 Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt 13
Bảng 1.3 Phương pháp phân chia bộ dữ liệu CNN/Daily Mail 22
Bảng 1.4 Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail 23
Bảng 1.5 Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho tóm tắt đơn văn bản 23
Bảng 1.6 Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004 24
Bảng 1.7 Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 24
Bảng 1.8 Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi 25
Bảng 1.9 Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV 26
Bảng 1.10 Thống kê các thông tin tóm tắt của bộ dữ liệu ViMs 26
Bảng 3.1 Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở Ký hiệu ‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng 61
Bảng 3.2 Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng 62 Bảng 3.3 Kết quả thử nghiệm của các mô hình xây dựng Ký hiệu ‘-’ biểu diễn mô hình mà luận án không thử nghiệm trên bộ dữ liệu tương ứng 62
Bảng 3.4 Một mẫu tóm tắt trên bộ dữ liệu CNN 63
Bảng 3.5 Một mẫu tóm tắt trên bộ dữ liệu Baomoi 64
Bảng 3.6 So sánh và đánh giá hiệu quả các phương pháp Ký hiệu ‘*’,‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 64
Bảng 3.7 Các kết quả thử nghiệm của các mô hình xây dựng 70
Bảng 3.8 Kết quả thử nghiệm các phương pháp trên bộ DUC 2001 và DUC 2002 Ký hiệu ‘*’, ‘-’ biểu diễn phương pháp được thử nghiệm, không được thử nghiệm 70 Bảng 3.9 Một mẫu tóm tắt trên bộ dữ liệu CNN 71
Bảng 3.10 Một mẫu tóm tắt trên bộ dữ liệu Baomoi 71
Bảng 3.11 So sánh và đánh giá hiệu quả của các phương pháp Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 72
Bảng 3.12 Bảng giá trị các siêu tham số cài đặt cho mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 75
Trang 11Bảng 3.13 Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng
77
Bảng 3.14 Kết quả thử nghiệm của các mô hình xây dựng 78
Bảng 3.15 Một mẫu tóm tắt trên bộ dữ liệu CNN 78
Bảng 3.16 Một mẫu tóm tắt trên bộ dữ liệu Baomoi 79
Bảng 3.17 So sánh và đánh giá kết quả các phương pháp 79
Bảng 3.18 So sánh đánh giá độ chính xác của 3 mô hình đề xuất 80
Bảng 3.19 So sánh đánh giá thời gian thực hiện của 3 mô hình đề xuất 81
Bảng 4.1 Kết quả thử nghiệm của các mô hình trên bộ dữ liệu CNN/Daily Mail 92
Bảng 4.2 Kết quả thử nghiệm của các mô hình trên bộ dữ liệu Baomoi 92
Bảng 4.3 Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong [49] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu CNN/Daily Mail 93
Bảng 4.4 Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong [49] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu Baomoi 94
Bảng 5.1 Giá trị của các tham số sử dụng khi thử nghiệm các mô hình Ký hiệu ‘-‘ biểu diễn mô hình không sử dụng các tham số tương ứng 104
Bảng 5.2 Kết quả thử nghiệm các mô hình xây dựng trên hai bộ dữ liệu 105
Bảng 5.3 Kết quả thử nghiệm các phương pháp tóm tắt trên bộ dữ liệu DUC 2007 Ký hiệu ‘*’ biểu diễn các phương pháp được thử nghiệm trên bộ dữ liệu tương ứng 106
Bảng 5.4 So sánh và đánh giá kết quả của các phương pháp Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên bộ dữ liệu tương ứng 106
Bảng 5.5 Các mẫu tóm tắt của cụm D0716D trong bộ dữ liệu DUC 2007 của mô hình đề xuất và con người 108
Bảng 5.6 Các mẫu tóm tắt của cụm Cluster_2 trong bộ dữ liệu Corpus_TMV của mô hình đề xuất và con người 109
Bảng 5.6 Giá trị các siêu tham số và thời gian huấn luyện mô hình Warmup là quá trình huấn luyện ban đầu với tỷ lệ học nhỏ để hiệu chỉnh cơ chế chú ý 117
Bảng 5.7 Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS trên các bộ dữ liệu CNN và Baomoi 117
Bảng 5.8 Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS chưa được huấn luyện tiếp trên b ộ DUC 2007 và bộ ViMs tương ứng 118
Bảng 5.9 Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS đã được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng 118
Bảng 5.10 Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 119
Bảng 5.11 Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV 119
Trang 12Bảng 5.12 So sánh và đánh giá kết quả của các phương pháp Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng 120 Bảng 5.13 Giá trị các siêu tham số và thời gian huấn luyện các mô hình 127 Bảng 5.14 Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản trên các bộ dữ liệu CNN/Daily Mail và Baomoi 128 Bảng 5.15 Kết quả thử nghiệm các mô hình xây dựng trên bộ dữ liệu DUC 2004 và Corpus_TMV 128 Bảng 5.16 Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 129 Bảng 5.17 Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV 130 Bảng 5.18 So sánh và đánh giá kết quả của các phương pháp Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng 130
Trang 13DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Các bước thực hiện trong tóm tắt văn bản 14
Hình 1.2 Phương pháp xử lý tóm tắt từng đơn văn bản trong tóm tắt đa văn bản 20
Hình 2.1 Mô hình mạng MLP một lớp ẩn và nhiều lớp ẩn [85] 28
Hình 2.2 Một kiến trúc ConvNet cho bài toán phân loại ảnh [89] 29
Hình 2.3 Tính toán với phương thức Average Pooling và Max Pooling [88] 30
Hình 2.4 Mô hình mạng nơ ron hồi quy [94] 31
Hình 2.5 Kiến trúc tổng quan một tế bào nhớ LSTM (nguồn: [Internet]) 32
Hình 2.6 Chi tiết tế bào nhớ LSTM [98] 33
Hình 2.7 Kiến trúc tổng quan của mạng biLSTM [95] 34
Hình 2.8 Minh họa biLSTM ở 3 bước (t-1), t và (t+1) [98] 35
Hình 2.9 Chi tiết tế bào nhớ GRU [96] 36
Hình 2.10 Mô hình mạng chuỗi sang chuỗi [99] 37
Hình 2.11 Mô hình minh họa cơ chế chú ý sinh từ mục tiêu y t từ câu nguồn 1 2 ( ,x x , )x [100] 38 T Hình 2.12 Mô hình Transformer [104] 41
Hình 2.13 Scaled Dot-Product Attention và Multi-Head Attention [104] 42
Hình 2.14 Mô hình CBoW với một từ làm ngữ cảnh để dự đoán từ tiếp theo [108] 43
Hình 2.15 Mô hình CBoW với nhiều từ làm ngữ cảnh để dự đoán từ tiếp theo [108] 44
Hình 2.16 Mô hình Skip-Gram [108] 44
Hình 2.17 Kiến trúc mô hình BERT [109] 45
Hình 2.18 Biểu diễn đầu vào của mô hình BERT [109] 46
Hình 2.19 Mô hình biểu diễn các bước chưng cất được huấn luyện trước của các mô hình BERT thu nhỏ [118] 50
Hình 2.20 Mô hình học tăng cường 50
Hình 3.1 Khung xử lý chung cho các mô hình tóm tắt đơn văn bản hướng trích rút đề xuất 56
Hình 3.2 Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS 58
Hình 3.3 Kiến trúc mạng MLP đề xuất của mô hình 59
Hình 3.4 Mô hình tóm tắt văn bản hướng trích rút mBERT_CNN_ESDS 65
Trang 14Hình 3.5 Kiến trúc lớp Convolution với k-Max Pooling (k = 2) 67Hình 3.6 Kiến trúc mô hình Encoder-Decoder đề xuất 67Hình 3.7 Mô hình tóm tắt văn bản hướng trích rút mBERT-Tiny_seq2seq_DeepQL_ESDS 73Hình 3.8 Mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 76Hình 4.1 Mô hình tóm tắt đơn văn bản hướng tóm lược cơ sở [134] 85Hình 4.2 Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS 90Hình 5.1 Thuật toán phân cụm K-means kết hợp vị trí tương đối của câu 99Hình 5.2 Mô hình sử dụng thuật toán phân cụm K-means kết hợp vị trí câu 100Hình 5.3 Mô hình sử dụng thuật toán phân cụm K-means kết hợp MMR và vị trí câu 101Hình 5.4 Mô hình sử dụng thuật toán phân cụm K-means kết hợp Centroid-based, MMR và vị trí câu 102Hình 5.5 Mô hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS 103Hình 5.6 Minh họa phương pháp PG-MMR (k=2) [154] 112Hình 5.7 Mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS 113Hình 5.8 Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS 115Hình 5.9 Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_CNN_ESDS 121Hình 5.10 Mô hình tóm tắt đơn văn bản hướng tóm lược PG_TF-IDF_ASDS 122Hình 5.11 Mô hình tóm tắt đơn văn bản hỗn hợp Ext_Abs_ASDS 123Hình 5.12 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre-trained Ext_Abs_ASDS đề xuất (MMR áp dụng trên từng văn bản) 123Hình 5.13 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre-trained Ext_Abs_ASDS với phương pháp MMR áp dụng trên tập đa văn bản 124Hình 5.14 Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất Ext_Abs_AMDS-mds-mmr 125
Trang 15DANH MỤC KÝ HIỆU TOÁN HỌC
AT Ma trận chuyển vị của ma trận A
A-1 Ma trận nghịch đảo của ma trận A [A; B] Ghép 2 ma trận A và ma trận B
exp(x) Hàm ex
( )
f x Hàm số 1 biến f theo biến x
log(x) logarit tự nhiên của số thực dương x
x Chuẩn cấp 2 của véc tơ x
[x;y] Ghép 2 véc tơ x và véc tơ y
Trang 16MỞ ĐẦU
1 B ối cảnh nghiên cứu
Trong kỷ nguyên số và mạng Internet phát triển mạnh mẽ như hiện nay, các tài nguyên trên internet như các trang web, đánh giá của người dùng, tin tức, blog, mạng xã hội, là những nguồn dữ liệu văn bản to lớn Bên cạnh đó, có một khối lượng nội dung văn bản phong phú khác trên các kho lưu trữ như các bài báo tin tức, tiểu thuyết, sách, văn bản pháp luật, tài liệu y sinh, bài báo khoa học, Các nội dung văn bản này tăng lên theo cấp số nhân hàng ngày Do đó, người dùng mất rất nhiều thời gian để tìm kiếm thông tin mà mình mong muốn Kết quả là người dùng thậm chí không thể đọc và hiểu hết được tất cả nội dung văn bản kết quả tìm kiếm
Có nhiều thông tin bị lặp lại hoặc không quan trọng trong các văn bản kết quả tìm kiếm Do đó, việc tóm tắt và cô đọng các nguồn văn bản trở nên cấp thiết và quan trọng hơn rất nhiều Tóm tắt văn bản thủ công là một nhiệm vụ tốn kém và tiêu tốn nhiều thời gian và công sức của con người Trên thực tế, con người cũng rất khó tóm tắt thủ công với lượng dữ liệu văn bản khổng lồ này [1] Để giải quyết các vấn
đề này, các phương pháp tóm tắt văn bản tự động được quan tâm nghiên cứu để phát triển các hệ thống tóm tắt văn bản tự động
Mục tiêu chính của các hệ thống tóm tắt văn bản tự động là tạo ra bản tóm tắt bao gồm các ý chính của một văn bản hoặc nhiều văn bản đầu vào và thông tin lặp lại ít nhất [2,3] Các hệ thống tóm tắt văn bản tự động sinh ra các bản tóm tắt giúp người dùng nắm được những điểm chính của văn bản gốc mà không cần phải đọc toàn bộ văn bản Người dùng sẽ được hưởng lợi từ các bản tóm tắt được sinh ra tự động, tiết kiệm được nhiều thời gian và công sức
Các hệ thống tóm tắt văn bản tự động hiện nay có thể được chia thành hai loại là tóm tắt đơn văn bản và tóm tắt đa văn bản Tóm tắt đơn văn bản sinh ra bản tóm tắt
từ một văn bản đầu vào, trong khi tóm tắt đa văn bản sinh ra bản tóm tắt từ một tập các văn bản đầu vào Các hệ thống tóm tắt văn bản tự động này được phát triển bằng việc áp dụng một trong các phương pháp tiếp cận chủ yếu là tóm tắt văn bản hướng trích rút và tóm tắt văn bản hướng tóm lược
• Tóm t ắt văn bản hướng trích rút: Là phương pháp lựa chọn những câu quan
trọng nhất trong một văn bản nguồn (hoặc một tập văn bản nguồn) và sử dụng các câu này để sinh bản tóm tắt Phương pháp này bao gồm các nhiệm vụ xử lý chính như: Tạo một biểu diễn thích hợp cho văn bản đầu vào, cho điểm các câu, trích rút các câu có điểm cao Các hệ thống tóm tắt văn bản hướng trích rút có thể chia thành các phương pháp chủ yếu sau:
Phương pháp dựa trên thống kê: Trích rút các câu và các từ quan trọng từ văn
bản nguồn dựa trên phân tích thống kê của tập các đặc trưng Các hệ thống dựa trên phương pháp thống kê [4,5] thực hiện cho điểm câu bằng cách chọn và tính toán
một số đặc trưng thống kê, sau đó gán các trọng số cho chúng và gán điểm cuối cùng cho mỗi câu trong văn bản được xác định bởi biểu thức trọng số - đặc trưng (nghĩa là tất cả điểm của các đặc trưng đã chọn được tính toán và tính tổng để thu
Trang 17được điểm của mỗi câu) Bên cạnh đó, hệ thống Lead [6] chọn các câu đưa vào bản tóm tắt dựa vào trình tự thời gian đã cho kết quả khá cao
Phương pháp dựa trên khái niệm: Trích xuất các khái niệm từ một đoạn văn
bản từ các cơ sở tri thức bên ngoài như WordNet [7], Wikipedia, Sau đó, độ quan
trọng của các câu được xác định dựa trên các khái niệm được lấy từ cơ sở tri thức bên ngoài thay vì các từ Các hệ thống này thực hiện cho điểm các câu bằng cách trích xuất các khái niệm của một văn bản từ cơ sở tri thức bên ngoài, xây dựng một véc tơ khái niệm hoặc mô hình đồ thị để chỉ ra mối quan hệ giữa khái niệm và câu
rồi áp dụng một thuật toán xếp hạng để cho điểm các câu như trong [8]
Phương pháp dựa trên chủ đề: Phương pháp này dựa vào việc xác định chủ đề chính của văn bản Có một số phương pháp biểu diễn chủ đề phổ biến là phương pháp dựa trên từ chủ đề, tần suất xuất hiện của từ (TF), trọng số thể hiện mức độ quan trọng của từ (TF-IDF), chuỗi từ vựng [9,10] Các bước xử lý chung của các hệ
thống tóm tắt trích rút dựa trên chủ đề bao gồm chuyển đổi văn bản đầu vào thành
một biểu diễn trung gian, nắm bắt các chủ đề đã đề cập trong văn bản đầu vào và gán điểm mức độ quan trọng cho mỗi câu trong văn bản đầu vào theo biểu diễn của
nó
Phương pháp dựa trên trọng tâm hay phân cụm câu: Trong phương pháp này,
hệ thống tóm tắt trích rút đa văn bản xác định các câu trọng tâm và quan trọng nhất trong một cụm sao cho chúng chứa các thông tin quan trọng liên quan đến cụm chủ
đề chính [11,12,13] Trọng tâm của câu được xác định bằng cách sử dụng trọng tâm
của các từ Cách phổ biến để xác định trọng tâm của từ là tìm tâm của cụm văn bản trong không gian véc tơ Trọng tâm của một cụm bao gồm các từ có điểm trọng số TF-IDF lớn hơn một giá trị ngưỡng xác định trước
Phương pháp dựa trên đồ thị: Phương pháp này sử dụng đồ thị dựa trên câu để
biểu diễn một văn bản hoặc cụm văn bản Phương pháp biểu diễn này đã được sử
dụng phổ biến cho các hệ thống tóm tắt trích rút như: LexRank [11], TextRank [14] Trong hệ thống LexRank [11], các câu được cho điểm bằng cách biểu diễn các câu
của văn bản sử dụng một đồ thị vô hướng sao cho mỗi nút trong đồ thị biểu diễn
một câu từ văn bản đầu vào, trọng số của cạnh kết nối là độ tương tự ngữ nghĩa giữa hai câu tương ứng (sử dụng độ tương tự cosine) và sử dụng một thuật toán xếp hạng
để xác định độ quan trọng của từng câu Các câu được xếp hạng dựa trên điểm LexRank giống như thuật toán PageRank [15] chỉ khác là đồ thị LexRank là đồ thị
Phương pháp dựa trên học máy: Phương pháp này chuyển bài toán tóm tắt văn
bản thành bài toán phân loại văn bản có giám sát Hệ thống học bởi các mẫu học để phân loại một câu của văn bản đánh giá thuộc về lớp “được chọn” hoặc lớp “không được chọn” sử dụng một tập các văn bản huấn luyện (tập các văn bản và các bản tóm tắt tham chiếu tương ứng do con người tạo ra) Trong các hệ thống tóm tắt dựa
Trang 18trên học máy [18,19,20], các bước thực hiện cho điểm câu bao gồm: trích xuất các đặc trưng từ văn bản đã tiền xử lý và đưa các đặc trưng đã trích xuất vào một mạng
nơ ron để nhận được điểm đầu ra
Phương pháp dựa trên học sâu: Gần đây, các kỹ thuật học sâu áp dụng vào các nghiên cứu về tóm tắt văn bản đã mang lại các kết quả khả quan Trong [21], Kobayashi và cộng sự đề xuất một hệ thống tóm tắt sử dụng độ tương tự mức văn
bản dựa trên các mã hóa từ (nghĩa là các biểu diễn phân bố của từ) Mã hóa của một
từ biểu diễn ý nghĩa của nó Một văn bản được coi như một “túi câu” và một câu được coi như một “túi từ” Nhiệm vụ được cụ thể hóa như bài toán tối đa hóa một
hàm được xác định bởi tổng âm của các khoảng cách lân cận gần nhất trên các phân
bố mã hóa (tức là một tập các mã hóa từ trong một văn bản) Kobayashi và cộng sự
chỉ ra rằng độ tương tự mức văn bản có thể xác định những nghĩa phức tạp hơn độ tương tự mức câu Chen và Nguyen [22] đã đề xuất một hệ thống tóm tắt văn bản tự động sử dụng kỹ thuật học tăng cường và mô hình chuỗi sang chuỗi với kiến trúc bộ
mã hóa - giải mã sử dụng mạng nơ ron hồi quy Các đặc trưng quan trọng được
chọn bằng kỹ thuật mã hóa mức câu sau đó các câu tóm tắt được trích rút Jia và
cộng sự [23] đã coi bài toán tóm tắt đơn văn bản hướng trích rút là bài toán tái cân
bằng và đề xuất một khung xử lý khuếch đại sâu để tăng các đặc trưng của các câu tóm tắt và cân bằng lại tỷ lệ không cân đối giữa câu được chọn và câu không được
chọn để tạo ra bản tóm tắt Bên cạnh đó, phải kể đến một số hệ thống như [24,25,26,27,28], các hệ thống này đã sử dụng các kỹ thuật học sâu hiệu quả để tạo
bản tóm tắt cuối cùng
Các hệ thống tóm tắt hướng trích rút này có ưu điểm là thực thi đơn giản, nhanh
và cho độ chính xác cao vì phương pháp này thực hiện trích rút trực tiếp các câu để người đọc có thể đọc bản tóm tắt với các thuật ngữ chính xác có trong văn bản gốc Tuy nhiên, phương pháp cận này có những hạn chế cần cần quan tâm như: Vấn đề
dư thừa thông tin trong một số câu tóm tắt, các câu được trích rút có thể dài hơn mức trung bình, vấn đề xung đột về thời gian trong bài toán tóm tắt đa văn bản vì các bản tóm tắt trích rút được chọn từ nhiều văn bản đầu vào khác nhau, thiếu ngữ nghĩa và tính liên kết trong các câu tóm tắt vì liên kết không chính xác giữa các câu
• Tóm t ắt văn bản hướng tóm lược: Phương pháp tiếp cận này biểu diễn văn bản
đầu vào ở dạng trung gian, sau đó sinh bản tóm tắt với các từ và câu khác với các câu trong văn bản nguồn [29] Các hệ thống tóm tắt hướng tóm lược sinh ra bản tóm
tắt bằng cách hiểu các khái niệm chính trong văn bản đầu vào sử dụng các phương pháp xử lý ngôn ngữ tự nhiên, sau đó diễn giải văn bản để diễn đạt các khái niệm đó
với số từ ít hơn và sử dụng ngôn ngữ rõ ràng [30,31] Một hệ thống tóm tắt tóm lược có thể bao gồm các nhiệm vụ xử lý chính sau: Biểu diễn ngữ nghĩa văn bản và
sử dụng các kỹ thuật sinh ngôn ngữ tự nhiên để sinh bản tóm tắt gần với các bản tóm tắt của con người tạo ra [32] Các nghiên cứu theo phương pháp tiếp cận này có
thể chia thành các loại chính sau:
Phương pháp dựa trên cấu trúc: Phương pháp này sử dụng cấu trúc được xác định trước như đồ thị, cây, luật, mẫu,… để phát triển hệ thống tóm tắt tóm lược Các
hệ thống tóm tắt tóm lược sử dụng cấu trúc đồ thị được đề xuất như [33,34,35,36], trong các hệ thống này mỗi nút biểu diễn cho một từ và thông tin vị trí được liên kết
với các nút Các cung có hướng biểu diễn cấu trúc của câu Các hệ thống dựa trên
cấu trúc cây xác định các câu tương tự nhau, sau đó dựa trên các câu này để sinh
Trang 19bản tóm tắt tóm lược Các câu được biểu diễn thành một cấu trúc giống như cấu trúc cây, sử dụng bộ phân tích cú pháp để xây dựng cây phụ thuộc là các biểu diễn dạng cây sử dụng nhiều cho văn bản Sau đó, một số nhiệm vụ được thực hiện để xử lý cây như tỉa cây, chuyển đổi cây thành dạng chuỗi, để sinh bản tóm tắt cuối cùng Kurisinkel và cộng sự [37] đề xuất một hệ thống tóm tắt đa văn bản tóm lược dựa trên phân tích cú pháp văn bản đầu vào để xây dựng một tập gồm tất cả các cây phụ thuộc cú pháp Trong khi đó, hệ thống dựa trên luật [38] yêu cầu xác định các luật
để phát hiện các khái niệm quan trọng trong văn bản đầu vào, sau đó sử dụng các khái niệm này để sinh ra bản tóm tắt
Phương pháp dựa trên ngữ nghĩa: Biểu diễn văn bản đầu vào bằng các biểu
diễn ngữ nghĩa như các mục thông tin, đồ thị ngữ nghĩa, v v , rồi cung cấp các
biểu diễn ngữ nghĩa này cho hệ thống sinh ngôn ngữ tự nhiên sử dụng các danh từ
và động từ để sinh ra bản tóm tắt tóm lược cuối cùng [39]
Phương pháp dựa trên học sâu: Mô hình seq2seq đã tạo ra các mô hình tóm tắt hướng tóm lược hiệu quả trong tóm tắt văn bản [40] Mô hình với bộ mã hóa - giải
mã sử dụng mạng nơ ron hồi quy với cơ chế chú ý (attention) đã đạt được kết quả cao cho tóm tắt văn bản ngắn Tuy nhiên, các phương pháp học sâu gặp phải một số
vấn đề như: các từ hoặc cụm từ sinh ra bị lặp lại và không xử lý được vấn đề thiếu
từ trong bộ từ vựng Li và cộng sự [41] đã đề xuất một mô hình seq2seq dựa trên
mạng con trỏ chú ý kép với cơ chế tự chú ý để thu thập các thông tin quan trọng từ
bộ mã hóa, cơ chế chú ý mềm và mạng con trỏ để sinh ra bản tóm tắt chính xác và
mạch lạc hơn Trong [42], Kouris và cộng sự đề xuất một khung xử lý mới cho tóm
tắt văn bản hướng tóm lược bằng việc kết hợp các kỹ thuật học sâu với các phương pháp dựa trên tri thức để cải thiện hiệu quả của mô hình học sâu Khung xử lý dựa trên một mô hình lý thuyết xác định trước để sinh ra bản tóm tắt tóm lược Chen và công sự [43] đã phát triển một hệ thống tóm tắt với học bán chuyển giao (Meta-Transfer Learning) sử dụng hai nguồn tài nguyên giàu tri thức là các mô hình lớn được huấn luyện trước và kho ngữ liệu hiện có để tóm tắt hướng tóm lược với nguồn tài nguyên thấp Trong [44], Nguyen và cộng sự đã giới thiệu một mô hình
chủ đề dựa trên mạng nơ ron để nắm bắt ngữ nghĩa toàn cục của văn bản, sau đó tích hợp vào mô hình tóm tắt để khắc phục vấn đề thiếu thông tin chính trong bản tóm tắt Takase and Kiyono [45] đề xuất một hệ thống tóm tắt đa văn bản hướng tóm lược sử dụng mạng seq2seq bằng cách xem xét các phép biến đổi gồm thay thế
từ, bỏ từ và xáo trộn từ trong bộ mã hóa - giải mã để huấn luyện mô hình nhanh hơn Một số nghiên cứu khác cũng đã sử dụng kỹ thuật học sâu kết hợp với các kỹ thuật khác để tạo ra các hệ thống tóm tắt tóm lược hiệu quả như [46,47,48,49]
Ưu điểm của các phương pháp tóm tắt hướng tóm lược là sinh ra các bản tóm tắt tốt hơn với các từ có thể không có trong văn bản gốc bằng cách sử dụng các biểu diễn dựa trên diễn giải, nén Bản tóm tắt được sinh ra gần với bản tóm tắt thủ công của con người hơn, có thể ngắn hơn so với các phương pháp trích rút vì câu sinh ra
đã giảm được các thông tin dư thừa Tuy nhiên, trong thực tế, việc sinh một bản tóm tắt tóm lược có chất lượng tốt là rất khó khăn Các hệ thống tóm tắt tóm lược có chất lượng tốt rất khó phát triển vì các hệ thống này yêu cầu sử dụng kỹ thuật sinh ngôn ngữ tự nhiên mà kỹ thuật này vẫn là một lĩnh vực đang được nghiên cứu phát triển hiện nay Hầu hết các bản tóm tắt tóm lược đều gặp phải vấn đề lặp từ và không xử lý được vấn đề thiếu từ trong bộ từ vựng một cách thích hợp
Trang 20Ngoài ra, một phương pháp tiếp cận khác là tóm tắt văn bản dựa trên kỹ thuật nén câu [50,51] cũng đã đạt được những kết quả nhất định Phương pháp tiếp cận này thực hiện liên kết các câu được rút gọn để tạo ra một văn bản tóm tắt ngắn hơn, ngữ pháp chấp nhận được, đảm bảo được mức độ mạch lạc về nội dung và ý nghĩa của văn bản nguồn Các phương pháp nén câu thường sử dụng các kỹ thuật học có giám sát, bộ từ vựng phù hợp, phân tích ngôn ngữ dựa trên cây cú pháp [52,53] và
kỹ thuật học không giám sát như [51,54] Các nghiên cứu về kỹ thuật nén câu cũng cho thấy vai trò của phương pháp tiếp cận này trong tóm tắt văn bản Tuy nhiên, các phương pháp nén câu yêu cầu chi phí xây dựng kho dữ liệu huấn luyện lớn, các bộ
dữ liệu liên quan đến bộ từ vựng phù hợp được thực thi bởi chuyên gia ngôn ngữ trong thời gian dài và độ phức tạp tính toán cao nên các mô hình tóm tắt văn bản sử dụng các kỹ thuật nén câu thường yêu cầu chi phí cao Bên cạnh đó, chất lượng của bản tóm tắt tạo ra phụ thuộc rất nhiều vào chất lượng của các kỹ thuật nén câu được
sử dụng
Đối với tiếng Việt, do tính phức tạp và đặc thù riêng của ngôn ngữ nên các
nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế Hầu hết các nghiên cứu là các đề tài tốt nghiệp đại học, luận văn thạc sĩ, tiến sĩ và đề tài nghiên cứu khoa học cấp trường, cấp bộ [55,56,57] Các nghiên cứu được công bố dưới hình thức các bài báo khoa học cho tóm tắt văn bản tiếng Việt còn ít [58,59,60,61,62] Các nghiên cứu này phần lớn dựa trên hướng trích rút cho bài toán tóm tắt đơn văn bản và chủ yếu dựa vào các đặc trưng của câu như tần suất từ, vị trí câu, từ tiêu đề, độ tương tự, để chọn ra các câu quan trọng theo tỉ lệ trích rút nên chất lượng văn bản tóm tắt chưa cao, có thể kể đến như: tóm tắt văn bản tiếng Việt sử dụng cấu trúc diễn ngôn [58], tóm tắt văn bản sử dụng các phương pháp truyền thống [59], sử dụng giải thuật di truyền để tóm tắt văn bản [60], trích rút câu sử dụng phương pháp máy véc tơ hỗ trợ để đưa vào bản tóm tắt [62] Mô hình seq2seq kết hợp với cơ chế chú
ý để thực hiện tóm tắt văn bản như trong [63] Gần đây, To và cộng sự [64] đã phát triển một mô hình tóm tắt đa văn bản hướng trích rút sử dụng mô hình biểu diễn mã hóa hai chiều từ Transformer (BERT - Bidirectional Encoder Representation from Transformers) kết hợp với kỹ thuật phân cụm văn bản để tạo ra bản tóm tắt Mô hình được triển khai thử nghiệm trên bộ dữ liệu tóm tắt đa văn bản tiếng Việt gồm
200 cụm văn bản [82] cho thấy mô hình BERT có thể áp dụng hiệu quả cho tóm tắt
đa văn bản tiếng Việt hướng trích rút và các mô hình BERT đơn ngữ hiệu quả hơn
so với các mô hình BERT đa ngôn ngữ Ngoài ra, do chưa có các kho ngữ liệu đủ lớn được công bố chính thức phục vụ cho tóm tắt văn bản tiếng Việt nên hầu hết các thử nghiệm đều dựa trên các kho ngữ liệu tự xây dựng nên việc đánh giá kết quả của các nghiên cứu cũng cần được xem xét kỹ lưỡng
Như vậy, có thể nhận thấy các hệ thống tóm tắt văn bản tự động còn nhiều hạn chế, chính những hạn chế này làm phát sinh những thách thức cần giải quyết đồng thời mở ra các hướng nghiên cứu mới cho bài toán tóm tắt văn bản, đó là:
• Thách thức liên quan đến tóm tắt đa văn bản: Tóm tắt đa văn bản là bài toán
phức tạp với nhiều vấn đề cần giải quyết như dư thừa thông tin, trình tự thời gian và
sắp xếp lại các câu
• Thách thức liên quan đến các ngôn ngữ được hỗ trợ tóm tắt: Các hệ thống tóm
tắt văn bản tự động đều tập trung vào tóm tắt văn bản tiếng Anh Đối với các ngôn
ngữ khác, các nghiên cứu còn hạn chế và chất lượng của các hệ thống tóm tắt văn
Trang 21bản tự động hiện có cũng cần được cải thiện Do đó, cần phải phát triển và cải tiến các hệ thống tóm tắt cho các ngôn ngữ không phải tiếng Anh
• Thách thức liên quan đến phương pháp tóm tắt văn bản: Các nghiên cứu hiện nay đều tập trung vào phương pháp tóm tắt hướng trích rút, do đó cần nghiên cứu đề
xuất và cải thiện các hệ thống tóm tắt dựa trên phương pháp tóm tắt hướng tóm lược
và phương pháp tóm tắt hỗn hợp
• Thách thức liên quan đến các đặc trưng thống kê: Cần phát hiện thêm mới các đặc trưng thống kê cho các từ, các câu cho các hệ thống để có thể trích xuất ngữ nghĩa các câu chính từ văn bản nguồn Bên cạnh đó, vấn đề xử lý trọng số thích hợp cho các đặc trưng mới này cũng là một vấn đề quan trọng quyết định chất lượng của
bản tóm tắt đầu ra
• Thách thức liên quan đến việc sử dụng các kỹ thuật học sâu và vấn đề thiếu dữ
liệu thử nghiệm cho các mô hình: Do các mô hình học sâu thường có kiến trúc phức
tạp, khối lượng xử lý tính toán lớn nên các hệ thống tóm tắt cũng đòi hỏi tài nguyên
lớn để thực thi Bên cạnh đó, các mô hình học sâu yêu cầu lượng dữ liệu huấn luyện
lớn để đảm bảo chất lượng của bản tóm tắt đầu ra nhưng thực tế hiện nay các dữ
liệu này khan hiếm (hoặc nếu có thì cũng không đủ lớn) để huấn luyện các mô hình Đây là một thách thức nghiên cứu quan trọng khi xây dựng các hệ thống tóm tắt văn
bản tự động sử dụng các kỹ thuật hiện đại với một lượng dữ liệu huấn luyện nhỏ
• Thách thức liên quan đến phương pháp đánh giá bản tóm tắt tạo ra: Đánh giá
bản tóm tắt (tự động hoặc thủ công) là một nhiệm vụ khó khăn, đó là khó khăn trong việc xác định và sử dụng một độ đo tiêu chuẩn có độ tin cậy cao để đánh giá các bản tóm tắt được sinh ra từ hệ thống tóm tắt văn bản tự động có đủ tốt hay không và rất khó khăn để tìm ra một bản tóm tắt lý tưởng vì hệ thống tóm tắt văn
bản tự động có thể tạo ra các bản tóm tắt tốt khác với các bản tóm tắt do con người
tạo ra Con người và hệ thống có thể chọn các câu khác nhau cho các bản tóm tắt trích rút và có thể diễn giải các bản tóm tắt tóm lược theo một cách hoàn toàn khác nên các phương pháp đánh giá thủ công không phù hợp với các loại tóm tắt Do đó,
cần có các phương pháp đánh giá tự động các bản tóm tắt do các hệ thống tóm tắt sinh ra
Hầu hết các nghiên cứu đã cố gắng phát triển mới và cải tiến các phương pháp tóm tắt văn bản hiện có nhằm tạo ra các hệ thống tóm tắt văn bản hiệu quả Các phương pháp tóm tắt văn bản này thường là trích rút hoặc tóm lược áp dụng cho tóm tắt đơn văn bản và tóm tắt đa văn bản Do đó, việc nghiên cứu, phát triển các
mô hình tóm tắt văn bản hiệu quả là rất cần thiết và có ý nghĩa to lớn
độ chính xác cho các mô hình tóm tắt văn bản Tuy nhiên, các bản tóm tắt được sinh
ra của các mô hình vẫn bị thiếu thông tin hoặc chứa các thông tin trùng lặp, chất lượng của bản tóm tắt khác xa so với các bản tóm tắt của con người tạo ra
Trang 22Một trong các lý do là dữ liệu thử nghiệm cho các mô hình tóm tắt của bài toán tóm tắt đơn văn bản và tóm tắt đa văn bản Vấn đề thiếu dữ liệu thử nghiệm làm cho việc huấn luyện các mô hình tóm tắt văn bản gặp nhiều khó khăn dẫn đến hiệu quả tóm tắt của các mô hình chưa cao Bên cạnh đó, vấn đề biểu diễn dữ liệu văn bản đầu vào cũng đóng vai trò quan trọng ảnh hưởng đến hiệu quả của các mô hình tóm tắt Hơn nữa, các thách thức đặt ra của việc sử dụng các kỹ thuật học sâu, các đặc trưng của văn bản làm cho việc phát triển các mô hình tóm tắt văn bản càng khó khăn và phức tạp hơn, đặc biệt là trong điều kiện tài nguyên hạn chế, thiếu dữ liệu thử nghiệm
Một lý do khác có vai trò quan trọng không kém là các nghiên cứu về tóm tắt văn bản chủ yếu tập trung vào cải thiện độ chính xác mà chưa quan tâm nhiều đến điều kiện tài nguyên, thời gian thực hiện của các mô hình tóm tắt Cụ thể là thời gian thực hiện của các mô hình tóm tắt trong điều kiện tài nguyên hạn chế nhằm đáp ứng một cách tốt nhất các yêu cầu của người dùng
Cuối cùng là phần lớn các nghiên cứu về tóm tắt văn bản hiện nay được thực hiện cho tóm tắt văn bản tiếng Anh, các nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế Do đó, việc nghiên cứu phát triển các mô hình tóm tắt văn bản hiệu quả áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt càng có ý nghĩa to lớn, nhất là trong bối cảnh các kỹ thuật học máy, các mô hình học sâu và các kỹ thuật hiện đại khác đang được phát triển mạnh như hiện nay
Chính vì những lý do đó, nghiên cứu sinh đặt ra mục tiêu đề xuất các mô hình tóm tắt văn bản hiệu quả để giải quyết các thách thức trên cho bài toán tóm tắt văn bản
3 Đối tượng và phạm vi nghiên cứu
Các đặc trưng của văn bản
Các bộ dữ liệu thử nghiệm cho tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt
Các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản tiếng Anh và tiếng Việt
Các kỹ thuật áp dụng trong tóm tắt văn bản như: Các phương pháp véc tơ hóa văn bản, các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước,
cơ chế chú ý, kỹ thuật tìm kiếm, phương pháp loại bỏ thông tin trùng lặp
Các phương pháp đánh giá độ chính xác của văn bản tóm tắt
• Ph ạm vi nghiên cứu:
Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút
Đề xuất mô hình tóm tắt đơn văn bản hướng tóm lược
Đề xuất mô hình tóm tắt đa văn bản hướng trích rút
Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược
Các mô hình tóm tắt văn bản đề xuất này đều được áp dụng cho tóm tắt văn bản tiếng Anh và tiếng Việt
4 M ục tiêu nghiên cứu
Trang 23Luận án nghiên cứu đề xuất các mô hình tóm tắt đơn văn bản, tóm tắt đa văn bản cho tóm tắt văn bản tiếng Anh và tiếng Việt Cụ thể:
• Nghiên cứu đề xuất các đặc trưng quan trọng sử dụng cho các mô hình tóm tắt văn bản
• Nghiên cứu các kỹ thuật học máy, học sâu, các mô hình được huấn luyện trước để véc tơ hóa văn bản cho các mô hình tóm tắt văn bản
• Đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút, hướng tóm lược áp
dụng tóm tắt cho tóm tắt văn bản tiếng Anh và tiếng Việt
• Đề xuất mô hình tóm tắt đa văn bản hướng trích rút cho tóm tắt văn bản tiếng Anh và tiếng Việt
• Đề xuất các mô hình tóm tắt đa văn bản hướng tóm lược cho tóm tắt văn bản
tiếng Anh và tiếng Việt sử dụng các mô hình tóm tắt đơn văn bản được huấn luyện trước
5 Phương pháp nghiên cứu
• Thu thập, chuẩn bị dữ liệu thử nghiệm cho các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt
• Nghiên cứu các hướng tiếp cận tóm tắt văn bản tiếng Anh và tiếng Việt liên quan, trong đó tập trung vào các hướng tiếp cận hiện đại
• Phân tích ưu điểm, nhược điểm của các phương pháp tóm tắt hiện tại để đề
xuất các mô hình tóm tắt văn bản tiếng Anh và tiếng Việt hiệu quả
• Nghiên cứu lựa chọn phương pháp đánh giá hiệu quả của các mô hình tóm tắt văn bản
• Cài đặt thử nghiệm một số phương pháp tóm tắt văn bản hiện có, các mô hình tóm tắt đề xuất trên các bộ dữ liệu thử nghiệm
• Đánh giá và so sánh kết quả thử nghiệm của các mô hình để đề xuất các mô hình tóm tắt hiệu quả
6 N ội dung nghiên cứu
• Nghiên cứu các kỹ thuật học máy, học sâu sử dụng để phát triển các mô hình tóm tắt văn bản
• Nghiên cứu đề xuất thêm mới các đặc trưng quan trọng của văn bản cho mô hình tóm tắt văn bản
• Nghiên cứu đề xuất các mô hình tóm tắt đơn văn bản hướng trích rút, hướng tóm lược hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt
• Nghiên cứu đề xuất các mô hình tóm tắt đa văn bản hướng trích rút, hướng tóm lược hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt
7 Ý nghĩa khoa học và ý nghĩa thực tiễn
• Ý nghĩa khoa học: Nghiên cứu chuyên sâu về các kỹ thuật học máy, học sâu, các đặc trưng của văn bản để đề xuất các mô hình tóm tắt văn bản hiệu quả cho
tiếng Anh và tiếng Việt
Trang 24• Ý nghĩa thực tiễn: Đề xuất các đặc trưng quan trọng của văn bản sử dụng cho các mô hình tóm tắt văn bản Đề xuất các mô hình tóm tắt văn bản hiệu quả cho tóm
tắt văn bản tiếng Anh và tiếng Việt Các mô hình đề xuất mới có thể sử dụng để xây
dựng các hệ thống phần mềm tóm tắt hiệu quả đáp ứng tốt các yêu cầu trong thực
tiễn Ngoài ra, hướng tiếp cận tinh chỉnh mô hình tóm tắt đơn văn bản được huấn luyện trước bằng việc huấn luyện tiếp mô hình tóm tắt đơn văn bản trên các bộ dữ
liệu thử nghiệm của tóm tắt đa văn bản do nghiên cứu sinh đề xuất có thể mở ra một hướng mới để phát triển các mô hình tóm tắt đa văn bản hiệu quả trong điều kiện thiếu dữ liệu thử nghiệm
8 Nh ững đóng góp chính của luận án
Với mục tiêu đặt ra, luận án đã đạt được một số kết quả đóng góp vào việc nghiên cứu phát triển mở rộng các hệ thống tóm tắt văn bản cho ngôn ngữ tiếng Anh và tiếng Việt Các kết quả chính có thể khái quát là:
• Đề xuất ba mô hình tóm tắt đơn văn bản hướng trích rút, đó là
hình tối ưu của mô hình BERT được huấn luyện trước để véc tơ hóa văn bản, mô hình phân loại với mạng Perceptron nhiều lớp (MLP - Multi Layer Perceptron), kết
hợp với đặc trưng vị trí câu và phương pháp độ liên quan cận biên tối đa (MMR - Maximal Marginal Relevance) để loại bỏ thông tin trùng lặp và lựa chọn câu đưa vào bản tóm tắt Mô hình mBERT_CNN_ESDS sử dụng mô hình BERT đa ngôn
ngữ, mạng nơ ron tích chập, mô hình chuỗi sang chuỗi (seq2seq), lớp mạng nơ ron
kết nối đầy đủ (FC - Fully Connected) kết hợp đặc trưng trọng số của từ TF-IDF và
phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt Mô hình
để véc tơ hóa văn bản đầu vào, mạng nơ ron tích chập, seq2seq, lớp FC, kết hợp kỹ thuật học tăng cường và phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt
• Đề xuất một mô hình tóm tắt đơn văn bản hướng tóm lược
thuật loại bỏ thông tin trùng lặp, kết hợp các đặc trưng tần suất xuất hiện của từ, vị trí câu trong văn bản để sinh bản tóm tắt tóm lược
• Đề xuất một mô hình tóm tắt đa văn bản hướng trích rút
các kỹ thuật học máy là phân cụm K-means, phương pháp dựa trên trung tâm (Centroid-based), MMR và đặc trưng vị trí câu để tạo văn bản tóm tắt cho tập đa văn bản
• Đề xuất hai mô hình tóm tắt đa văn bản hướng tóm lược, đó là
dụng mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS đề xuất là
mô hình được huấn luyện trước, mô hình PG_Feature_ASDS được tinh chỉnh bằng
việc huấn luyện tiếp trên các bộ dữ liệu thử nghiệm tóm tắt đa văn bản tương ứng
Mô hình Ext_Abs_AMDS-mds-mmr sử dụng mô hình hỗn hợp được huấn luyện trước được xây dựng dựa trên các mô hình tóm tắt đơn văn bản được tinh chỉnh từ các mô hình tóm tắt đơn văn bản đề xuất Các mô hình tóm tắt đơn văn bản, mô
Trang 25hình hỗn hợp được huấn luyện tiếp trên các bộ dữ liệu thử nghiệm tóm tắt đa văn
bản tương ứng để xây dựng mô hình tóm tắt đa văn bản hướng tóm lược hiệu quả Các mô hình đề xuất của luận án đều được áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt
9 B ố cục của luận án
Với những đóng góp chính được trình bày ở trên, bố cục của luận án bao gồm: Phần mở đầu, năm chương, phần kết luận, tài liệu tham khảo và phần phụ lục Cụ thể như sau:
lực thúc đẩy, tổng quan về đối tượng nghiên cứu, phạm vi nghiên cứu, mục tiêu nghiên cứu, phương pháp nghiên cứu, nội dung nghiên cứu, ý nghĩa khoa học và ý nghĩa thực tiễn của luận án Những tồn tại, thách thức và phương pháp giải quyết của luận án Ngoài ra, phần này cũng trình bày những đóng góp chính và bố cục của luận án
Chương 1 Tổng quan về tóm tắt văn bản: Chương này trình bày các vấn đề
tổng quan về tóm tắt văn bản trong xử lý ngôn ngữ tự nhiên, một số phương pháp đánh giá văn bản tóm tắt tự động, các phương pháp kết hợp các văn bản của tập đa văn bản, các phương pháp tóm tắt văn bản hướng trích rút cơ sở, các bộ dữ liệu được sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất Những kiến thức này là cơ sở để phát triển các nghiên cứu đề xuất của luận án
Chương 2 Các kiến thức nền tảng: Chương này trình bày các kiến thức nền
tảng về các kỹ thuật học sâu cơ sở bao gồm mạng Perceptron nhiều lớp, mạng nơ ron tích chập, mạng nơ ron hồi quy, các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước Tiếp theo, chương này trình bày về kỹ thuật học tăng cường Deep Q-Learning, tìm kiếm Beam, phương pháp MMR loại bỏ thông tin trùng lặp trong văn bản tóm tắt Những kiến thức nền tảng này là cơ sở để phát triển các phương pháp tóm tắt văn bản đề xuất trong luận án
Chương 3 Phát triển các phương pháp tóm tắt đơn văn bản hướng trích rút:
Chương này trình bày về bài toán tóm tắt đơn văn bản hướng trích rút, đề xuất ba
mô hình tóm tắt đơn văn bản hướng trích rút sử dụng kết hợp các kỹ thuật học sâu, các mô hình được huấn luyện trước, các đặc trưng của văn bản và phương pháp loại
bỏ các thông tin trùng lặp để áp dụng tóm tắt hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt
Chương 4 Phát triển phương pháp tóm tắt đơn văn bản hướng tóm lược:
Chương này giới thiệu về bài toán tóm tắt đơn văn bản hướng tóm lược, đề xuất mô hình tóm tắt đơn văn bản hướng tóm lược sử dụng kết hợp các kỹ thuật học sâu, các
cơ chế xử lý trùng lặp thông tin, các đặc trưng của văn bản để áp dụng hiệu quả trong tóm tắt hướng tóm lược Mô hình đề xuất áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt Mô hình tóm tắt đơn văn bản này sẽ được sử dụng để phát triển các mô hình tóm tắt đa văn bản đề xuất của luận án
Chương 5 Phát triển các phương pháp tóm tắt đa văn bản: Chương này giới
thiệu về bài toán tóm tắt đa văn bản, đề xuất một mô hình tóm tắt đa văn bản hướng trích rút, hai mô hình tóm tắt đa văn bản hướng tóm lược sử dụng kết hợp các kỹ thuật học máy, học sâu và các đặc trưng của văn bản, các cơ chế xử lý trùng lặp
Trang 26thông tin áp dụng hiệu quả cho tóm tắt đa văn bản tiếng Anh và tiếng Việt Hai mô hình tóm tắt đa văn bản hướng tóm lược được đề xuất dựa trên các mô hình tóm tắt đơn văn bản được huấn luyện trước đã đề xuất
Phần kết luận: Trình bày các kết quả đạt được, những khó khăn tồn tại và
hướng phát triển tiếp của các nghiên cứu trong luận án
Phần phụ lục: Trình bày biểu đồ biểu diễn phân tích các bộ dữ liệu thử nghiệm
và nội dung các văn bản nguồn của các mẫu tóm tắt thử nghiệm trên các bộ dữ liệu tương ứng của các mô hình tóm tắt đề xuất đã trình bày trong luận án
Luận án trình bày các phương pháp tóm tắt đơn văn bản hướng trích rút, tóm tắt đơn văn bản hướng tóm lược, tóm tắt đa văn bản hướng trích rút và hướng tóm lược cho bài toán tóm tắt văn bản Có thể nói, nội dung của luận án đã đạt được các mục tiêu đặt ra
Trang 27Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN
Chương này trình bày tổng quan về tóm tắt văn bản trong xử lý ngôn ngữ tự nhiên bao gồm giới thiệu về tóm tắt văn bản, các bước thực hiện trong tóm tắt văn bản, một số đặc trưng của văn bản, các phương pháp đánh giá văn bản tóm tắt phổ biến, các phương pháp kết hợp văn bản trong tóm tắt đa văn bản, các phương pháp tóm tắt văn bản hướng trích rút cơ sở Ngoài ra, chương này cũng trình bày phân tích thống kê thông tin các bộ dữ liệu sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất Những kiến thức trình bày trong chương này là cơ sở để triển khai phát triển các phương pháp tóm tắt văn bản đề xuất của luận án
1.1 Giới thiệu về tóm tắt văn bản
1.1.1 Giới thiệu bài toán tóm tắt văn bản
Xử lý ngôn ngữ tự nhiên đang được phát triển một cách mạnh mẽ giúp con người có thể chọn lọc, tóm tắt được khối thông tin khổng lồ nhằm tiết kiệm thời gian tìm kiếm và tổng hợp các thông tin hữu ích Có một số nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên như: Tìm kiếm thông tin, trích rút thông tin, nhận dạng tiếng nói, trả lời câu hỏi, dịch máy, tóm tắt văn bản tự động Tóm tắt văn bản
tự động (gọi tắt là tóm tắt văn bản) là một trong những nhiệm vụ được quan tâm nghiên cứu phát triển và đã đạt được những kết quả khả quan Bài toán tóm tắt văn bản được ứng dụng thành công vào thực tế sẽ giúp tiết kiệm được thời gian đọc, cải thiện tốc độ, nâng cao độ chính xác của các thông tin được tổng hợp
Tóm tắt văn bản (TTVB) là quá trình tạo ra một bản mô tả ngắn gọn, súc tích từ một hoặc nhiều văn bản nguồn ban đầu Văn bản tóm tắt có độ dài ngắn hơn văn bản nguồn nhưng vẫn đảm bảo giữ lại được nội dung chính, quan trọng mà văn bản nguồn đề cập tới
Vấn đề đặt ra là làm thế nào để nhận biết được đâu là nội dung chính của văn bản nguồn ban đầu vì đó là thành phần cốt lõi, bao hàm những thông tin quan trọng Nếu biết được những thông tin này thì nhiệm vụ tóm tắt sẽ trở nên dễ dàng và văn bản tóm tắt có độ chính xác tốt hơn Các thành phần này là những đơn vị dữ liệu nhỏ nhất có nghĩa trong văn bản nguồn để trích rút, tóm tắt như từ, câu,… Trong văn bản nguồn, nếu tần suất xuất hiện của các đơn vị dữ liệu càng lớn thì xác suất mang nội dung quan trọng, thông tin chính của đoạn văn, văn bản càng cao Do đó, các đơn vị dữ liệu này được sử dụng để tóm tắt, biến đổi, hiển thị hoặc tạo ra dữ liệu mới có ý nghĩa phục vụ cho các nhiệm vụ hoặc các hệ thống khác
Bảng 1.1 và Bảng 1.2 dưới đây là các ví dụ minh họa văn bản tóm tắt của văn bản tiếng Anh, tiếng Việt tương ứng Các văn bản nguồn của các văn bản tóm tắt này được trình bày ở Phụ lục A trong phần Phụ lục
Trang 28Văn bản tóm tắt
“A total of 47 bodies have been exhumed from two mass graves Iraqis find mass graves inside presidential palace compound in Tikrit ISIS claimed to have executed 1,700 Iraqi soldiers captured outside Camp Speicher ”
Bảng 1.1 Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh
Văn bản tóm tắt
“Sau khi khảo sát, bà Nguyễn Thị Láng – Trưởng ban Tuyên giáo Liên đoàn lao động tỉnh – đã cùng các Cán bộ công đoàn làm việc với chính quyền địa phương và tổ chức hội nghị đối thoại với sự có mặt của cả đại diện doanh nghiệp và công nhân lao động Công ty TNHH may Tinh Lợi, có gần 1.000 nữ công nhân lao động đang ở trọ tại đây đã đồng ý mỗi tháng tài trợ thêm cho Trường Mầm non Hương Sen 3 triệu đồng để nâng cấp, mở thêm phòng học, tiếp nhận hơn 200 cháu là con công nhân lao động vào học.”
Bảng 1.2 Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt
1.1.2 Phân loại bài toán tóm tắt văn bản
Bài toán tóm tắt văn bản được phân loại dựa theo các tiêu chí khác nhau bao gồm một số loại bài toán phổ biến sau:
- Tóm tắt đơn văn bản: Văn bản nguồn chỉ có một văn bản duy nhất
- Tóm tắt đa văn bản: Tập văn bản nguồn gồm nhiều văn bản (các văn bản này thường có nội dung liên quan đến nhau) Văn bản kết quả thu được là một văn bản duy nhất từ tập văn bản nguồn đầu vào Tóm tắt đa văn bản gặp một số khó khăn như vấn đề trùng lặp thông tin giữa các văn bản nguồn, tiền xử lý văn bản phức tạp, yêu cầu tỉ lệ nén cao
- Tóm tắt văn bản hướng trích rút: Là quá trình rút gọn văn bản sao cho văn bản kết quả có chứa các đơn vị ngữ liệu nằm trong văn bản nguồn
- Tóm tắt văn bản hướng tóm lược: Là quá trình rút gọn văn bản sao cho văn bản kết quả có chứa một số đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu nằm trong văn bản nguồn hoặc không nằm trong văn bản nguồn Từ các thông tin này, thực hiện các phép biến đổi để tạo ra một văn bản mới sao cho vẫn đảm bảo giữ được nội dung, ý nghĩa của văn bản nguồn đầu vào Tóm tắt văn bản hướng tóm lược là bài toán tóm tắt văn bản phức tạp, có nhiều khó khăn trong việc biểu diễn ngữ nghĩa, sinh ngôn ngữ tự nhiên từ văn bản nguồn
- Tóm tắt đơn ngôn ngữ: Văn bản nguồn và văn bản tóm tắt chỉ có duy nhất một loại ngôn ngữ
- Tóm tắt đa ngôn ngữ: Văn bản nguồn chỉ chứa duy nhất một loại ngôn ngữ, nhưng văn bản kết quả có thể được tóm tắt theo nhiều ngôn ngữ khác nhau
- Tóm tắt đan xen ngôn ngữ: Văn bản nguồn có thể gồm nhiều loại ngôn ngữ khác nhau
Trong các loại tóm tắt văn bản này, tóm tắt hướng trích rút tạo ra văn bản tóm tắt dựa trên trích rút gọn câu mang lại hiệu quả cao về mặt ngôn ngữ, trong khi đó tóm tắt hướng tóm lược sinh ra một văn bản tóm tắt đảm bảo về mặt cú pháp, ngữ
Trang 29nghĩa bằng việc rút gọn câu [65,66,67] Các phương pháp tóm tắt văn bản được đề xuất hiện nay thường là tóm tắt theo hướng trích rút vì nó dễ dàng thực hiện hơn so với việc rút gọn câu của tóm tắt hướng tóm lược Tuy nhiên, sử dụng cách tiếp cận tóm tắt văn bản hướng tóm lược thường cho các văn bản tóm tắt với thông tin ít mạch lạc hơn Bên cạnh đó, tóm tắt đơn văn bản cũng được thực hiện dễ dàng hơn, văn bản tạo ra có thông tin ít bị trùng lặp so với tóm tắt đa văn bản Chính vì thế, các loại bài toán tóm tắt đơn văn bản, tóm tắt đa văn bản, tóm tắt văn bản hướng trích rút và tóm tắt văn bản hướng tóm lược giành được sự quan tâm phát triển của các nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và tóm tắt văn bản nói riêng [68]
1.1.3 Các bước thực hiện trong tóm tắt văn bản
Với văn bản nguồn đầu vào, để sinh ra bản tóm tắt thì một hệ thống TTVB cần
thực hiện các bước chính được biểu diễn như trong Hình 1.1 dưới đây
Hình 1.1 Các bước thực hiện trong tóm tắt văn bản
• Phân tích: M ột văn bản hoặc tập các văn bản nguồn được phân tích để trả ra
các thông tin sử dụng cho việc tìm kiếm, đánh giá các đơn vị ngữ liệu quan trọng và các tham số đầu vào cho bước tiếp theo
• Bi ến đổi: Bước này sử dụng một phép biến đổi tác động trên các thông tin đầu
ra của bước phân tích nhằm đơn giản hóa và tạo nên một thể thống nhất Kết quả trả
ra là các đơn vị ngữ liệu được tóm tắt
bước biến đổi theo một tiêu chí nào đó để sinh văn bản tóm tắt
Với mỗi loại hệ thống TTVB sẽ có sự khác nhau nhất định Đối với các hệ thống TTVB hướng tóm lược thì có đầy đủ các bước trên, nhưng đối với hệ thống TTVB hướng trích rút thì không có bước biến đổi mà chỉ có hai bước phân tích và sinh văn bản tóm tắt
1.1.4 Một số đặc trưng của văn bản
xác định là giá trị vị trí của câu trong văn bản Nhiều phương pháp thường coi câu đầu tiên trong văn bản là câu quan trọng hơn các câu khác trong văn bản [69,70]
• TF-IDF: TF-IDF (Term Frequency - Inverse Document Frequency) là trọng số
của một từ thể hiện mức độ quan trọng của từ đó trong một văn bản mà văn bản đó
nằm trong một tập hợp các văn bản [71] Trọng số TF-IDF được tính theo các đặc trưng tần suất xuất hiện của từ (TF) và nghịch đảo tần suất xuất hiện của từ trong một văn bản của một tập các văn bản (IDF) như sau:
- TF = Số lần xuất hiện của từ trong văn bản/Tổng số từ trong văn bản
- IDF = log(Tổng số văn bản trong tập văn bản/Số văn bản có chứa từ đó)
- TF-IDF = TF*IDF
Trang 30• Câu trung tâm: Độ quan trọng của câu trong văn bản dựa theo đặc trưng câu trung tâm được tính bằng giá trị trung bình của độ tương tự giữa một câu và các câu khác trong văn bản Đặc trưng này xem xét sự cùng xuất hiện của các từ giữa một câu và các câu khác trong văn bản [72]
1.2 Một số phương pháp đánh giá văn bản tóm tắt tự động
Với bài toán tóm tắt văn bản, hiệu quả của văn bản tóm tắt có vai trò quan trọng Để đánh giá hiệu quả của các văn bản tóm tắt, cần phải dựa vào các tham số như tỷ lệ nén, độ chính xác, độ liên kết,…Có một số phương pháp đánh giá hiệu quả văn bản tóm tắt được trình bày dưới đây [73,74]
Đánh giá độ tương tự về nội dung của văn bản kết quả được sinh ra bởi hệ thống TTVB đang xét so với các văn bản kết quả tương ứng được sinh ra bởi các
phương pháp khác Giả sử, văn bản kết quả của ứng dụng đang xét là S, văn bản kết quả tóm tắt tương ứng của n phương pháp đánh giá khác là: J 1 , J 2 ,…, J i , , J n (với cùng văn bản nguồn ban đầu) thì công thức tính toán độ tương tự là:
1 2
1
1( , ,{ , , , , , }) ( , )
- M là tiêu chí tính toán độ tương tự về nội dung giữa 2 văn bản X và Y, M
thường được tính toán theo công thức sau [73]:
2
= (1.3) với:
+ X, Y là hai văn bản được biểu diễn dưới dạng chuỗi các từ tương ứng
+ d(X,Y) là số lượng phép toán thêm mới và xóa ít nhất cần thực hiện để biến đổi văn bản X thành văn bản Y
+ LCS(X,Y) là độ dài của chuỗi con chung lớn nhất giữa X và Y
+ length(X), length(Y) tương ứng là độ dài của 2 văn bản X, Y
1.2.2 Phương pháp dựa trên độ tương quan phù hợp
Phương pháp dựa trên độ tương quan phù hợp đánh giá hệ thống TTVB dựa
trên các câu truy vấn: Với một truy vấn Q và một tập gồm k văn bản {D (với
Trang 31=
i k) và một công cụ để sắp xếp các văn bản D itheo thứ tự mức độ phù hợp giữa
D i với Q theo chiều giảm dần thì từ tập {D i }, ta có tập {S i} là tập văn bản tóm tắt
của {D i} được tạo ra bởi hệ thống đang xét, ta sử dụng công cụ sắp xếp ở trên để
sắp xếp {S i} giống như trên Để đánh giá, cần xác định độ tương quan giữa hai danh sách đã được sắp xếp này
Độ tương quan phù hợp là độ tương quan tuyến tính giữa hai tập điểm phù hợp
x và y được xác định theo công thức [73]:
hiệu quả được sử dụng phổ biến hiện nay
Độ đo ROUGE được sử dụng như một độ đo tiêu chuẩn để đánh giá hiệu quả của các hệ thống tóm tắt văn bản ROUGE thực hiện so sánh một bản tóm tắt được sinh tự động từ mô hình tóm tắt và một tập các bản tóm tắt tham chiếu (bản tóm tắt
tự nhiên của con người) Vì vậy, để có được một đánh giá tốt, việc tính toán độ hồi
tưởng (Recall) và độ chính xác (Precision) [75,76] thông qua các từ trùng lặp được
sử dụng trong độ đo ROUGE
Độ hồi tưởng: Thể hiện bản tóm tắt hệ thống nắm bắt lại được bao nhiêu phần
của bản tóm tắt tham chiếu, được tính toán theo công thức:
dư thừa, điều này làm cho bản tóm tắt dài dòng Chính vì thế, độ chính xác được sử
dụng để khắc phục vấn đề này
Trang 32Độ chính xác: Thể hiện bản tóm tắt hệ thống trong thực tế có bao nhiêu phần
liên quan đến bản tóm tắt tham chiếu, được tính theo công thức:
Một độ đo thường được sử dụng là độ đo F1 ( F1 score− ) [76] Độ đo F1 được
tính toán dựa trên độ hồi tưởng R và độ chính xác P theo công thức:
Các độ đo ROUGE [74] phổ biến thường được sử dụng để đánh giá chất lượng của bản tóm tắt hệ thống so với bản tóm tắt tham chiếu trong bài toán tóm tắt văn bản gồm:
(uni-gram), hai từ (bi-gram), ba từ (tri-gram) hoặc N từ (N-gram) xuất hiện đồng thời trong bản tóm tắt hệ thống và bản tóm tắt tham chiếu Độ hồi tưởng R N (thường N =
1 ÷ 4) được tính theo công thức:
+ RS: là tập văn bản tóm tắt tham chiếu
+ Count match (gram N ): là số lượng N-gram xuất hiện đồng thời trong bản tóm tắt hệ thống và bản tóm tắt tham chiếu
+ Count(gram N ): là số lượng N-gram có trong bản tóm tắt tham chiếu
(uni-gram), hai từ (bi-gram), ba từ (tri-gram) hoặc N từ (N-gram) xuất hiện trong bản tóm tắt hệ thống có liên quan đến bản tóm tắt tham chiếu Độ hồi tưởng P N (thường
N = 1 ÷ 4) được tính theo công thức:
P
với: SS: là văn bản tóm tắt hệ thống
tính toán dựa trên độ hồi tưởng R N và độ chính xác P N theo công thức:
*2
Trang 33• Độ đo F1 của Rouge – L (ký hiệu R–L): Thể hiện việc sử dụng chuỗi các từ
dài nhất xuất hiện đồng thời trong bản tóm tắt của hệ thống và bản tóm tắt tham chiếu dựa trên chuỗi con chung dài nhất (LCS - Longest Common Subsequence) LCS chính là bài toán tìm kiếm chuỗi con chung dài nhất cho tất cả các chuỗi trong
một tập các chuỗi (thường là hai chuỗi) Độ đo R-L được tính dựa trên độ hồi tưởng
trong đó: C là tập tóm tắt ứng viên; r i là câu xét trong bản tóm tắt tham chiếu; u là
số lượng câu của bản tóm tắt tham chiếu; m là số lượng từ của tập tóm tắt tham chiếu; n là số lượng từ của tập tóm tắt ứng viên C; LCS∪( , )r C i là điểm của tập
được xác định bằng hợp của tập chuỗi con chung dài nhất giữa câu r i và mọi câu
trong tập C, điểm này được tính bằng tổng độ dài của hợp các chuỗi con chung lớn nhất chia cho độ dài của r i; β là hệ số điều khiển độ quan trọng tương đối của R lcs
cặp từ bất kỳ trong một câu được ghép theo đúng thứ tự Độ đo R-S được tính dựa trên độ hồi tưởng R S và độ chính xác P S như sau:
2( , )( , 2)
Trang 34một số các cặp từ vô nghĩa như “the the”, “is is”, v v Để giảm thiểu các cặp từ
vô nghĩa này, ta có thể giới hạn khoảng cách có thể tạo thành cặp từ là t (trong
cặp từ hợp lệ (do các cặp từ vô nghĩa thường không nằm gần nhau nên khi chọn t
nhỏ sẽ hạn chế được tình trạng tạo các cặp từ vô nghĩa) Khi đó, độ đo R-St được
tính dựa trên độ hồi tưởng R St và độ chính xác P St như sau:
2,
0
( , )( 1)
là số lượng từ ghép cặp skip bi-gram trùng khớp giữa X và Y; β là hệ số điều khiển
độ quan trọng tương đối của R và St P St (β là tham số tự chọn và thường được chọn bằng 1)
Trong công thức (1.21), khi β = ta có độ đo được tính theo công thức: 1
*2
Trong công thức (1.22), khi t = 4 ta có độ đo R-S4 là độ đo thường được sử
dụng để đánh giá hiệu quả của các mô hình tóm tắt văn bản
bằng việc thêm một từ (uni-gram) làm đơn vị đếm để khắc phục trường hợp một câu ứng cử viên không có cặp từ đồng xuất hiện nào với bản tóm tắt tham chiếu Độ đo
viên và các câu tóm tắt tham chiếu Khi t = 4 ta có độ đo R-SU4 thu được từ độ đo
Hiện nay, các độ đo ROUGE được sử dụng như một độ đo tiêu chuẩn phổ biến
để đánh giá hiệu quả của các mô hình tóm tắt văn bản Do đó, luận án sẽ sử dụng
các độ đo R-1, R-2, R-L, R-S4 và R-SU4 để đánh giá hiệu quả của các mô hình tóm
tắt văn bản đề xuất
1.3 Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản
Đối với bài toán tóm tắt đa văn bản, vấn đề đặt ra đầu tiên là việc kết hợp các
Trang 35Hình 1.2 Phương pháp xử lý tóm tắt từng đơn văn bản trong tóm tắt đa văn bản
Hiện nay có hai phương pháp thường được sử dụng để giải quyết vấn đề này là:
duy nhất gọi là siêu văn bản, rồi thực hiện tóm tắt đối với siêu văn bản này để sinh
ra bản tóm tắt cuối cùng Phương pháp này đưa bài toán tóm tắt đa văn bản trở thành bài toán tóm tắt đơn văn bản và có thể sử dụng các kỹ thuật tóm tắt đơn văn bản để sinh ra bản tóm tắt cuối cùng
tắt để sinh ra văn bản tóm tắt tương ứng Sau đó, các văn bản tóm tắt này sẽ được kết hợp lại thành một văn bản tóm tắt tổng hợp Sau đó, văn bản tóm tắt tổng hợp này sẽ được xử lý tóm tắt bằng các kỹ thuật tóm tắt đơn văn bản để sinh ra văn bản tóm tắt cuối cùng, đây cũng chính là bản tóm tắt kết quả của tập đa văn bản nguồn cần tóm tắt Hình 1.2 biểu diễn ý tưởng của phương pháp xử lý tóm tắt từng đơn văn bản trong tóm tắt đa văn bản
Phương pháp tiếp cận thứ nhất dễ nắm bắt được các thông tin mới lạ hơn so với phương pháp tiếp cận thứ hai Phương pháp tiếp cận thứ hai thực hiện tóm tắt từng văn bản trước làm cho độ dài văn bản đầu vào của mô hình tóm tắt đa văn bản giảm nên bản tóm tắt cuối cùng sẽ có độ chính xác cao
Trang 361.4 Các phương pháp tóm tắt văn bản hướng trích rút cơ sở
1.4.1 PageRank
PageRank [15] là thuật toán được sử dụng trong công cụ tìm kiếm của Google (Google Search) Về bản chất PageRank là phân bố xác suất, được sử dụng để biểu diễn khả năng khi một người bấm chuột ngẫu nhiên vào liên kết và sẽ dẫn tới trang Website đó PageRank được tính theo công thức sau:
( )
( )1
( )
( )
j i
j i
p M p j
PageRank p d
−
= + ∑ (1.23) trong đó:
- N là tổng số trang
- M p ( )i là tập hợp các trang liên kết đến p i
- d là hằng số (thông thường d được chọn bằng 0,85)
- PageRank p( i): là PageRank của p i
- (L p j): là số lượng các liên kết trỏ ra trong p j
1.4.2 TextRank
TextRank [14] là một thuật toán tóm tắt văn bản trích rút theo hướng tiếp cận không giám sát dựa trên đồ thị, được xây dựng dựa trên thuật toán PageRank TextRank coi mỗi câu là một đỉnh trong đồ thị thay vì mỗi đỉnh là một trang Website như trong thuật toán PageRank và tính độ tương đồng giữa hai câu dựa vào
số từ trùng của 2 câu Sau đó, đưa ra một ngưỡng để chọn ra số câu liên quan của từng câu
1.4.3 LexRank
LexRank [11] là một hướng tiếp cận không giám sát, trong đó sử dụng ý tưởng của thuật toán PageRank để xác định tầm quan trọng của các câu trong văn bản
LexRank sử dụng độ đo Cosine của các véc tơ tf-idf để xác định trọng số của một
câu như sau:
- x, y: là hai câu cần đo độ tương đồng
- tf w ,x : là tần suất xuất hiện của từ w trong câu x
- tf w , y : là tần suất xuất hiện của từ w trong câu y
- idfw: là độ quan trọng của từ w
Công thức này biểu diễn khoảng cách giữa hai câu x và y Phép đo độ tương đồng này được sử dụng để xây dựng ma trận tương đồng là đồ thị tương đồng giữa các câu LexRank đo lường độ quan trọng của các câu trong đồ thị bằng cách xem xét tầm quan trọng tương đối của nó với các câu lân cận Để trích rút các câu quan
Trang 37trọng nhất từ ma trận tương đồng, cần sử dụng một giá trị ngưỡng Một giá trị ngưỡng được sử dụng để lọc ra các mối quan hệ giữa các câu có trọng số nhỏ hơn ngưỡng Kết quả là một tập con của đồ thị tương đồng ban đầu và ta có thể chọn các nút có trọng số cao nhất Một nút được chọn sẽ đại diện cho một câu tóm tắt của văn bản
1.4.4 Lead-Based
Trong văn bản là tin tức, các câu ở đầu văn bản thường sẽ mang nhiều ý nghĩa
quan trọng Phương pháp Lead-k [6] chỉ đơn giản là lấy k (k: nguyên, dương) câu
đầu tiên trong văn bản làm bản tóm tắt Đây là phương pháp tóm tắt đơn giản nhưng
có độ chính xác khá cao nên các nghiên cứu tóm tắt văn bản dạng tin tức thường
chọn phương pháp Lead-k làm phương pháp cơ sở để đánh giá so sánh
1.5 Các bộ dữ liệu thử nghiệm
Để có cơ sở lựa chọn số lượng câu hoặc số từ cho bản tóm tắt sinh ra của các
mô hình tóm tắt đề xuất, các bộ dữ liệu sử dụng để thử nghiệm cho các mô hình đề xuất được phân tích thống kê các thông tin quan trọng và được trình bày như dưới đây Thông tin về thời gian thu thập các bộ dữ liệu thử nghiệm và biểu đồ biểu diễn phân bố độ dài trung bình nội dung văn bản nguồn, văn bản bản tóm tắt tương ứng
theo số câu, số từ của các bộ dữ liệu được trình bày chi tiết ở Phụ lục B trong phần Phụ lục
Bộ dữ liệu CNN/Daily Mail [77] gồm 312.085 bài báo tin tức (trong đó bộ CNN có 92.579 bài báo tin tức, bộ Daily Mail có 219.506 bài báo tin tức) được thu thập từ các báo CNN và Daily Mail, mỗi bài báo có các câu chính (highlights) đi kèm do người viết bài báo tự viết được sử dụng làm bản tóm tắt tham chiếu.Luận
án sử dụng phương pháp phân chia bộ dữ liệu của Hermann và cộng sự [77] cho các tập dữ liệu huấn luyện, kiểm tra và đánh giá khi thử nghiệm các mô hình (Bảng 1.3) Các câu chính của mỗi văn bản được sử dụng làm cơ sở để đánh giá chất lượng bản tóm tắt của các mô hình thử nghiệm
Huấn
Đánh giá
Huấn
Đánh giá
Số lượng văn bản 90.266 1.220 1.093 196.961 12.148 10.397 Kích thước từ vựng 118.497 208.045
Bảng 1.3 Phương pháp phân chia bộ dữ liệu CNN/Daily Mail
Bảng 1.4 là các thông tin thống kê tóm tắt của hai bộ dữ liệu CNN và Daily Mail theo số lượng câu và số lượng từ
Trang 38Bộ dữ liệu CNN Daily Mail
Văn bản nguồn
Số lượng câu trung bình 31,86 26,24
Số lượng từ trung bình 643,79 680,86 Khoảng phân bố theo số câu 14 ÷ 19 13 ÷ 40 Khoảng phân bố theo số từ 316 ÷ 971 369 ÷ 991 Văn bản tóm tắt
Số lượng câu trung bình 3,55 3,78
Số lượng từ trung bình 41,67 50,44 Khoảng phân bố theo số câu 2 ÷ 4 2 ÷ 4 Khoảng phân bố theo số từ 32 ÷ 50 30 ÷ 70
Bảng 1.4 Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail
Bộ dữ liệu này được sử dụng để thử nghiệm cho các mô hình tóm tắt đơn văn bản tiếng Anh hướng trích rút và hướng tóm lược đề xuất
Hai bộ dữ liệu DUC 2001 [78] và DUC 2002 [79] được công bố bởi tổ chức NIST tại Hội thảo DUC Các bộ dữ liệu này có thể sử dụng cho tóm tắt đơn văn bản
và tóm tắt đa văn bản (gồm tóm tắt hướng trích rút và hướng tóm lược)
Bộ dữ liệu DUC 2001 gồm 297 văn bản nguồn được tổ chức thành 30 cụm, mỗi cụm bao gồm tập các văn bản nguồn, các bản tóm tắt khác nhau sử dụng cho tóm tắt
đa văn bản (mỗi bản tóm tắt có độ dài được cố định lần lượt là 50, 100, 200 và 400 từ) và 1 bản tóm tắt sử dụng cho tóm tắt đơn văn bản có độ dài 100 từ Bộ dữ liệu DUC 2002 gồm 567 văn bản nguồn được tổ chức thành 60 cụm, mỗi cụm bao gồm tập các văn bản nguồn, các bản tóm tắt khác nhau sử dụng cho tóm tắt đa văn bản (mỗi bản tóm tắt có độ dài được cố định lần lượt là 10, 50, 100, 200 và 400 từ) và 1 bản tóm tắt sử dụng cho tóm tắt đơn văn bản có độ dài 100 từ
Luận án chỉ sử dụng 2 bộ dữ liệu này để thử nghiệm tóm tắt đơn văn bản hướng trích rút nên luận án sẽ đi phân tích thống kê các thông tin của văn bản nguồn, bản tóm tắt sử dụng cho tóm tắt đơn văn bản.Bảng 1.5 dưới đây là các thông tin thống
kê của hai bộ dữ liệu theo số lượng câu và số lượng từ
Văn bản nguồn
Số lượng câu trung bình 41,51 26,41
Số lượng từ trung bình 887,12 534,71 Khoảng phân bố theo số câu 15 ÷ 68 13 ÷ 40 Khoảng phân bố theo số từ 321 ÷ 1.453 278 ÷ 791 Văn bản tóm tắt
Số lượng câu trung bình 4,69 5,30
Số lượng từ trung bình 92,47 99,65 Khoảng phân bố theo số câu 3 ÷ 6 4 ÷ 7 Khoảng phân bố theo số từ 85 ÷ 99 95 ÷ 105
Bảng 1.5 Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002
sử dụng cho tóm tắt đơn văn bản
Hai bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mô hình tóm tắt đơn văn bản tiếng Anh hướng trích rút đề xuất
Trang 391.5 1.3 Bộ dữ liệu DUC 2004
Bộ dữ liệu DUC 2004 [80] được phát triển bởi tổ chức NIST gồm 50 cụm văn bản, mỗi cụm có trung bình 10 văn bản và có 4 bản tóm tắt đi kèm do các chuyên gia của NIST tạo ra
Bảng 1.6 là các thông tin thống kê tóm tắt của bộ dữ liệu DUC 2004 theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu
Thông tin
Loại
văn bản
Số lượng câu trung bình
Số từ trung bình
Khoảng phân
bố theo số câu Khoảng phân bố theo số từ
Văn bản nguồn 25,45 564,12 11 ÷ 41 211 ÷ 917 Văn bản tóm tắt 6,54 104,43 4 ÷ 8 99 ÷ 109
Bảng 1.6 Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mô hình tóm tắt đa văn bản tiếng Anh hướng tóm lược đề xuất
sử dụng để đánh giá chất lượng bản tóm tắt của các mô hình thử nghiệm
- Update task (pilot): Khác với tập dữ liệu Main task, mỗi bản tóm tắt trong
số văn bản trước đó rồi Update task có xấp xỉ 10 chủ đề, mỗi chủ đề chứa 25 văn
bản Với mỗi chủ đề, các văn bản được sắp xếp theo trình tự thời gian và sau đó được phân chia thành 3 tập A, B và C Trong 25 văn bản của mỗi chủ đề, có xấp xỉ
10 văn bản cho tập A, 8 văn bản cho tập B và 7 văn bản cho tập C
Bảng 1.7 là các thông tin thống kê tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu
Thông tin
Loại
văn bản
Số lượng câu trung bình
Số từ trung bình
Khoảng phân
bố theo số câu Khoảng phân bố theo số từ
Văn bản nguồn 20,78 421,84 4 ÷ 36 114 ÷ 728 Văn bản tóm tắt 13,08 243,75 10 ÷ 16 231 ÷ 255
Bảng 1.7 Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu
DUC 2007
Bộ dữ liệu này sẽ được sử dụng để thử nghiệm các mô hình tóm tắt đa văn bản tiếng Anh hướng trích rút và hướng tóm lược đề xuất
Trang 401.5 2 Các bộ dữ liệu văn bản tiếng Việt
Bộ dữ liệu cho tóm tắt văn bản tiếng Việt có tên là ‘Baomoi’ Bộ dữ liệu này
được tạo ra bằng cách thu thập các bài báo từ trang báo điện tử Việt Nam (http://baomoi.com) Mỗi bài báo bao gồm ba phần: Tiêu đề, tóm tắt và bài báo Do chưa có nguồn dữ liệu nào tốt hơn nên bộ dữ liệu Baomoi là lựa chọn tốt được sử dụng làm bộ dữ liệu thử nghiệm cho các mô hình tóm tắt đơn văn bản tiếng Việt vào thời điểm này Bộ dữ liệu Baomoi có xấp xỉ 4GB dữ liệu bao gồm 1.000.847 văn bản (trong đó: 900.847 mẫu được sử dụng để huấn luyện, 50.000 mẫu để kiểm tra và 50.000 mẫu để đánh giá), được chia thành 1.000 bản ghi, mỗi bản ghi gồm
hơn 1.000 văn bản được tách nhau bởi kí tự ‘#‘ Mỗi văn bản có cấu trúc gồm 3
phần:
- Phần tiêu đề: là đoạn đầu tiên, gồm 1 câu ngắn
- Phần tóm tắt: là đoạn kế tiếp, gồm từ 1 đến 2 câu dài
- Phần nội dung: là đoạn cuối cùng
Phần nội dung và phần tóm tắt tương ứng được sử dụng làm văn bản nguồn và bản tóm tắt cho bài toán tóm tắt văn bản Các phần này được sử dụng để huấn luyện
và đánh giá độ chính xác cho các mô hình thử nghiệm
Bảng 1.8 là các thông tin thống kê tóm tắt của bộ dữ liệu Baomoi theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu
Thông tin
Loại
văn bản
Số lượng câu trung bình
Số từ trung bình
Khoảng phân
bố theo số câu Khoảng phân bố theo số từ
Văn bản nguồn 11,56 532,65 3 ÷ 20 145 ÷ 920 Văn bản tóm tắt 1,28 38,90 1 ÷ 2 22 ÷ 55
Bảng 1.8 Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi
Bộ dữ liệu Baomoi được sử dụng để thử nghiệm cho các mô hình tóm tắt đơn văn bản tiếng Việt hướng trích rút và hướng tóm lược đề xuất của luận án
Bộ dữ liệu [82] gồm 200 cụm văn bản (trong luận án sẽ gọi là bộ dữ liệu
Corpus_TMV), mỗi cụm dữ liệu bao gồm từ 2 đến 5 văn bản, trung bình 3,16 văn bản, 2 bản tóm tắt Bộ dữ liệu được tạo thủ công bởi con người, trong đó việc xây dựng bộ dữ liệu được nhóm tác giả xử lý gồm hai bước:
văn hóa, khoa học và công nghệ, kinh tế, giải trí, thể thao, giáo dục, pháp luật, sức khỏe
cộng tác viên độc lập
Bảng 1.9 là các thông tin thống kê tóm tắt của bộ dữ liệu Corpus_TMV theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu