1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

181 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 181
Dung lượng 20,24 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

Trang 1

LỜI CAM ĐOAN

Tôi tên là Lưu Minh Tuấn, xin cam đoan đây là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học Các kết quả nghiên cứu trình bày trong luận án là trung thực, chính xác và chưa từng được công bố trong bất kỳ công trình nào khác Các kết quả nghiên cứu viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án Các kết quả sử dụng để tham khảo đều được trích dẫn đầy đủ và theo đúng quy định

Hà Nội, ngày tháng năm 2022

Nghiên cứu sinh

Lưu Minh Tuấn

NGƯỜI HƯỚNG DẪN KHOA HỌC

Trang 2

LỜI CẢM ƠN

Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và ý kiến đóng góp quý báu của các thầy cô Lời đầu tiên, nghiên cứu sinh xin được bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS TS Lê Thanh Hương - người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể hoàn thành được luận án này Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới PGS TS Nguyễn Bình Minh về những ý kiến đóng góp quý báu trong những buổi

xê mi na khoa học nhiều gian nan trong suốt thời gian nghiên cứu và hoàn thành luận án Nghiên cứu sinh xin gửi lời cảm ơn đến các thầy cô của Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin và truyền thông, Phòng đào tạo, Trường Đại học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập và nghiên cứu đã tạo điều kiện tốt nhất có thể cho nghiên cứu sinh trong suốt thời gian học tập và nghiên cứu để nghiên cứu sinh có thể hoàn thành luận án tiến sĩ một cách tốt nhất Xin cảm ơn Ban giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông tin và Kinh tế số, các thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh công tác và các đồng nghiệp đã luôn quan tâm giúp đỡ, tạo điều kiện tốt nhất để nghiên cứu sinh có thể hoàn thành tốt kế hoạch học tập và nghiên cứu của mình Lời cuối, nghiên cứu sinh xin chân thành cảm ơn các thành viên trong gia đình, người thân, bạn bè đã dành cho nghiên cứu sinh những tình cảm tốt đẹp, luôn động viên, giúp đỡ nghiên cứu sinh vượt qua những khó khăn trong quá trình học tập và nghiên cứu để đạt được kết quả như ngày hôm nay Đây cũng là món quà tinh thần mà nghiên cứu sinh trân trọng gửi tặng đến các thành viên trong gia đình và người thân Một lần nữa nghiên cứu sinh xin chân thành cảm ơn!

Trang 3

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ix

DANH MỤC KÝ HIỆU TOÁN HỌC xi

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 11

1.1 Giới thiệu về tóm tắt văn bản 11

1.1.1 Giới thiệu bài toán tóm tắt văn bản 11

1.1.2 Phân loại bài toán tóm tắt văn bản 12

1.1.3 Các bước thực hiện trong tóm tắt văn bản 13

1.1.4 Một số đặc trưng của văn bản 13

1.2 Một số phương pháp đánh giá văn bản tóm tắt tự động 14

1.2.1 Phương pháp dựa trên độ tương tự về nội dung 14

1.2.2 Phương pháp dựa trên độ tương quan phù hợp 14

1.2.3 Phương pháp ROUGE 15

1.3 Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản 18

1.4 Các phương pháp tóm tắt văn bản hướng trích rút cơ sở 20

1.4.1 PageRank 20

1.4.2 TextRank 20

1.4.3 LexRank 20

1.4.4 Lead-Based 21

1.5 Các bộ dữ liệu thử nghiệm 21

1.5.1 Các bộ dữ liệu văn bản tiếng Anh 21

1.5.2 Các bộ dữ liệu văn bản tiếng Việt 24

1.6 Kết luận chương 1 25

Chương 2 CÁC KIẾN THỨC NỀN TẢNG 27

2.1 Các kỹ thuật học sâu cơ sở 27

2.1.1 Mạng Perceptron nhiều lớp 27

2.1.2 Mạng nơ ron tích chập 28

2.1.3 Mạng nơ ron hồi quy 30

2.1.4 Các biến thể của RNN 31

2.1.5 Mô hình chuỗi sang chuỗi cơ bản 35

2.1.6 Cơ chế chú ý 36

2.1.7 Cơ chế tự chú ý và mô hình Transformer 39

2.2 Các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước 42

2.2.1 Mã hóa từ 42

Trang 4

2.2.2 Phương pháp Word2Vec 42

2.2.3 Mô hình BERT 44

2.2.4 Các phiên bản chủ yếu của mô hình BERT 47

2.3 Kỹ thuật học tăng cường Q-Learning 49

2.3.1 Học tăng cường Q-Learning 49

2.3.2 Thuật toán học tăng cường Deep Q-Learning 50

2.4 Tìm kiếm Beam 51

2.5 Phương pháp độ liên quan cận biên tối đa 51

2.6 Kết luận chương 2 53

Chương 3 PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TRÍCH RÚT 54

3.1 Giới thiệu bài toán và hướng tiếp cận 54

3.2 Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS 56

3.2.1 Giới thiệu mô hình 56

3.2.2 Mô hình tóm tắt văn bản đề xuất 56

3.2.3 Thử nghiệm mô hình 59

3.2.4 Đánh giá và so sánh kết quả 63

3.3 Mô hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS 64

3.3.1 Giới thiệu mô hình 64

3.3.2 Mô hình tóm tắt văn bản đề xuất 64

3.3.3 Thử nghiệm mô hình 67

3.3.4 Đánh giá và so sánh kết quả 71

3.4 Mô hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_ seq2seq_DeepQL_ESDS 71

3.4.1 Giới thiệu mô hình 71

3.4.2 Mô hình tóm tắt văn bản đề xuất 72

3.4.3 Huấn luyện mô hình với kỹ thuật học tăng cường 74

3.4.4 Thử nghiệm mô hình 75

3.4.5 Đánh giá và so sánh kết quả 78

3.5 So sánh đánh giá ba mô hình tóm tắt đơn văn bản hướng trích rút đề xuất 79

3.6 Kết luận chương 3 80

Chương 4 PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN HƯỚNG TÓM LƯỢC 82

4.1 Giới thiệu bài toán và hướng tiếp cận 82

4.2 Mô hình tóm tắt cơ sở 84

Trang 5

4.2.2 Cơ chế chú ý áp dụng trong mô hình 85

4.2.3 Mạng sao chép từ - sinh từ 86

4.2.4 Cơ chế bao phủ 87

4.3 Mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS 87 4.3.1 Các đặc trưng đề xuất thêm mới cho mô hình 88

4.3.2 Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất 89

4.4 Thử nghiệm mô hình 89

4.4.1 Các bộ dữ liệu thử nghiệm 89

4.4.2 Tiền xử lý dữ liệu 90

4.4.3 Thiết kế thử nghiệm 90

4.5 Đánh giá và so sánh kết quả 91

4.6 Kết luận chương 4 93

Chương 5 PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 94 5.1 Giới thiệu bài toán tóm tắt đa văn bản và hướng tiếp cận 94

5.2 Mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS 95

5.2.1 Giới thiệu mô hình 95

5.2.2 Các thành phần chính của mô hình 96

5.2.3 Mô hình tóm tắt đa văn bản đề xuất 100

5.2.4 Thử nghiệm mô hình và kết quả 104

5.2.5 So sánh và đánh giá kết quả 107

5.3 Các mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản được huấn luyện trước 110

5.3.1 Đặt vấn đề 110

5.3.2 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS 110 5.3.3 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình tóm tắt đơn văn bản hỗn hợp được huấn luyện trước Ext_Abs_AMDS-mds-mmr 121 5.4 Kết luận chương 5 132

KẾT LUẬN 133

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 136

TÀI LIỆU THAM KHẢO 137

PHỤ LỤC 1

Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ 1

Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm 3

Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm 9

Trang 6

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

AMDS Abstractive Multi-Document

biGRU Bidirectional Gated Recurrent Unit Mạng GRU 2 chiều

biLSTM Bidirectional Long Short Term

Memory

Mạng LSTM 2 chiều

BPTT Backpropagation Through Time Thuật toán lan truyền ngược

liên hồi CNN Covolutional Neural Network Mạng nơ ron tích chập

DE Document Embedding Mã hóa văn bản

DeepQL Deep Q-Learning Thuật toán học tăng cường

dựa trên mạng nơ ron sâu EMDS Extractive Multi-Document

Summarization

Tóm tắt đa văn bản hướng trích rút

ESDS Extractive Single-Document

GRU Gated Recurrent Unit Mô hình đơn vị hồi quy có

kiểm soát 1 chiều ILP Interger Linear Programming Quy hoạch tuyến tính

nguyên

IR Information Retrieval Tìm kiếm thông tin

LCS Longest Common Subsequence Dãy con chung lớn nhất LDA Latent Dirichlet Allocation Mô hình chủ đề ẩn

LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn LSTM Long Short Term Memory Mô hình mạng bộ nhớ ngắn

hạn dài hạn 1 chiều mBERT BERT multilingual Mô hình BERT đa ngôn ngữ mds multi-document summaryzation Tóm tắt đa văn bản

MLP Multi Layer Perceptron Mạng Perceptron nhiều lớp MMR Maximal Marginal Relevance Độ liên quan cận biên tối đa NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

Trang 7

OOV Out Of Vocabulary Không có trong bộ từ vựng

PE Position Embedding Mã hóa vị trí

PG Pointer – Generator Mô hình mạng Pointer –

Generator

hỗ trợ cho tiếng Việt

RL Reinforcement Learning Học tăng cường

RNN Recurent Neural Network Mạng nơ ron hồi quy

hỗ trợ cho tiếng Anh ROUGE Recall-Oriented Understudy for

Gisting Evaluation

Độ đo Rouge

SE Sentence Embedding Mã hóa câu

seq2seq Sequence to sequence Mô hình chuỗi sang chuỗi SQuAD Stanford Question Answering Dataset Bộ dữ liệu hỏi đáp của

Stanford SVM Support Vector Machine Mô hình máy véc tơ hỗ trợ TF-IDF Term Frequency – Inverse Document

Frequency

Trọng số của từ (mức độ quan trọng của từ) trong văn bản của một tập văn bản

warmup warmup Quá trình huấn luyện ban

đầu (số bước) với tỉ lệ học nhỏ

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1.1 Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh 12

Bảng 1.2 Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt 12

Bảng 1.3 Phương pháp phân chia bộ dữ liệu CNN/Daily Mail 21

Bảng 1.4 Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail 22

Bảng 1.5 Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002 sử dụng cho tóm tắt đơn văn bản 22

Bảng 1.6 Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004 23

Bảng 1.7 Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 23

Bảng 1.8 Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi 24

Bảng 1.9 Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV 25

Bảng 1.10 Thống kê các thông tin tóm tắt của bộ dữ liệu ViMs 25

Bảng 3.1 Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở Ký hiệu ‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng 60

Bảng 3.2 Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng 61 Bảng 3.3 Kết quả thử nghiệm của các mô hình xây dựng Ký hiệu ‘-’ biểu diễn mô hình mà luận án không thử nghiệm trên bộ dữ liệu tương ứng 61

Bảng 3.4 Một mẫu tóm tắt trên bộ dữ liệu CNN 62

Bảng 3.5 Một mẫu tóm tắt trên bộ dữ liệu Baomoi 63

Bảng 3.6 So sánh và đánh giá hiệu quả các phương pháp Ký hiệu ‘*’,‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 63

Bảng 3.7 Các kết quả thử nghiệm của các mô hình xây dựng 69

Bảng 3.8 Kết quả thử nghiệm các phương pháp trên bộ dữ liệu DUC 2001 và DUC 2002 Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 69

Bảng 3.9 Một mẫu tóm tắt trên bộ dữ liệu CNN 70

Bảng 3.10 Một mẫu tóm tắt trên bộ dữ liệu Baomoi 70

Bảng 3.11 So sáng và đánh giá hiệu quả của các phương pháp Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu tương ứng 71

Bảng 3.12 Bảng giá trị các siêu tham số cài đặt cho mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 74

Trang 9

Bảng 3.13 Giá trị các siêu tham số và thời gian huấn luyện các mô hình xây dựng

76

Bảng 3.14 Kết quả thử nghiệm của các mô hình xây dựng 77

Bảng 3.15 Một mẫu tóm tắt trên bộ dữ liệu CNN 77

Bảng 3.16 Một mẫu tóm tắt trên bộ dữ liệu Baomoi 78

Bảng 3.17 So sánh và đánh giá kết quả các phương pháp 78

Bảng 3.18 So sánh đánh giá độ chính xác của 3 mô hình đề xuất 79

Bảng 3.19 So sánh đánh giá thời gian thực hiện của 3 mô hình đề xuất 80

Bảng 4.1 Kết quả thử nghiệm của các mô hình trên bộ dữ liệu CNN/Daily Mail Ký hiệu ‘(*)’ là mô hình của See và cộng sự [43] 91

Bảng 4.2 Kết quả thử nghiệm của các mô hình trên bộ dữ liệu Baomoi Ký hiệu ‘(*)’ là mô hình của See và cộng sự [43] 91

Bảng 4.3 Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong [43] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu CNN/Daily Mail 92

Bảng 4.4 Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mô hình trong [43] và bản tóm tắt của mô hình đề xuất trên bộ dữ liệu Baomoi 93

Bảng 5.1 Giá trị của các tham số sử dụng khi thử nghiệm các mô hình Ký hiệu ‘-‘ biểu diễn mô hình không sử dụng các tham số tương ứng 105

Bảng 5.2 Kết quả thử nghiệm các mô hình xây dựng trên hai bộ dữ liệu 106

Bảng 5.3 Kết quả thử nghiệm các phương pháp tóm tắt trên bộ dữ liệu DUC 2007 106

Bảng 5.4 So sánh và đánh giá kết quả của các phương pháp Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên bộ dữ liệu tương ứng 107

Bảng 5.5 Các mẫu tóm tắt của cụm D0716D trong bộ dữ liệu DUC 2007 của mô hình đề xuất và con người 109

Bảng 5.6 Các mẫu tóm tắt của cụm Cluster_2 trong bộ dữ liệu Corpus_TMV của mô hình đề xuất và con người 109

Bảng 5.6 Giá trị các siêu tham số và thời gian huấn luyện mô hình Warmup là quá trình huấn luyện ban đầu với tỷ lệ học nhỏ để hiệu chỉnh cơ chế chú ý 118

Bảng 5.7 Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS trên các bộ dữ liệu CNN và Baomoi 118

Bảng 5.8 Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS chưa được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng 118

Bảng 5.9 Kết quả thử nghiệm mô hình PG_Feature_AMDS trên bộ DUC 2004 và Corpus_TMV sử dụng mô hình PG_Feature_ASDS đã được huấn luyện tiếp trên bộ DUC 2007 và bộ ViMs tương ứng 119

Bảng 5.10 Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 119

Trang 10

Bảng 5.11 Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV 120 Bảng 5.12 So sáng và đánh giá kết quả của các phương pháp Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng 120 Bảng 5.13 Giá trị các siêu tham số và thời gian huấn luyện các mô hình 128 Bảng 5.14 Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản trên các bộ dữ liệu CNN/Daily Mail và Baomoi 129 Bảng 5.15 Kết quả thử nghiệm các mô hình xây dựng trên bộ dữ liệu DUC 2004 và Corpus_TMV 129 Bảng 5.16 Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 130 Bảng 5.17 Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV 131 Bảng 5.18 So sáng và đánh giá kết quả của các phương pháp Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng 131

Trang 11

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Các bước thực hiện trong tóm tắt văn bản 13

Hình 1.2 Phương pháp xử lý tóm tắt từng đơn văn bản trong tóm tắt đa văn bản 19

Hình 2.1 Mô hình mạng MLP một lớp ẩn và nhiều lớp ẩn [79] 27

Hình 2.2 Một kiến trúc CNN cho bài toán phân loại ảnh [84] 28

Hình 2.3 Tính toán với phương thức Average Pooling và Max Pooling [82] 29

Hình 2.4 Mô hình mạng nơ ron hồi quy [87] 30

Hình 2.5 Kiến trúc tổng quan một tế bào nhớ LSTM (nguồn: [Internet]) 31

Hình 2.6 Chi tiết tế bào nhớ LSTM [91] 32

Hình 2.7 Kiến trúc tổng quan của mạng biLSTM [88] 33

Hình 2.8 Minh họa biLSTM ở 3 bước (t-1), t và (t+1) [91] 34

Hình 2.9 Chi tiết tế bào nhớ GRU [89] 35

Hình 2.10 Mô hình mạng chuỗi sang chuỗi [92] 36

Hình 2.11 Mô hình minh họa cơ chế chú ý sinh từ mục tiêu y t từ câu nguồn 1 2 ( ,x x , )x T [93] 37

Hình 2.12 Mô hình Transformer [97] 40

Hình 2.13 Scaled Dot-Product Attention và Multi-Head Attention [97] 41

Hình 2.14 Mô hình CBoW với một từ làm ngữ cảnh để dự đoán từ tiếp theo [101] 42

Hình 2.15 Mô hình CBoW với nhiều từ làm ngữ cảnh để dự đoán từ tiếp theo [101] 43

Hình 2.16 Mô hình Skip-Gram [101] 43

Hình 2.17 Kiến trúc mô hình BERT [102] 44

Hình 2.18 Biểu diễn đầu vào của mô hình BERT [102] 45

Hình 2.19 Mô hình biểu diễn các bước chưng cất được huấn luyện trước của các mô hình BERT thu nhỏ [111] 49

Hình 2.20 Mô hình học tăng cường 49

Hình 3.1 Khung xử lý chung cho các mô hình tóm tắt đơn văn bản hướng trích rút đề xuất 55

Hình 3.2 Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS 57

Hình 3.3 Kiến trúc mạng MLP đề xuất của mô hình 58

Hình 3.4 Mô hình tóm tắt văn bản hướng trích rút mBERT_CNN_ESDS 64

Trang 12

Hình 3.5 Kiến trúc lớp Convolution với k-Max Pooling (k = 2) 66Hình 3.6 Kiến trúc mô hình Encoder-Decoder đề xuất 66Hình 3.7 Mô hình tóm tắt văn bản hướng trích rút mBERT-Tiny_seq2seq_DeepQL_ESDS 72Hình 3.8 Mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 75Hình 4.1 Mô hình tóm tắt đơn văn bản hướng tóm lược cơ sở [128] 84Hình 4.2 Mô hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS 89Hình 5.1 Mô hình sử dụng thuật toán phân cụm K-means kết hợp vị trí tương đối của câu 100Hình 5.2 Mô hình sử dụng thuật toán phân cụm K-means kết hợp vị trí câu 101Hình 5.3 Mô hình sử dụng thuật toán phân cụm K-means kết hợp MMR và vị trí câu 102Hình 5.4 Mô hình sử dụng thuật toán phân cụm K-means kết hợp Centroid-based, MMR và vị trí câu 103Hình 5.5 Mô hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS 104Hình 5.6 Minh họa phương pháp PG-MMR (k=2) [147] 113Hình 5.7 Mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS 114Hình 5.8 Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS 116Hình 5.9 Mô hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_CNN_ESDS 122Hình 5.10 Mô hình tóm tắt đơn văn bản hướng tóm lược PG_TF-IDF_ASDS 123Hình 5.11 Mô hình tóm tắt đơn văn bản hỗn hợp Ext_Abs_ASDS 124Hình 5.12 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre-trained Ext_Abs_ASDS đề xuất (MMR áp dụng trên từng văn bản) 124Hình 5.13 Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mô hình pre-trained Ext_Abs_ASDS với phương pháp MMR áp dụng trên tập đa văn bản 125Hình 5.14 Các giai đoạn huấn luyện mô hình tóm tắt đa văn bản hướng tóm lược đề xuất Ext_Abs_AMDS-mds-mmr 126

Trang 13

DANH MỤC KÝ HIỆU TOÁN HỌC

AT Ma trận chuyển vị của ma trận A

A-1 Ma trận nghịch đảo của ma trận A [A; B] Ghép 2 ma trận A và ma trận B

 

f x Hàm số 1 biến f theo biến x

log(x) logarit tự nhiên của số thực dương x

x Chuẩn cấp 2 của véc tơ x

[x;y] Ghép 2 véc tơ x và véc tơ y

Trang 14

MỞ ĐẦU

1 Bối cảnh nghiên cứu

Trong kỷ nguyên số và mạng Internet phát triển mạnh mẽ như hiện nay, các tài nguyên trên internet như các trang web, đánh giá của người dùng, tin tức, blog, mạng xã hội, là những nguồn dữ liệu văn bản to lớn Bên cạnh đó, có một khối lượng nội dung văn bản phong phú khác trên các kho lưu trữ như các bài báo tin tức, tiểu thuyết, sách, văn bản pháp luật, tài liệu y sinh, bài báo khoa học, Các nội dung văn bản này tăng lên theo cấp số nhân hàng ngày Do đó, người dùng mất rất nhiều thời gian để tìm kiếm thông tin mà mình mong muốn Kết quả là người dùng thậm chí không thể đọc và hiểu hết được tất cả nội dung văn bản kết quả tìm kiếm

Có nhiều thông tin bị lặp lại hoặc không quan trọng trong các văn bản kết quả tìm kiếm Do đó, việc tóm tắt và cô đọng các nguồn văn bản trở nên cấp thiết và quan trọng hơn rất nhiều Tóm tắt văn bản thủ công là một nhiệm vụ tốn kém và tiêu tốn nhiều thời gian và công sức của con người Trên thực tế, con người cũng rất khó tóm tắt thủ công với lượng dữ liệu văn bản khổng lồ này [1] Để giải quyết các vấn

đề này, các phương pháp tóm tắt văn bản tự động được quan tâm nghiên cứu để phát triển các hệ thống tóm tắt văn bản tự động

Mục tiêu chính của các hệ thống tóm tắt văn bản tự động là tạo ra bản tóm tắt bao gồm các ý chính của một văn bản hoặc nhiều văn bản đầu vào và thông tin lặp lại ít nhất [2,3] Các hệ thống tóm tắt văn bản tự động sinh ra các bản tóm tắt giúp người dùng nắm được những điểm chính của văn bản gốc mà không cần phải đọc toàn bộ văn bản Người dùng sẽ được hưởng lợi từ các bản tóm tắt được sinh ra tự động, tiết kiệm được nhiều thời gian và công sức

Các hệ thống tóm tắt văn bản tự động hiện nay có thể được chia thành hai loại là tóm tắt đơn văn bản và tóm tắt đa văn bản Tóm tắt đơn văn bản sinh ra bản tóm tắt

từ một văn bản đầu vào, trong khi tóm tắt đa văn bản sinh ra bản tóm tắt từ một tập các văn bản đầu vào Các hệ thống tóm tắt văn bản tự động này được phát triển bằng việc áp dụng một trong các phương pháp tiếp cận chủ yếu là tóm tắt văn bản hướng trích rút và tóm tắt văn bản hướng tóm lược

Tóm tắt văn bản hướng trích rút: Là phương pháp lựa chọn những câu quan

trọng nhất trong một văn bản nguồn (hoặc một tập văn bản nguồn) và sử dụng các câu này để sinh bản tóm tắt Phương pháp này bao gồm các nhiệm vụ xử lý chính như: Tạo một biểu diễn thích hợp cho văn bản đầu vào, cho điểm các câu, trích rút các câu có điểm cao Các hệ thống tóm tắt văn bản hướng trích rút có thể chia thành các phương pháp chủ yếu sau:

 Phương pháp dựa trên thống kê: Trích rút các câu và các từ quan trọng từ văn bản nguồn dựa trên phân tích thống kê của tập các đặc trưng Các hệ thống dựa trên phương pháp thống kê [4,5] thực hiện cho điểm câu bằng cách chọn và tính toán một số đặc trưng thống kê, sau đó gán các trọng số cho chúng và gán điểm cuối cùng cho mỗi câu trong văn bản được xác định bởi biểu thức trọng số - đặc trưng (nghĩa là tất cả điểm của các đặc trưng đã chọn được tính toán và tính tổng để thu

Trang 15

được điểm của mỗi câu) Bên cạnh đó, hệ thống Lead [6] chọn các câu đưa vào bản tóm tắt dựa vào trình tự thời gian đã cho kết quả khá cao

 Phương pháp dựa trên khái niệm: Trích xuất các khái niệm từ một đoạn văn bản từ các cơ sở tri thức bên ngoài như WordNet [7], Wikipedia, Sau đó, độ quan trọng của các câu được xác định dựa trên các khái niệm được lấy từ cơ sở tri thức bên ngoài thay vì các từ Các hệ thống này thực hiện cho điểm các câu bằng cách trích xuất các khái niệm của một văn bản từ cơ sở tri thức bên ngoài, xây dựng một véc tơ khái niệm hoặc mô hình đồ thị để chỉ ra mối quan hệ giữa khái niệm và câu rồi áp dụng một thuật toán xếp hạng để cho điểm các câu như trong [8]

 Phương pháp dựa trên chủ đề: Phương pháp này dựa vào việc xác định chủ đề chính của văn bản Có một số phương pháp biểu diễn chủ đề phổ biến là phương pháp dựa trên từ chủ đề, tần suất xuất hiện của từ (TF), trọng số thể hiện mức độ quan trọng của từ (TF-IDF), chuỗi từ vựng [9,10] Các bước xử lý chung của các hệ thống tóm tắt trích rút dựa trên chủ đề bao gồm chuyển đổi văn bản đầu vào thành một biểu diễn trung gian, nắm bắt các chủ đề đã đề cập trong văn bản đầu vào và gán điểm mức độ quan trọng cho mỗi câu trong văn bản đầu vào theo biểu diễn của

 Phương pháp dựa trên trọng tâm hay phân cụm câu: Trong phương pháp này,

hệ thống tóm tắt trích rút đa văn bản xác định các câu trọng tâm và quan trọng nhất trong một cụm sao cho chúng chứa các thông tin quan trọng liên quan đến cụm chủ

đề chính [11,12,13] Trọng tâm của câu được xác định bằng cách sử dụng trọng tâm của các từ Cách phổ biến để xác định trọng tâm của từ là tìm tâm của cụm văn bản trong không gian véc tơ Trọng tâm của một cụm bao gồm các từ có điểm trọng số TF-IDF lớn hơn một giá trị ngưỡng xác định trước

 Phương pháp dựa trên đồ thị: Phương pháp này sử dụng đồ thị dựa trên câu để biểu diễn một văn bản hoặc cụm văn bản Phương pháp biểu diễn này đã được sử dụng phổ biến cho các hệ thống tóm tắt trích rút như: LexRank [11], TextRank [14] Trong hệ thống LexRank [11], các câu được cho điểm bằng cách biểu diễn các câu của văn bản sử dụng một đồ thị vô hướng sao cho mỗi nút trong đồ thị biểu diễn một câu từ văn bản đầu vào, trọng số của cạnh kết nối là độ tương tự ngữ nghĩa giữa hai câu tương ứng (sử dụng độ tương tự cosine) và sử dụng một thuật toán xếp hạng

để xác định độ quan trọng của từng câu Các câu được xếp hạng dựa trên điểm LexRank giống như thuật toán PageRank [15] chỉ khác là đồ thị LexRank là đồ thị

vô hướng

 Phương pháp dựa trên ngữ nghĩa: Phân tích ngữ nghĩa tiềm ẩn (LSA - Latent Semantic Analysis) là kỹ thuật học không giám sát biểu diễn ngữ nghĩa của văn bản dựa trên sự đồng xuất hiện của các từ được quan sát Các bước cho điểm câu của các hệ thống tóm tắt trích rút dựa trên LSA [16,17] bao gồm: tạo ma trận đầu vào (ma trận từ - câu) và áp dụng phương pháp phân tích giá trị suy biến (SVD - Singular Value Decomposition) cho ma trận đầu vào để xác định mối quan hệ giữa các từ và các câu

 Phương pháp dựa trên học máy: Phương pháp này chuyển bài toán tóm tắt văn bản thành bài toán phân loại văn bản có giám sát Hệ thống học bởi các mẫu học để phân loại một câu của văn bản đánh giá thuộc về lớp “được chọn” hoặc lớp “không được chọn” sử dụng một tập các văn bản huấn luyện (tập các văn bản và các bản tóm tắt tham chiếu tương ứng do con người tạo ra) Trong các hệ thống tóm tắt dựa

Trang 36

Hai bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mô hình tóm tắt đơn văn bản tiếng Anh hướng trích rút đề xuất

1.5.1.3 Bộ dữ liệu DUC 2004

Bộ dữ liệu DUC 2004 [74] được phát triển bởi tổ chức NIST gồm 50 cụm văn bản, mỗi cụm có trung bình 10 văn bản và có 4 bản tóm tắt đi kèm do các chuyên gia của NIST tạo ra

Bảng 1.6 là các thông tin thống kê tóm tắt của bộ dữ liệu DUC 2004 theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu

Thông tin

Loại

văn bản

Số lượng câu trung bình

Số từ trung bình

Bảng 1.6 Thống kê các thông tin tóm tắt của bộ dữ liệu DUC 2004

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho mô hình tóm tắt đa văn bản tiếng Anh hướng tóm lược đề xuất

1.5.1.4 Bộ dữ liệu DUC 2007

Bộ dữ liệu DUC 2007 [75] gồm hai tập dữ liệu là: Main task và Update task (pilot):

- Main task: Bao gồm 45 chủ đề, trong đó mỗi chủ đề nằm trong một thư mục

riêng biệt Mỗi chủ đề có trung bình 25 văn bản liên quan dưới dạng 25 tập tin, đi kèm với mỗi chủ đề là 4 bản tóm tắt khác nhau đến từ 4 đơn vị đánh giá NIST Mỗi bản tóm tắt thể hiện đầy đủ thông tin của mỗi chủ đề Các bản tóm tắt này sẽ được

sử dụng để đánh giá chất lượng bản tóm tắt của các mô hình thử nghiệm

- Update task (pilot): Khác với tập dữ liệu Main task, mỗi bản tóm tắt trong Update task chỉ chứa khoảng 100 từ với giả định rằng người dùng đã đọc qua một

số văn bản trước đó rồi Update task có xấp xỉ 10 chủ đề, mỗi chủ đề chứa 25 văn

bản Với mỗi chủ đề, các văn bản được sắp xếp theo trình tự thời gian và sau đó được phân chia thành 3 tập A, B và C Trong 25 văn bản của mỗi chủ đề, có xấp xỉ

10 văn bản cho tập A, 8 văn bản cho tập B và 7 văn bản cho tập C

Bảng 1.7 là các thông tin thống kê tóm tắt của tập dữ liệu Main task của bộ dữ liệu DUC 2007 theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu

Thông tin

Loại

văn bản

Số lượng câu trung bình

Số từ trung bình

Khoảng phân

bố theo số câu Khoảng phân bố theo số từ

Văn bản nguồn 20,78 421,84 4  36 114  728 Văn bản tóm tắt 13,08 243,75 10  16 231  255

Bảng 1.7 Thống kê các thông tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu

DUC 2007

Trang 37

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm các mô hình tóm tắt đa văn bản tiếng Anh hướng trích rút và hướng tóm lược đề xuất

1.5.2 Các bộ dữ liệu văn bản tiếng Việt

1.5.2.1 Bộ dữ liệu Baomoi

Bộ dữ liệu cho tóm tắt văn bản tiếng Việt có tên là ‘Baomoi’ Bộ dữ liệu này

được tạo ra bằng cách thu thập các bài báo từ trang báo điện tử Việt Nam (http://baomoi.com) Mỗi bài báo bao gồm ba phần: Tiêu đề, tóm tắt và bài báo Do chưa có nguồn dữ liệu nào tốt hơn nên bộ dữ liệu Baomoi là lựa chọn tốt được sử dụng làm bộ dữ liệu thử nghiệm cho các mô hình tóm tắt đơn văn bản tiếng Việt vào thời điểm này Bộ dữ liệu Baomoi có xấp xỉ 4GB dữ liệu bao gồm 1.000.847 văn bản (trong đó: 900.847 mẫu được sử dụng để huấn luyện, 50.000 mẫu để kiểm tra và 50.000 mẫu để đánh giá), được chia thành 1.000 bản ghi, mỗi bản ghi gồm

hơn 1.000 văn bản được tách nhau bởi kí tự ‘#‘ Mỗi văn bản có cấu trúc gồm 3

phần:

- Phần tiêu đề: là đoạn đầu tiên, gồm 1 câu ngắn

- Phần tóm tắt: là đoạn kế tiếp, gồm từ 1 đến 2 câu dài

- Phần nội dung: là đoạn cuối cùng

Phần nội dung và phần tóm tắt tương ứng được sử dụng làm văn bản nguồn và bản tóm tắt cho bài toán tóm tắt văn bản Các phần này được sử dụng để huấn luyện

và đánh giá độ chính xác cho các mô hình thử nghiệm

Bảng 1.8 là các thông tin thống kê tóm tắt của bộ dữ liệu Baomoi theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu

Thông tin

Loại

văn bản

Số lượng câu trung bình

Số từ trung bình

Bảng 1.8 Thống kê các thông tin tóm tắt của bộ dữ liệu Baomoi

Bộ dữ liệu Baomoi được sử dụng để thử nghiệm cho các mô hình tóm tắt đơn văn bản tiếng Việt hướng trích rút và hướng tóm lược đề xuất của luận án

1.5.2.2 Bộ dữ liệu 200 cụm

Bộ dữ liệu [76] gồm 200 cụm (trong luận án sẽ gọi là bộ dữ liệu

Corpus_TMV), mỗi cụm dữ liệu bao gồm từ 2 đến 5 văn bản, trung bình 3,16 văn

bản, 2 bản tóm tắt Bộ dữ liệu được tạo thủ công bởi con người, trong đó việc xây dựng bộ dữ liệu được nhóm tác giả xử lý gồm hai bước:

- Thu thập và phân cụm các văn bản: Dữ liệu được thu thập từ trang baomoi.com và được phân bố trên khoảng từ 8 đến 10 chủ đề gồm thế giới, xã hội,

văn hóa, khoa học và công nghệ, kinh tế, giải trí, thể thao, giáo dục, pháp luật, sức khỏe

Trang 38

- Sinh bản tóm tắt: Bản tóm tắt cho các cụm văn bản được xây dựng bởi hai

Số từ trung bình

Bảng 1.9 Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho các mô hình tóm tắt đa văn bản tiếng Việt hướng trích rút và hướng tóm lược đề xuất

- Thu thập và phân cụm các văn bản: Dữ liệu được nhóm tác giả thu thập từ trang news.google.com (Google News) tiếng Việt, nhóm tác giả chỉ thu thập từ các

nguồn mở thay vì toàn bộ nguồn từ Google News (vì lý do bản quyền) Các văn bản thu thập gồm các chủ đề: thế giới, kinh tế, tin tức trong nước, giải trí, thể thao

- Sinh bản tóm tắt: Hai người tóm tắt với sự hỗ trợ của phần mềm MDSWriter

[78] tạo ra bản tóm tắt cho các cụm văn bản đã thu thập

Bảng 1.10 là các thông tin thống kê tóm tắt của bộ dữ liệu ViMs theo số lượng câu và số lượng từ trên toàn bộ bộ dữ liệu

Thông tin

Loại

văn bản

Số lượng câu trung bình

Số từ trung bình

Bảng 1.10 Thống kê các thông tin tóm tắt của bộ dữ liệu ViMs

Bộ dữ liệu này sẽ được sử dụng để thử nghiệm cho các mô hình tóm tắt đa văn bản tiếng Việt hướng trích rút và hướng tóm lược đề xuất

1.6 Kết luận chương 1

Với mục tiêu của đề tài, chương này đã trình bày một số kiến thức cơ sở liên quan đến đề tài nghiên cứu như sau:

Trang 39

- Tổng quan về bài toán tóm tắt văn bản và một số vấn đề liên quan như phân loại bài toán tóm tắt văn bản gồm tóm tắt đơn văn bản, tóm tắt đa văn bản, tóm tắt văn bản hướng trích rút, tóm tắt văn bản hướng tóm lược, các bước thực hiện trong tóm tắt văn bản, một số đặc trưng của văn bản thường được sử dụng trong các hệ thống tóm tắt văn bản Các vấn đề này đã mở ra định hướng nghiên cứu cho luận

án

- Một số phương pháp đánh giá văn bản tóm tắt tự động

- Các phương pháp ghép văn bản trong tóm tắt đa văn bản

- Các phương pháp tóm tắt văn bản hướng trích rút cơ sở được sử dụng để so sánh với các mô hình tóm tắt văn bản đề xuất

- Cuối cùng, luận án giới thiệu và phân tích các bộ dữ liệu được sử dụng để thử nghiệm cho các mô hình tóm tắt văn bản đề xuất

Các kiến thức cơ sở liên quan trong chương 1 được trình bày trong các công trình nghiên cứu đã công bố của luận án Các kiến thức trình bày trong chương này

là cơ sở để đề xuất và phát triển các nghiên cứu của luận án Trong chương 2, luận

án sẽ trình bày các kiến thức nền tảng được sử dụng để phát triển các phương pháp tóm tắt văn bản đề xuất

Trang 40

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

Chương này trình bày các kiến thức nền tảng sử dụng để phát triển các phương pháp tóm tắt văn bản trong luận án bao gồm các kỹ thuật học sâu cơ sở như mạng Perceptron nhiều lớp, mạng nơ ron tích chập, mạng nơ ron hồi quy và các biến thể của mạng nơ ron hồi quy, cơ chế chú ý, mô hình Transformer, các mô hình ngôn ngữ dựa trên học sâu được huấn luyện trước như phương pháp word2vec, mô hình BERT, BERT đa ngôn ngữ, các mô hình tối ưu của BERT, BERT thu nhỏ để véc tơ hóa văn bản Chương này cũng trình bày các thuật toán được sử dụng trong các mô hình tóm tắt đề xuất như học tăng cường Deep Q-Learning, tìm kiếm Beam, phương pháp MMR loại bỏ thông tin trùng lặp Những kiến thức trình bày trong chương này

là cơ sở cho việc phát triển các đề xuất trong các chương tiếp theo

2.1 Các kỹ thuật học sâu cơ sở

2.1.1 Mạng Perceptron nhiều lớp

Mạng MLP là mạng nơ ron có một hoặc nhiều lớp ẩn thường được sử dụng trong các bài toán phân loại Kiến trúc mạng MLP đơn giản nhất là mạng truyền thẳng Hình 2.1 minh họa mô hình mạng MLP một lớp ẩn và mạng MLP nhiều lớp ẩn:

Hình 2.1 Mô hình mạng MLP một lớp ẩn và nhiều lớp ẩn [79]

Khi mạng nơ ron có nhiều lớp thì thời gian tính toán sẽ tăng lên đáng kể nên mạng MLP thường được huấn luyện bởi giải thuật lan truyền ngược (Back Propagation Algorithm) [80] để giảm thời gian huấn luyện Mạng MLP với kiến trúc mạng linh hoạt đã đạt được độ hiệu quả cao trong các bài toán về xử lý văn bản, ảnh, video Kiến trúc của mạng thường được xây dựng dựa vào kinh nghiệm thực tế và thực nghiệm

Ngày đăng: 23/04/2022, 07:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Vilca G. C. V. and Cabezudo M. A. S. (2017). A study of abstractive summarization using semantic representations and discourse level information. In Proceedings of the 20th International Conference on Text, Speech, and Dialogue, pp. 482-490 Sách, tạp chí
Tiêu đề: A study of abstractive summarization using semantic representations and discourse level information
Tác giả: Vilca G. C. V. and Cabezudo M. A. S
Năm: 2017
[2] Mehdi Allahyari, Seyedamin Pouriyeh, Mehdi Assef, Saeid Safaei, Elizabeth D. Trippe, Juan B. Gutierrez, and Krys Kochut (2017). Text Summarization Techniques: A Brief Survey. International Journal of Advanced Computer Science and Applications (IJACSA), Vol. 8, No. 10, pp. 397-405 Sách, tạp chí
Tiêu đề: Text Summarization Techniques: A Brief Survey
Tác giả: Mehdi Allahyari, Seyedamin Pouriyeh, Mehdi Assef, Saeid Safaei, Elizabeth D. Trippe, Juan B. Gutierrez, and Krys Kochut
Năm: 2017
[3] Radev D. R., Hovy E., and McKeown K. (2002). Introduction to the special issue on summarization. Computational Linguistics, Vol. 28, No. 4, pp. 399- 408. MIT Press. DOI: 10.1162/089120102762671927 Sách, tạp chí
Tiêu đề: Introduction to the special issue on summarization
Tác giả: Radev D. R., Hovy E., and McKeown K
Năm: 2002
[4] Ko Y. and Seo J. (2008). An effective sentence-extraction technique using contextual information and statistical approaches for text summarization.Pattern Recognition Letters, Vol. 29, No. 9, pp. 1366–1371. DOI: 10.1016/j.patrec.2008.02.008 Sách, tạp chí
Tiêu đề: An effective sentence-extraction technique using contextual information and statistical approaches for text summarization
Tác giả: Ko Y. and Seo J
Năm: 2008
[5] Afsharizadeh M., Ebrahimpour-Komleh H., and Bagheri A. (2018). Query- oriented text summarization using sentence extraction technique. 2018 4th International Conference on Web Research (ICWR), Tehran, Iran.DOI: 10.1109/ICWR.2018.8387248 Sách, tạp chí
Tiêu đề: Query-oriented text summarization using sentence extraction technique
Tác giả: Afsharizadeh M., Ebrahimpour-Komleh H., and Bagheri A
Năm: 2018
[6] Mark Wasson (1998). Using leading text for news summaries: Evaluation results and implications for commercial summarization applications. In Proceedings of the 17th international conference on Computational linguistics- Vol. 2, pp. 1364-1368 Sách, tạp chí
Tiêu đề: Using leading text for news summaries: Evaluation results and implications for commercial summarization applications
Tác giả: Mark Wasson
Năm: 1998
[7] Miller G. A. (1995). WordNet: A lexical database for English. Communications of the ACM, Vol. 38, No. 11, pp. 39–41 Sách, tạp chí
Tiêu đề: WordNet: A lexical database for English. "Communications of the ACM
Tác giả: Miller G. A
Năm: 1995
[8] Sankarasubramaniam Y., Ramanathan K., and Ghosh S. (2014). Text summarization using Wikipedia. Information Processing & Management, Vol Sách, tạp chí
Tiêu đề: Text summarization using Wikipedia
Tác giả: Sankarasubramaniam Y., Ramanathan K., and Ghosh S
Năm: 2014
[9] Wang Y. and Ma J. (2013). A Comprehensive method for text summarization based on latent semantic analysis. In Proceedings of the Natural language processing and Chinese computing, pp. 394–401 Sách, tạp chí
Tiêu đề: A Comprehensive method for text summarization based on latent semantic analysis
Tác giả: Wang Y. and Ma J
Năm: 2013
[10] Sahni A. and Palwe S. (2018). Topic Modeling On Online News Extraction. In Proceedings of the Intelligent Computing and Information and Communication, pp. 611-622 Sách, tạp chí
Tiêu đề: Topic Modeling On Online News Extraction
Tác giả: Sahni A. and Palwe S
Năm: 2018
[11] Gunes Erkan and Dragomir R. Radev (2004). LexRank: Graph-based Lexical Centrality as Salience in Text Summarization. Journal of Artificial Intelligence Research, Vol. 22, No. 1, pp 457-479 Sách, tạp chí
Tiêu đề: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization
Tác giả: Gunes Erkan and Dragomir R. Radev
Năm: 2004
[12] Mehta P. And Majumder P. (2018). Effective aggregation of various summarization techniques. Information Processing & Management, Vol. 54, No. 2, pp. 145–158. DOI: 10.1016/j.ipm.2017.11.002 Sách, tạp chí
Tiêu đề: Effective aggregation of various summarization techniques
Tác giả: Mehta P. And Majumder P
Năm: 2018
[13] Dragomir R. Radev, Hongyan Jing, Malgorzata Stys, and Daniel Tam (2004). Centroid-based summarization of multiple documents. Information Processing and Management, Vol. 40, No. 6, pp. 919–938 Sách, tạp chí
Tiêu đề: Centroid-based summarization of multiple documents
Tác giả: Dragomir R. Radev, Hongyan Jing, Malgorzata Stys, and Daniel Tam
Năm: 2004
[14] Rada Mihalcea and Paul Tarau (2004). TextRank: Bringing Order into Texts. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404-411. Association for Computational Linguistics Sách, tạp chí
Tiêu đề: TextRank: Bringing Order into Texts
Tác giả: Rada Mihalcea and Paul Tarau
Năm: 2004
[15] Brin S., and Page L. (1998). The anatomy of a large-scale hypertextual Web search engine. In Proceedings of the seventh international conference on World Wide Web 7, pp. 107–117 Sách, tạp chí
Tiêu đề: The anatomy of a large-scale hypertextual Web search engine
Tác giả: Brin S., and Page L
Năm: 1998
[16] Al-Sabahi K., Zhang Z., Long J., and Alwesabi K. (2018). An enhanced latent semantic analysis approach for Arabic document summarization. Arabian Journal for Science and Engineering, Vol. 43, No. 5. DOI: 10.1007/s13369- 018-3286-z Sách, tạp chí
Tiêu đề: An enhanced latent semantic analysis approach for Arabic document summarization
Tác giả: Al-Sabahi K., Zhang Z., Long J., and Alwesabi K
Năm: 2018
[17] Mashechkin I. V., Petrovskiy M. I., Popov D. S., and Tsarev D. V. (2011). Automatic text summarization using latent semantic analysis. Programming and Computer Software, Vol. 37, No. 6, pp. 299–305. DOI:10.1134/s0361768811060041 Sách, tạp chí
Tiêu đề: Automatic text summarization using latent semantic analysis. Programming and Computer Software
Tác giả: Mashechkin I. V., Petrovskiy M. I., Popov D. S., and Tsarev D. V
Năm: 2011
[19] John A., and Wilscy M. (2013). Random forest classifier based multi- document summarization system. In Proceedings of the 2013 IEEE Recent Advances in Intelligent Computational Systems (RAICS).DOI: 10.1109/RAICS.2013.6745442 Sách, tạp chí
Tiêu đề: Random forest classifier based multi-document summarization system
Tác giả: John A., and Wilscy M
Năm: 2013
[20] Shetty K., and Kallimani J. S. (2017). Automatic extractive text summarization using K-means clustering. In Proceedings of the 2017 International Conference on Electrical, Electronics, Communication, Computer, andOptimization Techniques (ICEECCOT).DOI: 10.1109/ICEECCOT.2017.8284627 Sách, tạp chí
Tiêu đề: Automatic extractive text summarization using K-means clustering
Tác giả: Shetty K., and Kallimani J. S
Năm: 2017
[21] Kobayashi H., Noguchi M., and Yatsuka T. (2015). Summarization based on embedding distributions. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 1984-1989 Sách, tạp chí
Tiêu đề: Summarization based on embedding distributions
Tác giả: Kobayashi H., Noguchi M., and Yatsuka T
Năm: 2015

HÌNH ẢNH LIÊN QUAN

Bảng 1.6. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2004 - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 1.6. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu DUC 2004 (Trang 36)
Bảng 1.6 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu DUC 2004 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 1.6 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu DUC 2004 theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu (Trang 36)
Bảng 1.8 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Baomoi theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 1.8 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Baomoi theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu (Trang 37)
Bảng 1.9 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Corpus_TMV theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 1.9 là cỏc thụng tin thống kờ túm tắt của bộ dữ liệu Corpus_TMV theo số lượng cõu và số lượng từ trờn toàn bộ bộ dữ liệu (Trang 38)
Bảng 1.9. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Corpus_TMV - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 1.9. Thống kờ cỏc thụng tin túm tắt của bộ dữ liệu Corpus_TMV (Trang 38)
Bảng 3.19. So sỏnh đỏnh giỏ thời gian thực hiện của 3 mụ hỡnh đề xuất - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 3.19. So sỏnh đỏnh giỏ thời gian thực hiện của 3 mụ hỡnh đề xuất (Trang 93)
Bảng 4.1. Kết quả thử nghiệm của cỏc mụ hỡnh trờn bộ dữ liệu CNN/Daily Mail. Ký hiệu ‘(*)’ là mụ hỡnh của See và cộng sự [43] - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 4.1. Kết quả thử nghiệm của cỏc mụ hỡnh trờn bộ dữ liệu CNN/Daily Mail. Ký hiệu ‘(*)’ là mụ hỡnh của See và cộng sự [43] (Trang 104)
Bảng 4.1 dưới đõy biểu diễn cỏc kết quả thử nghiệm trờn bộ dữ liệu CNN/Daily Mail. Cỏc độ đo R-1, R-2 và R-L được sử dụng để đỏnh giỏ và so sỏnh hiệu quả của  cỏc mụ hỡnh - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 4.1 dưới đõy biểu diễn cỏc kết quả thử nghiệm trờn bộ dữ liệu CNN/Daily Mail. Cỏc độ đo R-1, R-2 và R-L được sử dụng để đỏnh giỏ và so sỏnh hiệu quả của cỏc mụ hỡnh (Trang 104)
Bảng 5.1 dưới đõy trỡnh bày giỏ trị của cỏc tham số sử dụng khi thử nghiệm cỏc mụ hỡnh trờn 2 bộ dữ liệu tương ứng - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 5.1 dưới đõy trỡnh bày giỏ trị của cỏc tham số sử dụng khi thử nghiệm cỏc mụ hỡnh trờn 2 bộ dữ liệu tương ứng (Trang 118)
Bảng 5.3 chỉ ra rằng cỏc phương phỏp LSA và LDA khụng tốt bằng kỹ thuật phõn cụm K-means trong nhiệm vụ túm tắt đa văn bản - (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Bảng 5.3 chỉ ra rằng cỏc phương phỏp LSA và LDA khụng tốt bằng kỹ thuật phõn cụm K-means trong nhiệm vụ túm tắt đa văn bản (Trang 120)

🧩 Sản phẩm bạn có thể quan tâm