1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

181 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu, Phát Triển Một Số Phương Pháp Tóm Tắt Văn Bản Sử Dụng Kĩ Thuật Học Sâu
Tác giả Lưu Minh Tuấn
Người hướng dẫn PGS. TS. Lê Thanh Hùng, PGS. TS. Nguyễn Bình Minh
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận án
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 181
Dung lượng 6,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANHăM CăCÁCăB NGB ng 1.1.. So sánh và đánh giá hi u qu các ph ng pháp... DANHăM CăCÁCăHỊNHăV ,ă ăTH Hình 1.1.. Scaled Dot-Product Attention và Multi-Head Attention [97] ..... Iraqis fin

Trang 1

L IăCAMă OAN

Tôi tên là L u Minh Tu n, xin cam đoan đơy lƠ công trình nghiên c u c a b n thơn nghiên c u sinh trong th i gian h c t p vƠ nghiên c u d i s h ng d n c a

ng i h ng d n khoa h c Các k t qu nghiên c u trình bƠy trong lu n án lƠ trung

th c, chính xác vƠ ch a t ng đ c công b trong b t k công trình nƠo khác Các

k t qu nghiên c u vi t chung v i các tác gi khác đ u đ c s đ ng ý c a đ ng tác

gi tr c khi đ a vƠo lu n án Các k t qu s d ng đ tham kh o đ u đ c trích d n

đ y đ vƠ theo đúng quy đ nh

Hà N i, ngày tháng n m 2022

Nghiên c u sinh

L u Minh Tu n

NG I H NG D N KHOA H C

Trang 2

L IăC Mă Nă

Trong quá trình h c t p và nghiên c u, nghiên c u sinh đư nh n đ c nhi u s giúp đ vƠ ý ki n đóng góp quý báu c a các th y cô L i đ u tiên, nghiên c u sinh xin đ c bƠy t lòng kính tr ng vƠ bi t n sơu s c t i PGS TS Lê Thanh H ng -

ng i h ng d n khoa h c đư t n tình ch b o, h ng d n đ nghiên c u sinh có th hoàn thành đ c lu n án nƠy Nghiên c u sinh xin g i l i c m n chân thành t i PGS TS Nguy n Bình Minh v nh ng ý ki n đóng góp quý báu trong nh ng bu i

xê mi na khoa h c nhi u gian nan trong su t th i gian nghiên c u và hoàn thành

lu n án Nghiên c u sinh xin g i l i c m n đ n các th y cô c a B môn H th ng thông tin, Vi n Công ngh thông tin vƠ truy n thông, Phòng đƠo t o, Tr ng i

h c Bách khoa HƠ N i, n i nghiên c u sinh h c t p vƠ nghiên c u đư t o đi u ki n

t t nh t có th cho nghiên c u sinh trong su t th i gian h c t p vƠ nghiên c u đ nghiên c u sinh có th hoƠn thƠnh lu n án ti n s m t cách t t nh t Xin c m n Ban giám hi u Tr ng i h c Kinh t Qu c dơn, Ban Lưnh đ o Vi n Công ngh thông tin vƠ Kinh t s , các th y cô B môn Công ngh thông tin - n i nghiên c u sinh công tác vƠ các đ ng nghi p đư luôn quan tơm giúp đ , t o đi u ki n t t nh t đ nghiên c u sinh có th hoàn thành t t k ho ch h c t p vƠ nghiên c u c a mình L i

cu i, nghiên c u sinh xin chơn thƠnh c m n các thƠnh viên trong gia đình, ng i thơn, b n bè đư dành cho nghiên c u sinh nh ng tình c m t t đ p, luôn đ ng viên, giúp đ nghiên c u sinh v t qua nh ng khó kh n trong quá trình h c t p vƠ nghiên

c u đ đ t đ c k t qu nh ngày hôm nay ơy c ng lƠ món quƠ tinh th n mƠ nghiên c u sinh trơn tr ng g i t ng đ n các thƠnh viên trong gia đình vƠ ng i thơn

M t l n n a nghiên c u sinh xin chơn thƠnh c m n!

Trang 3

M CăL C

DANH M C CÁC KÝ HI U VÀ CH VI T T T iv

DANH M C CÁC B NG vi

DANH M C CÁC HÌNH V , TH ix

DANH M C KÝ HI U TOÁN H C xi

M U 1

Ch ng 1 T NG QUAN V TÓM T T V N B N 11

1.1 Gi i thi u v tóm t t v n b n 11

1.1.1 Gi i thi u bƠi toán tóm t t v n b n 11

1.1.2 Phơn lo i bƠi toán tóm t t v n b n 12

1.1.3 Các b c th c hi n trong tóm t t v n b n 13

1.1.4 M t s đ c tr ng c a v n b n 13

1.2 M t s ph ng pháp đánh giá v n b n tóm t t t đ ng 14

1.2.1 Ph ng pháp d a trên đ t ng t v n i dung 14

1.2.2 Ph ng pháp d a trên đ t ng quan phù h p 14

1.2.3 Ph ng pháp ROUGE 15

1.3 Các ph ng pháp k t h p v n b n trong tóm t t đa v n b n 18

1.4 Các ph ng pháp tóm t t v n b n h ng trích rút c s 20

1.4.1 PageRank 20

1.4.2 TextRank 20

1.4.3 LexRank 20

1.4.4 Lead-Based 21

1.5 Các b d li u th nghi m 21

1.5.1 Các b d li u v n b n ti ng Anh 21

1.5.2 Các b d li u v n b n ti ng Vi t 24

1.6 K t lu n ch ng 1 25

Ch ng 2 CÁC KI N TH C N N T NG 27

2.1 Các k thu t h c sâu c s 27

2.1.1 M ng Perceptron nhi u l p 27

2.1.2 M ng n ron tích ch p 28

2.1.3 M ng n ron h i quy 30

2.1.4 Các bi n th c a RNN 31

2.1.5 Mô hình chu i sang chu i c b n 35

2.1.6 C ch chú ý 36

2.1.7 C ch t chú ý vƠ mô hình Transformer 39

2.2 Các mô hình ngôn ng d a trên h c sâu đ c hu n luy n tr c 42

2.2.1 Mư hóa t 42

Trang 4

2.2.2 Ph ng pháp Word2Vec 42

2.2.3 Mô hình BERT 44

2.2.4 Các phiên b n ch y u c a mô hình BERT 47

2.3 K thu t h c t ng c ng Q-Learning 49

2.3.1 H c t ng c ng Q-Learning 49

2.3.2 Thu t toán h c t ng c ng Deep Q-Learning 50

2.4 Tìm ki m Beam 51

2.5 Ph ng pháp đ liên quan c n biên t i đa 51

2.6 K t lu n ch ng 2 53

Ch ng 3 PHÁT TRI N CÁC PH NG PHÁP TÓM T T N V N B N H NG TRÍCH RÚT 54

3.1 Gi i thi u bài toán và h ng ti p c n 54

3.2 Mô hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_MLP_ESDS 56

3.2.1 Gi i thi u mô hình 56

3.2.2 Mô hình tóm t t v n b n đ xu t 56

3.2.3 Th nghi m mô hình 59

3.2.4 ánh giá vƠ so sánh k t qu 63

3.3 Mô hình tóm t t đ n v n b n h ng trích rút mBERT_CNN_ESDS 64

3.3.1 Gi i thi u mô hình 64

3.3.2 Mô hình tóm t t v n b n đ xu t 64

3.3.3 Th nghi m mô hình 67

3.3.4 ánh giá vƠ so sánh k t qu 71

3.4 Mô hình tóm t t đ n v n b n h ng trích rút mBERT-Tiny_ seq2seq_DeepQL_ESDS 71

3.4.1 Gi i thi u mô hình 71

3.4.2 Mô hình tóm t t v n b n đ xu t 72

3.4.3 Hu n luy n mô hình v i k thu t h c t ng c ng 74

3.4.4 Th nghi m mô hình 75

3.4.5 ánh giá vƠ so sánh k t qu 78

3.5 So sánh đánh giá ba mô hình tóm t t đ n v n b n h ng trích rút đ xu t 79

3.6 K t lu n ch ng 3 80

Ch ng 4 PHÁT TRI N PH NG PHÁP TÓM T T N V N B N H NG TÓM L C 82

4.1 Gi i thi u bài toán và h ng ti p c n 82

4.2 Mô hình tóm t t c s 84

4.2.1 Mô hình seq2seq c a mô hình 84

Trang 5

4.2.2 C ch chú ý áp d ng trong mô hình 85

4.2.3 M ng sao chép t - sinh t 86

4.2.4 C ch bao ph 87

4.3 Mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS 87 4.3.1 Các đ c tr ng đ xu t thêm m i cho mô hình 88

4.3.2 Mô hình tóm t t đ n v n b n h ng tóm l c đ xu t 89

4.4 Th nghi m mô hình 89

4.4.1 Các b d li u th nghi m 89

4.4.2 Ti n x lý d li u 90

4.4.3 Thi t k th nghi m 90

4.5 ánh giá và so sánh k t qu 91

4.6 K t lu n ch ng 4 93

Ch ng 5 PHÁT TRI N CÁC PH NG PHÁP TÓM T T A V N B N 94 5.1 Gi i thi u bài toán tóm t t đa v n b n và h ng ti p c n 94

5.2 Mô hình tóm t t đa v n b n h ng trích rút Kmeans_Centroid_EMDS 95

5.2.1 Gi i thi u mô hình 95

5.2.2 Các thƠnh ph n chính c a mô hình 96

5.2.3 Mô hình tóm t t đa v n b n đ xu t 100

5.2.4 Th nghi m mô hình vƠ k t qu 104

5.2.5 So sánh vƠ đánh giá k t qu 107

5.3 Các mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình tóm t t đ n v n b n đ c hu n luy n tr c 110

5.3.1 t v n đ 110

5.3.2 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình tóm t t đ n v n b n h ng tóm l c đ c hu n luy n tr c PG_Feature_AMDS 110 5.3.3 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình tóm t t đ n v n b n h n h p đ c hu n luy n tr c Ext_Abs_AMDS-mds-mmr 121 5.4 K t lu n ch ng 5 132

K T LU N 133

DANH M C CÁC CÔNG TRÌNH Ã CÔNG B 136

TÀI LI U THAM KH O 137

PH L C 1

Ph l c A: V n b n ngu n c a các v n b n tóm t t ví d 1

Ph l c B: Bi u đ phân b c a các b d li u th nghi m 3

Ph l c C: V n b n ngu n c a các m u tóm t t th nghi m 9

Trang 6

DANHăM CăCÁCăKụăHI UăVÀăCH ăVI TăT T

AMDS Abstractive Multi-Document

Summarization

Tóm t t đa v n b n h ng tóm l c

ASDS Abstractive Single-Document

Summarization

Tóm t t đ n v n b n h ng tóm l c

BERT Bidirectional Encoder Representation

from Transformers

Mô hình bi u di n mư hóa hai chi u t Transformer

biGRU Bidirectional Gated Recurrent Unit M ng GRU 2 chi u

biLSTM Bidirectional Long Short Term

Memory

M ng LSTM 2 chi u

BPTT Backpropagation Through Time Thu t toán lan truy n ng c

liên h i CNN Covolutional Neural Network M ng n ron tích ch p

DeepQL Deep Q-Learning Thu t toán h c t ng c ng

d a trên m ng n ron sơu

Summarization

Tóm t t đa v n b n h ng trích rút

ESDS Extractive Single-Document

Summarization

Tóm t t đ n v n b n h ng trích rút

GLUE General Language Understanding

Evaluation

ánh giá hi u ngôn ng chung

GRU Gated Recurrent Unit Mô hình đ n v h i quy có

ki m soát 1 chi u ILP Interger Linear Programming Quy ho ch tuy n tính

nguyên

LCS Longest Common Subsequence Dưy con chung l n nh t LDA Latent Dirichlet Allocation Mô hình ch đ n

LSA Latent Semantic Analysis Phơn tích ng ngh a ti m n LSTM Long Short Term Memory Mô hình m ng b nh ng n

h n dƠi h n 1 chi u

mds multi-document summaryzation Tóm t t đa v n b n

MLP Multi Layer Perceptron M ng Perceptron nhi u l p MMR Maximal Marginal Relevance liên quan c n biên t i đa NLP Natural Language Processing X lý ngôn ng t nhiên

Trang 7

OOV Out Of Vocabulary Không có trong b t v ng

RNN Recurent Neural Network M ng n ron h i quy

h tr cho ti ng Anh ROUGE Recall-Oriented Understudy for

Gisting Evaluation

đo Rouge

seq2seq Sequence to sequence Mô hình chu i sang chu i SQuAD Stanford Question Answering Dataset B d li u h i đáp c a

Stanford SVM Support Vector Machine Mô hình máy véc t h tr TF-IDF Term Frequency – Inverse Document

Frequency

Tr ng s c a t (m c đ quan tr ng c a t ) trong v n

Trang 8

DANHăM CăCÁCăB NG

B ng 1.1 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Anh 12

B ng 1.2 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Vi t 12

B ng 1.3 Ph ng pháp phân chia b d li u CNN/Daily Mail 21

B ng 1.4 Th ng kê các thông tin c a hai b d li u CNN và Daily Mail 22

B ng 1.5 Th ng kê các thông tin tóm t t c a b d li u DUC 2001 và DUC 2002 s d ng cho tóm t t đ n v n b n 22

B ng 1.6 Th ng kê các thông tin tóm t t c a b d li u DUC 2004 23

B ng 1.7 Th ng kê các thông tin tóm t t c a t p d li u Main task c a b d li u DUC 2007 23

B ng 1.8 Th ng kê các thông tin tóm t t c a b d li u Baomoi 24

B ng 1.9 Th ng kê các thông tin tóm t t c a b d li u Corpus_TMV 25

B ng 1.10 Th ng kê các thông tin tóm t t c a b d li u ViMs 25

B ng 3.1 K t qu th nghi m m t s ph ng pháp tóm t t v n b n c s Ký hi u ‘*’ th hi n ph ng pháp đ c tri n khai th nghi m trên các b d li u t ng ng 60

B ng 3.2 Giá tr các siêu tham s và th i gian hu n luy n các mô hình xây d ng 61 B ng 3.3 K t qu th nghi m c a các mô hình xây d ng Ký hi u ‘-’ bi u di n mô hình mà lu n án không th nghi m trên b d li u t ng ng 61

B ng 3.4 M t m u tóm t t trên b d li u CNN 62

B ng 3.5 M t m u tóm t t trên b d li u Baomoi 63

B ng 3.6 So sánh và đánh giá hi u qu các ph ng pháp Ký hi u ‘*’,‘-’ bi u di n các ph ng pháp đ c th nghi m, không đ c th nghi m trên các b d li u t ng ng 63

B ng 3.7 Các k t qu th nghi m c a các mô hình xây d ng 69

B ng 3.8 K t qu th nghi m các ph ng pháp trên b d li u DUC 2001 và DUC 2002 Ký hi u ‘*’, ‘-’ bi u di n các ph ng pháp đ c th nghi m, không đ c th nghi m trên các b d li u t ng ng 69

B ng 3.9 M t m u tóm t t trên b d li u CNN 70

B ng 3.10 M t m u tóm t t trên b d li u Baomoi 70

B ng 3.11 So sáng và đánh giá hi u qu c a các ph ng pháp Ký hi u ‘*’, ‘-’ bi u di n các ph ng pháp đ c th nghi m, không đ c th nghi m trên các b d li u t ng ng 71

B ng 3.12 B ng giá tr các siêu tham s cài đ t cho mô hình hu n luy n v i k thu t h c t ng c ng Deep Q-Learning 74

Trang 9

B ng 3.13 Giá tr các siêu tham s và th i gian hu n luy n các mô hình xây d ng

76

B ng 3.14 K t qu th nghi m c a các mô hình xây d ng 77

B ng 3.15 M t m u tóm t t trên b d li u CNN 77

B ng 3.16 M t m u tóm t t trên b d li u Baomoi 78

B ng 3.17 So sánh và đánh giá k t qu các ph ng pháp 78

B ng 3.18 So sánh đánh giá đ chính xác c a 3 mô hình đ xu t 79

B ng 3.19 So sánh đánh giá th i gian th c hi n c a 3 mô hình đ xu t 80

B ng 4.1 K t qu th nghi m c a các mô hình trên b d li u CNN/Daily Mail Ký hi u ‘(*)’ là mô hình c a See và c ng s [43] 91

B ng 4.2 K t qu th nghi m c a các mô hình trên b d li u Baomoi Ký hi u ‘(*)’ là mô hình c a See và c ng s [43] 91

B ng 4.3 M u tóm t t g m b n tóm t t tham chi u, b n tóm t t c a mô hình trong [43] và b n tóm t t c a mô hình đ xu t trên b d li u CNN/Daily Mail 92

B ng 4.4 M u tóm t t g m b n tóm t t tham chi u, b n tóm t t c a mô hình trong [43] và b n tóm t t c a mô hình đ xu t trên b d li u Baomoi 93

B ng 5.1 Giá tr c a các tham s s d ng khi th nghi m các mô hình Ký hi u ‘-‘ bi u di n mô hình không s d ng các tham s t ng ng 105

B ng 5.2 K t qu th nghi m các mô hình xây d ng trên hai b d li u 106

B ng 5.3 K t qu th nghi m các ph ng pháp tóm t t trên b d li u DUC 2007 106

B ng 5.4 So sánh và đánh giá k t qu c a các ph ng pháp Ký hi u ‘-’ bi u di n các ph ng pháp không đ c th nghi m trên b d li u t ng ng 107

B ng 5.5 Các m u tóm t t c a c m D0716D trong b d li u DUC 2007 c a mô hình đ xu t và con ng i 109

B ng 5.6 Các m u tóm t t c a c m Cluster_2 trong b d li u Corpus_TMV c a mô hình đ xu t và con ng i 109

B ng 5.6 Giá tr các siêu tham s và th i gian hu n luy n mô hình Warmup là quá trình hu n luy n ban đ u v i t l h c nh đ hi u ch nh c ch chú ý 118

B ng 5.7 K t qu th nghi m c a các mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS trên các b d li u CNN và Baomoi 118

B ng 5.8 K t qu th nghi m mô hình PG_Feature_AMDS trên b DUC 2004 và Corpus_TMV s d ng mô hình PG_Feature_ASDS ch a đ c hu n luy n ti p trên b DUC 2007 và b ViMs t ng ng 118

B ng 5.9 K t qu th nghi m mô hình PG_Feature_AMDS trên b DUC 2004 và Corpus_TMV s d ng mô hình PG_Feature_ASDS đã đ c hu n luy n ti p trên b DUC 2007 và b ViMs t ng ng 119

B ng 5.10 M t m u th nghi m trên b d li u DUC 2004 119

Trang 10

B ng 5.11 M t m u th nghi m trên b d li u Corpus_TMV 120

B ng 5.12 So sáng và đánh giá k t qu c a các ph ng pháp Ký hi u ‘-’ bi u di n các ph ng pháp không đ c th nghi m trên các b d li u t ng ng 120

B ng 5.13 Giá tr các siêu tham s và th i gian hu n luy n các mô hình 128

B ng 5.14 K t qu th nghi m c a các mô hình tóm t t đ n v n b n trên các b d

li u CNN/Daily Mail và Baomoi 129

B ng 5.15 K t qu th nghi m các mô hình xây d ng trên b d li u DUC 2004 và

Corpus_TMV 129

B ng 5.16 M t m u th nghi m trên b d li u DUC 2004 130

B ng 5.17 M t m u th nghi m trên b d li u Corpus_TMV 131

B ng 5.18 So sáng và đánh giá k t qu c a các ph ng pháp Ký hi u ‘-’ bi u di n các ph ng pháp không đ c th nghi m trên các b d li u t ng ng 131

Trang 11

DANHăM CăCÁCăHỊNHăV ,ă ăTH

Hình 1.1 Các b c th c hi n trong tóm t t v n b n 13

Hình 1.2 Ph ng pháp x lý tóm t t t ng đ n v n b n trong tóm t t đa v n b n 19

Hình 2.1 Mô hình m ng MLP m t l p n vƠ nhi u l p n [79] 27

Hình 2.2 M t ki n trúc CNN cho bƠi toán phơn lo i nh [84] 28

Hình 2.3 Tính toán v i ph ng th c Average Pooling vƠ Max Pooling [82] 29

Hình 2.4 Mô hình m ng n ron h i quy [87] 30

Hình 2.5 Ki n trúc t ng quan m t t bƠo nh LSTM (ngu n: [Internet]) 31

Hình 2.6 Chi ti t t bƠo nh LSTM [91] 32

Hình 2.7 Ki n trúc t ng quan c a m ng biLSTM [88] 33

Hình 2.8 Minh h a biLSTM 3 b c (t-1), t và (t+1) [91] 34

Hình 2.9 Chi ti t t bƠo nh GRU [89] 35

Hình 2.10 Mô hình m ng chu i sang chu i [92] 36

Hình 2.11 Mô hình minh h a c ch chú ý sinh t m c tiêu yt t cơu ngu n 1 2 ( ,x x, )xT [93] 37

Hình 2.12 Mô hình Transformer [97] 40

Hình 2.13 Scaled Dot-Product Attention và Multi-Head Attention [97] 41

Hình 2.14 Mô hình CBoW v i m t t lƠm ng c nh đ d đoán t ti p theo [101] 42

Hình 2.15 Mô hình CBoW v i nhi u t lƠm ng c nh đ d đoán t ti p theo [101] 43

Hình 2.16 Mô hình Skip-Gram [101] 43

Hình 2.17 Ki n trúc mô hình BERT [102] 44

Hình 2.18 Bi u di n đ u vƠo c a mô hình BERT [102] 45

Hình 2.19 Mô hình bi u di n các b c ch ng c t đ c hu n luy n tr c c a các mô hình BERT thu nh [111] 49

Hình 2.20 Mô hình h c t ng c ng 49

Hình 3.1 Khung x lý chung cho các mô hình tóm t t đ n v n b n h ng trích rút đ xu t 55

Hình 3.2 Mô hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_MLP_ESDS 57

Hình 3.3 Ki n trúc m ng MLP đ xu t c a mô hình 58

Hình 3.4 Mô hình tóm t t v n b n h ng trích rút mBERT_CNN_ESDS 64

Trang 12

Hình 3.5 Ki n trúc l p Convolution v i k-Max Pooling (k = 2) 66Hình 3.6 Ki n trúc mô hình Encoder-Decoder đ xu t 66Hình 3.7 Mô hình tóm t t v n b n h ng trích rút mBERT-Tiny_seq2seq_DeepQL_ESDS 72Hình 3.8 Mô hình hu n luy n v i k thu t h c t ng c ng Deep Q-Learning 75Hình 4.1 Mô hình tóm t t đ n v n b n h ng tóm l c c s [128] 84Hình 4.2 Mô hình tóm t t đ n v n b n h ng tóm l c đ xu t PG_Feature_ASDS 89Hình 5.1 Mô hình s d ng thu t toán phơn c m K-means k t h p v trí t ng đ i

c a cơu 100Hình 5.2 Mô hình s d ng thu t toán phơn c m K-means k t h p v trí cơu 101Hình 5.3 Mô hình s d ng thu t toán phơn c m K-means k t h p MMR vƠ v trí câu 102Hình 5.4 Mô hình s d ng thu t toán phơn c m K-means k t h p Centroid-based, MMR vƠ v trí cơu 103Hình 5.5 Mô hình tóm t t đa v n b n h ng trích rút đ xu t Kmeans_Centroid_EMDS 104Hình 5.6 Minh h a ph ng pháp PG-MMR (k=2) [147] 113Hình 5.7 Mô hình tóm t t đa v n b n h ng tóm l c đ xu t PG_Feature_AMDS 114Hình 5.8 Các giai đo n hu n luy n mô hình tóm t t đa v n b n h ng tóm l c đ

xu t PG_Feature_AMDS 116Hình 5.9 Mô hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_CNN_ESDS 122Hình 5.10 Mô hình tóm t t đ n v n b n h ng tóm l c PG_TF-IDF_ASDS 123Hình 5.11 Mô hình tóm t t đ n v n b n h n h p Ext_Abs_ASDS 124Hình 5.12 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình pre-trained Ext_Abs_ASDS đ xu t (MMR áp d ng trên t ng v n b n) 124Hình 5.13 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình pre-trained Ext_Abs_ASDS v i ph ng pháp MMR áp d ng trên t p đa v n b n 125Hình 5.14 Các giai đo n hu n luy n mô hình tóm t t đa v n b n h ng tóm l c đ

xu t Ext_Abs_AMDS-mds-mmr 126

Trang 13

DANHăM CăKụăHI UăTOÁNăH C

AT Ma tr n chuy n v c a ma tr n A

A-1 Ma tr n ngh ch đ o c a ma tr n A [A; B] Ghép 2 ma tr n A vƠ ma tr n B

Trang 14

M ă U

1 B i c nh nghiên c u

Trong k nguyên s vƠ m ng Internet phát tri n m nh m nh hi n nay, các tƠi nguyên trên internet nh các trang web, đánh giá c a ng i dùng, tin t c, blog,

m ng xư h i, lƠ nh ng ngu n d li u v n b n to l n Bên c nh đó, có m t kh i

l ng n i dung v n b n phong phú khác trên các kho l u tr nh các bài báo tin

t c, ti u thuy t, sách, v n b n pháp lu t, tƠi li u y sinh, bƠi báo khoa h c, Các n i dung v n b n này t ng lên theo c p s nhơn hƠng ngƠy Do đó, ng i dùng m t r t nhi u th i gian đ tìm ki m thông tin mà mình mong mu n K t qu lƠ ng i dùng

th m chí không th đ c vƠ hi u h t đ c t t c n i dung v n b n k t qu tìm ki m

Có nhi u thông tin b l p l i ho c không quan tr ng trong các v n b n k t qu tìm

ki m Do đó, vi c tóm t t vƠ cô đ ng các ngu n v n b n tr nên c p thi t vƠ quan

tr ng h n r t nhi u Tóm t t v n b n th công lƠ m t nhi m v t n kém vƠ tiêu t n nhi u th i gian vƠ công s c c a con ng i Trên th c t , con ng i c ng r t khó tóm t t th công v i l ng d li u v n b n kh ng l nƠy [1] gi i quy t các v n

đ nƠy, các ph ng pháp tóm t t v n b n t đ ng đ c quan tơm nghiên c u đ phát tri n các h th ng tóm t t v n b n t đ ng

M c tiêu chính c a các h th ng tóm t t v n b n t đ ng lƠ t o ra b n tóm t t bao

g m các ý chính c a m t v n b n ho c nhi u v n b n đ u vƠo vƠ thông tin l p l i ít

nh t [2,3] Các h th ng tóm t t v n b n t đ ng sinh ra các b n tóm t t giúp ng i dùng n m đ c nh ng đi m chính c a v n b n g c mƠ không c n ph i đ c toƠn b

v n b n Ng i dùng s đ c h ng l i t các b n tóm t t đ c sinh ra t đ ng, ti t

ki m đ c nhi u th i gian vƠ công s c

Các h th ng tóm t t v n b n t đ ng hi n nay có th đ c chia thƠnh hai lo i lƠ tóm t t đ n v n b n vƠ tóm t t đa v n b n Tóm t t đ n v n b n sinh ra b n tóm t t

t m t v n b n đ u vƠo, trong khi tóm t t đa v n b n sinh ra b n tóm t t t m t t p các v n b n đ u vƠo Các h th ng tóm t t v n b n t đ ng này đ c phát tri n

b ng vi c áp d ng m t trong các ph ng pháp ti p c n ch y u lƠ tóm t t v n b n

h ng trích rút vƠ tóm t t v n b n h ng tóm l c

 Tóm t t v n b n h ng trích rút: LƠ ph ng pháp l a ch n nh ng câu quan

tr ng nh t trong m t v n b n ngu n (ho c m t t p v n b n ngu n) và s d ng các cơu nƠy đ sinh b n tóm t t Ph ng pháp nƠy bao g m các nhi m v x lý chính

nh : T o m t bi u di n thích h p cho v n b n đ u vào, cho đi m các câu, trích rút các câu có đi m cao Các h th ng tóm t t v n b n h ng trích rút có th chia thành các ph ng pháp ch y u sau:

 Ph ng pháp d a trên th ng kê: Trích rút các câu và các t quan tr ng t v n

b n ngu n d a trên phân tích th ng kê c a t p các đ c tr ng Các h th ng d a trên

ph ng pháp th ng kê [4,5] th c hi n cho đi m câu b ng cách ch n và tính toán

m t s đ c tr ng th ng kê, sau đó gán các tr ng s cho chúng vƠ gán đi m cu i cùng cho m i cơu trong v n b n đ c xác đ nh b i bi u th c tr ng s - đ c tr ng (ngh a lƠ t t c đi m c a các đ c tr ng đư ch n đ c tính toán và tính t ng đ thu

Trang 15

đ c đi m c a m i câu) Bên c nh đó, h th ng Lead [6] ch n các cơu đ a vƠo b n tóm t t d a vào trình t th i gian đư cho k t qu khá cao

 Ph ng pháp d a trên khái ni m: Trích xu t các khái ni m t m t đo n v n

b n t các c s tri th c bên ngoƠi nh WordNet [7], Wikipedia, Sau đó, đ quan

tr ng c a các cơu đ c xác đ nh d a trên các khái ni m đ c l y t c s tri th c bên ngoài thay vì các t Các h th ng này th c hi n cho đi m các câu b ng cách trích xu t các khái ni m c a m t v n b n t c s tri th c bên ngoài, xây d ng m t véc t khái ni m ho c mô hình đ th đ ch ra m i quan h gi a khái ni m và câu

r i áp d ng m t thu t toán x p h ng đ cho đi m các câu nh trong [8]

 Ph ng pháp d a trên ch đ : Ph ng pháp nƠy d a vào vi c xác đ nh ch đ chính c a v n b n Có m t s ph ng pháp bi u di n ch đ ph bi n là ph ng pháp d a trên t ch đ , t n su t xu t hi n c a t (TF), tr ng s th hi n m c đ quan tr ng c a t (TF-IDF), chu i t v ng [9,10] Các b c x lý chung c a các h

th ng tóm t t trích rút d a trên ch đ bao g m chuy n đ i v n b n đ u vào thành

m t bi u di n trung gian, n m b t các ch đ đư đ c p trong v n b n đ u vào và gán đi m m c đ quan tr ng cho m i câu trong v n b n đ u vào theo bi u di n c a

 Ph ng pháp d a trên tr ng tâm hay phân c m cơu: Trong ph ng pháp nƠy,

h th ng tóm t t trích rút đa v n b n xác đ nh các câu tr ng tâm và quan tr ng nh t trong m t c m sao cho chúng ch a các thông tin quan tr ng liên quan đ n c m ch

đ chính [11,12,13] Tr ng tâm c a cơu đ c xác đ nh b ng cách s d ng tr ng tâm

c a các t Cách ph bi n đ xác đ nh tr ng tâm c a t là tìm tâm c a c m v n b n trong không gian véc t Tr ng tâm c a m t c m bao g m các t có đi m tr ng s TF-IDF l n h n m t giá tr ng ng xác đ nh tr c

 Ph ng pháp d a trên đ th : Ph ng pháp nƠy s d ng đ th d a trên cơu đ

bi u di n m t v n b n ho c c m v n b n Ph ng pháp bi u di n này đư đ c s

d ng ph bi n cho các h th ng tóm t t trích rút nh : LexRank [11], TextRank [14] Trong h th ng LexRank [11], các cơu đ c cho đi m b ng cách bi u di n các câu

c a v n b n s d ng m t đ th vô h ng sao cho m i nút trong đ th bi u di n

m t câu t v n b n đ u vào, tr ng s c a c nh k t n i lƠ đ t ng t ng ngh a gi a hai cơu t ng ng (s d ng đ t ng t cosine) và s d ng m t thu t toán x p h ng

đ xác đ nh đ quan tr ng c a t ng cơu Các cơu đ c x p h ng d a trên đi m LexRank gi ng nh thu t toán PageRank [15] ch khác là đ th LexRank là đ th

 Ph ng pháp d a trên h c máy: Ph ng pháp nƠy chuy n bài toán tóm t t v n

b n thành bài toán phân lo i v n b n có giám sát H th ng h c b i các m u h c đ phân lo i m t câu c a v n b n đánh giá thu c v l p “đ c ch n” ho c l p “không

đ c ch n” s d ng m t t p các v n b n hu n luy n (t p các v n b n và các b n tóm t t tham chi u t ng ng do con ng i t o ra) Trong các h th ng tóm t t d a

Trang 16

trên h c máy [18,19,20], các b c th c hi n cho đi m câu bao g m: trích xu t các

đ c tr ng t v n b n đã ti n x lý vƠ đ a các đ c tr ng đư trích xu t vào m t m ng

n ron đ nh n đ c đi m đ u ra

 Ph ng pháp d a trên h c sâu: Trong [21], Kobayashi và c ng s đ xu t m t

h th ng tóm t t s d ng đ t ng t m c v n b n d a trên các mã hóa t (ngh a lƠ các bi u di n phân b c a t ) Mã hóa c a m t t bi u di n ý ngh a c a nó M t v n

b n đ c coi nh m t “túi câu” và m t cơu đ c coi nh m t “túi t ” Nhi m v

đ c c th hóa nh bƠi toán t i đa hóa m t hàm đ c xác đ nh b i t ng âm c a các kho ng cách lân c n g n nh t trên các phân b mã hóa (t c là m t t p các mã hóa t trong m t v n b n) Kobayashi và c ng s ch ra r ng đ t ng t m c v n b n có

th xác đ nh nh ng ngh a ph c t p h n đ t ng t m c câu Chen và Nguyen [22]

đư đ xu t m t h th ng tóm t t v n b n t đ ng s d ng k thu t h c t ng c ng

và mô hình chu i sang chu i v i ki n trúc b mã hóa - gi i mã s d ng m ng n ron h i quy Các đ c tr ng quan tr ng đ c ch n b ng k thu t mã hóa m c câu sau đó các cơu tóm t t đ c trích rút Bên c nh đó, ph i k đ n m t s h th ng nh [23,24,25,26,27], các h th ng này đư s d ng các k thu t h c sâu hi u qu đ t o

b n tóm t t cu i cùng

Các h th ng tóm t t h ng trích rút này có u đi m lƠ th c thi đ n gi n, nhanh

vƠ cho đ chính xác cao vì ph ng pháp nƠy th c hi n trích rút tr c ti p các cơu đ

ng i đ c có th đ c b n tóm t t v i các thu t ng chính xác có trong v n b n g c Tuy nhiên, ph ng pháp c n này có nh ng h n ch c n c n quan tâm nh : V n đ

d th a thông tin trong m t s cơu tóm t t, các cơu đ c trích rút có th dƠi h n

m c trung bình, v n đ xung đ t v th i gian trong bài toán tóm t t đa v n b n vì các b n tóm t t trích rút đ c ch n t nhi u v n b n đ u vƠo khác nhau, thi u ng ngh a vƠ tính liên k t trong các cơu tóm t t vì liên k t không chính xác gi a các cơu

l c có th bao g m các nhi m v x lý chính sau: Bi u di n ng ngh a v n b n và

s d ng các k thu t sinh ngôn ng t nhiên đ sinh b n tóm t t g n v i các b n tóm t t c a con ng i t o ra [31] Các nghiên c u theo ph ng pháp ti p c n này có

th chia thành các lo i chính sau:

 Ph ng pháp d a trên c u trúc: Ph ng pháp nƠy s d ng c u trúc đ c xác

đ nh tr c nh đ th , cây, lu t, m u,… đ phát tri n h th ng tóm t t tóm l c Các

h th ng tóm t t tóm l c s d ng c u trúc đ th đ c đ xu t nh [32,33,34,35], trong các h th ng này m i nút bi u di n cho m t t và thông tin v trí đ c liên k t

v i các nút Các cung có h ng bi u di n c u trúc c a câu Các h th ng d a trên

c u trúc cơy xác đ nh các cơu t ng t nhau, sau đó d a trên các cơu nƠy đ sinh

b n tóm t t tóm l c Các cơu đ c bi u di n thành m t c u trúc gi ng nh c u trúc cây, s d ng b phơn tích cú pháp đ xây d ng cây ph thu c là các bi u di n d ng cây s d ng nhi u cho v n b n Sau đó, m t s nhi m v đ c th c hi n đ x lý cơy nh t a cây, chuy n đ i cây thành d ng chu i, đ sinh b n tóm t t cu i cùng Kurisinkel và c ng s [36] đ xu t m t h th ng tóm t t đa v n b n tóm l c d a

Trang 17

trên phơn tích cú pháp v n b n đ u vƠo đ xây d ng m t t p g m t t c các cây ph thu c cú pháp Trong khi đó, h th ng d a trên lu t [37] yêu c u xác đ nh các lu t

đ phát hi n các khái ni m quan tr ng trong v n b n đ u vƠo, sau đó s d ng các khái ni m nƠy đ sinh ra b n tóm t t

 Ph ng pháp d a trên ng ngh a: Bi u di n v n b n đ u vào b ng các bi u

di n ng ngh a nh các m c thông tin, đ th ng ngh a, v v , r i cung c p các

bi u di n ng ngh a này cho h th ng sinh ngôn ng t nhiên s d ng các danh t

vƠ đ ng t đ sinh ra b n tóm t t tóm l c cu i cùng [38]

 Ph ng pháp d a trên h c sâu: Mô hình seq2seq đư t o ra các mô hình tóm t t

h ng tóm l c hi u qu trong tóm t t v n b n [39] Mô hình v i b mã hóa - gi i

mã s d ng m ng n ron h i quy v i c ch chú ý (attention) đư đ t đ c k t qu cao cho tóm t t v n b n ng n Tuy nhiên, các ph ng pháp h c sâu g p ph i m t s

v n đ nh : các t ho c c m t sinh ra b l p l i và không x lý đ c v n đ thi u

t trong b t v ng M t s nghiên c u khác c ng đư s d ng k thu t h c sâu k t

h p v i các k thu t khác đ t o ra các h th ng tóm t t tóm l c hi u qu nh [40,41,42,43]

u đi m c a các ph ng pháp tóm t t h ng tóm l c lƠ sinh ra các b n tóm t t

t t h n v i các t có th không có trong v n b n g c b ng cách s d ng các bi u

di n d a trên di n gi i, nén B n tóm t t đ c sinh ra g n v i b n tóm t t th công

c a con ng i h n, có th ng n h n so v i các ph ng pháp trích rút vì câu sinh ra

đư gi m đ c các thông tin d th a Tuy nhiên, trong th c t , vi c sinh m t b n tóm

t t tóm l c có ch t l ng t t lƠ r t khó kh n Các h th ng tóm t t tóm l c có

ch t l ng t t r t khó phát tri n vì các h th ng nƠy yêu c u s d ng k thu t sinh ngôn ng t nhiên mƠ k thu t nƠy v n lƠ m t l nh v c đang đ c nghiên c u phát tri n hi n nay H u h t các b n tóm t t tóm l c đ u g p ph i v n đ l p t và không x lý đ c v n đ thi u t trong b t v ng m t cách thích h p

Ngoài ra, m t ph ng pháp ti p c n khác lƠ tóm t t v n b n d a trên k thu t nén câu [44,45] c ng đư đ t đ c nh ng k t qu nh t đ nh Ph ng pháp ti p c n này th c hi n liên k t các cơu đ c rút g n đ t o ra m t v n b n tóm t t ng n h n,

ph ng pháp nén cơu yêu c u chi phí xơy d ng kho d li u hu n luy n l n, các b

d li u liên quan đ n b t v ng phù h p đ c th c thi b i chuyên gia ngôn ng trong th i gian dài vƠ đ ph c t p tính toán cao nên các mô hình tóm t t v n b n s

d ng các k thu t nén cơu th ng yêu c u chi phí cao Bên c nh đó, ch t l ng c a

b n tóm t t t o ra ph thu c r t nhi u vƠo ch t l ng c a các k thu t nén cơu đ c

s d ng

i v i ti ng Vi t, do tính ph c t p vƠ đ c thù riêng c a ngôn ng nên các

nghiên c u v tóm t t v n b n ti ng Vi t còn h n ch H u h t các nghiên c u là các đ tƠi t t nghi p đ i h c, lu n v n th c s , ti n s vƠ đ tƠi nghiên c u khoa h c

c p tr ng, c p b [49,50,51] Các nghiên c u đ c công b d i hình th c các bài báo khoa h c cho tóm t t v n b n ti ng Vi t còn ít [52,53,54,55,56] Các nghiên

c u nƠy ph n l n d a trên h ng trích rút cho bƠi toán tóm t t đ n v n b n vƠ ch

Trang 18

y u d a vƠo các đ c tr ng c a cơu nh t n su t t , v trí cơu, t tiêu đ , đ t ng

t , đ ch n ra các cơu quan tr ng theo t l trích rút nên ch t l ng v n b n tóm

t t ch a cao, có th k đ n nh : tóm t t v n b n ti ng Vi t s d ng c u trúc di n ngôn [52], tóm t t v n b n s d ng các ph ng pháp truy n th ng [53], s d ng

gi i thu t di truy n đ tóm t t v n b n [54], trích rút cơu s d ng ph ng pháp máy véc t h tr đ đ a vƠo b n tóm t t [56] Mô hình seq2seq k t h p v i c ch chú

ý đ th c hi n tóm t t v n b n nh trong [57] Bên c nh đó, do ch a có các kho ng

li u đ l n đ c công b chính th c ph c v cho tóm t t v n b n ti ng Vi t nên h u

h t các th nghi m đ u d a trên các kho ng li u t xơy d ng nên vi c đánh giá k t

qu c a các nghiên c u c ng c n đ c xem xét k l ng

Nh v y, có th nh n th y các h th ng tóm t t v n b n t đ ng còn nhi u h n

ch , chính nh ng h n ch nƠy lƠm phát sinh nh ng thách th c c n gi i quy t đ ng

th i m ra các h ng nghiên c u m i cho bƠi toán tóm t t v n b n, đó lƠ:

 Thách th c liên quan đ n tóm t t đa v n b n: Tóm t t đa v n b n là bài toán

ph c t p v i nhi u v n đ c n gi i quy t nh d th a thông tin, trình t th i gian và

s p x p l i các câu

 Thách th c liên quan đ n các ngôn ng đ c h tr tóm t t: H u h t các h

th ng tóm t t v n b n t đ ng đ u t p trung vào tóm t t v n b n ti ng Anh i v i các ngôn ng khác, các nghiên c u còn h n ch và ch t l ng c a các h th ng tóm

t t v n b n t đ ng hi n có c ng c n đ c c i thi n Do đó, c n ph i phát tri n và

c i ti n các h th ng tóm t t cho các ngôn ng không ph i ti ng Anh

 Thách th c liên quan đ n ph ng pháp tóm t t v n b n: H u h t các nghiên

c u hi n nay đ u t p trung vƠo ph ng pháp tóm t t h ng trích rút, do đó c n nghiên c u đ xu t và c i thi n các h th ng tóm t t d a trên ph ng pháp tóm t t

h ng tóm l c và ph ng pháp tóm t t h n h p

 Thách th c liên quan đ n các đ c tr ng th ng kê và ngôn ng : C n phát hi n thêm m i các đ c tr ng th ng kê và ngôn ng cho các t , các câu cho các h th ng

đ có th trích xu t ng ngh a các cơu chính t v n b n ngu n Bên c nh đó, v n đ

x lý tr ng s thích h p cho các đ c tr ng m i này c ng là m t v n đ quan tr ng quy t đ nh ch t l ng c a b n tóm t t cu i cùng

 Thách th c liên quan đ n vi c s d ng các k thu t h c sâu và v n đ thi u d

li u th nghi m cho các mô hình: Do các mô hình h c sơu th ng có ki n trúc ph c

t p, kh i l ng x lý tính toán l n nên các h th ng tóm t t c ng đòi h i tài nguyên

l n đ th c thi Bên c nh đó, các mô hình h c sâu yêu c u l ng d li u hu n luy n

l n đ đ m b o ch t l ng c a b n tóm t t đ u ra nh ng th c t hi n nay các d

li u này khan hi m (ho c n u có thì c ng không đ l n) đ hu n luy n các mô hình

ơy lƠ m t thách th c nghiên c u quan tr ng khi xây d ng các h th ng tóm t t v n

b n t đ ng s d ng các k thu t hi n đ i v i m t l ng d li u hu n luy n nh

 Thách th c liên quan đ n ch t l ng c a b n tóm t t sinh ra: B n tóm t t c n

đ t đ c s cân b ng gi a kh n ng đ c, t l nén và ch t l ng tóm t t t t Các h

th ng tóm t t v n b n t đ ng hi n t i r t khó đ t đ c t l nén cao đ tóm t t các

v n b n dƠi nh ti u thuy t, sách,… nên c n ph i c i thi n ch t l ng b n tóm t t

v ng ngh a do các t không rõ ngh a, t đ ng ngh a ho c t nhi u ngh a gây ra

 Thách th c liên quan đ n ph ng pháp đánh giá b n tóm t t t o ra: ánh giá

b n tóm t t (t đ ng ho c th công) là m t nhi m v khó kh n, đó lƠ khó kh n

c xác đ nh và s d ng m t đ đo tiêu chu n có đ tin c y cao đ đánh giá

Trang 19

các b n tóm t t đ c sinh ra t h th ng tóm t t v n b n t đ ng có đ t t hay không và r t khó kh n đ tìm ra m t b n tóm t t lý t ng vì h th ng tóm t t v n

b n t đ ng có th t o ra các b n tóm t t t t khác v i các b n tóm t t do con ng i

t o ra Con ng i và h th ng có th ch n các câu khác nhau cho các b n tóm t t trích rút và có th di n gi i các b n tóm t t tóm l c theo m t cách hoàn toàn khác nên các ph ng pháp đánh giá th công không phù h p v i các lo i tóm t t Do đó,

c n có các ph ng pháp đánh giá t đ ng các b n tóm t t do các h th ng tóm t t sinh ra

H u h t các nghiên c u đư c g ng phát tri n m i vƠ c i ti n các ph ng pháp tóm t t v n b n hi n có nh m t o ra các h th ng tóm t t v n b n hi u qu Các

ph ng pháp tóm t t v n b n này th ng lƠ trích rút ho c tóm l c áp d ng cho tóm t t đ n v n b n vƠ tóm t t đa v n b n Do đó, vi c nghiên c u, phát tri n các

mô hình tóm t t v n b n hi u qu lƠ r t c n thi t vƠ có ý ngh a to l n

2 ng l căthúcăđ y

T b i c nh nghiên c u đư phơn tích trên, nghiên c u sinh nh n th y bƠi toán tóm t t v n b n t đ ng đóng m t vai trò quan tr ng trong x lý ngôn ng t nhiên

c ng nh khai phá d li u v n b n vƠ đ t ra nhi u thách th c cho vi c phát tri n các

ph ng pháp tóm t t v n b n hi u qu M c dù, hƠng n m các nhƠ nghiên c u đư đ

xu t phát tri n đ c m t s gi i pháp m i ho c c i ti n các gi i pháp hi n có đ nơng cao hi u qu vƠ đ chính xác cho các mô hình tóm t t v n b n nh ng các b n tóm t t đ c sinh ra c a các mô hình v n khác xa so v i các b n tóm t t do con

ng i t o ra M t trong các nguyên nhân đó là d li u th nghi m cho các mô hình tóm t t c a bƠi toán tóm t t v n b n V n đ thi u d li u hay d li u b nhi u làm cho hi u qu tóm t t c a các mô hình tóm t t ch a cao Bên c nh đó, v n đ bi u

di n d li u v n b n đ u vƠo c ng đóng vai trò quan tr ng quy t đ nh hi u qu c a các mô hình tóm t t M t lý do khác có vai trò quan tr ng không kém là ph n l n các nghiên c u v tóm t t v n b n hi n nay đ c th c hi n cho tóm t t v n b n

ti ng Anh, các nghiên c u v bƠi toán tóm t t v n b n ti ng Vi t còn khiêm t n Do

đó, vi c nghiên c u phát tri n các mô hình tóm t t v n b n hi u qu áp d ng cho tóm t t v n b n ti ng Anh vƠ ti ng Vi t càng có ý ngh a to l n, nh t lƠ trong b i

c nh các k thu t h c máy, các mô hình h c sơu vƠ các k thu t hi n đ i khác đang

đ c phát tri n m nh nh hi n nay

Chính vì nh ng lý do đó, đ tƠi “Nghiên c u, phát tri n m t s ph ng pháp

tóm t t v n b n s d ng k thu t h c sâu” đ c đ t ra h t s c c p thi t và có tính

Trang 20

 Các k thu t áp d ng trong tóm t t v n b n nh : Các ph ng pháp véc t hóa

v n b n, các k thu t h c máy, h c sâu, các mô hình đ c hu n luy n tr c,

c ch chú ý, k thu t tìm ki m, ph ng pháp lo i b thông tin trùng l p

 Nghiên c u các k thu t h c máy, h c sơu, các mô hình đ c hu n luy n

tr c đ véc t hóa v n b n cho các mô hình tóm t t v n b n

 xu t các mô hình tóm t t đ n v n b n h ng trích rút, h ng tóm l c áp

d ng tóm t t cho tóm t t v n b n ti ng Anh và ti ng Vi t

 xu t mô hình tóm t t đa v n b n h ng trích rút cho tóm t t v n b n ti ng Anh và ti ng Vi t

 xu t các mô hình tóm t t đa v n b n h ng tóm l c cho tóm t t v n b n

ti ng Anh và ti ng Vi t s d ng các mô hình tóm t t đ n v n b n đ c hu n luy n

Trang 21

 Nghiên c u các k thu t h c máy, h c sâu s d ng đ phát tri n các mô hình tóm t t v n b n

 Nghiên c u đ xu t thêm m i các đ c tr ng quan tr ng c a v n b n cho mô hình tóm t t v n b n

 Nghiên c u đ xu t các mô hình tóm t t đ n v n b n h ng trích rút, h ng tóm l c hi u qu cho tóm t t v n b n ti ng Anh và ti ng Vi t

 Nghiên c u đ xu t các mô hình tóm t t đa v n b n h ng trích rút, h ng tóm l c hi u qu cho tóm t t v n b n ti ng Anh và ti ng Vi t

7.ăụăngh aăkhoaăh c và ýăngh aăth c ti n

 Ý ngh a khoa h c: Nghiên c u chuyên sâu v các k thu t h c máy, h c sâu, các đ c tr ng c a v n b n đ đ xu t phát tri n các mô hình tóm t t v n b n hi u

qu cho ti ng Anh và ti ng Vi t

 Ý ngh a th c ti n: xu t các đ c tr ng quan tr ng c a v n b n s d ng cho các mô hình tóm t t v n b n xu t các mô hình tóm t t v n b n hi u qu cho tóm

t t v n b n ti ng Anh và ti ng Vi t Các mô hình đ xu t m i có th s d ng đ xây

d ng các h th ng ph n m m tóm t t hi u qu đáp ng t t các yêu c u trong th c

ti n NgoƠi ra, h ng ti p c n tinh ch nh mô hình tóm t t đ n v n b n đ c hu n luy n tr c b ng vi c hu n luy n ti p mô hình tóm t t đ n v n b n trên các b d

li u th nghi m c a tóm t t đa v n b n do nghiên c u sinh đ xu t có th m ra m t

h ng m i đ phát tri n các mô hình tóm t t đa v n b n hi u qu trong đi u ki n thi u d li u th nghi m

8 Nh ngăđóng góp chính c a lu n án

V i m c tiêu đ t ra, lu n án đư đ t đ c m t s k t qu đóng góp vƠo vi c nghiên c u phát tri n m r ng các h th ng tóm t t v n b n cho ngôn ng ti ng Anh vƠ ti ng Vi t Các k t qu chính có th khái quát lƠ:

 xu t ba mô hình tóm t t đ n v n b n h ng trích rút, đó lƠ

mBERT-Tiny_seq2seq_DeepQL_ESDS Mô hình RoPhoBERT_MLP_ESDS s d ng các mô hình t i u c a mô hình bi u di n mã hóa hai chi u t Transformer (BERT - Bidirectional Encoder Representation from Transformers) đ c hu n luy n tr c đ véc t hóa v n b n, mô hình phân lo i v i m ng Perceptron nhi u l p (MLP - Multi Layer Perceptron), k t h p v i đ c tr ng v trí cơu vƠ ph ng pháp đ liên quan c n biên t i đa (MMR - Maximal Marginal Relevance) đ lo i b thông tin trùng l p và

l a ch n cơu đ a vƠo b n tóm t t Mô hình mBERT_CNN_ESDS s d ng mô hình BERT đa ngôn ng , m ng n ron tích ch p, mô hình chu i sang chu i (seq2seq),

l p m ng n ron k t n i đ y đ (FC - Fully Connected) k t h p đ c tr ng tr ng s

c a t TF-IDF vƠ ph ng pháp MMR đ l a ch n cơu đ a vƠo b n tóm t t Mô hình mBERT-Tiny_seq2seq_DeepQL_ESDS s d ng mô hình BERT thu nh , BERT

đa ngôn ng đ véc t hóa v n b n đ u vào, m ng CNN, seq2seq, l p FC, k t h p

k thu t h c t ng c ng vƠ ph ng pháp MMR đ l a ch n cơu đ a vƠo b n tóm

t t

Trang 22

 xu t m t mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS Mô hình này s d ng các k thu t h c sâu, c ch chú ý, k thu t lo i b thông tin trùng l p, k t h p các đ c tr ng t n su t xu t hi n c a t , v trí cơu trong v n b n đ sinh b n tóm t t tóm l c

 xu t m t mô hình tóm t t đa v n b n h ng trích rút Kmeans_Centroid_EMDS Mô hình này th c hi n phân c m t p v n b n s d ng các k thu t h c máy là phân c m K-means, ph ng pháp d a trên trung tâm (Centroid-based), MMR vƠ đ c tr ng v trí cơu đ t o v n b n tóm t t cho t p đa

v n b n

 xu t hai mô hình tóm t t đa v n b n h ng tóm l c, đó lƠ PG_Feature_AMDS và Ext_Abs_AMDS-mds-mmr Mô hình PG_Feature_AMDS s

d ng mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS đư đ xu t

lƠ mô hình đ c hu n luy n tr c, mô hình PG_Feature_ASDS đ c tinh ch nh

b ng vi c hu n luy n ti p trên các b d li u th nghi m tóm t t đa v n b n t ng

ng Mô hình Ext_Abs_AMDS-mds-mmr s d ng mô hình h n h p đ c hu n luy n

tr c đ c xây d ng d a trên các mô hình tóm t t đ n v n b n đ c tinh ch nh t các mô hình tóm t t đ n v n b n đư đ xu t Các mô hình tóm t t đ n v n b n, mô hình h n h p này đ c hu n luy n ti p trên các b d li u th nghi m tóm t t đa

v n b n t ng ng đ xây d ng mô hình tóm t t đa v n b n h ng tóm l c hi u

qu

Các mô hình đ xu t phát tri n c a lu n án đ u đ c áp d ng hi u qu cho tóm

t t v n b n ti ng Anh vƠ ti ng Vi t

9 B c c c a lu n án

V i nh ng đóng góp chính đ c trình bƠy trên, b c c c a lu n án bao g m:

Ph n m đ u, n m ch ng, ph n k t lu n, tƠi li u tham kh o vƠ ph n ph l c C

th nh sau:

Ph n m đ u: Trình bƠy nh ng đi m quan tr ng v b i c nh nghiên c u, đ ng

l c thúc đ y, t ng quan v đ i t ng nghiên c u, ph m vi nghiên c u, m c tiêu nghiên c u, ph ng pháp nghiên c u, n i dung nghiên c u, ý ngh a khoa h c vƠ ý ngh a th c ti n c a lu n án Nh ng t n t i, thách th c vƠ ph ng pháp gi i quy t

c a lu n án NgoƠi ra, ph n nƠy c ng trình bƠy nh ng đóng góp chính vƠ b c c c a

lu n án

Ch ng 1 T ng quan v tóm t t v n b n: Ch ng nƠy trình bƠy các v n đ

t ng quan v tóm t t v n b n trong x lý ngôn ng t nhiên, m t s ph ng pháp đánh giá v n b n tóm t t t đ ng, các ph ng pháp k t h p các v n b n c a t p đa

v n b n, các ph ng pháp tóm t t v n b n h ng trích rút c s , các b d li u

đ c s d ng đ th nghi m cho các mô hình tóm t t v n b n đ xu t Nh ng ki n

th c nƠy lƠ c s đ phát tri n các nghiên c u đ xu t c a lu n án

Trang 23

v n b n tóm t t Nh ng ki n th c n n t ng này là c s đ phát tri n các ph ng pháp tóm t t v n b n đ xu t trong lu n án

d ng hi u qu trong tóm t t h ng tóm l c Mô hình đ xu t áp d ng hi u qu cho tóm t t v n b n ti ng Anh vƠ ti ng Vi t Mô hình tóm t t đ n v n b n nƠy s đ c

s d ng đ phát tri n các mô hình tóm t t đa v n b n đ xu t c a lu n án

Ch ng 5 Phát tri n các ph ng pháp tóm t t đa v n b n: Ch ng nƠy gi i

thi u v bƠi toán tóm t t đa v n b n, đ xu t phát tri n m t mô hình tóm t t đa v n

b n h ng trích rút, hai mô hình tóm t t đa v n b n h ng tóm l c s d ng k t

h p các k thu t h c máy, h c sơu vƠ các đ c tr ng c a v n b n, các c ch x lý trùng l p thông tin áp d ng hi u qu cho tóm t t đa v n b n ti ng Anh vƠ ti ng Vi t Hai mô hình tóm t t đa v n b n h ng tóm l c đ c đ xu t phát tri n d a trên các mô hình tóm t t đ n v n b n đ c hu n luy n tr c đư đ xu t

Ph n k t lu n: Trình bày các k t qu đ t đ c, nh ng khó kh n t n t i vƠ

h ng phát tri n ti p c a các nghiên c u trong lu n án

Ph n ph l c: Trình bày bi u đ bi u di n phân tích các b d li u th nghi m

và n i dung các v n b n ngu n c a các m u tóm t t th nghi m trên các b d li u

t ng ng c a các mô hình tóm t t đ xu t đư trình bƠy trong lu n án

Lu n án trình bƠy các ph ng pháp tóm t t đ n v n b n h ng trích rút, tóm t t

đ n v n b n h ng tóm l c, tóm t t đa v n b n h ng trích rút vƠ h ng tóm l c cho bài toán tóm t t v n b n Có th nói, n i dung c a lu n án đư đ t đ c các m c tiêu đ t ra

Trang 24

Ch ngă1.ăT NGăQUANăV ăTịMăT TăV NăB N

Ch ng nƠy trình bƠy t ng quan v tóm t t v n b n trong x lý ngôn ng t nhiên bao g m gi i thi u v tóm t t v n b n, các b c th c hi n trong tóm t t v n

b n, m t s đ c tr ng c a v n b n, các ph ng pháp đánh giá v n b n tóm t t ph

bi n, các ph ng pháp k t h p v n b n trong tóm t t đa v n b n, các ph ng pháp tóm t t v n b n h ng trích rút c s NgoƠi ra, ch ng nƠy c ng trình bày phân tích th ng kê thông tin các b d li u s d ng đ th nghi m cho các mô hình tóm

t t v n b n đ xu t Nh ng ki n th c trình bƠy trong ch ng nƠy lƠ c s đ tri n khai phát tri n các ph ng pháp tóm t t v n b n đ xu t c a lu n án

1.1 Gi iăthi u v ătómăt tăv năb n

1.1.1.ăGi iăthi uăbƠiătoánătómăt tăv năb n

X lý ngôn ng t nhiên đang đ c phát tri n m t cách m nh m giúp con

ng i có th ch n l c, tóm t t đ c kh i thông tin kh ng l nh m ti t ki m th i gian tìm ki m vƠ t ng h p các thông tin h u ích Có m t s nhi m v quan tr ng trong x lý ngôn ng t nhiên nh : Tìm ki m thông tin, trích rút thông tin, nh n

d ng ti ng nói, tr l i cơu h i, d ch máy, tóm t t v n b n t đ ng Tóm t t v n b n

t đ ng (g i t t lƠ tóm t t v n b n) lƠ m t trong nh ng nhi m v đ c quan tơm nghiên c u phát tri n vƠ đư đ t đ c nh ng k t qu kh quan BƠi toán tóm t t v n

b n đ c ng d ng thƠnh công vƠo th c t s giúp ti t ki m đ c th i gian đ c, c i thi n t c đ , nơng cao đ chính xác c a các thông tin đ c t ng h p

Tóm t t v n b n (TTVB) lƠ quá trình t o ra m t b n mô t ng n g n, súc tích t

m t ho c nhi u v n b n ngu n ban đ u V n b n tóm t t có đ dƠi ng n h n v n

b n ngu n nh ng v n đ m b o gi l i đ c n i dung chính, quan tr ng mƠ v n b n ngu n đ c p t i

V n đ đ t ra lƠ lƠm th nƠo đ nh n bi t đ c đơu lƠ n i dung chính c a v n

b n ngu n ban đ u vì đó lƠ thƠnh ph n c t lõi, bao hƠm nh ng thông tin quan tr ng

N u bi t đ c nh ng thông tin nƠy thì nhi m v tóm t t s tr nên d dƠng vƠ v n

b n tóm t t có đ chính xác t t h n Các thƠnh ph n nƠy lƠ nh ng đ n v d li u

nh nh t có ngh a trong v n b n ngu n đ trích rút, tóm t t nh t , cơu,… Trong

v n b n ngu n, n u t n su t xu t hi n c a các đ n v d li u cƠng l n thì xác su t mang n i dung quan tr ng, thông tin chính c a đo n v n, v n b n cƠng cao Do đó, các đ n v d li u nƠy đ c s d ng đ tóm t t, bi n đ i, hi n th ho c t o ra d li u

m i có ý ngh a ph c v cho các nhi m v ho c các h th ng khác

B ng 1.1 vƠ B ng 1.2 d i đơy lƠ các ví d minh h a v n b n tóm t t c a v n

b n ti ng Anh, ti ng Vi t t ng ng Các v n b n ngu n c a các v n b n tóm t t này đ c trình bƠy Ph l c A trong ph n Ph l c

Trang 25

V n b n tóm t t

graves Iraqis find mass graves inside presidential palace compound in Tikrit ISIS claimed to have executed 1,700

B ng 1.1 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Anh

V n b n tóm t t

giáo Liên đoàn lao đ ng t nh – đã cùng các Cán b công đoàn làm vi c v i chính quy n đ a ph ng và t ch c h i ngh đ i tho i v i s có m t c a c đ i di n doanh nghi p và công nhân lao đ ng Công ty TNHH may Tinh L i, có g n 1.000 n công nhân lao đ ng đang tr t i đây đã đ ng ý m i tháng tài tr thêm cho Tr ng M m non H ng Sen 3 tri u đ ng đ

B ng 1.2 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Vi t

1.1.2.ăPhơnălo iăbƠiătoánătómăt tăv năb n

BƠi toán tóm t t v n b n đ c phơn lo i d a theo các tiêu chí khác nhau bao

g m m t s lo i bƠi toán ph bi n sau:

- Tóm t t đ n v n b n: V n b n ngu n ch có m t v n b n duy nh t

- Tóm t t đa v n b n: T p v n b n ngu n g m nhi u v n b n (các v n b n nƠy

th ng có n i dung liên quan đ n nhau) V n b n k t qu thu đ c lƠ m t v n b n duy nh t t t p v n b n ngu n đ u vƠo Tóm t t đa v n b n g p m t s khó kh n

nh v n đ trùng l p thông tin gi a các v n b n ngu n, ti n x lý v n b n ph c t p, yêu c u t l nén cao

- Tóm t t v n b n h ng trích rút: LƠ quá trình rút g n v n b n sao cho v n b n

gi đ c n i dung, ý ngh a c a v n b n ngu n đ u vƠo Tóm t t v n b n h ng tóm

l c lƠ bƠi toán tóm t t v n b n ph c t p, có nhi u khó kh n trong vi c bi u di n

ng ngh a, sinh ngôn ng t nhiên t v n b n ngu n

- Tóm t t đ n ngôn ng : V n b n ngu n vƠ v n b n tóm t t ch có duy nh t m t

lo i ngôn ng

- Tóm t t đa ngôn ng : V n b n ngu n ch ch a duy nh t m t lo i ngôn ng ,

nh ng v n b n k t qu có th đ c tóm t t theo nhi u ngôn ng khác nhau

- Tóm t t đan xen ngôn ng : V n b n ngu n có th g m nhi u lo i ngôn ng khác nhau

Trong các lo i tóm t t v n b n nƠy, tóm t t h ng trích rút t o ra v n b n tóm

t t d a trên trích rút g n cơu mang l i hi u qu cao v m t ngôn ng , trong khi đó tóm t t h ng tóm l c sinh ra m t v n b n tóm t t đ m b o v m t cú pháp, ng

Trang 26

ngh a b ng vi c rút g n cơu [58,59,60] Các ph ng pháp tóm t t v n b n đ c đ

xu t hi n nay th ng lƠ tóm t t theo h ng trích rút vì nó d dƠng th c hi n h n so

v i vi c rút g n cơu c a tóm t t h ng tóm l c Tuy nhiên, s d ng cách ti p c n tóm t t v n b n h ng tóm l c th ng cho các v n b n tóm t t v i thông tin ít

m ch l c h n Bên c nh đó, tóm t t đ n v n b n c ng đ c th c hi n d dƠng h n,

v n b n t o ra có thông tin ít b trùng l p so v i tóm t t đa v n b n Chính vì th , các lo i bƠi toán tóm t t đ n v n b n, tóm t t đa v n b n, tóm t t v n b n h ng trích rút vƠ tóm t t v n b n h ng tóm l c giƠnh đ c s quan tơm phát tri n c a các nhƠ nghiên c u trong l nh v c x lý ngôn ng t nhiên nói chung vƠ tóm t t v n

b n nói riêng [61]

1.1.3.ăCácăb căth căhi nătrongătómăt tăv năb n

V i v n b n ngu n đ u vƠo, đ sinh ra b n tóm t t thì m t h th ng TTVB c n

th c hi n các b c chính đ c bi u di n nh trong Hình 1.1 d i đơy

Hình 1.1 Các b c th c hi n trong tóm t t v n b n

 Phân tích: M t v n b n ho c t p các v n b n ngu n đ c phơn tích đ tr ra các thông tin s d ng cho vi c tìm ki m, đánh giá các đ n v ng li u quan tr ng và các tham s đ u vƠo cho b c ti p theo

 Bi n đ i: B c này s d ng m t phép bi n đ i tác đ ng trên các thông tin đ u

ra c a b c phân tích nh m đ n gi n hóa và t o nên m t th th ng nh t K t qu tr

ra lƠ các đ n v ng li u đ c tóm t t

 Sinh v n b n tóm t t: B c này s liên k t các đ n v ng li u nh n đ c t

b c bi n đ i theo m t tiêu chí nƠo đó đ sinh v n b n tóm t t

V i m i lo i h th ng TTVB s có s khác nhau nh t đ nh i v i các h

th ng TTVB h ng tóm l c thì có đ y đ các b c trên, nh ng đ i v i h th ng TTVB h ng trích rút thì không có b c bi n đ i mƠ ch có hai b c phơn tích vƠ sinh v n b n tóm t t

1.1.4.ăM tăs ăđ cătr ngăc aăv năb n

 V trí câu: quan tr ng c a cơu trong v n b n d a theo đ c tr ng v trí đ c xác đ nh là giá tr v trí c a cơu trong v n b n Nhi u ph ng pháp th ng coi câu

đ u tiên trong v n b n là câu quan tr ng h n các cơu khác trong v n b n [62,63]

 TF-IDF: TF-IDF (Term Frequency - Inverse Document Frequency) là tr ng s

c a m t t th hi n m c đ quan tr ng c a t đó trong m t v n b n mƠ v n b n đó

n m trong m t t p h p các v n b n [64] Tr ng s TF-IDF đ c tính theo các đ c

tr ng t n su t xu t hi n c a t (TF) và ngh ch đ o t n su t xu t hi n c a t trong m t v n b n c a m t t p các v n b n (IDF) nh sau:

- TF = S l n xu t hi n c a t trong v n b n/T ng s t trong v n b n

- IDF = log(T ng s v n b n trong t p v n b n/S v n b n có ch a t đó)

- TF-IDF = TF*IDF

Trang 27

 Câu trung tâm: quan tr ng c a cơu trong v n b n d a theo đ c tr ng cơu trung tơm đ c tính b ng giá tr trung bình c a đ t ng t gi a m t câu và các câu khác trong v n b n c tr ng nƠy xem xét s cùng xu t hi n c a các t gi a m t cơu vƠ các cơu khác trong v n b n [65]

1.2.ăM tăs ăph ngăphápăđánhăgiáăv năb nătómăt tăt ăđ ng

V i bƠi toán tóm t t v n b n, hi u qu c a v n b n tóm t t có vai trò quan

tr ng đánh giá hi u qu c a các v n b n tóm t t, c n ph i d a vƠo các tham s

nh t l nén, đ chính xác, đ liên k t,…Có m t s ph ng pháp đánh giá hi u qu

v n b n tóm t t đ c trình bƠy d i đơy

1.2.1 Ph ngăphápăd aătrênăđ ăt ngăt ăv n iădung

ánh giá đ t ng t v n i dung c a v n b n k t qu đ c sinh ra b i h

- M lƠ tiêu chí tính toán đ t ng t v n i dung gi a 2 v n b n X và Y, M

th ng đ c tính toán theo công th c sau [66]:

+ X, Y lƠ hai v n b n đ c bi u di n d i d ng chu i các t t ng ng

+ d(X,Y) lƠ s l ng phép toán thêm m i vƠ xóa ít nh t c n th c hi n đ bi n

đ i v n b n X thƠnh v n b n Y

+ LCS(X,Y) lƠ đ dƠi c a chu i con chung l n nh t gi a X vƠ Y

+ length(X), length(Y) t ng ng lƠ đ dƠi c a 2 v n b n X, Y

1.2.2 Ph ngăphápăd aătrênăđ ăt ngăquanăphùăh p

Ph ng pháp d a trên đ t ng quan phù h p đánh giá h th ng TTVB d a trên các cơu truy v n: V i m t truy v n Q vƠ m t t p v n b n {Di} vƠ m t công c

đ s p x p các v n b n Di theo th t m c đ phù h p gi a Di v i Q theo chi u

gi m d n thì t t p {Di}, ta có t p {Si} lƠ t p v n b n tóm t t c a {Di} đ c t o ra

b i h th ng đang xét, ta s d ng công c s p x p trên đ s p x p {Si} gi ng nh

Trang 28

trên đánh giá, c n xác đ nh đ t ng quan gi a hai danh sách đư đ c s p x p này

Công th c xác đ nh đ t ng quan ph bi n lƠ đ t ng quan tuy n tính gi a hai t p đi m phù h p x vƠ y:

y x

đ c xem nh gi i pháp t i u đ đánh giá ch t l ng c a các b n tóm t t do các h

th ng tóm t t v n b n sinh ra Gi i pháp đánh giá t đ ng ph i tìm ra m t đ đo g n

v i đánh giá c a con ng i nh t đ đánh giá v n b n tóm t t vƠ ROUGE Oriented Understudy for Gisting Evaluation) [68] lƠ m t đ đo đánh giá t đ ng

(Recall-hi u qu đ c s d ng ph bi n (Recall-hi n nay

1.2.3.1 đo ROUGE

đo ROUGE đ c s d ng nh m t đ đo tiêu chu n đ đánh giá hi u qu

c a các h th ng tóm t t v n b n ROUGE th c hi n so sánh m t b n tóm t t đ c sinh t đ ng t mô hình tóm t t vƠ m t t p các b n tóm t t tham chi u (b n tóm t t

t nhiên c a con ng i) Vì v y, đ có đ c m t đánh giá t t, vi c tính toán đ h i

t ng (Recall) và đ chính xác (Precision) [69,70] thông qua các t trùng l p đ c

s d ng trong đ đo ROUGE

N u t t c các t trong b n tóm t t tham chi u đư đ c tóm t t l i b i h th ng thì c ng ch a th kh ng đ nh đ c b n tóm t t h th ng lƠ ch t l ng th c s vì

m t b n tóm t t đ c sinh ra t h th ng có th r t dƠi vƠ ch a t t c s t có trong

b n tóm t t tham chi u nh ng ph n l n các t còn l i trong b n tóm t t h th ng l i

d th a, đi u nƠy lƠm cho b n tóm t t dƠi dòng Chính vì th , đ chính xác đ c s

d ng đ kh c ph c v n đ nƠy

chính xác: Th hi n b n tóm t t h th ng trong th c t có bao nhiêu ph n

liên quan đ n b n tóm t t tham chi u, đ c tính theo công th c:

Trang 29

trong đó: c lƠ s l ng t b n tóm t t h th ng n m b t l i liên quan đ n b n tóm t t tham chi u, b lƠ t ng s t trong b n tóm t t h th ng

M t đ đo th ng đ c s d ng lƠ đ đo F1 ( F1 score ) [70] đo F1 đ c tính toán d a trên đ h i t ng R vƠ đ chính xác P theo công th c:

quan h n vì nó có xu h ng g n v i giá tr nh h n gi a hai giá tr đ h i t ng và

đ chính xác, giá tr F1 l n n u c hai giá tr đ h i t ng vƠ đ chính xác l n

1.2.3 2 Các đ đo ROUGE ph bi n

Các đ đo ROUGE [68] ph bi n th ng đ c s d ng đ đánh giá ch t l ng

c a b n tóm t t h th ng so v i b n tóm t t tham chi u trong bƠi toán tóm t t v n

b n g m:

 h i t ng c a Rouge – N (ký hi u RN): Th hi n vi c s d ng m t t gram), hai t (bi-gram), ba t (tri-gram) ho c N t (N-gram) xu t hi n đ ng th i trong b n tóm t t h th ng và b n tóm t t tham chi u h i t ng RN (th ng N =

Count gram (1.8) trong đó:

+ N: là N-gram (v i N =1, 2, 3, )

+ RS: lƠ t p v n b n tóm t t tham chi u

+ Countmatch(gramN): lƠ s l ng N-gram xu t hi n đ ng th i trong b n tóm t t h th ng vƠ b n tóm t t tham chi u

+ Count(gramN): là s l ng N-gram có trong b n tóm t t tham chi u

 chính xác c a Rouge – N (ký hi u PN): Th hi n vi c s d ng m t t gram), hai t (bi-gram), ba t (tri-gram) ho c N t (N-gram) xu t hi n trong b n tóm t t h th ng có liên quan đ n b n tóm t t tham chi u h i t ng PN (th ng

Count gramP

Count gram (1.9)

v i: SS: lƠ v n b n tóm t t h th ng

đo F1 c a Rouge – N (ký hi u R–N): đo R–N (th ng N = 1 ÷ 4) đ c

tính toán d a trên đ h i t ng RNvƠ đ chính xác PN theo công th c:

*2

đ đo th ng đ c s d ng đ đánh giá hi u qu c a các mô hình tóm t t v n b n

đo F1 c a Rouge – L (ký hi u R–L): Th hi n vi c s d ng chu i các t

dài nh t xu t hi n đ ng th i trong b n tóm t t c a h th ng và b n tóm t t tham chi u d a trên chu i con chung dài nh t (LCS - Longest Common Subsequence) LCS chính là bài toán tìm ki m chu i con chung dài nh t cho t t c các chu i trong

Trang 30

m t t p các chu i (th ng là hai chu i) đo R-L đ c tính d a trên đ h i t ng

s l ng cơu c a b n tóm t t tham chi u; m lƠ s l ng t c a t p tóm t t tham chi u; n lƠ s l ng t c a t p tóm t t ng viên C; LCS r C ( , )i lƠ đi m c a t p

đ c xác đ nh b ng h p c a t p chu i con chung dƠi nh t gi a cơu ri vƠ m i cơu trong t p C, đi m nƠy đ c tính b ng t ng đ dƠi c a h p các chu i con chung l n

nh t chia cho đ dƠi c a ri;  lƠ h s đi u khi n đ quan tr ng t ng đ i c a Rlcs

đo F1 c a Rouge-S (ký hi u R-S): đo R-S xác đ nh đ t ng đ ng gi a

c p t b t k trong m t cơu đ c ghép theo đúng th t đo R-S đ c tính d a trên đ h i t ng RSvƠ đ chính xác PS nh sau:

2( , )( , 2)

t t ng viên C; X lƠ t p tóm t t tham chi u; Y lƠ t p tóm t t ng viên; SKIP X Y2( , )

lƠ s l ng t ghép c p skip bi-gram trùng kh p gi a X và Y; C(m,2), C(n,2) t ng

ng lƠ các hƠm t h p ch p 2 c a m ph n t , hƠm t h p ch p 2 c a n ph n t ;  là

h s đi u khi n đ quan tr ng t ng đ i c a RS và PS ( lƠ tham s t ch n vƠ

th ng đ c ch n b ng 1)

Trong công th c (1.17), khi   ta có công th c tính đ đo nh sau: 1

*2

đo F1 c a Rouge-St (ký hi u R-St): Khi s d ng đ đo R-S có th xu t hi n

m t s các c p t vô ngh a nh “the the”, “is is”, v v gi m thi u các c p t

Trang 31

vô ngh a này, ta có th gi i h n kho ng cách có th t o thành c p t là t (trong

t-skip bi-gram), ngh a lƠ ch có các t cách nhau không quá t t m i có th t o thành

c p t h p l (do các c p t vô ngh a th ng không n m g n nhau nên khi ch n t

nh s h n ch đ c tình tr ng t o các c p t vô ngh a) Khi đó, đ đo R-St đ c tính d a trên đ h i t ng RStvƠ đ chính xác PSt nh sau:

t t ng viên C; X lƠ t p tóm t t tham chi u; Y lƠ t p tóm t t ng viên; SKIP2,t( , )X Y

lƠ s l ng t ghép c p skip bi-gram trùng kh p gi a X và Y;  lƠ h s đi u khi n

đ quan tr ng t ng đ i c a R và St PSt ( lƠ tham s t ch n vƠ th ng đ c ch n

b ng 1)

Trong công th c (1.21), khi   ta có đ đo đ c tính theo công th c: 1

*2

d ng đ đánh giá hi u qu c a các mô hình tóm t t v n b n

đo F1 c a Rouge-SUt (ký hi u R-SUt): LƠ đ đo m r ng c a đ đo R-St

b ng vi c thêm m t t (uni-gram) lƠm đ n v đ m đ kh c ph c tr ng h p m t câu

ng c viên không có c p t đ ng xu t hi n nào v i b n tóm t t tham chi u đo R-SUt thu đ c t R-St b ng cách thêm đi m đánh d u đ u câu vào đ u các câu ng viên và các câu tóm t t tham chi u Khi t = 4 ta có đ đo R-SU4 thu đ c t đ đo R-S4 lƠ đ đo th ng đ c s d ng đ đánh giá hi u qu c a các mô hình tóm t t

v n b n

Hi n nay, các đ đo ROUGE đ c s d ng nh m t đ đo tiêu chu n ph bi n

đ đánh giá hi u qu c a các mô hình tóm t t v n b n Do đó, lu n án s s d ng các đ đo R-1, R-2, R-L, R-S4 và R-SU4 đ đánh giá hi u qu c a các mô hình tóm

t t v n b n đ xu t

1.3.ăCácăph ngăphápăk tăh păv năb nătrongătómăt tăđaăv năb n

i v i bƠi toán tóm t t đa v n b n, v n đ đ t ra đ u tiên lƠ vi c k t h p các

v n b n trong t p v n b n ngu n nƠy nh th nƠo?

Trang 32

Hình 1.2 Ph ng pháp x lý tóm t t t ng đ n v n b n trong tóm t t đa v n b n

Hi n nay có hai ph ng pháp th ng đ c s d ng đ gi i quy t v n đ này là:

- Ph ng pháp th nh t: K t h p t t c các v n b n đ u vƠo thƠnh m t v n b n duy nh t g i lƠ siêu v n b n, r i th c hi n tóm t t đ i v i siêu v n b n nƠy đ sinh

ra b n tóm t t cu i cùng Ph ng pháp nƠy đ a bƠi toán tóm t t đa v n b n tr thƠnh bƠi toán tóm t t đ n v n b n vƠ có th s d ng các k thu t tóm t t đ n v n

b n đ sinh ra b n tóm t t cu i cùng

- Ph ng pháp th hai: Tr c h t, t ng v n b n c a t p đa v n b n đ c tóm

t t đ sinh ra v n b n tóm t t t ng ng Sau đó, các v n b n tóm t t nƠy s đ c

k t h p l i thƠnh m t v n b n tóm t t t ng h p Sau đó, v n b n tóm t t t ng h p nƠy s đ c x lý tóm t t b ng các k thu t tóm t t đ n v n b n đ sinh ra v n b n tóm t t cu i cùng, đơy c ng chính lƠ b n tóm t t k t qu c a t p đa v n b n ngu n

Trang 33

1.4 ăCácăph ngăphápătómăt tăv năb n h ngătríchărútăc ăs

( )

( )

j i

j i

PageRank pd

   (1.23) trong đó:

- N lƠ t ng s trang

- M p ( )i lƠ t p h p các trang liên k t đ n pi

- d lƠ h ng s (thông th ng d đ c ch n b ng 0,85)

- PageRank p( )i : lƠ PageRank c a pi

- L p( j): lƠ s l ng các liên k t tr ra trong pj

1.4.2 TextRank

TextRank [14] lƠ m t thu t toán tóm t t v n b n trích rút theo h ng ti p c n không giám sát d a trên đ th , đ c xơy d ng d a trên thu t toán PageRank TextRank coi m i cơu lƠ m t đ nh trong đ th thay vì m i đ nh lƠ m t trang Website nh trong thu t toán PageRank vƠ tính đ t ng đ ng gi a hai cơu d a vƠo

s t trùng c a 2 cơu Sau đó, đ a ra m t ng ng đ ch n ra s cơu liên quan c a

t ng cơu

1.4.3 LexRank

LexRank [11] lƠ m t h ng ti p c n không giám sát, trong đó s d ng ý t ng

c a thu t toán PageRank đ xác đ nh t m quan tr ng c a các cơu trong v n b n LexRank s d ng đ đo Cosine c a các véc t tf-idf đ xác đ nh tr ng s c a m t cơu nh sau:

- x, y: lƠ hai cơu c n đo đ t ng đ ng

- tfw,x: lƠ t n su t xu t hi n c a t w trong câu x

- tfw, y: lƠ t n su t xu t hi n c a t w trong câu y

- idfw: lƠ đ quan tr ng c a t w

Công th c nƠy bi u di n kho ng cách gi a hai cơu x vƠ y Phép đo đ t ng

đ ng nƠy đ c s d ng đ xơy d ng ma tr n t ng đ ng lƠ đ th t ng đ ng gi a các cơu LexRank đo l ng đ quan tr ng c a các cơu trong đ th b ng cách xem xét t m quan tr ng t ng đ i c a nó v i các cơu lơn c n trích rút các cơu quan

Trang 34

đ u tiên trong v n b n lƠm b n tóm t t ơy lƠ ph ng pháp tóm t t đ n gi n nh ng

có đ chính xác khá cao nên các nghiên c u tóm t t v n b n d ng tin t c th ng

ch n ph ng pháp Lead-k lƠm ph ng pháp c s đ đánh giá so sánh

1.5 ăăCácăb ăd ăli uăth ănghi m

có c s l a ch n s l ng cơu ho c s t cho b n tóm t t sinh ra c a các

mô hình tóm t t đ xu t, các b d li u s d ng đ th nghi m cho các mô hình đ

xu t đ c phơn tích th ng kê các thông tin quan tr ng vƠ đ c trình bày nh d i đơy Thông tin v th i gian thu th p các b d li u th nghi m vƠ bi u đ bi u di n phơn b đ dƠi trung bình n i dung v n b n ngu n, v n b n b n tóm t t t ng ng theo s cơu, s t c a các b d li u đ c trình bƠy chi ti t Ph l c B trong ph n

án s d ng ph ng pháp phơn chia b d li u c a Hermann vƠ c ng s [71] cho các

t p d li u hu n luy n, ki m tra vƠ đánh giá khi th nghi m các mô hình (B ng 1.3) Các cơu chính c a m i v n b n đ c s d ng lƠm c s đ đánh giá ch t l ng

b n tóm t t c a các mô hình th nghi m

Hu n luy n Ki m tra

ánh

giá

Hu n luy n Ki m tra

ánh

giá

S l ng v n b n 90.266 1.220 1.093 196.961 12.148 10.397 Kích th c t v ng 118.497 208.045

B ng 1.3 Ph ng pháp phân chia b d li u CNN/Daily Mail

B ng 1.4 là các thông tin th ng kê tóm t t c a hai b d li u CNN vƠ Daily theo s l ng cơu vƠ s l ng t

Trang 35

B d li u CNN Daily Mail

V n b n ngu n

S l ng cơu trung bình 31,86 26,24

S l ng t trung bình 643,79 680,86 Kho ng phơn b theo s cơu 14  19 13  40 Kho ng phơn b theo s t 316  971 369  991

V n b n tóm t t

S l ng cơu trung bình 3,55 3,78

S l ng t trung bình 41,67 50,44 Kho ng phơn b theo s cơu 2  4 2  4 Kho ng phơn b theo s t 32  50 30  70

B ng 1.4 Th ng kê các thông tin c a hai b d li u CNN và Daily Mail

B d li u nƠy đ c s d ng đ th nghi m cho các mô hình tóm t t đ n v n

B d li u DUC 2001 g m 297 v n b n ngu n đ c t ch c thƠnh 30 c m, m i

c m bao g m t p các v n b n ngu n, các b n tóm t t khác nhau s d ng cho tóm t t

đa v n b n (m i b n tóm t t có đ dƠi đ c c đ nh l n l t lƠ 50, 100, 200 và 400

t ) và 1 b n tóm t t s d ng cho tóm t t đ n v n b n có đ dƠi 100 t B d li u DUC 2002 g m 567 v n b n ngu n đ c t ch c thƠnh 60 c m, m i c m bao g m

t p các v n b n ngu n, các b n tóm t t khác nhau s d ng cho tóm t t đa v n b n (m i b n tóm t t có đ dƠi đ c c đ nh l n l t lƠ 10, 50, 100, 200 vƠ 400 t ) vƠ 1

b n tóm t t s d ng cho tóm t t đ n v n b n có đ dƠi 100 t

Lu n án ch s d ng 2 b d li u này đ th nghi m tóm t t đ n v n b n h ng trích rút nên lu n án s đi phơn tích th ng kê các thông tin c a v n b n ngu n, b n tóm t t s d ng cho tóm t t đ n v n b n.B ng 1.5 d i đơy là các thông tin th ng

kê c a hai b d li u theo s l ng cơu vƠ s l ng t

V n b n ngu n

S l ng cơu trung bình 41.51 26,41

S l ng t trung bình 887.12 534,71 Kho ng phơn b theo s cơu 15  68 13  40 Kho ng phơn b theo s t 321  1.453 278  791

V n b n tóm t t

S l ng cơu trung bình 4,69 5,30

S l ng t trung bình 92,47 99,65 Kho ng phơn b theo s cơu 3  6 4  7 Kho ng phơn b theo s t 85  99 95  105

B ng 1.5 Th ng kê các thông tin tóm t t c a b d li u DUC 2001 và DUC 2002

s d ng cho tóm t t đ n v n b n

Trang 36

Hai b d li u nƠy s đ c s d ng đ th nghi m cho mô hình tóm t t đ n v n

b n ti ng Anh h ng trích rút đ xu t

1.5 1.3 B d li u DUC 2004

B d li u DUC 2004 [74] đ c phát tri n b i t ch c NIST g m 50 c m v n

b n, m i c m có trung bình 10 v n b n vƠ có 4 b n tóm t t đi kèm do các chuyên gia c a NIST t o ra

B ng 1.6 là các thông tin th ng kê tóm t t c a b d li u DUC 2004 theo s

l ng cơu vƠ s l ng t trên toƠn b b d li u

Thông tin

Lo i

v n b n

S l ng câu trung bình

S t trung bình

Kho ng phân

b theo s câu Kho ng phân b theo s t

V n b n ngu n 25,45 564,12 11  41 211  917

V n b n tóm t t 6,54 104,43 4  8 99  109

B ng 1.6 Th ng kê các thông tin tóm t t c a b d li u DUC 2004

B d li u nƠy s đ c s d ng đ th nghi m cho mô hình tóm t t đa v n b n

b n tóm t t th hi n đ y đ thông tin c a m i ch đ Các b n tóm t t nƠy s đ c

s d ng đ đánh giá ch t l ng b n tóm t t c a các mô hình th nghi m

- Update task (pilot): Khác v i t p d li u Main task, m i b n tóm t t trong Update task ch ch a kho ng 100 t v i gi đ nh r ng ng i dùng đư đ c qua m t

s v n b n tr c đó r i Update task có x p x 10 ch đ , m i ch đ ch a 25 v n

b n V i m i ch đ , các v n b n đ c s p x p theo trình t th i gian vƠ sau đó

đ c phơn chia thƠnh 3 t p A, B vƠ C Trong 25 v n b n c a m i ch đ , có x p x

10 v n b n cho t p A, 8 v n b n cho t p B vƠ 7 v n b n cho t p C

B ng 1.7 là các thông tin th ng kê tóm t t c a t p d li u Main task c a b d

li u DUC 2007 theo s l ng cơu vƠ s l ng t trên toƠn b b d li u

Thông tin

Lo i

v n b n

S l ng câu trung bình

S t trung bình

Trang 37

B d li u nƠy s đ c s d ng đ th nghi m các mô hình tóm t t đa v n b n

ti ng Anh h ng trích rút vƠ h ng tóm l c đ xu t

1.5 2.ăCácăb ăd ăli uăv năb năti ngăVi t

1.5 2.1 B d li u Baomoi

B d li u cho tóm t t v n b n ti ng Vi t có tên lƠ ‘Baomoi’ B d li u nƠy

đ c t o ra b ng cách thu th p các bƠi báo t trang báo đi n t Vi t Nam (http://baomoi.com) M i bƠi báo bao g m ba ph n: Tiêu đ , tóm t t vƠ bƠi báo Do

ch a có ngu n d li u nƠo t t h n nên b d li u Baomoi lƠ l a ch n t t đ c s

d ng lƠm b d li u th nghi m cho các mô hình tóm t t đ n v n b n ti ng Vi t vƠo th i đi m nƠy B d li u Baomoi có x p x 4GB d li u bao g m 1.000.847

v n b n (trong đó: 900.847 m u đ c s d ng đ hu n luy n, 50.000 m u đ ki m tra vƠ 50.000 m u đ đánh giá), đ c chia thƠnh 1.000 b n ghi, m i b n ghi g m

h n 1.000 v n b n đ c tách nhau b i kí t ‘#‘ M i v n b n có c u trúc g m 3

ph n:

- Ph n tiêu đ : lƠ đo n đ u tiên, g m 1 cơu ng n

- Ph n tóm t t: lƠ đo n k ti p, g m t 1 đ n 2 cơu dƠi

- Ph n n i dung: lƠ đo n cu i cùng

Ph n n i dung vƠ ph n tóm t t t ng ng đ c s d ng lƠm v n b n ngu n vƠ

b n tóm t t cho bƠi toán tóm t t v n b n Các ph n nƠy đ c s d ng đ hu n luy n

vƠ đánh giá đ chính xác cho các mô hình th nghi m

B ng 1.8 là các thông tin th ng kê tóm t t c a b d li u Baomoi theo s l ng cơu vƠ s l ng t trên toƠn b b d li u

Thông tin

Lo i

v n b n

S l ng câu trung bình

S t trung bình

Kho ng phân

b theo s câu Kho ng phân b theo s t

V n b n ngu n 11,56 532,65 3  20 145  920

V n b n tóm t t 1,28 38,90 1  2 22  55

B ng 1.8 Th ng kê các thông tin tóm t t c a b d li u Baomoi

B d li u Baomoi đ c s d ng đ th nghi m cho các mô hình tóm t t đ n

v n b n ti ng Vi t h ng trích rút vƠ h ng tóm l c đ xu t c a lu n án

1.5 2.2 B d li u 200 c m

B d li u [76] g m 200 c m (trong lu n án s g i lƠ b d li u

Corpus_TMV), m i c m d li u bao g m t 2 đ n 5 v n b n, trung bình 3,16 v n

b n, 2 b n tóm t t B d li u đ c t o th công b i con ng i, trong đó vi c xơy

d ng b d li u đ c nhóm tác gi x lý g m hai b c:

- Thu th p và phân c m các v n b n: D li u đ c thu th p t trang

baomoi.com vƠ đ c phơn b trên kho ng t 8 đ n 10 ch đ g m th gi i, xư h i,

v n hóa, khoa h c vƠ công ngh , kinh t , gi i trí, th thao, giáo d c, pháp lu t, s c

kh e

Trang 38

- Sinh b n tóm t t: B n tóm t t cho các c m v n b n đ c xơy d ng b i hai

c ng tác viên đ c l p

B ng 1.9 là các thông tin th ng kê tóm t t c a b d li u Corpus_TMV theo s

l ng cơu vƠ s l ng t trên toƠn b b d li u

Thông tin

Lo i

v n b n

S l ng câu trung bình

S t trung bình

Kho ng phân

b theo s câu Kho ng phân b theo s t

V n b n ngu n 14,86 477,95 5  23 168  786

V n b n tóm t t 4,71 178,56 3  6 125  231

B ng 1.9 Th ng kê các thông tin tóm t t c a b d li u Corpus_TMV

B d li u nƠy s đ c s d ng đ th nghi m cho các mô hình tóm t t đa v n

- Thu th p và phân c m các v n b n: D li u đ c nhóm tác gi thu th p t

trang news.google.com (Google News) ti ng Vi t, nhóm tác gi ch thu th p t các ngu n m thay vì toƠn b ngu n t Google News (vì lý do b n quy n) Các v n b n thu th p g m các ch đ : th gi i, kinh t , tin t c trong n c, gi i trí, th thao

- Sinh b n tóm t t: Hai ng i tóm t t v i s h tr c a ph n m m MDSWriter

[78] t o ra b n tóm t t cho các c m v n b n đư thu th p

B ng 1.10 là các thông tin th ng kê tóm t t c a b d li u ViMs theo s l ng cơu vƠ s l ng t trên toƠn b b d li u

Thông tin

Lo i

v n b n

S l ng câu trung bình

S t trung bình

Kho ng phân

b theo s câu Kho ng phân b theo s t

V n b n ngu n 12,54 390,45 5  19 165  615

V n b n tóm t t 5,35 220,94 3  7 144  296

B ng 1.10 Th ng kê các thông tin tóm t t c a b d li u ViMs

B d li u này s đ c s d ng đ th nghi m cho các mô hình tóm t t đa v n

b n ti ng Vi t h ng trích rút vƠ h ng tóm l c đ xu t

1.6 ăK tălu năch ngă1

V i m c tiêu c a đ tƠi, ch ng nƠy đư trình bƠy m t s ki n th c c s liên quan đ n đ tƠi nghiên c u nh sau:

Trang 39

- T ng quan v bƠi toán tóm t t v n b n vƠ m t s v n đ liên quan nh phơn

lo i bƠi toán tóm t t v n b n g m tóm t t đ n v n b n, tóm t t đa v n b n, tóm t t

v n b n h ng trích rút, tóm t t v n b n h ng tóm l c, các b c th c hi n trong tóm t t v n b n, m t s đ c tr ng c a v n b n th ng đ c s d ng trong các h

th ng tóm t t v n b n Các v n đ nƠy đư m ra đ nh h ng nghiên c u cho lu n

án

- M t s ph ng pháp đánh giá v n b n tóm t t t đ ng

- Các ph ng pháp ghép v n b n trong tóm t t đa v n b n

- Các ph ng pháp tóm t t v n b n h ng trích rút c s đ c s d ng đ so sánh v i các mô hình tóm t t v n b n đ xu t

- Cu i cùng, lu n án gi i thi u vƠ phơn tích các b d li u đ c s d ng đ th nghi m cho các mô hình tóm t t v n b n đ xu t

Các ki n th c c s liên quan trong ch ng 1 đ c trình bƠy trong các công trình nghiên c u đư công b c a lu n án Các ki n th c trình bƠy trong ch ng nƠy

lƠ c s đ đ xu t vƠ phát tri n các nghiên c u c a lu n án Trong ch ng 2, lu n

án s trình bƠy các ki n th c n n t ng đ c s d ng đ phát tri n các ph ng pháp tóm t t v n b n đ xu t

Trang 40

Ch ngă2.ăCÁCăKI NăTH CăN NăT NG

Ch ng nƠy trình bƠy các ki n th c n n t ng s d ng đ phát tri n các ph ng pháp tóm t t v n b n trong lu n án bao g m các k thu t h c sơu c s nh m ng Perceptron nhi u l p, m ng n ron tích ch p, m ng n ron h i quy vƠ các bi n th

c a m ng n ron h i quy, c ch chú ý, mô hình Transformer, các mô hình ngôn

ng d a trên h c sơu đ c hu n luy n tr c nh ph ng pháp word2vec, mô hình BERT, BERT đa ngôn ng , các mô hình t i u c a BERT, BERT thu nh đ véc t hóa v n b n Ch ng nƠy c ng trình bày các thu t toán đ c s d ng trong các mô hình tóm t t đ xu t nh h c t ng c ng Deep Q-Learning, tìm ki m Beam, ph ng pháp MMR lo i b thông tin trùng l p Nh ng ki n th c trình bƠy trong ch ng nƠy

lƠ c s cho vi c phát tri n các đ xu t trong các ch ng ti p theo

2.1 Cácăk ăthu tăh căsơuăc ăs

Khi m ng n ron có nhi u l p thì th i gian tính toán s t ng lên đáng k nên

m ng MLP th ng đ c hu n luy n b i gi i thu t lan truy n ng c (Back Propagation Algorithm) [80] đ gi m th i gian hu n luy n M ng MLP v i ki n trúc m ng linh ho t đư đ t đ c đ hi u qu cao trong các bƠi toán v x lý v n

b n, nh, video Ki n trúc c a m ng th ng đ c xơy d ng d a vƠo kinh nghi m

th c t vƠ th c nghi m

Ngày đăng: 01/03/2022, 16:34

HÌNH ẢNH LIÊN QUAN

Hình 1.2 . Ph ng pháp x  lý tóm t t t ng đ n v n b n trong tóm t t đa v n b n - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 1.2 Ph ng pháp x lý tóm t t t ng đ n v n b n trong tóm t t đa v n b n (Trang 32)
Hình 2.2.  M t ki n trúc  CNN  cho bài toán phân lo i  nh  [84] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.2. M t ki n trúc CNN cho bài toán phân lo i nh [84] (Trang 41)
Hình 2.4. Mô hình  m ng n  ron h i quy  [87] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.4. Mô hình m ng n ron h i quy [87] (Trang 43)
Hình 2.8 . Minh h a biLSTM   3 b c  (t-1), t và (t+ 1) [91] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.8 Minh h a biLSTM 3 b c (t-1), t và (t+ 1) [91] (Trang 47)
Hình 2.10 . Mô hình m ng chu i sang chu i  [92] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.10 Mô hình m ng chu i sang chu i [92] (Trang 49)
Hình 2.12. Mô hình Transformer [97] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.12. Mô hình Transformer [97] (Trang 53)
Hình 2.13. Scaled Dot-Product Attention và Multi-Head Attention [97] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.13. Scaled Dot-Product Attention và Multi-Head Attention [97] (Trang 54)
Hình 2.16. Mô hình Skip-Gram [101] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.16. Mô hình Skip-Gram [101] (Trang 56)
Hình 2.15 . Mô hình CBoW v i nhi u t  làm ng  c nh đ  d  đoán t  ti p theo  [101] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.15 Mô hình CBoW v i nhi u t làm ng c nh đ d đoán t ti p theo [101] (Trang 56)
Hình 2.18. B i u di n đ u vào c a mô hình BERT  [102] - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.18. B i u di n đ u vào c a mô hình BERT [102] (Trang 58)
Hình 2.19. Mô hình  bi u di n các b c ch ng c t đ c hu n luy n tr c c a các - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 2.19. Mô hình bi u di n các b c ch ng c t đ c hu n luy n tr c c a các (Trang 62)
Hình 3.2. Mô hình  tóm t t đ n v n b n h ng trích rút  RoPhoBERT_MLP_ESDS - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 3.2. Mô hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_MLP_ESDS (Trang 70)
Hình 3.3.  Ki n trúc m ng MLP đ  xu t c a mô hình - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 3.3. Ki n trúc m ng MLP đ xu t c a mô hình (Trang 71)
Hình 3.5 . Ki n trúc l p Convolution v i k -Max Pooling (k =  2) - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 3.5 Ki n trúc l p Convolution v i k -Max Pooling (k = 2) (Trang 79)
Hình 3.7 . Mô hình tóm t t v n b n h ng trích rút mBERT - - Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Hình 3.7 Mô hình tóm t t v n b n h ng trích rút mBERT - (Trang 85)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w