DANHăM CăCÁCăB NGB ng 1.1.. So sánh và đánh giá hi u qu các ph ng pháp... DANHăM CăCÁCăHỊNHăV ,ă ăTH Hình 1.1.. Scaled Dot-Product Attention và Multi-Head Attention [97] ..... Iraqis fin
Trang 1L IăCAMă OAN
Tôi tên là L u Minh Tu n, xin cam đoan đơy lƠ công trình nghiên c u c a b n thơn nghiên c u sinh trong th i gian h c t p vƠ nghiên c u d i s h ng d n c a
ng i h ng d n khoa h c Các k t qu nghiên c u trình bƠy trong lu n án lƠ trung
th c, chính xác vƠ ch a t ng đ c công b trong b t k công trình nƠo khác Các
k t qu nghiên c u vi t chung v i các tác gi khác đ u đ c s đ ng ý c a đ ng tác
gi tr c khi đ a vƠo lu n án Các k t qu s d ng đ tham kh o đ u đ c trích d n
đ y đ vƠ theo đúng quy đ nh
Hà N i, ngày tháng n m 2022
Nghiên c u sinh
L u Minh Tu n
NG I H NG D N KHOA H C
Trang 2L IăC Mă Nă
Trong quá trình h c t p và nghiên c u, nghiên c u sinh đư nh n đ c nhi u s giúp đ vƠ ý ki n đóng góp quý báu c a các th y cô L i đ u tiên, nghiên c u sinh xin đ c bƠy t lòng kính tr ng vƠ bi t n sơu s c t i PGS TS Lê Thanh H ng -
ng i h ng d n khoa h c đư t n tình ch b o, h ng d n đ nghiên c u sinh có th hoàn thành đ c lu n án nƠy Nghiên c u sinh xin g i l i c m n chân thành t i PGS TS Nguy n Bình Minh v nh ng ý ki n đóng góp quý báu trong nh ng bu i
xê mi na khoa h c nhi u gian nan trong su t th i gian nghiên c u và hoàn thành
lu n án Nghiên c u sinh xin g i l i c m n đ n các th y cô c a B môn H th ng thông tin, Vi n Công ngh thông tin vƠ truy n thông, Phòng đƠo t o, Tr ng i
h c Bách khoa HƠ N i, n i nghiên c u sinh h c t p vƠ nghiên c u đư t o đi u ki n
t t nh t có th cho nghiên c u sinh trong su t th i gian h c t p vƠ nghiên c u đ nghiên c u sinh có th hoƠn thƠnh lu n án ti n s m t cách t t nh t Xin c m n Ban giám hi u Tr ng i h c Kinh t Qu c dơn, Ban Lưnh đ o Vi n Công ngh thông tin vƠ Kinh t s , các th y cô B môn Công ngh thông tin - n i nghiên c u sinh công tác vƠ các đ ng nghi p đư luôn quan tơm giúp đ , t o đi u ki n t t nh t đ nghiên c u sinh có th hoàn thành t t k ho ch h c t p vƠ nghiên c u c a mình L i
cu i, nghiên c u sinh xin chơn thƠnh c m n các thƠnh viên trong gia đình, ng i thơn, b n bè đư dành cho nghiên c u sinh nh ng tình c m t t đ p, luôn đ ng viên, giúp đ nghiên c u sinh v t qua nh ng khó kh n trong quá trình h c t p vƠ nghiên
c u đ đ t đ c k t qu nh ngày hôm nay ơy c ng lƠ món quƠ tinh th n mƠ nghiên c u sinh trơn tr ng g i t ng đ n các thƠnh viên trong gia đình vƠ ng i thơn
M t l n n a nghiên c u sinh xin chơn thƠnh c m n!
Trang 3M CăL C
DANH M C CÁC KÝ HI U VÀ CH VI T T T iv
DANH M C CÁC B NG vi
DANH M C CÁC HÌNH V , TH ix
DANH M C KÝ HI U TOÁN H C xi
M U 1
Ch ng 1 T NG QUAN V TÓM T T V N B N 11
1.1 Gi i thi u v tóm t t v n b n 11
1.1.1 Gi i thi u bƠi toán tóm t t v n b n 11
1.1.2 Phơn lo i bƠi toán tóm t t v n b n 12
1.1.3 Các b c th c hi n trong tóm t t v n b n 13
1.1.4 M t s đ c tr ng c a v n b n 13
1.2 M t s ph ng pháp đánh giá v n b n tóm t t t đ ng 14
1.2.1 Ph ng pháp d a trên đ t ng t v n i dung 14
1.2.2 Ph ng pháp d a trên đ t ng quan phù h p 14
1.2.3 Ph ng pháp ROUGE 15
1.3 Các ph ng pháp k t h p v n b n trong tóm t t đa v n b n 18
1.4 Các ph ng pháp tóm t t v n b n h ng trích rút c s 20
1.4.1 PageRank 20
1.4.2 TextRank 20
1.4.3 LexRank 20
1.4.4 Lead-Based 21
1.5 Các b d li u th nghi m 21
1.5.1 Các b d li u v n b n ti ng Anh 21
1.5.2 Các b d li u v n b n ti ng Vi t 24
1.6 K t lu n ch ng 1 25
Ch ng 2 CÁC KI N TH C N N T NG 27
2.1 Các k thu t h c sâu c s 27
2.1.1 M ng Perceptron nhi u l p 27
2.1.2 M ng n ron tích ch p 28
2.1.3 M ng n ron h i quy 30
2.1.4 Các bi n th c a RNN 31
2.1.5 Mô hình chu i sang chu i c b n 35
2.1.6 C ch chú ý 36
2.1.7 C ch t chú ý vƠ mô hình Transformer 39
2.2 Các mô hình ngôn ng d a trên h c sâu đ c hu n luy n tr c 42
2.2.1 Mư hóa t 42
Trang 42.2.2 Ph ng pháp Word2Vec 42
2.2.3 Mô hình BERT 44
2.2.4 Các phiên b n ch y u c a mô hình BERT 47
2.3 K thu t h c t ng c ng Q-Learning 49
2.3.1 H c t ng c ng Q-Learning 49
2.3.2 Thu t toán h c t ng c ng Deep Q-Learning 50
2.4 Tìm ki m Beam 51
2.5 Ph ng pháp đ liên quan c n biên t i đa 51
2.6 K t lu n ch ng 2 53
Ch ng 3 PHÁT TRI N CÁC PH NG PHÁP TÓM T T N V N B N H NG TRÍCH RÚT 54
3.1 Gi i thi u bài toán và h ng ti p c n 54
3.2 Mô hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_MLP_ESDS 56
3.2.1 Gi i thi u mô hình 56
3.2.2 Mô hình tóm t t v n b n đ xu t 56
3.2.3 Th nghi m mô hình 59
3.2.4 ánh giá vƠ so sánh k t qu 63
3.3 Mô hình tóm t t đ n v n b n h ng trích rút mBERT_CNN_ESDS 64
3.3.1 Gi i thi u mô hình 64
3.3.2 Mô hình tóm t t v n b n đ xu t 64
3.3.3 Th nghi m mô hình 67
3.3.4 ánh giá vƠ so sánh k t qu 71
3.4 Mô hình tóm t t đ n v n b n h ng trích rút mBERT-Tiny_ seq2seq_DeepQL_ESDS 71
3.4.1 Gi i thi u mô hình 71
3.4.2 Mô hình tóm t t v n b n đ xu t 72
3.4.3 Hu n luy n mô hình v i k thu t h c t ng c ng 74
3.4.4 Th nghi m mô hình 75
3.4.5 ánh giá vƠ so sánh k t qu 78
3.5 So sánh đánh giá ba mô hình tóm t t đ n v n b n h ng trích rút đ xu t 79
3.6 K t lu n ch ng 3 80
Ch ng 4 PHÁT TRI N PH NG PHÁP TÓM T T N V N B N H NG TÓM L C 82
4.1 Gi i thi u bài toán và h ng ti p c n 82
4.2 Mô hình tóm t t c s 84
4.2.1 Mô hình seq2seq c a mô hình 84
Trang 54.2.2 C ch chú ý áp d ng trong mô hình 85
4.2.3 M ng sao chép t - sinh t 86
4.2.4 C ch bao ph 87
4.3 Mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS 87 4.3.1 Các đ c tr ng đ xu t thêm m i cho mô hình 88
4.3.2 Mô hình tóm t t đ n v n b n h ng tóm l c đ xu t 89
4.4 Th nghi m mô hình 89
4.4.1 Các b d li u th nghi m 89
4.4.2 Ti n x lý d li u 90
4.4.3 Thi t k th nghi m 90
4.5 ánh giá và so sánh k t qu 91
4.6 K t lu n ch ng 4 93
Ch ng 5 PHÁT TRI N CÁC PH NG PHÁP TÓM T T A V N B N 94 5.1 Gi i thi u bài toán tóm t t đa v n b n và h ng ti p c n 94
5.2 Mô hình tóm t t đa v n b n h ng trích rút Kmeans_Centroid_EMDS 95
5.2.1 Gi i thi u mô hình 95
5.2.2 Các thƠnh ph n chính c a mô hình 96
5.2.3 Mô hình tóm t t đa v n b n đ xu t 100
5.2.4 Th nghi m mô hình vƠ k t qu 104
5.2.5 So sánh vƠ đánh giá k t qu 107
5.3 Các mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình tóm t t đ n v n b n đ c hu n luy n tr c 110
5.3.1 t v n đ 110
5.3.2 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình tóm t t đ n v n b n h ng tóm l c đ c hu n luy n tr c PG_Feature_AMDS 110 5.3.3 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình tóm t t đ n v n b n h n h p đ c hu n luy n tr c Ext_Abs_AMDS-mds-mmr 121 5.4 K t lu n ch ng 5 132
K T LU N 133
DANH M C CÁC CÔNG TRÌNH Ã CÔNG B 136
TÀI LI U THAM KH O 137
PH L C 1
Ph l c A: V n b n ngu n c a các v n b n tóm t t ví d 1
Ph l c B: Bi u đ phân b c a các b d li u th nghi m 3
Ph l c C: V n b n ngu n c a các m u tóm t t th nghi m 9
Trang 6DANHăM CăCÁCăKụăHI UăVÀăCH ăVI TăT T
AMDS Abstractive Multi-Document
Summarization
Tóm t t đa v n b n h ng tóm l c
ASDS Abstractive Single-Document
Summarization
Tóm t t đ n v n b n h ng tóm l c
BERT Bidirectional Encoder Representation
from Transformers
Mô hình bi u di n mư hóa hai chi u t Transformer
biGRU Bidirectional Gated Recurrent Unit M ng GRU 2 chi u
biLSTM Bidirectional Long Short Term
Memory
M ng LSTM 2 chi u
BPTT Backpropagation Through Time Thu t toán lan truy n ng c
liên h i CNN Covolutional Neural Network M ng n ron tích ch p
DeepQL Deep Q-Learning Thu t toán h c t ng c ng
d a trên m ng n ron sơu
Summarization
Tóm t t đa v n b n h ng trích rút
ESDS Extractive Single-Document
Summarization
Tóm t t đ n v n b n h ng trích rút
GLUE General Language Understanding
Evaluation
ánh giá hi u ngôn ng chung
GRU Gated Recurrent Unit Mô hình đ n v h i quy có
ki m soát 1 chi u ILP Interger Linear Programming Quy ho ch tuy n tính
nguyên
LCS Longest Common Subsequence Dưy con chung l n nh t LDA Latent Dirichlet Allocation Mô hình ch đ n
LSA Latent Semantic Analysis Phơn tích ng ngh a ti m n LSTM Long Short Term Memory Mô hình m ng b nh ng n
h n dƠi h n 1 chi u
mds multi-document summaryzation Tóm t t đa v n b n
MLP Multi Layer Perceptron M ng Perceptron nhi u l p MMR Maximal Marginal Relevance liên quan c n biên t i đa NLP Natural Language Processing X lý ngôn ng t nhiên
Trang 7OOV Out Of Vocabulary Không có trong b t v ng
RNN Recurent Neural Network M ng n ron h i quy
h tr cho ti ng Anh ROUGE Recall-Oriented Understudy for
Gisting Evaluation
đo Rouge
seq2seq Sequence to sequence Mô hình chu i sang chu i SQuAD Stanford Question Answering Dataset B d li u h i đáp c a
Stanford SVM Support Vector Machine Mô hình máy véc t h tr TF-IDF Term Frequency – Inverse Document
Frequency
Tr ng s c a t (m c đ quan tr ng c a t ) trong v n
Trang 8DANHăM CăCÁCăB NG
B ng 1.1 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Anh 12
B ng 1.2 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Vi t 12
B ng 1.3 Ph ng pháp phân chia b d li u CNN/Daily Mail 21
B ng 1.4 Th ng kê các thông tin c a hai b d li u CNN và Daily Mail 22
B ng 1.5 Th ng kê các thông tin tóm t t c a b d li u DUC 2001 và DUC 2002 s d ng cho tóm t t đ n v n b n 22
B ng 1.6 Th ng kê các thông tin tóm t t c a b d li u DUC 2004 23
B ng 1.7 Th ng kê các thông tin tóm t t c a t p d li u Main task c a b d li u DUC 2007 23
B ng 1.8 Th ng kê các thông tin tóm t t c a b d li u Baomoi 24
B ng 1.9 Th ng kê các thông tin tóm t t c a b d li u Corpus_TMV 25
B ng 1.10 Th ng kê các thông tin tóm t t c a b d li u ViMs 25
B ng 3.1 K t qu th nghi m m t s ph ng pháp tóm t t v n b n c s Ký hi u ‘*’ th hi n ph ng pháp đ c tri n khai th nghi m trên các b d li u t ng ng 60
B ng 3.2 Giá tr các siêu tham s và th i gian hu n luy n các mô hình xây d ng 61 B ng 3.3 K t qu th nghi m c a các mô hình xây d ng Ký hi u ‘-’ bi u di n mô hình mà lu n án không th nghi m trên b d li u t ng ng 61
B ng 3.4 M t m u tóm t t trên b d li u CNN 62
B ng 3.5 M t m u tóm t t trên b d li u Baomoi 63
B ng 3.6 So sánh và đánh giá hi u qu các ph ng pháp Ký hi u ‘*’,‘-’ bi u di n các ph ng pháp đ c th nghi m, không đ c th nghi m trên các b d li u t ng ng 63
B ng 3.7 Các k t qu th nghi m c a các mô hình xây d ng 69
B ng 3.8 K t qu th nghi m các ph ng pháp trên b d li u DUC 2001 và DUC 2002 Ký hi u ‘*’, ‘-’ bi u di n các ph ng pháp đ c th nghi m, không đ c th nghi m trên các b d li u t ng ng 69
B ng 3.9 M t m u tóm t t trên b d li u CNN 70
B ng 3.10 M t m u tóm t t trên b d li u Baomoi 70
B ng 3.11 So sáng và đánh giá hi u qu c a các ph ng pháp Ký hi u ‘*’, ‘-’ bi u di n các ph ng pháp đ c th nghi m, không đ c th nghi m trên các b d li u t ng ng 71
B ng 3.12 B ng giá tr các siêu tham s cài đ t cho mô hình hu n luy n v i k thu t h c t ng c ng Deep Q-Learning 74
Trang 9B ng 3.13 Giá tr các siêu tham s và th i gian hu n luy n các mô hình xây d ng
76
B ng 3.14 K t qu th nghi m c a các mô hình xây d ng 77
B ng 3.15 M t m u tóm t t trên b d li u CNN 77
B ng 3.16 M t m u tóm t t trên b d li u Baomoi 78
B ng 3.17 So sánh và đánh giá k t qu các ph ng pháp 78
B ng 3.18 So sánh đánh giá đ chính xác c a 3 mô hình đ xu t 79
B ng 3.19 So sánh đánh giá th i gian th c hi n c a 3 mô hình đ xu t 80
B ng 4.1 K t qu th nghi m c a các mô hình trên b d li u CNN/Daily Mail Ký hi u ‘(*)’ là mô hình c a See và c ng s [43] 91
B ng 4.2 K t qu th nghi m c a các mô hình trên b d li u Baomoi Ký hi u ‘(*)’ là mô hình c a See và c ng s [43] 91
B ng 4.3 M u tóm t t g m b n tóm t t tham chi u, b n tóm t t c a mô hình trong [43] và b n tóm t t c a mô hình đ xu t trên b d li u CNN/Daily Mail 92
B ng 4.4 M u tóm t t g m b n tóm t t tham chi u, b n tóm t t c a mô hình trong [43] và b n tóm t t c a mô hình đ xu t trên b d li u Baomoi 93
B ng 5.1 Giá tr c a các tham s s d ng khi th nghi m các mô hình Ký hi u ‘-‘ bi u di n mô hình không s d ng các tham s t ng ng 105
B ng 5.2 K t qu th nghi m các mô hình xây d ng trên hai b d li u 106
B ng 5.3 K t qu th nghi m các ph ng pháp tóm t t trên b d li u DUC 2007 106
B ng 5.4 So sánh và đánh giá k t qu c a các ph ng pháp Ký hi u ‘-’ bi u di n các ph ng pháp không đ c th nghi m trên b d li u t ng ng 107
B ng 5.5 Các m u tóm t t c a c m D0716D trong b d li u DUC 2007 c a mô hình đ xu t và con ng i 109
B ng 5.6 Các m u tóm t t c a c m Cluster_2 trong b d li u Corpus_TMV c a mô hình đ xu t và con ng i 109
B ng 5.6 Giá tr các siêu tham s và th i gian hu n luy n mô hình Warmup là quá trình hu n luy n ban đ u v i t l h c nh đ hi u ch nh c ch chú ý 118
B ng 5.7 K t qu th nghi m c a các mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS trên các b d li u CNN và Baomoi 118
B ng 5.8 K t qu th nghi m mô hình PG_Feature_AMDS trên b DUC 2004 và Corpus_TMV s d ng mô hình PG_Feature_ASDS ch a đ c hu n luy n ti p trên b DUC 2007 và b ViMs t ng ng 118
B ng 5.9 K t qu th nghi m mô hình PG_Feature_AMDS trên b DUC 2004 và Corpus_TMV s d ng mô hình PG_Feature_ASDS đã đ c hu n luy n ti p trên b DUC 2007 và b ViMs t ng ng 119
B ng 5.10 M t m u th nghi m trên b d li u DUC 2004 119
Trang 10B ng 5.11 M t m u th nghi m trên b d li u Corpus_TMV 120
B ng 5.12 So sáng và đánh giá k t qu c a các ph ng pháp Ký hi u ‘-’ bi u di n các ph ng pháp không đ c th nghi m trên các b d li u t ng ng 120
B ng 5.13 Giá tr các siêu tham s và th i gian hu n luy n các mô hình 128
B ng 5.14 K t qu th nghi m c a các mô hình tóm t t đ n v n b n trên các b d
li u CNN/Daily Mail và Baomoi 129
B ng 5.15 K t qu th nghi m các mô hình xây d ng trên b d li u DUC 2004 và
Corpus_TMV 129
B ng 5.16 M t m u th nghi m trên b d li u DUC 2004 130
B ng 5.17 M t m u th nghi m trên b d li u Corpus_TMV 131
B ng 5.18 So sáng và đánh giá k t qu c a các ph ng pháp Ký hi u ‘-’ bi u di n các ph ng pháp không đ c th nghi m trên các b d li u t ng ng 131
Trang 11DANHăM CăCÁCăHỊNHăV ,ă ăTH
Hình 1.1 Các b c th c hi n trong tóm t t v n b n 13
Hình 1.2 Ph ng pháp x lý tóm t t t ng đ n v n b n trong tóm t t đa v n b n 19
Hình 2.1 Mô hình m ng MLP m t l p n vƠ nhi u l p n [79] 27
Hình 2.2 M t ki n trúc CNN cho bƠi toán phơn lo i nh [84] 28
Hình 2.3 Tính toán v i ph ng th c Average Pooling vƠ Max Pooling [82] 29
Hình 2.4 Mô hình m ng n ron h i quy [87] 30
Hình 2.5 Ki n trúc t ng quan m t t bƠo nh LSTM (ngu n: [Internet]) 31
Hình 2.6 Chi ti t t bƠo nh LSTM [91] 32
Hình 2.7 Ki n trúc t ng quan c a m ng biLSTM [88] 33
Hình 2.8 Minh h a biLSTM 3 b c (t-1), t và (t+1) [91] 34
Hình 2.9 Chi ti t t bƠo nh GRU [89] 35
Hình 2.10 Mô hình m ng chu i sang chu i [92] 36
Hình 2.11 Mô hình minh h a c ch chú ý sinh t m c tiêu yt t cơu ngu n 1 2 ( ,x x, )xT [93] 37
Hình 2.12 Mô hình Transformer [97] 40
Hình 2.13 Scaled Dot-Product Attention và Multi-Head Attention [97] 41
Hình 2.14 Mô hình CBoW v i m t t lƠm ng c nh đ d đoán t ti p theo [101] 42
Hình 2.15 Mô hình CBoW v i nhi u t lƠm ng c nh đ d đoán t ti p theo [101] 43
Hình 2.16 Mô hình Skip-Gram [101] 43
Hình 2.17 Ki n trúc mô hình BERT [102] 44
Hình 2.18 Bi u di n đ u vƠo c a mô hình BERT [102] 45
Hình 2.19 Mô hình bi u di n các b c ch ng c t đ c hu n luy n tr c c a các mô hình BERT thu nh [111] 49
Hình 2.20 Mô hình h c t ng c ng 49
Hình 3.1 Khung x lý chung cho các mô hình tóm t t đ n v n b n h ng trích rút đ xu t 55
Hình 3.2 Mô hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_MLP_ESDS 57
Hình 3.3 Ki n trúc m ng MLP đ xu t c a mô hình 58
Hình 3.4 Mô hình tóm t t v n b n h ng trích rút mBERT_CNN_ESDS 64
Trang 12Hình 3.5 Ki n trúc l p Convolution v i k-Max Pooling (k = 2) 66Hình 3.6 Ki n trúc mô hình Encoder-Decoder đ xu t 66Hình 3.7 Mô hình tóm t t v n b n h ng trích rút mBERT-Tiny_seq2seq_DeepQL_ESDS 72Hình 3.8 Mô hình hu n luy n v i k thu t h c t ng c ng Deep Q-Learning 75Hình 4.1 Mô hình tóm t t đ n v n b n h ng tóm l c c s [128] 84Hình 4.2 Mô hình tóm t t đ n v n b n h ng tóm l c đ xu t PG_Feature_ASDS 89Hình 5.1 Mô hình s d ng thu t toán phơn c m K-means k t h p v trí t ng đ i
c a cơu 100Hình 5.2 Mô hình s d ng thu t toán phơn c m K-means k t h p v trí cơu 101Hình 5.3 Mô hình s d ng thu t toán phơn c m K-means k t h p MMR vƠ v trí câu 102Hình 5.4 Mô hình s d ng thu t toán phơn c m K-means k t h p Centroid-based, MMR vƠ v trí cơu 103Hình 5.5 Mô hình tóm t t đa v n b n h ng trích rút đ xu t Kmeans_Centroid_EMDS 104Hình 5.6 Minh h a ph ng pháp PG-MMR (k=2) [147] 113Hình 5.7 Mô hình tóm t t đa v n b n h ng tóm l c đ xu t PG_Feature_AMDS 114Hình 5.8 Các giai đo n hu n luy n mô hình tóm t t đa v n b n h ng tóm l c đ
xu t PG_Feature_AMDS 116Hình 5.9 Mô hình tóm t t đ n v n b n h ng trích rút RoPhoBERT_CNN_ESDS 122Hình 5.10 Mô hình tóm t t đ n v n b n h ng tóm l c PG_TF-IDF_ASDS 123Hình 5.11 Mô hình tóm t t đ n v n b n h n h p Ext_Abs_ASDS 124Hình 5.12 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình pre-trained Ext_Abs_ASDS đ xu t (MMR áp d ng trên t ng v n b n) 124Hình 5.13 Mô hình tóm t t đa v n b n h ng tóm l c d a trên mô hình pre-trained Ext_Abs_ASDS v i ph ng pháp MMR áp d ng trên t p đa v n b n 125Hình 5.14 Các giai đo n hu n luy n mô hình tóm t t đa v n b n h ng tóm l c đ
xu t Ext_Abs_AMDS-mds-mmr 126
Trang 13DANHăM CăKụăHI UăTOÁNăH C
AT Ma tr n chuy n v c a ma tr n A
A-1 Ma tr n ngh ch đ o c a ma tr n A [A; B] Ghép 2 ma tr n A vƠ ma tr n B
Trang 14M ă U
1 B i c nh nghiên c u
Trong k nguyên s vƠ m ng Internet phát tri n m nh m nh hi n nay, các tƠi nguyên trên internet nh các trang web, đánh giá c a ng i dùng, tin t c, blog,
m ng xư h i, lƠ nh ng ngu n d li u v n b n to l n Bên c nh đó, có m t kh i
l ng n i dung v n b n phong phú khác trên các kho l u tr nh các bài báo tin
t c, ti u thuy t, sách, v n b n pháp lu t, tƠi li u y sinh, bƠi báo khoa h c, Các n i dung v n b n này t ng lên theo c p s nhơn hƠng ngƠy Do đó, ng i dùng m t r t nhi u th i gian đ tìm ki m thông tin mà mình mong mu n K t qu lƠ ng i dùng
th m chí không th đ c vƠ hi u h t đ c t t c n i dung v n b n k t qu tìm ki m
Có nhi u thông tin b l p l i ho c không quan tr ng trong các v n b n k t qu tìm
ki m Do đó, vi c tóm t t vƠ cô đ ng các ngu n v n b n tr nên c p thi t vƠ quan
tr ng h n r t nhi u Tóm t t v n b n th công lƠ m t nhi m v t n kém vƠ tiêu t n nhi u th i gian vƠ công s c c a con ng i Trên th c t , con ng i c ng r t khó tóm t t th công v i l ng d li u v n b n kh ng l nƠy [1] gi i quy t các v n
đ nƠy, các ph ng pháp tóm t t v n b n t đ ng đ c quan tơm nghiên c u đ phát tri n các h th ng tóm t t v n b n t đ ng
M c tiêu chính c a các h th ng tóm t t v n b n t đ ng lƠ t o ra b n tóm t t bao
g m các ý chính c a m t v n b n ho c nhi u v n b n đ u vƠo vƠ thông tin l p l i ít
nh t [2,3] Các h th ng tóm t t v n b n t đ ng sinh ra các b n tóm t t giúp ng i dùng n m đ c nh ng đi m chính c a v n b n g c mƠ không c n ph i đ c toƠn b
v n b n Ng i dùng s đ c h ng l i t các b n tóm t t đ c sinh ra t đ ng, ti t
ki m đ c nhi u th i gian vƠ công s c
Các h th ng tóm t t v n b n t đ ng hi n nay có th đ c chia thƠnh hai lo i lƠ tóm t t đ n v n b n vƠ tóm t t đa v n b n Tóm t t đ n v n b n sinh ra b n tóm t t
t m t v n b n đ u vƠo, trong khi tóm t t đa v n b n sinh ra b n tóm t t t m t t p các v n b n đ u vƠo Các h th ng tóm t t v n b n t đ ng này đ c phát tri n
b ng vi c áp d ng m t trong các ph ng pháp ti p c n ch y u lƠ tóm t t v n b n
h ng trích rút vƠ tóm t t v n b n h ng tóm l c
Tóm t t v n b n h ng trích rút: LƠ ph ng pháp l a ch n nh ng câu quan
tr ng nh t trong m t v n b n ngu n (ho c m t t p v n b n ngu n) và s d ng các cơu nƠy đ sinh b n tóm t t Ph ng pháp nƠy bao g m các nhi m v x lý chính
nh : T o m t bi u di n thích h p cho v n b n đ u vào, cho đi m các câu, trích rút các câu có đi m cao Các h th ng tóm t t v n b n h ng trích rút có th chia thành các ph ng pháp ch y u sau:
Ph ng pháp d a trên th ng kê: Trích rút các câu và các t quan tr ng t v n
b n ngu n d a trên phân tích th ng kê c a t p các đ c tr ng Các h th ng d a trên
ph ng pháp th ng kê [4,5] th c hi n cho đi m câu b ng cách ch n và tính toán
m t s đ c tr ng th ng kê, sau đó gán các tr ng s cho chúng vƠ gán đi m cu i cùng cho m i cơu trong v n b n đ c xác đ nh b i bi u th c tr ng s - đ c tr ng (ngh a lƠ t t c đi m c a các đ c tr ng đư ch n đ c tính toán và tính t ng đ thu
Trang 15đ c đi m c a m i câu) Bên c nh đó, h th ng Lead [6] ch n các cơu đ a vƠo b n tóm t t d a vào trình t th i gian đư cho k t qu khá cao
Ph ng pháp d a trên khái ni m: Trích xu t các khái ni m t m t đo n v n
b n t các c s tri th c bên ngoƠi nh WordNet [7], Wikipedia, Sau đó, đ quan
tr ng c a các cơu đ c xác đ nh d a trên các khái ni m đ c l y t c s tri th c bên ngoài thay vì các t Các h th ng này th c hi n cho đi m các câu b ng cách trích xu t các khái ni m c a m t v n b n t c s tri th c bên ngoài, xây d ng m t véc t khái ni m ho c mô hình đ th đ ch ra m i quan h gi a khái ni m và câu
r i áp d ng m t thu t toán x p h ng đ cho đi m các câu nh trong [8]
Ph ng pháp d a trên ch đ : Ph ng pháp nƠy d a vào vi c xác đ nh ch đ chính c a v n b n Có m t s ph ng pháp bi u di n ch đ ph bi n là ph ng pháp d a trên t ch đ , t n su t xu t hi n c a t (TF), tr ng s th hi n m c đ quan tr ng c a t (TF-IDF), chu i t v ng [9,10] Các b c x lý chung c a các h
th ng tóm t t trích rút d a trên ch đ bao g m chuy n đ i v n b n đ u vào thành
m t bi u di n trung gian, n m b t các ch đ đư đ c p trong v n b n đ u vào và gán đi m m c đ quan tr ng cho m i câu trong v n b n đ u vào theo bi u di n c a
nó
Ph ng pháp d a trên tr ng tâm hay phân c m cơu: Trong ph ng pháp nƠy,
h th ng tóm t t trích rút đa v n b n xác đ nh các câu tr ng tâm và quan tr ng nh t trong m t c m sao cho chúng ch a các thông tin quan tr ng liên quan đ n c m ch
đ chính [11,12,13] Tr ng tâm c a cơu đ c xác đ nh b ng cách s d ng tr ng tâm
c a các t Cách ph bi n đ xác đ nh tr ng tâm c a t là tìm tâm c a c m v n b n trong không gian véc t Tr ng tâm c a m t c m bao g m các t có đi m tr ng s TF-IDF l n h n m t giá tr ng ng xác đ nh tr c
Ph ng pháp d a trên đ th : Ph ng pháp nƠy s d ng đ th d a trên cơu đ
bi u di n m t v n b n ho c c m v n b n Ph ng pháp bi u di n này đư đ c s
d ng ph bi n cho các h th ng tóm t t trích rút nh : LexRank [11], TextRank [14] Trong h th ng LexRank [11], các cơu đ c cho đi m b ng cách bi u di n các câu
c a v n b n s d ng m t đ th vô h ng sao cho m i nút trong đ th bi u di n
m t câu t v n b n đ u vào, tr ng s c a c nh k t n i lƠ đ t ng t ng ngh a gi a hai cơu t ng ng (s d ng đ t ng t cosine) và s d ng m t thu t toán x p h ng
đ xác đ nh đ quan tr ng c a t ng cơu Các cơu đ c x p h ng d a trên đi m LexRank gi ng nh thu t toán PageRank [15] ch khác là đ th LexRank là đ th
Ph ng pháp d a trên h c máy: Ph ng pháp nƠy chuy n bài toán tóm t t v n
b n thành bài toán phân lo i v n b n có giám sát H th ng h c b i các m u h c đ phân lo i m t câu c a v n b n đánh giá thu c v l p “đ c ch n” ho c l p “không
đ c ch n” s d ng m t t p các v n b n hu n luy n (t p các v n b n và các b n tóm t t tham chi u t ng ng do con ng i t o ra) Trong các h th ng tóm t t d a
Trang 16trên h c máy [18,19,20], các b c th c hi n cho đi m câu bao g m: trích xu t các
đ c tr ng t v n b n đã ti n x lý vƠ đ a các đ c tr ng đư trích xu t vào m t m ng
n ron đ nh n đ c đi m đ u ra
Ph ng pháp d a trên h c sâu: Trong [21], Kobayashi và c ng s đ xu t m t
h th ng tóm t t s d ng đ t ng t m c v n b n d a trên các mã hóa t (ngh a lƠ các bi u di n phân b c a t ) Mã hóa c a m t t bi u di n ý ngh a c a nó M t v n
b n đ c coi nh m t “túi câu” và m t cơu đ c coi nh m t “túi t ” Nhi m v
đ c c th hóa nh bƠi toán t i đa hóa m t hàm đ c xác đ nh b i t ng âm c a các kho ng cách lân c n g n nh t trên các phân b mã hóa (t c là m t t p các mã hóa t trong m t v n b n) Kobayashi và c ng s ch ra r ng đ t ng t m c v n b n có
th xác đ nh nh ng ngh a ph c t p h n đ t ng t m c câu Chen và Nguyen [22]
đư đ xu t m t h th ng tóm t t v n b n t đ ng s d ng k thu t h c t ng c ng
và mô hình chu i sang chu i v i ki n trúc b mã hóa - gi i mã s d ng m ng n ron h i quy Các đ c tr ng quan tr ng đ c ch n b ng k thu t mã hóa m c câu sau đó các cơu tóm t t đ c trích rút Bên c nh đó, ph i k đ n m t s h th ng nh [23,24,25,26,27], các h th ng này đư s d ng các k thu t h c sâu hi u qu đ t o
b n tóm t t cu i cùng
Các h th ng tóm t t h ng trích rút này có u đi m lƠ th c thi đ n gi n, nhanh
vƠ cho đ chính xác cao vì ph ng pháp nƠy th c hi n trích rút tr c ti p các cơu đ
ng i đ c có th đ c b n tóm t t v i các thu t ng chính xác có trong v n b n g c Tuy nhiên, ph ng pháp c n này có nh ng h n ch c n c n quan tâm nh : V n đ
d th a thông tin trong m t s cơu tóm t t, các cơu đ c trích rút có th dƠi h n
m c trung bình, v n đ xung đ t v th i gian trong bài toán tóm t t đa v n b n vì các b n tóm t t trích rút đ c ch n t nhi u v n b n đ u vƠo khác nhau, thi u ng ngh a vƠ tính liên k t trong các cơu tóm t t vì liên k t không chính xác gi a các cơu
l c có th bao g m các nhi m v x lý chính sau: Bi u di n ng ngh a v n b n và
s d ng các k thu t sinh ngôn ng t nhiên đ sinh b n tóm t t g n v i các b n tóm t t c a con ng i t o ra [31] Các nghiên c u theo ph ng pháp ti p c n này có
th chia thành các lo i chính sau:
Ph ng pháp d a trên c u trúc: Ph ng pháp nƠy s d ng c u trúc đ c xác
đ nh tr c nh đ th , cây, lu t, m u,… đ phát tri n h th ng tóm t t tóm l c Các
h th ng tóm t t tóm l c s d ng c u trúc đ th đ c đ xu t nh [32,33,34,35], trong các h th ng này m i nút bi u di n cho m t t và thông tin v trí đ c liên k t
v i các nút Các cung có h ng bi u di n c u trúc c a câu Các h th ng d a trên
c u trúc cơy xác đ nh các cơu t ng t nhau, sau đó d a trên các cơu nƠy đ sinh
b n tóm t t tóm l c Các cơu đ c bi u di n thành m t c u trúc gi ng nh c u trúc cây, s d ng b phơn tích cú pháp đ xây d ng cây ph thu c là các bi u di n d ng cây s d ng nhi u cho v n b n Sau đó, m t s nhi m v đ c th c hi n đ x lý cơy nh t a cây, chuy n đ i cây thành d ng chu i, đ sinh b n tóm t t cu i cùng Kurisinkel và c ng s [36] đ xu t m t h th ng tóm t t đa v n b n tóm l c d a
Trang 17trên phơn tích cú pháp v n b n đ u vƠo đ xây d ng m t t p g m t t c các cây ph thu c cú pháp Trong khi đó, h th ng d a trên lu t [37] yêu c u xác đ nh các lu t
đ phát hi n các khái ni m quan tr ng trong v n b n đ u vƠo, sau đó s d ng các khái ni m nƠy đ sinh ra b n tóm t t
Ph ng pháp d a trên ng ngh a: Bi u di n v n b n đ u vào b ng các bi u
di n ng ngh a nh các m c thông tin, đ th ng ngh a, v v , r i cung c p các
bi u di n ng ngh a này cho h th ng sinh ngôn ng t nhiên s d ng các danh t
vƠ đ ng t đ sinh ra b n tóm t t tóm l c cu i cùng [38]
Ph ng pháp d a trên h c sâu: Mô hình seq2seq đư t o ra các mô hình tóm t t
h ng tóm l c hi u qu trong tóm t t v n b n [39] Mô hình v i b mã hóa - gi i
mã s d ng m ng n ron h i quy v i c ch chú ý (attention) đư đ t đ c k t qu cao cho tóm t t v n b n ng n Tuy nhiên, các ph ng pháp h c sâu g p ph i m t s
v n đ nh : các t ho c c m t sinh ra b l p l i và không x lý đ c v n đ thi u
t trong b t v ng M t s nghiên c u khác c ng đư s d ng k thu t h c sâu k t
h p v i các k thu t khác đ t o ra các h th ng tóm t t tóm l c hi u qu nh [40,41,42,43]
u đi m c a các ph ng pháp tóm t t h ng tóm l c lƠ sinh ra các b n tóm t t
t t h n v i các t có th không có trong v n b n g c b ng cách s d ng các bi u
di n d a trên di n gi i, nén B n tóm t t đ c sinh ra g n v i b n tóm t t th công
c a con ng i h n, có th ng n h n so v i các ph ng pháp trích rút vì câu sinh ra
đư gi m đ c các thông tin d th a Tuy nhiên, trong th c t , vi c sinh m t b n tóm
t t tóm l c có ch t l ng t t lƠ r t khó kh n Các h th ng tóm t t tóm l c có
ch t l ng t t r t khó phát tri n vì các h th ng nƠy yêu c u s d ng k thu t sinh ngôn ng t nhiên mƠ k thu t nƠy v n lƠ m t l nh v c đang đ c nghiên c u phát tri n hi n nay H u h t các b n tóm t t tóm l c đ u g p ph i v n đ l p t và không x lý đ c v n đ thi u t trong b t v ng m t cách thích h p
Ngoài ra, m t ph ng pháp ti p c n khác lƠ tóm t t v n b n d a trên k thu t nén câu [44,45] c ng đư đ t đ c nh ng k t qu nh t đ nh Ph ng pháp ti p c n này th c hi n liên k t các cơu đ c rút g n đ t o ra m t v n b n tóm t t ng n h n,
ph ng pháp nén cơu yêu c u chi phí xơy d ng kho d li u hu n luy n l n, các b
d li u liên quan đ n b t v ng phù h p đ c th c thi b i chuyên gia ngôn ng trong th i gian dài vƠ đ ph c t p tính toán cao nên các mô hình tóm t t v n b n s
d ng các k thu t nén cơu th ng yêu c u chi phí cao Bên c nh đó, ch t l ng c a
b n tóm t t t o ra ph thu c r t nhi u vƠo ch t l ng c a các k thu t nén cơu đ c
s d ng
i v i ti ng Vi t, do tính ph c t p vƠ đ c thù riêng c a ngôn ng nên các
nghiên c u v tóm t t v n b n ti ng Vi t còn h n ch H u h t các nghiên c u là các đ tƠi t t nghi p đ i h c, lu n v n th c s , ti n s vƠ đ tƠi nghiên c u khoa h c
c p tr ng, c p b [49,50,51] Các nghiên c u đ c công b d i hình th c các bài báo khoa h c cho tóm t t v n b n ti ng Vi t còn ít [52,53,54,55,56] Các nghiên
c u nƠy ph n l n d a trên h ng trích rút cho bƠi toán tóm t t đ n v n b n vƠ ch
Trang 18y u d a vƠo các đ c tr ng c a cơu nh t n su t t , v trí cơu, t tiêu đ , đ t ng
t , đ ch n ra các cơu quan tr ng theo t l trích rút nên ch t l ng v n b n tóm
t t ch a cao, có th k đ n nh : tóm t t v n b n ti ng Vi t s d ng c u trúc di n ngôn [52], tóm t t v n b n s d ng các ph ng pháp truy n th ng [53], s d ng
gi i thu t di truy n đ tóm t t v n b n [54], trích rút cơu s d ng ph ng pháp máy véc t h tr đ đ a vƠo b n tóm t t [56] Mô hình seq2seq k t h p v i c ch chú
ý đ th c hi n tóm t t v n b n nh trong [57] Bên c nh đó, do ch a có các kho ng
li u đ l n đ c công b chính th c ph c v cho tóm t t v n b n ti ng Vi t nên h u
h t các th nghi m đ u d a trên các kho ng li u t xơy d ng nên vi c đánh giá k t
qu c a các nghiên c u c ng c n đ c xem xét k l ng
Nh v y, có th nh n th y các h th ng tóm t t v n b n t đ ng còn nhi u h n
ch , chính nh ng h n ch nƠy lƠm phát sinh nh ng thách th c c n gi i quy t đ ng
th i m ra các h ng nghiên c u m i cho bƠi toán tóm t t v n b n, đó lƠ:
Thách th c liên quan đ n tóm t t đa v n b n: Tóm t t đa v n b n là bài toán
ph c t p v i nhi u v n đ c n gi i quy t nh d th a thông tin, trình t th i gian và
s p x p l i các câu
Thách th c liên quan đ n các ngôn ng đ c h tr tóm t t: H u h t các h
th ng tóm t t v n b n t đ ng đ u t p trung vào tóm t t v n b n ti ng Anh i v i các ngôn ng khác, các nghiên c u còn h n ch và ch t l ng c a các h th ng tóm
t t v n b n t đ ng hi n có c ng c n đ c c i thi n Do đó, c n ph i phát tri n và
c i ti n các h th ng tóm t t cho các ngôn ng không ph i ti ng Anh
Thách th c liên quan đ n ph ng pháp tóm t t v n b n: H u h t các nghiên
c u hi n nay đ u t p trung vƠo ph ng pháp tóm t t h ng trích rút, do đó c n nghiên c u đ xu t và c i thi n các h th ng tóm t t d a trên ph ng pháp tóm t t
h ng tóm l c và ph ng pháp tóm t t h n h p
Thách th c liên quan đ n các đ c tr ng th ng kê và ngôn ng : C n phát hi n thêm m i các đ c tr ng th ng kê và ngôn ng cho các t , các câu cho các h th ng
đ có th trích xu t ng ngh a các cơu chính t v n b n ngu n Bên c nh đó, v n đ
x lý tr ng s thích h p cho các đ c tr ng m i này c ng là m t v n đ quan tr ng quy t đ nh ch t l ng c a b n tóm t t cu i cùng
Thách th c liên quan đ n vi c s d ng các k thu t h c sâu và v n đ thi u d
li u th nghi m cho các mô hình: Do các mô hình h c sơu th ng có ki n trúc ph c
t p, kh i l ng x lý tính toán l n nên các h th ng tóm t t c ng đòi h i tài nguyên
l n đ th c thi Bên c nh đó, các mô hình h c sâu yêu c u l ng d li u hu n luy n
l n đ đ m b o ch t l ng c a b n tóm t t đ u ra nh ng th c t hi n nay các d
li u này khan hi m (ho c n u có thì c ng không đ l n) đ hu n luy n các mô hình
ơy lƠ m t thách th c nghiên c u quan tr ng khi xây d ng các h th ng tóm t t v n
b n t đ ng s d ng các k thu t hi n đ i v i m t l ng d li u hu n luy n nh
Thách th c liên quan đ n ch t l ng c a b n tóm t t sinh ra: B n tóm t t c n
đ t đ c s cân b ng gi a kh n ng đ c, t l nén và ch t l ng tóm t t t t Các h
th ng tóm t t v n b n t đ ng hi n t i r t khó đ t đ c t l nén cao đ tóm t t các
v n b n dƠi nh ti u thuy t, sách,… nên c n ph i c i thi n ch t l ng b n tóm t t
v ng ngh a do các t không rõ ngh a, t đ ng ngh a ho c t nhi u ngh a gây ra
Thách th c liên quan đ n ph ng pháp đánh giá b n tóm t t t o ra: ánh giá
b n tóm t t (t đ ng ho c th công) là m t nhi m v khó kh n, đó lƠ khó kh n
c xác đ nh và s d ng m t đ đo tiêu chu n có đ tin c y cao đ đánh giá
Trang 19các b n tóm t t đ c sinh ra t h th ng tóm t t v n b n t đ ng có đ t t hay không và r t khó kh n đ tìm ra m t b n tóm t t lý t ng vì h th ng tóm t t v n
b n t đ ng có th t o ra các b n tóm t t t t khác v i các b n tóm t t do con ng i
t o ra Con ng i và h th ng có th ch n các câu khác nhau cho các b n tóm t t trích rút và có th di n gi i các b n tóm t t tóm l c theo m t cách hoàn toàn khác nên các ph ng pháp đánh giá th công không phù h p v i các lo i tóm t t Do đó,
c n có các ph ng pháp đánh giá t đ ng các b n tóm t t do các h th ng tóm t t sinh ra
H u h t các nghiên c u đư c g ng phát tri n m i vƠ c i ti n các ph ng pháp tóm t t v n b n hi n có nh m t o ra các h th ng tóm t t v n b n hi u qu Các
ph ng pháp tóm t t v n b n này th ng lƠ trích rút ho c tóm l c áp d ng cho tóm t t đ n v n b n vƠ tóm t t đa v n b n Do đó, vi c nghiên c u, phát tri n các
mô hình tóm t t v n b n hi u qu lƠ r t c n thi t vƠ có ý ngh a to l n
2 ng l căthúcăđ y
T b i c nh nghiên c u đư phơn tích trên, nghiên c u sinh nh n th y bƠi toán tóm t t v n b n t đ ng đóng m t vai trò quan tr ng trong x lý ngôn ng t nhiên
c ng nh khai phá d li u v n b n vƠ đ t ra nhi u thách th c cho vi c phát tri n các
ph ng pháp tóm t t v n b n hi u qu M c dù, hƠng n m các nhƠ nghiên c u đư đ
xu t phát tri n đ c m t s gi i pháp m i ho c c i ti n các gi i pháp hi n có đ nơng cao hi u qu vƠ đ chính xác cho các mô hình tóm t t v n b n nh ng các b n tóm t t đ c sinh ra c a các mô hình v n khác xa so v i các b n tóm t t do con
ng i t o ra M t trong các nguyên nhân đó là d li u th nghi m cho các mô hình tóm t t c a bƠi toán tóm t t v n b n V n đ thi u d li u hay d li u b nhi u làm cho hi u qu tóm t t c a các mô hình tóm t t ch a cao Bên c nh đó, v n đ bi u
di n d li u v n b n đ u vƠo c ng đóng vai trò quan tr ng quy t đ nh hi u qu c a các mô hình tóm t t M t lý do khác có vai trò quan tr ng không kém là ph n l n các nghiên c u v tóm t t v n b n hi n nay đ c th c hi n cho tóm t t v n b n
ti ng Anh, các nghiên c u v bƠi toán tóm t t v n b n ti ng Vi t còn khiêm t n Do
đó, vi c nghiên c u phát tri n các mô hình tóm t t v n b n hi u qu áp d ng cho tóm t t v n b n ti ng Anh vƠ ti ng Vi t càng có ý ngh a to l n, nh t lƠ trong b i
c nh các k thu t h c máy, các mô hình h c sơu vƠ các k thu t hi n đ i khác đang
đ c phát tri n m nh nh hi n nay
Chính vì nh ng lý do đó, đ tƠi “Nghiên c u, phát tri n m t s ph ng pháp
tóm t t v n b n s d ng k thu t h c sâu” đ c đ t ra h t s c c p thi t và có tính
Trang 20 Các k thu t áp d ng trong tóm t t v n b n nh : Các ph ng pháp véc t hóa
v n b n, các k thu t h c máy, h c sâu, các mô hình đ c hu n luy n tr c,
c ch chú ý, k thu t tìm ki m, ph ng pháp lo i b thông tin trùng l p
Nghiên c u các k thu t h c máy, h c sơu, các mô hình đ c hu n luy n
tr c đ véc t hóa v n b n cho các mô hình tóm t t v n b n
xu t các mô hình tóm t t đ n v n b n h ng trích rút, h ng tóm l c áp
d ng tóm t t cho tóm t t v n b n ti ng Anh và ti ng Vi t
xu t mô hình tóm t t đa v n b n h ng trích rút cho tóm t t v n b n ti ng Anh và ti ng Vi t
xu t các mô hình tóm t t đa v n b n h ng tóm l c cho tóm t t v n b n
ti ng Anh và ti ng Vi t s d ng các mô hình tóm t t đ n v n b n đ c hu n luy n
Trang 21 Nghiên c u các k thu t h c máy, h c sâu s d ng đ phát tri n các mô hình tóm t t v n b n
Nghiên c u đ xu t thêm m i các đ c tr ng quan tr ng c a v n b n cho mô hình tóm t t v n b n
Nghiên c u đ xu t các mô hình tóm t t đ n v n b n h ng trích rút, h ng tóm l c hi u qu cho tóm t t v n b n ti ng Anh và ti ng Vi t
Nghiên c u đ xu t các mô hình tóm t t đa v n b n h ng trích rút, h ng tóm l c hi u qu cho tóm t t v n b n ti ng Anh và ti ng Vi t
7.ăụăngh aăkhoaăh c và ýăngh aăth c ti n
Ý ngh a khoa h c: Nghiên c u chuyên sâu v các k thu t h c máy, h c sâu, các đ c tr ng c a v n b n đ đ xu t phát tri n các mô hình tóm t t v n b n hi u
qu cho ti ng Anh và ti ng Vi t
Ý ngh a th c ti n: xu t các đ c tr ng quan tr ng c a v n b n s d ng cho các mô hình tóm t t v n b n xu t các mô hình tóm t t v n b n hi u qu cho tóm
t t v n b n ti ng Anh và ti ng Vi t Các mô hình đ xu t m i có th s d ng đ xây
d ng các h th ng ph n m m tóm t t hi u qu đáp ng t t các yêu c u trong th c
ti n NgoƠi ra, h ng ti p c n tinh ch nh mô hình tóm t t đ n v n b n đ c hu n luy n tr c b ng vi c hu n luy n ti p mô hình tóm t t đ n v n b n trên các b d
li u th nghi m c a tóm t t đa v n b n do nghiên c u sinh đ xu t có th m ra m t
h ng m i đ phát tri n các mô hình tóm t t đa v n b n hi u qu trong đi u ki n thi u d li u th nghi m
8 Nh ngăđóng góp chính c a lu n án
V i m c tiêu đ t ra, lu n án đư đ t đ c m t s k t qu đóng góp vƠo vi c nghiên c u phát tri n m r ng các h th ng tóm t t v n b n cho ngôn ng ti ng Anh vƠ ti ng Vi t Các k t qu chính có th khái quát lƠ:
xu t ba mô hình tóm t t đ n v n b n h ng trích rút, đó lƠ
mBERT-Tiny_seq2seq_DeepQL_ESDS Mô hình RoPhoBERT_MLP_ESDS s d ng các mô hình t i u c a mô hình bi u di n mã hóa hai chi u t Transformer (BERT - Bidirectional Encoder Representation from Transformers) đ c hu n luy n tr c đ véc t hóa v n b n, mô hình phân lo i v i m ng Perceptron nhi u l p (MLP - Multi Layer Perceptron), k t h p v i đ c tr ng v trí cơu vƠ ph ng pháp đ liên quan c n biên t i đa (MMR - Maximal Marginal Relevance) đ lo i b thông tin trùng l p và
l a ch n cơu đ a vƠo b n tóm t t Mô hình mBERT_CNN_ESDS s d ng mô hình BERT đa ngôn ng , m ng n ron tích ch p, mô hình chu i sang chu i (seq2seq),
l p m ng n ron k t n i đ y đ (FC - Fully Connected) k t h p đ c tr ng tr ng s
c a t TF-IDF vƠ ph ng pháp MMR đ l a ch n cơu đ a vƠo b n tóm t t Mô hình mBERT-Tiny_seq2seq_DeepQL_ESDS s d ng mô hình BERT thu nh , BERT
đa ngôn ng đ véc t hóa v n b n đ u vào, m ng CNN, seq2seq, l p FC, k t h p
k thu t h c t ng c ng vƠ ph ng pháp MMR đ l a ch n cơu đ a vƠo b n tóm
t t
Trang 22 xu t m t mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS Mô hình này s d ng các k thu t h c sâu, c ch chú ý, k thu t lo i b thông tin trùng l p, k t h p các đ c tr ng t n su t xu t hi n c a t , v trí cơu trong v n b n đ sinh b n tóm t t tóm l c
xu t m t mô hình tóm t t đa v n b n h ng trích rút Kmeans_Centroid_EMDS Mô hình này th c hi n phân c m t p v n b n s d ng các k thu t h c máy là phân c m K-means, ph ng pháp d a trên trung tâm (Centroid-based), MMR vƠ đ c tr ng v trí cơu đ t o v n b n tóm t t cho t p đa
v n b n
xu t hai mô hình tóm t t đa v n b n h ng tóm l c, đó lƠ PG_Feature_AMDS và Ext_Abs_AMDS-mds-mmr Mô hình PG_Feature_AMDS s
d ng mô hình tóm t t đ n v n b n h ng tóm l c PG_Feature_ASDS đư đ xu t
lƠ mô hình đ c hu n luy n tr c, mô hình PG_Feature_ASDS đ c tinh ch nh
b ng vi c hu n luy n ti p trên các b d li u th nghi m tóm t t đa v n b n t ng
ng Mô hình Ext_Abs_AMDS-mds-mmr s d ng mô hình h n h p đ c hu n luy n
tr c đ c xây d ng d a trên các mô hình tóm t t đ n v n b n đ c tinh ch nh t các mô hình tóm t t đ n v n b n đư đ xu t Các mô hình tóm t t đ n v n b n, mô hình h n h p này đ c hu n luy n ti p trên các b d li u th nghi m tóm t t đa
v n b n t ng ng đ xây d ng mô hình tóm t t đa v n b n h ng tóm l c hi u
qu
Các mô hình đ xu t phát tri n c a lu n án đ u đ c áp d ng hi u qu cho tóm
t t v n b n ti ng Anh vƠ ti ng Vi t
9 B c c c a lu n án
V i nh ng đóng góp chính đ c trình bƠy trên, b c c c a lu n án bao g m:
Ph n m đ u, n m ch ng, ph n k t lu n, tƠi li u tham kh o vƠ ph n ph l c C
th nh sau:
Ph n m đ u: Trình bƠy nh ng đi m quan tr ng v b i c nh nghiên c u, đ ng
l c thúc đ y, t ng quan v đ i t ng nghiên c u, ph m vi nghiên c u, m c tiêu nghiên c u, ph ng pháp nghiên c u, n i dung nghiên c u, ý ngh a khoa h c vƠ ý ngh a th c ti n c a lu n án Nh ng t n t i, thách th c vƠ ph ng pháp gi i quy t
c a lu n án NgoƠi ra, ph n nƠy c ng trình bƠy nh ng đóng góp chính vƠ b c c c a
lu n án
Ch ng 1 T ng quan v tóm t t v n b n: Ch ng nƠy trình bƠy các v n đ
t ng quan v tóm t t v n b n trong x lý ngôn ng t nhiên, m t s ph ng pháp đánh giá v n b n tóm t t t đ ng, các ph ng pháp k t h p các v n b n c a t p đa
v n b n, các ph ng pháp tóm t t v n b n h ng trích rút c s , các b d li u
đ c s d ng đ th nghi m cho các mô hình tóm t t v n b n đ xu t Nh ng ki n
th c nƠy lƠ c s đ phát tri n các nghiên c u đ xu t c a lu n án
Trang 23v n b n tóm t t Nh ng ki n th c n n t ng này là c s đ phát tri n các ph ng pháp tóm t t v n b n đ xu t trong lu n án
d ng hi u qu trong tóm t t h ng tóm l c Mô hình đ xu t áp d ng hi u qu cho tóm t t v n b n ti ng Anh vƠ ti ng Vi t Mô hình tóm t t đ n v n b n nƠy s đ c
s d ng đ phát tri n các mô hình tóm t t đa v n b n đ xu t c a lu n án
Ch ng 5 Phát tri n các ph ng pháp tóm t t đa v n b n: Ch ng nƠy gi i
thi u v bƠi toán tóm t t đa v n b n, đ xu t phát tri n m t mô hình tóm t t đa v n
b n h ng trích rút, hai mô hình tóm t t đa v n b n h ng tóm l c s d ng k t
h p các k thu t h c máy, h c sơu vƠ các đ c tr ng c a v n b n, các c ch x lý trùng l p thông tin áp d ng hi u qu cho tóm t t đa v n b n ti ng Anh vƠ ti ng Vi t Hai mô hình tóm t t đa v n b n h ng tóm l c đ c đ xu t phát tri n d a trên các mô hình tóm t t đ n v n b n đ c hu n luy n tr c đư đ xu t
Ph n k t lu n: Trình bày các k t qu đ t đ c, nh ng khó kh n t n t i vƠ
h ng phát tri n ti p c a các nghiên c u trong lu n án
Ph n ph l c: Trình bày bi u đ bi u di n phân tích các b d li u th nghi m
và n i dung các v n b n ngu n c a các m u tóm t t th nghi m trên các b d li u
t ng ng c a các mô hình tóm t t đ xu t đư trình bƠy trong lu n án
Lu n án trình bƠy các ph ng pháp tóm t t đ n v n b n h ng trích rút, tóm t t
đ n v n b n h ng tóm l c, tóm t t đa v n b n h ng trích rút vƠ h ng tóm l c cho bài toán tóm t t v n b n Có th nói, n i dung c a lu n án đư đ t đ c các m c tiêu đ t ra
Trang 24Ch ngă1.ăT NGăQUANăV ăTịMăT TăV NăB N
Ch ng nƠy trình bƠy t ng quan v tóm t t v n b n trong x lý ngôn ng t nhiên bao g m gi i thi u v tóm t t v n b n, các b c th c hi n trong tóm t t v n
b n, m t s đ c tr ng c a v n b n, các ph ng pháp đánh giá v n b n tóm t t ph
bi n, các ph ng pháp k t h p v n b n trong tóm t t đa v n b n, các ph ng pháp tóm t t v n b n h ng trích rút c s NgoƠi ra, ch ng nƠy c ng trình bày phân tích th ng kê thông tin các b d li u s d ng đ th nghi m cho các mô hình tóm
t t v n b n đ xu t Nh ng ki n th c trình bƠy trong ch ng nƠy lƠ c s đ tri n khai phát tri n các ph ng pháp tóm t t v n b n đ xu t c a lu n án
1.1 Gi iăthi u v ătómăt tăv năb n
1.1.1.ăGi iăthi uăbƠiătoánătómăt tăv năb n
X lý ngôn ng t nhiên đang đ c phát tri n m t cách m nh m giúp con
ng i có th ch n l c, tóm t t đ c kh i thông tin kh ng l nh m ti t ki m th i gian tìm ki m vƠ t ng h p các thông tin h u ích Có m t s nhi m v quan tr ng trong x lý ngôn ng t nhiên nh : Tìm ki m thông tin, trích rút thông tin, nh n
d ng ti ng nói, tr l i cơu h i, d ch máy, tóm t t v n b n t đ ng Tóm t t v n b n
t đ ng (g i t t lƠ tóm t t v n b n) lƠ m t trong nh ng nhi m v đ c quan tơm nghiên c u phát tri n vƠ đư đ t đ c nh ng k t qu kh quan BƠi toán tóm t t v n
b n đ c ng d ng thƠnh công vƠo th c t s giúp ti t ki m đ c th i gian đ c, c i thi n t c đ , nơng cao đ chính xác c a các thông tin đ c t ng h p
Tóm t t v n b n (TTVB) lƠ quá trình t o ra m t b n mô t ng n g n, súc tích t
m t ho c nhi u v n b n ngu n ban đ u V n b n tóm t t có đ dƠi ng n h n v n
b n ngu n nh ng v n đ m b o gi l i đ c n i dung chính, quan tr ng mƠ v n b n ngu n đ c p t i
V n đ đ t ra lƠ lƠm th nƠo đ nh n bi t đ c đơu lƠ n i dung chính c a v n
b n ngu n ban đ u vì đó lƠ thƠnh ph n c t lõi, bao hƠm nh ng thông tin quan tr ng
N u bi t đ c nh ng thông tin nƠy thì nhi m v tóm t t s tr nên d dƠng vƠ v n
b n tóm t t có đ chính xác t t h n Các thƠnh ph n nƠy lƠ nh ng đ n v d li u
nh nh t có ngh a trong v n b n ngu n đ trích rút, tóm t t nh t , cơu,… Trong
v n b n ngu n, n u t n su t xu t hi n c a các đ n v d li u cƠng l n thì xác su t mang n i dung quan tr ng, thông tin chính c a đo n v n, v n b n cƠng cao Do đó, các đ n v d li u nƠy đ c s d ng đ tóm t t, bi n đ i, hi n th ho c t o ra d li u
m i có ý ngh a ph c v cho các nhi m v ho c các h th ng khác
B ng 1.1 vƠ B ng 1.2 d i đơy lƠ các ví d minh h a v n b n tóm t t c a v n
b n ti ng Anh, ti ng Vi t t ng ng Các v n b n ngu n c a các v n b n tóm t t này đ c trình bƠy Ph l c A trong ph n Ph l c
Trang 25V n b n tóm t t
graves Iraqis find mass graves inside presidential palace compound in Tikrit ISIS claimed to have executed 1,700
B ng 1.1 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Anh
V n b n tóm t t
giáo Liên đoàn lao đ ng t nh – đã cùng các Cán b công đoàn làm vi c v i chính quy n đ a ph ng và t ch c h i ngh đ i tho i v i s có m t c a c đ i di n doanh nghi p và công nhân lao đ ng Công ty TNHH may Tinh L i, có g n 1.000 n công nhân lao đ ng đang tr t i đây đã đ ng ý m i tháng tài tr thêm cho Tr ng M m non H ng Sen 3 tri u đ ng đ
B ng 1.2 Ví d minh h a m t v n b n tóm t t c a v n b n ti ng Vi t
1.1.2.ăPhơnălo iăbƠiătoánătómăt tăv năb n
BƠi toán tóm t t v n b n đ c phơn lo i d a theo các tiêu chí khác nhau bao
g m m t s lo i bƠi toán ph bi n sau:
- Tóm t t đ n v n b n: V n b n ngu n ch có m t v n b n duy nh t
- Tóm t t đa v n b n: T p v n b n ngu n g m nhi u v n b n (các v n b n nƠy
th ng có n i dung liên quan đ n nhau) V n b n k t qu thu đ c lƠ m t v n b n duy nh t t t p v n b n ngu n đ u vƠo Tóm t t đa v n b n g p m t s khó kh n
nh v n đ trùng l p thông tin gi a các v n b n ngu n, ti n x lý v n b n ph c t p, yêu c u t l nén cao
- Tóm t t v n b n h ng trích rút: LƠ quá trình rút g n v n b n sao cho v n b n
gi đ c n i dung, ý ngh a c a v n b n ngu n đ u vƠo Tóm t t v n b n h ng tóm
l c lƠ bƠi toán tóm t t v n b n ph c t p, có nhi u khó kh n trong vi c bi u di n
ng ngh a, sinh ngôn ng t nhiên t v n b n ngu n
- Tóm t t đ n ngôn ng : V n b n ngu n vƠ v n b n tóm t t ch có duy nh t m t
lo i ngôn ng
- Tóm t t đa ngôn ng : V n b n ngu n ch ch a duy nh t m t lo i ngôn ng ,
nh ng v n b n k t qu có th đ c tóm t t theo nhi u ngôn ng khác nhau
- Tóm t t đan xen ngôn ng : V n b n ngu n có th g m nhi u lo i ngôn ng khác nhau
Trong các lo i tóm t t v n b n nƠy, tóm t t h ng trích rút t o ra v n b n tóm
t t d a trên trích rút g n cơu mang l i hi u qu cao v m t ngôn ng , trong khi đó tóm t t h ng tóm l c sinh ra m t v n b n tóm t t đ m b o v m t cú pháp, ng
Trang 26ngh a b ng vi c rút g n cơu [58,59,60] Các ph ng pháp tóm t t v n b n đ c đ
xu t hi n nay th ng lƠ tóm t t theo h ng trích rút vì nó d dƠng th c hi n h n so
v i vi c rút g n cơu c a tóm t t h ng tóm l c Tuy nhiên, s d ng cách ti p c n tóm t t v n b n h ng tóm l c th ng cho các v n b n tóm t t v i thông tin ít
m ch l c h n Bên c nh đó, tóm t t đ n v n b n c ng đ c th c hi n d dƠng h n,
v n b n t o ra có thông tin ít b trùng l p so v i tóm t t đa v n b n Chính vì th , các lo i bƠi toán tóm t t đ n v n b n, tóm t t đa v n b n, tóm t t v n b n h ng trích rút vƠ tóm t t v n b n h ng tóm l c giƠnh đ c s quan tơm phát tri n c a các nhƠ nghiên c u trong l nh v c x lý ngôn ng t nhiên nói chung vƠ tóm t t v n
b n nói riêng [61]
1.1.3.ăCácăb căth căhi nătrongătómăt tăv năb n
V i v n b n ngu n đ u vƠo, đ sinh ra b n tóm t t thì m t h th ng TTVB c n
th c hi n các b c chính đ c bi u di n nh trong Hình 1.1 d i đơy
Hình 1.1 Các b c th c hi n trong tóm t t v n b n
Phân tích: M t v n b n ho c t p các v n b n ngu n đ c phơn tích đ tr ra các thông tin s d ng cho vi c tìm ki m, đánh giá các đ n v ng li u quan tr ng và các tham s đ u vƠo cho b c ti p theo
Bi n đ i: B c này s d ng m t phép bi n đ i tác đ ng trên các thông tin đ u
ra c a b c phân tích nh m đ n gi n hóa và t o nên m t th th ng nh t K t qu tr
ra lƠ các đ n v ng li u đ c tóm t t
Sinh v n b n tóm t t: B c này s liên k t các đ n v ng li u nh n đ c t
b c bi n đ i theo m t tiêu chí nƠo đó đ sinh v n b n tóm t t
V i m i lo i h th ng TTVB s có s khác nhau nh t đ nh i v i các h
th ng TTVB h ng tóm l c thì có đ y đ các b c trên, nh ng đ i v i h th ng TTVB h ng trích rút thì không có b c bi n đ i mƠ ch có hai b c phơn tích vƠ sinh v n b n tóm t t
1.1.4.ăM tăs ăđ cătr ngăc aăv năb n
V trí câu: quan tr ng c a cơu trong v n b n d a theo đ c tr ng v trí đ c xác đ nh là giá tr v trí c a cơu trong v n b n Nhi u ph ng pháp th ng coi câu
đ u tiên trong v n b n là câu quan tr ng h n các cơu khác trong v n b n [62,63]
TF-IDF: TF-IDF (Term Frequency - Inverse Document Frequency) là tr ng s
c a m t t th hi n m c đ quan tr ng c a t đó trong m t v n b n mƠ v n b n đó
n m trong m t t p h p các v n b n [64] Tr ng s TF-IDF đ c tính theo các đ c
tr ng t n su t xu t hi n c a t (TF) và ngh ch đ o t n su t xu t hi n c a t trong m t v n b n c a m t t p các v n b n (IDF) nh sau:
- TF = S l n xu t hi n c a t trong v n b n/T ng s t trong v n b n
- IDF = log(T ng s v n b n trong t p v n b n/S v n b n có ch a t đó)
- TF-IDF = TF*IDF
Trang 27 Câu trung tâm: quan tr ng c a cơu trong v n b n d a theo đ c tr ng cơu trung tơm đ c tính b ng giá tr trung bình c a đ t ng t gi a m t câu và các câu khác trong v n b n c tr ng nƠy xem xét s cùng xu t hi n c a các t gi a m t cơu vƠ các cơu khác trong v n b n [65]
1.2.ăM tăs ăph ngăphápăđánhăgiáăv năb nătómăt tăt ăđ ng
V i bƠi toán tóm t t v n b n, hi u qu c a v n b n tóm t t có vai trò quan
tr ng đánh giá hi u qu c a các v n b n tóm t t, c n ph i d a vƠo các tham s
nh t l nén, đ chính xác, đ liên k t,…Có m t s ph ng pháp đánh giá hi u qu
v n b n tóm t t đ c trình bƠy d i đơy
1.2.1 Ph ngăphápăd aătrênăđ ăt ngăt ăv n iădung
ánh giá đ t ng t v n i dung c a v n b n k t qu đ c sinh ra b i h
- M lƠ tiêu chí tính toán đ t ng t v n i dung gi a 2 v n b n X và Y, M
th ng đ c tính toán theo công th c sau [66]:
+ X, Y lƠ hai v n b n đ c bi u di n d i d ng chu i các t t ng ng
+ d(X,Y) lƠ s l ng phép toán thêm m i vƠ xóa ít nh t c n th c hi n đ bi n
đ i v n b n X thƠnh v n b n Y
+ LCS(X,Y) lƠ đ dƠi c a chu i con chung l n nh t gi a X vƠ Y
+ length(X), length(Y) t ng ng lƠ đ dƠi c a 2 v n b n X, Y
1.2.2 Ph ngăphápăd aătrênăđ ăt ngăquanăphùăh p
Ph ng pháp d a trên đ t ng quan phù h p đánh giá h th ng TTVB d a trên các cơu truy v n: V i m t truy v n Q vƠ m t t p v n b n {Di} vƠ m t công c
đ s p x p các v n b n Di theo th t m c đ phù h p gi a Di v i Q theo chi u
gi m d n thì t t p {Di}, ta có t p {Si} lƠ t p v n b n tóm t t c a {Di} đ c t o ra
b i h th ng đang xét, ta s d ng công c s p x p trên đ s p x p {Si} gi ng nh
Trang 28trên đánh giá, c n xác đ nh đ t ng quan gi a hai danh sách đư đ c s p x p này
Công th c xác đ nh đ t ng quan ph bi n lƠ đ t ng quan tuy n tính gi a hai t p đi m phù h p x vƠ y:
y x
đ c xem nh gi i pháp t i u đ đánh giá ch t l ng c a các b n tóm t t do các h
th ng tóm t t v n b n sinh ra Gi i pháp đánh giá t đ ng ph i tìm ra m t đ đo g n
v i đánh giá c a con ng i nh t đ đánh giá v n b n tóm t t vƠ ROUGE Oriented Understudy for Gisting Evaluation) [68] lƠ m t đ đo đánh giá t đ ng
(Recall-hi u qu đ c s d ng ph bi n (Recall-hi n nay
1.2.3.1 đo ROUGE
đo ROUGE đ c s d ng nh m t đ đo tiêu chu n đ đánh giá hi u qu
c a các h th ng tóm t t v n b n ROUGE th c hi n so sánh m t b n tóm t t đ c sinh t đ ng t mô hình tóm t t vƠ m t t p các b n tóm t t tham chi u (b n tóm t t
t nhiên c a con ng i) Vì v y, đ có đ c m t đánh giá t t, vi c tính toán đ h i
t ng (Recall) và đ chính xác (Precision) [69,70] thông qua các t trùng l p đ c
s d ng trong đ đo ROUGE
N u t t c các t trong b n tóm t t tham chi u đư đ c tóm t t l i b i h th ng thì c ng ch a th kh ng đ nh đ c b n tóm t t h th ng lƠ ch t l ng th c s vì
m t b n tóm t t đ c sinh ra t h th ng có th r t dƠi vƠ ch a t t c s t có trong
b n tóm t t tham chi u nh ng ph n l n các t còn l i trong b n tóm t t h th ng l i
d th a, đi u nƠy lƠm cho b n tóm t t dƠi dòng Chính vì th , đ chính xác đ c s
d ng đ kh c ph c v n đ nƠy
chính xác: Th hi n b n tóm t t h th ng trong th c t có bao nhiêu ph n
liên quan đ n b n tóm t t tham chi u, đ c tính theo công th c:
Trang 29trong đó: c lƠ s l ng t b n tóm t t h th ng n m b t l i liên quan đ n b n tóm t t tham chi u, b lƠ t ng s t trong b n tóm t t h th ng
M t đ đo th ng đ c s d ng lƠ đ đo F1 ( F1 score ) [70] đo F1 đ c tính toán d a trên đ h i t ng R vƠ đ chính xác P theo công th c:
quan h n vì nó có xu h ng g n v i giá tr nh h n gi a hai giá tr đ h i t ng và
đ chính xác, giá tr F1 l n n u c hai giá tr đ h i t ng vƠ đ chính xác l n
1.2.3 2 Các đ đo ROUGE ph bi n
Các đ đo ROUGE [68] ph bi n th ng đ c s d ng đ đánh giá ch t l ng
c a b n tóm t t h th ng so v i b n tóm t t tham chi u trong bƠi toán tóm t t v n
b n g m:
h i t ng c a Rouge – N (ký hi u RN): Th hi n vi c s d ng m t t gram), hai t (bi-gram), ba t (tri-gram) ho c N t (N-gram) xu t hi n đ ng th i trong b n tóm t t h th ng và b n tóm t t tham chi u h i t ng RN (th ng N =
Count gram (1.8) trong đó:
+ N: là N-gram (v i N =1, 2, 3, )
+ RS: lƠ t p v n b n tóm t t tham chi u
+ Countmatch(gramN): lƠ s l ng N-gram xu t hi n đ ng th i trong b n tóm t t h th ng vƠ b n tóm t t tham chi u
+ Count(gramN): là s l ng N-gram có trong b n tóm t t tham chi u
chính xác c a Rouge – N (ký hi u PN): Th hi n vi c s d ng m t t gram), hai t (bi-gram), ba t (tri-gram) ho c N t (N-gram) xu t hi n trong b n tóm t t h th ng có liên quan đ n b n tóm t t tham chi u h i t ng PN (th ng
Count gramP
Count gram (1.9)
v i: SS: lƠ v n b n tóm t t h th ng
đo F1 c a Rouge – N (ký hi u R–N): đo R–N (th ng N = 1 ÷ 4) đ c
tính toán d a trên đ h i t ng RNvƠ đ chính xác PN theo công th c:
*2
đ đo th ng đ c s d ng đ đánh giá hi u qu c a các mô hình tóm t t v n b n
đo F1 c a Rouge – L (ký hi u R–L): Th hi n vi c s d ng chu i các t
dài nh t xu t hi n đ ng th i trong b n tóm t t c a h th ng và b n tóm t t tham chi u d a trên chu i con chung dài nh t (LCS - Longest Common Subsequence) LCS chính là bài toán tìm ki m chu i con chung dài nh t cho t t c các chu i trong
Trang 30m t t p các chu i (th ng là hai chu i) đo R-L đ c tính d a trên đ h i t ng
s l ng cơu c a b n tóm t t tham chi u; m lƠ s l ng t c a t p tóm t t tham chi u; n lƠ s l ng t c a t p tóm t t ng viên C; LCS r C ( , )i lƠ đi m c a t p
đ c xác đ nh b ng h p c a t p chu i con chung dƠi nh t gi a cơu ri vƠ m i cơu trong t p C, đi m nƠy đ c tính b ng t ng đ dƠi c a h p các chu i con chung l n
nh t chia cho đ dƠi c a ri; lƠ h s đi u khi n đ quan tr ng t ng đ i c a Rlcs
đo F1 c a Rouge-S (ký hi u R-S): đo R-S xác đ nh đ t ng đ ng gi a
c p t b t k trong m t cơu đ c ghép theo đúng th t đo R-S đ c tính d a trên đ h i t ng RSvƠ đ chính xác PS nh sau:
2( , )( , 2)
t t ng viên C; X lƠ t p tóm t t tham chi u; Y lƠ t p tóm t t ng viên; SKIP X Y2( , )
lƠ s l ng t ghép c p skip bi-gram trùng kh p gi a X và Y; C(m,2), C(n,2) t ng
ng lƠ các hƠm t h p ch p 2 c a m ph n t , hƠm t h p ch p 2 c a n ph n t ; là
h s đi u khi n đ quan tr ng t ng đ i c a RS và PS ( lƠ tham s t ch n vƠ
th ng đ c ch n b ng 1)
Trong công th c (1.17), khi ta có công th c tính đ đo nh sau: 1
*2
đo F1 c a Rouge-St (ký hi u R-St): Khi s d ng đ đo R-S có th xu t hi n
m t s các c p t vô ngh a nh “the the”, “is is”, v v gi m thi u các c p t
Trang 31vô ngh a này, ta có th gi i h n kho ng cách có th t o thành c p t là t (trong
t-skip bi-gram), ngh a lƠ ch có các t cách nhau không quá t t m i có th t o thành
c p t h p l (do các c p t vô ngh a th ng không n m g n nhau nên khi ch n t
nh s h n ch đ c tình tr ng t o các c p t vô ngh a) Khi đó, đ đo R-St đ c tính d a trên đ h i t ng RStvƠ đ chính xác PSt nh sau:
t t ng viên C; X lƠ t p tóm t t tham chi u; Y lƠ t p tóm t t ng viên; SKIP2,t( , )X Y
lƠ s l ng t ghép c p skip bi-gram trùng kh p gi a X và Y; lƠ h s đi u khi n
đ quan tr ng t ng đ i c a R và St PSt ( lƠ tham s t ch n vƠ th ng đ c ch n
b ng 1)
Trong công th c (1.21), khi ta có đ đo đ c tính theo công th c: 1
*2
d ng đ đánh giá hi u qu c a các mô hình tóm t t v n b n
đo F1 c a Rouge-SUt (ký hi u R-SUt): LƠ đ đo m r ng c a đ đo R-St
b ng vi c thêm m t t (uni-gram) lƠm đ n v đ m đ kh c ph c tr ng h p m t câu
ng c viên không có c p t đ ng xu t hi n nào v i b n tóm t t tham chi u đo R-SUt thu đ c t R-St b ng cách thêm đi m đánh d u đ u câu vào đ u các câu ng viên và các câu tóm t t tham chi u Khi t = 4 ta có đ đo R-SU4 thu đ c t đ đo R-S4 lƠ đ đo th ng đ c s d ng đ đánh giá hi u qu c a các mô hình tóm t t
v n b n
Hi n nay, các đ đo ROUGE đ c s d ng nh m t đ đo tiêu chu n ph bi n
đ đánh giá hi u qu c a các mô hình tóm t t v n b n Do đó, lu n án s s d ng các đ đo R-1, R-2, R-L, R-S4 và R-SU4 đ đánh giá hi u qu c a các mô hình tóm
t t v n b n đ xu t
1.3.ăCácăph ngăphápăk tăh păv năb nătrongătómăt tăđaăv năb n
i v i bƠi toán tóm t t đa v n b n, v n đ đ t ra đ u tiên lƠ vi c k t h p các
v n b n trong t p v n b n ngu n nƠy nh th nƠo?
Trang 32Hình 1.2 Ph ng pháp x lý tóm t t t ng đ n v n b n trong tóm t t đa v n b n
Hi n nay có hai ph ng pháp th ng đ c s d ng đ gi i quy t v n đ này là:
- Ph ng pháp th nh t: K t h p t t c các v n b n đ u vƠo thƠnh m t v n b n duy nh t g i lƠ siêu v n b n, r i th c hi n tóm t t đ i v i siêu v n b n nƠy đ sinh
ra b n tóm t t cu i cùng Ph ng pháp nƠy đ a bƠi toán tóm t t đa v n b n tr thƠnh bƠi toán tóm t t đ n v n b n vƠ có th s d ng các k thu t tóm t t đ n v n
b n đ sinh ra b n tóm t t cu i cùng
- Ph ng pháp th hai: Tr c h t, t ng v n b n c a t p đa v n b n đ c tóm
t t đ sinh ra v n b n tóm t t t ng ng Sau đó, các v n b n tóm t t nƠy s đ c
k t h p l i thƠnh m t v n b n tóm t t t ng h p Sau đó, v n b n tóm t t t ng h p nƠy s đ c x lý tóm t t b ng các k thu t tóm t t đ n v n b n đ sinh ra v n b n tóm t t cu i cùng, đơy c ng chính lƠ b n tóm t t k t qu c a t p đa v n b n ngu n
Trang 331.4 ăCácăph ngăphápătómăt tăv năb n h ngătríchărútăc ăs
( )
( )
j i
j i
PageRank pd
(1.23) trong đó:
- N lƠ t ng s trang
- M p ( )i lƠ t p h p các trang liên k t đ n pi
- d lƠ h ng s (thông th ng d đ c ch n b ng 0,85)
- PageRank p( )i : lƠ PageRank c a pi
- L p( j): lƠ s l ng các liên k t tr ra trong pj
1.4.2 TextRank
TextRank [14] lƠ m t thu t toán tóm t t v n b n trích rút theo h ng ti p c n không giám sát d a trên đ th , đ c xơy d ng d a trên thu t toán PageRank TextRank coi m i cơu lƠ m t đ nh trong đ th thay vì m i đ nh lƠ m t trang Website nh trong thu t toán PageRank vƠ tính đ t ng đ ng gi a hai cơu d a vƠo
s t trùng c a 2 cơu Sau đó, đ a ra m t ng ng đ ch n ra s cơu liên quan c a
t ng cơu
1.4.3 LexRank
LexRank [11] lƠ m t h ng ti p c n không giám sát, trong đó s d ng ý t ng
c a thu t toán PageRank đ xác đ nh t m quan tr ng c a các cơu trong v n b n LexRank s d ng đ đo Cosine c a các véc t tf-idf đ xác đ nh tr ng s c a m t cơu nh sau:
- x, y: lƠ hai cơu c n đo đ t ng đ ng
- tfw,x: lƠ t n su t xu t hi n c a t w trong câu x
- tfw, y: lƠ t n su t xu t hi n c a t w trong câu y
- idfw: lƠ đ quan tr ng c a t w
Công th c nƠy bi u di n kho ng cách gi a hai cơu x vƠ y Phép đo đ t ng
đ ng nƠy đ c s d ng đ xơy d ng ma tr n t ng đ ng lƠ đ th t ng đ ng gi a các cơu LexRank đo l ng đ quan tr ng c a các cơu trong đ th b ng cách xem xét t m quan tr ng t ng đ i c a nó v i các cơu lơn c n trích rút các cơu quan
Trang 34đ u tiên trong v n b n lƠm b n tóm t t ơy lƠ ph ng pháp tóm t t đ n gi n nh ng
có đ chính xác khá cao nên các nghiên c u tóm t t v n b n d ng tin t c th ng
ch n ph ng pháp Lead-k lƠm ph ng pháp c s đ đánh giá so sánh
1.5 ăăCácăb ăd ăli uăth ănghi m
có c s l a ch n s l ng cơu ho c s t cho b n tóm t t sinh ra c a các
mô hình tóm t t đ xu t, các b d li u s d ng đ th nghi m cho các mô hình đ
xu t đ c phơn tích th ng kê các thông tin quan tr ng vƠ đ c trình bày nh d i đơy Thông tin v th i gian thu th p các b d li u th nghi m vƠ bi u đ bi u di n phơn b đ dƠi trung bình n i dung v n b n ngu n, v n b n b n tóm t t t ng ng theo s cơu, s t c a các b d li u đ c trình bƠy chi ti t Ph l c B trong ph n
án s d ng ph ng pháp phơn chia b d li u c a Hermann vƠ c ng s [71] cho các
t p d li u hu n luy n, ki m tra vƠ đánh giá khi th nghi m các mô hình (B ng 1.3) Các cơu chính c a m i v n b n đ c s d ng lƠm c s đ đánh giá ch t l ng
b n tóm t t c a các mô hình th nghi m
Hu n luy n Ki m tra
ánh
giá
Hu n luy n Ki m tra
ánh
giá
S l ng v n b n 90.266 1.220 1.093 196.961 12.148 10.397 Kích th c t v ng 118.497 208.045
B ng 1.3 Ph ng pháp phân chia b d li u CNN/Daily Mail
B ng 1.4 là các thông tin th ng kê tóm t t c a hai b d li u CNN vƠ Daily theo s l ng cơu vƠ s l ng t
Trang 35B d li u CNN Daily Mail
V n b n ngu n
S l ng cơu trung bình 31,86 26,24
S l ng t trung bình 643,79 680,86 Kho ng phơn b theo s cơu 14 19 13 40 Kho ng phơn b theo s t 316 971 369 991
V n b n tóm t t
S l ng cơu trung bình 3,55 3,78
S l ng t trung bình 41,67 50,44 Kho ng phơn b theo s cơu 2 4 2 4 Kho ng phơn b theo s t 32 50 30 70
B ng 1.4 Th ng kê các thông tin c a hai b d li u CNN và Daily Mail
B d li u nƠy đ c s d ng đ th nghi m cho các mô hình tóm t t đ n v n
B d li u DUC 2001 g m 297 v n b n ngu n đ c t ch c thƠnh 30 c m, m i
c m bao g m t p các v n b n ngu n, các b n tóm t t khác nhau s d ng cho tóm t t
đa v n b n (m i b n tóm t t có đ dƠi đ c c đ nh l n l t lƠ 50, 100, 200 và 400
t ) và 1 b n tóm t t s d ng cho tóm t t đ n v n b n có đ dƠi 100 t B d li u DUC 2002 g m 567 v n b n ngu n đ c t ch c thƠnh 60 c m, m i c m bao g m
t p các v n b n ngu n, các b n tóm t t khác nhau s d ng cho tóm t t đa v n b n (m i b n tóm t t có đ dƠi đ c c đ nh l n l t lƠ 10, 50, 100, 200 vƠ 400 t ) vƠ 1
b n tóm t t s d ng cho tóm t t đ n v n b n có đ dƠi 100 t
Lu n án ch s d ng 2 b d li u này đ th nghi m tóm t t đ n v n b n h ng trích rút nên lu n án s đi phơn tích th ng kê các thông tin c a v n b n ngu n, b n tóm t t s d ng cho tóm t t đ n v n b n.B ng 1.5 d i đơy là các thông tin th ng
kê c a hai b d li u theo s l ng cơu vƠ s l ng t
V n b n ngu n
S l ng cơu trung bình 41.51 26,41
S l ng t trung bình 887.12 534,71 Kho ng phơn b theo s cơu 15 68 13 40 Kho ng phơn b theo s t 321 1.453 278 791
V n b n tóm t t
S l ng cơu trung bình 4,69 5,30
S l ng t trung bình 92,47 99,65 Kho ng phơn b theo s cơu 3 6 4 7 Kho ng phơn b theo s t 85 99 95 105
B ng 1.5 Th ng kê các thông tin tóm t t c a b d li u DUC 2001 và DUC 2002
s d ng cho tóm t t đ n v n b n
Trang 36Hai b d li u nƠy s đ c s d ng đ th nghi m cho mô hình tóm t t đ n v n
b n ti ng Anh h ng trích rút đ xu t
1.5 1.3 B d li u DUC 2004
B d li u DUC 2004 [74] đ c phát tri n b i t ch c NIST g m 50 c m v n
b n, m i c m có trung bình 10 v n b n vƠ có 4 b n tóm t t đi kèm do các chuyên gia c a NIST t o ra
B ng 1.6 là các thông tin th ng kê tóm t t c a b d li u DUC 2004 theo s
l ng cơu vƠ s l ng t trên toƠn b b d li u
Thông tin
Lo i
v n b n
S l ng câu trung bình
S t trung bình
Kho ng phân
b theo s câu Kho ng phân b theo s t
V n b n ngu n 25,45 564,12 11 41 211 917
V n b n tóm t t 6,54 104,43 4 8 99 109
B ng 1.6 Th ng kê các thông tin tóm t t c a b d li u DUC 2004
B d li u nƠy s đ c s d ng đ th nghi m cho mô hình tóm t t đa v n b n
b n tóm t t th hi n đ y đ thông tin c a m i ch đ Các b n tóm t t nƠy s đ c
s d ng đ đánh giá ch t l ng b n tóm t t c a các mô hình th nghi m
- Update task (pilot): Khác v i t p d li u Main task, m i b n tóm t t trong Update task ch ch a kho ng 100 t v i gi đ nh r ng ng i dùng đư đ c qua m t
s v n b n tr c đó r i Update task có x p x 10 ch đ , m i ch đ ch a 25 v n
b n V i m i ch đ , các v n b n đ c s p x p theo trình t th i gian vƠ sau đó
đ c phơn chia thƠnh 3 t p A, B vƠ C Trong 25 v n b n c a m i ch đ , có x p x
10 v n b n cho t p A, 8 v n b n cho t p B vƠ 7 v n b n cho t p C
B ng 1.7 là các thông tin th ng kê tóm t t c a t p d li u Main task c a b d
li u DUC 2007 theo s l ng cơu vƠ s l ng t trên toƠn b b d li u
Thông tin
Lo i
v n b n
S l ng câu trung bình
S t trung bình
Trang 37B d li u nƠy s đ c s d ng đ th nghi m các mô hình tóm t t đa v n b n
ti ng Anh h ng trích rút vƠ h ng tóm l c đ xu t
1.5 2.ăCácăb ăd ăli uăv năb năti ngăVi t
1.5 2.1 B d li u Baomoi
B d li u cho tóm t t v n b n ti ng Vi t có tên lƠ ‘Baomoi’ B d li u nƠy
đ c t o ra b ng cách thu th p các bƠi báo t trang báo đi n t Vi t Nam (http://baomoi.com) M i bƠi báo bao g m ba ph n: Tiêu đ , tóm t t vƠ bƠi báo Do
ch a có ngu n d li u nƠo t t h n nên b d li u Baomoi lƠ l a ch n t t đ c s
d ng lƠm b d li u th nghi m cho các mô hình tóm t t đ n v n b n ti ng Vi t vƠo th i đi m nƠy B d li u Baomoi có x p x 4GB d li u bao g m 1.000.847
v n b n (trong đó: 900.847 m u đ c s d ng đ hu n luy n, 50.000 m u đ ki m tra vƠ 50.000 m u đ đánh giá), đ c chia thƠnh 1.000 b n ghi, m i b n ghi g m
h n 1.000 v n b n đ c tách nhau b i kí t ‘#‘ M i v n b n có c u trúc g m 3
ph n:
- Ph n tiêu đ : lƠ đo n đ u tiên, g m 1 cơu ng n
- Ph n tóm t t: lƠ đo n k ti p, g m t 1 đ n 2 cơu dƠi
- Ph n n i dung: lƠ đo n cu i cùng
Ph n n i dung vƠ ph n tóm t t t ng ng đ c s d ng lƠm v n b n ngu n vƠ
b n tóm t t cho bƠi toán tóm t t v n b n Các ph n nƠy đ c s d ng đ hu n luy n
vƠ đánh giá đ chính xác cho các mô hình th nghi m
B ng 1.8 là các thông tin th ng kê tóm t t c a b d li u Baomoi theo s l ng cơu vƠ s l ng t trên toƠn b b d li u
Thông tin
Lo i
v n b n
S l ng câu trung bình
S t trung bình
Kho ng phân
b theo s câu Kho ng phân b theo s t
V n b n ngu n 11,56 532,65 3 20 145 920
V n b n tóm t t 1,28 38,90 1 2 22 55
B ng 1.8 Th ng kê các thông tin tóm t t c a b d li u Baomoi
B d li u Baomoi đ c s d ng đ th nghi m cho các mô hình tóm t t đ n
v n b n ti ng Vi t h ng trích rút vƠ h ng tóm l c đ xu t c a lu n án
1.5 2.2 B d li u 200 c m
B d li u [76] g m 200 c m (trong lu n án s g i lƠ b d li u
Corpus_TMV), m i c m d li u bao g m t 2 đ n 5 v n b n, trung bình 3,16 v n
b n, 2 b n tóm t t B d li u đ c t o th công b i con ng i, trong đó vi c xơy
d ng b d li u đ c nhóm tác gi x lý g m hai b c:
- Thu th p và phân c m các v n b n: D li u đ c thu th p t trang
baomoi.com vƠ đ c phơn b trên kho ng t 8 đ n 10 ch đ g m th gi i, xư h i,
v n hóa, khoa h c vƠ công ngh , kinh t , gi i trí, th thao, giáo d c, pháp lu t, s c
kh e
Trang 38- Sinh b n tóm t t: B n tóm t t cho các c m v n b n đ c xơy d ng b i hai
c ng tác viên đ c l p
B ng 1.9 là các thông tin th ng kê tóm t t c a b d li u Corpus_TMV theo s
l ng cơu vƠ s l ng t trên toƠn b b d li u
Thông tin
Lo i
v n b n
S l ng câu trung bình
S t trung bình
Kho ng phân
b theo s câu Kho ng phân b theo s t
V n b n ngu n 14,86 477,95 5 23 168 786
V n b n tóm t t 4,71 178,56 3 6 125 231
B ng 1.9 Th ng kê các thông tin tóm t t c a b d li u Corpus_TMV
B d li u nƠy s đ c s d ng đ th nghi m cho các mô hình tóm t t đa v n
- Thu th p và phân c m các v n b n: D li u đ c nhóm tác gi thu th p t
trang news.google.com (Google News) ti ng Vi t, nhóm tác gi ch thu th p t các ngu n m thay vì toƠn b ngu n t Google News (vì lý do b n quy n) Các v n b n thu th p g m các ch đ : th gi i, kinh t , tin t c trong n c, gi i trí, th thao
- Sinh b n tóm t t: Hai ng i tóm t t v i s h tr c a ph n m m MDSWriter
[78] t o ra b n tóm t t cho các c m v n b n đư thu th p
B ng 1.10 là các thông tin th ng kê tóm t t c a b d li u ViMs theo s l ng cơu vƠ s l ng t trên toƠn b b d li u
Thông tin
Lo i
v n b n
S l ng câu trung bình
S t trung bình
Kho ng phân
b theo s câu Kho ng phân b theo s t
V n b n ngu n 12,54 390,45 5 19 165 615
V n b n tóm t t 5,35 220,94 3 7 144 296
B ng 1.10 Th ng kê các thông tin tóm t t c a b d li u ViMs
B d li u này s đ c s d ng đ th nghi m cho các mô hình tóm t t đa v n
b n ti ng Vi t h ng trích rút vƠ h ng tóm l c đ xu t
1.6 ăK tălu năch ngă1
V i m c tiêu c a đ tƠi, ch ng nƠy đư trình bƠy m t s ki n th c c s liên quan đ n đ tƠi nghiên c u nh sau:
Trang 39- T ng quan v bƠi toán tóm t t v n b n vƠ m t s v n đ liên quan nh phơn
lo i bƠi toán tóm t t v n b n g m tóm t t đ n v n b n, tóm t t đa v n b n, tóm t t
v n b n h ng trích rút, tóm t t v n b n h ng tóm l c, các b c th c hi n trong tóm t t v n b n, m t s đ c tr ng c a v n b n th ng đ c s d ng trong các h
th ng tóm t t v n b n Các v n đ nƠy đư m ra đ nh h ng nghiên c u cho lu n
án
- M t s ph ng pháp đánh giá v n b n tóm t t t đ ng
- Các ph ng pháp ghép v n b n trong tóm t t đa v n b n
- Các ph ng pháp tóm t t v n b n h ng trích rút c s đ c s d ng đ so sánh v i các mô hình tóm t t v n b n đ xu t
- Cu i cùng, lu n án gi i thi u vƠ phơn tích các b d li u đ c s d ng đ th nghi m cho các mô hình tóm t t v n b n đ xu t
Các ki n th c c s liên quan trong ch ng 1 đ c trình bƠy trong các công trình nghiên c u đư công b c a lu n án Các ki n th c trình bƠy trong ch ng nƠy
lƠ c s đ đ xu t vƠ phát tri n các nghiên c u c a lu n án Trong ch ng 2, lu n
án s trình bƠy các ki n th c n n t ng đ c s d ng đ phát tri n các ph ng pháp tóm t t v n b n đ xu t
Trang 40Ch ngă2.ăCÁCăKI NăTH CăN NăT NG
Ch ng nƠy trình bƠy các ki n th c n n t ng s d ng đ phát tri n các ph ng pháp tóm t t v n b n trong lu n án bao g m các k thu t h c sơu c s nh m ng Perceptron nhi u l p, m ng n ron tích ch p, m ng n ron h i quy vƠ các bi n th
c a m ng n ron h i quy, c ch chú ý, mô hình Transformer, các mô hình ngôn
ng d a trên h c sơu đ c hu n luy n tr c nh ph ng pháp word2vec, mô hình BERT, BERT đa ngôn ng , các mô hình t i u c a BERT, BERT thu nh đ véc t hóa v n b n Ch ng nƠy c ng trình bày các thu t toán đ c s d ng trong các mô hình tóm t t đ xu t nh h c t ng c ng Deep Q-Learning, tìm ki m Beam, ph ng pháp MMR lo i b thông tin trùng l p Nh ng ki n th c trình bƠy trong ch ng nƠy
lƠ c s cho vi c phát tri n các đ xu t trong các ch ng ti p theo
2.1 Cácăk ăthu tăh căsơuăc ăs
Khi m ng n ron có nhi u l p thì th i gian tính toán s t ng lên đáng k nên
m ng MLP th ng đ c hu n luy n b i gi i thu t lan truy n ng c (Back Propagation Algorithm) [80] đ gi m th i gian hu n luy n M ng MLP v i ki n trúc m ng linh ho t đư đ t đ c đ hi u qu cao trong các bƠi toán v x lý v n
b n, nh, video Ki n trúc c a m ng th ng đ c xơy d ng d a vƠo kinh nghi m
th c t vƠ th c nghi m