Từ ý tưởng trên, luận văn đề xuất một phương pháp kết hợp giữa mô hình chủ đề và mô hình được đào tạo trước cho bài toán Tóm tắt văn bản.. Mô hình đề xuất trong luận văn là sự kết hợp gi
Trang 1LUẬN VĂN THẠC SĨ
Kết hợp giữa mô hình chủ đề và mô hình
được huấn luyện trước cho bài toán tóm
tắt văn bản
TRỊNH TIẾN ĐẠT
dat.tt202653m@sis.hust.edu.vn
Ngành Khoa học máy tính
Giảng viên hướng dẫn: PGS TS Phạm Văn Hải
HÀ NỘI, 10/2022
Chữ ký của GVHD
Vic b ■ n s ■ ng ho ■■■ ng ký s ■ ng các d ■ ch v ■ a123doc.net ■■ ng ngh ■ a v ■ i vi ■ c b ■ ■■ ng ý v ■ i các ■ i ■ u kho ■ n c ■ a n không ■■ ng ý Mong mu ■ n man nguyên tri th ■ c quý báo các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
■■ ng ý r ■ ng n ■ u Thành viên ti ■ p t ■ c s ■ ng D ■ ch V ■ sau khi ■ KTTSDDV ■■■ c c ■ p nh ■ t, vi ■ ó có ngh ■ a là Thàn là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Thành viên s ■ ph ■ i th ■ c hi ■ n theo ■ úng các ch ■ ■■■ c niêm y ■ t ho ■ c các quy ■■ nh áp d ■ ng cho các d ■ ch v ■ ■ ó có th ■ ■■■ c niêm y ■ t theo t ■ ng th ■ i ■ m T ■ t c ■ các o b ■ nn viên c ■ a website.
s u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hànnh xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i ■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i choguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■ ■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và ki 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ n ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
ut phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t cwebsite.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chún mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ D ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.
Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.
Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i
Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t
Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.
Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■
Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.
123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.
Trang 2BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Trịnh Tiến Đạt
Đề tài luận văn: Kết hợp giữa mô hình chủ đề và mô hình được huấn luyện
trước cho bài toán tóm tắt văn bản
Chuyên ngành: Khoa học máy tính
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
29/10/2022 với các nội dung sau:
1 Cấu trúc lại các mục của luận văn: bỏ tên chương tại phần GIỚI THIỆU và
KẾT LUẬN; chỉnh sửa cách đánh chỉ mục tại phần 3.3
2 Bổ sung và chỉnh sửa nội dung CHƯƠNG 1 GIỚI THIỆU:
- Thêm các trích dẫn cần thiết trong phần này
3 Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 2 CƠ SỞ LÝ THUYẾT:
- Cấu trúc lại các hướng tiếp cận
- Giải thích chi tiết vai trò của TF-IDF trong tóm tắt văn bản
- Bổ sung lý thuyết Cơ chế Tập trung và Cơ chế Tự Tập trung (Self
Attention)
- Bổ sung lý thuyết về Transformer
4 Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 3 MÔ HÌNH ĐỀ XUẤT:
- Bổ sung lý thuyết và minh họa về PEGASUS
- Bổ sung lý thuyết và mô tả chi tiết hình minh họa về CombinedTM
- Mô tả chi tiết cách kết hợp và tinh chỉnh PEGASUS
- Vẽ lại kiến trúc mô hình đề xuất, bổ sung các thành phần kết hợp trước
khi sinh ra bản tóm tắt
- Cấu trúc lại phần 3.3.3 Mô hình chủ đề và hàm mất mát của mô hình
chủ đề
- Bổ sung giải thích về các phép biến đổi tuyến tính
- Bổ sung thông tin về hàm mất mát tổng thể của mô hình đề xuất
5 Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 4 THỰC NGHIỆM VÀ
ĐÁNH GIÁ:
- Bổ sung mô tả về tập dữ liệu trong 4.1
Trang 3- Bổ sung thêm lý do chỉ tinh chỉnh 2 siêu tham số 𝐾 và 𝛼
Ngày 16 tháng 11 năm 2022
CHỦ TỊCH HỘI ĐỒNG
Trang 4đảm bảo giáo viên giao đề tài ký và ghi rõ họ và tên
Trường hợp có 2 giáo viên hướng dẫn thì sẽ cùng ký tên
Giáo viên hướng dẫn
Ký và ghi rõ họ tên
Trang 5tôi, dưới sự hướng dẫn của PGS.TS Phạm Văn Hải Các kết quả công bố trong
báo cáo này là trung thực, không phải là sao chép của bất kỳ một cá nhân, hoặc tổ
chức đã được công bố nào khác Tất cả các trích dẫn được tham chiếu rõ ràng
Ngày 12 tháng 10 năm 2022 Tác giả luận văn
Trịnh Tiến Đạt
Xác nhận của người hướng dẫn
Trang 6thuộc Trường Công nghệ Thông tin và Truyền thông nói riêng và thầy giáo, cô
giáo thuộc trường Đại học Bách khoa Hà Nội nói chung đã dạy dỗ, truyền đạt kiến
thức và tạo điều kiện cho em trong suốt quá trình học tập tại trường
Đặc biệt, em xin gửi lời cảm ơn sâu sắc nhất đến thầy hướng dẫn PGS TS Phạm
Văn Hải, giảng viên bộ môn Hệ thống Thông Tin, dưới sự quan tâm, giúp đỡ,
hướng dẫn tận tình của thầy em đã tích lũy được nhiều kiến thức về chuyên môn,
đồng thời thầy luôn tạo điều kiện cho em trong suốt quá trình làm luận văn Những
thời điểm khó khăn nhất, thầy luôn giúp đỡ và động viên để em hoàn thiện những
nghiên cứu của luận văn
Em cũng xin được gửi lời cảm ơn đến gia đình, người thân, bạn bè và đồng nghiệp
đã luôn động viên tinh thần, chia sẻ và giúp đỡ em rất nhiều trong học tập và trong
cuộc sống
Do vốn kiến thức còn hạn chế, luận văn không thể tránh khỏi những thiếu sót,
khiếm khuyết, kính mong quý thầy cô xem xét và góp ý để luận văn của em được
hoàn thiện hơn
Em xin chân thành cảm ơn!
Học viên: Trịnh Tiến Đạt, 20202653M, khoá 2020B, lớp 20BKHMT
Trang 7internet, chúng ta phải đối mặt với sự bùng nổ dữ liệu, trong đó một phần không
hề nhỏ là dữ liệu dưới dạng văn bản được tạo ra với những mục đích khác nhau
Dữ liệu văn bản thì ngày càng lớn và cập nhật liên tục, tuy nhiên khả năng tiếp thu
của con người lại có hạn Do đó, nhu cầu về việc tổng hợp, rút gọn thông tin cốt
lõi với mỗi văn bản là vô cùng cấp thiết Bài toán Tóm tắt văn bản được nghiên
cứu để giải quyết vấn đề này, nó là quá trình tóm lược thông tin quan trọng nhất
rồi sau đó tạo ra một bản tóm tắt ngắn gọn cho một hoặc một tập văn bản Trong
Tóm tắt văn bản, tóm tắt hướng tóm lược được cho là kỹ thuật khó nhất vì nó
không những đòi hỏi phải hiểu về ngôn ngữ nói chung mà còn phải hiểu ngữ nghĩa
bên trong văn bản rồi sau đó sinh ra bản tóm tắt gần gũi nhất với văn bản mà con
người tạo ra, trong bản tóm tắt này có thể chứa những từ không xuất hiện trong
văn bản gốc Việc kết hợp các kỹ thuật xử lý ngôn ngữ tự nhiên khác nhau cho bài
toán tóm tắt hướng tóm lược giúp cho mô hình có thể hiểu văn bản ở nhiều khía
cạnh khác nhau, từ đó đưa ra bản tóm tắt vừa phù hợp với ngữ pháp vừa phù hợp
với ngữ cảnh trong văn bản Từ ý tưởng trên, luận văn đề xuất một phương pháp
kết hợp giữa mô hình chủ đề và mô hình được đào tạo trước cho bài toán Tóm tắt
văn bản Để kiểm chứng hiệu quả của phương pháp này, luận văn đã thực hiện một
số các thực nghiệm và sử dụng độ đo ROUGE để đánh giá Trong các thực nghiệm
đó, phương pháp kết hợp có điểm ROUGE vượt trội hơn các mô hình được đào
tạo trước và mô hình theo hướng kết hợp mô hình chủ đề và mô hình được đào tạo
trước khác Điều này cho thấy cách kết hợp được đề xuất trong luận văn đã hoạt
động hiệu quả và bổ sung ngữ nghĩa cho mô hình được đào tạo trước một cách đầy
đủ hơn so với các phương pháp kết hợp trước đây
HỌC VIÊN
Ký và ghi rõ họ tên
Trang 8GIỚI THIỆU 1
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 5
1.1 Bài toán tóm tắt văn bản 5
Tổng quan về bài toán tóm tắt văn bản 5
Phân loại bài toán tóm tắt văn bản 7
Các hướng tiếp cận bài toán tóm tắt văn bản 11
1.2 Phương pháp tóm tắt văn bản hướng tóm lược 24
1.3 Mô hình chủ đề trong tóm tắt văn bản hướng tóm lược 25
1.4 Phương pháp đánh giá mô hình 27
Phương pháp đánh giá bên trong 27
Phương pháp đánh giá bên ngoài 30
CHƯƠNG 2 MÔ HÌNH ĐỀ XUẤT 32
2.1 Phát biểu bài toán 32
2.2 Hướng tiếp cận bài toán 32
Mô hình được đào tạo trước PEGASUS 32
Mô hình chủ đề CombinedTM 33
Phương pháp kết hợp 35
2.3 Mô hình đề xuất 35
Biểu diễn dữ liệu đầu vào 36
Phần mã hóa 36
Mô hình chủ đề 36
Phần giải mã (Decoder) 36
Các biến đổi tuyến tính 37
Quá trình huấn luyện và suy diễn 37
CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 38
3.1 Bộ dữ liệu thực nghiệm 38
Bộ dữ liệu CNN/DM 38
Bộ dữ liệu XSum 39
3.2 Môi trường và tham số cài đặt mô hình 39
3.3 Quá trình thực nghiệm 40
Thực nghiệm mô hình 40
Thực nghiệm đánh giá siêu tham số 41
Trang 9Đánh giá ảnh hưởng của mô hình được huấn luyện trước 42
Thực nghiệm mô phỏng kết quả tóm tắt 43
3.4 Đánh giá kết quả thực nghiệm 44
KẾT LUẬN 45
Trang 10Hình 1.1 Tổng quan các cách phân loại bài toán tóm tắt văn bản 7
Hình 1.2 Kiến trúc của hệ thống tóm tắt hướng trích chọn 8
Hình 1.3 Kiến trúc của hệ thống tóm tắt hướng tóm lược 9
Hình 1.4 Kiến trúc của hệ thống tóm tắt hướng kết hợp 10
Hình 1.5 Đường phân tách tuyến tính sử dụng Máy vectơ hỗ trợ 15
Hình 1.6 Minh họa mô hình chuỗi sang chuỗi 16
Hình 1.7 Kiến trúc của RNN 17
Hình 1.8 Kiến trúc ô nhớ của LSTM 18
Hình 1.9 Cơ chế Tập trung được giới thiệu trong [34] 20
Hình 1.10 Kiến trúc tổng quan của mô hình Transformer 21
Hình 1.11 Tầng Tập trung đa đầu trong Transformer 22
Hình 1.12 Tổng quan phân loại đánh giá mô hình 27
Hình 2.1 Kiến trúc cơ bản của mô hình PEGASUS 33
Hình 2.2 Cấu trúc của mô hình chủ đề CombinedTM 34
Hình 2.3 Kiến trúc tổng thể của mô hình đề xuất 35
Trang 11Bảng 3.1 Thống kê chi tiết lượng dữ liệu các bộ dữ liệu 38
Bảng 3.2 Một số tham số quan trọng của mô hình được huấn luyện trước 40
Bảng 3.3 Kết quả thực nghiệm trên bộ dữ liệu CNN/DM 40
Bảng 3.4 Kết quả thực nghiệm trên bộ dữ liệu XSum 41
Bảng 3.5 Kết quả thực nghiệm đánh giá hệ số 𝛼 41
Bảng 3.6 Thực nghiệm đánh giá hệ số K 41
Bảng 3.7 Kết quả thực nghiệm 4 kích thước tập huấn luyện trên CNN/DM 42
Bảng 3.8 Kết quả thực nghiệm cắt bỏ đầu vào TM 42
Bảng 3.9 Thực nghiệm đánh giá ảnh hưởng của mô hình được đào tạo trước 43
Bảng 3.10 Kết quả thực nghiệm tóm tắt thực tế 43
Trang 12ATS Automatic Text Summarization: Tóm tắt văn bản tự động
thuật ngữ - nghịch đảo tần suất văn bản
đánh giá mô hình tóm tắt văn bản
web CNN và Daily Mail
Trang 13GIỚI THIỆU Đặt vấn đề
Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin, khả năng lưu
trữ và mạng internet, con người đang phải đối mặt với sự bùng nổ thông tin và dữ
liệu Việc sở hữu một lượng lớn dữ liệu trong tay là lợi thế nhưng cũng là thử thách
của con người Dữ liệu ngày nay được coi là ‘dầu mỏ’ của nền kinh tế số Sở hữu
và biết cách khai thác dữ liệu mang đến những lợi ích to lớn cho doanh nghiệp
hoặc các tổ chức Ngược lại, khai thác không đúng cách sẽ gây lãng phí tài nguyên
liệu kỹ thuật số lưu hành hàng năm trên khắp thế giới sẽ tăng từ 4,4 Zettabytes vào
năm 2013 và lên đến 180 Zettabytes vào năm 2025 Đây là lượng dữ liệu khổng
lồ, ẩn chứa nhiều thông tin vô cùng hữu ích mà chúng ta cần tìm hiểu và phân tích
Để hiểu, phân tích và trích xuất thông tin ẩn từ các tập dữ liệu lớn như vậy, các
nhà khoa học đã đề xuất kỹ thuật khai phá dữ liệu Khai phá dữ liệu là một quá
trình phân tích dữ liệu theo các mức độ khác nhau, đồng thời phân loại và khám
phá các mô hình và mối tương quan giữa các dữ liệu Khai phá dữ liệu tập trung
vào dữ liệu có cấu trúc như: dữ liệu quan hệ, giao dịch và kho dữ liệu Tuy nhiên,
phần lớn dữ liệu có sẵn hiện nay nằm trong cơ sở dữ liệu không có cấu trúc: dữ
liệu văn bản, tài liệu từ nhiều nguồn khác nhau như: sách, trang web, thư viện kỹ
thuật số, phương tiện truyền thông xã hội, v.v Hầu hết các cơ sở dữ liệu văn bản
đều ở định dạng bán cấu trúc Các kỹ thuật truy xuất thông tin điển hình không đủ
khả năng trích xuất thông tin mong muốn từ những nguồn tài liệu trên Để giải
quyết vấn đề này, các phương pháp khai phá dữ liệu áp dụng cho dữ liệu dạng văn
bản cần được tích hợp với các kỹ thuật truy xuất thông tin khác phù hợp với cấu
trúc văn bản Từ đó lấy ra các thông tin chính trong tài liệu, sau đó đánh giá và
diễn giải đầu ra Kỹ thuật này có tên gọi là Khai phá văn bản
nằm trong văn bản, quá trình này là một phần của việc phân tích văn bản trong
khai phá dữ liệu Mục tiêu chính của các công cụ và kỹ thuật khai phá văn bản là
nắm bắt mối quan hệ giữa các dữ liệu Khai phá văn bản đặc biệt hữu ích khi người
dùng cần tìm thông tin mới Khai phá văn bản có hai giai đoạn hoạt động: tinh
chỉnh nội dung và chắt lọc kiến thức Trong quá trình tinh chỉnh nội dung, tài liệu
được chuyển thành dạng trung gian được xác định trước và giai đoạn chắt lọc kiến
thức sẽ tổng hợp thông tin từ dạng trung gian đó Khai phá văn bản được chia thành
các bài toán nhỏ hơn bao gồm: phân loại, phân cụm, trích xuất thực thể, truy xuất
thông tin, tóm tắt văn bản, trích xuất chủ đề, v.v
Luận văn này tập trung vào bài toán tóm tắt văn bản, đây là một trong những kỹ
thuật quan trọng của khai phá văn bản Tóm tắt văn bản là quá trình trích xuất
thông tin quan trọng nhất, sau đó tạo ra bản tóm tắt cho một hoặc một tập văn bản
tương ứng Một bản tóm tắt tốt có thể giúp người dùng tiếp nhận thông tin một
1 https://www.information-age.com/data-forecast-grow-10-fold-2025-123465538/
2 https://vi.wikipedia.org/wiki/Khai_thác_văn_bản
Trang 14cách dễ dàng, nhanh chóng nhưng vẫn đảm bảo đầy đủ thông tin chính của văn bản
gốc Trong tóm tắt văn bản, tóm tắt theo hướng tóm lược được cho là kỹ thuật khó
nhất [1] Mô hình tóm tắt theo hướng tóm lược không những phải hiểu về ngôn
ngữ nói chung mà còn phải hiểu ngữ nghĩa bên trong văn bản cần tóm tắt Từ đó
sinh ra bản tóm tắt tương đương với bản tóm tắt do con người viết ra Bản tóm tắt
này có thể chứa những từ không xuất hiện trong văn bản gốc Việc kết hợp các kỹ
thuật Xử lý ngôn ngữ tự nhiên cho bài toán tóm tắt tóm lược giúp mô hình có thể
hiểu văn bản ở nhiều khía cạnh khác nhau, từ đó đưa ra bản tóm tắt vừa phù hợp
với ngữ pháp vừa phù hợp với ngữ cảnh trong văn bản
Thời gian gần đây, xuất hiện một hướng nghiên cứu rất được quan tâm trong cộng
đồng Xử lý ngôn ngữ tự nhiên (NLP) tên là Tăng cường tri thức cho vấn đề sinh
văn bản [2] Nó được tạo ra với mục đích củng cố tri thức cho các mô hình sinh
văn bản nói chung, từ đó cải thiện hiệu suất của mô hình tổng thể Hướng nghiên
cứu này đã tạo ra những đột phá đáng kể trong vấn đề sinh văn bản nói chung và
tóm tắt văn bản nói riêng Các nghiên cứu đi theo hướng này đã cân nhắc việc kết
hợp (i) tri thức nội bộ được nhúng trong văn bản đầu vào và (ii) tri thức bên ngoài
từ các nguồn bên ngoài như cơ sở tri thức và đồ thị tri thức vào hệ thống sinh văn
bản Thách thức của hướng tiếp cận này là làm sao để thu được những tri thức hữu
ích liên quan đến dữ liệu đầu vào, và làm sao để tận dụng hiệu quả những tri thức
đó Có rất nhiều phương pháp khám phá tri thức đã được nghiên cứu như: vận dụng
chủ đề, từ khóa, đồ thị tri thức,… Tuy nhiên, phương pháp vận dụng chủ đề trong
việc tăng cường thông tin ngữ cảnh toàn cục của văn bản cho hiệu quả rõ rệt trong
cải thiện chất lượng mô hình cũng như sự đa dạng trong phương pháp thực thi
Từ những lý do trên, đề tài luận văn được đặt ra với hy vọng cung cấp cái nhìn
tổng quan về hướng nghiên cứu ứng dụng mô hình chủ đề cho việc cải thiện chất
lượng mô hình tóm tắt văn bản theo hướng tóm lược, cũng như đề xuất mô hình
mới kế thừa và cải tiến từ những phương pháp kể trên Mô hình đề xuất trong luận
văn là sự kết hợp giữa mô hình chủ đề và mô hình được đào tạo trước giải quyết
bài toán tóm tắt văn bản theo hướng tóm lược Đầu vào của mô hình chủ đề là sự
kết hợp giữa dữ liệu gốc và thành phần đầu ra của bộ mã hoá trong mô hình được
huấn luyện trước Sau đó, kết hợp đầu ra của mô hình chủ đề với đầu ra của phần
giải mã để tạo ra bản tóm tắt của mô hình tổng thể
Mục đích của luận văn
Mục đích chính của luận văn là tìm hiểu, nghiên cứu và đề xuất mô hình tóm tắt
văn bản theo hướng tóm lược bằng phương pháp kết hợp mô hình chủ đề và mô
hình được huấn luyện trước
Mục đích cụ thể và kết quả luận văn hoàn thành như sau:
• Xác định ý nghĩa thực tiễn và ứng dụng của bài toán tóm tắt văn bản nói
chung cũng như tóm tắt theo hướng tóm lược nói riêng
• Tìm hiểu, khảo sát các hướng nghiên cứu liên quan đến ứng dụng mô hình
chủ đề cho việc cải tiến mô hình tóm tắt văn bản theo hướng tóm lược
Trang 15• Đề xuất mô hình tóm tắt văn bản theo hướng tóm lược dựa trên việc kết hợp
mô hình chủ đề và mô hình được huấn luyện trước
• Thực nghiệm mô hình trên hai bộ dữ liệu nổi tiếng cho bài toán tóm tắt văn
bản
• Đánh giá các kết quả thực nghiệm
Mô hình đề xuất trong luận văn được thực nghiệm trên 2 bộ dữ liệu bao gồm bộ
CNN/Daily Mail và XSum – hai bộ dữ liệu rất phổ biến trong các nghiên cứu về
bài toán tóm tắt văn bản trên thế giới Luận văn đề xuất hướng tiếp cận kết hợp
sử dụng mô hình chủ đề để bổ sung thông tin về ngữ cảnh trong văn bản cho mô
hình được huấn luyện trước, qua đó cải thiện chất lượng bản tóm tắt đầu ra của
mô hình Mô hình đề xuất được đánh giá thông qua điểm ROUGE – điểm số dựa
trên n-gram để đánh giá sự tương quan giữa bản tóm tắt đầu ra của mô hình và
tập dữ liệu đánh giá – cho ra các kết quả cải tiến so với các phương pháp nghiên
cứu trước đây
Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận văn là bài toán tóm tắt hướng tóm lược và việc áp
dụng mô hình chủ đề kết hợp với mô hình được huấn luyện trước cho bài toán tóm
tắt hướng tóm lược
Phạm vi nghiên cứu
Trong thực tế, bài toán tóm tắt văn bản có tính ứng dụng rất cao Ví dụ như: tóm
tắt tin tức, tóm tắt sách, tóm tắt văn bản pháp luật,… Từ các nhu cầu thực tế của
con người, luận văn sẽ đi tìm hiểu tổng quan về bài toán tóm tắt văn bản (mục đích,
ý nghĩa, động lực và ứng dụng thực tế của bài toán tóm tắt văn bản) Sau đó đi sâu
hơn vào nghiên cứu tóm tắt hướng tóm lược và phương pháp ứng dụng mô hình
chủ đề cho bài toán tóm tắt hướng tóm lược Tiếp đến, luận văn đề xuất hướng tiếp
cận mới dựa trên việc kết hợp mô hình chủ đề và mô hình được huấn luyện trước
để giải quyết bài toán tóm tắt hướng tóm lược Từ đó, tiến hành thực nghiệm đánh
giá mô hình trên hai bộ dữ liệu là CNN/DM và XSum (chi tiết hai bộ dữ liệu này
sẽ được trình bày ở phần sau của luận văn) Ngoài ra, luận văn tiến hành các thực
nghiệm khác để xác định mức độ ảnh hưởng của mô hình chủ đề đến mô hình được
huấn luyện trước trong bài toán tóm tắt hướng tóm lược
Nội dung luận văn
Nội dung của luận văn chia làm 5 chương:
Chương 1 Giới thiệu: giới thiệu lý do lựa chọn đề tài, mục đích, đối tượng
và phạm vi nghiên cứu của luận văn
Chương 2 Cơ sở lý thuyết: giới thiệu tổng quan về bài toán tóm tắt văn bản,
tiếp cận bài toán tóm tắt theo hướng tóm lược và kỹ thuật sử dụng mô hình chủ đề
Trang 16trong bài toán tóm tắt văn bản hướng tóm lược, cuối cùng là các phương pháp đánh
giá mô hình tóm tắt
Chương 3 Mô hình đề xuất: đề xuất mô hình kết hợp giữa mô hình chủ đề
và mô hình được huấn luyện trước để giải quyết bài toán tóm tắt hướng tóm lược
Chương 4 Thực nghiệm và đánh giá: trình bày các thực nghiệm mô hình
đề xuất trên hai bộ dữ liệu CNN/DM và XSum, sau đó rút ra đánh giá về các kết
quả thực nghiệm trên
Chương 5 Kết luận: đưa ra các kết luận chung về các kết quả đạt được của
luận văn, sau đó đưa ra hướng phát triển trong tương lai của đề tài
Trang 17CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1 Bài toán tóm tắt văn bản
Tổng quan về bài toán tóm tắt văn bản
Tóm tắt văn bản (hay gọi đầy đủ hơn là Tóm tắt văn bản tự động) là tác vụ tự động
sinh ra một bản tóm tắt của một tài liệu văn bản bằng cách trích xuất thông tin quan
trọng nhất từ tài liệu đó Trong xã hội ngày nay, chúng ta phải đối mặt với một
lượng lớn dữ liệu hàng ngày, việc tự động truy xuất những phần nổi bật nhất của
văn bản bằng máy tính có thể giúp con người tổng hợp, tiếp nhận thông tin một
cách nhanh chóng và chính xác nhất Đối với con người, ta có thể dễ dàng hiểu
được ý nghĩa của một văn bản và lập một bản tóm tắt mạch lạc bằng cách sử dụng
từ ngữ của mình, tuy nhiên tốc độ xử lý của con người so với tốc độ sản sinh dữ
liệu thì kém hơn rất nhiều Đối với máy móc, nhiệm vụ này trở nên khó khăn, vì
chúng khó có thể hiểu được nội dung của văn bản theo nhiều khía cạnh khác nhau,
tuy nhiên khả năng xử lý của máy móc thì cực kỳ linh hoạt và nhanh chóng Do
đó, hướng nghiên cứu về bài toán tóm tắt văn bản tự động được quan tâm chú ý
đến như một lẽ tất yếu để tận dụng hết năng lực tính toán của máy móc và giúp
con người có thể thu nhận thông tin một cách dễ dàng hơn
Tuy nhiên, không phải chỉ khi bùng nổ thông tin trong thời kỳ internet phát triển
mạnh mẽ như vài thập kỷ gần đây thì tóm tắt văn bản mới được chú ý đến, bài toán
này đã được quan tâm từ năm 1958 trong một nghiên cứu của Hans Peter Luhn tại
IBM [3], trong đó, tác giả đã trình bày phương pháp tóm tắt cho các bài báo kỹ
thuật thông qua việc sử dụng các phương pháp thống kê tần suất và phân bố của
các từ trong văn bản để đánh trọng số cho các câu trong văn bản, rồi từ đó chọn ra
những câu có trọng số và hợp chúng lại để tạo thành văn bản tóm tắt Các hướng
tiếp cận của các công trình nghiên cứu sơ khai thường dựa trên tần số hoặc dựa
trên các luật Vào những năm 1990, với sự ra đời của các kỹ thuật Học máy trong
Xử lý ngôn ngữ tự nhiên (NLP), một loạt bài báo đã được đề xuất sử dụng các
phương pháp dựa trên thống kê hoặc đồ thị để tạo ra các bản tóm tắt tài liệu đã thu
hút nhiều sự chú ý như là [4, 5] Các công trình nghiên cứu trong thời điểm này
hầu như tập trung vào việc trích xuất nguyên văn các câu hơn là tạo ra một câu
mới, tuy nhiên có thể điều đó sẽ thay đổi trong tương lai do gần đây đã có nhiều
nghiên cứu bắt đầu chuyển hướng sang việc tạo ra những câu văn mới gần với văn
bản do con người tạo ra
Gần đây, với sự phát triển mạnh mẽ của các kỹ thuật Học sâu, rất nhiều các công
trình nghiên cứu về tóm tắt văn bản đặc biệt là tóm tắt hướng tóm lược đã sử dụng
kỹ thuật này và đạt được kết quả vượt trội so với các kỹ thuật cổ điển Tuy nhiên,
kỹ thuật này cũng gặp một số vấn đề chung đã được trình bày trong [6] như sau:
• Độ dài chuỗi đầu vào: các phương pháp dựa trên mạng nơ-ron hiện nay
chưa có khả năng đọc hết các văn bản dài do các vấn đề về bùng nổ bộ nhớ
Trang 18• Thông tin dư thừa: Đây là một trong những nhược điểm chính của các
phương pháp tiếp cận tóm tắt hiện có, trong đó bản tóm tắt chứa các từ được
lặp đi lặp lại nhiều lần
• Lựa chọn bản tóm tắt đầu ra: ở giai đoạn giải mã, mô hình sinh ra một phân
phối xác suất để dự đoán từ tiếp theo; có nhiều cách để dự đoán từ tiếp theo,
có thể thực hiện tìm kiếm tham lam (greedy search), trong đó mỗi lần từ có
xác suất cao nhất được chọn, hoặc sử dụng các thuật toán tìm kiếm chùm
(beam search) mà trong đó một cây các kết quả được tạo ra thông qua việc
lựa chọn một dãy các từ có xác suất cao nhất
• Yêu cầu về khả năng tính toán: càng ngày các mô hình Học sâu càng sâu
hơn, nhiều lớp ẩn hơn do đó cũng cần bộ nhớ cũng như tài nguyên tính toán
ngày càng cao hơn
• Dữ liệu số học: vì kho từ vựng được sử dụng để đào tạo mô hình tóm tắt bị
hạn chế (chỉ chứa các thuật ngữ phổ biến nhất), đây là một vấn đề rất khó
giải quyết triệt để vì thông tin được trình bày trong một số văn bản cần phải
có số liệu chính xác ví dụ như văn bản thống kê, văn bản y tế…
• Lựa chọn trình tách token: Vai trò của trình tách token là chuyển đổi một
văn bản thành một danh sách các token (có thể các từ, cụm từ,… tùy thuộc
vào mỗi bài toán) Tùy thuộc vào mỗi trình tách token, chỉ những từ quan
trọng nhất được giữ lại, điều này có thể ảnh hưởng đến chất lượng của các
bản tóm tắt được sinh ra
Tóm tắt văn bản là một bài toán khó trong NLP, tuy nhiên nó lại có tính ứng dụng
rất cao trong cuộc sống Trong [1] đã chỉ ra một số những ứng dụng thực tế của
tóm tắt văn bản:
• Tóm tắt tin tức: Hệ thống Newsblaster [7] được sinh ra với mục đích thu
thập tự động, phân cụm, phân loại và tóm tắt tin tức của một số trang tin
tức, qua đó giúp người đọc dễ dàng tra cứu và tìm kiếm tin tức mà họ mong
muốn
• Tóm tắt sách: một bản tóm tắt sách có thể giúp người đọc hiểu sơ lược về
nội dung cuốn sách và cân nhắc xem cuốn sách đó có phù hợp với mình hay
không, tuy nhiên hầu hết các nghiên cứu tập trung vào tóm tắt tài liệu ngắn
Trong [8] nhóm tác giả đã giải quyết các vấn đề của việc tóm tắt sách và
giới thiệu một tiêu chuẩn cụ thể cho việc tóm tắt sách
• Tóm tắt email: email thuộc dạng văn bản theo miền, chúng không có cấu
trúc cụ thể và không phải lúc nào cũng được hình thành tốt về mặt cú pháp
Trong [9], nhóm tác giả đã đề xuất một hệ thống tóm tắt văn bản kết hợp
các kỹ thuật ngôn ngữ với các thuật toán máy học để trích xuất các cụm
danh từ để tạo ra một bản tóm tắt các thông điệp email
• Tóm tắt văn bản pháp lý: Trong [10], nhóm tác giả đã đề xuất hệ thống tóm
tắt văn bản và hệ thống tra cứu văn bản quy phạm pháp luật tự động nhằm
tiết kiệm thời gian của các chuyên gia pháp lý Nhiệm vụ tóm tắt xác định
các vai trò tu từ trình bày các câu của một văn bản án lệ Nhiệm vụ tìm kiếm
Trang 19xác định các trường hợp liên quan trong quá khứ dựa trên truy vấn pháp lý
đã cho Hệ thống kết hợp sử dụng các kỹ thuật khác nhau như kỹ thuật đối
sánh từ khóa hoặc cụm từ khóa và kỹ thuật dựa trên trường hợp
• Tóm tắt bài báo khoa học: Bài báo khoa học là tài liệu có cấu trúc tốt có
một số đặc điểm chung như vị trí có thể đoán trước của các mục trong tài
liệu, từ gợi ý và cấu trúc giống như mẫu Đây là một trong những ứng dụng
phổ biến, được quan tâm nghiên cứu nhiều nhất trong bài toán tóm tắt văn
bản Tiêu biểu có thể kể đến như: [11] đề xuất một trình tóm tắt để trích
xuất các vấn đề từ một bài báo nghiên cứu, sau đó sử dụng nó để tìm các
bài báo liên quan
Phân loại bài toán tóm tắt văn bản
Hình 1.1 Tổng quan các cách phân loại bài toán tóm tắt văn bản
Có rất nhiều cách được sử dụng để phân loại bài toán tóm tắt văn bản, tuy nhiên
tất cả đều chỉ mang tính chất tương đối, phụ thuộc vào nhiều yếu tố khác nhau
Hình 1.1 mô tả tổng quan về các cách phân loại bài toán tóm tắt văn bản Trong
phần này, luận văn sẽ liệt kê những phương pháp phân loại bài toán phổ biến nhất
1.1.2.1 Dựa trên phương pháp sinh bản tóm tắt
Phân loại dựa trên phương pháp sinh bản tóm tắt của mô hình là một trong những
cách phân loại phổ biến nhất cho bài toán tóm tắt văn bản Trong nghiên cứu [1],
các tác giả đã dựa trên yếu tố này để phân bài toán thành 3 loại đó là: tóm tắt hướng
trích chọn, tóm tắt hướng tóm lược và tóm tắt hướng kết hợp
a) Tóm tắt hướng trích chọn
Trang 20Phương pháp tóm tắt văn bản hướng trích chọn thực hiện đánh trọng số cho các
thành phần quan trọng trong văn bản gốc (có thể là câu hoặc cụm từ), sau đó chọn
những phần quan trọng nhất để kết hợp lại thành một bản tóm tắt Đầu ra của mô
hình là phiên bản được nén và sắp xếp lại của đầu vào, các từ ngữ gốc được giữ
nguyên Phương pháp này là hướng giải quyết sơ khai nhất và đã xuất hiện từ
những nghiên cứu đầu tiên về tóm tắt văn bản [3] Hình 1.2 biểu diễn kiến trúc
tổng quan của một hệ thống tóm tắt văn bản hướng trích chọn
Hình 1.2 Kiến trúc của hệ thống tóm tắt hướng trích chọn
Các bước xử lý như sau:
• Tiền xử lý: loại bỏ từ dừng (stopword), chuẩn hóa văn bản,…
• Xử lý: đầu tiên tạo một biểu diễn văn bản (ví dụ Túi từ - BOW, biểu diễn
đồ thị [12],…); sau đó sử dụng một phương pháp để đánh trọng số cho các
câu trong văn bản; rồi cuối cùng trích chọn các câu có trọng số cao nhất
• Hậu xử lý: đổi chỗ các câu, thay thế đại từ, thay thế biểu thức thời gian
tương đối bằng ngày tháng thực tế
Tóm tắt hướng trích chọn nhanh và đơn giản hơn so với các cách còn lại, ngoài ra
hướng tiếp cận này dẫn đến độ chính xác cao hơn vì trích xuất trực tiếp các câu để
người đọc đọc bản tóm tắt với các thuật ngữ chính xác tồn tại trong văn bản gốc
Tuy nhiên tóm tắt hướng trích chọn khác rất xa so với văn bản do con người tạo
ra, do đó khó có thể sử dụng trong các ứng dụng thực tế trong cuộc sống
b) Tóm tắt hướng tóm lược
So với tóm tắt hướng trích chọn, tóm tắt hướng tóm lược gặp nhiều thử thách hơn
vì nó đòi hỏi hiểu văn bản đầu vào và sinh ra bản tóm tắt hoàn toàn mới một cách
hợp lý cả về mặt ý nghĩa lẫn ngữ pháp, trong bản tóm tắt này có thể chứa những từ
không xuất hiện trong văn bản gốc Một bản tóm tắt hướng tóm lược tốt đòi hỏi
khả năng biểu diễn thông tin ở dạng mạch lạc, dễ đọc và đúng ngữ pháp, điều đó
đôi khi cũng là thách thức đối với chính con người khi muốn tóm tắt ý chính của
Trang 21một văn bản nào đó Tóm tắt văn bản hướng tóm lược sẽ được tập trung nghiên
cứu trong phạm vi luận văn này Hình 1.3 biểu diễn kiến trúc tổng quan của một
hệ thống tóm tắt văn bản hướng tóm lược Nó bao gồm các tác vụ tiền xử lý, hậu
xử lý và các tác vụ xử lý bao gồm:
• Tạo một biểu diễn trung gian cho văn bản: xây dựng biểu diễn ngữ nghĩa
nội bộ cho văn bản
• Sinh văn bản tóm tắt: tạo bản tóm tắt bằng các kỹ thuật NLP
Hình 1.3 Kiến trúc của hệ thống tóm tắt hướng tóm lược
Theo như [1] đã trình bày, ưu điểm của phương pháp này là nó tạo ra các bản tóm
tắt tốt hơn với các từ khác nhau không thuộc văn bản gốc bằng cách sử dụng các
từ ngữ linh hoạt hơn dựa trên cách diễn giải, nén hoặc kết hợp; bản tóm tắt được
tạo ra gần với bản tóm tắt thủ công do con người tạo ra hơn; các phương pháp
hướng tóm lược có thể rút gọn văn bản và cô đọng thông tin hơn nữa khi so sánh
với các phương pháp khác
Tuy nhiên, trong thực tế, việc tạo ra một bản tóm tắt hướng tóm lược chất lượng
cao là rất khó Cách tiếp cận hướng tóm lược cần phải nắm bắt được toàn bộ các
thông tin có trong văn bản đầu vào để tạo ra các câu mới vừa hợp lý về ngữ pháp,
vừa đúng về ngữ cảnh văn bản Điểm yếu của hầu hết các trình tóm tắt hướng tóm
lược đó là việc tạo ra các từ lặp đi lặp lại và không thể xử lý các từ ngoài tập từ
vựng một cách hợp lý nhất
Trong phạm vi nghiên cứu, luận văn sẽ tập trung nghiên cứu và đề xuất phương
pháp giải quyết bài toán tóm tắt hướng tóm lược này
c) Tóm tắt hướng kết hợp
Phương pháp tóm tắt hướng kết hợp là phương pháp kết hợp cả hướng tiếp cận
trích chọn và tóm lược Kiến trúc điển hình của một trình tóm tắt văn bản kết hợp
được thể hiện trong Hình 1.4 Trong [13] đã trình bày phương pháp này gồm các
giai đoạn tiền xử lý, hậu xử lý và các tác vụ xử lý bao gồm:
• Tóm tắt hướng trích chọn: trích xuất các câu quan trọng từ văn bản đầu vào
Trang 22• Tóm tắt hướng tóm lược: tạo bản tóm tắt cuối cùng bằng cách áp dụng các
phương pháp và kỹ thuật hướng tóm lược trên các câu được trích xuất từ
giai đoạn đầu
Ưu điểm của phương pháp này là kết hợp các ưu điểm của cả phương pháp kể trên
Cả hai các phương pháp tiếp cận bổ sung cho nhau và hiệu suất tổng hợp được cải
thiện đáng kể [14]
Tuy nhiên, nhược điểm của phương pháp này là hệ thống tạo ra bản tóm tắt kém
chất lượng hơn so với cách tiếp cận hướng tóm lược thuần túy vì bản tóm tắt sinh
ra phụ thuộc vào các phần trích chọn thay vì văn bản gốc
Hình 1.4 Kiến trúc của hệ thống tóm tắt hướng kết hợp
1.1.2.2 Dựa trên kích thước đầu vào
Dựa trên kích thước đầu vào của mô hình có thể chia bài toán thành hai loại đó là
tóm tắt đơn văn bản và tóm tắt đa văn bản Khi mà tóm tắt đơn văn bản chỉ cần xử
lý một văn bản đơn, thì tóm tắt đa văn bản phải tóm gọn ý của nhiều văn bản có
liên quan đến nhau cùng một lúc và tạo ra bản tóm tắt là tổng hợp các thành phần
chính của tất cả các văn bản đó
Theo [15], bài toán tóm tắt đa văn bản là một bài toán khó, có độ phức tạp cao hơn
so với tóm tắt đơn văn bản rất nhiều Thách thức chủ yếu đến từ việc có thể có sự
nhập nhằng ngữ nghĩa trong nội dung của các văn bản trong cùng tập văn bản hay
trình tự thời gian được trình bày trong mỗi một văn bản là khác nhau, vì vậy để
đưa ra một kết quả tóm tắt tốt sẽ vô cùng khó khăn
Bài toán tóm tắt đa văn bản có rất nhiều ứng dụng thực tế như: tóm tắt các báo cáo
liên quan đến một sự kiện, tóm tắt các cụm dữ liệu được trả về từ quá trình phân
cụm trên máy tìm kiếm, Hướng nghiên cứu ứng dụng bài toán tóm tắt đa văn bản
vào việc xây dựng hệ thống hỏi đáp tự động đang là hướng nghiên cứu chính của
cộng đồng nghiên cứu tóm tắt văn bản những năm gần đây Nhiều nghiên cứu cho
thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn để
Trang 23đưa ra một văn bản tóm tắt theo yêu cầu của người dùng đã đạt được nhiều kết quả
khả quan, nó cũng thể hiện đây là một hướng tiếp cận đúng đắn ứng dụng trong
việc xây dựng các mô hình hỏi đáp tự động
1.1.2.3 Dựa trên mục đích tóm tắt
Theo mục đích tóm tắt thì có hai cách để phân loại bài toán này
• Nếu dựa vào mục đích của người dùng: có thể chia thành tóm tắt chung và
tóm tắt theo truy vấn Tóm tắt chung chính là tìm ra đoạn tóm tắt đại diện
cho toàn bộ văn bản, còn tóm tắt trên cơ sở truy vấn là sinh ra bản tóm tắt
dựa trên những truy vấn được người dùng hoặc hệ thống định sẵn, loại tóm
tắt này thường được sử dụng trong quá trình tóm tắt các kết quả trả về từ
máy tìm kiếm
• Nếu dựa vào mục đích sử dụng bản tóm tắt: có thể chia thành tóm tắt chỉ
định và tóm tắt thông tin Tóm tắt chỉ định không chứa nội dung thông tin
mà chỉ chứa mô tả chung về tài liệu gốc, ví dụ như mục đích, phạm vi và
phương pháp nghiên cứu của tài liệu gốc Điều này có thể hữu ích để quyết
định xem có nên tham khảo tài liệu gốc hay không Tương tự như tóm tắt
chung ở cách phân loại trên, tóm tắt thông tin đưa ra bản tóm tắt cho toàn
bộ văn bản đầu vào Sau khi đọc tóm tắt chỉ định, người ta có thể biết nội
dung của văn bản, trong khi đó khi đọc bản tóm tắt thông tin, người ta có
thể mô tả lại nội dung của văn bản đầu vào Các bản tóm tắt chỉ định được
sử dụng cho các tài liệu ít cấu trúc hơn như thư, báo cáo, v.v và các bản
tóm tắt thông tin được sử dụng cho các tài liệu khác
1.1.2.4 Các cách phân loại khác
Dựa vào một số tiêu chí khác nhau, có thể phân loại bài toán tóm tắt văn bản theo
các cách khác nhau Một số cách phân loại sau đây thường ít được sử dụng hơn so
với các cách được trình bày ở phía trên
• Dựa vào thuật toán tóm tắt được sử dụng, có thể chia bài toán thành tóm tắt
có giám sát và tóm tắt không giám sát
• Dựa trên ngôn ngữ đầu vào cũng có thể chia bài toán thành tóm tắt đơn ngôn
ngữ và tóm tắt đa ngôn ngữ
• Dựa trên miền dữ liệu đầu vào cũng có thể chia bài toán thành tóm tắt chung
và tóm tắt theo miền cụ thể (ví dụ như giáo dục, giao thông,…)
Các hướng tiếp cận bài toán tóm tắt văn bản
Trong phần này, luận văn sẽ giới thiệu sơ lược các hướng tiếp cận được áp dụng
phổ biến cho bài toán tóm tắt văn bản nói chung
1.1.3.1 Hướng tiếp cận dựa vào thống kê
Phương pháp dựa vào thống kê đã được sử dụng trong tóm tắt văn bản từ những
công trình nghiên cứu đầu tiên Mục tiêu chung của hướng tiếp cận này là sử dụng
các phương pháp thống kê để đánh trọng số cho các phần trong văn bản
a) Phương pháp sử dụng TF
Trang 24Những nghiên cứu về tóm tắt văn bản sơ khai ví dụ như [3] đã sử dụng tần suất
thuật ngữ (Term Frequency – TF) để làm căn cứ xác định trọng số cho các từ trong
văn bản, TF được định nghĩa là số lần một thuật ngữ xuất hiện trong một tài liệu
và được tính theo công thức sau:
thuật ngữ 𝑡 trong văn bản 𝑑
Tác giả đã giả thiết rằng những từ quan trọng nhất được lặp lại thường xuyên nhất
trong một văn bản hay nói cách khác là có điểm số TF cao nhất và các câu có chứa
các từ quan trọng là các câu quan trọng và có thể sử dụng để tóm tắt văn bản Tác
giả đã tạo ra một tập các từ quan trọng và tính điểm mỗi câu là tổng điểm số của
các từ quan trọng có trong câu đó, sau đó các câu có điểm số cao nhất được trích
xuất để tạo ra bản tóm tắt
Tuy nhiên, phương pháp này gặp một vấn đề đó là có thể có những thuật ngữ xuất
hiện rất nhiều nhưng không đại diện cho chủ đề chính của tài liệu Từ đó, nghiên
cứu [3] cũng đề xuất phương án sử dụng ngưỡng trọng số lớn nhất để đảm bảo
rằng thuật ngữ có trọng số nằm dưới một ngưỡng nhất định, điều đó có nghĩa là
một từ xuất hiện quá thường xuyên sẽ bị loại bỏ khi tính toán điểm số cho câu
b) Phương pháp sử dụng TF-IDF
Nghịch đảo tần suất văn bản (Inverse Document Frequency – IDF) được giới thiệu
từ năm 1972 bởi [16] IDF làm giảm trọng số của các thuật ngữ thường xuyên xuất
hiện trong tập tài liệu và tăng trọng số của các thuật ngữ hiếm khi xuất hiện Lý do
được đưa ra là những thuật ngữ xuất hiện quá nhiều không mang nhiều đặc trưng
để có thể khai thác và ngược lại, những từ hiếm khi xuất hiện hơn sẽ là đặc trưng
của tài liệu chứa nó IDF của thuật ngữ 𝑡 trong tập tài liệu 𝐷 được tính theo công
thức sau:
trong đó |𝐷| là tổng số tài liệu trong tập tài liệu 𝐷, |{𝑑 ∈ 𝐷: 𝑡 ∈ 𝐷}| là số tài liệu
trong tập 𝐷 mà có chứa thuật ngữ t
Nghiên cứu [17] đã đề xuất sử dụng 𝑇𝐹 − 𝐼𝐷𝐹 là tích của hai điểm số trên để làm
căn cứ xác định trọng số cho các thành phần trong văn bản thay thế cho TF, phương
pháp này đã khắc phục được nhược điểm lớn nhất của phương pháp sử dụng TF
như đã trình bày ở trên 𝑇𝐹 − 𝐼𝐷𝐹 được tính theo PT 1.3
quan trọng của từ đó trong một tập các tài liệu và nó vẫn còn được sử dụng cho
các phương pháp có hướng tiếp cận phức tạp hơn sau này, ví dụ như [5, 18]
Trang 251.1.3.2 Hướng tiếp cận dựa vào đồ thị
Hướng tiếp cận dựa trên đồ thị là một phương pháp khá phổ biến trong việc đánh
trọng số và xếp hạng câu cho bài toán tóm tắt văn bản Các thuật toán dựa trên đồ
thị truyền thống coi câu là BOW và chỉ lấy thông tin cú pháp và bỏ qua thông tin
ngữ nghĩa, với ý tưởng cơ bản là câu đó xứng đáng được điểm cao hơn nếu nó
được liên kết với nhiều câu hơn, điểm số tỉ lệ thuận với số câu liên kết với nó
Phương pháp này thể hiện văn bản như là một đồ thị liên thông, các câu tạo thành
các đỉnh và các cạnh giữa các đỉnh biểu diễn mối quan hệ giữa hai câu Phương
pháp này có một điểm yếu đó là mức độ quan trọng của các từ trong tài liệu thay
đổi tùy theo ngữ cảnh của chúng nhưng phương pháp dựa trên biểu đồ coi trọng số
của mỗi từ là bằng nhau
LexRank [5] và TextRank [4] là hai thuật toán phổ biến trong hướng tiếp cận dựa
trên đồ thị Cả hai thuật toán này đều được tinh chỉnh từ thuật toán PageRank [19]
để phù hợp hơn cho việc đánh trọng số các câu trong văn bản LexRank [5] sử
dụng độ tương đồng Cosine đề xây dựng đồ thị có trọng số trong đó các nút có
trọng số nhỏ hơn một ngưỡng nhất định sẽ bị loại bỏ Với TextRank [4], một đồ
thị vô hướng được xây dựng từ văn bản đầu vào, trong đó mỗi câu đại diện cho
một nút và cung giữa hai nút được tính trọng số bởi sự giống nhau của chúng Để
đánh trọng số cho câu 𝑖 dựa trên các lân cận của nó, phải thực hiện đệ quy theo PT
1.4 cho đến khi hội tụ, trong đó 𝑑 là hệ số tắt dần (thường được chọn là 0.85)
TextRank [4] và LexRank [5] khai thác các mối quan hệ giữa các câu để đánh trọng
số cho chúng, với giả định rằng chúng có mức ảnh hưởng trên toàn văn bản là như
nhau Điều này có thể chấp nhận được trong tóm tắt đơn văn bản, nhưng trong tóm
tắt đa văn bản, một văn bản có thể quan trọng hơn những văn bản khác và do đó
các câu của nó phải được ưu tiên hơn những tài liệu khác Để khắc phục nhược
điểm trên, [20] đã đề xuất thêm mối quan hệ giữa câu với tài liệu vào quy trình xếp
hạng dựa trên đồ thị Ngoài tác động của văn bản lên các câu, tác giả lập luận rằng
ngay cả các câu trong cùng một văn bản cũng không được xử lý thống nhất, mà
điểm số còn bị ảnh hưởng bởi vị trí của câu và khoảng cách của câu đó đến trọng
tâm của văn bản
Gần đây, cùng với sự phát triển mạnh mẽ của Học sâu (DL), các hướng tiếp cận
dựa trên Mạng nơ-ron đồ thị (Graph Neural Network - GNN) cũng rất được quan
tâm nghiên cứu Trong [21], nhóm tác giả đã đề xuất ra một GNN đã kênh
Multi-GraS cho bài toán tóm tắt hướng trích chọn Kiến trúc mạng trên đã mô hình hòa
Trang 26nhiều mối quan hệ giữa các từ và câu cùng một lúc, qua đĩ đã cĩ các kết quả tốt
trong quá trình thực nghiệm trên các bộ dữ liệu cho bài tốn tĩm tắt văn bản
1.1.3.3 Hướng tiếp cận dựa trên mơ hình xác suất
Mơ hình ngơn ngữ xác suất (probabilistic language model) xác định phân phối xác
suất trên tập hợp các chuỗi dựa trên phân tích ngữ liệu (tập hợp văn bản) Mỗi phần
tử cĩ một xác suất liên quan và những xác suất này được học từ một kho ngữ liệu
a) Mơ hình Markov ẩn
Mơ hình Markov là mơ hình ngẫu nhiên mà trong đĩ các giá trị tương lai chưa biết
(cịn gọi là ẩn) được dự đốn trong một chuỗi Markov Giá trị được dự đốn chỉ
trong đĩ 𝑃 là xác suất
Trong nghiên cứu [22] đã đề xuất một thuật tốn dựa trên Mơ hình Markov ẩn
(HMM) để phân tách các câu tổng hợp do con người viết ra Mục đích là xác định
mối quan hệ giữa các câu trong bản tĩm tắt do con người viết và các câu trong văn
bản gốc Ngồi ra, [23] đã đề xuất một phương pháp tĩm tắt văn bản xem xét ba
đặc điểm: (1) vị trí của câu trong tài liệu (sử dụng HMM), (2) số lượng từ trong
câu, (3) xác suất của các từ Phương pháp này nhằm mục đích tính tốn xác suất
tổng thể của câu và quyết định xem nĩ cĩ thuộc phần tĩm tắt hay khơng
b) Mơ hình N-gram
N-gram là một mơ hình Markov Như đã trình bày bên trên, mơ hình Markov được
sử dụng để dự đốn giá trị tương lai trong một chuỗi Mơ hình cĩ thể dự đốn từ
tiếp theo trong một chuỗi bằng cách sử dụng PT 1.7 theo [24]:
Mơ hình thống kê này được học từ tập tài liệu
1.1.3.4 Hướng tiếp cận dựa trên Học máy
Với hướng tiếp cận này, các bài tốn tĩm tắt hướng trích chọn thường được xử lý
như là bài tốn phân loại nhị phân Mỗi câu sẽ được biểu diễn dưới dạng một vector
số trước khi đưa vào mơ hình Theo [25], mỗi câu sẽ được gán 0 nếu thuộc phần
tĩm tắt, gán nhãn 1 nếu khơng thuộc phần tĩm tắt
a) Phương pháp sử dụng Nạve Bayes
Naive Bayes (NB) là một kỹ thuật phân loại xây dựng mơ hình bằng cách dự đốn
các xác suất cĩ điều kiện Cơng trình nghiên cứu đầu tiên ứng dụng NB cho bài
tốn tĩm tắt văn bản là [26], theo đĩ cho một câu văn 𝑠, mơ hình tính xác suất câu
đĩ được đưa vào bản tĩm tắt là:
&60
PT 1.8
Trang 27trong đó 𝐹0, 𝐹5, … , 𝐹/ là các câu để phân loại và 𝑆 là tập các câu trong bản tóm tắt
b) Phương pháp phân cụm
Phân cụm là một loại phương pháp học máy không có giám sát Nó bao gồm việc
chia nhỏ một tập hợp các đối tượng thành các nhóm không chồng lên nhau được
gọi là các cụm để đưa các đối tượng tương tự vào cùng một cụm Công trình [27]
đã nghiên cứu ứng dụng phương pháp này cho tóm tắt hướng trích chọn Bằng việc
phân cụm các câu trong văn bản, mô hình xác định các câu nổi bật nhất chính là
tâm của các cụm đó và sinh ra bản tóm tắt bao gồm những câu tương ứng với các
tâm cụm đó Tương tự, [28] đã nghiên cứu tóm tắt hướng trích chọn theo hướng
tạo ra các cụm tài liệu dựa trên sự giống nhau giữa các tài liệu Sau đó, mô hình sẽ
chọn các câu có điểm tốt nhất từ mỗi cụm và thêm chúng vào phần tóm tắt
c) Máy vector hỗ trợ (Support Vector Machine)
Máy vectơ hỗ trợ (SVM) là thuật toán học có giám sát được đề xuất bởi [29] Mô
hình này có thể được sử dụng để giải các bài toán phân loại và hồi quy SVM là
một mô hình phân tách các điểm dữ liệu thành các lớp bằng một siêu phẳng gọi là
vectơ hỗ trợ
Một bài toán lý tưởng cho SVM bao gồm hai lớp, có thể được phân tách bằng một
đường thẳng được trình bày trong Hình 1.5 và minh họa bằng PT 1.9
Hình 1.5 Đường phân tách tuyến tính sử dụng Máy vectơ hỗ trợ
Trong [30] đã nghiên cứu tóm tắt đa văn bản dựa trên truy vấn bằng cách sử dụng
SVM để xếp hạng tất cả các câu trong cụm chủ đề Sau đó, bản tóm tắt được xây
dựng bằng cách nối các câu có điểm cao nhất lại với nhau Còn trong [31] các tác
giả cũng sử dụng phương pháp SVM cho bài toán tóm tắt văn bản tự động, tuy
nhiên họ có thêm các hướng tiếp cận khác trong việc xếp hạng các câu như trích
xuất các đặc điểm của câu trong văn bản, chẳng hạn như vị trí của câu, trọng tâm
của câu và sự tương đồng của câu với tiêu đề
1.1.3.5 Hướng tiếp cận dựa trên Học sâu
Học sâu (Deep Learning - DL) đã trở thành lựa chọn hàng đầu để giải quyết các
vấn đề trong lĩnh vực Học máy trong khoảng thời gian gần đây Đối với bài toán
ATS, DL được sử dụng cho cả tóm tắt hướng trích chọn và tóm tắt hướng tóm
Trang 28lược Cùng với sự phát triển vượt bậc của mạng nơ-ron và DL, ATS - đặt biệt là
tóm tắt hướng tóm lược - đã đạt được những kết quả vượt trội Những hướng tiếp
cận cổ điển trước đây đã không thể giải quyết được các vấn đề khó khăn trong tóm
tắt hướng tóm lược ví dụ như vấn đề hiểu ngôn ngữ Tuy nhiên, DL đã và đang
giải quyết được các vấn đề đó, từ đó mở ra rất nhiều hướng nghiên cứu tóm tắt
hướng tóm lược mới và làm cho bài toán này nhận được nhiều sự chú ý trong cộng
đồng NLP Trong phạm vi nghiên cứu, luận văn sẽ trình bày một số phương pháp
dựa trên DL nổi bật nhất cho bài toán ATS
a) Mô hình mã hóa – giải mã (encoder – decoder)
Mô hình mã hóa – giải mã là một khuôn mẫu thiết kế mạng nơ-ron Kiến trúc này
có 3 thành phần: bộ mã hoá, vector mã hóa và bộ giải mã Bộ mã hoá đóng vai trò
mã hoá đầu vào thành các vector mã hóa Các vector mã hóa (hay vector ngữ cảnh)
đóng vai trò thành phần trung gian, là đầu ra của bộ mã hóa và là đầu vào của bộ
giải mã Bộ giải mã tiếp nhận vector mã hóa rồi giải mã thông tin và sinh đầu ra
mong muốn
Mô hình chuỗi sang chuỗi (Sequence to Sequence – seq2seq) được giới thiệu lần
đầu trong [32], nó dựa trên kiến trúc mã hóa – giải mã để sinh chuỗi đầu ra từ chuỗi
đầu vào Cả hai thành phần bộ mã hóa và bộ giải mã đều sử dụng kiến trúc mạng
nơ-ron hồi tiếp để xử lý các chuỗi đầu vào với độ dài khác nhau Trạng thái ẩn của
bộ giải mã được khởi tạo trực tiếp từ thành phần vector mã hóa, qua đó giúp truyền
thông tin từ bộ mã hóa tới bộ giải mã Hình 1.6 mô tả kiến trúc của mô hình
seq2seq
Hình 1.6 Minh họa mô hình chuỗi sang chuỗi
ATS và Dịch máy là hai bài toán có khá nhiều điểm tương đồng ví dụ như đầu vào
và đầu ra đều là các chuỗi có độ dài khác nhau và không cố định; mục đích của hai
bài toán đều là tổng hợp chuỗi văn bản đầu vào rồi sinh ra một văn bản khác tuỳ
thuộc vào mục tiêu của bài toán Do đó, mô hình seq2seq đã áp dụng khá tốt cho
Dịch máy cũng có thể sử dụng để giải quyết bài toán ATS Trong đó, mô hình nhận
đầu vào là văn bản và bản tóm tắt thực tế sau đó giải mã thông tin và sinh ra một
bản tóm tắt mà mô hình cho là phù hợp nhất
b) Mạng nơ-ron hồi tiếp
Mạng nơ-ron hồi tiếp (Recurrent Neural Networks - RNN) là các mạng thần kinh
sâu thực hiện các bước tuần tự để mã hóa và giải mã thông tin từ chuỗi đầu vào
Khác với mạng nơ-ron thông thường, RNN cho phép các kết nối có tính chu kỳ,
thành phần phía sau nhận thông tin từ thành phần ngay trước nó, mã hóa thông tin
Trang 29rồi lại truyền đến thành phần ngay phía sau nó Hình 1.7 mô tả kiến trúc tổng quản
của RNN
Hình 1.7 Kiến trúc của RNN
Điểm mạnh chính của RNN là khả năng ghi nhớ thông tin từ lần tính toán trước,
cho phép mô hình hóa sự phụ thuộc ngữ cảnh trong chuỗi đầu vào có độ dài tùy ý
và ghi nhớ thứ tự các phần tử Mọi đầu ra của mạng được điều chỉnh dựa trên các
tính toán trước đó thông qua sự kết hợp của trạng thái ẩn từ lần lặp trước với trạng
thái ẩn hiện tại Quy trình này được lặp lại một cách đệ quy cho mọi từ trong chuỗi
đầu vào với bản cập nhật tương ứng về trọng số của mạng Do đó, đối với RNN cổ
điển, hàm điều kiện trạng thái xác định là:
thể học từ dữ liệu
Hạn chế của RNN tiêu chuẩn là nó chỉ xử lý tuần tự theo một hướng Đối với mỗi
từ phía sau, mạng sẽ quay trở lại các trạng thái trước đó để tìm một số mối quan
hệ giữa các từ với nhau Tuy nhiên, rõ ràng là các phần tử của chuỗi có thể liên
quan đến các phần tử tiếp theo sau đó Do đó, trong thực tế, RNN hai chiều
(BRNN) được sử dụng phổ biến hơn để phân tích chuỗi đầu vào theo cả hai hướng
từ đó tạo ra các trạng thái ẩn theo ngữ cảnh chứa nhiều thông tin hơn Kiến trúc
cho các mạng như vậy đại diện cho hai RNN riêng biệt, trong đó các trạng thái ẩn
cho mọi vị trí trong chuỗi được nối thành một biểu diễn hai chiều cuối cùng
Ngoài ra, một điểm yếu nữa của RNN là không thể xử lý một trình tự song song
RNN thực hiện mã hóa theo cách tuần tự lần lượt các từ trong chuỗi đầu vào cũng
như đầu ra, các từ sau muốn có thông tin phải chờ mạng xử lý xong các từ trước
đó Điều này dẫn đến việc các mô hình RNN thường có thời gian học rất lâu và
không tận dụng được hết sức mạnh của GPU
Các RNN tiêu chuẩn cũng gặp phải vấn đề về tiêu biến gradient (vanishing
gradient) Điều này khiến các mạng khó khăn khi học các chuỗi dài Một vấn đề
khác tương tự cũng có thể xảy ra đó là sự suy giảm mức độ ảnh hưởng của các từ
Trang 30cách xa nhau Do đó, mô hình không thể huấn luyện mạng với các chuỗi dài cũng
như không tạo ra các chuỗi dài có ý nghĩa Có thể nói rằng RNN truyền thống có
trí nhớ ngắn hạn Mạng Bộ nhớ dài-ngắn hạn (Long Short-term Memory – LSTM)
[33] được thiết kế để khắc phục vấn đề này LSTM được thiết kế để giải quyết các
bài toán về phụ thuộc xa (long-term dependencies) Cơ chế hoạt động của LSTM
là chỉ ghi nhớ những thông tin liên quan, quan trọng cho việc dự đoán, còn các
thông tin khác sẽ được bỏ đi
Hình 1.8 Kiến trúc ô nhớ của LSTM
Mạng LSTM có thể bao gồm nhiều ô nhớ LSTM liên kết với nhau Ý tưởng của
được từ đầu ra của các ô nhớ từ bước thời gian trước đó t – 1 Các cổng đều có
chức năng sàng lọc thông tin với mỗi mục đích khác nhau Các cổng được định
nghĩa như sau:
• Cổng quên (1): Có chức năng loại bỏ những thông tin không cần thiết nhận
được khỏi trạng thái ô nhớ bên trong
• Cổng đầu vào (2): Có chức năng sàng lọc những thông tin cần thiết để được
thêm vào trạng thái ô nhớ bên trong
• Cổng đầu ra (3): Có chức năng xác định những thông tin nào từ các trạng
thái ô nhớ bên trong được sử dụng như đầu ra
Ở bước đầu tiên, ô nhớ LSTM quyết định những thông tin cần được loại bỏ từ các
sigmoid biến đổi tất cả các giá trị kích hoạt (activation value) về miền giá trị trong
khoảng từ 0 và 1 theo công thức:
Trang 31Ở bước thứ 2, ô nhớ LSTM xác định những thông tin nào cần được thêm vào các
trong:
trên kết quả thu được từ các bước trên:
Một ý tưởng khác dẫn đến sự cải thiện đáng kể trong các nhiệm vụ NLP nói chung
là cơ chế Tập trung (Attention) [34] Logic của cơ chế này là cho phép bộ giải mã
ở mỗi lần lặp có thể xem xét tất cả các trạng thái ẩn của bộ mã hóa, từ đó chú ý
nhiều hơn đến trạng thái liên quan nhất Nói cách khác, nó thay thế tập hợp các
trạng thái ẩn của bộ mã hóa bằng tập hợp các giá trị trung bình có trọng số của các
vectơ này Cơ chế Tập trung có những đặc điểm sau:
• Ánh xạ tuyến tính các vectơ nhúng được ngữ cảnh hóa đến tập các vectơ
được gọi là truy vấn, giá trị và khóa
• Áp dụng hàm tính điểm tập trung cho các khóa và truy vấn để tính toán
phân phối tập trung, sau đó chuẩn hóa phân phối đó bằng hàm softmax
• Sử dụng phân phối tập trung tính toán vectơ ngữ cảnh dưới dạng tổng trọng
số của các giá trị
Hình 1.9 mô tả khái quát cơ chế Tập trung Mô hình bao gồm bộ mã hóa và bộ giải
mã đều sử dụng kiến trúc mạng RNN