1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kết hợp giữa mô hình chủ đề và mô hình được huấn luyện trước cho bài toán tóm tắt văn bản

62 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Kết hợp giữa mô hình chủ đề và mô hình được huấn luyện trước cho bài toán tóm tắt văn bản
Tác giả Trịnh Tiến Đạt
Người hướng dẫn PGS. TS. Phạm Văn Hải
Trường học Trường Công nghệ thông tin và truyền thông
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 1,77 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Từ ý tưởng trên, luận văn đề xuất một phương pháp kết hợp giữa mô hình chủ đề và mô hình được đào tạo trước cho bài toán Tóm tắt văn bản.. Mô hình đề xuất trong luận văn là sự kết hợp gi

Trang 1

LUẬN VĂN THẠC SĨ

Kết hợp giữa mô hình chủ đề và mô hình

được huấn luyện trước cho bài toán tóm

tắt văn bản

TRỊNH TIẾN ĐẠT

dat.tt202653m@sis.hust.edu.vn

Ngành Khoa học máy tính

Giảng viên hướng dẫn: PGS TS Phạm Văn Hải

HÀ NỘI, 10/2022

Chữ ký của GVHD

Vic b ■ n s ■ ng ho ■■■ ng ký s ■ ng các d ■ ch v ■ a123doc.net ■■ ng ngh ■ a v ■ i vi ■ c b ■ ■■ ng ý v ■ i các ■ i ■ u kho ■ n c ■ a n không ■■ ng ý Mong mu ■ n man nguyên tri th ■ c quý báo các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

■■ ng ý r ■ ng n ■ u Thành viên ti ■ p t ■ c s ■ ng D ■ ch V ■ sau khi ■ KTTSDDV ■■■ c c ■ p nh ■ t, vi ■ ó có ngh ■ a là Thàn là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Thành viên s ■ ph ■ i th ■ c hi ■ n theo ■ úng các ch ■ ■■■ c niêm y ■ t ho ■ c các quy ■■ nh áp d ■ ng cho các d ■ ch v ■ ■ ó có th ■ ■■■ c niêm y ■ t theo t ■ ng th ■ i ■ m T ■ t c ■ các o b ■ nn viên c ■ a website.

s u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hànnh xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i ■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i choguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■ ■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và ki 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ n ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

ut phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t cwebsite.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chún mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ D ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Mang l ■ i tr ■ nghi ■ m m ■ i m ■ cho ng ■■ i dùng, công ngh ■ hi ■ n th ■ hi ■ ■■ ■ n online không khác gì so v ■ i b ■ n g ■ c B ■ n có th ■ phóng to, thu nh ■ tùy ý.

Luôn h ■■ ng t ■ i là website d ■ ■■ u chia s ■ và mua bán tài li ■ u hàng ■■ u Vi ■ t Nam Tác phong chuyên nghi ■ p, hoàn h ■ o, cao tính trách nhi ■ m ■ ng ng ■■ i dùng M ■ c tiêu hàng ■■ ■ a 123doc.net tr ■ thành th ■ vi ■ n tài li ■ u online l ■ n nh ■ t Vi ■ t Nam, cung c ■ p nh ■ ng tài li ■■■ c không th ■ tìm th ■ y trên th ■ ■■ ng ngo ■ i tr ■ 123doc.net

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

123doc cam k ■ t s ■ mang l ■ i nh ■ ng quy ■ n l ■ t nh ■ t cho ng ■■ i dùng Khi khách hàng tr ■ thành thành viên c ■ a 123doc và n ■ p ti ■ n vào tài kho ■ n c ■ a 123doc, b ■ n s ■ ■■■ c h ng nh ■ ng quy ■ n l ■ i sau n ■ p ti ■ n trên website

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.

Sau khi nh ■ n xác nh ■ n t ■ ■■ ng h ■ th ■ ng s ■ chuy ■ n sang ph ■ n thông tin xác minh tài kho ■ n email b ■ ■■ ng ký v ■ i 123doc.netLink xác th ■ c s ■ ■■■ c g ■ i v ■ ■■ a ch ■ email b ■ ■■ ng ky, b ■ n vui lòng ■■ ng nh ■ p email c ■ a mình và click vào link 123doc ■ ã g ■ i

Th ■ a thu ■ n s ■ ng 1 CH ■ P NH ■ N CÁC ■ I ■ U KHO ■ N TH ■ A THU ■ N Chào m ■ ng b ■■■ ■ i 123doc.net! Chúng tôi cung c ■ p D ■ ch V ■ (nh ■ ■■■ c mô t ■■■ i ây) cho b ■ n, tùy thu ■ c vào các “ ■ i ■ u Kho ■ n Th ■ a Thu ■ n v ■ ng D ■ ch V ■ ” sau ■ ây (sau ■ ây ■■■ c g ■ t T ■ ng th ■ i ■ m, chúng tôi có th ■ p nh ■ KTTSDDV theo quy ■ t

Xu ■ t phát t ■ ý t ng t ■ o c ■ ng ng ki ■ m ti ■ n online b ■ ng tài li ■ u hi ■ u qu ■ nh ■ t, uy tín cao nh ■ t Mong mu ■ n mang l ■ i cho c ■ ng ng xã h ■ i m ■ t ngu ■ n tài nguyên tri th ■ c quý báu, phong phú, ■ a d ■ ng, giàu giá tr ■ ■■ ng th ■ i mong mu ■ n t ■ i ■ u ki ■ n cho cho các users có thêm thu nh ■ p Chính vì v ■ y 123doc.net ra ■■ ■ m ■ áp ■ ng nhu c ■ u chia s ■ tài li ■ u ch ■■■ ng và ki ■ m ti ■ n online.

Sau h ■ n m ■ t n ■ m ra ■■ i, 123doc ■ ã t ■ ng b ■■ c kh ■ ng nh v ■ trí c ■ a mình trong l ■ nh v ■ c tài li ■ u và kinh doanh online Tính ■■ n th ■ i ■ m tháng 5/2014; 123doc v ■■ ■ c 100.000 l ■■ t truy c ■ p m ■ i ngày, s ■ u 2.000.000 thành viên ■■ ng ký, l ■ t vào top 200 các website ph ■ bi ■ n nh ■ i Vi ■ t Nam, t ■ tìm ki ■ m thu ■ c top 3 Google Nh ■■■■ c danh hi ■ u do c ■ ng ng bình ch ■ n là website ki ■ m ti ■ n online hi ■ u qu ■ và uy tín nh ■

Nhi ■ u event thú v ■ , event ki ■ m ti ■ n thi ■ t th ■ c 123doc luôn luôn t ■ o c ■ i gia t ■ ng thu nh ■ p online cho t ■ t c ■ các thành viên c ■ a website.

123doc s ■ u m ■ t kho th ■ vi ■ n kh ■ ng l ■ i h ■ n 2.000.000 tài li ■ t c ■ nh v ■ c: tài chính tín d ■ ng, công ngh ■ thông tin, ngo ■ i ng ■ , Khách hàng có th ■ dàng tra c ■ u tài li ■ u m ■ t cách chính xác, nhanh chóng.

Trang 2

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Họ và tên tác giả luận văn : Trịnh Tiến Đạt

Đề tài luận văn: Kết hợp giữa mô hình chủ đề và mô hình được huấn luyện

trước cho bài toán tóm tắt văn bản

Chuyên ngành: Khoa học máy tính

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày

29/10/2022 với các nội dung sau:

1 Cấu trúc lại các mục của luận văn: bỏ tên chương tại phần GIỚI THIỆU và

KẾT LUẬN; chỉnh sửa cách đánh chỉ mục tại phần 3.3

2 Bổ sung và chỉnh sửa nội dung CHƯƠNG 1 GIỚI THIỆU:

- Thêm các trích dẫn cần thiết trong phần này

3 Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 2 CƠ SỞ LÝ THUYẾT:

- Cấu trúc lại các hướng tiếp cận

- Giải thích chi tiết vai trò của TF-IDF trong tóm tắt văn bản

- Bổ sung lý thuyết Cơ chế Tập trung và Cơ chế Tự Tập trung (Self

Attention)

- Bổ sung lý thuyết về Transformer

4 Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 3 MÔ HÌNH ĐỀ XUẤT:

- Bổ sung lý thuyết và minh họa về PEGASUS

- Bổ sung lý thuyết và mô tả chi tiết hình minh họa về CombinedTM

- Mô tả chi tiết cách kết hợp và tinh chỉnh PEGASUS

- Vẽ lại kiến trúc mô hình đề xuất, bổ sung các thành phần kết hợp trước

khi sinh ra bản tóm tắt

- Cấu trúc lại phần 3.3.3 Mô hình chủ đề và hàm mất mát của mô hình

chủ đề

- Bổ sung giải thích về các phép biến đổi tuyến tính

- Bổ sung thông tin về hàm mất mát tổng thể của mô hình đề xuất

5 Bổ sung và chỉnh sửa nội dung trong CHƯƠNG 4 THỰC NGHIỆM VÀ

ĐÁNH GIÁ:

- Bổ sung mô tả về tập dữ liệu trong 4.1

Trang 3

- Bổ sung thêm lý do chỉ tinh chỉnh 2 siêu tham số 𝐾 và 𝛼

Ngày 16 tháng 11 năm 2022

CHỦ TỊCH HỘI ĐỒNG

Trang 4

đảm bảo giáo viên giao đề tài ký và ghi rõ họ và tên

Trường hợp có 2 giáo viên hướng dẫn thì sẽ cùng ký tên

Giáo viên hướng dẫn

Ký và ghi rõ họ tên

Trang 5

tôi, dưới sự hướng dẫn của PGS.TS Phạm Văn Hải Các kết quả công bố trong

báo cáo này là trung thực, không phải là sao chép của bất kỳ một cá nhân, hoặc tổ

chức đã được công bố nào khác Tất cả các trích dẫn được tham chiếu rõ ràng

Ngày 12 tháng 10 năm 2022 Tác giả luận văn

Trịnh Tiến Đạt

Xác nhận của người hướng dẫn

Trang 6

thuộc Trường Công nghệ Thông tin và Truyền thông nói riêng và thầy giáo, cô

giáo thuộc trường Đại học Bách khoa Hà Nội nói chung đã dạy dỗ, truyền đạt kiến

thức và tạo điều kiện cho em trong suốt quá trình học tập tại trường

Đặc biệt, em xin gửi lời cảm ơn sâu sắc nhất đến thầy hướng dẫn PGS TS Phạm

Văn Hải, giảng viên bộ môn Hệ thống Thông Tin, dưới sự quan tâm, giúp đỡ,

hướng dẫn tận tình của thầy em đã tích lũy được nhiều kiến thức về chuyên môn,

đồng thời thầy luôn tạo điều kiện cho em trong suốt quá trình làm luận văn Những

thời điểm khó khăn nhất, thầy luôn giúp đỡ và động viên để em hoàn thiện những

nghiên cứu của luận văn

Em cũng xin được gửi lời cảm ơn đến gia đình, người thân, bạn bè và đồng nghiệp

đã luôn động viên tinh thần, chia sẻ và giúp đỡ em rất nhiều trong học tập và trong

cuộc sống

Do vốn kiến thức còn hạn chế, luận văn không thể tránh khỏi những thiếu sót,

khiếm khuyết, kính mong quý thầy cô xem xét và góp ý để luận văn của em được

hoàn thiện hơn

Em xin chân thành cảm ơn!

Học viên: Trịnh Tiến Đạt, 20202653M, khoá 2020B, lớp 20BKHMT

Trang 7

internet, chúng ta phải đối mặt với sự bùng nổ dữ liệu, trong đó một phần không

hề nhỏ là dữ liệu dưới dạng văn bản được tạo ra với những mục đích khác nhau

Dữ liệu văn bản thì ngày càng lớn và cập nhật liên tục, tuy nhiên khả năng tiếp thu

của con người lại có hạn Do đó, nhu cầu về việc tổng hợp, rút gọn thông tin cốt

lõi với mỗi văn bản là vô cùng cấp thiết Bài toán Tóm tắt văn bản được nghiên

cứu để giải quyết vấn đề này, nó là quá trình tóm lược thông tin quan trọng nhất

rồi sau đó tạo ra một bản tóm tắt ngắn gọn cho một hoặc một tập văn bản Trong

Tóm tắt văn bản, tóm tắt hướng tóm lược được cho là kỹ thuật khó nhất vì nó

không những đòi hỏi phải hiểu về ngôn ngữ nói chung mà còn phải hiểu ngữ nghĩa

bên trong văn bản rồi sau đó sinh ra bản tóm tắt gần gũi nhất với văn bản mà con

người tạo ra, trong bản tóm tắt này có thể chứa những từ không xuất hiện trong

văn bản gốc Việc kết hợp các kỹ thuật xử lý ngôn ngữ tự nhiên khác nhau cho bài

toán tóm tắt hướng tóm lược giúp cho mô hình có thể hiểu văn bản ở nhiều khía

cạnh khác nhau, từ đó đưa ra bản tóm tắt vừa phù hợp với ngữ pháp vừa phù hợp

với ngữ cảnh trong văn bản Từ ý tưởng trên, luận văn đề xuất một phương pháp

kết hợp giữa mô hình chủ đề và mô hình được đào tạo trước cho bài toán Tóm tắt

văn bản Để kiểm chứng hiệu quả của phương pháp này, luận văn đã thực hiện một

số các thực nghiệm và sử dụng độ đo ROUGE để đánh giá Trong các thực nghiệm

đó, phương pháp kết hợp có điểm ROUGE vượt trội hơn các mô hình được đào

tạo trước và mô hình theo hướng kết hợp mô hình chủ đề và mô hình được đào tạo

trước khác Điều này cho thấy cách kết hợp được đề xuất trong luận văn đã hoạt

động hiệu quả và bổ sung ngữ nghĩa cho mô hình được đào tạo trước một cách đầy

đủ hơn so với các phương pháp kết hợp trước đây

HỌC VIÊN

Ký và ghi rõ họ tên

Trang 8

GIỚI THIỆU 1

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 5

1.1 Bài toán tóm tắt văn bản 5

Tổng quan về bài toán tóm tắt văn bản 5

Phân loại bài toán tóm tắt văn bản 7

Các hướng tiếp cận bài toán tóm tắt văn bản 11

1.2 Phương pháp tóm tắt văn bản hướng tóm lược 24

1.3 Mô hình chủ đề trong tóm tắt văn bản hướng tóm lược 25

1.4 Phương pháp đánh giá mô hình 27

Phương pháp đánh giá bên trong 27

Phương pháp đánh giá bên ngoài 30

CHƯƠNG 2 MÔ HÌNH ĐỀ XUẤT 32

2.1 Phát biểu bài toán 32

2.2 Hướng tiếp cận bài toán 32

Mô hình được đào tạo trước PEGASUS 32

Mô hình chủ đề CombinedTM 33

Phương pháp kết hợp 35

2.3 Mô hình đề xuất 35

Biểu diễn dữ liệu đầu vào 36

Phần mã hóa 36

Mô hình chủ đề 36

Phần giải mã (Decoder) 36

Các biến đổi tuyến tính 37

Quá trình huấn luyện và suy diễn 37

CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 38

3.1 Bộ dữ liệu thực nghiệm 38

Bộ dữ liệu CNN/DM 38

Bộ dữ liệu XSum 39

3.2 Môi trường và tham số cài đặt mô hình 39

3.3 Quá trình thực nghiệm 40

Thực nghiệm mô hình 40

Thực nghiệm đánh giá siêu tham số 41

Trang 9

Đánh giá ảnh hưởng của mô hình được huấn luyện trước 42

Thực nghiệm mô phỏng kết quả tóm tắt 43

3.4 Đánh giá kết quả thực nghiệm 44

KẾT LUẬN 45

Trang 10

Hình 1.1 Tổng quan các cách phân loại bài toán tóm tắt văn bản 7

Hình 1.2 Kiến trúc của hệ thống tóm tắt hướng trích chọn 8

Hình 1.3 Kiến trúc của hệ thống tóm tắt hướng tóm lược 9

Hình 1.4 Kiến trúc của hệ thống tóm tắt hướng kết hợp 10

Hình 1.5 Đường phân tách tuyến tính sử dụng Máy vectơ hỗ trợ 15

Hình 1.6 Minh họa mô hình chuỗi sang chuỗi 16

Hình 1.7 Kiến trúc của RNN 17

Hình 1.8 Kiến trúc ô nhớ của LSTM 18

Hình 1.9 Cơ chế Tập trung được giới thiệu trong [34] 20

Hình 1.10 Kiến trúc tổng quan của mô hình Transformer 21

Hình 1.11 Tầng Tập trung đa đầu trong Transformer 22

Hình 1.12 Tổng quan phân loại đánh giá mô hình 27

Hình 2.1 Kiến trúc cơ bản của mô hình PEGASUS 33

Hình 2.2 Cấu trúc của mô hình chủ đề CombinedTM 34

Hình 2.3 Kiến trúc tổng thể của mô hình đề xuất 35

Trang 11

Bảng 3.1 Thống kê chi tiết lượng dữ liệu các bộ dữ liệu 38

Bảng 3.2 Một số tham số quan trọng của mô hình được huấn luyện trước 40

Bảng 3.3 Kết quả thực nghiệm trên bộ dữ liệu CNN/DM 40

Bảng 3.4 Kết quả thực nghiệm trên bộ dữ liệu XSum 41

Bảng 3.5 Kết quả thực nghiệm đánh giá hệ số 𝛼 41

Bảng 3.6 Thực nghiệm đánh giá hệ số K 41

Bảng 3.7 Kết quả thực nghiệm 4 kích thước tập huấn luyện trên CNN/DM 42

Bảng 3.8 Kết quả thực nghiệm cắt bỏ đầu vào TM 42

Bảng 3.9 Thực nghiệm đánh giá ảnh hưởng của mô hình được đào tạo trước 43

Bảng 3.10 Kết quả thực nghiệm tóm tắt thực tế 43

Trang 12

ATS Automatic Text Summarization: Tóm tắt văn bản tự động

thuật ngữ - nghịch đảo tần suất văn bản

đánh giá mô hình tóm tắt văn bản

web CNN và Daily Mail

Trang 13

GIỚI THIỆU Đặt vấn đề

Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin, khả năng lưu

trữ và mạng internet, con người đang phải đối mặt với sự bùng nổ thông tin và dữ

liệu Việc sở hữu một lượng lớn dữ liệu trong tay là lợi thế nhưng cũng là thử thách

của con người Dữ liệu ngày nay được coi là ‘dầu mỏ’ của nền kinh tế số Sở hữu

và biết cách khai thác dữ liệu mang đến những lợi ích to lớn cho doanh nghiệp

hoặc các tổ chức Ngược lại, khai thác không đúng cách sẽ gây lãng phí tài nguyên

liệu kỹ thuật số lưu hành hàng năm trên khắp thế giới sẽ tăng từ 4,4 Zettabytes vào

năm 2013 và lên đến 180 Zettabytes vào năm 2025 Đây là lượng dữ liệu khổng

lồ, ẩn chứa nhiều thông tin vô cùng hữu ích mà chúng ta cần tìm hiểu và phân tích

Để hiểu, phân tích và trích xuất thông tin ẩn từ các tập dữ liệu lớn như vậy, các

nhà khoa học đã đề xuất kỹ thuật khai phá dữ liệu Khai phá dữ liệu là một quá

trình phân tích dữ liệu theo các mức độ khác nhau, đồng thời phân loại và khám

phá các mô hình và mối tương quan giữa các dữ liệu Khai phá dữ liệu tập trung

vào dữ liệu có cấu trúc như: dữ liệu quan hệ, giao dịch và kho dữ liệu Tuy nhiên,

phần lớn dữ liệu có sẵn hiện nay nằm trong cơ sở dữ liệu không có cấu trúc: dữ

liệu văn bản, tài liệu từ nhiều nguồn khác nhau như: sách, trang web, thư viện kỹ

thuật số, phương tiện truyền thông xã hội, v.v Hầu hết các cơ sở dữ liệu văn bản

đều ở định dạng bán cấu trúc Các kỹ thuật truy xuất thông tin điển hình không đủ

khả năng trích xuất thông tin mong muốn từ những nguồn tài liệu trên Để giải

quyết vấn đề này, các phương pháp khai phá dữ liệu áp dụng cho dữ liệu dạng văn

bản cần được tích hợp với các kỹ thuật truy xuất thông tin khác phù hợp với cấu

trúc văn bản Từ đó lấy ra các thông tin chính trong tài liệu, sau đó đánh giá và

diễn giải đầu ra Kỹ thuật này có tên gọi là Khai phá văn bản

nằm trong văn bản, quá trình này là một phần của việc phân tích văn bản trong

khai phá dữ liệu Mục tiêu chính của các công cụ và kỹ thuật khai phá văn bản là

nắm bắt mối quan hệ giữa các dữ liệu Khai phá văn bản đặc biệt hữu ích khi người

dùng cần tìm thông tin mới Khai phá văn bản có hai giai đoạn hoạt động: tinh

chỉnh nội dung và chắt lọc kiến thức Trong quá trình tinh chỉnh nội dung, tài liệu

được chuyển thành dạng trung gian được xác định trước và giai đoạn chắt lọc kiến

thức sẽ tổng hợp thông tin từ dạng trung gian đó Khai phá văn bản được chia thành

các bài toán nhỏ hơn bao gồm: phân loại, phân cụm, trích xuất thực thể, truy xuất

thông tin, tóm tắt văn bản, trích xuất chủ đề, v.v

Luận văn này tập trung vào bài toán tóm tắt văn bản, đây là một trong những kỹ

thuật quan trọng của khai phá văn bản Tóm tắt văn bản là quá trình trích xuất

thông tin quan trọng nhất, sau đó tạo ra bản tóm tắt cho một hoặc một tập văn bản

tương ứng Một bản tóm tắt tốt có thể giúp người dùng tiếp nhận thông tin một

1 https://www.information-age.com/data-forecast-grow-10-fold-2025-123465538/

2 https://vi.wikipedia.org/wiki/Khai_thác_văn_bản

Trang 14

cách dễ dàng, nhanh chóng nhưng vẫn đảm bảo đầy đủ thông tin chính của văn bản

gốc Trong tóm tắt văn bản, tóm tắt theo hướng tóm lược được cho là kỹ thuật khó

nhất [1] Mô hình tóm tắt theo hướng tóm lược không những phải hiểu về ngôn

ngữ nói chung mà còn phải hiểu ngữ nghĩa bên trong văn bản cần tóm tắt Từ đó

sinh ra bản tóm tắt tương đương với bản tóm tắt do con người viết ra Bản tóm tắt

này có thể chứa những từ không xuất hiện trong văn bản gốc Việc kết hợp các kỹ

thuật Xử lý ngôn ngữ tự nhiên cho bài toán tóm tắt tóm lược giúp mô hình có thể

hiểu văn bản ở nhiều khía cạnh khác nhau, từ đó đưa ra bản tóm tắt vừa phù hợp

với ngữ pháp vừa phù hợp với ngữ cảnh trong văn bản

Thời gian gần đây, xuất hiện một hướng nghiên cứu rất được quan tâm trong cộng

đồng Xử lý ngôn ngữ tự nhiên (NLP) tên là Tăng cường tri thức cho vấn đề sinh

văn bản [2] Nó được tạo ra với mục đích củng cố tri thức cho các mô hình sinh

văn bản nói chung, từ đó cải thiện hiệu suất của mô hình tổng thể Hướng nghiên

cứu này đã tạo ra những đột phá đáng kể trong vấn đề sinh văn bản nói chung và

tóm tắt văn bản nói riêng Các nghiên cứu đi theo hướng này đã cân nhắc việc kết

hợp (i) tri thức nội bộ được nhúng trong văn bản đầu vào và (ii) tri thức bên ngoài

từ các nguồn bên ngoài như cơ sở tri thức và đồ thị tri thức vào hệ thống sinh văn

bản Thách thức của hướng tiếp cận này là làm sao để thu được những tri thức hữu

ích liên quan đến dữ liệu đầu vào, và làm sao để tận dụng hiệu quả những tri thức

đó Có rất nhiều phương pháp khám phá tri thức đã được nghiên cứu như: vận dụng

chủ đề, từ khóa, đồ thị tri thức,… Tuy nhiên, phương pháp vận dụng chủ đề trong

việc tăng cường thông tin ngữ cảnh toàn cục của văn bản cho hiệu quả rõ rệt trong

cải thiện chất lượng mô hình cũng như sự đa dạng trong phương pháp thực thi

Từ những lý do trên, đề tài luận văn được đặt ra với hy vọng cung cấp cái nhìn

tổng quan về hướng nghiên cứu ứng dụng mô hình chủ đề cho việc cải thiện chất

lượng mô hình tóm tắt văn bản theo hướng tóm lược, cũng như đề xuất mô hình

mới kế thừa và cải tiến từ những phương pháp kể trên Mô hình đề xuất trong luận

văn là sự kết hợp giữa mô hình chủ đề và mô hình được đào tạo trước giải quyết

bài toán tóm tắt văn bản theo hướng tóm lược Đầu vào của mô hình chủ đề là sự

kết hợp giữa dữ liệu gốc và thành phần đầu ra của bộ mã hoá trong mô hình được

huấn luyện trước Sau đó, kết hợp đầu ra của mô hình chủ đề với đầu ra của phần

giải mã để tạo ra bản tóm tắt của mô hình tổng thể

Mục đích của luận văn

Mục đích chính của luận văn là tìm hiểu, nghiên cứu và đề xuất mô hình tóm tắt

văn bản theo hướng tóm lược bằng phương pháp kết hợp mô hình chủ đề và mô

hình được huấn luyện trước

Mục đích cụ thể và kết quả luận văn hoàn thành như sau:

• Xác định ý nghĩa thực tiễn và ứng dụng của bài toán tóm tắt văn bản nói

chung cũng như tóm tắt theo hướng tóm lược nói riêng

• Tìm hiểu, khảo sát các hướng nghiên cứu liên quan đến ứng dụng mô hình

chủ đề cho việc cải tiến mô hình tóm tắt văn bản theo hướng tóm lược

Trang 15

• Đề xuất mô hình tóm tắt văn bản theo hướng tóm lược dựa trên việc kết hợp

mô hình chủ đề và mô hình được huấn luyện trước

• Thực nghiệm mô hình trên hai bộ dữ liệu nổi tiếng cho bài toán tóm tắt văn

bản

• Đánh giá các kết quả thực nghiệm

Mô hình đề xuất trong luận văn được thực nghiệm trên 2 bộ dữ liệu bao gồm bộ

CNN/Daily Mail và XSum – hai bộ dữ liệu rất phổ biến trong các nghiên cứu về

bài toán tóm tắt văn bản trên thế giới Luận văn đề xuất hướng tiếp cận kết hợp

sử dụng mô hình chủ đề để bổ sung thông tin về ngữ cảnh trong văn bản cho mô

hình được huấn luyện trước, qua đó cải thiện chất lượng bản tóm tắt đầu ra của

mô hình Mô hình đề xuất được đánh giá thông qua điểm ROUGE – điểm số dựa

trên n-gram để đánh giá sự tương quan giữa bản tóm tắt đầu ra của mô hình và

tập dữ liệu đánh giá – cho ra các kết quả cải tiến so với các phương pháp nghiên

cứu trước đây

Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận văn là bài toán tóm tắt hướng tóm lược và việc áp

dụng mô hình chủ đề kết hợp với mô hình được huấn luyện trước cho bài toán tóm

tắt hướng tóm lược

Phạm vi nghiên cứu

Trong thực tế, bài toán tóm tắt văn bản có tính ứng dụng rất cao Ví dụ như: tóm

tắt tin tức, tóm tắt sách, tóm tắt văn bản pháp luật,… Từ các nhu cầu thực tế của

con người, luận văn sẽ đi tìm hiểu tổng quan về bài toán tóm tắt văn bản (mục đích,

ý nghĩa, động lực và ứng dụng thực tế của bài toán tóm tắt văn bản) Sau đó đi sâu

hơn vào nghiên cứu tóm tắt hướng tóm lược và phương pháp ứng dụng mô hình

chủ đề cho bài toán tóm tắt hướng tóm lược Tiếp đến, luận văn đề xuất hướng tiếp

cận mới dựa trên việc kết hợp mô hình chủ đề và mô hình được huấn luyện trước

để giải quyết bài toán tóm tắt hướng tóm lược Từ đó, tiến hành thực nghiệm đánh

giá mô hình trên hai bộ dữ liệu là CNN/DM và XSum (chi tiết hai bộ dữ liệu này

sẽ được trình bày ở phần sau của luận văn) Ngoài ra, luận văn tiến hành các thực

nghiệm khác để xác định mức độ ảnh hưởng của mô hình chủ đề đến mô hình được

huấn luyện trước trong bài toán tóm tắt hướng tóm lược

Nội dung luận văn

Nội dung của luận văn chia làm 5 chương:

Chương 1 Giới thiệu: giới thiệu lý do lựa chọn đề tài, mục đích, đối tượng

và phạm vi nghiên cứu của luận văn

Chương 2 Cơ sở lý thuyết: giới thiệu tổng quan về bài toán tóm tắt văn bản,

tiếp cận bài toán tóm tắt theo hướng tóm lược và kỹ thuật sử dụng mô hình chủ đề

Trang 16

trong bài toán tóm tắt văn bản hướng tóm lược, cuối cùng là các phương pháp đánh

giá mô hình tóm tắt

Chương 3 Mô hình đề xuất: đề xuất mô hình kết hợp giữa mô hình chủ đề

và mô hình được huấn luyện trước để giải quyết bài toán tóm tắt hướng tóm lược

Chương 4 Thực nghiệm và đánh giá: trình bày các thực nghiệm mô hình

đề xuất trên hai bộ dữ liệu CNN/DM và XSum, sau đó rút ra đánh giá về các kết

quả thực nghiệm trên

Chương 5 Kết luận: đưa ra các kết luận chung về các kết quả đạt được của

luận văn, sau đó đưa ra hướng phát triển trong tương lai của đề tài

Trang 17

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1 Bài toán tóm tắt văn bản

Tổng quan về bài toán tóm tắt văn bản

Tóm tắt văn bản (hay gọi đầy đủ hơn là Tóm tắt văn bản tự động) là tác vụ tự động

sinh ra một bản tóm tắt của một tài liệu văn bản bằng cách trích xuất thông tin quan

trọng nhất từ tài liệu đó Trong xã hội ngày nay, chúng ta phải đối mặt với một

lượng lớn dữ liệu hàng ngày, việc tự động truy xuất những phần nổi bật nhất của

văn bản bằng máy tính có thể giúp con người tổng hợp, tiếp nhận thông tin một

cách nhanh chóng và chính xác nhất Đối với con người, ta có thể dễ dàng hiểu

được ý nghĩa của một văn bản và lập một bản tóm tắt mạch lạc bằng cách sử dụng

từ ngữ của mình, tuy nhiên tốc độ xử lý của con người so với tốc độ sản sinh dữ

liệu thì kém hơn rất nhiều Đối với máy móc, nhiệm vụ này trở nên khó khăn, vì

chúng khó có thể hiểu được nội dung của văn bản theo nhiều khía cạnh khác nhau,

tuy nhiên khả năng xử lý của máy móc thì cực kỳ linh hoạt và nhanh chóng Do

đó, hướng nghiên cứu về bài toán tóm tắt văn bản tự động được quan tâm chú ý

đến như một lẽ tất yếu để tận dụng hết năng lực tính toán của máy móc và giúp

con người có thể thu nhận thông tin một cách dễ dàng hơn

Tuy nhiên, không phải chỉ khi bùng nổ thông tin trong thời kỳ internet phát triển

mạnh mẽ như vài thập kỷ gần đây thì tóm tắt văn bản mới được chú ý đến, bài toán

này đã được quan tâm từ năm 1958 trong một nghiên cứu của Hans Peter Luhn tại

IBM [3], trong đó, tác giả đã trình bày phương pháp tóm tắt cho các bài báo kỹ

thuật thông qua việc sử dụng các phương pháp thống kê tần suất và phân bố của

các từ trong văn bản để đánh trọng số cho các câu trong văn bản, rồi từ đó chọn ra

những câu có trọng số và hợp chúng lại để tạo thành văn bản tóm tắt Các hướng

tiếp cận của các công trình nghiên cứu sơ khai thường dựa trên tần số hoặc dựa

trên các luật Vào những năm 1990, với sự ra đời của các kỹ thuật Học máy trong

Xử lý ngôn ngữ tự nhiên (NLP), một loạt bài báo đã được đề xuất sử dụng các

phương pháp dựa trên thống kê hoặc đồ thị để tạo ra các bản tóm tắt tài liệu đã thu

hút nhiều sự chú ý như là [4, 5] Các công trình nghiên cứu trong thời điểm này

hầu như tập trung vào việc trích xuất nguyên văn các câu hơn là tạo ra một câu

mới, tuy nhiên có thể điều đó sẽ thay đổi trong tương lai do gần đây đã có nhiều

nghiên cứu bắt đầu chuyển hướng sang việc tạo ra những câu văn mới gần với văn

bản do con người tạo ra

Gần đây, với sự phát triển mạnh mẽ của các kỹ thuật Học sâu, rất nhiều các công

trình nghiên cứu về tóm tắt văn bản đặc biệt là tóm tắt hướng tóm lược đã sử dụng

kỹ thuật này và đạt được kết quả vượt trội so với các kỹ thuật cổ điển Tuy nhiên,

kỹ thuật này cũng gặp một số vấn đề chung đã được trình bày trong [6] như sau:

• Độ dài chuỗi đầu vào: các phương pháp dựa trên mạng nơ-ron hiện nay

chưa có khả năng đọc hết các văn bản dài do các vấn đề về bùng nổ bộ nhớ

Trang 18

• Thông tin dư thừa: Đây là một trong những nhược điểm chính của các

phương pháp tiếp cận tóm tắt hiện có, trong đó bản tóm tắt chứa các từ được

lặp đi lặp lại nhiều lần

• Lựa chọn bản tóm tắt đầu ra: ở giai đoạn giải mã, mô hình sinh ra một phân

phối xác suất để dự đoán từ tiếp theo; có nhiều cách để dự đoán từ tiếp theo,

có thể thực hiện tìm kiếm tham lam (greedy search), trong đó mỗi lần từ có

xác suất cao nhất được chọn, hoặc sử dụng các thuật toán tìm kiếm chùm

(beam search) mà trong đó một cây các kết quả được tạo ra thông qua việc

lựa chọn một dãy các từ có xác suất cao nhất

• Yêu cầu về khả năng tính toán: càng ngày các mô hình Học sâu càng sâu

hơn, nhiều lớp ẩn hơn do đó cũng cần bộ nhớ cũng như tài nguyên tính toán

ngày càng cao hơn

• Dữ liệu số học: vì kho từ vựng được sử dụng để đào tạo mô hình tóm tắt bị

hạn chế (chỉ chứa các thuật ngữ phổ biến nhất), đây là một vấn đề rất khó

giải quyết triệt để vì thông tin được trình bày trong một số văn bản cần phải

có số liệu chính xác ví dụ như văn bản thống kê, văn bản y tế…

• Lựa chọn trình tách token: Vai trò của trình tách token là chuyển đổi một

văn bản thành một danh sách các token (có thể các từ, cụm từ,… tùy thuộc

vào mỗi bài toán) Tùy thuộc vào mỗi trình tách token, chỉ những từ quan

trọng nhất được giữ lại, điều này có thể ảnh hưởng đến chất lượng của các

bản tóm tắt được sinh ra

Tóm tắt văn bản là một bài toán khó trong NLP, tuy nhiên nó lại có tính ứng dụng

rất cao trong cuộc sống Trong [1] đã chỉ ra một số những ứng dụng thực tế của

tóm tắt văn bản:

• Tóm tắt tin tức: Hệ thống Newsblaster [7] được sinh ra với mục đích thu

thập tự động, phân cụm, phân loại và tóm tắt tin tức của một số trang tin

tức, qua đó giúp người đọc dễ dàng tra cứu và tìm kiếm tin tức mà họ mong

muốn

• Tóm tắt sách: một bản tóm tắt sách có thể giúp người đọc hiểu sơ lược về

nội dung cuốn sách và cân nhắc xem cuốn sách đó có phù hợp với mình hay

không, tuy nhiên hầu hết các nghiên cứu tập trung vào tóm tắt tài liệu ngắn

Trong [8] nhóm tác giả đã giải quyết các vấn đề của việc tóm tắt sách và

giới thiệu một tiêu chuẩn cụ thể cho việc tóm tắt sách

• Tóm tắt email: email thuộc dạng văn bản theo miền, chúng không có cấu

trúc cụ thể và không phải lúc nào cũng được hình thành tốt về mặt cú pháp

Trong [9], nhóm tác giả đã đề xuất một hệ thống tóm tắt văn bản kết hợp

các kỹ thuật ngôn ngữ với các thuật toán máy học để trích xuất các cụm

danh từ để tạo ra một bản tóm tắt các thông điệp email

• Tóm tắt văn bản pháp lý: Trong [10], nhóm tác giả đã đề xuất hệ thống tóm

tắt văn bản và hệ thống tra cứu văn bản quy phạm pháp luật tự động nhằm

tiết kiệm thời gian của các chuyên gia pháp lý Nhiệm vụ tóm tắt xác định

các vai trò tu từ trình bày các câu của một văn bản án lệ Nhiệm vụ tìm kiếm

Trang 19

xác định các trường hợp liên quan trong quá khứ dựa trên truy vấn pháp lý

đã cho Hệ thống kết hợp sử dụng các kỹ thuật khác nhau như kỹ thuật đối

sánh từ khóa hoặc cụm từ khóa và kỹ thuật dựa trên trường hợp

• Tóm tắt bài báo khoa học: Bài báo khoa học là tài liệu có cấu trúc tốt có

một số đặc điểm chung như vị trí có thể đoán trước của các mục trong tài

liệu, từ gợi ý và cấu trúc giống như mẫu Đây là một trong những ứng dụng

phổ biến, được quan tâm nghiên cứu nhiều nhất trong bài toán tóm tắt văn

bản Tiêu biểu có thể kể đến như: [11] đề xuất một trình tóm tắt để trích

xuất các vấn đề từ một bài báo nghiên cứu, sau đó sử dụng nó để tìm các

bài báo liên quan

Phân loại bài toán tóm tắt văn bản

Hình 1.1 Tổng quan các cách phân loại bài toán tóm tắt văn bản

Có rất nhiều cách được sử dụng để phân loại bài toán tóm tắt văn bản, tuy nhiên

tất cả đều chỉ mang tính chất tương đối, phụ thuộc vào nhiều yếu tố khác nhau

Hình 1.1 mô tả tổng quan về các cách phân loại bài toán tóm tắt văn bản Trong

phần này, luận văn sẽ liệt kê những phương pháp phân loại bài toán phổ biến nhất

1.1.2.1 Dựa trên phương pháp sinh bản tóm tắt

Phân loại dựa trên phương pháp sinh bản tóm tắt của mô hình là một trong những

cách phân loại phổ biến nhất cho bài toán tóm tắt văn bản Trong nghiên cứu [1],

các tác giả đã dựa trên yếu tố này để phân bài toán thành 3 loại đó là: tóm tắt hướng

trích chọn, tóm tắt hướng tóm lược và tóm tắt hướng kết hợp

a) Tóm tắt hướng trích chọn

Trang 20

Phương pháp tóm tắt văn bản hướng trích chọn thực hiện đánh trọng số cho các

thành phần quan trọng trong văn bản gốc (có thể là câu hoặc cụm từ), sau đó chọn

những phần quan trọng nhất để kết hợp lại thành một bản tóm tắt Đầu ra của mô

hình là phiên bản được nén và sắp xếp lại của đầu vào, các từ ngữ gốc được giữ

nguyên Phương pháp này là hướng giải quyết sơ khai nhất và đã xuất hiện từ

những nghiên cứu đầu tiên về tóm tắt văn bản [3] Hình 1.2 biểu diễn kiến trúc

tổng quan của một hệ thống tóm tắt văn bản hướng trích chọn

Hình 1.2 Kiến trúc của hệ thống tóm tắt hướng trích chọn

Các bước xử lý như sau:

• Tiền xử lý: loại bỏ từ dừng (stopword), chuẩn hóa văn bản,…

• Xử lý: đầu tiên tạo một biểu diễn văn bản (ví dụ Túi từ - BOW, biểu diễn

đồ thị [12],…); sau đó sử dụng một phương pháp để đánh trọng số cho các

câu trong văn bản; rồi cuối cùng trích chọn các câu có trọng số cao nhất

• Hậu xử lý: đổi chỗ các câu, thay thế đại từ, thay thế biểu thức thời gian

tương đối bằng ngày tháng thực tế

Tóm tắt hướng trích chọn nhanh và đơn giản hơn so với các cách còn lại, ngoài ra

hướng tiếp cận này dẫn đến độ chính xác cao hơn vì trích xuất trực tiếp các câu để

người đọc đọc bản tóm tắt với các thuật ngữ chính xác tồn tại trong văn bản gốc

Tuy nhiên tóm tắt hướng trích chọn khác rất xa so với văn bản do con người tạo

ra, do đó khó có thể sử dụng trong các ứng dụng thực tế trong cuộc sống

b) Tóm tắt hướng tóm lược

So với tóm tắt hướng trích chọn, tóm tắt hướng tóm lược gặp nhiều thử thách hơn

vì nó đòi hỏi hiểu văn bản đầu vào và sinh ra bản tóm tắt hoàn toàn mới một cách

hợp lý cả về mặt ý nghĩa lẫn ngữ pháp, trong bản tóm tắt này có thể chứa những từ

không xuất hiện trong văn bản gốc Một bản tóm tắt hướng tóm lược tốt đòi hỏi

khả năng biểu diễn thông tin ở dạng mạch lạc, dễ đọc và đúng ngữ pháp, điều đó

đôi khi cũng là thách thức đối với chính con người khi muốn tóm tắt ý chính của

Trang 21

một văn bản nào đó Tóm tắt văn bản hướng tóm lược sẽ được tập trung nghiên

cứu trong phạm vi luận văn này Hình 1.3 biểu diễn kiến trúc tổng quan của một

hệ thống tóm tắt văn bản hướng tóm lược Nó bao gồm các tác vụ tiền xử lý, hậu

xử lý và các tác vụ xử lý bao gồm:

• Tạo một biểu diễn trung gian cho văn bản: xây dựng biểu diễn ngữ nghĩa

nội bộ cho văn bản

• Sinh văn bản tóm tắt: tạo bản tóm tắt bằng các kỹ thuật NLP

Hình 1.3 Kiến trúc của hệ thống tóm tắt hướng tóm lược

Theo như [1] đã trình bày, ưu điểm của phương pháp này là nó tạo ra các bản tóm

tắt tốt hơn với các từ khác nhau không thuộc văn bản gốc bằng cách sử dụng các

từ ngữ linh hoạt hơn dựa trên cách diễn giải, nén hoặc kết hợp; bản tóm tắt được

tạo ra gần với bản tóm tắt thủ công do con người tạo ra hơn; các phương pháp

hướng tóm lược có thể rút gọn văn bản và cô đọng thông tin hơn nữa khi so sánh

với các phương pháp khác

Tuy nhiên, trong thực tế, việc tạo ra một bản tóm tắt hướng tóm lược chất lượng

cao là rất khó Cách tiếp cận hướng tóm lược cần phải nắm bắt được toàn bộ các

thông tin có trong văn bản đầu vào để tạo ra các câu mới vừa hợp lý về ngữ pháp,

vừa đúng về ngữ cảnh văn bản Điểm yếu của hầu hết các trình tóm tắt hướng tóm

lược đó là việc tạo ra các từ lặp đi lặp lại và không thể xử lý các từ ngoài tập từ

vựng một cách hợp lý nhất

Trong phạm vi nghiên cứu, luận văn sẽ tập trung nghiên cứu và đề xuất phương

pháp giải quyết bài toán tóm tắt hướng tóm lược này

c) Tóm tắt hướng kết hợp

Phương pháp tóm tắt hướng kết hợp là phương pháp kết hợp cả hướng tiếp cận

trích chọn và tóm lược Kiến trúc điển hình của một trình tóm tắt văn bản kết hợp

được thể hiện trong Hình 1.4 Trong [13] đã trình bày phương pháp này gồm các

giai đoạn tiền xử lý, hậu xử lý và các tác vụ xử lý bao gồm:

• Tóm tắt hướng trích chọn: trích xuất các câu quan trọng từ văn bản đầu vào

Trang 22

• Tóm tắt hướng tóm lược: tạo bản tóm tắt cuối cùng bằng cách áp dụng các

phương pháp và kỹ thuật hướng tóm lược trên các câu được trích xuất từ

giai đoạn đầu

Ưu điểm của phương pháp này là kết hợp các ưu điểm của cả phương pháp kể trên

Cả hai các phương pháp tiếp cận bổ sung cho nhau và hiệu suất tổng hợp được cải

thiện đáng kể [14]

Tuy nhiên, nhược điểm của phương pháp này là hệ thống tạo ra bản tóm tắt kém

chất lượng hơn so với cách tiếp cận hướng tóm lược thuần túy vì bản tóm tắt sinh

ra phụ thuộc vào các phần trích chọn thay vì văn bản gốc

Hình 1.4 Kiến trúc của hệ thống tóm tắt hướng kết hợp

1.1.2.2 Dựa trên kích thước đầu vào

Dựa trên kích thước đầu vào của mô hình có thể chia bài toán thành hai loại đó là

tóm tắt đơn văn bản và tóm tắt đa văn bản Khi mà tóm tắt đơn văn bản chỉ cần xử

lý một văn bản đơn, thì tóm tắt đa văn bản phải tóm gọn ý của nhiều văn bản có

liên quan đến nhau cùng một lúc và tạo ra bản tóm tắt là tổng hợp các thành phần

chính của tất cả các văn bản đó

Theo [15], bài toán tóm tắt đa văn bản là một bài toán khó, có độ phức tạp cao hơn

so với tóm tắt đơn văn bản rất nhiều Thách thức chủ yếu đến từ việc có thể có sự

nhập nhằng ngữ nghĩa trong nội dung của các văn bản trong cùng tập văn bản hay

trình tự thời gian được trình bày trong mỗi một văn bản là khác nhau, vì vậy để

đưa ra một kết quả tóm tắt tốt sẽ vô cùng khó khăn

Bài toán tóm tắt đa văn bản có rất nhiều ứng dụng thực tế như: tóm tắt các báo cáo

liên quan đến một sự kiện, tóm tắt các cụm dữ liệu được trả về từ quá trình phân

cụm trên máy tìm kiếm, Hướng nghiên cứu ứng dụng bài toán tóm tắt đa văn bản

vào việc xây dựng hệ thống hỏi đáp tự động đang là hướng nghiên cứu chính của

cộng đồng nghiên cứu tóm tắt văn bản những năm gần đây Nhiều nghiên cứu cho

thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn để

Trang 23

đưa ra một văn bản tóm tắt theo yêu cầu của người dùng đã đạt được nhiều kết quả

khả quan, nó cũng thể hiện đây là một hướng tiếp cận đúng đắn ứng dụng trong

việc xây dựng các mô hình hỏi đáp tự động

1.1.2.3 Dựa trên mục đích tóm tắt

Theo mục đích tóm tắt thì có hai cách để phân loại bài toán này

• Nếu dựa vào mục đích của người dùng: có thể chia thành tóm tắt chung và

tóm tắt theo truy vấn Tóm tắt chung chính là tìm ra đoạn tóm tắt đại diện

cho toàn bộ văn bản, còn tóm tắt trên cơ sở truy vấn là sinh ra bản tóm tắt

dựa trên những truy vấn được người dùng hoặc hệ thống định sẵn, loại tóm

tắt này thường được sử dụng trong quá trình tóm tắt các kết quả trả về từ

máy tìm kiếm

• Nếu dựa vào mục đích sử dụng bản tóm tắt: có thể chia thành tóm tắt chỉ

định và tóm tắt thông tin Tóm tắt chỉ định không chứa nội dung thông tin

mà chỉ chứa mô tả chung về tài liệu gốc, ví dụ như mục đích, phạm vi và

phương pháp nghiên cứu của tài liệu gốc Điều này có thể hữu ích để quyết

định xem có nên tham khảo tài liệu gốc hay không Tương tự như tóm tắt

chung ở cách phân loại trên, tóm tắt thông tin đưa ra bản tóm tắt cho toàn

bộ văn bản đầu vào Sau khi đọc tóm tắt chỉ định, người ta có thể biết nội

dung của văn bản, trong khi đó khi đọc bản tóm tắt thông tin, người ta có

thể mô tả lại nội dung của văn bản đầu vào Các bản tóm tắt chỉ định được

sử dụng cho các tài liệu ít cấu trúc hơn như thư, báo cáo, v.v và các bản

tóm tắt thông tin được sử dụng cho các tài liệu khác

1.1.2.4 Các cách phân loại khác

Dựa vào một số tiêu chí khác nhau, có thể phân loại bài toán tóm tắt văn bản theo

các cách khác nhau Một số cách phân loại sau đây thường ít được sử dụng hơn so

với các cách được trình bày ở phía trên

• Dựa vào thuật toán tóm tắt được sử dụng, có thể chia bài toán thành tóm tắt

có giám sát và tóm tắt không giám sát

• Dựa trên ngôn ngữ đầu vào cũng có thể chia bài toán thành tóm tắt đơn ngôn

ngữ và tóm tắt đa ngôn ngữ

• Dựa trên miền dữ liệu đầu vào cũng có thể chia bài toán thành tóm tắt chung

và tóm tắt theo miền cụ thể (ví dụ như giáo dục, giao thông,…)

Các hướng tiếp cận bài toán tóm tắt văn bản

Trong phần này, luận văn sẽ giới thiệu sơ lược các hướng tiếp cận được áp dụng

phổ biến cho bài toán tóm tắt văn bản nói chung

1.1.3.1 Hướng tiếp cận dựa vào thống kê

Phương pháp dựa vào thống kê đã được sử dụng trong tóm tắt văn bản từ những

công trình nghiên cứu đầu tiên Mục tiêu chung của hướng tiếp cận này là sử dụng

các phương pháp thống kê để đánh trọng số cho các phần trong văn bản

a) Phương pháp sử dụng TF

Trang 24

Những nghiên cứu về tóm tắt văn bản sơ khai ví dụ như [3] đã sử dụng tần suất

thuật ngữ (Term Frequency – TF) để làm căn cứ xác định trọng số cho các từ trong

văn bản, TF được định nghĩa là số lần một thuật ngữ xuất hiện trong một tài liệu

và được tính theo công thức sau:

thuật ngữ 𝑡 trong văn bản 𝑑

Tác giả đã giả thiết rằng những từ quan trọng nhất được lặp lại thường xuyên nhất

trong một văn bản hay nói cách khác là có điểm số TF cao nhất và các câu có chứa

các từ quan trọng là các câu quan trọng và có thể sử dụng để tóm tắt văn bản Tác

giả đã tạo ra một tập các từ quan trọng và tính điểm mỗi câu là tổng điểm số của

các từ quan trọng có trong câu đó, sau đó các câu có điểm số cao nhất được trích

xuất để tạo ra bản tóm tắt

Tuy nhiên, phương pháp này gặp một vấn đề đó là có thể có những thuật ngữ xuất

hiện rất nhiều nhưng không đại diện cho chủ đề chính của tài liệu Từ đó, nghiên

cứu [3] cũng đề xuất phương án sử dụng ngưỡng trọng số lớn nhất để đảm bảo

rằng thuật ngữ có trọng số nằm dưới một ngưỡng nhất định, điều đó có nghĩa là

một từ xuất hiện quá thường xuyên sẽ bị loại bỏ khi tính toán điểm số cho câu

b) Phương pháp sử dụng TF-IDF

Nghịch đảo tần suất văn bản (Inverse Document Frequency – IDF) được giới thiệu

từ năm 1972 bởi [16] IDF làm giảm trọng số của các thuật ngữ thường xuyên xuất

hiện trong tập tài liệu và tăng trọng số của các thuật ngữ hiếm khi xuất hiện Lý do

được đưa ra là những thuật ngữ xuất hiện quá nhiều không mang nhiều đặc trưng

để có thể khai thác và ngược lại, những từ hiếm khi xuất hiện hơn sẽ là đặc trưng

của tài liệu chứa nó IDF của thuật ngữ 𝑡 trong tập tài liệu 𝐷 được tính theo công

thức sau:

trong đó |𝐷| là tổng số tài liệu trong tập tài liệu 𝐷, |{𝑑 ∈ 𝐷: 𝑡 ∈ 𝐷}| là số tài liệu

trong tập 𝐷 mà có chứa thuật ngữ t

Nghiên cứu [17] đã đề xuất sử dụng 𝑇𝐹 − 𝐼𝐷𝐹 là tích của hai điểm số trên để làm

căn cứ xác định trọng số cho các thành phần trong văn bản thay thế cho TF, phương

pháp này đã khắc phục được nhược điểm lớn nhất của phương pháp sử dụng TF

như đã trình bày ở trên 𝑇𝐹 − 𝐼𝐷𝐹 được tính theo PT 1.3

quan trọng của từ đó trong một tập các tài liệu và nó vẫn còn được sử dụng cho

các phương pháp có hướng tiếp cận phức tạp hơn sau này, ví dụ như [5, 18]

Trang 25

1.1.3.2 Hướng tiếp cận dựa vào đồ thị

Hướng tiếp cận dựa trên đồ thị là một phương pháp khá phổ biến trong việc đánh

trọng số và xếp hạng câu cho bài toán tóm tắt văn bản Các thuật toán dựa trên đồ

thị truyền thống coi câu là BOW và chỉ lấy thông tin cú pháp và bỏ qua thông tin

ngữ nghĩa, với ý tưởng cơ bản là câu đó xứng đáng được điểm cao hơn nếu nó

được liên kết với nhiều câu hơn, điểm số tỉ lệ thuận với số câu liên kết với nó

Phương pháp này thể hiện văn bản như là một đồ thị liên thông, các câu tạo thành

các đỉnh và các cạnh giữa các đỉnh biểu diễn mối quan hệ giữa hai câu Phương

pháp này có một điểm yếu đó là mức độ quan trọng của các từ trong tài liệu thay

đổi tùy theo ngữ cảnh của chúng nhưng phương pháp dựa trên biểu đồ coi trọng số

của mỗi từ là bằng nhau

LexRank [5] và TextRank [4] là hai thuật toán phổ biến trong hướng tiếp cận dựa

trên đồ thị Cả hai thuật toán này đều được tinh chỉnh từ thuật toán PageRank [19]

để phù hợp hơn cho việc đánh trọng số các câu trong văn bản LexRank [5] sử

dụng độ tương đồng Cosine đề xây dựng đồ thị có trọng số trong đó các nút có

trọng số nhỏ hơn một ngưỡng nhất định sẽ bị loại bỏ Với TextRank [4], một đồ

thị vô hướng được xây dựng từ văn bản đầu vào, trong đó mỗi câu đại diện cho

một nút và cung giữa hai nút được tính trọng số bởi sự giống nhau của chúng Để

đánh trọng số cho câu 𝑖 dựa trên các lân cận của nó, phải thực hiện đệ quy theo PT

1.4 cho đến khi hội tụ, trong đó 𝑑 là hệ số tắt dần (thường được chọn là 0.85)

TextRank [4] và LexRank [5] khai thác các mối quan hệ giữa các câu để đánh trọng

số cho chúng, với giả định rằng chúng có mức ảnh hưởng trên toàn văn bản là như

nhau Điều này có thể chấp nhận được trong tóm tắt đơn văn bản, nhưng trong tóm

tắt đa văn bản, một văn bản có thể quan trọng hơn những văn bản khác và do đó

các câu của nó phải được ưu tiên hơn những tài liệu khác Để khắc phục nhược

điểm trên, [20] đã đề xuất thêm mối quan hệ giữa câu với tài liệu vào quy trình xếp

hạng dựa trên đồ thị Ngoài tác động của văn bản lên các câu, tác giả lập luận rằng

ngay cả các câu trong cùng một văn bản cũng không được xử lý thống nhất, mà

điểm số còn bị ảnh hưởng bởi vị trí của câu và khoảng cách của câu đó đến trọng

tâm của văn bản

Gần đây, cùng với sự phát triển mạnh mẽ của Học sâu (DL), các hướng tiếp cận

dựa trên Mạng nơ-ron đồ thị (Graph Neural Network - GNN) cũng rất được quan

tâm nghiên cứu Trong [21], nhóm tác giả đã đề xuất ra một GNN đã kênh

Multi-GraS cho bài toán tóm tắt hướng trích chọn Kiến trúc mạng trên đã mô hình hòa

Trang 26

nhiều mối quan hệ giữa các từ và câu cùng một lúc, qua đĩ đã cĩ các kết quả tốt

trong quá trình thực nghiệm trên các bộ dữ liệu cho bài tốn tĩm tắt văn bản

1.1.3.3 Hướng tiếp cận dựa trên mơ hình xác suất

Mơ hình ngơn ngữ xác suất (probabilistic language model) xác định phân phối xác

suất trên tập hợp các chuỗi dựa trên phân tích ngữ liệu (tập hợp văn bản) Mỗi phần

tử cĩ một xác suất liên quan và những xác suất này được học từ một kho ngữ liệu

a) Mơ hình Markov ẩn

Mơ hình Markov là mơ hình ngẫu nhiên mà trong đĩ các giá trị tương lai chưa biết

(cịn gọi là ẩn) được dự đốn trong một chuỗi Markov Giá trị được dự đốn chỉ

trong đĩ 𝑃 là xác suất

Trong nghiên cứu [22] đã đề xuất một thuật tốn dựa trên Mơ hình Markov ẩn

(HMM) để phân tách các câu tổng hợp do con người viết ra Mục đích là xác định

mối quan hệ giữa các câu trong bản tĩm tắt do con người viết và các câu trong văn

bản gốc Ngồi ra, [23] đã đề xuất một phương pháp tĩm tắt văn bản xem xét ba

đặc điểm: (1) vị trí của câu trong tài liệu (sử dụng HMM), (2) số lượng từ trong

câu, (3) xác suất của các từ Phương pháp này nhằm mục đích tính tốn xác suất

tổng thể của câu và quyết định xem nĩ cĩ thuộc phần tĩm tắt hay khơng

b) Mơ hình N-gram

N-gram là một mơ hình Markov Như đã trình bày bên trên, mơ hình Markov được

sử dụng để dự đốn giá trị tương lai trong một chuỗi Mơ hình cĩ thể dự đốn từ

tiếp theo trong một chuỗi bằng cách sử dụng PT 1.7 theo [24]:

Mơ hình thống kê này được học từ tập tài liệu

1.1.3.4 Hướng tiếp cận dựa trên Học máy

Với hướng tiếp cận này, các bài tốn tĩm tắt hướng trích chọn thường được xử lý

như là bài tốn phân loại nhị phân Mỗi câu sẽ được biểu diễn dưới dạng một vector

số trước khi đưa vào mơ hình Theo [25], mỗi câu sẽ được gán 0 nếu thuộc phần

tĩm tắt, gán nhãn 1 nếu khơng thuộc phần tĩm tắt

a) Phương pháp sử dụng Nạve Bayes

Naive Bayes (NB) là một kỹ thuật phân loại xây dựng mơ hình bằng cách dự đốn

các xác suất cĩ điều kiện Cơng trình nghiên cứu đầu tiên ứng dụng NB cho bài

tốn tĩm tắt văn bản là [26], theo đĩ cho một câu văn 𝑠, mơ hình tính xác suất câu

đĩ được đưa vào bản tĩm tắt là:

&60

PT 1.8

Trang 27

trong đó 𝐹0, 𝐹5, … , 𝐹/ là các câu để phân loại và 𝑆 là tập các câu trong bản tóm tắt

b) Phương pháp phân cụm

Phân cụm là một loại phương pháp học máy không có giám sát Nó bao gồm việc

chia nhỏ một tập hợp các đối tượng thành các nhóm không chồng lên nhau được

gọi là các cụm để đưa các đối tượng tương tự vào cùng một cụm Công trình [27]

đã nghiên cứu ứng dụng phương pháp này cho tóm tắt hướng trích chọn Bằng việc

phân cụm các câu trong văn bản, mô hình xác định các câu nổi bật nhất chính là

tâm của các cụm đó và sinh ra bản tóm tắt bao gồm những câu tương ứng với các

tâm cụm đó Tương tự, [28] đã nghiên cứu tóm tắt hướng trích chọn theo hướng

tạo ra các cụm tài liệu dựa trên sự giống nhau giữa các tài liệu Sau đó, mô hình sẽ

chọn các câu có điểm tốt nhất từ mỗi cụm và thêm chúng vào phần tóm tắt

c) Máy vector hỗ trợ (Support Vector Machine)

Máy vectơ hỗ trợ (SVM) là thuật toán học có giám sát được đề xuất bởi [29] Mô

hình này có thể được sử dụng để giải các bài toán phân loại và hồi quy SVM là

một mô hình phân tách các điểm dữ liệu thành các lớp bằng một siêu phẳng gọi là

vectơ hỗ trợ

Một bài toán lý tưởng cho SVM bao gồm hai lớp, có thể được phân tách bằng một

đường thẳng được trình bày trong Hình 1.5 và minh họa bằng PT 1.9

Hình 1.5 Đường phân tách tuyến tính sử dụng Máy vectơ hỗ trợ

Trong [30] đã nghiên cứu tóm tắt đa văn bản dựa trên truy vấn bằng cách sử dụng

SVM để xếp hạng tất cả các câu trong cụm chủ đề Sau đó, bản tóm tắt được xây

dựng bằng cách nối các câu có điểm cao nhất lại với nhau Còn trong [31] các tác

giả cũng sử dụng phương pháp SVM cho bài toán tóm tắt văn bản tự động, tuy

nhiên họ có thêm các hướng tiếp cận khác trong việc xếp hạng các câu như trích

xuất các đặc điểm của câu trong văn bản, chẳng hạn như vị trí của câu, trọng tâm

của câu và sự tương đồng của câu với tiêu đề

1.1.3.5 Hướng tiếp cận dựa trên Học sâu

Học sâu (Deep Learning - DL) đã trở thành lựa chọn hàng đầu để giải quyết các

vấn đề trong lĩnh vực Học máy trong khoảng thời gian gần đây Đối với bài toán

ATS, DL được sử dụng cho cả tóm tắt hướng trích chọn và tóm tắt hướng tóm

Trang 28

lược Cùng với sự phát triển vượt bậc của mạng nơ-ron và DL, ATS - đặt biệt là

tóm tắt hướng tóm lược - đã đạt được những kết quả vượt trội Những hướng tiếp

cận cổ điển trước đây đã không thể giải quyết được các vấn đề khó khăn trong tóm

tắt hướng tóm lược ví dụ như vấn đề hiểu ngôn ngữ Tuy nhiên, DL đã và đang

giải quyết được các vấn đề đó, từ đó mở ra rất nhiều hướng nghiên cứu tóm tắt

hướng tóm lược mới và làm cho bài toán này nhận được nhiều sự chú ý trong cộng

đồng NLP Trong phạm vi nghiên cứu, luận văn sẽ trình bày một số phương pháp

dựa trên DL nổi bật nhất cho bài toán ATS

a) Mô hình mã hóa – giải mã (encoder – decoder)

Mô hình mã hóa – giải mã là một khuôn mẫu thiết kế mạng nơ-ron Kiến trúc này

có 3 thành phần: bộ mã hoá, vector mã hóa và bộ giải mã Bộ mã hoá đóng vai trò

mã hoá đầu vào thành các vector mã hóa Các vector mã hóa (hay vector ngữ cảnh)

đóng vai trò thành phần trung gian, là đầu ra của bộ mã hóa và là đầu vào của bộ

giải mã Bộ giải mã tiếp nhận vector mã hóa rồi giải mã thông tin và sinh đầu ra

mong muốn

Mô hình chuỗi sang chuỗi (Sequence to Sequence – seq2seq) được giới thiệu lần

đầu trong [32], nó dựa trên kiến trúc mã hóa – giải mã để sinh chuỗi đầu ra từ chuỗi

đầu vào Cả hai thành phần bộ mã hóa và bộ giải mã đều sử dụng kiến trúc mạng

nơ-ron hồi tiếp để xử lý các chuỗi đầu vào với độ dài khác nhau Trạng thái ẩn của

bộ giải mã được khởi tạo trực tiếp từ thành phần vector mã hóa, qua đó giúp truyền

thông tin từ bộ mã hóa tới bộ giải mã Hình 1.6 mô tả kiến trúc của mô hình

seq2seq

Hình 1.6 Minh họa mô hình chuỗi sang chuỗi

ATS và Dịch máy là hai bài toán có khá nhiều điểm tương đồng ví dụ như đầu vào

và đầu ra đều là các chuỗi có độ dài khác nhau và không cố định; mục đích của hai

bài toán đều là tổng hợp chuỗi văn bản đầu vào rồi sinh ra một văn bản khác tuỳ

thuộc vào mục tiêu của bài toán Do đó, mô hình seq2seq đã áp dụng khá tốt cho

Dịch máy cũng có thể sử dụng để giải quyết bài toán ATS Trong đó, mô hình nhận

đầu vào là văn bản và bản tóm tắt thực tế sau đó giải mã thông tin và sinh ra một

bản tóm tắt mà mô hình cho là phù hợp nhất

b) Mạng nơ-ron hồi tiếp

Mạng nơ-ron hồi tiếp (Recurrent Neural Networks - RNN) là các mạng thần kinh

sâu thực hiện các bước tuần tự để mã hóa và giải mã thông tin từ chuỗi đầu vào

Khác với mạng nơ-ron thông thường, RNN cho phép các kết nối có tính chu kỳ,

thành phần phía sau nhận thông tin từ thành phần ngay trước nó, mã hóa thông tin

Trang 29

rồi lại truyền đến thành phần ngay phía sau nó Hình 1.7 mô tả kiến trúc tổng quản

của RNN

Hình 1.7 Kiến trúc của RNN

Điểm mạnh chính của RNN là khả năng ghi nhớ thông tin từ lần tính toán trước,

cho phép mô hình hóa sự phụ thuộc ngữ cảnh trong chuỗi đầu vào có độ dài tùy ý

và ghi nhớ thứ tự các phần tử Mọi đầu ra của mạng được điều chỉnh dựa trên các

tính toán trước đó thông qua sự kết hợp của trạng thái ẩn từ lần lặp trước với trạng

thái ẩn hiện tại Quy trình này được lặp lại một cách đệ quy cho mọi từ trong chuỗi

đầu vào với bản cập nhật tương ứng về trọng số của mạng Do đó, đối với RNN cổ

điển, hàm điều kiện trạng thái xác định là:

thể học từ dữ liệu

Hạn chế của RNN tiêu chuẩn là nó chỉ xử lý tuần tự theo một hướng Đối với mỗi

từ phía sau, mạng sẽ quay trở lại các trạng thái trước đó để tìm một số mối quan

hệ giữa các từ với nhau Tuy nhiên, rõ ràng là các phần tử của chuỗi có thể liên

quan đến các phần tử tiếp theo sau đó Do đó, trong thực tế, RNN hai chiều

(BRNN) được sử dụng phổ biến hơn để phân tích chuỗi đầu vào theo cả hai hướng

từ đó tạo ra các trạng thái ẩn theo ngữ cảnh chứa nhiều thông tin hơn Kiến trúc

cho các mạng như vậy đại diện cho hai RNN riêng biệt, trong đó các trạng thái ẩn

cho mọi vị trí trong chuỗi được nối thành một biểu diễn hai chiều cuối cùng

Ngoài ra, một điểm yếu nữa của RNN là không thể xử lý một trình tự song song

RNN thực hiện mã hóa theo cách tuần tự lần lượt các từ trong chuỗi đầu vào cũng

như đầu ra, các từ sau muốn có thông tin phải chờ mạng xử lý xong các từ trước

đó Điều này dẫn đến việc các mô hình RNN thường có thời gian học rất lâu và

không tận dụng được hết sức mạnh của GPU

Các RNN tiêu chuẩn cũng gặp phải vấn đề về tiêu biến gradient (vanishing

gradient) Điều này khiến các mạng khó khăn khi học các chuỗi dài Một vấn đề

khác tương tự cũng có thể xảy ra đó là sự suy giảm mức độ ảnh hưởng của các từ

Trang 30

cách xa nhau Do đó, mô hình không thể huấn luyện mạng với các chuỗi dài cũng

như không tạo ra các chuỗi dài có ý nghĩa Có thể nói rằng RNN truyền thống có

trí nhớ ngắn hạn Mạng Bộ nhớ dài-ngắn hạn (Long Short-term Memory – LSTM)

[33] được thiết kế để khắc phục vấn đề này LSTM được thiết kế để giải quyết các

bài toán về phụ thuộc xa (long-term dependencies) Cơ chế hoạt động của LSTM

là chỉ ghi nhớ những thông tin liên quan, quan trọng cho việc dự đoán, còn các

thông tin khác sẽ được bỏ đi

Hình 1.8 Kiến trúc ô nhớ của LSTM

Mạng LSTM có thể bao gồm nhiều ô nhớ LSTM liên kết với nhau Ý tưởng của

được từ đầu ra của các ô nhớ từ bước thời gian trước đó t – 1 Các cổng đều có

chức năng sàng lọc thông tin với mỗi mục đích khác nhau Các cổng được định

nghĩa như sau:

• Cổng quên (1): Có chức năng loại bỏ những thông tin không cần thiết nhận

được khỏi trạng thái ô nhớ bên trong

• Cổng đầu vào (2): Có chức năng sàng lọc những thông tin cần thiết để được

thêm vào trạng thái ô nhớ bên trong

• Cổng đầu ra (3): Có chức năng xác định những thông tin nào từ các trạng

thái ô nhớ bên trong được sử dụng như đầu ra

Ở bước đầu tiên, ô nhớ LSTM quyết định những thông tin cần được loại bỏ từ các

sigmoid biến đổi tất cả các giá trị kích hoạt (activation value) về miền giá trị trong

khoảng từ 0 và 1 theo công thức:

Trang 31

Ở bước thứ 2, ô nhớ LSTM xác định những thông tin nào cần được thêm vào các

trong:

trên kết quả thu được từ các bước trên:

Một ý tưởng khác dẫn đến sự cải thiện đáng kể trong các nhiệm vụ NLP nói chung

là cơ chế Tập trung (Attention) [34] Logic của cơ chế này là cho phép bộ giải mã

ở mỗi lần lặp có thể xem xét tất cả các trạng thái ẩn của bộ mã hóa, từ đó chú ý

nhiều hơn đến trạng thái liên quan nhất Nói cách khác, nó thay thế tập hợp các

trạng thái ẩn của bộ mã hóa bằng tập hợp các giá trị trung bình có trọng số của các

vectơ này Cơ chế Tập trung có những đặc điểm sau:

• Ánh xạ tuyến tính các vectơ nhúng được ngữ cảnh hóa đến tập các vectơ

được gọi là truy vấn, giá trị và khóa

• Áp dụng hàm tính điểm tập trung cho các khóa và truy vấn để tính toán

phân phối tập trung, sau đó chuẩn hóa phân phối đó bằng hàm softmax

• Sử dụng phân phối tập trung tính toán vectơ ngữ cảnh dưới dạng tổng trọng

số của các giá trị

Hình 1.9 mô tả khái quát cơ chế Tập trung Mô hình bao gồm bộ mã hóa và bộ giải

mã đều sử dụng kiến trúc mạng RNN

Ngày đăng: 03/06/2023, 13:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] W. Yu and Wenhao Yu and Chenguang Zhu and Zaitang Li and Zhiting Hu and Qingyun Wang and Heng Ji and Meng Jiang, "A Survey of Knowledge- Enhanced Text Generation," ACM Computing Surveys (CSUR), 2022 Sách, tạp chí
Tiêu đề: A Survey of Knowledge-Enhanced Text Generation
[4] Mihalcea, Rada and Tarau, Paul, "TextRank: Bringing Order into Text," in Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2004, pp.404-411 Sách, tạp chí
Tiêu đề: Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing
Tác giả: Rada Mihalcea, Paul Tarau
Nhà XB: Association for Computational Linguistics
Năm: 2004
[6] López Espejel, Jessica, "Automatic abstractive summarization of long medical texts with multi-encoders Transformer and general-domain summary evaluation with wikiSERA," 2021 Sách, tạp chí
Tiêu đề: Automatic abstractive summarization of long medical texts with multi-encoders Transformer and general-domain summary evaluation with wikiSERA
Tác giả: López Espejel, Jessica
Năm: 2021
[7] McKeown, Kathleen and Barzilay, Regina and Evans, David and Hatzivassiloglou, Vasileios and Klavans, Judith and Nenkova, Ani and Sable, Carl and Schiffman, Barry and Sigelman, Sergey, "Tracking and Summarizing News on a Daily Basis with Columbia's Newsblaster," Morgan Kaufmann Publishers Inc, 2003 Sách, tạp chí
Tiêu đề: Tracking and Summarizing News on a Daily Basis with Columbia's Newsblaster
Tác giả: Kathleen McKeown, Regina Barzilay, David Evans, Vasileios Hatzivassiloglou, Judith Klavans, Ani Nenkova, Carl Sable, Barry Schiffman, Sergey Sigelman
Nhà XB: Morgan Kaufmann Publishers Inc
Năm: 2003
[8] Rada Mihalcea and Hakan Ceylan, "Explorations in Automatic Book Summarization," in EMNLP, 2007 Sách, tạp chí
Tiêu đề: Explorations in Automatic Book Summarization
Tác giả: Rada Mihalcea, Hakan Ceylan
Năm: 2007
[9] Muresan, Smaranda and Tzoukermann, Evelyne and Klavans, Judith L., "Combining linguistic and machine learning techniques for email summarization," in Proceedings of the {ACL} 2001 Workshop on Computational Natural Language Learning (ConLL), 2001 Sách, tạp chí
Tiêu đề: Proceedings of the ACL 2001 Workshop on Computational Natural Language Learning (ConLL)
Tác giả: Smaranda Muresan, Evelyne Tzoukermann, Judith L. Klavans
Năm: 2001
[10] Kavila, S.D., Puli, V., Prasada Raju, G.S.V., Bandaru, R., "An Automatic Legal Document Summarization and Search Using Hybrid System," in Proceedings of the International Conference on Frontiers of Intelligent Computing: Theory and Applications (FICTA), Berlin, Heidelberg, Springer Berlin Heidelberg, 2013, pp. 229-236 Sách, tạp chí
Tiêu đề: An Automatic Legal Document Summarization and Search Using Hybrid System
[11] Alampalli Ramu, Nikhil and Bandarupalli, Mohana Sai and Nekkanti, Manoj Sri Surya and Ramesh, Gowtham, "Summarization of Research Publications Using Automatic Extraction," in Intelligent Data Communication Sách, tạp chí
Tiêu đề: Summarization of Research Publications Using Automatic Extraction
Tác giả: Alampalli Ramu, Nikhil, Bandarupalli, Mohana Sai, Nekkanti, Manoj Sri Surya, Ramesh, Gowtham
[12] Joshi, M., Wang, H., McClean, S., "Dense Semantic Graph and Its Application in Single Document Summarisation," pp. 55-67, 01 2018 Sách, tạp chí
Tiêu đề: Dense Semantic Graph and Its Application in Single Document Summarisation
Tác giả: Joshi, M., Wang, H., McClean, S
Năm: 2018
[13] Khurshid Bhat, Iram and mohd, Mudasir and Hashmy, Rana, "SumItUp: A Hybrid Single-Document Text Summarizer," 2018, pp. 619-634 Sách, tạp chí
Tiêu đề: SumItUp: A Hybrid Single-Document Text Summarizer
Tác giả: Khurshid Bhat, Iram, mohd, Mudasir, Hashmy, Rana
Năm: 2018
[14] Wang, Shuai and Zhao, Xiang and Li, Bo and Ge, Bin and Tang, Daquan, "Integrating Extractive and Abstractive Models for Long Text Summarization," in 2017 IEEE International Congress on Big Data (BigData Congress), 2017, pp. 305-312 Sách, tạp chí
Tiêu đề: 2017 IEEE International Congress on Big Data (BigData Congress)
Tác giả: Wang, Shuai, Zhao, Xiang, Li, Bo, Ge, Bin, Tang, Daquan
Năm: 2017
[21] Baoyu Jing and Zeyu You and Tao Yang and Wei Fan and Hanghang Tong, "Multiplex Graph Neural Network for Extractive Text Summarization,"CoRR, 2021 Sách, tạp chí
Tiêu đề: Multiplex Graph Neural Network for Extractive Text Summarization
Tác giả: Baoyu Jing, Zeyu You, Tao Yang, Wei Fan, Hanghang Tong
Nhà XB: CoRR
Năm: 2021
[22] Jing, Hongyan and McKeown, Kathleen, "The Decomposition of Human- Written Summary Sentences," 2000 Sách, tạp chí
Tiêu đề: The Decomposition of Human- Written Summary Sentences
Tác giả: Jing, Hongyan, McKeown, Kathleen
Năm: 2000
[23] Conroy, John M. and O'leary, Dianne P., "Text Summarization via Hidden Markov Models," in Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY, USA, Association for Computing Machinery, 2001, p. 406–407 Sách, tạp chí
Tiêu đề: Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
Tác giả: Conroy, John M., O'leary, Dianne P
Nhà XB: Association for Computing Machinery
Năm: 2001
[24] Russell, Stuart and Norvig, Peter, "Artificial Intelligence (A Modern Approach)," Prentice Hall, 2010 Sách, tạp chí
Tiêu đề: Artificial Intelligence (A Modern Approach)
Tác giả: Russell, Stuart, Norvig, Peter
Nhà XB: Prentice Hall
Năm: 2010
[29] Kecman, V., "Support Vector Machines - An Introduction," in Support Vector Machines: Theory and Applications, Berlin, Heidelberg, Springer Berlin Heidelberg, 2005, pp. 1-47 Sách, tạp chí
Tiêu đề: Support Vector Machines: Theory and Applications
Tác giả: Kecman, V
Nhà XB: Springer Berlin Heidelberg
Năm: 2005
[30] Schilder, Frank and Kondadadi, Ravikumar, "FastSum: Fast and Accurate Query-based Multi-document Summarization," in Proceedings of ACL-08:HLT, Short Papers, Association for Computational Linguistics, 2008, pp.205-208 Sách, tạp chí
Tiêu đề: Proceedings of ACL-08:HLT, Short Papers
Tác giả: Frank Schilder, Ravikumar Kondadadi
Nhà XB: Association for Computational Linguistics
Năm: 2008
[32] Ilya Sutskever and Oriol Vinyals and Quoc V. Le, "Sequence to Sequence Learning with Neural Networks," CoRR, 2014 Sách, tạp chí
Tiêu đề: Sequence to Sequence Learning with Neural Networks
Tác giả: Ilya Sutskever, Oriol Vinyals, Quoc V. Le
Nhà XB: CoRR
Năm: 2014
[33] Hochreiter, Sepp and Schmidhuber, Jürgen, "Long Short-term Memory," Neural computation, vol. 9, pp. 1735-80, 1997 Sách, tạp chí
Tiêu đề: Long Short-term Memory
Tác giả: Hochreiter, Sepp, Schmidhuber, Jürgen
Nhà XB: Neural computation
Năm: 1997
[34] Dzmitry Bahdanau and Kyunghyun Cho and Yoshua Bengio, "Neural Machine Translation by Jointly Learning to Align and Translate," CoRR, 2015 Sách, tạp chí
Tiêu đề: Neural Machine Translation by Jointly Learning to Align and Translate
Tác giả: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
Nhà XB: CoRR
Năm: 2015

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w