Tôi nhận thấy nhu cầu tóm tắt văn bản nhằm tạo tiêu đề tự động không chỉ cần thiếtcho người đọc mà còn hỗ trợ được rất nhiều cho các bài toán, hệ thống xử lý ngôn ngữ tựnhiên như : phân
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-NGUYỄN THỊ HIỆP THUẬN
TÓM TẮT VĂN BẢN TIẾNG VIỆT
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCMCán bộ hướng dẫn khoa học : PGS.TS Quản Thành Thơ
Cán bộ chấm nhận xét 1 : TS Lê Thanh Vân
Cán bộ chấm nhận xét 2 : TS Nguyễn Lưu Thùy Ngân
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp HCM ngày 06 tháng 08 năm 2021(trực tuyến)
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 TS Nguyễn Đức Dũng - Chủ tịch
2 TS Nguyễn Tiến Thịnh - Thư ký
4 TS Nguyễn Lưu Thùy Ngân - Phản biện 2
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngànhsau khi luận văn đã được sửa chữa (nếu có)
VÀ KỸ THUẬT MÁY TÍNH
Trang 3Ejw{‒p"pi pj<"Mjqc"j丑e"o {"v pj"""""""""""""""""""""""""""""""""""""""""""""O«"u嘘"<":6:2323
K0 VçP"A陰"VÉK< V„o"v逸v"x<p"d違p"vk院pi"Xk羽v"u穎"f映pi"j羽 vj嘘pi"j丑e"u¤w0
KK0 PJK烏O"X影"XÉ"P浦K"FWPI"< Z¤{"f詠pi"o»"j·pj"j丑e"u¤w"e„ mj違"p<pi"v„o"v逸v"e e"x<p
d違p"d q"ej "vj pj"e e"8q衣p"x<p"pi逸p"8亥{"8栄"pi英"pij c"x "e医w"vt¿e"j嬰r"n#"vtw{隠p"v違k"p瓜k fwpi"x<p"d違p"i嘘e0
Trang 4Lời cảm ơn
Để hoàn thành bài luận văn này, tôi muốn gửi lời cảm ơn chân thành đến Ban giám hiệu
và các thầy cô Trường Đại học Bách Khoa Thành phố Hồ Chí Minh, đã dạy dỗ và hướngdẫn tôi trong suốt những năm học vừa qua
Trong quá trình thực hiện luận văn, nhận được sự hỗ trợ về kiến thức, tài nguyên, ýtưởng và kinh nghiệm từ bạn bè, đồng nghiệp của mình, nay tôi xin chân thành cảm ơnmọi người đã cùng tôi hoàn thiện bài luận văn này
Trên tất cả, lời cảm ơn chân thành nhất xin được gửi đến thầy hướng dẫn đề tài - PhóGiáo sư, Tiến sĩ Quản Thành Thơ Cảm ơn thầy đã luôn theo sát, định hướng và hỗ trợ,đưa ra những góp ý quan trọng cho công trình nghiên cứu này của tôi
Cuối cùng, vì những hạn chế về mặt thời gian cũng như khả năng trong cách trình bày
và viết báo cáo nên không thể tránh khỏi những thiếu sót, rất mong nhận được sự thôngcảm và những ý kiến đóng góp từ quý thầy cô và các bạn để giúp tôi hoàn thiện luận vănnày tốt hơn
Chân thành cảm ơn
Học viên thực hiện
Nguyễn Thị Hiệp Thuận
Trang 5Tóm tắt luận văn
Những năm gần đây, cùng với sự phát triển nhanh chóng của các kênh truyền thông xãhội, nhiều người dùng từ người viết chuyên nghiệp đến người dùng phổ thông đã đăng cácbài viết chất lượng cao dưới dạng blog, ghi chú hoặc bình luận Tuy nhiên, một lượng lớncác bài viết gốc thường không có phần tóm tắt và tiêu đề, cần được thêm vào bởi các biêntập viên theo cách thủ công để tổng hợp, phân tích hoặc đăng tải ở các diễn đàn chuyênnghiệp Nhiệm vụ này rất quan trọng vì phần tóm tắt và tiêu đề không chỉ giúp bài viếttrở nên chuyên nghiệp hơn mà còn giúp người đọc nắm bắt thông tin nhanh chóng và đầy
đủ hơn Từ nhu cầu thực tế đó, tôi nghiên cứu xây dựng mô hình nhằm tự động hoá nhiệm
vụ này Cụ thể, luận văn này sẽ giới thiệu và đề xuất mô hình Forcing-Seq2Seq, một môhình tóm tắt văn bản tối ưu và ứng dụng cụ thể vào mục đích đặt tiêu đề tự động chovăn bản Mô hình Forcing-Seq2Seq được xây dựng kết hợp ưu điểm của các mô hình xử
lý ngôn ngữ tự nhiên truyền thống và các mô hình học sâu nâng cao Tôi đã thử nghiệmphương pháp tiếp cận của mình với bộ dữ liệu thực và thu được kết quả ban đầu đầy hứahẹn, trên cả số liệu đánh giá tự động bằng giải thuật và đánh giá thủ công của con người.Trong luận văn này, Chương 1 giới thiệu tổng quan về đề tài nghiên cứu Phần này sẽtrình bày lý do ra đời của mô hình Forcing-Seq2Seq và giới thiệu bài toán tóm tắt vănbản Ở Chương 2 tập trung thảo luận các nghiên cứu có liên quan đến đề tài này, tậptrung phân tích các ưu nhược điểm của các cách tiếp cận nhằm đưa ra giải pháp phù hợpcho bài toán Đồng thời phần này cũng giới thiệu các lý thuyết liên quan dùng để xâydựng mô hình Forcing-Seq2Seq Giải pháp đề xuất được trình bày cụ thể trong phần tiếptheo Chương 3 thảo luận và phân tích chi tiết mô hình Forcing-Seq2Seq Trong Chương
4, quá trình hiện thực đề tài bao gồm chuẩn bị tập dữ liệu và huấn luyện hệ thống sẽ đượctập trung thảo luận cũng như các kết quả thực nghiệm sẽ được trình bày Chương 5 đưa
ra những đánh giá độ chính xác và tính thực tiễn của mô hình Forcing-Seq2Seq Và cuốicùng, tổng kết các kết quả đạt được cũng như các phân tích về mô hình Forcing-Seq2Seq
và định hướng nghiên cứu trong tương lai sẽ được trình bày trong Chương 6
Trang 6Thesis outline
With the rapid growth of social media channels, many users from professional writers togeneral users have posted high-quality articles in the form of blogs, notes or comments.However, a large number of original articles are often untitled, needing to be manuallyadded by editors for synthesis, analysis, or publication in professional forums To automatethis task, this thesis introduce and propose the Forcing-Seq2Seq system, an automatic titlegeneration system The Forcing-Seq2Seq architecture is built combining the advantages
of traditional natural language processing models and advanced deep learning models Wetested our approach with real data sets and got promising initial results, on both automaticand human evaluation metrics
In this thesis, Chapter 1 provides an overview of the research topic In this part, I willexplain the purpose for the Forcing-Seq2Seq system and introduce the text summarizationproblem Chapter 2 show some research related to this topic, focusing on analyzing theadvantages and disadvantages of the approaches in order to provide a suitable solution
to the problem At the same time, this part also introduces the relevant theories used tobuild the Forcing-Seq2Seq system The proposed solution is presented in detail in the nextsection Chapter 3 discusses and analyzes the Forcing-Seq2Seq model in detail In Chapter
4, the process of implementing the topic including preparing the data set and training thesystem will be discussed and the experimental results will be presented Chapter 5 gives
an assessment of the accuracy and practicality of the Forcing-Seq2Seq model And finally,the summary of the obtained results as well as the analysis of the Forcing-Seq2Seq modeland directions for further research will be presented in Chapter 6
Trang 7Lời cam đoan
Luận văn của tôi có tham khảo các tài liệu từ nhiều nguồn khác nhau và các nguồn thamkhảo này đều được trích dẫn rõ ràng trong phần tài liệu tham khảo Ngoài những phầnđược trích dẫn, tôi xin cam đoan toàn bộ nội dung báo cáo là tự soạn thảo dựa trên nhữngtìm hiểu và kết quả thực tế do thí nghiệm mà có
Tôi sẽ hoàn toàn chịu xử lý theo quy định nếu có bất kỳ sai phạm nào xảy ra liên quanđến những gì đã cam đoan
Hồ Chí Minh, ngày 18 tháng 07 năm 2021
Học viên thực hiện
Nguyễn Thị Hiệp Thuận
Trang 8Mục lục
1 Giới thiệu đề tài 1
2 Lý do chọn đề tài 2
3 Phạm vi đề tài 2
4 Quá trình thực hiện 2
Chương 2 Công trình liên quan 4 1 Các công trình liên quan 4
1.1 Phương pháp tóm tắt văn bản dựa trên trích xuất [1] 4
1.2 Phương pháp tóm tắt văn bản dựa trên tóm lược [2] 6
2 Các mô hình nền tảng 8
2.1 Mô hình Seq2Seq và cơ chế Attention 8
2.2 Hệ số TF-IDF 11
2.3 Cơ chế Teacher Forcing 12
2.4 Mô hình ngôn ngữ (Language Model) 13
Chương 3 Mô hình đề xuất 15 1 Tổng quan 15
2 Cấu trúc của hệ thống Forcing-Seq2Seq 16
2.1 Tiền xử lý văn bản 16
2.2 Mô hình Seq2Seq cơ chế attention 17
2.3 Mô hình ngôn ngữ 17
2.4 Mô hình TF-IDF và cơ chế Teacher forcing 18
3 Phương pháp đánh giá 20
3.1 Phương pháp đánh giá tự động 20
3.2 Phương pháp đánh giá bằng con người 21
Chương 4 Hiện thực 23 1 Dữ liệu 23
2 Kết quả huấn luyện trên mô hình Forcing-Seq2Seq 23
3 Kết quả thực nghiệm 24
Chương 5 Đánh giá 26 1 Đánh giá tự động 26
2 Đánh giá với con người 26
Trang 9Chương 6 Tổng kết 28
1 Kết luận 28
2 Đánh giá ưu, nhược điểm 28
2.1 Ưu điểm 28
2.2 Nhược điểm 28
3 Hướng phát triển trong tương lai 28
Trang 10Danh sách hình vẽ
1 Ví dụ minh hoạ giao diện trang chủ báo điện tử 1
2 Kiến trúc hệ thống tóm tắt văn bản dựa trên phương pháp trích xuất 5
3 Tổng quan kiến trúc mô hình Seq2Seq 8
4 Cấu trúc mạng encoder 9
5 Cấu trúc mạng decoder 9
6 Ví dụ minh hoạ mô hình sử dụng cơ chế Teacher Forcing 13
7 Kiến trúc tổng thể của mô hình F orcing − Seq2Seq 15
8 Kiến trúc mô hình Seq2Seq kết hợp với cơ chế attention 17
9 Huấn luyện mô hình ngôn ngữ 18
10 Sử dụng mô hình ngôn ngữ sửa lỗi ngữ pháp 19
11 Sử dụng cơ chế Teacher Forcing tăng hiệu quả tạo tiêu đề 20
12 Mẫu đánh giá kết quả mô hình đề xuất của tình nguyện viên 22
13 Ví dụ tiêu đề được sinh ra từ mô hình Base − Seq2Seq 23
14 Mô hình TF-IDF xác định từ quan trọng nhất trong văn bản gốc 24
15 Tạo tiêu đề tự động với mô hình Forcing- Seq2Seq 24
Trang 11Danh sách bảng
1 Các tiêu đề tự động tạo ra từ mô hình đề xuất 25
2 Bảng kết quả đánh giá - điểm BLEU 26
3 Kết quả đánh giá bằng con người - Điểm hợp lý 27
4 Kết quả đánh giá bằng con người - Điểm khả thi 27
Trang 12Chương 1 Giới thiệu
1 Giới thiệu đề tài
Ngày nay, thế giới đã và đang chứng kiến sự phát triển nhanh chóng của mạng xã hội, nơimọi người tìm thấy một kênh thuận tiện để bày tỏ ý tưởng, quan điểm và cảm xúc củamình Có một số blog, bài đăng và bình luận được thực hiện bởi những người dùng phổthông rất thú vị và thu hút nhiều sự chú ý của khán giả Những bài viết đó nhiều lần đượccác biên tập viên lựa chọn để xuất bản thành những bài báo chất lượng cao Tuy nhiên,
vì là những người viết không chuyên nghiệp, người dùng thường không viết phần tóm tắt
và đặt tiêu đề cho bài viết của họ mà thay vào đó các biên tập viên sẽ đảm nhận côngviệc này Nhiệm vụ này rất quan trọng vì phần tóm tắt và tiêu đề không chỉ giúp bài viếttrở nên chuyên nghiệp hơn mà còn giúp người đọc nắm bắt thông tin nhanh chóng và đầy
đủ hơn Hình 1 là ví dụ minh hoạ giao diện trang chủ của các trang báo điện tử thườnghiện thị phần tóm tắt và tiêu đề các bài báo giúp người đọc nắm bắt nhanh thông tin vàlựa chọn bài viết phù hợp với nhu cầu của mình Tuy nhu cầu thực tế là vậy nhưng với sốlượng bài viết khổng lồ, công việc tóm tắt bài viết và đặt tiêu đề này làm tiêu tốn tươngđối nhiều thời gian và sức lực để xử lý Đồng thời, vì không phải là tác giả của bài viết,người biên tập thường khó nắm bắt hết quan điểm và nội dung người viết muốn truyềntải làm cho nội dung phần tóm tắt và tiêu đề không bám sát bài viết gốc
Hình 1: Ví dụ minh hoạ giao diện trang chủ báo điện tử
Từ nhu cầu thực tế đó cùng với sự phát triển vượt bậc của các kỹ thuật trí tuệ nhântạo, tôi tập trung nghiên cưú để xây dựng 1 mô hình tự động tóm tắt bài viết tối ưu, ứngdụng cụ thể giải quyết nhu cầu tạo tiêu đề cho bài viết Với mô hình này, tiêu đề bài viết
sẽ được tạo ra tự động trong thời gian ngắn mà vẫn đảm bảo độ dài và văn phạm hợp lý,đồng thời tiêu đề tự động cũng truyền tải được nội dung trọng tâm của văn bản gốc
Trang 132 Lý do chọn đề tài
Các bất cập và nhu cầu thực tế đã đề cập bên trên vô tình xuất hiện khi tôi nghiên cứucác bài toán xử lý ngôn ngữ tự nhiên áp dụng trên dữ liệu báo chí Việc thiếu sót tiêu đềcho các bài báo không chỉ gây khó khăn và tốn thời gian cho việc đọc hiểu dữ liệu mà còndẫn đến việc thiếu dữ liệu, khó khăn, làm giảm độ hiệu quả của các bài phân tích, tổnghợp Tôi nhận thấy nhu cầu tóm tắt văn bản nhằm tạo tiêu đề tự động không chỉ cần thiếtcho người đọc mà còn hỗ trợ được rất nhiều cho các bài toán, hệ thống xử lý ngôn ngữ tựnhiên như : phân loại văn bản, rút trích thông tin, tìm kiếm nội dung, chọn lọc tài liệu,
hỗ trợ hệ thống trả lời câu hỏi
Từ những vấn đề trên, tôi quyết định xây dựng mô hình tóm tắt văn bản ứng dụnggiải quyết bài toán tự động đặt tiêu đề cho các bài viết Đầu tiên là trên tập dữ liệu cácbài viết đánh giá thực phẩm của Amazon - một tập dữ liệu tiếng anh phổ biến có sẳn vớichất lượng đảm bảo Sau đó, tôi muốn phát triển mô hình này thành hệ thống tổng quan
có thể áp dụng trên tất cả các loại bài viết, cho cả tiếng việt và tiếng anh Khi áp dụng
mô hình này, tiêu đề tự động được tạo ra giúp tự động hoá quá trình đặt tiêu đề thủ côngcủa biên tập viên Đồng thời, hệ thống này cũng giúp bổ sung dữ liệu tiêu đề tóm tắt, làđầu vào chất lượng cho các bài phân tích, thống kê, xử lý ngôn ngữ tự nhiên
3 Phạm vi đề tài
Để tập trung giải quyết các vấn đề thực tiễn được nêu lên ở trên, phạm vi đề tài được giớihạn như sau:
• Xây dựng một mô hình tóm tắt văn bản cải tiến, ứng dụng vào giải quyết bài toán
tự động tạo tiêu đề từ văn bản gốc
• Văn bản sử dụng là các bài bình luận về thực phẩm trên trang web Amazon đã đượcthu thập và công khai trên diễn đàn Kaggle
• Đánh giá được mô hình về mức độ hoàn thiện, độ chính xác và tính ứng dụng củakết quả
• Tổng hợp, trình bày và bảo vệ kết quả đề tài như một công trình nghiên cứu khoahọc hoàn thiện
4 Quá trình thực hiện
Quá trình thực hiện luận văn này trải qua 4 giai đoạn:
Giai đoạn 1: Tìm hiểu những công trình nghiên cứu liên quan đến bài toán tóm tắtvăn bản và tự động tạo tiêu đề Công việc đầu tiên là tìm hiểu các công trình liên quan,các phương pháp trước đây để giải quyết bài toán tóm tắt văn bản Sau đó tập trung vàocác công trình, mô hình nhằm mục đích tối ưu kết quả tóm tắt văn bản, hướng đến giảiquyết nhu cầu tạo tiêu đề tự động
Trang 14Giai đoạn 2: Xây dựng hệ thống tự động tạo tiêu đề từ kiến thức đã thu thập đượctheo yêu cầu đã đặt ra Hệ thống xây dựng phải vừa giải quyết được yêu cầu đã đặt ra,khắc phục các hạn chế của các công trình trước đây, vừa phải có đặc tính nổi bật hơn vàtạo ra kết quả tốt hơn, hiệu quả và có tính ứng dụng cao hơn các công trình đã nghiêncứu.
Giai đoạn 3: Đây là giai đoạn thu thập dữ liệu để huấn luyện Nhằm mục đích xâydựng và đo đạc độ chính xác cũng như tính ứng dụng của mô hình tự động đặt tiêu đề,tôi đã tiến hành tìm kiếm và thu thập một tập dữ liệu đầy đủ, đúng với nhu cầu của bàitoán để huấn luyện và để đánh giá mô hình
Giai đoạn 4: Đây là giai đoạn đánh giá kết quả Sau khi xây dựng mô hình, tôi đánhgiá mô hình của mình bằng cả phương pháp tự động và đánh giá thủ công của các tìnhnguyện viên, qua đó đánh giá được độ chính xác, tính khả quan và thực nghiệm của kếtquả mô hình cũng như rút ra được ưu, nhược điểm và định hướng cải thiện, phát triển môhình này trong tương lai
Trang 15Chương 2 Công trình liên quan
1 Các công trình liên quan
Như đã đề cập ở trên, tôi tập trung tìm hiểu các công trình hướng tới giải quyết bài toántóm tắt văn bản và các phương pháp cải tiến các công trình này phù hợp với ứng dụng tựđộng tạo tiêu đề Thực tế hiện tại, thông qua tìm kiếm tôi cũng nhận thấy không có dự
án nghiên cứu cụ thể nào giải quyết chính xác vấn đề tự động tạo tiêu đề của một bài viếtmặc dù nhu cầu này rất cần thiết Nhìn chung, nhiệm vụ tự động tạo tiêu đề có thể đượccoi là một trường hợp cụ thể của bài toán tóm tắt văn bản
Cụ thể, một bản tóm tắt văn bản được định nghĩa là một đoạn văn được tạo ra từ mộthoặc nhiều văn bản, truyền tải thông tin quan trọng và tổng quát của văn bản gốc và ngắnhơn đáng kể so với văn bản gốc, thường có độ dài không quá một nữa độ dài văn bản gốc
Tự động tóm tắt văn bản là nhiệm vụ tạo ra một bản tóm tắt ngắn gọn và trôi chảy trongkhi vẫn giữ được nội dung thông tin chính và ý nghĩa tổng thể của văn bản gốc
Vào năm 1958, Luhn của IBM đã trình bày phương pháp tóm tắt tự động đầu tiên chocác bài báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất và phân bố củacác từ trong văn bản [3] Trong suốt hơn 60 năm phát triển của tóm tắt văn bản, cùng vớitốc độ phát triển vũ bão của ngành khoa học máy tính đã có rất nhiều các phương phápđược đề xuất nhằm mục đích xây dựng các hệ thống tóm tắt văn bản tự động với độ chínhxác tăng dần, đạt được những thành tựu nhất định, ứng dụng trong nhiều lĩnh vực đờisống [4] [5]
Các nghiên cứu về tóm tắt văn bản tập trung vào hai phương pháp tiếp cận chính làphương pháp dựa trên trích xuất 1 và phương pháp dựa trên tóm lược 2, với nhiều côngtrình đạt được kết quả khả quan mà tôi đã tìm hiểu và sẽ trình bày dưới đây
1.1 Phương pháp tóm tắt văn bản dựa trên trích xuất [1]
Trong 2 cách tiếp cận, cách tiếp cận dựa trên trích xuất phổ biến hơn, bởi độ phức tạpkhông quá lớn và vẫn đảm bảo được yêu cầu của một văn bản tóm tắt cần đạt được.Cách tiếp cận này chọn ra các câu văn, cụm từ mang ý nghĩa chính và quan trọngnhất của văn bản gốc, sau đó tổng hợp lại tạo ra một bản tóm tắt Nó sẽ cân nhắc độquan trọng của các câu văn, cụm từ và xếp hạng chúng dựa trên mức độ quan trọng vàtương đồng lẫn nhau Từ đó lựa ra các câu văn, cụm từ quan trọng nhất dựa trên điểmđánh giá và tổng hợp thành bản tóm tắt mà không thay đổi hay thêm bớt bất kì từ ngữnào của văn bản gốc Có nhiều phương pháp xây dựng công thức tính điểm cho mỗi câutrong văn bản gốc Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vịtrí của câu trong văn bản, tần số xuất hiện của từ ngữ hay sử dụng các cụm từ khóa đểtính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bảntóm tắt [6] Các kỹ thuật tóm tắt gần đây hơn sử dụng các phương pháp học máy và xử
Trang 16lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản.Các công trình tiêu biểu có thể kể đến phương pháp của Kupiec,Penderson and Chen năm
1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [7], công trình nghiêncứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí củacác câu quan trọng trong văn bản [8] và phương pháp áp dụng các phân tích ngôn ngữ tựnhiên như sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [9].Một trongnhững phương pháp nổi bật nhất có thể kể đến phương pháp Text-Rank [10], một phươngpháp cải tiến của kĩ thuật Page-Rank tính điểm các đỉnh trong lý thuyết đồ thị để tínhđiểm các câu trong bài viết dựa vào mức độ liên kết của mỗi câu văn với các câu văn khác.Phương pháp TF-IDF3
- phương thức thống kê phổ biến thường được sử dụng trong truyxuất thông tin văn bản cũng được sử dụng như một công thức tính điểm quan trọng củacác câu văn trong văn bản [11]
Hình 2 miêu tả tổng quan các bước thực hiện tóm tắt văn bản theo phương pháp tríchxuất
Hình 2: Kiến trúc hệ thống tóm tắt văn bản dựa trên phương pháp trích xuất
Dưới đây là một ví dụ minh hoạ cho kết quả tóm tắt văn bản dựa trên phương pháptrích xuất:
Văn bản gốc: Joseph và Mary cưỡi một con lừa đi tham gia sự kiện hằng năm
ở Jerusalem Cũng ở thành phố này, Mary sinh ra đứa bé đặt tên là Jesus
Trang 17Văn bản tóm tắt bằng phương pháp trích xuất: Joseph và Mary tham gia sựkiện ở Jerusalem Mary sinh Jesus.
Ưu điểm của phương pháp tóm tắt văn bản dựa trên trích xuất là thuật toán đơn giản,
dể hiểu, dể thực hiện và thời gian huấn luyện khá nhanh, tuy nhiên khuyết điểm là dể saingữ pháp và văn bản tóm tắt thường rời rạc, thiếu mạch lạc, tự nhiên
1.2 Phương pháp tóm tắt văn bản dựa trên tóm lược [2]
Các phương pháp tóm tắt văn bản dựa trên tóm lược sẽ xây dựng một mạng neural đểhuấn luyện các mối quan hệ giữa đầu vào và đầu ra, phương pháp này không chỉ đơn thuần
là sao chép các từ từ văn bản gốc như tóm tắt văn bản dựa trên trích xuất mà là sinh racác cụm từ, câu văn mới ngắn gọn, xúc tích thể hiện nội dung văn bản gốc như cách conngười thực hiện tóm tắt văn bản Các phương pháp tóm tắt văn bản dựa trên tóm lượcchọn các từ dựa trên sự hiểu biết ngữ nghĩa, ngay cả khi những từ đó không xuất hiệntrong văn bản gốc Khi phương pháp này được áp dụng để tóm tắt văn bản, nó có thểkhắc phục sự không nhất quán về ngữ pháp của phương pháp tóm tắt văn bản dựa trêntrích xuất, tạo nên các bản tóm tắt trôi chảy, mạch lạc và tự nhiên hơn
Dưới đây là một ví dụ minh hoạ cho kết quả tóm tắt văn bản dựa trên phương pháptóm lược:
Văn bản gốc: Joseph và Mary cưỡi một con lừa đi tham gia sự kiện hằng năm ởJerusalem Cũng ở thành phố này, Mary sinh ra đứa bé đặt tên là Jesus
Văn bản tóm tắt bằng phương pháp dựa trên tóm lược: Joseph và Mary đếnJerusalem, nơi mà Jesus
Phương pháp tóm tắt văn bản dựa trên tóm lươc có vẻ ưu việt hơn so với phương pháptóm tắt văn bản dựa trên trích xuất, văn bản sinh ra thường nhất quán về mặt ngữ pháp
và trôi chảy mạch lạc hơn Tuy nhiên phương pháp này thường đòi hỏi sử dụng các giảithuật học sâu 4
phức tạp và thời gian huấn luyện lâu hơn Chính vì vậy các thuật toántóm tắt văn bản bằng phương pháp tóm lược đến nay vẫn còn hạn chế về độ chính xác vàtốc độ thực thi khi áp dụng thực tế, đặc biệt là trên các văn bản dài
Với mục tiêu chính là giải quyết bài toán tạo tiêu đề tự động, phương pháp tóm tắtdựa trên tóm lược phát huy được nhiều thế mạnh khi sinh ra văn bản mới ngắn gọn, xúctích mạch lạc, thể hiện được các ý chính của văn bản gốc bằng các từ ngữ linh hoạt Chính
vì vậy, tôi tập trung tìm hiểu một số nghiên cứu nổi bật theo phương pháp này, nhằm họchỏi kinh nghiệm để xây dựng kiến trúc mô hình của bài luận văn này Các công trình liênđược trình bày chi tiết dưới đây:
• Trong một nghiên cứu khá nổi tiếng gần đây: "Abstractive and Extractive Text marization using Document Context Vector and Recurrent Neural Networks" [12],tác giả đề xuất mô hình xây dựng vector ngữ cảnh văn bản 5 kết hợp cùng mô hình
Sum-Mô hình mã hóa và giải mã 6 (Seq2Seq), áp dụng cho cả 2 hướng tiếp cận trích xuất
Trang 18và tóm lược để giải quyết bài toán tóm tắt văn bản Từ so sánh các kết quả thựcnghiệm, các tác giả chứng minh được rằng việc áp dụng mô hình xây dựng vectorngữ cảnh văn bản kết hợp mô hình Seq2Seq theo hướng tiếp cận tóm lược đã đạtđược kết quả tốt hơn và có tính khả thi cao cho cả văn bản ngắn và dài.
• Mô hình deep-recurrent-generative-decoder (DRGD) [13] được giới thiệu năm 2017,một kiến trúc mới nhằm đưa ra những cải tiến tăng độ hiểu quả cho phương pháptóm tắt dựa trên tóm lược Mô hình này là một kiến trúc mạng Seq2Seq có địnhhướng được kết hợp cùng mô hình deep recurrent generative decoder (DRGN) Kếtquả được cải tiến nhờ việc học những thông tin tiềm ẩn trong văn bản nhờ mô hìnhBiến tiềm ẩn lặp lại 7
Đầu ra của mô hình này được tạo ra dựa trên cả thông tintiềm ẩn được xác định dựa vào mô hình Biến tiềm ẩn lặp lại và trạng thái kết quảcủa mô hình Seq2Seq Cấu trúc này đạt được những cải tiến rõ rệt so với các nghiêncứu trước đó
• Năm 2015, một nghiên nghiên cứu có mục đích gần với nghiên cứu của tôi đượcbáo cáo chi tiết trong bài báo "Generating news headlines with recurrent neuralnetworks" [14], trong đó các tác giả mô tả một ứng dụng của mô hình Seq2Seq vớicác nốt mạng Bộ nhớ ngắn dài hạn8
(LSTM) kết hợp với cơ chế chú ý9
để hoàn thiện
mô hình sinh ra dòng tít nổi bật từ nội dung các bài báo Mô hình này tạo ra mộtbản tóm tắt ngắn gọn, hợp lệ và đúng ngữ pháp Mô hình này cũng là nguồn cảmhứng và tiền đề cho tôi nghiên cứu, tìm hiểu các phương pháp xây dựng mô hình cảitiến hơn nữa phương pháp được đề xuất trong bài báo trên
Sau khi tìm hiểu các bài nghiên cứu, tôi nhận thấy rằng dù có nhiều điểm tương đồngvới bài toán tóm tắt văn bản, mô hình tạo tiêu đề tự động cũng thể hiện nhiều vấn đềkhác biệt mà các mô hình trước đây chưa giải quyết được, có thể kể đến là :
• Tiêu đề tạo ra thường phải ngắn gọn hơn rất nhiều so với phần tóm tắt Nếu nhưphần tóm tắt thường là một đoạn văn có độ dài không quá một nữa độ dài văn bảngốc thì tiêu đề thường chỉ được tóm gọn trong một đến hai câu văn
• Dù giảm độ dài đáng kể, tiêu đề vẫn phải nắm bắt được các từ khóa chính và quantrọng nhất của văn bản gốc, thường là các đối tượng chính được đề cập trong vănbản gốc Trong phạm vi các văn bản là bài viết về thực phẩm, mỗi bài viết thườngnhắc đến đánh giá một hoặc một vài loại thực phẩm, tiêu đề tự động yêu cầu phảitrích xuất được thông tin chủ chốt này
• Tiêu đề tạo ra cần đảm bảo đúng đắn về mặt ngữ pháp và từ ngữ, tránh các hiệnlặp từ hay xảy ra ở tóm tắt văn bản
• Cùng với đó, tiêu đề tạo tự động vẫn cần duy trì văn phong của tác giả bài viết gốc
Trang 19Hướng tới giải quyết các vấn đề trên, tôi nghiên cứu sâu hơn những ưu điểm của các môhình hiện có và nắm bắt các kiến trúc mới phù hợp với bài toán nhằm mục đích kết hợptại ra mô hình tạo tiêu đề tự động có kết quả tối ưu nhất, giải quyết được các yêu cầu đề
ra ở trên Các mô hình nền tảng liên quan sẽ được trình bày chi tiết dưới đây
2 Các mô hình nền tảng
2.1 Mô hình Seq2Seq và cơ chế Attention
Ngày nay, mô hình Seq2Seq là một trong những mô hình mạng neural được sử dụng nhiềunhất trong các công trình nghiên cứu xử lý ngôn ngữ tự nhiên như dịch máy 10, trợ lý ảo
11
, nhận dạng đối tượng 12
Chính vì lẽ đó nên nó cũng được ứng dụng rộng rãi trong các
mô hình tóm tắt văn bản dựa trên tóm lược
Với mỗi ứng dụng, mô hình Seq2Seq được xây dựng với các thông tin đầu vào và đầu
ra tương ứng với mục đích giải quyết bài toán Với bài toán dịch máy,đầu vào là chuỗi vănbản từ ngôn ngữ gốc và đầu ra là chuỗi văn bản ở ngôn ngữ đích Ví dụ bài toán dịch máy
từ tiếng anh sang tiếng việt: đầu vào là "I go to school" thì đầu ra sẽ là "Tôi đi học" Vớibài toán tóm tắt văn bản, đầu vào sẽ là văn bản gốc và đầu ra sẽ là bản tóm tắt tươngứng với văn bản gốc đó Với mục đích đó, chúng ta có thể thực hiện bài toán này bằng môhình Many-to-many Seq2seq với đầu vào và đầu ra có độ dài khác nhau
Cụ thể, mô hình Seq2Seq bao gồm 2 phần: bộ mã hóa13
và bộ giải mã14
với chức năngđúng như tên gọi của nó Bộ mã hóa chuyển đổi một tài liệu đầu vào thành vector trạngthái và bộ giải mã tạo thành đoạn tóm tắt từ vector đó Hình 3 mô tả tổng quan kiến trúc
mô hình Seq2Seq
Hình 3: Tổng quan kiến trúc mô hình Seq2Seq
Encoder: Cấu trúc mạng Encoder được mô tả trong hình 4
Trang 20Hình 4: Cấu trúc mạng encoder
Một mạng lưới nhiều lớp mạng noron (trong đó các mạng RNN15, LSTM16 thường chohiệu suất tốt nhất), lưới mạng này nhận vào lần lượt các phần tử của văn bản đầu vào,thu thập thông tin của các phần tử này và truyền về phía trước
Công thức của lớp i có thể biểu diễn như sau:
hi = f (W(hh)hi−1+ W(hx)xi) (1)Đây là công thức đại diện cho mỗi tầng mạng , trong đó kết quả của mạng thứ i là sựkết hợp có trọng số của mạng trước đó (i-1) và phần tử thứ i nhận vào
Decoder cũng là một mạng lưới nhiều tầng noron, nhận nhiệm vụ dự đoán cho mỗi đầu
ra y theo từng bước dự đoán i <start> và <end> là các mã thông báo đặc biệt được thêm
Trang 21vào chuỗi đích trước khi đưa nó vào bộ giải mã để xác định vị trí bắt đầu và kết thúc củachuổi đầu ra.
Mỗi nút mạng nhận vào trạng thái ẩn của nút trước đó và sản sinh ra trạng thái cholớp mạng hiện tại và output y ở bước tương ứng Output đối với bài toán này là các phần
Mô hình Seq2Seq này tạo những kết quả khởi đầu khá tốt cho bài toán tóm tắt vănbản, song cũng để lộ một số hạn chế nhất định Bộ mã hóa chuyển đổi toàn bộ chuỗi đầuvào thành một vector trạng thái ẩn có độ dài cố định và sau đó bộ giải mã dự đoán chuỗiđầu ra dựa trên vector trạng thái đó Vì vậy, mô hình này chỉ hoạt động tốt đối với cácchuỗi ngắn hạn vì bộ giải mã đang xem xét toàn bộ chuỗi đầu vào trong 1 vector độ dài cốđịnh và rất khó để bộ mã hóa ghi nhớ các chuỗi dài đối với một vector có độ dài cố địnhnhư vậy Để khắc phục hạn chế này, Cơ chế Attention được tôi tìm hiểu và thêm vào môhình giải quyết bài toán Nó nhằm mục đích dự đoán một từ bằng cách chỉ xem xét mộtvài phần cụ thể của chuỗi, thay vì toàn bộ chuỗi
Ý tưởng đằng sau cơ chế Attention là trả lời câu hỏi "Chúng ta cần chú ý bao nhiêuđến mỗi từ trong chuỗi đầu vào để tạo ra một từ ở bước t?"
Ví dụ dưới đây để làm rõ ý tưởng này
Chuỗi đầu vào: “Bạn thích môn học nào nhất?"
Chuỗi đầu ra: “Tôi rất thích môn toán”
Ta có thể thấy từ "tôi" trong chuỗi đầu ra có liên kết với từ "bạn" trong chuỗi đầuvào, tương tự từ "rất" trong chuỗi đầu ra có thể suy luận từ từ "nhất" trong câu hỏi đầuvào Như vậy, thay vì xem xét tất cả các từ trong chuỗi đầu vào, chúng ta có thể tăng tầmquan trọng của các phần cụ thể của chuỗi đầu vào tại mỗi bước dự đoán từ trong chuổiđầu ra
Trong cơ chế Attention, phân phối chú ý được tính toán dưới dạng phân phối xác suấttrên các từ trong văn bản nguồn giúp bộ giải mã quyết định thành phần nào sẽ nên tập
Trang 22trung vào khi nó tạo ra từ tiếp theo [15] Phân phối chú ý at được tính toán cho từng bướcdecoder thứ t với công thức như sau:
Phân phối chú ý được sử dụng để tính tổng trọng số của các trạng thái ẩn của bộ mãhóa, được gọi là vectơ ngữ cảnh h∗
t, biểu thị những gì đã được đọc từ nguồn cho bước này
và có thể được tính như sau:
Hệ số TF-IDF là một trong những phương pháp tính toán mức độ quan trọng của các từtrong một văn bản được sử dụng phổ biến nhất trong các hệ thống truy xuất thông tin Về
cơ bản, nó là một thước đo thống kê để đánh giá mức độ liên quan của một từ với một tàiliệu trong một tập hợp các tài liệu Một từ được coi là từ quan trọng, thể hiện nội dungchính của một văn bản nếu nó được nhắc đến nhiều lần trong văn bản này và đồng thờicũng không phải là 1 từ phổ thông được dùng phổ biến trong tất cả các văn bản Điều nàyđược thực hiện bằng cách nhân hai số liệu: số lần một từ xuất hiện trong tài liệu đang xét(TF) và tần suất nghịch đảo của từ trên một bộ tài liệu tham khaỏ (IDF) [18] [19] Giá trịTF-IDF của một từ càng cao thể hiện độ quan trọng của từ đó với văn bản đang xét cànglớn Công thức cụ thể của TF-IDF gồm 2 phần như sau:
TF: Term Frequency(Tần suất xuất hiện của từ) là số lần từ xuất hiện trong văn bản
Vì các văn bản có thể có độ dài ngắn khác nhau nên một số từ có thể xuất hiện nhiều lầntrong một văn bản dài hơn là một văn bản ngắn Như vậy, term frequency thường đượcchia cho độ dài văn bản( tổng số từ trong một văn bản)
tf(t, d) = f(t, d)
Trong đó:
Trang 23• tf (t, d): tần suất xuất hiện của từ t trong văn bản d
• f (t, d): Số lần xuất hiện của từ t trong văn bản d
• max(f (w, d) : w ∈ d): Số lần xuất hiện của từ có số lần xuất hiện nhiều nhất trongvăn bản d
IDF: Inverse Document Frequency(Nghịch đảo tần suất của văn bản) giúp đánh giátầm quan trọng của một từ Khi tính toán TF , tất cả các từ được coi như có độ quantrọng bằng nhau Nhưng một số từ như “anh”, “chị” và “nhưng” thường xuất hiện rất nhiềulần vì là từ phổ biến nhưng độ quan trọng lại không cao Do đó, chúng ta cần giảm độquan trọng của những từ này xuống
• |d ∈ D : t ∈ d| : thể hiện số văn bản trong tập D có chứa từ t
chúng ta có công thức tính tf-idf hoàn chỉnh như sau:
tf idf(t, d, D) = tf (t, d)xidf (t, D) (9)Trong mô hình của luận văn này, tôi sử dụng hệ số TF-IDF với mục đích xác định từquan trọng nhất trong một văn bản gốc và nhập từ này như từ đầu tiên của bộ mã hóađầu ra, để tạo một câu tiêu đề tự động với nhiều ý nghĩa và bám sát văn bản gốc hơn Từquan trọng nhất trong văn bản được xác định là từ có điểm TF-IDF cao nhất trong vănbản gốc Chi tiết về bước này sẽ được trình bày trong các phần hiện thực bài toán.2.3 Cơ chế Teacher Forcing
Ở các mô hình Seq2Seq truyền thống, như đã giải thích ở trên, mỗi bước decoder nhậnđầu vào là đầu ra của mô hình tại bước decoder trước đó Điều này dẫn tới việc nếu nhưkết quả dự đoán sai ở bước đi i thì các bước đi phía sau vì nhận đầu vào từ bước i đều sai
và dẫn đến cả toàn bộ kết quả đầu ra đều không sử dụng đươc Cơ chế Teacher Forcing rađời để giải quyết hạn chế này của mô hình Seq2seq truyền thống
Cụ thể, cơ chế Teacher-Forcing là một chiến lược để đào tạo mạng nơ-ron lặp lại sửdụng các từ điều hướng làm đầu vào cho mỗi bước decoder, thay vì lấy đầu ra của mô hìnhtại bước decoder trước đó làm đầu vào [20] Với phương pháp này, quá trình huấn luyện
sẽ hội tụ nhanh hơn và cho kết quả tốt hơn nhờ sự điều hướng liên tục, tránh các sai sót
ở 1 bước đi bất kì dẫn đến sai sót toàn kết qủa đầu ra
Hình 6 là ví dụ minh hoạ mô hình có sử dụng và không sử dụng cơ chế Teacher Forcingtrong huấn luyện
Trang 24• Với mô hình không sử dụng Teacher Forcing, kết quả đầu ra tại mỗi bước hoàn toànphụ thuộc vào kết quả đầu ra tại bước trước đó.
• Với mô hình sử dụng Teacher Forcing, kết quả đầu ra không chỉ phụ thuộc vào lớptrước đó mà còn được điều hướng bằng đầu ra thực tế đảm bảo kết quả đúng đắnhơn
Hình 6: Ví dụ minh hoạ mô hình sử dụng cơ chế Teacher Forcing
Hơn thế nữa, ngoài mục đích nâng cao hiệu quả đào tạo, tôi đã điều chỉnh cơ chếTeacher-Forcing áp dụng cho cả cho giai đoạn dự đoán để tạo tiêu đề tự động hiệu quảhơn.Tôi nhận thấy mỗi bài viết đều có 1 đối tượng then chốt mà bài viết muốn mô tả, đó
có thể là một người, một địa danh, một sản phẩm Tôi cho rằng việc tìm ra đối tượngnày và đưa nó vào phần tiêu đề sẽ làm nổi bật nội dung văn bản gốc muốn truyền tải
Để làm được như vậy, tôi tìm ra từ mô tả đối tượng quan trọng của bài viết gốc và đưa
nó trở làm điểm khởi đầu cho việc tạo tiêu đề tự động nhờ cơ chế Teacher-Forcing Trongphương pháp của tôi, cách trích xuất từ mô tả đối tượng trọng tâm của văn bản gốc màtôi sử dụng là từ có hệ số TF-IDF cao nhất trong văn bản gốc Và từ trích xuất này sẽ từđược truyền vào lớp mạng noron đầu tiên thay vì kí tự <Start> như các mô hình truyềnthống Chi tiết về bước này sẽ được trình bày trong các phần hiện thực bài toán
2.4 Mô hình ngôn ngữ (Language Model)
Mô hình ngôn ngữ là một thuật toán được huấn luyện nhằm nắm bắt các đặc điểm vàphân bố chuỗi từ trong một ngôn ngữ tự nhiên, cho phép đưa ra dự đoán từ tiếp theo xuấthiện cùng với xác suất của nó dựa trên chuổi từ hiện tại [21] và giúp chúng ta biết đượcmột câu có "hợp lý" với ngôn ngữ xác định hay không Mô hình này được ứng dụng rộngrãi để gợi ý từ tiếp theo và sửa lỗi ngữ pháp trong các ứng dụng soạn thảo văn bản hoặctìm kiếm như google, facebook
Ví dụ: khi áp dụng mô hình ngôn ngữ cho tiếng Việt với tập corpus đủ lớn thì khi đánhgiá điểm của 2 câu sẽ như sau:
Trang 25• Câu “con mèo nhảy qua cửa sổ” có điểm là 0.01
• Câu “cửa sổ nhảy con mèo” có điểm là 0
Ví dụ trên cho thấy, câu "con mèo nhảy qua cửa sổ" có khả năng là một câu tiếng Việtđúng cao hơn so với câu "cửa sổ nhảy con mèo"
Mô hình ngôn ngữ được chia làm 3 nhóm chính:
• Mô hình ngôn ngữ dựa trên kinh nghiệm footnoteKnowledge-based guage Model: Đây là những mô hình ngôn ngữ được xây dựng dựa trên những kiếnthức đã được con người (cụ thể là các chuyên gia về ngôn ngữ học) tích luỹ, phântích từ cú pháp một câu, cách chia động từ hoặc sự phân rã của tính từ, Nếu nhữngkiến thức này được định nghĩa bằng các luật thì mô hình sẽ được gọi là mô hìnhrule-based
Lan-• Mô hình ngôn ngữ dựa trên xác suất 20: Những mô hình thuộc nhóm này đềudựa trên việc đếm tần suất xuất hiện của từng từ hay chuỗi, do đó nó cần một lượng
dữ liệu lớn, càng nhiều càng tốt.Cụ thể, xây dựng mô hình ngôn ngữ dựa trên thống
kê là việc cố gắng đi xác định giá trị của p(w1, , wn) với p(w1, , wn) được hiểu đơngiản là xác suất cụm từ w1, , wn thuộc một ngôn ngữ cụ thể Dựa theo cách thứcxác định giá trị xác suất p(w1, , wn) thì Statistical Language Model được chia làm 2hướng tiếp cận nhỏ hơn là N-gram Language Models và Structured LanguageModels
• Mô hình ngôn ngữ Neural network 21: là những phương pháp mới nhất dựa trênmạng Neural để xây dựng mô hình ngôn ngữ, các mô hình này còn có một tên gọikhác là Continuous-space language models Neural Network Language Modelcũng được chia thành 2 hướng tiếp cận chính là Feed-forward neural networkbased LM (FNNs) và Recurrent Neural Network Based LM(RNNs)
Ở bài luận văn này, tôi sẽ xây dựng mô hình ngôn ngữ theo cách tiếp cận thứ 3 là môhình ngôn ngữ Neural Network Một mô hình kiểu này có input và output là:
• Đầu vào: Word Embedding hay Character Embedding, là chuyển từ hay ký tự sangvector số thực trong một không gian n chiều (dimensions) cố định
• Đầu ra: Với mỗi output unit là xác suất của một từ hay ký tự khi đã biết context.Context là gì thì còn tùy thuộc vào dạng mô hình sử dụng Đối với dạng FNNs,context là một chuỗi có độ dài cố định và là những từ hay ký tự đúng trước ký tựđang xét Đối với dạng RNNs, context như của FNNs nhưng có độ dài không cố định
và dạng này giúp giải quyết vấn đề giới hạn context của FNNs
Ở chương này, tôi đã trình bày chi tiết các kiến thức nền tảng cần thiết cho kiến trúc
mô hình tự động tạo tiêu đề sẽ được xây dựng ở chương tiếp theo
Trang 26Chương 3 Mô hình đề xuất
Trong chương này, tôi sẽ trình bày từ tổng quan đến chi tiết mô hình F orcing − Seq2Seq,
mô hình tóm tắt văn bản được xây tối ưu nhằm mục đích nâng cao kết quả tóm tắt vănbản của mô hình truyền thống và ứng dụng giải quyết nhu cầu tạo tiêu đề tự động
1 Tổng quan
Hình 7 trình bày kiến trúc tổng thể của mô hình F orcing − Seq2Seq được đề xuất trongbài luận văn này:
Hình 7: Kiến trúc tổng thể của mô hình F orcing − Seq2Seq
Kiến trúc mô hình này là 1 kiến trúc mô hình liên kết, được cấu thành từ 5 mô hìnhcon, mỗi mô hình có 1 chức năng riêng, đóng góp vai trò vào mục đích tạo ra tiêu đề tựđộng chính xác nhất 5 mô hình con bao gồm:
• Tiền xử lý văn bản 22: Bước này có nhiệm vụ tiền xử lý dữ liệu đầu vào để chuẩnhóa dữ liệu, loại bỏ những thông tin không cần thiết, nhằm tạo ra dữ liệu sạch và cógiá trị nhất làm đầu vào cho mô hình
• Mô hình Seq2Seq với cơ chế attention: Phần này là mô hình Base − Seq2Seqnền tảng của mô hình F orcing − Seq2Seq, mô hình tạo tiêu đề tự động kết hợp giữa
mô hình Seq2Seq và cơ chế Attention, dữ liệu được huấn luyện dưới dạng văn bảnđầu vào, bao gồm văn bản và tiêu đề gốc đã qua tiền xử lý
• Mô hình TF-IDF:Mô hình được sử dụng cho mục đích xác định từ quan trọng nhấttrong mỗi văn bản gốc Từ này được xác định là từ có điểm TF-IDF cao nhất trongvăn bản gốc
Trang 27• Cơ chế Teacher Forcing : đây và phần quan trọng và mang tính tối ưu nhất củatôi trong mô hình F orcing − Seq2Seq Phần này sẽ nhận đầu vào là kết quả của môhình TF-IDF và sử dụng như đầu vào bắt đầu cho giai đoạn giải mã, để tạo một câutiêu đề tự động với nhiều ý nghĩa bám sát nội dung văn bản gốc.
• Mô hình ngôn ngữ: Mô hình này nhận tiêu đề được sinh ra từ mô hình Base −Seq2Seq với sự kết hợp cuả cơ chế Teacher Forcing, sau đó sửa một số lỗi ngữ pháp, giúp đầu ra cuối cùng mạch lạc hơn Tôi áp dụng Mô hình ngôn ngữ mức từ để sửalỗi ngữ pháp ở bước này
Mô hình F orcing − Seq2Seq sử dụng 2 tập dữ liệu để huấn luyện, tập dữ liệu đầu tiênchứa các bài viết đầu vào, bao gồm các bài viết gốc và tiêu đề tương ứng Mục tiêu đầutiên của tập dữ liệu này là giúp Mô hình F orcing − Seq2Seq học cách tạo tiêu đề từ nộidung bài viết gốc, mục tiêu thứ hai là nắm bắt độ dài từ các tiêu đề huấn luyện Song songvới đó, mô hình cũng sử dụng tập dữ liệu thứ hai, tập corpus mở rộng để huấn luyện môhình TF-IDF và Mô hình ngôn ngữ, hai mô hình này yêu cầu một bộ ngữ liệu tổng quát
và rất lớn để học được văn phong và từ ngữ trong văn cảnh lớn hơn, vượt ra cả bộ dữ liệubài viết cần huấn luyện Chi tiết của từng thành phần trong mô hình F orcing − Seq2Seqcũng như 2 tập dữ liệu huấn luyện sẽ được trình bày trong các phần dưới
2 Cấu trúc của hệ thống Forcing-Seq2Seq
2.1 Tiền xử lý văn bản
Chất lượng dữ liệu là yếu tố quyết định tính chính xác và hiệu quả của bất kì bài toán
xử lý dữ liệu nào Vì vậy, Tôi cố gắng thực hiện các bước tiền xử lý cơ bản để trích xuấtthông tin chính xác và cô đọng từ văn bản thô Tôi sẽ loại bỏ tất cả các ký hiệu, ký tự
dư thừa khỏi văn bản nhằm giúp văn bản gốc ngắn gọn, chuẩn chỉnh mà vẫn không ảnhhưởng đến mục tiêu của bài toán Tiền xử lý văn bản bao gồm các bước sau:
• Làm sạch văn bản:
– Loại bỏ các bài viết bị lặp lại, thiếu sót tiêu đề hoặc nội dung
– Loại bỏ có dấu câu, kí hiệu, chữ số, các từ quá ngắn
– Loại bỏ stop-word, là những từ không thể hiện nội dung văn bản
– Loại bỏ các từ xuất hiện quá ít trong toàn bộ tập dữ liệu, những từ này thường
là những từ sai chính tả hoặc vô nghĩa làm cồng kềnh tập dữ liệu đầu vào
• Chuẩn hóa văn bản:
– Đưa toàn bộ dữ liệu về viết thường để tránh xảy ra khác biệt hoa thường.– Chuẩn hóa từ viết tắt, xây dựng các mô hình nhận diện từ viết tắt từ từ điển
từ viết tắt và thay thế thích hợp
• Word embedding: Dùng kĩ thuật Word2Vec để đưa văn bản về dạng vector đầuvào cho mô hình tính toán
Trang 282.2 Mô hình Seq2Seq cơ chế attention
Sau khi đưa toàn bộ bài viết và tiêu đề qua các bước tiền xử lý đơn giản để chuẩn hóa dữliệu, loại bỏ thông tin không cần thiết, tạo dữ liệu đầu vào sạch nhất và có giá trị nhất cho
mô hình huấn luyện, dữ liệu này được đào tạo với Mô hình Seq2Seq và cơ chế Atention
Mô hình này được trình bày chi tiết ở Chương 2 Trong giai đoạn này, tôi coi mô hình này
là mô hình Base − Seq2Seq Mô hình Base − Seq2Seq là mô hình được áp dụng phổ biếntrong các nghiên cứu trước đây và cho kết quả ban đầu khá khả quan Tuy nhiên, mô hìnhnày cũng lộ ra một số nhược điểm là ở bước tạo câu tiêu đề tự động trong quá trình giải
mã sẽ xảy ra lỗi lặp lại nhiều từ trong một câu Lỗi thứ 2 là mô hình này khó nắm bắtđược ý chính của toàn bộ văn bản gốc chỉ trong một đến 2 câu của tiêu đề tạo ra Hình 8cho thấy kiến trúc của mô hình Base − Seq2Seq mà chúng ta đã đề cập trong phần cáccông trình liên quan
Hình 8: Kiến trúc mô hình Seq2Seq kết hợp với cơ chế attention
2.3 Mô hình ngôn ngữ
Mô hình này được xây dựng để giải quyết vấn đề bất cập thứ nhất của mô hình Base −Seq2Seq, đó là vấn đề lặp lại các từ trong tiêu đề được tạo tự động Tôi sử dụng mô hìnhngôn ngữ mức từ để sửa lỗi cho các tiêu đề được dự đoán Tôi gọi mô hình kết hợp giữaBase− Seq2Seq và mô hình ngôn ngữ là Smooth − Seq2Seq, một kiến trúc ở giữa để sosánh sự cải thiện của việc áp dụng mô hình ngôn ngữ so với mô hình hiện có cũng như sovới kiến trúc F orcing − Seq2Seq hoàn thiện mà tôi đề xuất trong luận văn này
Trong bài luận văn này, tôi đã đào tạo mô hình ngôn ngữ từ tập corpus mở rộng, môhình ngôn ngữ của tôi sử dụng mạng LSTM để đào tạo, quy trình đào tạo được mô tả
Trang 29trong Hình 9 và đã được giải thích chi tiết trong chương 2.
Hình 9: Huấn luyện mô hình ngôn ngữ
Sau khi đào tạo, mô hình ngôn ngữ này được sử dụng để sửa lỗi cho tiêu đề tự động.Việc sửa lỗi được thực hiện theo sơ đồ trong hình 10
Tôi sử dụng mô hình ngôn ngữ đã được huấn luyện để đánh giá điểm cho một tiêu đề
đã tạo với công thức như sau:
Score= P (w2|w1) + P (w3|w1w2) + + P (wn|w1 wn−1) (10)Đầu tiên, tôi sẽ truy xuất danh sách thứ tự các từ lặp lại trong tiêu đề vừa tạo ra vàxóa lần lượt từng từ được lặp lại này, và đánh giá điểm hợp lý trước và sau khi loại bỏ từlắp dựa trên công thức (10), và cuối cùng giữ lại tiêu đề có điểm cao đánh giá cao hơn.Với cách tiếp cận này, tôi hầu như đã loại bỏ các từ được lặp lại nhiều lần trong tiêu
đề, giúp cho tiêu đề sau khi chỉnh sửa đúng ngữ pháp, ngắn gọn hơn và vẫn đảm bảo đúng
từ ngữ và văn phong
Tuy nhiên, cách làm này sẽ không thay đổi nhiều về nội dung của tiêu đề, và tiêu đềsinh ra vẫn có nhược điểm rõ rệt về mặt ý nghĩa, chưa thể hiện được rõ ý đồ nồng cốtvăn bản gốc truyền tải Lý do là tiêu đề tại ra thường có độ dài rất ngắn so với văn bảngốc ban đầu Nhược điểm này đã được tôi nghiên cứu và tìm ra hướng cải thiện, được giảiquyết trong mô hình F orcing − Seq2Seq đầy đủ
2.4 Mô hình TF-IDF và cơ chế Teacher forcing
Cuối cùng, kiến trúc mô hình F orcing − Seq2Seq đầy đủ là mô hình mà tôi đề xuất trongbài luận văn này Đầu tiên, tôi vẫn sử dụng Base − Seq2Seq trong quá trình đào tạo nhưhình 8 Tuy nhiên, ở bước tạo tiêu đề tự động, tôi sử dụng mô hình TF-IDF và cơ chếTeacher forcing cải tiến nhằm tăng hiệu quả cho quá trình tạo tiêu đề trong bước giải mã
Mô hình TF-IDF được sử dụng với mục đích xác định từ quan trọng nhất trong mộtvăn bản gốc, từ đó sẽ thể hiện đối tượng và văn bản gốc đang mô tả Từ quan trọng nhất
Trang 30Hình 10: Sử dụng mô hình ngôn ngữ sửa lỗi ngữ pháp
là từ có hệ số TF-IDF cao nhất Sau đó, mô hình F orcing − Seq2Seq sử dụng từ này làm
từ đầu vào đầu tiên cho giai đoạn giải mã Điều này đòi hỏi một tập dữ liệu cực kỳ lớn vàvới nội dung tổng quát, vì vậy trong bài luận văn này, tôi đào tạo mô hình TF-IDF nàyvới tập corpus mở rộng
Sau khi huấn luyện mô hình TF-IDF, ở bước giải mã của việc tạo câu tiêu đề tự động,tôi sẽ sử dụng mô hình TF-IDF này để xác định từ quan trọng nhất trong câu văn bảnỴgốctương ứng và đưa nó thành từ bắt đầu để tạo tiêu đề, thay vì ký tự đầu câu (ví dụ: ký tự