Với lý do trên chúng tôi đã chọn đề tài “Áp dụng mô hình đồ thị vào bài toán tóm tắt văn bản tiếng việt” nhằm mục đích đưa ra một phương pháp tóm tắt văn bản tiếng việt mới có hiệu suất
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
-ĐỀ CƯƠNG LUẬN VĂN THẠC SỸ
Chuyên ngành: Công nghệ thông tin
Mã ngành: 60480201
ÁP DỤNG MÔ HÌNH ĐỒ THỊ VÀO BÀI TOÁN TÓM TẮT
VĂN BẢN TIẾNG VIỆT
HVTH : Bạch Quốc Huy
MSHV : 1641860005
GVHD : TS Lê Thị Ngọc Thơ
TP HCM, tháng 8/2017
Trang 2NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
Tp HCM, ngày …… tháng …… năm 2017
Giảng viên hướng dẫn
Trang 3NHẬN XÉT CỦA HỘI ĐỒNG XÉT DUYỆT
Tp HCM, ngày …… tháng …… năm 2017
Hội đồng xét duyệt
Trang 4Mục Lục
1 GIỚI THIỆU 5
1.1 Đặt vấn đề 5
1.2 Tính cấp thiết của đề tài 6
2 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 6
2.1 Mục tiêu của đề tài: 6
2.2 Nội dung nghiên cứu: 7
2.3 Phương pháp luận và phương pháp nghiên cứu: 7
3 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU: 8
3.1 Các công trình liên quan 8
3.2 Đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa trên mô hình đồ thị 9
4 TIẾN ĐỘ THỰC HIỆN ĐỀ TÀI 9
5 BỐ CỤC DỰ KIẾN CỦA LUẬN VĂN 10
TÀI LIỆU THAM KHẢO 11
Trang 51 GIỚI THIỆU
1.1 Đặt vấn đề
Ngày nay thông tin đã và đang đóng vai trò cực kỳ quan trọng trong xã hội Sự phát triển mạnh mẽ của Internet đã mang đến một lượng thông tin khổng lồ cho con người Cũng bởi số lượng thông tin quá lớn mà chúng ta không thể nào nắm bắt được hết chúng và bên cạnh đó không phải thông tin nào cũng hữu ích phục vụ được cho nhu cầu tra cứu thông tin làm việc của chúng ta Rất nhiều người có nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận lợi cho việc tổng hợp các thông tin đó Xuất phát từ nhu cầu đó, các phương pháp tóm tắt tự động đã được nghiên cứu và phát triển Tóm tắt dữ liệu tự động là một lĩnh vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu Bài toán tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản
mà nó còn mở rộng ra các loại dữ liệu đa phương tiện như hình ảnh, âm thanh và video Tóm tắt văn bản là quá trình rút ra những thông tin quan trọng từ một văn bản để tạo thành một văn bản ngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu của người sử dụng
Trong một vài năm trở lại đây bài toán tóm tắt văn bản đã nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học nhóm nghiên cứu và các công ty lớn trên thế giới Để khai thác tối đa thông tin có được từ những tài liệu, văn bản tiếng việt đồng thời dễ dàng hơn cho việc tra cứu tìm kiếm của người dùng thì việc đưa ra một hệ thống tóm tắt văn bản tiếng việt là điều cần thiết
Với lý do trên chúng tôi đã chọn đề tài “Áp dụng mô hình đồ thị vào bài toán tóm tắt văn bản tiếng việt” nhằm mục đích đưa ra một phương pháp tóm tắt văn bản
tiếng việt mới có hiệu suất tốt hơn, đơn giản hơn và ứng dụng được trong nhiều lĩnh vực
Trang 61.2 Tính cấp thiết của đề tài
Sự phát triển ngày càng tăng của hệ thống thông tin trên toàn thế giới đã cung cấp cho chúng ta một lượng thông tin không lồ Lượng thông tin khổng lồ đó đã mang lại lợi ích không nhỏ cho nhân loại nhưng đồng thời nó cũng khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin Giải pháp cho vấn đề này chính là việc tóm tắt văn bản tự động Việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc và tăng hiệu quả tìm kiếm, tiếp nhận thông tin
Hiện nay việc xây dựng nên các hệ thống tóm tắt văn bản tự động có thể coi là nhu cầu thiết yếu và cấp bách nhận được sự quan tâm của toàn thể xã hội Tại các hội nghị nổi tiếng như: DUC 2001-2007, TAC 2008-2011, ACL 2001-2015, tóm tắt văn bản tự động đã được đề cập đến nhiều trong các bài báo Ngoài ra, có nhiều hệ thống tóm tắt văn bản độc lập hoặc tích hợp được phát triển như: MEA, LexRank, chức năng tự động tóm tắt trong Microsoft Word, hệ thống tóm tắt online Text Compactor Các công trình nghiên cứu và các ứng dụng trên được xây dựng chủ yếu phục vụ cho việc tóm tắt văn bản tiếng anh, đã có một vài tác giả đưa những phương pháp đó áp dụng cho tiếng việt nhưng kết quả thu lại chưa cao một phần vì văn bản tiếng việt ngữ pháp rất phức tạp Việc đưa ra những ý tưởng mới, phù hợp để xây dựng một hệ thống tóm tắt văn bản tiếng việt tốt là điều rất cần thiết và cấp bách hiện nay nhằm khai thác thông tin hiệu quả từ kho tài liệu tiếng việt Vì thế chúng tôi mạnh dạn đề suất sử dụng phương pháp trích xuất câu kết hợp với việc biểu diễn văn bản bằng đồ thị và sử dụng thuật toán xếp hạng PageRank để xây dựng nên một phương pháp tóm tắt văn bản tiếng việt
Trang 72 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Mục tiêu của đề tài:
- Mục tiêu tổng quát: Xây dựng một hệ thống tóm tắt văn bản tiếng việt thông qua
phương pháp trích xuất câu
- Mục tiêu cụ thể: đề tài tập trung vào xây dựng tóm tắt văn bản tiếng việt thông qua việc biểu diễn toàn bộ văn bản bằng một đồ thị vô hướng với các đỉnh là các câu của văn bản, mối liên hệ giữa các câu của văn bản chính là độ lớn của các cạnh thuộc
đồ thị, và độ lớn này được tính bằng độ tương đồng về mặt ngữ nghĩa giữa các câu.Sau khi đã xây dựng đồ thị dùng thuật toán xếp hạng PageRank để xếp hạng và trích xuất các câu quan trọng của văn bản, cuối cùng là sắp xếp lựa chọn hợp lý các câu có xếp hạng cao để xây dựng nên văn bản tóm tắt
2.2 Nội dung nghiên cứu:
- Nghiên cứu các kỹ thuật loại bỏ các thông tin không quan trọng trong văn bản để giảm kích thước dữ liệu
- Nghiên cứu phương pháp biểu diễn văn bản thành một đồ thị vô hướng
- Nghiên cứu các phương pháp toán học dùng để tính toán độ tương đồng giữa hai câu thông qua đó xác định trọng số của đồ thị
- Tập trung vào phương pháp xác định độ tương đồng ngữ nghĩa giữa 2 câu sử dụng WordNet corpus và Hidden Topic
- Sử dụng thuật toán xếp hạng PageRank để tính toán điểm số cho mỗi đỉnh của đồ thị trích lọc các đỉnh có điểm số cao nhất để xây dựng văn bản tóm tắt
2.3 Phương pháp luận và phương pháp nghiên cứu:
- Nghiên cứu về độ tương đồng của 2 câu dựa trên sự tương đồng về mặt ngữ nghĩa giữa chúng
Trang 8- Nghiên cứu phương pháp tóm tắt văn bản tiếng việt sử dụng trích xuất câu có đề cập đến việc xây dựng đồ thị và thuật toán xếp hạng PageRank đã được đề cập trước đó
- Tìm hiểu, vận dụng và kế thừa các thuật toán và quy trình đã công bố kết quả
- Áp dụng mô hình ý tưởng mới cho bài toán tóm tắt văn bản tiếng việt và so sánh với các công trình trước đó
3 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU:
3.1 Các công trình liên quan:
Trong những năm gần đây, một số phương pháp khác nhau đã được đề xuất để tự động tóm tắt văn bản Tiếng Việt
- Hoàng và cộng sự [2] đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa trên phương pháp trích xuất câu Ý tưởng của bài báo là dùng một đồ thị vô hướng biểu diễn các câu của văn bản với mỗi đỉnh của đồ thị ứng với một câu Trọng số giữa các cạnh được tính dựa vào độ tương tự của 2 câu , nó phụ thuộc vào tần số xuất hiện của các từ có trong mỗi câu Phương pháp này xử lý nhanh tốn ít chi phí tuy nhiên vẫn chưa đảm bảo độ chính xác cao về mặt ngữ nghĩa điều này sẽ ảnh hưởng đến chất lượng nội dung của văn bản tóm tắt.Sau khi xây dựng được đồ thị thì sử dụng PageRank để tiến hành xếp hạng và trích xuất câu quan trọng Cuối cùng là xây dựng văn bản tóm tắt dựa trên các câu quan trọng được lấy ra
- Hương và cộng sự [3] đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa
trên việc trích xuất cụm từ Bài báo mô tả một cách tiếp cận để tổng hợp văn bản tiếng việt tập trung vào cấu trúc bài luận của văn bản Mặc dù phương pháp đưa ra thu được những kết quả đầy hứa hẹn tuy nhiên hạn chế của đề tài là việc tạo ra một cây thảo luận phục vụ cho việc rút trích mệnh đề là tương đối phức tạp, tập thảo luận
Trang 9cần đầy đủ hơn để nâng cao chất lượng tóm tắt của văn bản, cần tìm ra thêm nhiều phương pháp để xác định quan hệ giữa các khoảng trong văn bản
- Hà [4] đề xuất một phương pháp tóm tắt đối với văn bản đơn âm tiết dựa trên
thuật toán Bayes và sử dụng các từ chủ đề Phương pháp này là một phương pháp học
có giám sát nên đòi hỏi phải có thời gian đển huấn luyện dữ liệu, với mỗi chủ đề khác nhau lại phải huấn luyện một tập dữ liệu riêng biệt khó áp dụng dễ dàng cho nhiều lĩnh vực
- Viet Phung và cộng sự [5] đề xuất một phương pháp sử dụng các word embeddings kết hợp với PageRank để xếp hạng các câu và đưa ra tập các câu phù hợp nhất cho việc tóm tắt văn bản tiếng việt Phương pháp này cần phải có một tập dữ liệu tóm tắt cho trước để xây dựng nên mối quan hệ giữa câu và từ với mỗi chủ đề thì tập
dữ liệu tóm tắt lại thay đổi và cần thời gian thu thập, xây dựng trước khi được sử dụng
- Tiến mình và cộng sự [6] đề xuất việc kết hợp ý kiến người trong mục bình luận dưới mỗi bài viết để góp phần tạo ra văn bản tóm tắt chất lượng, là một phương pháp học có giám sát nên nó cũng cần thời gian xây dựng dữ liệu huấn luyện hơn nữa việc xây dựng dữ liệu huấn luyên ở đây cần có sự can thiệp từ con người
3.2 Đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa trên mô hình đồ thị:
- Hầu hết các ý tưởng tóm tắt văn bản tiếng việt gần đây đều đưa ra cách tiếp cận học tập không giám sát nó đòi hỏi cần huấn luyện dữ liệu, phát sinh thêm nhiều thời gian và không gian lưu trữ, không dễ dàng cho người sử dụng áp dụng vào các chủ đề văn bản khác nhau
- Để khắc phục những hạn chế trên, tôi đề suất một cách tiếp cận học tập không giám sát lấy ý tưởng từ các bài báo nghiên cứu sử dụng đồ thị kết hợp cùng thuật toán xếp hạng PageRank để trích xuất câu và sử dụng độ tương đồng về ngữ nghĩa giữa các câu để tạo ra trọng số các cạnh của đồ thị
Trang 104 TIẾN ĐỘ THỰC HIỆN ĐỀ TÀI:
Tháng/năm 2017
Dự kiến nội dung thực hiện
2018
2/ 2018
Nghiên cứu tổng quan về xử lý văn bản tiếng
Việt
Nghiên cứu các khái niệm và công trình liên
quan đến bài toán tóm tắt văn bản tiếng việt
Nghiên cứu độ tương đồng ngữ nghĩa giữa hai
câu và các phương pháp xác định đại lượng này
Nghiên cứu bài toán tóm tắt văn bản tiếng việt
dựa trên đồ thị và thuật toán xếp hạng PageRank
Tiến hành thực nghiệm và đánh giá kết quả
Kết luận, kiến nghị, hoàn thiện luận văn
5 BỐ CỤC DỰ KIẾN CỦA LUẬN VĂN:
Dự kiến gồm 5 chương:
Trang 11Chương 1: Tổng quan về tóm tắt và bài toán tóm tắt văn bản tiếng việt
1.1 Giới thiệu
1.2 Đặc điểm ngôn ngữ tiếng việt
1.3 Một số phương pháp tóm tắt văn bản
1.4 Đánh giá tóm tắt văn bản
Chương 2: Các khái niệm và công trình liên quan
2.1 Các khái niệm: tf, idf, độ tương tự giữa hai câu, độ đo cosin, Worldnet, Hidden Topic, PageRank
2.2 Các công trình liên quan
Chương 3: Xây dựng hệ thống tóm tắt văn bản tiếng việt dựa trên mô hình đồ thị và thuật toán xếp hạng PageRank
3.1 Xây dựng công thức tính độ tương đồng ngữ nghĩa giữa hai câu bằng Worldnet 3.2 Xây dựng công thức tính độ tương đồng ngữ nghĩa giữa hai câu bằng Hidden Topic
3.3 Mô hình hóa văn bản bằng đồ thị
3.4 Xây dựng công thức xếp hạng PageRank
3.5 Trích rút câu và xây dựng văn bản tóm tắt
Chương 4: Thực nghiệm và đánh giá kết quả
4.1 Lựa chọn dữ liệu và thực nghiệm
4.2 Đánh giá kết quả: so sánh với các phương pháp khác
Chương 5: Kết luận, kiến nghị và hướng phát triển
Trang 12TÀI LIỆU THAM KHẢO
1) Courtney Corley and Rada Mihalcea 2005 “Measuring the Semantic Similarity
of Texts”
2) Tu Anh Nguyen Hoang, Hoang Khai Nguyen, Quang Vinh Tran 2010 “An Efficient Vietnamese Text Summarization Approach Based on Graph Model” 3) Huong Thanh Le, Rathany Chan Sam, Phuc Trong Nguyen 2010 “Extracting Phrases in Vietnamese Document for Summary Generation”
4) Ha Nguyen Thi Thu, 2014, “An Optimization Text Summarization Method Based on Nạve Bayes and Topic Word for Single Syllable Language”
5) Viet Phung,Lance De Vine 2015, “A Study on the Use of Word Embeddings and PageRank for Vietnamese Text Summarization”
6) Minh-Tien Nguyen1,2, Viet Dac Lai1 , Phong-Khac Do1, Duc-Vu Tran1, and Minh-Le Nguyen1, 2016, “VSoLSCSum: Building a Vietnamese Sentence-Comment Dataset for Social Context Summarization”