1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ÁP DỤNG MÔ HÌNH đồ THỊ VÀO BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT

12 52 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 189,01 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với lý do trên chúng tôi đã chọn đề tài “Áp dụng mô hình đồ thị vào bài toán tóm tắt văn bản tiếng việt” nhằm mục đích đưa ra một phương pháp tóm tắt văn bản tiếng việt mới có hiệu suất

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

-ĐỀ CƯƠNG LUẬN VĂN THẠC SỸ

Chuyên ngành: Công nghệ thông tin

Mã ngành: 60480201

ÁP DỤNG MÔ HÌNH ĐỒ THỊ VÀO BÀI TOÁN TÓM TẮT

VĂN BẢN TIẾNG VIỆT

HVTH : Bạch Quốc Huy

MSHV : 1641860005

GVHD : TS Lê Thị Ngọc Thơ

TP HCM, tháng 8/2017

Trang 2

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

Tp HCM, ngày …… tháng …… năm 2017

Giảng viên hướng dẫn

Trang 3

NHẬN XÉT CỦA HỘI ĐỒNG XÉT DUYỆT

Tp HCM, ngày …… tháng …… năm 2017

Hội đồng xét duyệt

Trang 4

Mục Lục

1 GIỚI THIỆU 5

1.1 Đặt vấn đề 5

1.2 Tính cấp thiết của đề tài 6

2 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 6

2.1 Mục tiêu của đề tài: 6

2.2 Nội dung nghiên cứu: 7

2.3 Phương pháp luận và phương pháp nghiên cứu: 7

3 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU: 8

3.1 Các công trình liên quan 8

3.2 Đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa trên mô hình đồ thị 9

4 TIẾN ĐỘ THỰC HIỆN ĐỀ TÀI 9

5 BỐ CỤC DỰ KIẾN CỦA LUẬN VĂN 10

TÀI LIỆU THAM KHẢO 11

Trang 5

1 GIỚI THIỆU

1.1 Đặt vấn đề

Ngày nay thông tin đã và đang đóng vai trò cực kỳ quan trọng trong xã hội Sự phát triển mạnh mẽ của Internet đã mang đến một lượng thông tin khổng lồ cho con người Cũng bởi số lượng thông tin quá lớn mà chúng ta không thể nào nắm bắt được hết chúng và bên cạnh đó không phải thông tin nào cũng hữu ích phục vụ được cho nhu cầu tra cứu thông tin làm việc của chúng ta Rất nhiều người có nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận lợi cho việc tổng hợp các thông tin đó Xuất phát từ nhu cầu đó, các phương pháp tóm tắt tự động đã được nghiên cứu và phát triển Tóm tắt dữ liệu tự động là một lĩnh vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu Bài toán tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản

mà nó còn mở rộng ra các loại dữ liệu đa phương tiện như hình ảnh, âm thanh và video Tóm tắt văn bản là quá trình rút ra những thông tin quan trọng từ một văn bản để tạo thành một văn bản ngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu của người sử dụng

Trong một vài năm trở lại đây bài toán tóm tắt văn bản đã nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học nhóm nghiên cứu và các công ty lớn trên thế giới Để khai thác tối đa thông tin có được từ những tài liệu, văn bản tiếng việt đồng thời dễ dàng hơn cho việc tra cứu tìm kiếm của người dùng thì việc đưa ra một hệ thống tóm tắt văn bản tiếng việt là điều cần thiết

Với lý do trên chúng tôi đã chọn đề tài “Áp dụng mô hình đồ thị vào bài toán tóm tắt văn bản tiếng việt” nhằm mục đích đưa ra một phương pháp tóm tắt văn bản

tiếng việt mới có hiệu suất tốt hơn, đơn giản hơn và ứng dụng được trong nhiều lĩnh vực

Trang 6

1.2 Tính cấp thiết của đề tài

Sự phát triển ngày càng tăng của hệ thống thông tin trên toàn thế giới đã cung cấp cho chúng ta một lượng thông tin không lồ Lượng thông tin khổng lồ đó đã mang lại lợi ích không nhỏ cho nhân loại nhưng đồng thời nó cũng khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin Giải pháp cho vấn đề này chính là việc tóm tắt văn bản tự động Việc áp dụng tóm tắt văn bản giúp người dùng tiết kiệm thời gian đọc và tăng hiệu quả tìm kiếm, tiếp nhận thông tin

Hiện nay việc xây dựng nên các hệ thống tóm tắt văn bản tự động có thể coi là nhu cầu thiết yếu và cấp bách nhận được sự quan tâm của toàn thể xã hội Tại các hội nghị nổi tiếng như: DUC 2001-2007, TAC 2008-2011, ACL 2001-2015, tóm tắt văn bản tự động đã được đề cập đến nhiều trong các bài báo Ngoài ra, có nhiều hệ thống tóm tắt văn bản độc lập hoặc tích hợp được phát triển như: MEA, LexRank, chức năng tự động tóm tắt trong Microsoft Word, hệ thống tóm tắt online Text Compactor Các công trình nghiên cứu và các ứng dụng trên được xây dựng chủ yếu phục vụ cho việc tóm tắt văn bản tiếng anh, đã có một vài tác giả đưa những phương pháp đó áp dụng cho tiếng việt nhưng kết quả thu lại chưa cao một phần vì văn bản tiếng việt ngữ pháp rất phức tạp Việc đưa ra những ý tưởng mới, phù hợp để xây dựng một hệ thống tóm tắt văn bản tiếng việt tốt là điều rất cần thiết và cấp bách hiện nay nhằm khai thác thông tin hiệu quả từ kho tài liệu tiếng việt Vì thế chúng tôi mạnh dạn đề suất sử dụng phương pháp trích xuất câu kết hợp với việc biểu diễn văn bản bằng đồ thị và sử dụng thuật toán xếp hạng PageRank để xây dựng nên một phương pháp tóm tắt văn bản tiếng việt

Trang 7

2 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.1 Mục tiêu của đề tài:

- Mục tiêu tổng quát: Xây dựng một hệ thống tóm tắt văn bản tiếng việt thông qua

phương pháp trích xuất câu

- Mục tiêu cụ thể: đề tài tập trung vào xây dựng tóm tắt văn bản tiếng việt thông qua việc biểu diễn toàn bộ văn bản bằng một đồ thị vô hướng với các đỉnh là các câu của văn bản, mối liên hệ giữa các câu của văn bản chính là độ lớn của các cạnh thuộc

đồ thị, và độ lớn này được tính bằng độ tương đồng về mặt ngữ nghĩa giữa các câu.Sau khi đã xây dựng đồ thị dùng thuật toán xếp hạng PageRank để xếp hạng và trích xuất các câu quan trọng của văn bản, cuối cùng là sắp xếp lựa chọn hợp lý các câu có xếp hạng cao để xây dựng nên văn bản tóm tắt

2.2 Nội dung nghiên cứu:

- Nghiên cứu các kỹ thuật loại bỏ các thông tin không quan trọng trong văn bản để giảm kích thước dữ liệu

- Nghiên cứu phương pháp biểu diễn văn bản thành một đồ thị vô hướng

- Nghiên cứu các phương pháp toán học dùng để tính toán độ tương đồng giữa hai câu thông qua đó xác định trọng số của đồ thị

- Tập trung vào phương pháp xác định độ tương đồng ngữ nghĩa giữa 2 câu sử dụng WordNet corpus và Hidden Topic

- Sử dụng thuật toán xếp hạng PageRank để tính toán điểm số cho mỗi đỉnh của đồ thị trích lọc các đỉnh có điểm số cao nhất để xây dựng văn bản tóm tắt

2.3 Phương pháp luận và phương pháp nghiên cứu:

- Nghiên cứu về độ tương đồng của 2 câu dựa trên sự tương đồng về mặt ngữ nghĩa giữa chúng

Trang 8

- Nghiên cứu phương pháp tóm tắt văn bản tiếng việt sử dụng trích xuất câu có đề cập đến việc xây dựng đồ thị và thuật toán xếp hạng PageRank đã được đề cập trước đó

- Tìm hiểu, vận dụng và kế thừa các thuật toán và quy trình đã công bố kết quả

- Áp dụng mô hình ý tưởng mới cho bài toán tóm tắt văn bản tiếng việt và so sánh với các công trình trước đó

3 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU:

3.1 Các công trình liên quan:

Trong những năm gần đây, một số phương pháp khác nhau đã được đề xuất để tự động tóm tắt văn bản Tiếng Việt

- Hoàng và cộng sự [2] đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa trên phương pháp trích xuất câu Ý tưởng của bài báo là dùng một đồ thị vô hướng biểu diễn các câu của văn bản với mỗi đỉnh của đồ thị ứng với một câu Trọng số giữa các cạnh được tính dựa vào độ tương tự của 2 câu , nó phụ thuộc vào tần số xuất hiện của các từ có trong mỗi câu Phương pháp này xử lý nhanh tốn ít chi phí tuy nhiên vẫn chưa đảm bảo độ chính xác cao về mặt ngữ nghĩa điều này sẽ ảnh hưởng đến chất lượng nội dung của văn bản tóm tắt.Sau khi xây dựng được đồ thị thì sử dụng PageRank để tiến hành xếp hạng và trích xuất câu quan trọng Cuối cùng là xây dựng văn bản tóm tắt dựa trên các câu quan trọng được lấy ra

- Hương và cộng sự [3] đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa

trên việc trích xuất cụm từ Bài báo mô tả một cách tiếp cận để tổng hợp văn bản tiếng việt tập trung vào cấu trúc bài luận của văn bản Mặc dù phương pháp đưa ra thu được những kết quả đầy hứa hẹn tuy nhiên hạn chế của đề tài là việc tạo ra một cây thảo luận phục vụ cho việc rút trích mệnh đề là tương đối phức tạp, tập thảo luận

Trang 9

cần đầy đủ hơn để nâng cao chất lượng tóm tắt của văn bản, cần tìm ra thêm nhiều phương pháp để xác định quan hệ giữa các khoảng trong văn bản

- Hà [4] đề xuất một phương pháp tóm tắt đối với văn bản đơn âm tiết dựa trên

thuật toán Bayes và sử dụng các từ chủ đề Phương pháp này là một phương pháp học

có giám sát nên đòi hỏi phải có thời gian đển huấn luyện dữ liệu, với mỗi chủ đề khác nhau lại phải huấn luyện một tập dữ liệu riêng biệt khó áp dụng dễ dàng cho nhiều lĩnh vực

- Viet Phung và cộng sự [5] đề xuất một phương pháp sử dụng các word embeddings kết hợp với PageRank để xếp hạng các câu và đưa ra tập các câu phù hợp nhất cho việc tóm tắt văn bản tiếng việt Phương pháp này cần phải có một tập dữ liệu tóm tắt cho trước để xây dựng nên mối quan hệ giữa câu và từ với mỗi chủ đề thì tập

dữ liệu tóm tắt lại thay đổi và cần thời gian thu thập, xây dựng trước khi được sử dụng

- Tiến mình và cộng sự [6] đề xuất việc kết hợp ý kiến người trong mục bình luận dưới mỗi bài viết để góp phần tạo ra văn bản tóm tắt chất lượng, là một phương pháp học có giám sát nên nó cũng cần thời gian xây dựng dữ liệu huấn luyện hơn nữa việc xây dựng dữ liệu huấn luyên ở đây cần có sự can thiệp từ con người

3.2 Đề xuất một phương pháp tóm tắt văn bản tiếng việt dựa trên mô hình đồ thị:

- Hầu hết các ý tưởng tóm tắt văn bản tiếng việt gần đây đều đưa ra cách tiếp cận học tập không giám sát nó đòi hỏi cần huấn luyện dữ liệu, phát sinh thêm nhiều thời gian và không gian lưu trữ, không dễ dàng cho người sử dụng áp dụng vào các chủ đề văn bản khác nhau

- Để khắc phục những hạn chế trên, tôi đề suất một cách tiếp cận học tập không giám sát lấy ý tưởng từ các bài báo nghiên cứu sử dụng đồ thị kết hợp cùng thuật toán xếp hạng PageRank để trích xuất câu và sử dụng độ tương đồng về ngữ nghĩa giữa các câu để tạo ra trọng số các cạnh của đồ thị

Trang 10

4 TIẾN ĐỘ THỰC HIỆN ĐỀ TÀI:

Tháng/năm 2017

Dự kiến nội dung thực hiện

2018

2/ 2018

Nghiên cứu tổng quan về xử lý văn bản tiếng

Việt

Nghiên cứu các khái niệm và công trình liên

quan đến bài toán tóm tắt văn bản tiếng việt

Nghiên cứu độ tương đồng ngữ nghĩa giữa hai

câu và các phương pháp xác định đại lượng này

Nghiên cứu bài toán tóm tắt văn bản tiếng việt

dựa trên đồ thị và thuật toán xếp hạng PageRank

Tiến hành thực nghiệm và đánh giá kết quả

Kết luận, kiến nghị, hoàn thiện luận văn

5 BỐ CỤC DỰ KIẾN CỦA LUẬN VĂN:

Dự kiến gồm 5 chương:

Trang 11

Chương 1: Tổng quan về tóm tắt và bài toán tóm tắt văn bản tiếng việt

1.1 Giới thiệu

1.2 Đặc điểm ngôn ngữ tiếng việt

1.3 Một số phương pháp tóm tắt văn bản

1.4 Đánh giá tóm tắt văn bản

Chương 2: Các khái niệm và công trình liên quan

2.1 Các khái niệm: tf, idf, độ tương tự giữa hai câu, độ đo cosin, Worldnet, Hidden Topic, PageRank

2.2 Các công trình liên quan

Chương 3: Xây dựng hệ thống tóm tắt văn bản tiếng việt dựa trên mô hình đồ thị và thuật toán xếp hạng PageRank

3.1 Xây dựng công thức tính độ tương đồng ngữ nghĩa giữa hai câu bằng Worldnet 3.2 Xây dựng công thức tính độ tương đồng ngữ nghĩa giữa hai câu bằng Hidden Topic

3.3 Mô hình hóa văn bản bằng đồ thị

3.4 Xây dựng công thức xếp hạng PageRank

3.5 Trích rút câu và xây dựng văn bản tóm tắt

Chương 4: Thực nghiệm và đánh giá kết quả

4.1 Lựa chọn dữ liệu và thực nghiệm

4.2 Đánh giá kết quả: so sánh với các phương pháp khác

Chương 5: Kết luận, kiến nghị và hướng phát triển

Trang 12

TÀI LIỆU THAM KHẢO

1) Courtney Corley and Rada Mihalcea 2005 “Measuring the Semantic Similarity

of Texts”

2) Tu Anh Nguyen Hoang, Hoang Khai Nguyen, Quang Vinh Tran 2010 “An Efficient Vietnamese Text Summarization Approach Based on Graph Model” 3) Huong Thanh Le, Rathany Chan Sam, Phuc Trong Nguyen 2010 “Extracting Phrases in Vietnamese Document for Summary Generation”

4) Ha Nguyen Thi Thu, 2014, “An Optimization Text Summarization Method Based on Nạve Bayes and Topic Word for Single Syllable Language”

5) Viet Phung,Lance De Vine 2015, “A Study on the Use of Word Embeddings and PageRank for Vietnamese Text Summarization”

6) Minh-Tien Nguyen1,2, Viet Dac Lai1 , Phong-Khac Do1, Duc-Vu Tran1, and Minh-Le Nguyen1, 2016, “VSoLSCSum: Building a Vietnamese Sentence-Comment Dataset for Social Context Summarization”

Ngày đăng: 02/08/2021, 11:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w