1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo " Tự động sinh mục lục cho văn bản " docx

5 413 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 254 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tự động sinh mục lục cho văn bản Nguyễn Việt Cường Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ phần mềm; Mã số: 60 48 10 Người hướng dẫn: PGS TS Hà Quang Thụy Năm bả

Trang 1

Tự động sinh mục lục cho văn bản

Nguyễn Việt Cường

Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ phần mềm; Mã số: 60 48 10

Người hướng dẫn: PGS TS Hà Quang Thụy

Năm bảo vệ: 2007

Abstract: Giới thiệu bài toán tóm tắt văn bản nói chung và bài toán xây dựng mục lục cho

văn bản nói riêng; Nghiên cứu các phương pháp và thuật toán tiêu biểu sử dụng trong các phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản; Phân tích và đề xuất phương án tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; Đề xuất một số hướng cải tiến và trình bày các phương pháp đánh giá; Phần thử nghiệm trình bày quá trình thử nghiệm cùng các kết quả đạt được, đưa ra những ý kiến phân tích và đánh giá các kết quả làm tiền đề cho các ý kiến đề xuất

Keywords: Công nghệ thông tin, Soạn thảo văn bản, Tự động sinh mục lục

Content

MỞ ĐẦU

Hiện nay, lượng văn bản được số hoá đang tăng lên nhanh chóng và đặc biệt được phổ biến rộng rãi cùng với sự tăng trưởng của Internet Các văn bản này thuộc nhiều dạng khác nhau như văn bản chữ viết, văn bản âm thanh và văn bản hình ảnh Nguồn thông tin khổng lồ này vừa mang lại lợi ích giúp con người tiếp cận và khai thác được nhiều thông tin hơn, nhưng mặt khác cũng gây khó khăn cho công việc lựa chọn và tổng hợp thông tin Lĩnh vực xử lí ngôn ngữ tự nhiên (xử lí ngôn ngữ trên máy tính một cách tự động) ra đời nhằm giải quyết phần nào sự khó khăn này

Lĩnh vực xử lí ngôn ngữ tự nhiên đã đặt ra hàng loạt bài toán nhằm giải quyết các khó khăn

và trợ giúp con người xử lí văn bản tốt hơn như: tìm kiếm văn bản, phân lớp văn bản, rút trích thông tin, tóm tắt văn bản, hệ thống hỏi-đáp,… Các hệ thống thông tin trực tuyến như Google, Yahoo!, MSN,… đã thể hiện được các kết quả nghiên cứu giải quyết các bài toán này Ví dụ như máy tìm kiếm Google đảm nhận việc tìm kiếm các văn bản theo yêu cầu của người dùng, trích ra các đoạn văn bản liên quan đến yêu cầu, tóm tắt lại dựa trên các thông tin đó và hiển thị cho người dùng lựa chọn Tuy chất lượng xử lí văn bản chưa đạt được mức độ như con

Trang 2

người nhưng sự lớn mạnh của các cỗ máy tìm kiếm trên đã cho thấy tiềm năng và triển vọng thực sự của các bài toán trong xử lí ngôn ngữ tự nhiên

Tóm tắt văn bản là một bài toán trong xử lí ngôn ngữ tự nhiên, đó là “một quá trình thu gọn

văn bản đầu vào thành văn bản tóm tắt thông qua việc cô đọng nội dung bằng cách lựa chọn và/hoặc tổng hợp những thông tin quan trọng trong văn bản đầu vào” [18] Trong thời gian

gần đây, tóm tắt văn bản đang nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu trên

Text Analyst (Megaputer), Text Analysis (IBM Japan), Microsoft Word,… Rất nhiều bài toán nhỏ của tóm tắt văn bản đã được đặt ra và giải quyết [18] thông qua các hội nghị và phần mềm kể trên

Một trong những vấn đề được quan tâm nghiên cứu gần đây là xây dựng mục lục cho văn bản một cách tự động [2, 5] Đây là một bài toán tóm tắt văn bản, trong đó các thông tin quan trọng của tài liệu được định nghĩa là tiêu đề của các đoạn văn bản và được thể hiện dưới dạng danh sách ở mục lục của văn bản Cấu trúc mục lục là một cấu trúc phổ biến ở trong các văn bản dài mà đặc biệt là các cuốn sách, nó giúp người đọc tìm kiếm chủ đề quan tâm và định vị được vị trí của chủ đề đó trong văn bản Đối với các văn bản âm thanh, hình ảnh, việc xây dựng được mục lục cho văn bản là rất cần thiết vì những văn bản dạng này hầu như không có sẵn mục lục để định vị các phân đoạn thông tin khác nhau [3, 10, 18, 20] Việc xây dựng mục lục cho văn bản gồm hai bước, bước thứ nhất là phân đoạn văn bản, tức là phân văn bản thành các đoạn rời rạc, nối tiếp nhau, mỗi đoạn nói về một chủ đề tương đối khác nhau [2, 4,

6, 15, 16, 20] và bước thứ hai là sinh tiêu đề cho các đoạn văn bản, tức là sinh một cụm từ ngắn thể hiện được chủ đề chính của đoạn văn [3, 10, 17, 28] Trong [5], các tác giả đã trình bày và thử nghiệm xây dựng mục lục cho văn bản, tuy nhiên bài báo mới dừng lại ở việc giải quyết nửa sau của bài toán xây dựng mục lục cho văn bản, tức là sinh tiêu đề và xây dựng cấu trúc mục lục với việc sử dụng cấu trúc phân đoạn sẵn có của văn bản Hơn thế nữa, mô hình trong [5] là mô hình học giám sát, đòi hỏi phải có dữ liệu huấn luyện trong khi loại dữ liệu này rất thiếu đối với bài toán được đề cập

Với việc lựa chọn đề tài “Tự động sinh mục lục cho văn bản”, luận văn này hướng tới việc

tích hợp hai bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản một cách tự động Trong luận văn này, các bài toán của từng bước được nghiên cứu chi tiết; phương pháp tích hợp hai bước với nhau được đề xuất và tiến hành thử nghiệm thực tế trên văn bản khoa học Kết quả thực nghiệm khả quan của luận văn đã cho thấy tính khả thi và triển vọng của bài toán này Ngoài ra trong luận văn, tác giả cũng đưa ra những phương hướng cải tiến cùng cơ sở khoa học của nó để làm tiền đề cho các nghiên cứu tiếp theo Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương:

1

http://duc.nist.gov/

2

http://www.aclweb.org/

3

http://www.ics.mq.edu.au/~swan/summarization/projects_full.htm

Trang 3

- Chương 1 “Giới thiệu bài toán” sẽ giới thiệu bài toán tóm tắt văn bản nói chung

và bài toán xây dựng mục lục cho văn bản nói riêng; phân tích các công trình có liên quan và đưa ra các thức giải quyết bài toán của luận văn

bày các phương pháp và thuật toán tiêu biểu được sử dụng trong các bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản

tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; đề xuất một số hướng cải tiến và cơ sở lí luận của các cải tiến đó; và trình bày các phương pháp đánh giá

văn cùng các kết quả đạt được, đồng thời phân tích và đánh giá các kết quả đó để làm tiền đề cho các đề xuất cải tiến

References

Tiếng Việt

“Bài toán lọc và phân lớp nội dung web tiếng Việt với hướng tiếp cận Entropy cực đại”,

Kỉ yếu Hội thảo Quốc gia lần thứ 8 “Một số vấn đề chọn lọc của công nghệ thông tin”,

tr 174-189, Hải Phòng, Việt Nam

Tiếng Anh

Annual Meeting of the Association of Computational Linguistics, Philadelphia, USA

Statistical Translation”, In Proceedings of the 38 th

Annual Meeting of the Association of Computational Linguistics, Hong Kong

4 Beeferman D., Berger A., Lafferty J (1999), “Statistical Models for Text Segmentation”,

Machine Learning, 34(1-3), pp 177-210

In Proceedings of the 45 th Annual Meeting of the Association of Computational Linguistics, pp 544-551, Prague, Czech Republic

Proceedings of NAACL '00, pp 26-33, Seattle, USA

Trang 4

7 Church K.W (1993), “Char align: A Program for Aligning Parallel Texts at the

Character Level”, In Proceedings of the 31 st

Annual Meeting of the Association of Computational Linguistics, pp 1-8, Ohio, USA

Proceedings of the 42 nd Annual Meeting of the Association of Computational Linguistics,

pp 111-118, Barcelona, Spain

for Text Classification”, In Proceeding of International Conference on Internet

Information Retrieval 2006, pp 143-149, Korea

10 Dorr B., Zajic D., Schwartz R (2003), “Hedge Trimmer: A parse-and-trim approach to

headline generation”, In Proceedings of the HLT-NAACL 2003 Workshop on Text

Summarization, pp 1-8, Edmonton, Canada

11 Elhada N., McKeown K.R (2001), “Towards generating patient specific summaries of

medical articles”, In Proceedings of NAACL Workshop on Automatic Summarization,

Pittsburgh, PA, USA

12 Georgescul M., Clark A., Armstrong S (2006), “An Analysis of Quantitative Aspects in

the Evaluation of Thematic Segmentation Algorithms”, In Proceedings of the 7th

SIGdial Workshop on Discourse and Dialogue, pp 144-151

13 Givón T (2001), “Syntax: An Introduction”, John Benjamins Publishing, Amsterdam

14 Goldstein J (1999), “Automatic Text Summarization of Multiple Documents”, Thesis

Proposal, Carnegie Mellon University

15 Hearst M.A (1994), “Multi-paragraph segmentation of expository text”, In Proceedings

of the 32 nd Annual Meeting of the Association of Computational Linguistics, pp 9-16,

New Mexico, USA

16 Hearst M.A (1997), “TextTiling: Segmenting Text into Multi-Paragraph Subtopic

Passages”, Computational Linguistics, 23(1), pp 33-64

17 Jin R., Hauptmann A.G (2002), “A New Probability Model for Title Generation”, The

19 th International Conference on Computational Linguistics, Taiwan

18 Jones K.S (2007), “Automatic summarising: The state of the art”, Information

Processing and Management, doi:10.1016/j.ipm.2007.03.009

19 Luhn H.P (1958), “The automatic creation of literature abstracts”, IBM Journal of

Research and Development, 2, pp 159-165

20 Malioutov I., Barzilay R (2006), “Minimum Cut Model for Spoken Lecture

Segmentation”, In Proceedings of the 21 st

International Conference on Computational Linguistics and 44 th Annual Meeting of the ACL, pp 25-32, Sydney, Australia

Trang 5

21 Moens M.F., De Busser R (2001), "Generic topic segmentation of document texts", In

Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 418-419, New York, USA

22 Morris J., Hirst G (1991), “Lexical Cohesion Computed by Thesaural Relations as an

Indicator of the Structure of Text”, Computational Linguistics, 17(1), pp 21-48

23 Pevzner L., Hearst M.A (2002), “A Critique and Improvement of an Evaluation Metric

for Text Segmentation”, Computational Linguistics, 28 (1), pp 19-36

24 Ponte J.M., Croft W.B (1997), “Text Segmentation by Topic”, In Proceedings of the

First European Conference on Research and Advanced Technology for Digitial Libraries, pp.120-129

25 Reynar J.C (1994), “An automatic method of finding topic boundaries”, In Proceedings

of the 32nd Annual Meeting of the Association for Computational Linguistics, pp

331-333

26 Shi J., Malik J (2000), “Normalized Cuts and Image Segmentation”, IEEE Transactions

on Pattern Analysis and Machine Intelligence, 22(8) pp 888-905

27 Teufel S., Moens M (2002), “Summarizing Scientific Articles: Experiments with

Relevance and Rhetorical Status”, Computational Linguistics, 28(4), pp 409-445

28 Witbrock M.J., Mittal V.O (1999), “Ultra-Summarization: A statistical Approach to

International Conference on Research and Development in Information Retrieval (SIGIR '99), Poster Session, 315-316, USA

Ngày đăng: 19/03/2014, 18:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w