LỜI CAM ĐOAN‘Tôi xin cam đoan luận văn này là công trình nghiên cứu của riêng tôi.. Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố t
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
KIM XUÂN PHÚC
S Ử DỤNG CHUỖI TỪ VỰNG
Ngành: Công ngh thông tin Chuyên ngành: H th ng thông tin
Mã s : 60.48.01.04
Ng i h ng d n khoa h c: PGS.TS NGUYỄN PH ƠNG THÁI
HÀ N ỘI - 2015
Trang 2LỜI CAM ĐOAN
‘Tôi xin cam đoan luận văn này là công trình nghiên cứu của riêng tôi Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toàn là sản phẩm của riêng tôi.’
Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên
Trang 3LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Nguyễn Phương Thái, Ths Vũ Huy Hiển đã tận tình chỉ bảo, giúp đỡ và hướng dẫn tôi trong suốt quá trình thực hiện luận văn này.
Tôi xin chân thành cảm ơn quý thầy cô và nhà trường đã luôn tạo điều kiện thuận lợi nhất cho chúng tôi học tập và nghiên cứu.
Cuối cùng tôi xin gửi lời cảm ơn tới gia đình, bạn bè của tôi Những người luôn giành thời gian ở bên cạnh quan tâm, động viên, và giúp đỡ tôi hết mình trong suốt quá trình học tập cũng như làm luận văn tốt nghiệp này.
Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên
ii
Trang 4Mục lục
1.1 Các tiếp cận trên thế giới 3
1.2 Các tiếp cận trong nước 4
1.3 Giải pháp đề xuất 6
2 Mạng từ 8 2.1 Mạng từ tiếng Anh - Wordnet 8
2.1.1 Thông tin chung 8
2.1.2 Các quan hệ trong mạng từ Wordnet 8
2.2 Mạng từ tiếng Việt 10
2.2.1 Từ điển của Laconec 10
2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15 11
2.3 Sử dụng mạng từ tiếng Việt 11
3 Ứng dụng xích từ vựng trong tóm tắt văn bản 13 3.1 Xích từ vựng 13
3.2 Xây dựng xích từ vựng 13
3.3 Sử dụng xích từ vựng 16
4 Thực nghiệm và các kết quả 18 4.1 Dữ liệu sử dụng 18
4.2 Phương pháp đánh giá 20
4.2.1 Đánh giá đồng chọn 20
4.2.2 Đánh giá tự động 21
4.3 Thực nghiệm 22
4.3.1 Môi trường thực nghiệm 22
4.3.2 Tiền xử lý 22
4.3.3 Đánh giá kết quả 22
Trang 5MỤC LỤC iv 4.4 Kết quả 23
5.1 Các công việc đã làm 30
Trang 6Danh sách hình vẽ
Trang 7Danh sách bảng
4.2 Tập văn bản sử dụng 19
4.5 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học Công nghệ 23
4.6 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học Giáo dục 24
vi
Trang 8Danh mục từ viết tắt
TF-IDF Term Frequency – Inverse Document Frequency
Trang 9MỞ ĐẦU
Ngày nay, dưới sự bùng nổ của kỷ nguyên Internet, thông tin văn bản được lưu trữ trên mạng Internet trở nên vô cùng lớn Hằng ngày, số lượng thông tin văn bản tăng lên không ngừng Khối lượng thông tin khổng lồ này mang lại lợi ích không nhỏ cho con người, tuy nhiên cùng với đó là sự quá tải khiến cho chúng ta gặp rất nhiều khó khăn trong việc tìm kiếm, xử lý và tổng hợp thông tin Để cải thiện khả năng tìm kiếm cũng như tăng hiệu qủa cho các công việc xử lý thông tin, tóm tắt tự động
là giải pháp không thể thiếu để giải quyết vấn đề này Đối với tiếng Việt, bài toán tóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc khai thác hiệu quả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn Nó có ứng dụng rất lớn trong các hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể giúp cho cán bộ nghiệp
vụ thu thập đủ các thông tin cần thiết và kịp thời theo dõi, đánh giá, xử lý nguồn thông tin một cách nhanh chóng.
Nội dung luận văn này được chúng tôi trình bày như sau:
Chúng tôi đưa ra cái nhìn khái quát về hiện trạng tóm tắt văn bản tại Chương 1 Ở Chương 2, chúng tôi giới thiệu về mạng từ bao gồm mạng từ tiếng Anh của trường đại học Princeton, các mạng từ tiếng Việt hiện có Chúng tôi giới thiệu các kiến thức chung và các cách áp dụng xích từ vựng ở Chương 3 Trong Chương 4, chúng
1
Trang 10DANH SÁCH BẢNG 2 tôi trình bày các thực nghiệm và các kết quả mà chúng tôi đã đạt được Cuối cùng, chúng tôi đưa ra kết luận và các công việc trong tương lai ở Chương 5.
Trang 11Tài liệu tham khảo
Nguyễn Nhật An Nghiên cứu, phát triển các kỹ tuật tự động tóm tắt văn bản tiếng Việt Luận án Tiến sĩ toán học, Viện khoa học và công nghệ quân sự, 2014
Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto Modern Information Retrieval Addison Wesley, 1999
Regina Barzilay and Michael Elhadad Using lexical chains for text summarization In ACL-Intelligent Scalable Text Summarization 1997, pages 10–17, 1997
P B Baxendale Machine-made index for technical literature: an experiment In IBM Journal of Research and Development 2, pages 354–361, 1958
Jaime G Carbonell and Jade Goldstein The use of mmr, diversity-based reranking for reordering documents and producing summaries In SIGIR, pages 335–336, 1998
Lin Chin-Yew Rouge: a package for automatic evaluation of summaries In n Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, 2004
H Edmundson New methods in automatic abstracting Journal of ACM, 16 (2), 1969
Thanh-Le Ha, Quyet-Thang Huynh, and Chi-Mai Luong A primary study on summarization of documents in vietnamese In Proceeding of the First International Congress of the International Federation for Systems Research, Kobe, Japan, Nov 15-17, pages 234–239, 2005
E Hovy and C Lin Automatic Text Summarization in SUMMARIST (In I Mani and M T Maybury, editors, Advanced in automatic text summarization The MIT Press), 1999
Karel Jezek and Josef Steinberger Automatic Text Summarization Vaclav Snasel (Ed.), 2008
J Kupiec, J.O Pedersen, and F Chen A trainable document summarizer In In the proceedings
of the 18th ACM SIGIR conference on research and development in information retrieval, pages 68–73, 1995
C-Y Lin and E.H Hovy Identifying topics by position In In Proceedings of the Applied Natural Language Processing Conference (ANLP-97), page 283–290, 1997
32
Trang 12Bibliography 33
H.P Luhn The automatic creation of literature abstracts IBM Journal of Research and Develop-ment, 2(2), 1958
J Lyons Semantics 2 vols New York: Cambridge University Press, 1977
Dat Quoc Nguyen, Dai Quoc Nguyen, Dang Duc Pham, and Son Bao Pham RDRPOSTagger:
A Ripple Down Rules-based Part-Of-Speech Tagger In Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 17–20, Gothenburg, Sweden, April 2014 Association for Computational Linguistics URL
http://www.aclweb.org/anthology/E14-2005
M.L Nguyen, Shimazu Akira, Xuan-Hieu Phan, Tu-Bao Ho, and Horiguchi Susumu Sentence extraction with support vector machine ensemble In Proceedings of the First World Congress
of the International Federation for Systems Research: The New Roles of Systems Sciences For
a Knowledge-based Society, 2005
Phuong-Thai Nguyen, Van-Lam Pham, Hoang-An Nguyen, Huy-Hien Vu, Thi-Thu-Ha Truong, and Ngoc-Anh Tran A two-phase approach for building vietnamese wordnet In The 8th Global Wordnet Conference, 2015
Tadashi Nomoto and Yuji Matsumoto A new approach to unsupervised text summarization In SIGIR, pages 26–34, 2001
Đỗ Phúc and Hoàng Kiếm Rút trích ý chính từ văn bản tiếng Việt Tạp chí Công nghệ Thông tin
và Truyền thông, 2004
Nguyen Quang-Uy, Pham Tuan-Anh, Truong Cong-Doan, and Nguyen Xuan-Hoai A study on the use of genetic programming for automatic text summarization In Fourth International Conference on Knowledge and Systems Engineering (KSE), 2012
Trương Quốc-Định and Nguyễn Quang-Dũng Một giải pháp tóm tắt văn bản tiếng Việt tự động Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông
- Hà Nội, 2012
G Salton, A Singhal, C Buckley, and M Mitra Automatic text decomposition using text segments and text themes In In seventh ACM conference on Hypertext, pages 26–34, 1996
Lê Thanh-Hương Nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt Báo cáo tổng kết đề tài khoa học và công nghệ cấp bộ, Đại học Bách khoa Hà nội, 2014
Nguyễn Thị Thu-Hà Phát triển một số thuật toán tóm tắt văn bản tiếng Việt sử dụng phương pháp học máy bán giám sát Luận án Tiến sĩ, học viện Kỹ thuật Quân sự, 2012
Trang 13Bibliography 34
Ngoc Anh Tran, Phuong Thai Nguyen, Thanh Tinh Dao, and Hong Quan Nguyen Identifying reduplicative words for vietnamese word segmentation In Computing Communication Technolo-gies - Research, Innovation, and Vision for the Future (RIVF), 2015 IEEE RIVF International Conference on, pages 77–82, Jan 2015 doi: 10.1109/RIVF.2015.7049878
M E Winston, R Chaffin, and D J Hermann A taxonomy of part-whole relations In Cognitive Science 11, pages 417–444, 1987