Trích chọn sự kiện trong văn bản tin tức tiếng Việt Phan Thị Thuận Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04 Người hướng dẫn: TS.. Hệ thốn
Trang 1Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Phan Thị Thuận
Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04
Người hướng dẫn: TS Nguyễn Trí Thành
Năm bảo vệ: 2014
Keywords Hệ thống thông tin; Trích chọn thông tin; Văn bản tiếng Việt
Content
Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM) Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trên thế giới và đã thu được nhiều kết quả trong thực tế Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau như kinh tế, văn hóa, y tế, xã hội (chẳng hạn như thông tin về các vụ tai nạn giao thông), chính trị, Theo những con số thống kê trên các trang báo điện tử về con số tai nạn hàng năm, như: thông
tin đăng trên báo điện tử http://binhduong.gov.vn, sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị
trực tuyến tổng kết công tác trật tự an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013”
do Phó Thủ tướng Chính phủ Nguyễn Xuân Phúc chủ trì Trong hội nghị, Ủy ban An toàn giao thông
ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết
9.838 người, bị thương 38.060 người Cũng theo báo điện tử http://hanoimoi.com.vn, ngày
31-12-2013, Phó Thủ tướng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội nghị trực tuyến với các bộ, ngành, địa phương nhằm tổng kết công tác bảo đảm trật tự ATGT năm
2013 và triển khai nhiệm vụ năm 2014 Theo thống kê của Ủy ban ATGT Quốc gia, năm 2013 cả
nước đã xảy ra 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người
Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thương vong là rất lớn Mặt khác, bản tin vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai nạn, kết quả của quá trình này sẽ được thống kê thành các con số hữu ích giúp các nhà quản lý và
người dân tham gia giao thông đúng cách Đó cũng là lý do, tác giả chọn và nghiên cứu đề tài“Trích
chọn sự kiện trong văn bản tin tức tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn Chi tiết
luận văn được chia thành 4 chương:
Chương 1 Giới thiệu đề tài
Chương này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh bùng nổ thông tin trên Internet Hơn nữa nêu lên được ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng của đề tài trích chọn sự kiện vụ tai nạn giao thông trên miền văn bản tiếng Việt
Chương 2.Một số phương pháp tiếp cận
Trang 2Chương này tập trung trình bày các phương pháp tiếp cận cho bài toán trích chọn sự kiện đó là, phương pháp tiếp cận dựa trên tâp luật, phương pháp tiếp cận dựa trên học máy, phương pháp tiếp cận kết hợp luật và học máy, trong mỗi phương pháp đều có nhận xét hữu ích Từ đó, luận văn sẽ chỉ
ra phương pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn
Chương 3 Đề xuất mô hình trích chọn sự kiện vụ tai nạn
Chương này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn sự kiện vụ tai nạn Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết cho hai bài toán: phát hiện sự kiện và
trích chọn sự kiện
Chương 4 Thực nghiệm và đánh giá
Chương này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề xuất dựa trên hai bài
toán, đó là: bài toán phát hiện sự kiện và bài toán trích chọn sự kiện Ba độ đo được sử dụng trong
pha phát hiện sự kiện là độ chính xác (P - Precision), độ hồi tưởng (R - Recall), và độ đo F1 (F1-score) và so sánh với kết quả đánh giá thủ công (bằng tay) cho pha trích chọn sự kiện Thống kê và đánh giá (biểu đồ) các thuộc tính đã được trích chọn
Phần kết luận: trình bày kết quả đạt được của luận văn, những hạn chế và hướng phát triển của
luận văn trong tương lai
References
Tài liệu tiếng Anh
[1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai
400076, India,
[2] Douglas E Appelt Introduction to information extraction technology In Tutorial held at
IJCAI-99, Stockholm, Sweden, 1999
[3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim Unsupervised event extraction from
biomedical literature using co-occurrence information and basic patterns In: 1st International Joint
Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science
Springer-Verlag Berlin Heidelberg, vol 3248:777 786, 2004
[4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong An overview of
event extraction from text Workshop on Detection, Representation, and Exploitation of Events in the
Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011),
779:pp 48 57, 2011.10
[5] M.A Hearst Automatic acquisition of hyponyms from large text corpora In: 14th Conference on
Computational Linguistics (COLING 1992), vol 2:539 545, 1992
[6] M.A Hearst Wordnet: An electronic lexical database and some of its applications In Automated
Discovery of WordNet Relations, pp 131 151 MIT Press, 1998
[7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar Semi-automatic financial events
discovery based on lexico-semantic patterns International Journal of Web Engineering and
Technology, 6(2):115 140, 2010
[8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian Ontology-based fuzzy event extraction agent
for chinese e-news summarization In Expert Systems with Applications 25(3), 431 447, 2003
[9] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood:
Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS
2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181 192,
2009
Trang 3[10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang Extracting key entities and
significant events from online daily news In: 9th International Conference on Intel- ligent Data
Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201 209, 2008
[11] L Peshkin and A Pfeffer Bayesian information extraction network In Proc.of the 18th
International Joint Conference on Artificial Intelligence (IJCAI), 2003
[12] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg Extracting violent events from
on-line news for ontology population In: 10th International Conference on Business Information
Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol
4439:287 300, 2007
[13] Silja Huttunen Ralph Grishman and Roman Yangaber Information extraction for enhenced
access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236 246, 2002
[14] Ai Kawazoe Son Doan and Nigel Collier Global health monitor - a web-based system for
detecting and mapping infectious diseases Proc International Joint Conference on Natural
Language Processing (IJCNLP), Companion Volume,Hyderabad, India:pp 951 956, 2008
[15] William H Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru Animal disease event
recognition and classification 2010
[16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii Event extraction from
biomedical papers using a full parser In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp
408 419, 2001
[17] Helen L Johnson Chris Roeder Philip V Ogren-William A Baumgartner Jr Elizabeth White Hannah Tipney K Bretonnel Cohen, Karin Verspoor and Lawrence Hunter High-precision
biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task
collocated with the NAACL-HLT 2009 Meeting pp 50 58 Association for Computational Linguistics, 2009
[18] S Soderland, “Learning information extraction rules for semi-structured and free text,” Machine
Learning, vol 34, 1999
[19] H Cunningham, D Maynard, K Bontcheva, and V Tablan, “Gate: A framework and graphical
development environment for robust nlp tools and applications,” in Proceedings of the 40th
Anniversary Meeting of the Association for Computational Linguistics, 2002
[20] W Shen, A Doan, J F Naughton, and R Ramakrishnan, “Declarative information extraction
using datalog with embedded extraction predicates,” in VLDB, pp 1033–1044, 2007
[21] Ralph Grishman and Beth Sundheim Message understanding conference-6: a brief history
Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466 471, 1996
[22] Doddington George R The automatic content extraction (ace) program tasks, data, and
evaluation In LREC, 2004
[23] Keita Sato Nishihara, Yoko and Wataru Sunayama Event extraction and visualization for
obtaining personal experiences from blogs In: Symposiumon Human Interface 2009 on Human
Interface and the Management of Information Information and Interaction Part II Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 5618:315 324, 2009
[24] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction
system In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp 76 83
Association for Computational Linguistics, 2000
Trang 4[25] Huanye Sheng Li Fang and Dongmo Zhang Event pattern discovery from the stock market
bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in
Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35 49, 2002
[26] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic
population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence
(WI 2004) pp 615 618 , 2004
[27] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and
Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent
Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220 229, 2008