1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trích chọn sự kiện trong văn bản tin tức tiếng việt

4 367 1

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 212,89 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trích chọn sự kiện trong văn bản tin tức tiếng Việt Phan Thị Thuận Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04 Người hướng dẫn: TS.. Hệ thốn

Trang 1

Trích chọn sự kiện trong văn bản tin tức tiếng Việt

Phan Thị Thuận

Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04

Người hướng dẫn: TS Nguyễn Trí Thành

Năm bảo vệ: 2014

Keywords Hệ thống thông tin; Trích chọn thông tin; Văn bản tiếng Việt

Content

Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM) Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trên thế giới và đã thu được nhiều kết quả trong thực tế Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau như kinh tế, văn hóa, y tế, xã hội (chẳng hạn như thông tin về các vụ tai nạn giao thông), chính trị, Theo những con số thống kê trên các trang báo điện tử về con số tai nạn hàng năm, như: thông

tin đăng trên báo điện tử http://binhduong.gov.vn, sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị

trực tuyến tổng kết công tác trật tự an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013”

do Phó Thủ tướng Chính phủ Nguyễn Xuân Phúc chủ trì Trong hội nghị, Ủy ban An toàn giao thông

ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết

9.838 người, bị thương 38.060 người Cũng theo báo điện tử http://hanoimoi.com.vn, ngày

31-12-2013, Phó Thủ tướng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội nghị trực tuyến với các bộ, ngành, địa phương nhằm tổng kết công tác bảo đảm trật tự ATGT năm

2013 và triển khai nhiệm vụ năm 2014 Theo thống kê của Ủy ban ATGT Quốc gia, năm 2013 cả

nước đã xảy ra 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người

Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thương vong là rất lớn Mặt khác, bản tin vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai nạn, kết quả của quá trình này sẽ được thống kê thành các con số hữu ích giúp các nhà quản lý và

người dân tham gia giao thông đúng cách Đó cũng là lý do, tác giả chọn và nghiên cứu đề tài“Trích

chọn sự kiện trong văn bản tin tức tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn Chi tiết

luận văn được chia thành 4 chương:

Chương 1 Giới thiệu đề tài

Chương này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh bùng nổ thông tin trên Internet Hơn nữa nêu lên được ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng của đề tài trích chọn sự kiện vụ tai nạn giao thông trên miền văn bản tiếng Việt

Chương 2.Một số phương pháp tiếp cận

Trang 2

Chương này tập trung trình bày các phương pháp tiếp cận cho bài toán trích chọn sự kiện đó là, phương pháp tiếp cận dựa trên tâp luật, phương pháp tiếp cận dựa trên học máy, phương pháp tiếp cận kết hợp luật và học máy, trong mỗi phương pháp đều có nhận xét hữu ích Từ đó, luận văn sẽ chỉ

ra phương pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn

Chương 3 Đề xuất mô hình trích chọn sự kiện vụ tai nạn

Chương này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn sự kiện vụ tai nạn Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết cho hai bài toán: phát hiện sự kiện và

trích chọn sự kiện

Chương 4 Thực nghiệm và đánh giá

Chương này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề xuất dựa trên hai bài

toán, đó là: bài toán phát hiện sự kiện và bài toán trích chọn sự kiện Ba độ đo được sử dụng trong

pha phát hiện sự kiện là độ chính xác (P - Precision), độ hồi tưởng (R - Recall), và độ đo F1 (F1-score) và so sánh với kết quả đánh giá thủ công (bằng tay) cho pha trích chọn sự kiện Thống kê và đánh giá (biểu đồ) các thuộc tính đã được trích chọn

Phần kết luận: trình bày kết quả đạt được của luận văn, những hạn chế và hướng phát triển của

luận văn trong tương lai

References

Tài liệu tiếng Anh

[1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai

400076, India,

[2] Douglas E Appelt Introduction to information extraction technology In Tutorial held at

IJCAI-99, Stockholm, Sweden, 1999

[3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim Unsupervised event extraction from

biomedical literature using co-occurrence information and basic patterns In: 1st International Joint

Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science

Springer-Verlag Berlin Heidelberg, vol 3248:777 786, 2004

[4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong An overview of

event extraction from text Workshop on Detection, Representation, and Exploitation of Events in the

Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011),

779:pp 48 57, 2011.10

[5] M.A Hearst Automatic acquisition of hyponyms from large text corpora In: 14th Conference on

Computational Linguistics (COLING 1992), vol 2:539 545, 1992

[6] M.A Hearst Wordnet: An electronic lexical database and some of its applications In Automated

Discovery of WordNet Relations, pp 131 151 MIT Press, 1998

[7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar Semi-automatic financial events

discovery based on lexico-semantic patterns International Journal of Web Engineering and

Technology, 6(2):115 140, 2010

[8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian Ontology-based fuzzy event extraction agent

for chinese e-news summarization In Expert Systems with Applications 25(3), 431 447, 2003

[9] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood:

Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS

2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181 192,

2009

Trang 3

[10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang Extracting key entities and

significant events from online daily news In: 9th International Conference on Intel- ligent Data

Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201 209, 2008

[11] L Peshkin and A Pfeffer Bayesian information extraction network In Proc.of the 18th

International Joint Conference on Artificial Intelligence (IJCAI), 2003

[12] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg Extracting violent events from

on-line news for ontology population In: 10th International Conference on Business Information

Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol

4439:287 300, 2007

[13] Silja Huttunen Ralph Grishman and Roman Yangaber Information extraction for enhenced

access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236 246, 2002

[14] Ai Kawazoe Son Doan and Nigel Collier Global health monitor - a web-based system for

detecting and mapping infectious diseases Proc International Joint Conference on Natural

Language Processing (IJCNLP), Companion Volume,Hyderabad, India:pp 951 956, 2008

[15] William H Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru Animal disease event

recognition and classification 2010

[16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii Event extraction from

biomedical papers using a full parser In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp

408 419, 2001

[17] Helen L Johnson Chris Roeder Philip V Ogren-William A Baumgartner Jr Elizabeth White Hannah Tipney K Bretonnel Cohen, Karin Verspoor and Lawrence Hunter High-precision

biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task

collocated with the NAACL-HLT 2009 Meeting pp 50 58 Association for Computational Linguistics, 2009

[18] S Soderland, “Learning information extraction rules for semi-structured and free text,” Machine

Learning, vol 34, 1999

[19] H Cunningham, D Maynard, K Bontcheva, and V Tablan, “Gate: A framework and graphical

development environment for robust nlp tools and applications,” in Proceedings of the 40th

Anniversary Meeting of the Association for Computational Linguistics, 2002

[20] W Shen, A Doan, J F Naughton, and R Ramakrishnan, “Declarative information extraction

using datalog with embedded extraction predicates,” in VLDB, pp 1033–1044, 2007

[21] Ralph Grishman and Beth Sundheim Message understanding conference-6: a brief history

Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA, USA, Volume 1:pp 466 471, 1996

[22] Doddington George R The automatic content extraction (ace) program tasks, data, and

evaluation In LREC, 2004

[23] Keita Sato Nishihara, Yoko and Wataru Sunayama Event extraction and visualization for

obtaining personal experiences from blogs In: Symposiumon Human Interface 2009 on Human

Interface and the Management of Information Information and Interaction Part II Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 5618:315 324, 2009

[24] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction

system In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp 76 83

Association for Computational Linguistics, 2000

Trang 4

[25] Huanye Sheng Li Fang and Dongmo Zhang Event pattern discovery from the stock market

bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in

Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534:35 49, 2002

[26] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic

population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence

(WI 2004) pp 615 618 , 2004

[27] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and

Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent

Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220 229, 2008

Ngày đăng: 25/08/2015, 13:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w