1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận xâu chuỗi văn bản theo sự kiện

54 456 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 0,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với mục tiêu giúp con người nắm được bức tranh toàn cảnh về các nguồn văn bản trên mạng hay cụ thể ở đây là các văn bản dạng tin tức dựa trên chuỗi các sự kiện xảy ra là sự ra đời của bà

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Mạnh Cường

XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: công nghệ thông tin

HÀ NỘI – 2013

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Mạnh Cường

XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: công nghệ thông tin

Cán bộ hướng dẫn: TS Phan Xuân Hiếu

Cán bộ đồng hướng dẫn: ThS Trần Mai Vũ

Trang 3

VIETNAM NATIONNAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Cuong Le Manh

EVENT – ORIENTED DOCUMENT GROUPING

Major: Information Technology

Supervisor: Dr Hieu Phan Xuan

Co-Supervisor: M.s Vu Tran Mai

HA NOI – 2013

Trang 4

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy, TS Phan Xuân Hiếu, ThS Trần Mai Vũ và cử nhân Nguyễn Minh Tiến, những người đã tận tình hướng dẫn tôi trong quá trình thực hiện khóa luận tốt nghiệp

Tôi cảm ơn các thầy, cô trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho tôi học tập và nghiên cứu tại đây

Tôi xin cảm ơn các anh chị và các bạn trong phòng thí nghiệm Công nghệ Tri thức KT-Lab đã hỗ trợ tôi về mặt kiến thức chuyên môn cũng như thực nghiệm để tôi hoàn thành khóa luận tốt hơn

Tôi cũng xin cảm ơn các bạn trong lớp K54CD và K54C–CLC đã ủng hộ, giúp

đỡ tôi trong thời gian tôi học tập ở trường

Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình và bạn bè, những người đã khích lệ, động viên tôi giúp tôi vượt qua những khó khăn

Tôi xin chân thành cảm ơn

Hà Nội, ngày 15 tháng 5 năm 2013

Lê Mạnh Cường

Trang 5

XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN

Lê Mạnh Cường

Khóa QH-2009-I/CQ, ngành Công nghệ thông tin

Tóm tắt khóa luận tốt nghiệp

Dữ liệu đang bùng nổ một cách chóng mặt, nhu cầu trích chọn thông tin của con người ngày một tăng Bài toán xâu chuỗi văn bản là một trong những vấn đề lớn đang được quan tâm hiện nay Với mục tiêu giúp con người nắm được bức tranh toàn cảnh về các nguồn văn bản trên mạng hay cụ thể ở đây là các văn bản dạng tin tức dựa trên chuỗi các sự kiện xảy ra

là sự ra đời của bài toán xâu chuỗi văn bản theo sự kiện Trong phạm vi khóa luận tìm hiểu

về một số tiếp cận phát hiện sự kiện trong văn bản cũng như mốt số tiếp cận dùng để xâu chuỗi các sự kiện trong văn bản Với mục tiêu phát hiện sự kiện trong văn bản tìm hiểu về hướng tiếp cận sử dụng độ đo TF – IDF, còn với mục tiêu là phát hiện chuỗi sự kiện dùng để xâu chuỗi văn bản, tìm hiểu hai tiếp cận Tiếp cận đầu tiên cũng sử dụng độ đo TF – IDF còn tiếp cận thứ hai sử dụng độ tương đồng của các thông tin thời gian – địa điểm của sự kiện

Về phần phương pháp đề xuất cho loại văn bản tin tức sử dụng phương pháp xâu chuỗi dựa trên tiêu đề các trang tin tức vì thực tế là hầu hết tiêu đề của tin tức đã nêu rõ nội dung của sự kiện Tác giả xây dựng các từ điển danh từ, động từ, thực thể và các luật để bắt sự kiện sau đó dùng độ tương đồng cô-sin giữa các từ/cụm từ để gom nhóm các sự kiện Cuối cùng sử dụng yếu tố thời gian để xâu chuỗi sự kiên Từ chuỗi sự kiện phát hiện được trên các tiêu đề

ta tiến hành xâu chuỗi các văn bản tương ứng với các tiêu đề đó

Từ khóa: xâu chuỗi văn bản, sự kiện, chuỗi sự kiện

Trang 6

EVENT – ORIENTED DOCUMENT GROUPING

to detect events in a document The second approach also uses TF – IDF measures but it aims

to group documents The last approach uses time and place information to detect event sequence

In this thesis, the author proposes a method for on-line news documents The method uses title of these documents to group them Firstly, the author builds a dictionary which consists of noun phrases, verb phrases and entity names Then author uses the dictionary and rules to detect event Afterwards the method uses cosine similar measure and time feature to group documents by grouping their titles

Keywords: document grouping, event, event sequence

Trang 7

Lời cam đoan

Tôi xin cam đoan phương pháp tôi sử dụng để Xâu chuỗi văn bản theo sự kiện là

công trình nghiên cứu của tôi, có sự giúp đỡ từ hai người thầy hướng dẫn của tôi là TS Phan Xuân Hiếu và Th.S Trần Mai Vũ Các nội dung và kết quả trong đề tài này là do tác giả thực hiện, không sao chép từ bất cứ nguồn nào có sẵn

Tất cả những tham khảo từ các nghiên cứu liên quan đều được trích dẫn một các

rõ ràng từ danh mục tài liệu tham khảo của khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày 15 tháng 5 năm 2013

Lê Mạnh Cường

Trang 8

Mục lục

Lời nói đầu 1

Chương 1: Tổng quan bài toán xâu chuỗi văn bản theo sự kiện 3

1.1 Trích chọn thông tin 3

1.1.1 Bùng nổ dữ liệu 3

1.1.2 Trích chọn thông tin 3

1.2 Sự kiện và trích chọn sự kiện 4

1.2.1 Định nghĩa sự kiện 5

1.2.2 Trích chọn sự kiện 5

1.3 Bài toán xâu chuỗi văn bản theo sự kiện 6

1.3.1 Tổng quan 6

1.3.2 Định nghĩa chuỗi sự kiện 6

1.3.3 Bài toán xâu chuỗi văn bản theo sự kiện 7

1.3.4 Phát hiện sự kiện khởi đầu và quyết định chuỗi 8

1.4 Ý nghĩa của bài toán xâu chuỗi văn bản theo sự kiện 8

1.5 Khó khăn và thách thức 9

1.6 Tóm tắt chương 10

Chương 2: Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện 11

2.1 Hướng tiếp cận độ đo TF – IDF để phát hiện sự kiện 11

2.2 Hướng tiếp cận độ đo TF – IDF để xâu chuỗi sự kiện 12

2.3 Hướng tiếp cận sử dụng độ tương đồng các thông tin và địa điểm để xâu chuỗi sự kiện 13

2.3.1 Thông tin về thời gian của sự kiện 13

2.3.2 Thông tin về địa điểm của sự kiện 13

2.4 Nhận xét và đánh giá 15

2.5 Tóm tắt chương 15

Trang 9

Chương 3: Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng của cụm trên ngôn

ngữ tiếng Việt 16

3.1 Mô tả bài toán 16

3.2 Phương pháp đề xuất 16

3.2.1 Giai đoạn phát hiện sự kiện 16

3.2.2 Giai đoạn xâu chuỗi sự kiện 17

3.3 Mô hình đề xuất để giải quyết bài toán 19

3.4 Một số đánh giá về phương pháp giải quyết 21

3.5 Tóm tắt chương 22

Chương 4 Thực nghiệm và đánh giá 23

4.1 Môi trường thực nghiệm 23

4.1.1 Cấu hình phần cứng 23

4.1.2 Môi trường phần mềm 23

4.2 Xây dựng từ điển và các luật nhận biết sự kiện 24

4.2.1 Xây dựng từ điển 24

4.2.2 Xây dựng các luật 25

4.3 Thực nghiệm 25

4.3.1 Dữ liệu thực nghiệm 25

4.3.2 Quá trình thực nghiệm 26

4.4 Kết quả và nhận xét kết quả 27

4.4.1 Phần phát hiện sự kiện 27

4.4.2 Phần xâu chuỗi sự kiện 28

4.5 Đánh giá 32

4.5.1 Phương pháp đánh giá 32

4.5.2 Đánh giá 33

4.6 Tóm tắt chương 35

Tổng kết 36

Trang 10

Định hướng tương lai 37

Tài liệu tham khảo 38

Phụ lục 41

Trang 11

Danh sách hình vẽ

Hình 1 Sự tăng trưởng dung lượng dữ liệu giai đoạn 2004-2020 4

Hình 2 Minh họa một chuỗi sự kiện 7

Hình 3 Minh họa sự kiện khởi đầu 8

Hình 4 Mô hình giải quyết bài toán 20

Hình 5 Mô tả một phần của dữ liệu 26

Hình 6 Thống kê số sự kiện phát hiện được trên các chủ đề từ 6/3 đến 7/5 28

Hình 7 Thống kê các sự kiện được phát hiện từ 8/4 đến 7/5 29

Hình 8 Số cụm phát hiện được khi sử dụng ba độ đo tương đồng 29

Hình 9 Số cụm và số sự kiện lớn nhất trong các cụm từ 8/4 đến 7/5 31

Hình 10 Thống kê trên bộ luật thứ hai 32

Hình 11 Tỉ lệ lỗi trên các chủ đề (theo tập luật thứ nhất) 34

Trang 12

Danh sách bảng biểu

Bảng 1 Cấu hình phần cứng 23

Bảng 2 Môi trường phần mềm 23

Bảng 3 So sánh giữa sự kiện nóng nhất giữa hệ thống với thực tế 31

Bảng 4 Kết quả xâu chuỗi sự kiện 35

Trang 14

1

Lời nói đầu

Xâu chuỗi văn bản theo sự kiện thực chất là bài toán phát hiện và theo dõi sự kiện – một bài toán đã được cộng đồng khoa học quan tâm từ khá lâu Bài toán được phát biểu tường minh là xác định sự kiện trong các văn bản rồi từ những sự kiện đã phát hiện quay trở lại xâu chuỗi văn bản Hội nghị Message Understanding Conferences MUC1 hay các chương trình phát hiện và theo dõi chủ đề TDT2, trích xuất các nội dung tự động ACE3 đã dày công nghiên cứu vấn đề này Có nhiều hướng tiếp cận về học máy (k – NN, cây quyết định…) cũng như thống kê (TF – IDF) được đưa ra trong quá trình tìm hiểu và giải quyết bài toán Hiện nay, trên thế giới có nhiều hệ thống xác định sự kiện cũng như chuỗi sự kiện từ các văn bản dạng tin tức được cập nhập hàng ngày, ví dụ như BioCaster (http://born.nii.ac.jp/), HealthMap (http://healthmap.org/) hay hệ thống VnLoc của Việt Nam (http://vnloc.com/) Việc dữ liệu đang tăng trưởng với một tốc độ chóng mặt trở thành động lực cũng như thách thức không nhỏ cho bài toán

Khóa luận Xâu chuỗi văn bản theo sự kiện khảo sát một số phương pháp phát

hiện sự kiện và chuỗi sự kiện Dựa trên cơ sở đó, tác giả nghiên cứu và đề xuất phương pháp xâu chuỗi văn bản hướng sự kiện thực hiện trên miền văn bản tin tức tiếng Việt Phương pháp được đề xuất bao gồm hai giai đoạn chính là phát hiện sự kiện và xâu chuỗi các sự kiện đó Ở giai đoạn thứ nhất, tác giả sử dụng hệ thống luật và từ điển do tác giả nghiên cứu và xây dựng để phát hiện sự kiện Ở giai đoạn thứ hai, các sự kiện được đánh giá dưới ba độ đo tương đồng thử nghiệm với ngưỡng là 0.2 và dùng đặc trưng thời gian để xâu chuỗi sự kiện Quá trình thực nghiệm thu được kết quả tương đối khả quan Điều này chứng tỏ tính đúng đắn của phương pháp tác giả sử dụng cũng như tính thực tiễn với miền tin tức tiếng Việt Sử dụng tiêu đề để phát hiện và xâu chuỗi sự kiện có thể không chính xác bằng việc xử lý cả đoạn văn nhưng lại rút ngắn được nhiều thời gian Bên cạnh đó nếu xây dựng các từ điển và bộ luật tốt hướng tới từng chủ đề riêng thì phương pháp này sẽ có độ chính xác cao

Khóa luận bao gồm bốn chương được mô tả như dưới đây

Chương 1 Tổng quan bài toán xâu chuỗi văn bản theo sự kiện giới thiệu về trích

chọn thông tin trong giai đoạn dữ liệu bùng nổ mạnh mẽ, sau đó giới thiệu khái quát

Trang 15

2

bài toán xâu chuỗi văn bản, ý nghĩa bài toán cũng như một số khó khăn thách thức mà bài toán đối mặt

Chương 2 Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện trình bày một

phương pháp để phát hiện sự kiện và hai phương pháp phát hiện chuỗi sự kiện dùng để

hỗ trợ cho bài toán mà tác giả hướng đến

Chương 3 Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng của cụm từ

trên ngôn ngữ tiếng Việt mô tả rõ ràng bài toán xâu chuỗi văn bản trên miền tin tức

tiếng Việt Chương này cũng trình bày phương pháp giải quyết bài toán dựa trên hai giai đoạn chính là phát hiện sự kiện và xâu chuỗi các sự kiện đã được phát hiện Giai đoạn phát hiện sự kiện dựa trên tập luật và tập dữ liệu mà tác giả đã xây dựng Giai đoạn sau sử dụng độ đo tương đồng giữa các cụm từ để xâu chuỗi sự kiện

Chương 4 Thực nghiệm và đánh giá thể hiện quá trình thực hiện phương pháp đã

được nêu trong chương 3, sau đó đánh giá kết quả thực nghiệm

Tiếp theo là phần tổng kết khóa luận cùng với định hướng tương lai Phần này khái quát lại toàn bộ công trình và đưa ra một số định hướng mới trong thời gian tiếp theo

Cuối cùng là danh mục Tài liệu tham khảo chỉ ra các tài liệu mà tác giả đã tham khảo trong suốt quá trình thực hiện khóa luận Việc sử dụng các tài liệu này trong khóa luận được trích dẫn một cách rõ ràng

Trang 16

3

Chương 1: Tổng quan bài toán xâu chuỗi văn bản theo sự kiện

1.1 Trích chọn thông tin

1.1.1 Bùng nổ dữ liệu

Dữ liệu do con người tạo ra đang tăng lên với một tốc độ chóng mặt Theo thống

kê gần đây của tổ chức NOAA (National Oceanic and Atmospheric Administration), dung lượng dữ liệu dữ liệu đạt gần 80,000 Terabytes tính đến tháng 4 năm 2013 Cũng theo tổ chức này, dự báo đến năm 2020 sẽ tăng lên đến 160,000 Terabytes (chi tiết tại hình 14)

Trong một cuốn sách mang tên Megatrends: Ten New Directions Transforming Our Lives, tác giả John Naisbitt nhận định

We are drowning in information, and starved for knowledge [11]

(Chúng ta đang chìm ngập trong thông tin nhưng lại thiếu thốn tri thức)

Điều đó có nghĩa có nhiều thông tin chưa chắc đã có nhiều tri thức Quá trình biến đổi từ dữ liệu thành tri thức là một quá trình mang tính bản chất và lâu dài Bên cạnh đó tri thức thường mang tính chất đặc riêng của từng miền, để thu thập và biến đổi dữ liệu thành tri thức cần có những nghiên cứu và công cụ hỗ trợ cho quá trình này

1.1.2 Trích chọn thông tin

Như đã đề cập ở trên, thông tin không phải ngẫu nhiên mà nắm bắt được Yêu cầu đặt ra cho lĩnh vực trích chọn thông tin là có thể trích xuất các thông tin có ích từ một tập dữ liệu lớn

Với phạm vi văn bản, theo phân loại của Sunita Sarawagi, có nhiều mức trích chọn thông tin chẳng hạn như nhận dạng thực thể, xác định thuộc tính thực thể, xác định quan hệ giữa các thực thể, nhận dạng đồng tham chiếu… [15] Tùy theo từng lĩnh vực cụ thể, người ta xây dựng và áp dụng một số phương pháp để tăng hiệu quả trích xuất Có hai phương pháp điển hình đó là dựa trên luật hoặc dựa trên thống kê Với phương pháp dựa trên luật có thể kể đến như là luật nhận dạng đơn thực thể, luật nhận dạng đa thực thể, luật đánh dấu biên thực thể, …) còn với phương pháp thống kê người

4

http://celebrating200years.noaa.gov/visions/data_mgmt/image14.html

Trang 17

1.2 Sự kiện và trích chọn sự kiện

Trích chọn sự kiện được cộng đồng khoa học quốc tế đầu tư nghiên cứu từ khá sớm Hội nghị MUC5 được tổ chức lần đầu tiên năm 1987 dưới sự hỗ trợ của Quỹ nghiên cứu bộ quốc phòng Hoa Kỳ là một trong những hội nghị tiêu biểu trong trích chọn sự kiện Hội nghị đã đưa ra phương pháp trích chọn sự kiện theo khung mẫu với mục đích là trích chọn bằng cách lấy các thông tin liên quan đến sự kiện Bên cạnh đó, các chương trình TDT6 (Phát hiện và theo dõi chủ đề) được tổ chức hàng năm từ năm

1997 đã bước đầu giải quyết được bài toán phát hiện sự kiện mới, theo dõi và xâu chuỗi sự kiện Có nhiều nhóm nghiên cứu tham gia chương trình như nhóm BBN từ công ty BBN Technologies, nhóm CMU của trường đại học Carnegie Mellon, nhóm DRAGON của công ty Dragon Systems … Mỗi nhóm đều đưa ra những tiếp cận riêng

và góm phần nâng cao kết quả của lĩnh vực trích chọn sự kiện

Trang 18

5

1.2.1 Định nghĩa sự kiện

Tùy theo từng lĩnh vực và dữ liệu người ta có nhiều cách định nghĩa sự kiện Trên miền tin tức, Allan và cộng sự định nghĩa tin tức chứa sự kiện nếu nó có bốn yếu tố: hành vi, chủ thể, thời gian và địa điểm [3] Hội nghị MUC quan tâm đến các sự kiện về khủng bố, quân sự, đầu tư mạo hiểm, tai nạn máy bay… Định nghĩa sự kiện mà hội nghị đưa ra phải có đủ các yếu tố: tác nhân, thời gian, địa điểm và các tác động của nó Còn trong chương trình ACE7

(Automatic Content Extraction), sự kiện đơn giản là một sự thay đổi trạng thái Loại sự kiện và các thuộc tính sự kiện được quy định chặt chẽ hơn Có tám loại sự kiện được sử dụng bao gồm business (kinh tế), conflict (xung đột), contact (liên lạc), justice (pháp lý), life (cuộc sống), movement (sự di chuyển), personnel (nhân sự) và transaction (giao dịch) Mỗi loại sự kiện sau đó lại được chia thành từng dạng con Ví dụ như trong justice bao gồm một số dạng như arrest – jail (bắt giữ – bỏ tù ), convict (kết án), fine (phạt)…[1] Hay như trong hệ thống VnLoc sự kiện được định nghĩa là bộ bảy đặc trưng bao gồm tên sự kiên, loại sự kiện, thời gian xảy ra sự kiện, nơi xảy ra sự kiện, nguồn đưa tin, liên kết và tóm tắt của sự kiện đó Cũng theo VnLoc thì sự kiện họ quan tâm thuộc một trong ba loại: tai nạn giao thông, hình sự, cháy nổ

Thông thường các nghiên cứu thường chỉ giải quyết vấn đề trong một lĩnh vực cụ thể Yoko Nishihara quan tâm sự kiện trong lĩnh vực mạng xã hội [13] trong khi Hong-woo Chun hay K Bretonnel Cohen lại tập trung vào sự kiện y sinh [5] [6] Bên canh

đó người ta cũng quan tâm đến các mối nguy hiểm đe dọa [17], …

Trong phạm vi khóa luận, tác giả quan tâm đến sự kiện thuộc một trong mười chủ

đề thuộc mục thế giới trên một số trang tin tức tiếng Việt Cụ thể là các chủ đề: bầu cử, chiến tranh – quân sự, hàng không – vũ trụ, hạt nhân, khủng bố, khủng hoảng kinh tế, ngoại giao, tham nhũng, tin tặc và tranh chấp chủ quyền Sự kiện ở đây là sự thay đổi trạng thái ứng với tác động của các cụm danh từ và cụm động từ

1.2.2 Trích chọn sự kiện

Trích chọn sự kiện là lĩnh vực con của trích chọn thông tin Nhiệm vụ của trích chọn sự kiện là nhận biết và trích chọn được các thông tin về sự kiện từ tập dữ liệu Cụ thể hơn trích chọn sự kiện tập trung phát hiện sự kiện với miền lĩnh vực cho trước, sau

đó trích được ra các đặc trưng của sự kiện như thời gian, địa điểm…

7

http://projects.ldc.upenn.edu/ace/

Trang 19

6

Trích chọn sự kiện thực sự là một bài toán khó Ngoài vấn đề về việc xây dựng các bộ nhận dạng sự kiện thì nó còn phải đối mặt với các khó khăn chung về xử lý ngôn ngữ tự nhiên, hay tính nhập nhằng ngữ cảnh

1.3 Bài toán xâu chuỗi văn bản theo sự kiện

1.3.1 Tổng quan

Dưới góc nhìn sự kiện, bài toán xâu chuỗi văn bản chính là bài toán phát hiện chuỗi sự kiện Giám sát một tập dữ liệu để tìm ra các văn bản cùng nói về một sự kiện

và xâu chuỗi theo thứ tự thời gian chính là định nghĩa của chuỗi sự kiện Chẳng hạn về

sự kiện “Khủng bố ở cuộc đua ma-ra-tông Boston”, chúng ta muốn theo dõi diễn biến cũng như kết quả cho đến khi sự kiện kết thúc Yêu cầu đặt ra là cần xâu chuỗi các văn bản theo diễn biến của sự kiện từ nguồn thông tin trên các trang báo được cập nhật liên tục

Các trang báo mạng rất quan tâm đến vấn đề xâu chuỗi các văn bản cụ thể ở đây

là tin tức Cách tiếp cận hiện nay của các trang báo mạng là cách làm thủ công, tức là gắn văn bản với các sự kiện liên quan đã có bằng cách trỏ liên kết bằng tay Cách làm này không những bị động mà còn mang tính cục bộ, tức là trang báo mạng nào cũng thực hiện nhưng lại không có liên kết với nhau Một yêu cầu đặt ra cho miền Tiếng Việt là cần có một hệ thống phát hiện và theo dõi sự kiện của văn bản, hay có thể nói gọn là xâu chuỗi văn bản theo sự kiện

1.3.2 Định nghĩa chuỗi sự kiện

Bài toán chuỗi sự kiện được cộng đồng khoa học quốc tế quan tâm từ khá sớm Như đã đề cập ở phần đầu, đây là một trong những nội dung chính của chương trình TDT Ở TDT–1, người ta chỉ tập trung vào hai dạng dữ liệu, đó là tin tức dưới dạng văn bản và tin tức từ phát thanh, truyền hình Bên cạnh đó, hội nghị TREC–68

(Text REtrieval Conference) cũng quan tâm đến bài toán chuỗi sự kiện nhưng có đôi chút khác biệt so với TDT–1 Trong khi TDT–1 quan tâm đến sự kiện và hướng phát hiện chuỗi sự kiện thì TREC–6 xâu chuỗi văn bản theo cùng chủ đề

Theo Heikki Mannila, một sự kiện được mô tả là cặp (A,t) với A là các thông tin liên quan đến sự kiện, t là thời gian xảy ra sự kiện [10] Tập sự kiện E cho trước và A

E

8

http://trec.nist.gov/

Trang 20

Ts là thời gian bắt đầu chuỗi sự kiện

Te là thời gian kết thúc chuỗi sự kiện

Ts ti TeHình 2 [10] minh họa một ví dụ về chuỗi sự kiện S = (s, 29,67)

với s = < (E, 31), (D, 32), (F, 33), …, (D, 67)>

Hình 2 Minh họa một chuỗi sự kiện [10]

1.3.3 Bài toán xâu chuỗi văn bản theo sự kiện

Thực chất bài toán xâu chuỗi văn bản theo sự kiện chính là bài toán phát hiện chuỗi sự kiện Đầu vào yêu cầu là một tập văn bản còn đầu ra chính là tập văn bản đó nhưng đã được xâu chuỗi theo sự kiện Mỗi văn bản có một ứng viên sự kiện, đầu tiên người ta tiến hành xâu chuỗi các sự kiện ứng viên, sau đó quay trở lại xâu chuỗi văn bản Như vậy theo hướng sự kiện, bài toán xâu chuỗi văn bản phụ thuộc vào bài toán phát hiện chuỗi sự kiện

Theo Yang Yiming, bài toán phát hiện chuỗi sự kiện là một bài toán học có giám sát [19] Đầu tiên người ta xây dựng dữ liệu học dựa vào các sự kiện đã xảy ra sau đó

sử dụng mô hình học máy dựa trên bộ dữ liệu này để phát hiện văn bản được thêm vào

có chứa sự kiện thuộc những sự kiện đã được xây dựng hay không Có nhiều cách tiếp cận được sử dụng để giải quyết bài toán này Chẳng hạn các phương pháp học máy như k người láng giềng gần nhất k–NN [2], cây quyết định [18], [19] Các phương pháp thống kê như sử dụng trọng số TF–IDF được đề cập ở [3] hay thống kê tần suất xuất hiện của các cụm từ của nhóm Heikki Mannila [10] Ngoài ra còn có một số cách dựa trên mô hình ngôn ngữ như sử dụng mô hinh ngữ nghĩa của Ramesh Nallapati [12], hay như của công ty Dragon Systems [2]

Trang 21

8

Bài toán xâu chuỗi văn bản theo sự kiện bao gồm hai giai đoạn Giai đoạn thứ nhất là phát hiện sự kiện trong các văn bản Giai đoạn thứ hai là theo dõi và xâu chuỗi các sự kiện Một số vấn đề được quan tâm trong bài toán là phát hiện sự kiện khởi đầu, đánh giá sự kiện tương đồng và quyết định chuỗi

1.3.4 Phát hiện sự kiện khởi đầu và quyết định chuỗi

Chương trình TDT định nghĩa sự kiện khởi đầu là sự kiện chưa từng xảy ra và được nhắc đến trong quá khứ Hình 3 [4]dưới đây minh họa hai dạng sự kiện (hình thoi

và hình tròn) theo thứ tự tăng dần của thời gian Với luồng tin tức thu được từ các trang báo mạng chúng ta thu được rất nhiều sự kiện, nhiệm vụ của chúng ta là phải gom nhóm các tin tức cùng nói về một sự kiện Trong ví dụ này chúng ta cần đưa các

sự kiện hình thoi về một cụm và các sự kiện hình tròn về một cụm Để đưa các văn bản

về được một cụm cần dựa trên độ tương đồng giữa hai văn bản hay cụ thể hơn là phải dựa vào độ tương đồng giữa hai sự kiện Bên cạnh đó cần phải xem xét và đánh giá các sự kiện trùng lặp Sau khi đưa được các sự kiện về các cụm chúng ta sử dụng yếu

tố thời gian để quyết định chuỗi sự kiện Trong khóa luận tác giả quan tâm đến vấn đề các sự kiện tương đồng phục vụ cho công việc xâu chuỗi

Hình 3 Minh họa sự kiện khởi đầu [4]

1.4 Ý nghĩa của bài toán xâu chuỗi văn bản theo sự kiện

Về mặt khoa học, bài toán xâu chuỗi văn bản có ý nghĩa rất lớn Đầu tiên, việc có thể tập trung các văn bản có liên quan lại với nhau giúp con người có thể dễ dàng tìm thông tin cần thiết một cách nhanh chóng Bên cạnh đó, khi các văn bản được xâu chuỗi theo sự kiện, bài toán có thể giúp chúng ta dự đoán xu hướng sự kiện, theo dõi các xu hướng mà cộng đồng quan tâm Việc nắm được diễn biến của sự kiện giúp con

Trang 22

9

người chủ động hơn trong tình hình cuộc sống hiện nay Cuối cùng bài toán là một lĩnh vực con của bài toán trích chọn thông tin Giải quyết tốt bài toán là cơ sở để giải quyết những bài toán liên quan, chẳng hạn như giám sát thông tin trong các bài toán quản lý

xã hội

Bài toán xâu chuỗi văn bản theo sự kiện cũng có ý nghĩa rất lớn trong thực tiễn Với bối cảnh bùng nổ dữ liệu cụ thể trong mảng tin tức chúng ta có thể thấy thông tin xuất hiện rất nhiều nhưng lại rất rời rạc Người dùng không thể nắm được bước tranh toàn cảnh về những gì đang diễn ra trong cuộc sống Chẳng hạn một người quan tâm đến sự kiện “Khủng bố ở Boston” vừa diễn ra trong tháng tư vừa qua thì với lượng tin tức cập nhật liên tục nhưng lại không theo quy luật cụ thể nào có thể khiến người đó gặp rất nhiều rắc rối trong việc nắm thông tin Đơn giản người ta chỉ muốn xem diễn biến của sự kiện trên nhưng họ buộc phải tìm kiếm tuần tự để thực hiện điều đó Yêu cầu đặt ra cho bài toán xâu chuỗi văn bản là cố gắng đưa các văn bản nói về một sự kiện về cùng một nhóm sau đó trình bày theo thứ tự thời gian để người dùng có thể nắm được rõ ràng diễn biến sự kiện Trên thế giới hiện nay có rất nhiều hệ thống theo dõi các sự kiện từ luồng tin tức Điển hình có thể kể đến như HealthMap của Hoa Kỳ hay BioCaster của Nhật Bản Ở Việt Nam cũng có hệ thống VnLoc9 theo dõi các sự kiện đời sống như tai nạn, hỏa hoạn, dịch bênh… Không những vậy các hệ thống thường được thể hiện trực quan trên bản đồ giúp người dùng dễ dàng theo dõi

1.5 Khó khăn và thách thức

Được nhận định là một bài toán khó vì phải trải qua bài toán xâu chuỗi sự kiện nên dễ hiểu là bài toán phải đối mặt với nhiều khó khăn Bài toán gặp một số khó khăn trong cả giai đoạn phát hiện sự kiện trong văn bản cũng như là xâu chuỗi các sự kiện

Về giai đoạn phát hiện sự kiện, bài toán gặp những khó khăn chung của lĩnh vực

xử lý ngôn ngữ tự nhiên trên Tiếng Việt Bên cạnh đó, bài toán đối mặt với các khó khăn về nhập nhăng ngữ cảnh, tính đa tham chiếu cũng như tính đa hình cấu trúc ngữ pháp của văn bản Chẳng hạn như “Tổng thống Mỹ sang thăm Nhật Bản”, “Ông Barrack Obama trò chuyện với thủ tướng Nhật Bản”, … Vấn đề đồng tham chiếu cũng như sự biến đổi của thông tin trở thành thách thức lớn Trong khóa luận tác giả chưa giải quyết được vấn đề đồng tham chiếu

9

http://vnloc.com/

Trang 23

10

Về giai đoạn xâu chuỗi sự kiện, bài toán gặp khó khăn trong việc xác định sự kiện khởi đầu cũng như đánh giá độ tương đồng giữa các sự kiện Bên cạnh đó bài toán phải đảm bảo tính đúng đắn của chuỗi sự kiện, tức là phải xác định được sự kiện nào đi trước sự kiện nào theo sau

Ngoài ra việc xây dựng được bộ phát hiện sự kiện gặp nhiều khó khăn Tác giả phải tìm hiểu rất nhiều bài báo và xây dựng được từ điển cũng như luật phục vụ cho công việc phát hiện sự kiện Việc này đòi hỏi tác giả phải can thiệp sâu vào dữ liệu, có những phân tích đúng đắn và tỉ mỉ trên miền ứng dụng thực hiện Trong khóa luận, tác giả thực hiện xây dựng mười chủ đề thuộc chuyên mục Thế giới trên các trang báo mạng Việc xử lý với một lượng lớn dữ liệu đòi hỏi nhiều thời gian cũng như công sức

1.6 Tóm tắt chương

Chương một đã nêu lên được một số vấn đề Đầu tiên là việc bùng nổ dữ liệu cũng như nhu cầu trích chọn thông tin Nhiều phương pháp được đưa ra cho lĩnh vực này Tiếp đó là nêu được tổng quan về sự kiện, chuỗi sự kiện và bài toán xâu chuỗi văn bản hướng sự kiện Đồng thời chương một cũng nêu được ý nghĩa thực tiễn của bài toán Cuối cùng là khó khăn thách thức chung của bài toán cũng như một số khó khăn của tác giả khi thực hiện trong một lĩnh vực cụ thể

Trang 24

11

Chương 2: Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện

Trong chương một đã giới thiệu tổng quan về bài toán xâu chuỗi văn bản theo sự kiên Bài toán này phải trải qua hai giai đoạn là phát hiện sự kiện và xâu chuỗi sự kiên

Ở chương này giới thiệu một phương pháp phát hiện sự kiện sử dụng độ đo TF – IDF

ở mục 2.1 Mục 2.2 và 2.3 sẽ trình bày hai phương pháp được sử dụng để xâu chuỗi sự kiện Phương pháp đầu tiên là hướng tiếp cận sử dụng độ đo TF – IDF còn phương pháp thứ hai dựa trên độ tương đồng các thông tin về thời gian cũng như địa điểm

2.1 Hướng tiếp cận độ đo TF – IDF để phát hiện sự kiện

Hướng tiếp cận sử dụng các độ đo TF – IDF là một trong những phương pháp được sử dụng trong thời kỳ mở đầu của bài toán phát hiện sự kiện

Để đánh giá khi so sánh văn bản d với tập đặc trưng q, Allan và cộng sự sử dụng hàm đánh giá sau [14]

Trong đó:

wi là độ liên quan của đặc trưng qi

di là độ tin cậy được thể hiện ở công thức 2.2

Độ tin cậy được tính bởi công thức sau:

t là số lần xuất hiện của đặc trưng trong tin tức

dl là độ dài của tin tức tính theo đơn vị từ

avg_dl là số lượng trung bình đặc trưng trong một tin tức

Độ đo IDF được tính bởi công thức 2.4

Trang 25

12

Trong đó:

C là số tin tức trong bộ ngữ liệu đã được chuẩn hóa

df là số lượng tin tức có ít nhất một đặc trưng xuất hiện

2.2 Hướng tiếp cận độ đo TF – IDF để xâu chuỗi sự kiện

Ngoài việc sử dụng trọng số TF – IDF để phát hiện sự kiện, người ta cũng sử dụng trọng số này để phát hiện chuỗi sự kiện Tiếp cận này dựa trên quan điểm các sự kiện trong cũng chuỗi thường có một số thuộc tính tương đồng hoặc trùng nhau Các

sự kiện được vec-tơ hóa để có thể tính độ tương đồng giữa chúng [16]

Gọi K = { k1, k2, …, kn,} là tập đặc trưng

Đối với mỗi tài liệu chứa sự kiện, độ đo TF và IDF được tính toán theo các công thức

Trong đó:

là số lần xuất hiện của từ khóa ki trong văn bản

là số lần xuất hiện cực đại của tất cả các từ khóa trong vănbản

Trong đó:

là số văn bản chứa đặc trưng ki

N là tổng số văn bản được xét tới

Tuy nhiên có một số trường hợp df(i) = 0 nên trong một số bài báo người ta có thể lấy mẫu số là 1+df(i)

Cuối cùng độ tương đồng giữa hai văn bản được tính bởi công thức

Bên cạnh đó có một số cải tiến nhằm nâng cao tính đúng đắn của chuỗi sự kiện, chẳng hạn có thể áp dụng các độ đọ TF – IDF ở phần 2.1 vào các công thức 2.3 và 2.4

Trang 26

ra trước đi trước còn sự kiện xảy ra sau đi sau

2.3.1 Thông tin về thời gian của sự kiện

Với khía cạnh thời gian có một số phương pháp đo độ tương đồng giữa thông tin của hai địa điểm

Juha Makkonen và cộng sự đưa ra công thức [9]:

Trong đó

covert(Xt, Yt) là độ bao phủ của Xt và Yt

Xt, Yt là các cụm tham chiếu sự kiện tương ứng của sự kiện X, Y

RWS’(Xt, Yt) là trọng số xếp hạng

Công thức cụ thể tác giả không đề cập chi tiết

Trong khi đó Baoli Li và cộng sự lại dựa trên độ tương đồng Cô-sin [8]

Trong đó

x = (x1, x2, …, xm)

y = (y1, y2, …, ym)

m là số lượng đặc trưng

2.3.2 Thông tin về địa điểm của sự kiện

Thông tin về địa điểm là một đặc trưng quan trọng của sự kiện Tuy nhiên thông tin địa điểm đôi khi gặp khó khăn trong quá trình trích xuất vì sự nhập nhằng cũng như tính đa cấp của địa điểm Do vậy tính toán độ tương đồng về địa điểm trở nên khó khăn hơn

Theo nghiên cứu của Yun Jin và cộng sự [7], độ tương đồng giữa thông tin về địa điểm được nên dựa trên 3 đặc trưng

Đặc trưng thứ nhất là độ tương đồng phân cấp:

Trang 27

14

Trong đó:

nt là từ điển địa điểm đã được làm giàu

nd là tập địa điểm trong tin tức

Đặc trưng thứ hai là độ đo vị trí của địa điểm:

Trong đó:

pos(nd) là vị trí câu chứa tên địa điểm tính từ 0

d là số lượng câu trong tin tức

Đặc trưng thứ ba là độ đo mức độ phù hợp của tên địa danh trong ngữ cảnh được

xét đến

Trong đó:

nd là số lần xuất hiện của một địa điểm đang được xem xét trong tin tức

Nd là số lần tất cả địa điểm xuất hiện trong tin tức

là một hằng số làm trơn Trong [7], người ta lấy = 0.5

Sử dụng ba đặc trưng ta được độ đo về mức độ tương đồng địa điểm

trong các trường hợp khác (2.13) Kết hợp độ tương đồng địa điểm với độ tương đồng nội dung ta được độ tương

đồng cuối cùng:

Trong đó

là độ tương đồng nội dung giữa hai tin tức t và d

là hệ số làm trơn, trong [7] người ta lấy

Ngày đăng: 12/11/2016, 08:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] David Ahn. “The stages of event extraction”, in Proceedings of the Workshop on Annotating and Reasoning about Time and Events, 2006, pp. 1-8 Sách, tạp chí
Tiêu đề: The stages of event extraction”, in "Proceedings of the Workshop on Annotating and Reasoning about Time and Events
[2] J. Allan, J. Carbonell, G. Doddington, J. Yamron, and Y. Yang. “Topic detection and tracking pilot study: Final report”, in Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, 1998, pp. 194-218 Sách, tạp chí
Tiêu đề: Topic detection and tracking pilot study: Final report”, in "Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop
[3] James Allan, Ron Papka, and Victor Lavrenko. “On-line new event detection and tracking”, in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998, pp. 37-45 Sách, tạp chí
Tiêu đề: On-line new event detection and tracking”, in "Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval
[4] Thorsten Brants, Francine Chen, Ayman Farahat. “A system for new event detection”, in Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, 2003, pp. 330-337 Sách, tạp chí
Tiêu đề: A system for new event detection”, in "Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval
[5] Hong-woo Chun, Young-sook Hwang, and Hae-Chang Rim. “Unsupervised event extraction from biomedical literature using co-occurrence informationand basic patterns”, in Proceedings of the First international joint conference on Natural Language Processing, 2005, pp. 777-786 Sách, tạp chí
Tiêu đề: Unsupervised event extraction from biomedical literature using co-occurrence informationand basic patterns”, in "Proceedings of the First international joint conference on Natural Language Processing
[6] K. Bretonnel Cohen, Karin Verspoor, Helen L. Johnson, Chris Roeder, Philip V. Ogren, William A. Baumgartner, Jr., Elizabeth White, Hannah Tipney, and Lawrence Hunter. “High-precision biological event extraction with a concept recognizer”, in Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing: Shared Task, 2009, pp. 50-58 Sách, tạp chí
Tiêu đề: High-precision biological event extraction with a concept recognizer”, in "Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing: Shared Task
[7] Baoli Li, Wenjie Li, and Qin Lu. “Enhancing topic tracking with temporal information”, in Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006, pp. 667-668 Sách, tạp chí
Tiêu đề: Enhancing topic tracking with temporal information”, in "Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval
[8] Yun Jin, Sung Hyon Myaeng, Yuchul Jung. “Use of place information for improved event tracking”. in Journal Information Processing and Management: an International Journal - Special issue: AIRS2005: Information retrieval research in Asia, volume 43 issue 2, 2007, pp. 365-378 Sách, tạp chí
Tiêu đề: Use of place information for improved event tracking”. in "Journal Information Processing and Management: an International Journal - Special issue: AIRS2005: Information retrieval research in Asia
[9] Juha Makkonen, Helena Ahonen-Myka, and Marko Salmenkivi. “Topic detection and tracking with spatio-temporal evidence”, in Proceedings of the 25th European conference on IR research, 2003, pp 251-265 Sách, tạp chí
Tiêu đề: Topic detection and tracking with spatio-temporal evidence”, in "Proceedings of the 25th European conference on IR research
[10] Heikki Mannila, Hannu Toivonen, and A. Inkeri Verkamo. “Discovery of frequent episodes in event sequences”, in Data Mining and Knowledge Discovery, 1997, pp. 259-289 Sách, tạp chí
Tiêu đề: Discovery of frequent episodes in event sequences”, in "Data Mining and Knowledge Discovery
[12] Ramesh Nallapati. “Semantic language models for topic detection and tracking”, in Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, volume 3, 1998, pp. 1-6 Sách, tạp chí
Tiêu đề: Semantic language models for topic detection and tracking”, in "Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology
[13] Yoko Nishihara, Keita Sato, and Wataru Sunayama. “Event extraction and visualization for obtaining personal experiences from blogs”, in Proceedings ofthe Symposium on Human Interface 2009 on Human Interface and the Management of Information. Information and Interaction. Part II: Held as part of HCI International 2009, pp. 315–324 Sách, tạp chí
Tiêu đề: Event extraction and visualization for obtaining personal experiences from blogs”, in "Proceedings ofthe Symposium on Human Interface 2009 on Human Interface and the Management of Information. Information and Interaction
[14] Ron Papka, James Allan. “On-Line New Event Detection using Single Pass Clustering”, in Technical Report at University of Massachusetts Amherst, 1998, pp. 1- 10 Sách, tạp chí
Tiêu đề: On-Line New Event Detection using Single Pass Clustering”, in "Technical Report at University of Massachusetts Amherst
[15] Sunita Sarawagi. “Information extraction”, in Journal Foundations and Trends in Databases, Volume 1 issue 3, 2008, pp. 261–377 Sách, tạp chí
Tiêu đề: Information extraction”, in "Journal Foundations and Trends in Databases
[16] J. M. Schultz and M. Liberman. “Topic detection and tracking using idf- weighted cosine coefficient”, in Proceedings of the DARPA Broadcast News Workshop, 1999, pp. 189–192 Sách, tạp chí
Tiêu đề: Topic detection and tracking using idf-weighted cosine coefficient”, in "Proceedings of the DARPA Broadcast News Workshop
[17] Hristo Tanev, Jakub Piskorski, and Martin Atkinson. “Real-Time News Event Extraction for Global Crisis Monitoring”, in Proceedings of the 13th international conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems, 2008, pp. 207-218 Sách, tạp chí
Tiêu đề: Real-Time News Event Extraction for Global Crisis Monitoring”, in "Proceedings of the 13th international conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems
[18] Yiming Yang, Jaime G. Carbonell, Ralf D. Brown, Thomas Pierce, Brian T.Archibald, and Xin Liu. “Learning approaches for detecting and tracking news events”, in Journal IEEE Intelligent Systems, volume 14 issue 4, 1999, pp. 32-43 Sách, tạp chí
Tiêu đề: Learning approaches for detecting and tracking news events”, in "Journal IEEE Intelligent Systems
[19] Yiming Yang, Tom Pierce, and Jaime Carbonell. “A study of retrospective and online event detection”, in Proceedings of the 21st annual international ACM Sách, tạp chí
Tiêu đề: A study of retrospective and online event detection”, in

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w