1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow

43 323 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Tác giả Ngô Quang Hiểu
Người hướng dẫn PGS.TS Hà Quang Thụy, ThS. Vũ Ngọc Trình
Trường học Đại học Quốc gia Hà Nội - Trường Đại học Công nghệ
Chuyên ngành Công Nghệ Thông Tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 43
Dung lượng 1,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khóa luận tốt nghiệp với đề tài “Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích và trích chọn chuỗi sự kiện đồng thời thực

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Ngô Quang Hiểu

PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Ngô Quang Hiểu

PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN

DẠNG HỆ THỐNG LIFEFLOW

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS Vũ Ngọc Trình

Trang 3

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS Hà Quang Thụy, ThS Vũ Tiến Trình, những người đã tận tình hướng dẫn, chỉ bảo tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp

Tôi xin cảm ơn các thầy cô và cán bộ của trường Đại học Công Nghệ đã dạy bảo cũng như tạo điều kiện cho tôi học tập và nghiên cứu tại đây

Tôi cũng xin cảm ơn các anh chị, các bạn trong phòng thí nghiệm công nghệ tri thức KT-Lab đã giúp đỡ tôi rất nhiều trong việc hỗ trợ các vấn đề chuyên môn trong học tập và trong quá trình thực hiện khóa luận

Tôi xin gửi lời cảm ơn đến các bạn trong lớp K54CD đã ủng hộ, khích lệ, giúp đỡ tôi rất nhiều trong quá trình học tập và rèn luyện tại trường

Cuối cùng, tôi muốn gửi lời biết ơn vô hạn tới gia đình, bạn bè, người thân, đặc biệt là bố mẹ và em gái tôi, những người luôn dành cho tôi sự yêu thương, tin tưởng, luôn sát cánh bên tôi, hỗ trợ về mọi mặt, khuyến khích và ủng hộ để tôi có thể vượt qua những khó khăn và đạt được những thành công trong học tập và cuộc sống

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 10 tháng 5 năm 2013

Sinh viên Ngô Quang Hiểu

Trang 4

Đi cùng với bài toán trích chọn chuỗi sự kiện là việc trực quan hóa các chuỗi sự kiện trích chọn được LifeFlow là một hệ thống trực quan hóa chuỗi sự kiện do Guerra- Gómez J và cộng sự (Đại học Maryland) nghiên cứu phát triển [1] Hệ thống cho phép biểu diễn theo thời gian, thống kê, và theo vết các chuỗi sự kiện rất hiệu quả

Khóa luận tốt nghiệp với đề tài “Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích và trích chọn chuỗi sự kiện đồng thời thực hiện trực quan hóa các chuỗi sự kiện này Khóa luận trình bày một

số hướng tiếp cận để giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, sau đó, đề xuất một phương pháp nhằm trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt Phần cuối của khóa luận mô tả quá trình thực nghiệm với phương pháp đánh giá độ tương đồng kết hợp thông tin thời gian, địa điểm sau đó trực quan hóa bằng hệ thống LifeFlow

Từ khóa: chuỗi sự kiện, trích chọn chuỗi sự kiện, nhận dạng chuỗi sự kiện, phân tích

chuỗi sự kiện, trực quan hóa chuỗi sự kiện

Trang 5

Lời cam đoan

Tôi xin cam đoan rằng, khóa luận tốt nghiệp với đề tài “Phân tích và trực quan

hóa chuỗi sự kiện dạng hệ thống LifeFlow” là công trình nghiên cứu của mình với sự

giúp đỡ của giảng viên hướng dẫn là PGS.TS Hà Quang Thụy Các nội dung và kết quả

trong khóa luận này hoàn toàn là trung thực, được viết lại theo cách hiểu của bản thân sau

quá trình nghiên cứu, thực nghiệm, không hề sao chép từ bất kì nguồn có sẵn nào Tất cả

các tài liệu tham khảo liên quan đều được trích dẫn trong danh sách các tài liệu tham khảo

của khóa luận

Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước

hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình

Hà Nội, ngày 10 tháng 5 năm 2013

Sinh viên Ngô Quang Hiểu

Trang 6

Nội Dung

Lời cảm ơn i

TÓM TẮT NỘI DUNG ii

Lời cam đoan iii

Danh sách hình vẽ và bảng biểu vii

Danh sách thuật toán viii

LỜI MỞ ĐẦU 1

Chương 1 3

Tổng quan về phân tích và trích chọn chuỗi sự kiện 3

1.1 Trích chọn thông tin 3

1.2 Trích chọn sự kiện 3

1.2.1 Định nghĩa sự kiện 4

1.2.2 Trích chọn sự kiện 5

1.3 Phân tích và trích chọn chuỗi sự kiện 5

1.3.1 Phân tích chuỗi sự kiện và tính thời sự 5

1.3.2 Định nghĩa chuỗi sự kiện 5

1.3.3 Phát hiện sự kiện khởi đầu và quyết định chuỗi 6

1.3.4 Trực quan hóa chuỗi sự kiện 7

1.4 Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự kiện 7

1.4.1 Ý nghĩa khoa học 7

1.4.2 Ứng dụng thực tiễn 7

1.5 Khó khăn và thách thức 7

1.6 Tóm tắt chương 1 8

Chương 2 9

Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện 9

2.1 Hướng tiếp cận học máy 9

2.1.1 Phương pháp k người láng giềng gần nhất k-NN 9

Trang 7

2.2 Hướng tiếp cận sử dụng trọng số TF-IDF 13

2.3 Hướng tiếp cận sử dụng thông tin thời gian- địa điểm 14

2.3.1 Thông tin thời gian 14

2.3.2 Thông tin địa điểm 15

2.4 Nhận xét và đánh giá 16

2.5 Tóm tắt chương 2 16

Chương 3 18

Phương pháp phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt 18

3.1 Mô tả bài toán 18

3.2 Phương pháp đề xuất 18

3.2.1 Đánh giá độ tương đồng nội dung 20

3.2.2 Đánh giá độ tương đồng thời gian địa điểm 20

3.2.3 Đánh giá độ tương đồng sự kiện 21

3.3 Mô hình giải quyết 22

3.3.1 Lưu trữ dữ liệu 22

3.3.2 Trích chọn đặc trưng 24

3.3.3 Biểu diễn sự kiện 24

3.3.4 Phát hiện sự kiện khởi đầu 24

3.3.5 Tính độ tương đồng sự kiện 24

3.3.6 Quyết định chuỗi sự kiện 25

3.3.7 Mô hình chuỗi sự kiện 25

3.4 Tóm tắt chương 3 25

Chương 4: 27

Thực nghiệm 27

4.1 Phương pháp thực nghiệm 27

4.1.1 Phương pháp đánh giá 27

4.1.2 Chiến thuật thực nghiệm 27

4.2 Môi trường thực nghiệm 29

Trang 8

4.2.1 Hệ thống phần cứng 29

4.2.2 Công cụ phần mềm 29

4.3 Kết quả thực nghiệm và đánh giá 29

Tổng kết 31

Tài liệu tham khảo 32

Trang 9

Danh sách hình vẽ và bảng biểu

Hình 2.1 Hệ thống trích chọn sự kiện áp dụng học máy ……… 10

Hình 2.2 Mô tả dữ liệu âm dương ……… 11

Hình 2.3 Sự nhập nhằng của học máy SVM ……… 13

Hình 3.1 Mô hình đề xuất để giải quyết bài toán……… 24

Hình 3.2 Cấu trúc tệp dữ liệu sự kiện……… 26

Hình 3.3 Cấu trúc tệp thuộc tính sự kiện ……… 26

Hình 4.1 Giao diện hệ thống VnLoc ……… 29

Trang 10

Danh sách thuật toán

Thuật toán 1 Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM…… 14

Trang 11

LỜI MỞ ĐẦU

Hiện nay, sự phát triển mạnh mẽ của Internet dẫn đến sự bùng nổ thông tin về nhiều mặt kể cả nội dung lẫn số lượng Mặt khác, nhu cầu tiếp nhận, theo dõi, phân tích thông tin, tìm kiếm tri thức của các cá nhân, tổ chức luôn là thiết yếu Chính vì lý do đó, bài toán trích chọn thông tin được coi là bài toán quan trọng trong vấn đề tìm kiếm thông tin, tri thức từ nguồn Internet [2] [3] [4]

Là một lĩnh vực con của trích chọn thông tin, phân tích và trích chọn chuỗi sự kiện được áp dụng trong rất nhiều hoạt động như theo dõi tin tức, chăm sóc sức khỏe, quảng cáo, dự đoán, dự báo xu hướng… bên cạnh đó là nhiều lợi ích về khoa học và kinh tế khác Mục tiêu chính của khóa luận là tập trung vào khảo sát, nghiên cứu các phương pháp giải quyết bài toán phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt với sự kế thừa kết quả từ hệ thống theo dõi sự kiện trực tuyến VnLoc Phương pháp chính được đề xuất là tính toán độ tương đồng nội dung giữa các sự kiện kết hợp sử dụng các thông tin về thời gian, địa điểm Kết quả của phương pháp này tương đối khả quan, nó sẽ là tiền đề cho các nghiên cứu về sau của tác giả trong thời gian tới Dữ liệu đầu ra của hệ thống đã được hiển thị rất tốt với chương trình trực quan hóa sự kiện theo dòng thời gian LifeFlow

Khóa luận bao gồm 4 chương được mô tả như dưới đây

Chương 1 Tổng quan về phân tích chuỗi sự kiện Đưa ra cái nhìn tổng quát về

trích chọn thông tin trong kỷ nguyên dữ liệu lớn, bài toán phân tích và trích chọn chuỗi sự kiện, tầm quan trọng và ứng dụng của nó trong khoa học cũng như thực tiễn

Chương 2 Nền lý thuyết về trích chọn và phân tích chuỗi sự kiện Trình bày một

số hướng tiếp cận giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, đánh giá các hướng tiếp cận này để lựa chọn giải pháp thử nghiệm cho vấn đề phân tích chuỗi sự kiện trên miền dữ liệu tiếng Việt

Chương 3 Phương pháp phân tích và trực quan hóa chuỗi sự kiện Mô tả đặc

điểm của dữ liệu, phân tích các khía cạnh của bài toán và trình bày cụ thể mô hình giải quyết bài toán

Chương 4 Thực nghiệm và đánh giá Chương này trình bày quá trình thực nghiệm

với mô hình đề xuất ở chương 3, đưa ra các kết quả thực nghiệm cùng với so sánh và đánh giá

Trang 12

Tổng kết là phần tóm tắt các công việc mà khóa luận đã thực hiện được, những kết

quả đạt được và những điểm còn hạn chế, đề ra phương hướng nghiên cứu trong thời gian tới

Trang 13

Chương 1

Tổng quan về phân tích và trích chọn chuỗi sự kiện

Chương đầu tiên của khóa luận sẽ giới thiệu tổng quan về lĩnh vực trích chọn thông tin trong kỷ nguyên dữ liệu lớn Bên cạnh đó trình bày sơ lược về bài toán phân tích, trích chọn và trực quan hóa chuỗi sự kiện cùng sự cần thiết của nó trong nghiên cứu khoa học cũng như thực tiễn Cuối cùng, khóa luận sẽ đưa ra những khó khăn và thách thức của cộng đồng khoa học cũng như bản thân tác giả khi giải quyết bài toán

1.1 Trích chọn thông tin

Trích chọn thông tin là lĩnh vực nhận được sự quan tâm rất lớn từ các nhà khoa học Con người luôn có nhu cầu trích chọn thông tin để có một sự thấu hiểu, một cái nhìn tổng quan về những dữ liệu mình có được, hơn cả là có được những tri thức mới để phục

vụ nhu cầu tìm tòi, hiểu biết của cá nhân hay áp dụng vào thực tiễn trong nghiên cứu khoa học và giải quyết các bài toán kinh tế của các tổ chức

Hiện nay, với sự gia tăng chóng mặt về số lượng cũng như sự phức tạp của thông tin thì nhiệm vụ trích chọn thông tin lại càng trở lên quan trọng Nó được áp dụng trong nhiều lĩnh vực cuộc sống như theo dõi tin tức, làm sạch dữ liệu, chăm sóc khách hàng, quảng cáo… Đáng tiếc, là dữ liệu mà chúng ta có hiện nay hầu hết là các văn bản dạng phi cấu trúc và bán cấu trúc Các công cụ phần mềm đơn thuần không thể tự động phân tích các văn bản này, nó đòi hỏi con người phải mất rất nhiều thời gian, công sức để thực hiện công việc phân tích và chọn lọc Trích chọn thông tin chính là giải pháp cho vấn đề này Theo Cowie & Lehnert [2] trích chọn thông tin là lựa chọn các mảnh thông tin rời rạc có giá trị trong văn bản sau đó đưa chúng vào các dạng dữ liệu có cấu trúc nhằm nâng cao khả năng phân tích, biểu diễn, trực quan dữ liệu

Trích chọn thông tin có nhiều mức độ như nhận dạng thực thể (Entity Recognition), xác định thuộc tính đặc trưng (Attribute Recognition), xác định quan hệ giữa các thực thể (Ralation Extraction), nhận dạng đồng tham chiếu (Co-reference Resolution) [4] Bởi tính đa dạng về lĩnh vực, ngôn ngữ, rất nhiều phương pháp đã được

đề xuất và áp dụng để trích chọn thông tin: các phương pháp dựa trên luật, các mô hình thống kế, các mô hình học máy Mỗi phương pháp có ưu nhược điểm khác nhau và phù hợp với những kiểu dữ liệu nhất định

1.2 Trích chọn sự kiện

Trích chọn sự kiện là bài toán nhận được sự quan tâm từ cộng đồng nghiên cứu khoa học từ rất sớm Các vấn đề liên quan đến trích chọn sự kiện được đề cập đến nhiều nhiều trong hội nghị nổi tiếng như MUC (Message Understand Conference) với đóng góp

Trang 14

quan trọng là đưa ra phương pháp trích xuất sự kiện theo khung mẫu (scenario template) Phương pháp này có thể trích chọn được ác sự kiện cùng các thông tin liên quan như tổ chức, các đối tượng tham gia (tác nhân, sự kiện) với độ chính xác và độ hồi tưởng nằm

trong khoảng 50% tới 60% [5] Bên cạnh đó, chương trình Phát hiện và theo dõi chủ đề

(TDT-Topic Detection and Tracking) được Viện công nghệ và chuẩn quốc gia Hoa Kỳ (NIST) cùng DARPA tổ chức thường niên từ năm 1997 tập trung giải quyết bài toán phát hiện sự kiện mới và theo dõi, xâu chuỗi sự kiện Chương trình đã thu hút được sự quan tâm của nhiều nhóm nghiên cứu nổi tiếng về trích chọn thông tin trên toàn thế giới Tại các hội nghị và chương trình danh giá khác về Xử lý ngôn ngữ tự nhiên và trích chọn thông tin, vấn đề trích xuất sự kiện cũng được rất nhiều nhóm nghiên cứu có uy tín tham luận, công bố và chia sẻ công trình nghiên cứu của mình với những kết quả ngày càng tích cực

1.2.1 Định nghĩa sự kiện

Theo Allan và cộng sự thì tin tức được coi là phản ánh một sự kiện nếu nó có đủ bốn yếu tố: hành vi, chủ thể, thời gian, địa điểm [6] Hành vi là các hoạt động/hành động gây ra sự kiện Chủ thể là con người, sự vật hoặc sự việc Thời gian là thời gian xảy ra sự

kiện Địa điểm là nơi diễn ra sự kiện Ví dụ: “Sáng ngày 28/8/2012 đã xảy ra một vụ tai

nạn trên đường Quốc lộ 1A khiến cho 2 người chết và 1 người bị thương.” Cũng theo

nhóm nghiên cứu này, việc định nghĩa rõ ràng thế nào là một sự kiện rất khó bởi sự đa dạng của ngôn ngữ, tính nhập nhằng liên quan tới ngữ cảnh và sự phức tạp về văn hóa của

mỗi cộng đồng Ví dụ sau đây có đủ bốn yếu tố nhưng vẫn không phải là sự kiện: “Theo

thống kê, trong 6 tháng đầu năm nay, số người tử vong do hỏa hoạn trên địa bàn

TP.HCM đã tăng lên con số 23 ” Trong phạm vi giải quyết bài toán trích xuất sự kiện,

việc định nghĩa rõ ràng sự kiện mà nghiên cứu quan tâm là yêu cầu trước tiên

Chương trình ACE đã định nghĩa sự kiện như là một sự việc xảy ra rõ ràng có liên quan đến người tham gia Sự kiện được đề cập đến được mô tả bởi một cụm từ hoặc một câu, nó bao gồm nguyên nhân xảy ra sự kiện và thành phần liên quan Mỗi sự kiện chỉ có một và chỉ một nguyên nhân và có thể có số lượng tùy ý các thành phần liên quan Các thành phần liên quan ở đây có thể là các thực thể được đề cập đến có quan hệ với sự kiện,

và mối quan hệ của các thực thể với nhau trong sự kiện Ví dụ, sự kiện “sự tấn công” thì phải có người tham gia là “người tấn công” hoặc “mục tiêu”, còn các thành phần liên quan có thể là “thời gian diễn ra” và “địa điểm diễn ra”

Trên thực tế, các nhóm nghiên cứu khác nhau quan tâm đến các lĩnh vực khác nhau

vì vậy việc định nghĩa thế nào là sự kiện cũng được xem xét, quyết định bởi mỗi lĩnh vực thì sự kiện được định nghĩa bởi các thuộc tính có thể khác nhau, sự ưu tiên của các thuộc tính này cũng khác nhau Một sự kiện khi được đề cập đến không nhất thiết phải có đầy

đủ các thuộc tính như trong định nghĩa

Trang 15

1.2.2 Trích chọn sự kiện

Trích chọn sự kiện là lĩnh vực con của trích chọn thông tin, nhiệm vụ của nó là tự động phân tích và trích chọn các đặc trưng về sự kiện trong các tài liệu phi cấu trúc hoặc bán cấu trúc Cụ thể hơn, trích chọn sự kiện tập trung vào nhận dạng các sự kiện thuộc một miền lĩnh vực biết trước đồng thời đưa ra các đặc trưng (tham số) của sự kiện như: tên, tác nhân, thời gian, địa điểm…

1.3 Phân tích và trích chọn chuỗi sự kiện

1.3.1 Phân tích chuỗi sự kiện và tính thời sự

Phân tích chuỗi sự kiện là một nhiệm vụ quan trọng trong nhiều lĩnh vực Cụ schất lượng chăm sóc sức khỏe cho bệnh nhân; phân tích các chuỗi hành vi người dùng để tìm

ra các mẫu sử dụng cho quảng cáo và nâng cao chất lượng dịch vụ … Trong mỗi lĩnh vực đều có những phần mềm chuyên dụng để phân tích các, trực quan hóa các chuỗi sự kiện

để nhà quản lý có thể dễ dàng đánh giá được dữ liệu của mình Với một yêu cầu, các dữ liệu đầu vào phải ở dạng có cấu trúc được phân tích từ các bản ghi sự kiện giao dịch, các phiên làm việc của người dùng… Tuy nhiên, như đã nói ở phần 1.1, lượng dữ liệu có cấu trúc nàylà rất nhỏ so với lượng dữ liệu phi cấu trúc vô cùng lớn và có giá trị như các loại nội dung số trên các trang báo mạng, mạng xã hội Đây là động lực chính để tác giả tìm hiểu và nghiên cứu giải pháp cho vấn đề phân tích và trực quan hóa chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt

Phân tích chuỗi sự kiện là việc trích chọn các đặc trưng của sự kiện, tính toán sự tương đồng của các sự kiện riêng biệt để liên kết chúng nhằm mô tả diễn biến của sự kiện

đó Đây là bài toán được đặt ra cho nhiều hội nghị và chương trình chuyên nghiên cứu về trích chọn thông tin, cụ thế nó là một trong năm nội dung của chương trình TDT-1 (1997) Chương trình này quan tân đến hai dạng dữ liệu: tin tức dưới dạng văn bản và tin tức thông qua phát thanh, truyền hình

1.3.2 Định nghĩa chuỗi sự kiện

Trong công bố của Hekki Mannila và cộng sự [7], một sự kiện được định nghĩa bởi

cặp (A,t) với A ϵ E là tập sự kiện (A bao gồm tên sự kiện, loại sự kiện và các thuộc tính), t

là thời gian xảy ra sự kiện đó Mỗi loại sư kiện có thể chứa đựng môt vài thuộc tính, nhưng để đơn giản chúng ta coi như mỗi loại sự kiện chỉ có một giá trị duy nhất Chuỗi sự

kiện S trên tập sự kiện E là một bộ ba giá trị (s, Ts, T e) với:

Trang 16

T e là thời gian kết thúc dãy sự kiện

đầu được đánh dấu - bài toán phát hiện sự kiện đầu (First Story Detection) trong

TDT-1,2; bài toán phát hiện sự kiện mới (New Event Detection ) trong TDT-3,4,5 Bước thứ hai, từ tập sự kiện đã được trích xuất, cần có những phương pháp đánh giá liên kết giữa các sự kiện để quyết định chuỗi

1.3.3 Phát hiện sự kiện khởi đầu và quyết định chuỗi

Chương trình TDT định nghĩa sự kiện khởi đầu là một sự kiện chưa từng xảy ra hoặc chưa từng được nhắc đến tính tới thời điểm hiện tại [8] Hình 1.2 minh họa sự kiện khởi đầu trong luồng thông tin cập nhật Hai sự kiện được biểu diễn bởi hình thoi và hình tròn trong luồng thông tin hỗn tạp được sắp xếp theo thời gian Hình vẽ chỉ ra hai sự kiện khởi đầu cùng các sự kiện kéo theo chúng Kết quả nhóm nghiên cứu tại đại học Carnegie Mellong do Yiming Yang điều hành cho rằng việc phát hiện sự kiện khởi đầu có thể tiến hành theo hai khía cạnh Thứ nhất, dựa trên các sự kiện đã xảy ra trước đó, những sự kiện được khởi đầu được đánh dấu, nghĩa là việc phát hiện sự kiện ngoại tuyến Thứ hai, giám sát luồng thông tin cập nhật và phát hiện sự khởi đầu qua từng sự kiện, tức ra thực hiện trực tuyến [9]

Trong luồng thông tin cập nhật liên tục, chúng ta phải quan tâm đến sự kiện trùng lặp và sự kiện tương đồng Đối với sự kiện trùng lặp, nhiều nguồn tin đưa ra cùng một sự kiện, tức là chúng có cùng tên và các thuộc tính Trong khi đó, sự kiện tương đồng là những sự kiện phản ánh sự thay đổi về trạng thái của sự kiện khởi đầu Khi một sự kiện xuất hiện trong luồng thông tin, nó sẽ được xác định xem có phải là sự kiện mới không dựa trên độ tương đồng, đây cũng là cơ sở để quyết định chuỗi Bài toán khử trùng lặp sẽ được thực hiện trong pha trích xuất sự kiện, còn ở bài toán nhận dạng chuỗi sự kiện ta chỉ

Trang 17

1.3.4 Trực quan hóa chuỗi sự kiện

LifeFlow là dạng các hệ thống có khả năng trực quan hóa chuỗi sự kiện theo thời gian, biểu diễn các mốc sự kiện và khoảng thời gian giữa các mốc này Hiện nay có khá nhiều hệ thống có khả năng như trên, đơn cử là hệ thống Event Flow, một bản nâng cấp của LifeFlow được phát triển bởi nhóm nghiên cứu tại trường Đại học Maryland, Mỹ EventFlow cho phép thống kê số lượng các chuỗi sự kiện, tìm kiếm chúng dựa trên các đặc trưng [1].Một công cụ trực quan hóa rất tốt khác phải kể đến đó là Zinsight, phát triển bởi trung tâm nghiên cứu của IBM và được công bố vào năm 2010 [10] Ngoài khả năng thống kê, Zinsight còn có thể theo dấu sự kiện, vẽ biểu đồ chuỗi sự kiện cùng một số chức năng phân tích khác Đặc biệt, Zinsight được phát triển như các plug-in cho phép tích hợp vào những môi trường phát triển tích hợp như Eclipse tạo thuận lợi cho các nhà phát triển phần mềm và phân tích dữ liệu làm việc hiệu quả hơn Tuy nhiên, Zinsight vẫn còn gặp một số lỗi khi tích hợp với eclipse, gây bất tiện khi thực nghiệm, do đó khóa luận quyết định sử dụng hệ thống EventFlow để tiến hành trực quan hóa sự kiện

1.4 Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự

kiện

1.4.1 Ý nghĩa khoa học

Trong lĩnh vực khoa học, phân tích và trích chọn chuỗi sự kiện là một trong những bài toán cơ bản của trích chọn thông tin hướng sự kiện Đưa ra được phương pháp tốt để giải quyết các khía cạnh của bài toán là cần thiết và là tiền đề cho các nghiên cứu khác như theo dõi xu hướng quan tâm của cộng đồng, dự đoán xu hướng sự kiện hay các bài toán về giám sát, quản lý xã hội Mặt khác, hiện nay trên miền dữ liệu Tiếng Việt có rất ít nghiên cứu được công bố chính thức về trích chọn cũng như trực quan hóa sự kiện và chuỗi sự kiện, do đó có một phương pháp trích xuất sự kiện và chuỗi sự kiện tốt sẽ là bước đệm cơ sở cho các nghiên cứu sau này

1.4.2 Ứng dụng thực tiễn

Như đã nói ở trên, nhu cầu tất yếu của con người là tiếp nhận thông tin, theo dõi các tin tức về lĩnh vực mà mình quan tâm Người dùng sẽ dễ dàng hơn trong việc theo dõi một sự kiện, tin tức nếu nó đã được sắp xếp có tuần tự Ngoài ra, trên các lĩnh vực khác nhau, việc xâu chuỗi các sự kiện là vô cùng cần thiết đối với các hệ thống phân tích, theo dõi, dự đoán về thời tiết, sức khỏe, bệnh dịch, xu hướng dịch vụ,… Do vậy, phát triển các phương pháp về trích xuất chuỗi sự kiện là cần thiết và đúng đắn

1.5 Khó khăn và thách thức

Mặc dù được các nhà khoa học quan tâm nghiên cứu khá sớm, phân tích và trích chọn chuỗi sự kiện vẫn còn tồn tại nhiều khó khăn với những thách thức trong việc nâng cao hiệu quả bài toán trong dữ liệu ngày càng lớn và phức tạp

Trang 18

Độ chính xác của trích chọn chuỗi sự kiện phụ thuộc rất lớn vào quá trình trích xuất sự kiện Trong khi đó, trích xuất sự kiện là một bài toán khó, liên quan mật thiết đến các vấn đề ngôn ngữ học Lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng tương đối rộng và tồn tại bài toán chưa được giải quyết triệt để mà trong đó có

xử lý nhập nhằng ngữ nghĩa (Word Sense Disambiguation), bài toán đồng tham chiếu (Co-references) hay việc nhận dạng tính đa hình của cấu trúc ngữ pháp trong tiêu đề tin tức

Vấn đề mấu chốt trong trích chọn chuỗi sự kiện là sự đúng đắn trong tính tuần tự của các tin tức sự kiện Trong nhiều trường hợp, giả sử rằng hai tin tức đều nói về một sự

kiện, tin tức T1 được xuất bản trước tin tức T2 nhưng T1 lại phản ánh trạng thái sự kiện xảy

ra sau tin tức T2 khi mà khoảng thời gian chuyển trạng thái của sự kiện không có cách biệt lớn và sự mập mờ trong thông tin về thời gian Có thể đó là một sự kiện nóng được cập nhật liên tục Như vậy, rất khó để có thể đưa ra một chuỗi trạng thía sự kiện hợp lý Điều này đòi hỏi nhiều thống kê, khảo sát dữ liệu, phân tích xu hướng xuất bản tin tức và những kỹ thuật giám sát mức cao khác

Ngoài ra, tính tới thời điểm thực hiện khóa luận, theo khảo sát của tác giả thì ở Việt Nam có rất ít nghiên cứu về trích xuất sự kiện, phân tích và trích chọn chuỗi sự kiện Bởi vậy, khóa luận rất thiếu những nguồn tham khảo về kỹ thuật cũng như kinh nghiệm trong việc xử lý bài toán với dữ liệu tiếng Việt Điều này đòi hỏi nhiều thời gian hơn để thử nghiệm và đánh giá phương pháp nào là tốt, phù hợp với mục tiêu đề ra

1.6 Tóm tắt chương 1

Chương 1 đã nêu một số vấn đề về trích chọn thông tin trong thời đại dữ liệu lớn

và có xu hướng tang mạnh trong tương lai Trọng tâm của chương này là làm rõ ràng bài toán phân tích và trích chọn chuỗi sự kiện với các định nghĩa sự kiện, trích xuất sự kiện, chuỗi sự kiện, các bước tiếp cận vấn đề đồng thời giới thiệu một số công cụ phân tích và trực quan hóa chuỗi sự kiện Bên cạnh đó, nội dung của chương 1 cũng nêu bật ý nghĩa của việc giải quyết bài toán phân tích chuỗi sự kiện bao gồm ý nghĩa về mặt lý luận khoa học và ứng dụng thực tiễn Chương này cũng nêu lên những khó khăn, thách thức mà người giải quyết bài toán gặp phải khi nghiên cứu và triển khai các phương pháp trích chọn, chi tiết về các phương pháp phân tích, trích chọn chuỗi sự kiện sẽ được đề cập trong chương

Trang 19

Chương 2

Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện

Trong chương 1, tác giả đã mô tả những hiểu biết cơ bản về bài toán phân tích, trích chọn sự kiện và chuỗi sự kiên Ở chương này, khóa luận sẽ trình bày một số phương pháp giải quyết, trong phần 2.1 là các phương pháp học máy như k người láng giềng gần nhất k-NN, cây quyết định D-tree và một phương pháp lai kết hợp giữa k-NN và máy hỗ trợ vec-tơ SVM Tiếp đó, phần 2.2 sẽ đưa đến phương pháp trích xuất chuỗi sự kiện dựa trên độ tương đồng về nội dung, phần 2.3 nói về hướng giải quyết bài toán dựa trên việc

sử dụng các thông tin về thời gian địa điểm Kết thúc chương sẽ là phần nhận xét, đánh giá các thuật toán dẫn đến quyết định phương pháp đề xuất của tác giả sẽ được trình bày ở chương 3

2.1 Hướng tiếp cận học máy

Ở góc độ học máy, bài toán phân tích và trích chọn chuỗi sự kiện được coi là một bài toán phân lớp Bộ phân lớp sẽ học dựa trên tập huấn luyện và đưa ra kết quả phân lớp các chuỗi sự kiện Một hệ thống như vậy được mô tả như hình dưới đây

Hình 2.1 Hệ thống trích chọn sự kiện áp dụng học máy

2.1.1.Phương pháp k người láng giềng gần nhất k-NN

Có rất nhiều phương pháp học máy được áp dụng vào bài toán nhận dạng và trích chọn chuỗi sự kiện, trong đó k-NN là một trong những thuật toán được sử dụng sớm nhất Với học máy giám sát, k-NN được biết đến là một phương pháp phân lớp rất tốt trong việc nhận dạng các mẫu, phân loại văn bản Trong công bố của Yiming Yang và các cộng

sự [11], nhóm đã tiến hành áp dụng k-NN vào bài toán theo dõi chuỗi sự kiện, ưu điểm của phương pháp này là kết quả rất tốt mà lại cần ít nhất số giả thiết về các về các sự kiện Mỗi chuỗi sự kiện sẽ được trích chọn một cách độc lập mà không cần biết về các sự kiện khác Các sự kiện trong tập dữ liệu huấn luyện sẽ được gán một trong ba nhãn YES,

NO hoặc Brief (tóm tắt sự kiện hoặc thông báo) Bộ phân lớp sẽ tiến hành học trên từng

Trang 20

sự kiện riêng biệt, khi một sự kiện mới được đưa vào, hệ thống sẽ mã hóa nó bằng một

vec-tơ đặc trưng và so sánh với các sự kiện đã có trong tập huấn luyện Việc lựa chọn k sự

kiện gần với sự kiện mới nhất dựa trên độ tương đồng cô-sin Độ tin cậy khi gán nhãn YES cho một sự kiện mới được tính theo công thức 2.1

P(x, k) là tập dữ liệu huấn luyện dương trong số k láng giềng

N(x, k) là tập dữ liệu huấn luyện dương trong số k láng giềng

Hình 2.2 Mô tả dữ liệu âm dương Một vấn đề nảy sinh là dữ liệu huấn luyện dương quá ít so với dữ liệu huấn luyện

âm Bởi vậy, hầu như cụm nào cũng có chứa dữ liệu âm (Hình 2.2), dẫn tới không thể gán nhãn cho tin tức mới Giải pháp cho vấn đề này là sự hạn chế sự ảnh hưởng của các dữ liệu huấn luyện âm bằng cách lấy một số nhỏ mẫu trong k láng giềng gần nhất, bỏ qua số còn lại Thuật toán k-NN có sự thay đổi theo tư tưởng vừa nêu ra Lấy tập k k1( 1k) láng giềng gần nhất được gán nhãn dương P x k( , )1 và tập k k2( 2 k) láng giềng gần nhất được gán nhãn âm N(x,k ) 2 Theo đó độ tin cậy của nhãn YES đối với dữ liệu tin tức mới được tính lại bởi biểu thức 2.2

Trang 21

Máy hỗ trợ vec-tơ SVM (Support Vector Machine) được đánh giá là một thuật toán

có hiệu năng rất cao trong bài toán phân lớp văn bản, đặc biệt là những bài toán với dữ liệu có số chiều lớn như vec-tơ biểu diễn văn bản [12] Để tận dụng điều này, Zhen Lei và cộng sự đã đưa ra hướng giải quyết bài toán trích chọn chuỗi sự kiện dựa trên ý tưởng kết hợp hai thuật toán SVM và k-NN [13] Độ chính xác siêu phẳng quyết định bởi mô hình SVM trong nhiều trường hợp này vẫn có sự nhập nhằng, không chính xác (Hình 2.3) Khắc phục điều này, phương pháp k-NN được áp dụng bằng cách tìm một mẫu trung tâm rồi xét các mẫu gần nó nhất nằm xung quanh siêu phẳng, nhằm đưa ra nhãn đúng nhất cho những mẫu bị nhập nhằng này Mẫu trung tâm được quyết định bởi công thức 2.6

n (0)

Ngày đăng: 28/12/2013, 20:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "LifeFlow: Visualizing an Overview of Event Sequences," Maryland, 2011 Sách, tạp chí
Tiêu đề: LifeFlow: Visualizing an Overview of Event Sequences
[2] Cowie J., Lehnert W., "Information extraction," ACM, vol. 99, no. Special natural language processing issu, pp. 80-91, 1996 Sách, tạp chí
Tiêu đề: Information extraction
[3] H. Galhardas, "Information Extraction tasks: a survey" Instituto Superior Técnico, INESC-ID, DMIR, L2F, 2006 Sách, tạp chí
Tiêu đề: Information Extraction tasks: a survey
[4] S. Sunita, "Infomation extraction," Foundation and Trend in Databases, Vols. 1 -No 3, pp. 261-377, 2007 Sách, tạp chí
Tiêu đề: Infomation extraction
[5] Ralph Grishman, Beth Sundheim, "Message understanding conference-6: a brief history," Proceedings of the 16th conference on Computational linguistics, vol. 1, pp.466-471, 1996 Sách, tạp chí
Tiêu đề: Message understanding conference-6: a brief history
[6] James Allan, Ron Papka, and Victor Lavrenko, "On-line new event detection and tracking," in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, 1998 Sách, tạp chí
Tiêu đề: On-line new event detection and tracking
[7] Heikki Mannila, Hannu Toivonen, A. Inkeri Verkamo, "Discovery of frequent episodes in event sequences," no. Data Min. Knowl. Discov., pp. 259-289, January 1997 Sách, tạp chí
Tiêu đề: Discovery of frequent episodes in event sequences
[8] R. Papka, Artist, On-line new event detection, clustering, and tracking. [Art]. Department of Computer Science, University of Massachusetts. AAI9950198, 1999 Sách, tạp chí
Tiêu đề: On-line new event detection, clustering, and tracking
[9] Yiming Yang, Tom Pierce, and Jaime Carbonell, "A study of retrospective and on- line event detection," Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, no. New York, NY, USA, pp. 28-36, 1998 Sách, tạp chí
Tiêu đề: A study of retrospective and on-line event detection
[10] S. H. Wim De Pauw, Writer, Zinsight: A Visual and Analytic Environment for Exploring Large Event Traces. [Performance]. IBM T.J. Watson Research Center, Hawthorne, NY 10532, 2010 Sách, tạp chí
Tiêu đề: Zinsight: A Visual and Analytic Environment for Exploring Large Event Traces
[11] Yiming Y., Jaime C., Ralf B., Tom P., Brain T. A., Xin L., "Learning approaches for Detecting and Tracking news events," Language Technologies Institute, Carnegie Mellon University, Pittsburgh, USA Sách, tạp chí
Tiêu đề: Learning approaches for Detecting and Tracking news events
[12] Zhen Lei, Yanjie Jiang, Peng Zhao, and Jue Wang, "News event tracking using an improved hybrid of knn and svm," Springer, vol. 56, no. Communications in Computer and Information Science, pp. 431-438, 2009 Sách, tạp chí
Tiêu đề: News event tracking using an improved hybrid of knn and svm
[13] Zhen Lei, Ling-da Wu, Ying Zhang, and Yu-chi Liu, "A system for detecting and tracking internet news event," in Proceedings of the 6th Pacific-Rim conference on Advances in Multimedia Information Processing - Volume Part I, vol. 1, Berlin, Heidelberg, Springer-Verlag, 2005, pp. 754-764 Sách, tạp chí
Tiêu đề: A system for detecting and tracking internet news event
[14] J. M. Schultz, M. Liberman, "Topic detection and tracking using idf-weighted cosine coefficient," Proceedings of the DARPA Broadcast News Workshop, pp. 189-192, 1999 Sách, tạp chí
Tiêu đề: Topic detection and tracking using idf-weighted cosine coefficient
[15] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and Xuan-Hieu Phan, in The Fourth International Conference on Knowledge and Systems Engineering, KSE'12, Ha Noi, 2012 Sách, tạp chí
Tiêu đề: The Fourth International Conference on Knowledge and Systems Engineering, KSE'12
[16] M. S. Heikki Mannila, "Finding Simple Intensity Descriptions from Event," in ACM, University of Helsinki, Finland, 2001 Sách, tạp chí
Tiêu đề: Finding Simple Intensity Descriptions from Event
[17] N. K. J. C. M. Naughtonand, "Event Extraction from Heterogeneous News Sources," in AAAI, University College Dublin, Ireland, 2006 Sách, tạp chí
Tiêu đề: Event Extraction from Heterogeneous News Sources
[18] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "ANALYZING INCIDENT MANAGEMENT EVENT SEQUENCES WITH&#34 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Mô tả của một chuỗi sự kiện - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 1.1 Mô tả của một chuỗi sự kiện (Trang 16)
Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy (Trang 19)
Hình 2.2. Mô tả dữ liệu âm dương - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 2.2. Mô tả dữ liệu âm dương (Trang 20)
Hình 2.3: Sự nhập nhằng của học máy SVM - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 2.3 Sự nhập nhằng của học máy SVM (Trang 22)
Hình 3.1: Mô hình đề xuất để giải quyết bài toán - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 3.1 Mô hình đề xuất để giải quyết bài toán (Trang 33)
Hình 3.3: Cấu trúc tệp thuộc tính sự kiện - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 3.3 Cấu trúc tệp thuộc tính sự kiện (Trang 35)
Hình 3.2: Cấu trúc tệp dữ liệu sự kiện - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 3.2 Cấu trúc tệp dữ liệu sự kiện (Trang 35)
Hình 4.1: Giao diện hệ thống VnLoc - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 4.1 Giao diện hệ thống VnLoc (Trang 38)
Bảng 4.1: Thông số phần cứng của hệ thống thực nghiệm - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Bảng 4.1 Thông số phần cứng của hệ thống thực nghiệm (Trang 39)
Bảng 4.3: Các độ đo khi tiến hành thực nghiệm với 10 sự kiện. - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Bảng 4.3 Các độ đo khi tiến hành thực nghiệm với 10 sự kiện (Trang 40)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w