Khóa luận tốt nghiệp với đề tài “Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích và trích chọn chuỗi sự kiện đồng thời thực
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Ngô Quang Hiểu
PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Ngô Quang Hiểu
PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN
DẠNG HỆ THỐNG LIFEFLOW
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS Vũ Ngọc Trình
Trang 3Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS Hà Quang Thụy, ThS Vũ Tiến Trình, những người đã tận tình hướng dẫn, chỉ bảo tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp
Tôi xin cảm ơn các thầy cô và cán bộ của trường Đại học Công Nghệ đã dạy bảo cũng như tạo điều kiện cho tôi học tập và nghiên cứu tại đây
Tôi cũng xin cảm ơn các anh chị, các bạn trong phòng thí nghiệm công nghệ tri thức KT-Lab đã giúp đỡ tôi rất nhiều trong việc hỗ trợ các vấn đề chuyên môn trong học tập và trong quá trình thực hiện khóa luận
Tôi xin gửi lời cảm ơn đến các bạn trong lớp K54CD đã ủng hộ, khích lệ, giúp đỡ tôi rất nhiều trong quá trình học tập và rèn luyện tại trường
Cuối cùng, tôi muốn gửi lời biết ơn vô hạn tới gia đình, bạn bè, người thân, đặc biệt là bố mẹ và em gái tôi, những người luôn dành cho tôi sự yêu thương, tin tưởng, luôn sát cánh bên tôi, hỗ trợ về mọi mặt, khuyến khích và ủng hộ để tôi có thể vượt qua những khó khăn và đạt được những thành công trong học tập và cuộc sống
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 10 tháng 5 năm 2013
Sinh viên Ngô Quang Hiểu
Trang 4Đi cùng với bài toán trích chọn chuỗi sự kiện là việc trực quan hóa các chuỗi sự kiện trích chọn được LifeFlow là một hệ thống trực quan hóa chuỗi sự kiện do Guerra- Gómez J và cộng sự (Đại học Maryland) nghiên cứu phát triển [1] Hệ thống cho phép biểu diễn theo thời gian, thống kê, và theo vết các chuỗi sự kiện rất hiệu quả
Khóa luận tốt nghiệp với đề tài “Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích và trích chọn chuỗi sự kiện đồng thời thực hiện trực quan hóa các chuỗi sự kiện này Khóa luận trình bày một
số hướng tiếp cận để giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, sau đó, đề xuất một phương pháp nhằm trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt Phần cuối của khóa luận mô tả quá trình thực nghiệm với phương pháp đánh giá độ tương đồng kết hợp thông tin thời gian, địa điểm sau đó trực quan hóa bằng hệ thống LifeFlow
Từ khóa: chuỗi sự kiện, trích chọn chuỗi sự kiện, nhận dạng chuỗi sự kiện, phân tích
chuỗi sự kiện, trực quan hóa chuỗi sự kiện
Trang 5Lời cam đoan
Tôi xin cam đoan rằng, khóa luận tốt nghiệp với đề tài “Phân tích và trực quan
hóa chuỗi sự kiện dạng hệ thống LifeFlow” là công trình nghiên cứu của mình với sự
giúp đỡ của giảng viên hướng dẫn là PGS.TS Hà Quang Thụy Các nội dung và kết quả
trong khóa luận này hoàn toàn là trung thực, được viết lại theo cách hiểu của bản thân sau
quá trình nghiên cứu, thực nghiệm, không hề sao chép từ bất kì nguồn có sẵn nào Tất cả
các tài liệu tham khảo liên quan đều được trích dẫn trong danh sách các tài liệu tham khảo
của khóa luận
Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước
hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình
Hà Nội, ngày 10 tháng 5 năm 2013
Sinh viên Ngô Quang Hiểu
Trang 6Nội Dung
Lời cảm ơn i
TÓM TẮT NỘI DUNG ii
Lời cam đoan iii
Danh sách hình vẽ và bảng biểu vii
Danh sách thuật toán viii
LỜI MỞ ĐẦU 1
Chương 1 3
Tổng quan về phân tích và trích chọn chuỗi sự kiện 3
1.1 Trích chọn thông tin 3
1.2 Trích chọn sự kiện 3
1.2.1 Định nghĩa sự kiện 4
1.2.2 Trích chọn sự kiện 5
1.3 Phân tích và trích chọn chuỗi sự kiện 5
1.3.1 Phân tích chuỗi sự kiện và tính thời sự 5
1.3.2 Định nghĩa chuỗi sự kiện 5
1.3.3 Phát hiện sự kiện khởi đầu và quyết định chuỗi 6
1.3.4 Trực quan hóa chuỗi sự kiện 7
1.4 Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự kiện 7
1.4.1 Ý nghĩa khoa học 7
1.4.2 Ứng dụng thực tiễn 7
1.5 Khó khăn và thách thức 7
1.6 Tóm tắt chương 1 8
Chương 2 9
Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện 9
2.1 Hướng tiếp cận học máy 9
2.1.1 Phương pháp k người láng giềng gần nhất k-NN 9
Trang 72.2 Hướng tiếp cận sử dụng trọng số TF-IDF 13
2.3 Hướng tiếp cận sử dụng thông tin thời gian- địa điểm 14
2.3.1 Thông tin thời gian 14
2.3.2 Thông tin địa điểm 15
2.4 Nhận xét và đánh giá 16
2.5 Tóm tắt chương 2 16
Chương 3 18
Phương pháp phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt 18
3.1 Mô tả bài toán 18
3.2 Phương pháp đề xuất 18
3.2.1 Đánh giá độ tương đồng nội dung 20
3.2.2 Đánh giá độ tương đồng thời gian địa điểm 20
3.2.3 Đánh giá độ tương đồng sự kiện 21
3.3 Mô hình giải quyết 22
3.3.1 Lưu trữ dữ liệu 22
3.3.2 Trích chọn đặc trưng 24
3.3.3 Biểu diễn sự kiện 24
3.3.4 Phát hiện sự kiện khởi đầu 24
3.3.5 Tính độ tương đồng sự kiện 24
3.3.6 Quyết định chuỗi sự kiện 25
3.3.7 Mô hình chuỗi sự kiện 25
3.4 Tóm tắt chương 3 25
Chương 4: 27
Thực nghiệm 27
4.1 Phương pháp thực nghiệm 27
4.1.1 Phương pháp đánh giá 27
4.1.2 Chiến thuật thực nghiệm 27
4.2 Môi trường thực nghiệm 29
Trang 84.2.1 Hệ thống phần cứng 29
4.2.2 Công cụ phần mềm 29
4.3 Kết quả thực nghiệm và đánh giá 29
Tổng kết 31
Tài liệu tham khảo 32
Trang 9Danh sách hình vẽ và bảng biểu
Hình 2.1 Hệ thống trích chọn sự kiện áp dụng học máy ……… 10
Hình 2.2 Mô tả dữ liệu âm dương ……… 11
Hình 2.3 Sự nhập nhằng của học máy SVM ……… 13
Hình 3.1 Mô hình đề xuất để giải quyết bài toán……… 24
Hình 3.2 Cấu trúc tệp dữ liệu sự kiện……… 26
Hình 3.3 Cấu trúc tệp thuộc tính sự kiện ……… 26
Hình 4.1 Giao diện hệ thống VnLoc ……… 29
Trang 10Danh sách thuật toán
Thuật toán 1 Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM…… 14
Trang 11LỜI MỞ ĐẦU
Hiện nay, sự phát triển mạnh mẽ của Internet dẫn đến sự bùng nổ thông tin về nhiều mặt kể cả nội dung lẫn số lượng Mặt khác, nhu cầu tiếp nhận, theo dõi, phân tích thông tin, tìm kiếm tri thức của các cá nhân, tổ chức luôn là thiết yếu Chính vì lý do đó, bài toán trích chọn thông tin được coi là bài toán quan trọng trong vấn đề tìm kiếm thông tin, tri thức từ nguồn Internet [2] [3] [4]
Là một lĩnh vực con của trích chọn thông tin, phân tích và trích chọn chuỗi sự kiện được áp dụng trong rất nhiều hoạt động như theo dõi tin tức, chăm sóc sức khỏe, quảng cáo, dự đoán, dự báo xu hướng… bên cạnh đó là nhiều lợi ích về khoa học và kinh tế khác Mục tiêu chính của khóa luận là tập trung vào khảo sát, nghiên cứu các phương pháp giải quyết bài toán phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt với sự kế thừa kết quả từ hệ thống theo dõi sự kiện trực tuyến VnLoc Phương pháp chính được đề xuất là tính toán độ tương đồng nội dung giữa các sự kiện kết hợp sử dụng các thông tin về thời gian, địa điểm Kết quả của phương pháp này tương đối khả quan, nó sẽ là tiền đề cho các nghiên cứu về sau của tác giả trong thời gian tới Dữ liệu đầu ra của hệ thống đã được hiển thị rất tốt với chương trình trực quan hóa sự kiện theo dòng thời gian LifeFlow
Khóa luận bao gồm 4 chương được mô tả như dưới đây
Chương 1 Tổng quan về phân tích chuỗi sự kiện Đưa ra cái nhìn tổng quát về
trích chọn thông tin trong kỷ nguyên dữ liệu lớn, bài toán phân tích và trích chọn chuỗi sự kiện, tầm quan trọng và ứng dụng của nó trong khoa học cũng như thực tiễn
Chương 2 Nền lý thuyết về trích chọn và phân tích chuỗi sự kiện Trình bày một
số hướng tiếp cận giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, đánh giá các hướng tiếp cận này để lựa chọn giải pháp thử nghiệm cho vấn đề phân tích chuỗi sự kiện trên miền dữ liệu tiếng Việt
Chương 3 Phương pháp phân tích và trực quan hóa chuỗi sự kiện Mô tả đặc
điểm của dữ liệu, phân tích các khía cạnh của bài toán và trình bày cụ thể mô hình giải quyết bài toán
Chương 4 Thực nghiệm và đánh giá Chương này trình bày quá trình thực nghiệm
với mô hình đề xuất ở chương 3, đưa ra các kết quả thực nghiệm cùng với so sánh và đánh giá
Trang 12Tổng kết là phần tóm tắt các công việc mà khóa luận đã thực hiện được, những kết
quả đạt được và những điểm còn hạn chế, đề ra phương hướng nghiên cứu trong thời gian tới
Trang 13Chương 1
Tổng quan về phân tích và trích chọn chuỗi sự kiện
Chương đầu tiên của khóa luận sẽ giới thiệu tổng quan về lĩnh vực trích chọn thông tin trong kỷ nguyên dữ liệu lớn Bên cạnh đó trình bày sơ lược về bài toán phân tích, trích chọn và trực quan hóa chuỗi sự kiện cùng sự cần thiết của nó trong nghiên cứu khoa học cũng như thực tiễn Cuối cùng, khóa luận sẽ đưa ra những khó khăn và thách thức của cộng đồng khoa học cũng như bản thân tác giả khi giải quyết bài toán
1.1 Trích chọn thông tin
Trích chọn thông tin là lĩnh vực nhận được sự quan tâm rất lớn từ các nhà khoa học Con người luôn có nhu cầu trích chọn thông tin để có một sự thấu hiểu, một cái nhìn tổng quan về những dữ liệu mình có được, hơn cả là có được những tri thức mới để phục
vụ nhu cầu tìm tòi, hiểu biết của cá nhân hay áp dụng vào thực tiễn trong nghiên cứu khoa học và giải quyết các bài toán kinh tế của các tổ chức
Hiện nay, với sự gia tăng chóng mặt về số lượng cũng như sự phức tạp của thông tin thì nhiệm vụ trích chọn thông tin lại càng trở lên quan trọng Nó được áp dụng trong nhiều lĩnh vực cuộc sống như theo dõi tin tức, làm sạch dữ liệu, chăm sóc khách hàng, quảng cáo… Đáng tiếc, là dữ liệu mà chúng ta có hiện nay hầu hết là các văn bản dạng phi cấu trúc và bán cấu trúc Các công cụ phần mềm đơn thuần không thể tự động phân tích các văn bản này, nó đòi hỏi con người phải mất rất nhiều thời gian, công sức để thực hiện công việc phân tích và chọn lọc Trích chọn thông tin chính là giải pháp cho vấn đề này Theo Cowie & Lehnert [2] trích chọn thông tin là lựa chọn các mảnh thông tin rời rạc có giá trị trong văn bản sau đó đưa chúng vào các dạng dữ liệu có cấu trúc nhằm nâng cao khả năng phân tích, biểu diễn, trực quan dữ liệu
Trích chọn thông tin có nhiều mức độ như nhận dạng thực thể (Entity Recognition), xác định thuộc tính đặc trưng (Attribute Recognition), xác định quan hệ giữa các thực thể (Ralation Extraction), nhận dạng đồng tham chiếu (Co-reference Resolution) [4] Bởi tính đa dạng về lĩnh vực, ngôn ngữ, rất nhiều phương pháp đã được
đề xuất và áp dụng để trích chọn thông tin: các phương pháp dựa trên luật, các mô hình thống kế, các mô hình học máy Mỗi phương pháp có ưu nhược điểm khác nhau và phù hợp với những kiểu dữ liệu nhất định
1.2 Trích chọn sự kiện
Trích chọn sự kiện là bài toán nhận được sự quan tâm từ cộng đồng nghiên cứu khoa học từ rất sớm Các vấn đề liên quan đến trích chọn sự kiện được đề cập đến nhiều nhiều trong hội nghị nổi tiếng như MUC (Message Understand Conference) với đóng góp
Trang 14quan trọng là đưa ra phương pháp trích xuất sự kiện theo khung mẫu (scenario template) Phương pháp này có thể trích chọn được ác sự kiện cùng các thông tin liên quan như tổ chức, các đối tượng tham gia (tác nhân, sự kiện) với độ chính xác và độ hồi tưởng nằm
trong khoảng 50% tới 60% [5] Bên cạnh đó, chương trình Phát hiện và theo dõi chủ đề
(TDT-Topic Detection and Tracking) được Viện công nghệ và chuẩn quốc gia Hoa Kỳ (NIST) cùng DARPA tổ chức thường niên từ năm 1997 tập trung giải quyết bài toán phát hiện sự kiện mới và theo dõi, xâu chuỗi sự kiện Chương trình đã thu hút được sự quan tâm của nhiều nhóm nghiên cứu nổi tiếng về trích chọn thông tin trên toàn thế giới Tại các hội nghị và chương trình danh giá khác về Xử lý ngôn ngữ tự nhiên và trích chọn thông tin, vấn đề trích xuất sự kiện cũng được rất nhiều nhóm nghiên cứu có uy tín tham luận, công bố và chia sẻ công trình nghiên cứu của mình với những kết quả ngày càng tích cực
1.2.1 Định nghĩa sự kiện
Theo Allan và cộng sự thì tin tức được coi là phản ánh một sự kiện nếu nó có đủ bốn yếu tố: hành vi, chủ thể, thời gian, địa điểm [6] Hành vi là các hoạt động/hành động gây ra sự kiện Chủ thể là con người, sự vật hoặc sự việc Thời gian là thời gian xảy ra sự
kiện Địa điểm là nơi diễn ra sự kiện Ví dụ: “Sáng ngày 28/8/2012 đã xảy ra một vụ tai
nạn trên đường Quốc lộ 1A khiến cho 2 người chết và 1 người bị thương.” Cũng theo
nhóm nghiên cứu này, việc định nghĩa rõ ràng thế nào là một sự kiện rất khó bởi sự đa dạng của ngôn ngữ, tính nhập nhằng liên quan tới ngữ cảnh và sự phức tạp về văn hóa của
mỗi cộng đồng Ví dụ sau đây có đủ bốn yếu tố nhưng vẫn không phải là sự kiện: “Theo
thống kê, trong 6 tháng đầu năm nay, số người tử vong do hỏa hoạn trên địa bàn
TP.HCM đã tăng lên con số 23 ” Trong phạm vi giải quyết bài toán trích xuất sự kiện,
việc định nghĩa rõ ràng sự kiện mà nghiên cứu quan tâm là yêu cầu trước tiên
Chương trình ACE đã định nghĩa sự kiện như là một sự việc xảy ra rõ ràng có liên quan đến người tham gia Sự kiện được đề cập đến được mô tả bởi một cụm từ hoặc một câu, nó bao gồm nguyên nhân xảy ra sự kiện và thành phần liên quan Mỗi sự kiện chỉ có một và chỉ một nguyên nhân và có thể có số lượng tùy ý các thành phần liên quan Các thành phần liên quan ở đây có thể là các thực thể được đề cập đến có quan hệ với sự kiện,
và mối quan hệ của các thực thể với nhau trong sự kiện Ví dụ, sự kiện “sự tấn công” thì phải có người tham gia là “người tấn công” hoặc “mục tiêu”, còn các thành phần liên quan có thể là “thời gian diễn ra” và “địa điểm diễn ra”
Trên thực tế, các nhóm nghiên cứu khác nhau quan tâm đến các lĩnh vực khác nhau
vì vậy việc định nghĩa thế nào là sự kiện cũng được xem xét, quyết định bởi mỗi lĩnh vực thì sự kiện được định nghĩa bởi các thuộc tính có thể khác nhau, sự ưu tiên của các thuộc tính này cũng khác nhau Một sự kiện khi được đề cập đến không nhất thiết phải có đầy
đủ các thuộc tính như trong định nghĩa
Trang 151.2.2 Trích chọn sự kiện
Trích chọn sự kiện là lĩnh vực con của trích chọn thông tin, nhiệm vụ của nó là tự động phân tích và trích chọn các đặc trưng về sự kiện trong các tài liệu phi cấu trúc hoặc bán cấu trúc Cụ thể hơn, trích chọn sự kiện tập trung vào nhận dạng các sự kiện thuộc một miền lĩnh vực biết trước đồng thời đưa ra các đặc trưng (tham số) của sự kiện như: tên, tác nhân, thời gian, địa điểm…
1.3 Phân tích và trích chọn chuỗi sự kiện
1.3.1 Phân tích chuỗi sự kiện và tính thời sự
Phân tích chuỗi sự kiện là một nhiệm vụ quan trọng trong nhiều lĩnh vực Cụ schất lượng chăm sóc sức khỏe cho bệnh nhân; phân tích các chuỗi hành vi người dùng để tìm
ra các mẫu sử dụng cho quảng cáo và nâng cao chất lượng dịch vụ … Trong mỗi lĩnh vực đều có những phần mềm chuyên dụng để phân tích các, trực quan hóa các chuỗi sự kiện
để nhà quản lý có thể dễ dàng đánh giá được dữ liệu của mình Với một yêu cầu, các dữ liệu đầu vào phải ở dạng có cấu trúc được phân tích từ các bản ghi sự kiện giao dịch, các phiên làm việc của người dùng… Tuy nhiên, như đã nói ở phần 1.1, lượng dữ liệu có cấu trúc nàylà rất nhỏ so với lượng dữ liệu phi cấu trúc vô cùng lớn và có giá trị như các loại nội dung số trên các trang báo mạng, mạng xã hội Đây là động lực chính để tác giả tìm hiểu và nghiên cứu giải pháp cho vấn đề phân tích và trực quan hóa chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt
Phân tích chuỗi sự kiện là việc trích chọn các đặc trưng của sự kiện, tính toán sự tương đồng của các sự kiện riêng biệt để liên kết chúng nhằm mô tả diễn biến của sự kiện
đó Đây là bài toán được đặt ra cho nhiều hội nghị và chương trình chuyên nghiên cứu về trích chọn thông tin, cụ thế nó là một trong năm nội dung của chương trình TDT-1 (1997) Chương trình này quan tân đến hai dạng dữ liệu: tin tức dưới dạng văn bản và tin tức thông qua phát thanh, truyền hình
1.3.2 Định nghĩa chuỗi sự kiện
Trong công bố của Hekki Mannila và cộng sự [7], một sự kiện được định nghĩa bởi
cặp (A,t) với A ϵ E là tập sự kiện (A bao gồm tên sự kiện, loại sự kiện và các thuộc tính), t
là thời gian xảy ra sự kiện đó Mỗi loại sư kiện có thể chứa đựng môt vài thuộc tính, nhưng để đơn giản chúng ta coi như mỗi loại sự kiện chỉ có một giá trị duy nhất Chuỗi sự
kiện S trên tập sự kiện E là một bộ ba giá trị (s, Ts, T e) với:
Trang 16 T e là thời gian kết thúc dãy sự kiện
đầu được đánh dấu - bài toán phát hiện sự kiện đầu (First Story Detection) trong
TDT-1,2; bài toán phát hiện sự kiện mới (New Event Detection ) trong TDT-3,4,5 Bước thứ hai, từ tập sự kiện đã được trích xuất, cần có những phương pháp đánh giá liên kết giữa các sự kiện để quyết định chuỗi
1.3.3 Phát hiện sự kiện khởi đầu và quyết định chuỗi
Chương trình TDT định nghĩa sự kiện khởi đầu là một sự kiện chưa từng xảy ra hoặc chưa từng được nhắc đến tính tới thời điểm hiện tại [8] Hình 1.2 minh họa sự kiện khởi đầu trong luồng thông tin cập nhật Hai sự kiện được biểu diễn bởi hình thoi và hình tròn trong luồng thông tin hỗn tạp được sắp xếp theo thời gian Hình vẽ chỉ ra hai sự kiện khởi đầu cùng các sự kiện kéo theo chúng Kết quả nhóm nghiên cứu tại đại học Carnegie Mellong do Yiming Yang điều hành cho rằng việc phát hiện sự kiện khởi đầu có thể tiến hành theo hai khía cạnh Thứ nhất, dựa trên các sự kiện đã xảy ra trước đó, những sự kiện được khởi đầu được đánh dấu, nghĩa là việc phát hiện sự kiện ngoại tuyến Thứ hai, giám sát luồng thông tin cập nhật và phát hiện sự khởi đầu qua từng sự kiện, tức ra thực hiện trực tuyến [9]
Trong luồng thông tin cập nhật liên tục, chúng ta phải quan tâm đến sự kiện trùng lặp và sự kiện tương đồng Đối với sự kiện trùng lặp, nhiều nguồn tin đưa ra cùng một sự kiện, tức là chúng có cùng tên và các thuộc tính Trong khi đó, sự kiện tương đồng là những sự kiện phản ánh sự thay đổi về trạng thái của sự kiện khởi đầu Khi một sự kiện xuất hiện trong luồng thông tin, nó sẽ được xác định xem có phải là sự kiện mới không dựa trên độ tương đồng, đây cũng là cơ sở để quyết định chuỗi Bài toán khử trùng lặp sẽ được thực hiện trong pha trích xuất sự kiện, còn ở bài toán nhận dạng chuỗi sự kiện ta chỉ
Trang 171.3.4 Trực quan hóa chuỗi sự kiện
LifeFlow là dạng các hệ thống có khả năng trực quan hóa chuỗi sự kiện theo thời gian, biểu diễn các mốc sự kiện và khoảng thời gian giữa các mốc này Hiện nay có khá nhiều hệ thống có khả năng như trên, đơn cử là hệ thống Event Flow, một bản nâng cấp của LifeFlow được phát triển bởi nhóm nghiên cứu tại trường Đại học Maryland, Mỹ EventFlow cho phép thống kê số lượng các chuỗi sự kiện, tìm kiếm chúng dựa trên các đặc trưng [1].Một công cụ trực quan hóa rất tốt khác phải kể đến đó là Zinsight, phát triển bởi trung tâm nghiên cứu của IBM và được công bố vào năm 2010 [10] Ngoài khả năng thống kê, Zinsight còn có thể theo dấu sự kiện, vẽ biểu đồ chuỗi sự kiện cùng một số chức năng phân tích khác Đặc biệt, Zinsight được phát triển như các plug-in cho phép tích hợp vào những môi trường phát triển tích hợp như Eclipse tạo thuận lợi cho các nhà phát triển phần mềm và phân tích dữ liệu làm việc hiệu quả hơn Tuy nhiên, Zinsight vẫn còn gặp một số lỗi khi tích hợp với eclipse, gây bất tiện khi thực nghiệm, do đó khóa luận quyết định sử dụng hệ thống EventFlow để tiến hành trực quan hóa sự kiện
1.4 Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự
kiện
1.4.1 Ý nghĩa khoa học
Trong lĩnh vực khoa học, phân tích và trích chọn chuỗi sự kiện là một trong những bài toán cơ bản của trích chọn thông tin hướng sự kiện Đưa ra được phương pháp tốt để giải quyết các khía cạnh của bài toán là cần thiết và là tiền đề cho các nghiên cứu khác như theo dõi xu hướng quan tâm của cộng đồng, dự đoán xu hướng sự kiện hay các bài toán về giám sát, quản lý xã hội Mặt khác, hiện nay trên miền dữ liệu Tiếng Việt có rất ít nghiên cứu được công bố chính thức về trích chọn cũng như trực quan hóa sự kiện và chuỗi sự kiện, do đó có một phương pháp trích xuất sự kiện và chuỗi sự kiện tốt sẽ là bước đệm cơ sở cho các nghiên cứu sau này
1.4.2 Ứng dụng thực tiễn
Như đã nói ở trên, nhu cầu tất yếu của con người là tiếp nhận thông tin, theo dõi các tin tức về lĩnh vực mà mình quan tâm Người dùng sẽ dễ dàng hơn trong việc theo dõi một sự kiện, tin tức nếu nó đã được sắp xếp có tuần tự Ngoài ra, trên các lĩnh vực khác nhau, việc xâu chuỗi các sự kiện là vô cùng cần thiết đối với các hệ thống phân tích, theo dõi, dự đoán về thời tiết, sức khỏe, bệnh dịch, xu hướng dịch vụ,… Do vậy, phát triển các phương pháp về trích xuất chuỗi sự kiện là cần thiết và đúng đắn
1.5 Khó khăn và thách thức
Mặc dù được các nhà khoa học quan tâm nghiên cứu khá sớm, phân tích và trích chọn chuỗi sự kiện vẫn còn tồn tại nhiều khó khăn với những thách thức trong việc nâng cao hiệu quả bài toán trong dữ liệu ngày càng lớn và phức tạp
Trang 18Độ chính xác của trích chọn chuỗi sự kiện phụ thuộc rất lớn vào quá trình trích xuất sự kiện Trong khi đó, trích xuất sự kiện là một bài toán khó, liên quan mật thiết đến các vấn đề ngôn ngữ học Lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng tương đối rộng và tồn tại bài toán chưa được giải quyết triệt để mà trong đó có
xử lý nhập nhằng ngữ nghĩa (Word Sense Disambiguation), bài toán đồng tham chiếu (Co-references) hay việc nhận dạng tính đa hình của cấu trúc ngữ pháp trong tiêu đề tin tức
Vấn đề mấu chốt trong trích chọn chuỗi sự kiện là sự đúng đắn trong tính tuần tự của các tin tức sự kiện Trong nhiều trường hợp, giả sử rằng hai tin tức đều nói về một sự
kiện, tin tức T1 được xuất bản trước tin tức T2 nhưng T1 lại phản ánh trạng thái sự kiện xảy
ra sau tin tức T2 khi mà khoảng thời gian chuyển trạng thái của sự kiện không có cách biệt lớn và sự mập mờ trong thông tin về thời gian Có thể đó là một sự kiện nóng được cập nhật liên tục Như vậy, rất khó để có thể đưa ra một chuỗi trạng thía sự kiện hợp lý Điều này đòi hỏi nhiều thống kê, khảo sát dữ liệu, phân tích xu hướng xuất bản tin tức và những kỹ thuật giám sát mức cao khác
Ngoài ra, tính tới thời điểm thực hiện khóa luận, theo khảo sát của tác giả thì ở Việt Nam có rất ít nghiên cứu về trích xuất sự kiện, phân tích và trích chọn chuỗi sự kiện Bởi vậy, khóa luận rất thiếu những nguồn tham khảo về kỹ thuật cũng như kinh nghiệm trong việc xử lý bài toán với dữ liệu tiếng Việt Điều này đòi hỏi nhiều thời gian hơn để thử nghiệm và đánh giá phương pháp nào là tốt, phù hợp với mục tiêu đề ra
1.6 Tóm tắt chương 1
Chương 1 đã nêu một số vấn đề về trích chọn thông tin trong thời đại dữ liệu lớn
và có xu hướng tang mạnh trong tương lai Trọng tâm của chương này là làm rõ ràng bài toán phân tích và trích chọn chuỗi sự kiện với các định nghĩa sự kiện, trích xuất sự kiện, chuỗi sự kiện, các bước tiếp cận vấn đề đồng thời giới thiệu một số công cụ phân tích và trực quan hóa chuỗi sự kiện Bên cạnh đó, nội dung của chương 1 cũng nêu bật ý nghĩa của việc giải quyết bài toán phân tích chuỗi sự kiện bao gồm ý nghĩa về mặt lý luận khoa học và ứng dụng thực tiễn Chương này cũng nêu lên những khó khăn, thách thức mà người giải quyết bài toán gặp phải khi nghiên cứu và triển khai các phương pháp trích chọn, chi tiết về các phương pháp phân tích, trích chọn chuỗi sự kiện sẽ được đề cập trong chương
Trang 19Chương 2
Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện
Trong chương 1, tác giả đã mô tả những hiểu biết cơ bản về bài toán phân tích, trích chọn sự kiện và chuỗi sự kiên Ở chương này, khóa luận sẽ trình bày một số phương pháp giải quyết, trong phần 2.1 là các phương pháp học máy như k người láng giềng gần nhất k-NN, cây quyết định D-tree và một phương pháp lai kết hợp giữa k-NN và máy hỗ trợ vec-tơ SVM Tiếp đó, phần 2.2 sẽ đưa đến phương pháp trích xuất chuỗi sự kiện dựa trên độ tương đồng về nội dung, phần 2.3 nói về hướng giải quyết bài toán dựa trên việc
sử dụng các thông tin về thời gian địa điểm Kết thúc chương sẽ là phần nhận xét, đánh giá các thuật toán dẫn đến quyết định phương pháp đề xuất của tác giả sẽ được trình bày ở chương 3
2.1 Hướng tiếp cận học máy
Ở góc độ học máy, bài toán phân tích và trích chọn chuỗi sự kiện được coi là một bài toán phân lớp Bộ phân lớp sẽ học dựa trên tập huấn luyện và đưa ra kết quả phân lớp các chuỗi sự kiện Một hệ thống như vậy được mô tả như hình dưới đây
Hình 2.1 Hệ thống trích chọn sự kiện áp dụng học máy
2.1.1.Phương pháp k người láng giềng gần nhất k-NN
Có rất nhiều phương pháp học máy được áp dụng vào bài toán nhận dạng và trích chọn chuỗi sự kiện, trong đó k-NN là một trong những thuật toán được sử dụng sớm nhất Với học máy giám sát, k-NN được biết đến là một phương pháp phân lớp rất tốt trong việc nhận dạng các mẫu, phân loại văn bản Trong công bố của Yiming Yang và các cộng
sự [11], nhóm đã tiến hành áp dụng k-NN vào bài toán theo dõi chuỗi sự kiện, ưu điểm của phương pháp này là kết quả rất tốt mà lại cần ít nhất số giả thiết về các về các sự kiện Mỗi chuỗi sự kiện sẽ được trích chọn một cách độc lập mà không cần biết về các sự kiện khác Các sự kiện trong tập dữ liệu huấn luyện sẽ được gán một trong ba nhãn YES,
NO hoặc Brief (tóm tắt sự kiện hoặc thông báo) Bộ phân lớp sẽ tiến hành học trên từng
Trang 20sự kiện riêng biệt, khi một sự kiện mới được đưa vào, hệ thống sẽ mã hóa nó bằng một
vec-tơ đặc trưng và so sánh với các sự kiện đã có trong tập huấn luyện Việc lựa chọn k sự
kiện gần với sự kiện mới nhất dựa trên độ tương đồng cô-sin Độ tin cậy khi gán nhãn YES cho một sự kiện mới được tính theo công thức 2.1
P(x, k) là tập dữ liệu huấn luyện dương trong số k láng giềng
N(x, k) là tập dữ liệu huấn luyện dương trong số k láng giềng
Hình 2.2 Mô tả dữ liệu âm dương Một vấn đề nảy sinh là dữ liệu huấn luyện dương quá ít so với dữ liệu huấn luyện
âm Bởi vậy, hầu như cụm nào cũng có chứa dữ liệu âm (Hình 2.2), dẫn tới không thể gán nhãn cho tin tức mới Giải pháp cho vấn đề này là sự hạn chế sự ảnh hưởng của các dữ liệu huấn luyện âm bằng cách lấy một số nhỏ mẫu trong k láng giềng gần nhất, bỏ qua số còn lại Thuật toán k-NN có sự thay đổi theo tư tưởng vừa nêu ra Lấy tập k k1( 1k) láng giềng gần nhất được gán nhãn dương P x k( , )1 và tập k k2( 2 k) láng giềng gần nhất được gán nhãn âm N(x,k ) 2 Theo đó độ tin cậy của nhãn YES đối với dữ liệu tin tức mới được tính lại bởi biểu thức 2.2
Trang 21Máy hỗ trợ vec-tơ SVM (Support Vector Machine) được đánh giá là một thuật toán
có hiệu năng rất cao trong bài toán phân lớp văn bản, đặc biệt là những bài toán với dữ liệu có số chiều lớn như vec-tơ biểu diễn văn bản [12] Để tận dụng điều này, Zhen Lei và cộng sự đã đưa ra hướng giải quyết bài toán trích chọn chuỗi sự kiện dựa trên ý tưởng kết hợp hai thuật toán SVM và k-NN [13] Độ chính xác siêu phẳng quyết định bởi mô hình SVM trong nhiều trường hợp này vẫn có sự nhập nhằng, không chính xác (Hình 2.3) Khắc phục điều này, phương pháp k-NN được áp dụng bằng cách tìm một mẫu trung tâm rồi xét các mẫu gần nó nhất nằm xung quanh siêu phẳng, nhằm đưa ra nhãn đúng nhất cho những mẫu bị nhập nhằng này Mẫu trung tâm được quyết định bởi công thức 2.6
n (0)