Còn theo định nghĩa của Allen và cộng sự [1], một sự kiện bao gồm bốn thuộc tính: phương thức, sự phân cực, mức độ, và thời điểm.Để có thể tìm hiểu sâu hơn về mô hình và phương pháp giải
Trang 1LỜI CAM ĐOAN
Tác giả Phạm Xuân Hà xin cam kết rằng nội dung của Luận văn này chưa được nộp cho bất kỳ một chương trình cấp bằng cao học nào cũng như bất kỳ một chương trình đào tạo cấp bằng nào khác
Ngoài ra, tác giả cũng xin cam kết Luận văn thạc sĩ này là nỗ lực riêng của cá nhân tác giả Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này (ngoài các phần được trích dẫn) đều là kết quả làm việc của cá nhân tác giả
Thái Nguyên, ngày 10 tháng 5 năm 2016
Tác Giả
Phạm Xuân Hà
Trang 2LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo,
Tổ chuyên môn Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tận tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt thời gian em theo học tại trường Các kiến thức, kinh nghiệm quý báu của các Quý thầy cô giáo không chỉ giúp cá nhân em hoàn thiện hệ thống kiến thức trong học tập mà còn giúp em ứng dụng các kiến thức đó trong công tác hiện tại tại đơn vị
Đặc biệt, em xin chân thành cảm ơn GS TS Vũ Đức Thi đã rất nhiệt tình
và tâm huyết trong việc định hướng và giúp đỡ em hoàn thành luận văn này
Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học Xin chân thành cảm ơn những người bạn lớp cao học CK13, trong 2 năm qua đã luôn luôn động viên, khích lệ và hỗ trợ em trong quá trình học tập
Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song chắc chắn luận văn của em vẫn còn nhiều thiếu sót Em rất mong nhận được
sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được hoàn thiện hơn
Thái Nguyên, ngày 10 tháng 5 năm 2016
Tác Giả
Phạm Xuân Hà
Trang 3MỤC LỤC
Danh mục các bảng
Danh sách hình vẽ
MỞ ĐẦU 7
1.1 Sự cần thiết lựa chọn đề tài 7
1.2 Mục tiêu đề tài 8
1.3 Đối tượng và phạm vi nghiên cứu 8
1.4 Phương pháp nghiên cứu 8
1.5 Cấu trúc của luận văn 9
Chương 1 TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN 10
1.1 Tổng quan về trích chọn thông tin 10
1.1.1 Bài toán trích chọn thông tin 10
1.1.2 Cơ hội và thách thức cho bài toán trích chọn thông tin 11
1.2 Tổng quan về trích chọn sự kiện 15
1.2.1 Định nghĩa sự kiện 17
1.2.2 Trích chọn sự kiện 19
1.3 Khó khăn và thách thức của trích chọn sự kiện 20
1.4 Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện 21
1.4.1 Phương pháp tiếp cận dựa trên tập luật 21
1.4.2 Phương pháp tiếp cận dựa trên học máy 24
1.4.3 Phương pháp kết hợp luật và học máy 25
1.4.4 Một số nhận xét 26
1.5 Kết luận chương 28
Chương 2 BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRONG VĂN BẢN TIẾNG VIỆT 29
2.1 Tổng quan bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt 29
2.1.1 Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh 29
2.1.2 Các đặc tính của sự kiện dịch bệnh 32
2.1.3 Phát biểu bài toán 33
Trang 42.2 Mô hình trích chọn sự kiện dịch bệnh 34
2.2.1 Phương pháp sử dụng 34
2.2.2 Mô hình phát hiện và trích chọn sự kiện dịch bệnh 35
2.3 Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh 37
2.3.1 Phát biểu bài toán 37
2.3.2 Xây dựng tập luật 38
2.3.3 Xây dựng mô hình phân lớp 40
2.4 Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh 41
2.4.1 Phát biểu bài toán 41
2.4.2 Trích chọn thời gian 42
2.4.3 Trích chọn tên bệnh 43
2.4.4 Trích chọn địa điểm 45
2.5 Tổng kết chương 47
Chương 3 THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRÊN MỘT SỐ TRANG THÔNG TIN ĐIỆN TỬ 48
3.1 Bài toán 48
3.2 Môi trường và các công cụ thử nghiệm 49
3.3 Thử nghiệm quy trình trích chọn dịch 52
3.3.1 Thu thập dữ liệu (Web Crawler) 52
3.3.2 Phát hiện sự kiện dịch bệnh 53
3.3.3 Trích chọn sự kiện dịch bệnh 53
3.4 Thống kê báo cáo 57
3.5 Tổng kết chương……… 60
KẾT LUẬN 61
Tài liệu tham khảo 62
Trang 5DANH MỤC CÁC BẢNG
Bảng 1.1 Thống kê trên dữ liệu Twitter……….12
Bảng 2.1 Danh sách các từ/cụm từ thường xuyên……….39
Bảng 3.1 Cấu hình thử nghiệm……… 48
Bảng 3.2 Công cụ phần mềm có sẵn……….49
Bảng 3.3 Kết quả lọc các bài viết có chứa thông tin về các dịch bệnh 53
Bảng 3.4 Kết quả trích chọn 55
Bảng 3.5 Thống kê theo địa điểm……….57
Bảng 3.6 Thống kê theo thời gian……….58
Bảng 3.7 Thống kê theo tên dịch bệnh 59
Trang 6DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020……… 12
Hình 1.2 Dữ liêu trên Internet trong 60 giây………13
Hình 1.2 Các bước trong quá trình khám phá tri thức trong cơ sở dữ liệu 14
Hình 2.1 Quá trình phát hiện và trích chọn sự kiện……… 36
Hình 2.2 Thành phần phát hiện sự kiện………37
Hình 2.3 Thành phần trích chọn sự kiện……… 41
Hình 2.4 Biểu diễn của cây phân cấp địa điểm……….46
Hình 3.1 Giao diện phần mềm crawler thu thập dữ liệu……… 52
Hình 3.2 Kết quả thử nghiệm trích chọn sự kiện dịch bệnh……….56
Hình 3.3 Biểu đồ thống kê theo địa điểm……….57
Hình 3.4 Biểu đồ thống kê theo thời gian……….58
Hình 3.5 Biều đồ thống kê theo tên dịch bệnh……….59
Trang 7MỞ ĐẦU1.1 Sự cần thiết lựa chọn đề tài
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ Để khai thác hiệu quả nguồn thông tin trên các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã
sử dụng công cụ máy tính điện tử để phát triển các phương pháp, kỹ thuật mới
hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge Discovery) mà hạt nhân là các kỹ thuật phân tích dữ liệu (Data Analysis), trong đó các phương pháp trích chọn thông tin, trích chọn sự kiện là mảng nghiên cứu quan trọng và có ứng dụng rộng rãi trong thực tiễn
Trích chọn sự kiện (Event Extraction - EE) là bài toán con trong trích chọn thông tin (Information Extraction - IE) và là một lĩnh vực nghiên cứu quan trọng trong khai phá dữ liệu và học máy, có nhiều ứng dụng quan trọng trong thực tiễn Kết quả của quá trình trích chọn là đầu vào cho các kỹ thuật khai phá dữ liệu và học máy nhằm trích lọc ra các tri thức, quy luật có ích trong dữ liệu, phục vụ công tác điều hành, dự báo, ra quyết định
Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trong lĩnh vực khai phá dữ liệu nói chung và trích chọn thông tin nói riêng Trích chọn sự kiện được đề xuất lần đầu tiên tại hội thảo Message Understanding Conference năm 1987 [19] Trong hội nghị này, một
sự kiện được định nghĩa như sau: một sự kiện bắt buộc phải có tác nhân, thời gian xảy ra sự kiện, địa điểm và tác động tới môi trường xung quanh Bên cạnh đó, chương trình Automatic Content Extraction (ACE) đưa ra định nghĩa:
Sự kiện là một hành động được tạo ra bởi người tham gia và được chia thành
Trang 8tám loại: Cuộc sống, sự di chuyển, sự chuyển, kinh doanh, xung đột, liên hệ, con người và luật pháp Còn theo định nghĩa của Allen và cộng sự [1], một sự kiện bao gồm bốn thuộc tính: phương thức, sự phân cực, mức độ, và thời điểm.
Để có thể tìm hiểu sâu hơn về mô hình và phương pháp giải quyết bài
toán trích chọn sự kiện dịch bệnh, em đã chọn đề tài “Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh” để làm luận văn thạc sĩ của mình.
1.2 Mục tiêu đề tài
Tìm hiểu tổng quan về bài toán trích chọn sự kiện và các phương pháp giải quyết bài toán trích chọn sự kiện, trên cơ sở đó xây dựng mô hình giải quyết bài toán trích chọn sự kiện dịch bệnh từ các dữ liệu văn bản tiếng Việt Cài đặt và thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang thông tin điện tử tiếng Việt trên mạng Internet
1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là các phương pháp, công cụ giải quyết bài toán trích chọn sự kiện trong văn bản tiếng Việt và các trang thông tin điện tử tiếng Việt trên mạng Internet về dịch bệnh
Phạm vi nghiên cứu của đề tài là bài toán trích chọn sự kiện về các dịch bệnh trên một số trang thôn tin điện tử tiếng Việt (website) trên mạng Internet
1.4 Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên cứu thực nghiệm
Về nghiên cứu lý thuyết, đề tài đã tổng hợp các kết quả nghiên cứu về các phương pháp trích chọn sự kiện từ văn bản tiếng Việt phục vụ phân tích, thống kê, báo cáo, ra quyết định Về nghiên cứu thực nghiệm, đề tài xây dựng
và cài đặt, thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang thông tin điện tử (website) bằng tiếng Việt trên mạng Internet
Trang 91.5 Cấu trúc của luận văn
Cấu trúc luận văn gồm: mở đầu, ba chương chính, kết luận và tài liệu tham khảo
Phần mở đầu: Lý do chọn đề tài và bố cục luận văn
Chương 1: Giới thiệu tổng quan bài toán trích chọn sự kiện và một số
phương pháp tiếp cận giải quyết bài toán trích chọn sự kiện
Chương 2: Trình bày bài toán trích chọn sự kiện dịch bệnh từ dữ liệu
văn bản tiếng Việt, bao gồm phát biểu bài toán, phương pháp đề xuất, mô hình phát hiện và trích chọn sự kiện, ý nghĩa khoa học và thực tiễn của bài toán trích chọn sự kiện dịch bệnh
Chương 3: Trình bày kết quả thực nghiệm mô hình trích chọn sự kiện
dịch bệnh trên một số trang thông tin điện tử (website) bằng tiếng Việt trên mạng Internet
Phần kết luận: Tóm tắt các kết quả đạt được và hướng phát triển tiếp của
đề tài
Trang 10Chương 1 TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN
Chương này giới thiệu tổng quan về trích chọn sự kiện và các phương pháp tiếp cận giải quyết bài toán trích chọn sự kiện
1.1 Tổng quan về trích chọn thông tin
1.1.1 Bài toán trích chọn thông tin
Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu
văn bản, nó được định nghĩa như sau: Trích chọn thông tin (IE - Information Extraction) là quá trình lấy thông tin từ các nguồn ở những định dạng không
đồng nhất thậm chí không có định dạng cụ thể khi nó ở dạng văn bản diễn đạt bằng ngôn ngữ tự nhiên, sau đó chuyển thành một dạng đồng nhất Dữ liệu sau khi trích chọn được sử dụng, trình bày trực tiếp cho người dùng, lưu vào
cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông tin như một dữ liệu đã qua bước tiền xử lý
Trích chọn thông tin (IE) có thể được coi nằm giữa thu hồi thông tin (Information Retrieval - IR) và hiểu văn bản (Text Understanding) [3] Không giống với thu hồi thông tin chỉ tập trung vào các mẩu thông tin có liên quan trong văn bản, trích xuất thông tin còn quan tâm tới các sự kiện có liên quan trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu (template) Bên cạnh đó, khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản (câu, đoạn văn), trích xuất thông tin quan tâm tới toàn bộ nội dung văn bản.Theo Peshkin và Pfeffer, trích chọn thông tin có thể được định nghĩa như
là một công việc điền thông tin vào các mẫu từ các dữ liệu không biết trước trong miền được định nghĩa trước Mục tiêu của trích chọn thông tin là lấy từ các văn bản các thông tin nổi bật của các sự kiện, thực thể, hoặc các mối quan
hệ Như vậy, có thể coi trích chọn thông tin là một kỹ nghệ lấy và biểu diễn tri
Trang 11thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu vô tận trên Internet.
Vậy bài toán trích chọn thông tin có thể được phát biểu như sau:
1) Đầu vào: dữ liệu bất kỳ.
2) Đầu ra: thông tin hữu ích (tri thức) có cấu trúc.
Dữ liệu đầu vào cho bài toán trích chọn thông tin rất phong phú và đa dạng Dữ liệu có thể là có cấu trúc (structured), bán cấu trúc (semi-structured), không có cấu trúc (unstructured), hoặc có thể là dữ liệu không gian (partial),
dữ liệu thời gian (temporal) Với bất kỳ dạng dữ liệu nào, nhiệm vụ của trích chọn thông tin cũng phải đưa ra các kết quả có cấu trúc ngắn và ý nghĩa
1.1.2 Cơ hội và thách thức cho bài toán trích chọn thông tin
Trong tài liệu số [26], John chỉ ra rằng chúng ta đang dư thừa dữ liệu tuy
nhiên lại nghèo nàn về tri thức “We are drowning in data, but starving for knowledge!".
Theo thống kê của NOAA (National Oceanic and Atmospheric Administration, USA) tính tới thời điểm tháng 04-2012, dữ liệu người dùng tạo ra trên Internet khoảng gần 60.000 Terabytes và sẽ tăng lên khoảng 160.000 Terabytes trong vòng 8 năm tới Sự tăng trưởng được minh họa trong hình 1.1 (http://celebrating200years.noaa.gov/visions/data_mgmt/).
Trang 12Hình 1.1 Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020
Theo thống kê từ http://www.statisticbrain.com/twitterstatistics/ ngày
01/01/2014 trên dữ liệu Twitter, mỗi ngày có khoảng 135.000 người đăng nhập vào Twitter, số lượng các thông điệp một ngày trên Twitter là khoảng 58 triệu tweet, trung bình mỗi giây có khoảng 9.100 thông điệp được người dùng đưa lên Twitter Số liệu chi tiết được minh hoạ trong Bảng 1.1
Bảng 1.1 Thống kê trên dữ liệu Twitter
Số lượng các người dùng đăng ký tích cực 645.750.000
Số lượng các người dùng đăng nhập một ngày 135.000
Số lượng các trang đặc biệt được thăm hàng tháng 190 triêu
Số lượng các truy vấn thông quan chức năng tìm kiếm một ngày 2.1 tỷ
Số lượng các người dùng tích cực hàng tháng 115 triêu
Số ngày mà tổng số thông điệp đạt tới 1 tỷ 5 ngày
Theo thống kế của Qmee (seconds/, http:// www.independent.co.uk / life-style / gadgets-and-tech / news
Trang 13http://blog.qmee.com/qmee-online-in-60-/ what-happens-in-60-seconds-on-the-internet-8738267.html), dữ liệu trên Internet trong 60 giây có thể được trực quan hóa như Hình 1.2 dưới đây:
Hình 1.2 Dữ liêu trên Internet trong 60 giây
Thông qua Hình 1.2, mỗi giây người dùng tải lên 72 giờ video, có khoảng 2 triệu câu truy vấn trên Google, khoảng 41.000 thông điệp được người dùng Facebook tải lên mỗi giây, khoảng 20 triệu bức ảnh được tải lên Flick, 204 triệu email được gửi Những con số thống kê trên cho thấy dữ liệu được đưa lên Internet có số lượng lớn và phong phú về chủng loại
Từ các thống kê trên, chúng ta có thể thấy rằng dữ liệu có xu hướng bùng nổ trên Internet Tuy nhiên, nhiều dữ liệu không đảm bảo rằng người dùng có nhiều thông tin và càng không thể nói rằng người dùng có thể nắm bắt được tri thức một cách hiển nhiên và dễ dàng Trong thực tế, quá trình
Trang 14biến đổi từ dữ liệu sang thông tin và cuối cùng sang tri thức là một quá trình lâu dài, đòi hỏi nhiều phương pháp xử lý phức tạp Quá trình biến đổi này có thể được minh hoạ trong hình 1.3.
Hình 1.2 Các bước trong quá trình khám phá tri thức trong cơ sở
dữ liệu
Theo Fayyad và cộng sự [15], quá trình biến đổi từ dữ liệu thành tri thức
là một quá trình biến đổi lâu dài, cần nhiều bước xử lý phức tạp Trong suốt quá trình này, dữ liệu được thể hiện ở ba mức: dữ liệu, thông tin (mẫu), và tri thức Ở đây, dữ liệu có thể coi là một tập hợp các sự kiện (các bản ghi trong
cơ sở dữ liệu) Thông tin (mẫu) là một sự biểu diễn trong một ngôn ngữ mô tả của một tập con dữ liệu Cuối cùng, thông tin sẽ là tri thức nếu nó vượt qua một ngưỡng (threshold)
Một điều rõ ràng, sự bùng nổ dữ liệu trên Internet tạo ra những thuận lợi
và thách thức: cho các nhà khoa học khi muốn thu hồi thông tin Đầu tiên, sự phát triển của Internet và sự bùng nổ thông tin tạo ra nhiều nguồn thông tin Nếu như trước đây, nguồn dữ liệu chủ yếu là văn bản (text) thì hiện nay dữ liệu rất phong phú, bao gồm các dữ liệu văn bản, hình ảnh, âm thanh, các dữ liệu thời gian, không gian Những nguồn dữ liệu tạo điều kiện thuận lợicho những nghiên cứu về trích chọn thông tin Bên cạnh đó, dữ liệu hiện nay không đơn 1thuần là tin tức, nó còn bao gồm thông tin cá nhân (cảm xúc, ý
Trang 15kiến) Từ những dữ liệu mới này, trích chọn thông tin có thể thu hồi những thông tin mới phục vụ cho quá trình tích hợp thông tin.
Tuy nhiên, bên cạnh những thuận lợi, sự bùng nổ về dữ liệu tạo ra những thách thức không nhỏ trong lĩnh vực trích chọn thông tin Đầu tiên, với sự ra đời của các dữ liệu mới đòi hỏi cần phải có những kỹ thuật phù hợp Đôi khi trong một số trường hợp, trích chọn thông tin phải đương đầu với những dữ liệu phức tạp như hình ảnh, âm thanh, dữ liệu không gian, hoặc thời gian Thứ hai, sự đang dạng về nguồn dữ liệu đòi hỏi quá trình tích hợp dữ liệu phức tạp Điều này xuất phát do mục đích của trích chọn thông tin là lấy ra một lượng nhỏ thông tin có ý nghĩa, do đó, sau quá trình trích chọn, dữ liệu cần được tổng hợp từ nhiều nguồn khác nhau để cuối cùng đưa ra dữ liệu có ý nghĩa với người dùng Cuối cùng, bài toán về tốc độ xử lý và tính toán cần được giải quyết Với sự bùng nổ về số lượng và phức tạp về nội dung yêu cầu các phương pháp trích chọn thông tin phải có thời gian xử lý hợp lý
Như đã đề cập ở trên, chúng ta có thể thấy rõ tầm ảnh hưởng của dữ liệu lớn (Big Data) tới quá trình thu hồi thông tin của con người và vai trò của trích chọn thông tin trong bối cảnh thông tin bùng nổ và gây khó khăn cho người dùng trong quá trình tiếp cận tri thức
//www-được tổ chức tạo thành dãy hội nghị MUC Với mỗi hội nghị, thông tin //www-được quan tâm khác nhau nhưng đều có đặc điểm chung là chúng được trích xuất từ
Trang 16dữ liệu nói về khủng hoảng (crisis) Các chủ đề trong dữ liệu thường là tội phạm, khủng bố, đánh bom Một trong những đóng góp lớn của MUC là đưa
ra việc trích xuất thông tin dựa trên mẫu (scenario template) Các mẫu được ban tổ chức quy định và các đội tham gia cần điền thông tin vào các mẫu này một cách tự động Cuối cùng, các sự kiện được trích chọn gồm các thông tin:
tổ chức, đối tượng tham gia (người, sự vật, sự việc), thời gian, địa điểm, số lượng Độ chính xác (precision) và hồi tưởng (recall) của các nghiên cứu
tham dự MUC nam trong khoảng 50% đến 60% [19]
Chương trình Phát hiện và theo dõi chủ đề (Topic Detection and
Tracking, TDT) (http://projects.ldc.upenn.edu/TDT/) được tổ chức từ năm
1997 thu hút nhiều nhóm nghiên cứu từ các trường đại học tham gia Chương trình này được phối hợp tổ chức bởi Viện Công nghệ và Chuẩn hoá quốc gia Hoa Kỳ (NIST) và DAPRA nham giải quyết bài toán phát hiện, theo dõi, và xâu chuỗi sự kiện Một số nhóm nghiên cứu tham gia chương trình này như: nhóm CMU của đại học Carnegie Mellon, nhóm BBN từ công ty BBN Technologies, nhóm DRAGON của công ty Dragon Systems, nhóm UPENN của trường đại học Pennsylvania (UPENN) Các bài toán quan trọng của TDT gồm: Story Segmentation, Topic Tracking, Topic Detection, First Story
Detection, and Link Detection (http: //www.itl.nist.gov/iad/mig//tests/tdt/) Chương trình Trích xuất nội dung tự động (Automatic Content
Extraction, ACE) 10 11 của đại học Pennsylvania cũng thu hút được nhiều sự quan tâm từ cộng đồng nghiên cứu về trích chọn thông tin cũng như trích chọn sự kiện Chương trình này tập trung vào các ngôn ngữ như tiếng Anh, Trung Quốc, và A rập (Arabic) Các thông tin được trích chọn gồm các thực thể, quan hệ giữa các thực thể, và các sự kiện chúng tham gia vào ACE có mục đích giống với MUC, tuy nhiên chương trình này tập trung vào các đối
Trang 17tượng (thực thể, mối quan hệ thực thể và các sự kiện) hơn là tập trung vào các
từ (term of words) trong văn bản
Như vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự kiện nói riêng là một vấn đề quan trọng và thời sự, nhận được rất nhiều quan tâm từ cộng đồng khoa học Trong phần tiếp theo, luận văn sẽ làm sáng tỏ định nghĩa về sự kiện cũng như bài toán trích chọn sự kiện
pháp đề điền các thông tin vào các mẫu cho trước (scenario template) Các mẫu này gồm nhiều thành phần (slots/elements) khác nhau tương ứng với các thành phần được định nghĩa bên trên Thời gian ban đầu, MUC chỉ tập trung nghiên cứu các sự kiện quân sự Tuy nhiên, ở các lần tổ chức sau, các loại sự kiện mới được bổ sung như khủng bố, đầu tư mạo hiểm, tai nạn máy bay Trong chương trình ACE, Dodington George R và cộng sự đưa ra định
nghĩa sự kiện như sau: “một sự kiện là một hành động được tạo bởi những người tham gia” [13] ACE chia sự kiện thành 8 loại khác nhau gồm: LIFE (sự sống-chết), MOVEMENT (sự di chuyển), TRANSACTION (giao dịch), BUSINESS (kinh tế), CONFLICT (xung đột), CONTACT (giao thiệp, gặp gỡ), PERSONNEL (nhận- đuổi việc), JUSTICE (pháp lý) Mỗi dạng sự kiện lại phân biệt từng dạng con Ví dụ, LIFE có các dạng sự kiện con như BE-BORN (chào đời), INJURE (bị thương), DIE (chết), hay PERSONAL có START-POSITION (vị trí khi nhận việc), ENDPOSITION (vị trí khi thôi việc), NOMINATE (bổ nhiệm), ELECT (bầu chọn)
Trang 18Trong nghiên cứu của mình, Allen và cộng sự cho rằng một sự kiện được
phản ánh qua tin tức khi nó có 4 yếu tố: phương thức (modality), tính đối cực (polarity), sự tổng quát (genericity), và thời điểm (tense) [1] Trong đó, phương thức là hành vi gây ra sự kiện; tính đối cực là sự kiện đó gây tác động tốt hay xấu (possi- tive/negative); sự tổng quát là sự kiện đó có tính chung hay riêng (specific/generic); và th ời điểm là thời gian xảy ra sự kiện (past, present, future, hoặc unspecified)
Trong miền dữ liệu liên quan tới dịch bệnh, Gishman R và cộng sự đưa
ra định nghĩa về một sự kiện như là một mẫu (template) gồm các thuộc tính:
tên bệnh (disease name), thời gian (date), địa điểm (location), số lượng nạn nhân (victime number), mô tả về nạn nhân (victim descriptor), tình trạng (victim status), loại nạn nhân (victim type), và sự kiện cha (parent event)
[17] Sự khác biệt trong định nghĩa của Grishman với các định nghĩa khác ở chỗ ông đề cập thêm tới sự kiện cha Trong thực tế, một sự kiện có thể là sự kiện bắt đầu hoặc được bắt đầu từ một sự kiện khác (parent event) Như vậy, quá trình trích chọn sự kiện không đơn giản chỉ lấy ra các thông tin tương ứng với mẫu được định nghĩa mà cần phát hiện thêm sự kiện ban đầu của sự kiện hiện tại
Trong công bố của Nguyen và cộng sự, các tác giả quan niệm một sự
kiện dịch bệnh là một mẫu (template) gồm các thuộc tính tên bệnh (disease name), thời điểm bùng phát (time), và địa điểm bùng phát (location) Khác
với quan niệm của Grishman và cộng sự, các tác giả chỉ quan tâm tới ba thuộc tính cho mục đích trực quan hoá hơn là trích chọn các thông tin chi tiết của sự kiện và phát hiện chuỗi sự kiện Trong miền dữ liệu tiếng Việt, Tran và các
cộng sự quan tâm tới ba loại sự kiện chính gồm: cháy nổ, tội phạm, và tại nạn giao thông Mục tiêu của tác giả là trích chọn ra các thông tin cơ bản của ba
loại sự kiện và trực quan hoá chúng trên một bản đồ theo dõi sự kiện
Trang 19Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có thể coi như một mẫu (template) gồm nhiều các thuộc tính (elements) Quá trình trích chọn sự kiện quan tâm tới việc làm thế nào có thể điền các thông tin phù hợp từ văn bản gốc tương ứng với từng thuộc tính.
1.2.2 Trích chọn sự kiện
Trích xuất sự kiện có thể coi là một lĩnh vực con của trích chọn thông tin Tuy nhiên, trích chọn sự kiện có sự khác biệt với lĩnh vực cha của nó Nếu như trích chọn thông tin chỉ quan tâm với các dữ liệu rời rạc (tên người, địa điểm, các con số, ) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của thông tin trong một sự kiện Qua đó, người đọc
có thể dễ dàng suy luận ra các thông tin có ý nghĩa Ví dụ, với câu “Thêm một trẻ tử vong do bệnh tay chân miệng tại Quảng Nam vào ngày 12/06/2012” Trong ví dụ này, trích chọn thông tin đưa ra các kết quả rời rạc như: một, Quảng Nam, hoặc 12/06/2012; trong khi trích chọn sự kiện sẽ đưa ra một bộ
các thuộc tính biểu diễn cho sự kiện gồm {tay chân miệng, Quảng Nam,
12/06/2012} Một ví dụ khác, “Ngay sáng ngày 30/4, trên đường Xuân Thuỷ, thủ đô Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người trên xe máy bị thương nặng Nguyên nhân bước đầu được cho là do tài xế tắc-xi đã tăng tốc khi nhận điểm nên đã xô thẳng vào xe máy đi cùng chiều” Trong ví dụ này,
trích chọn thông tin đưa ra các kết quả rời rạc như: 30/4, Hà Nội, 2 hoặc tắc xi; trong khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu diễn cho sự kiện gồm {30/4, Hà Nội, 2 người bị thương, tắc-xi} Rõ ràng, với tập dữ liệu trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc
Một cách tổng quát, có thể coi trích chọn sự kiện nhận đầu vào là các văn bản không có cấu trúc và đầu ra là tri thức được biểu diễn dưới dạng thông tin có cấu trúc Những thông tin này có thể làm đầu vào cho những hệ thống giám sát (monitoring systems) hoặc các hệ thống hỗ trợ ra quyết định
Trang 20(supported decision systems) Trích chọn sự kiện có thể được áp dụng cho một miền dữ liệu cụ thể (close domain) như dịch bệnh, cháy nổ, hoặc miền
dữ liệu mở (open domain), đồng thời đưa ra các thông tin xung quang sự kiện
đó, thông thường bao gồm: tác nhân, thời gian, địa điểm, số lượng,
Theo Grishman và cộng sự, trích chọn sự kiện là một bài toán khó do vấn đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trưng dữ liệu [19] Dễ dàng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào NLP, cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER) Mặc dù NER đã thu được những kết quả khả quan, tuy nhiên vẫn còn một số thách thức lớn, đặc biệt với các ngôn ngữ không phải tiếng Anh Bên cạnh đó, dữ liệu đầu vào của trích chọn sự kiện rất đa dạng nên sẽ ảnh hưởng tới tính hiệu quả củaquá trình trích chọn
1.3 Khó khăn và thách thức của trích chọn sự kiện
Mặc dù được nhiều nhà khoa học đầu tư nghiên cứu, tuy nhiên trích chọn
sự kiện vẫn phải đối mặt với nhiều thách thức trong việc nâng cao độ chính xác của quá trình trích chọn Đầu tiên, độ chính xác của quá trình trích chọn phụ thuộc rất lớn vào bài toán phát hiện sự kiện Trong khi đó, bài toán phát hiện sự kiện phụ thuộc vào độ chính xác của bộ phân lớp (giám sát hoặc không giám sát) Trong khi đó bài toán phân lớp đã đạt được những kết quả khả quan trong tiếng Anh, nó vẫn gặp nhiều khó khăn trong tiếng Việt do đặc trưng ngôn ngữ
Thứ hai, do quá trình trích chọn phụ thuộc nhiều vào các kỹ thuật của NLP, đặc biệt là NER Tuy bài toán NER đã được giải quyết trên tiếng Anh tuy nhiên trên tiếng Việt nó vẫn còn hạn chế Hơn nữa, một số yếu tố về mặt ngôn ngữ như nhập nhằng ngữ nghĩa (Word Sense Disambiguation), hiện tượng đồng tham chiếu (Co-References), hoặc nhận dạng tính ngữ nghĩa của
Trang 21tiêu đề bản tin (Syntactically Ambiguious Headlines) có ảnh tác động không nhỏ tới độ chính xác của quá trình trích chọn.
Cuối cùng, quá trình trực quan hoá gặp khoá khăn khi dữ liệu trích chọn
không đầy đủ Ví dụ, với câu “Bệnh sởi bùng phát tại Hà Nội từ đầu tháng 4
”, kết quả của quá trình trích chọn là {bệnh sởi, Hà Nội, tháng 4} Với thông
tin về địa điểm không chi tiết, sẽ rất khó để biết chính xác dịch bệnh bùng phát ở đâu (quận, huyện, hoặc đường) Bên cạnh đó, thời gian của sự kiện cũng không cụ thể, dẫn đến việc tính thời gian chính xác của sự kiện gặp khó khăn
1.4 Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện
Trong phần này, luận văn trình bày một số phương pháp tiếp cận cho bài toán trích chọn sự kiện Các phương pháp này bao gồm: phương pháp dựa trên luật, phương pháp dựa trên học máy, và phương pháp kết hợp giữa luật
và học máy Phần cuối cùng, luận văn đưa ra một số bàn luận về các phương pháp Dựa trên cơ sở này, luận sẽ lựa chọn phương pháp phù hợp cho bài toán trích chọn sự kiện dịch bệnh ở Chương 2
1.4.1 Phương pháp tiếp cận dựa trên tập luật
Trong nghiên cứu của mình, Hogenboom F và cộng sự [20] cung cấp một khảo sát để lựa chọn phương pháp phù hợp cho bài toán trích chọn sự kiện trên văn bản Bài báo đã chỉ ra rằng có ba phương pháp cơ bản để giải quyết bài toán trích chọn sự kiện, đó là: phương pháp dựa trên dữ liệu (data-driven), phương pháp dựa trên tri thức (knowledge-driven), và phương pháp lai (hybrid) Phương pháp thứ nhất thường sử dụng học máy (các mô hình xác suất) trên một tập dữ liệu huấn luyện lớn để giải quyết bài toán trích chọn các thông tin của một sự kiện Điển hình cho phương pháp này là nhận dạng thực thể (NER) Phương pháp thứ hai dựa trên kiến thức chuyên gia miền (thường
là những chuyên gia ngôn ngữ và chuyên gia miền dữ liệu) để sinh ra tập luật
Trang 22Tập luật này được sử dụng để trích chọn các thành phần của sự kiện Phương pháp cuối cùng kết hợp phương pháp thứ nhất và thứ hai Trong khuôn khổ luận văn, tác giả gọi phương pháp dựa trên dữ liệu là phương pháp sử dụng học máy và phương pháp dựa trên tri thức là phương pháp sử dụng luật.
1.4.1.1.Luật cú pháp
Luật cú pháp, đôi khi còn được gọi là các mẫu cú pháp (lexico-syntactic patterns) có thể coi là phương pháp được sử dụng sớm trong bài toán trích chọn sự kiện Các mẫu này được sinh ra từ các chuyên gia miền (domain experts) dưới dạng các luật (rules) [20] Điển hình cho phương pháp này chính là các luật được biểu diễn dưới dạng biểu thức chính quy (regular expression)
Các luật cú pháp kết hợp sự biểu diễn của các ký tự và các thông tin cú pháp với các biểu thức chính quy Sau khi các biểu thức chính quy được xây dựng, những biểu thức này được so khớp với dữ liệu trong văn bản đầu vào để trích chọn ra các thông tin tương ứng Trong một số trường hợp, luật cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá Các luật cú pháp được
sử dụng trong trích chọn sự kiện [5, 11, 10] Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tượng (object),
và hành vi(action) để biểu diễn một sự kiện được trích chọn từ blogs Trong lĩnh vực tiền tệ và chính trị, Aone và cộng sự dùng các luật cú pháp để trích chọn các thông tin của một sự kiện [2] Xu và cộng sự sử dụng các mẫu cú pháp để học các mẫu từ dữ liệu các sự kiện Các mẫu này đóng vai trò là tập nhân (seeds) trong kỹ thuật bootstrapping
Đặc biệt, các luật cú pháp còn được sử dụng để trích chọn các thông tin trong miền dữ y sinh Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xác định mối quan hệ và các sự kiện Các luật cú pháp định nghĩa các cấu trúc tham số bên trong văn bản
Trang 231.4.1.2.Luật ngữ nghĩa
Trong trích chọn sự kiện sử dụng luật, đôi khi phải trích chọn các khái niệm có ý nghĩa đặc biệt hoặc các mối quan hệ giữa các thành phần được trích chọn Tuy nhiên, các luật cú pháp không giải quyết được vấn đề này Để giải quyết vấn đề này, phương pháp thường được áp dụng là sử dụng luật ngữ nghĩa (lexico-semantic patterns) Các luật ngữ nghĩa không đơn giản là tập hợp của các từ dưới dạng biểu thức chính quy mà là các mẫu được xây dựng dưới dạng các từ và mối quan hệ giữa chúng
Các luật này được sử dụng với nhiều mục đích khác nhau Li Fang và cộng sự đã sử dụng các luật ngữ nghĩa để trích chọn thông tin từ sàn giao dịch trứng khoán (stock market) [14] Cohen và cộng sự [8] sử dụng khái niệm bộ nhận dạng (recognizer) trên miền dữ liệu y sinh để trích chọn các sự kiện y sinh từ tập dữ liệu Cách tiếp cận tương tự cũng được áp dụng bởi Vargas-Vera và Celjuska [24] khi tác giả đề xuất một bộ khung (framework) cho việc nhận diện các sự kiện tập trung trên các bài báo của Knowledge Media Institute (KMI) Capet và cộng sự sử dụng các mẫu ngữ nghĩa để trích chọn
sự kiện cho hệ thống tự động cảnh báo sớm
Trích chọn sự kiện từ các văn bản không có cấu trúc có thể được áp dụng trong nhiều lĩnh vực, đặc biệt trong miền dữ liệu dịch bệnh Grishman R và cộng sự đã sử dụng 120 mẫu sự kiện ngôn ngữ (linguasitc event patterns) để phân tích các câu và trích chọn các thông tiên liên quan tới một sự kiện dịch bệnh [17] Các mẫu này được xây dựng dựa trên các từ cà mối quan hệ giữa
chúng Ví dụ, mẫu “np (DISEASE) vp (KILL) np (VICTIM)" sẽ so khớp với một mệnh đề như “Cholera killed 23 inhabitants" Một sự kiện được nhận dạng khi nó chứa hai cụm từ “outbreak of " và “people died from " Các
mẫu này được áp dụng để trích chọn các sự kiện dịch bệnh và đạt độ đo F score) xấp xỉ 53.98%
Trang 24(F-1.4.2 Phương pháp tiếp cận dựa trên học máy
Phương pháp dựa trên học máy thường được sử dụng cho các ứng dụng
xử lý ngôn ngữ tự nhiên và yêu cầu tập dữ liệu huấn luyện lớn để huấn luyện
mô hình sao cho xấp xỉ với các hiện tượng ngôn ngữ [20] Cách tiếp cận này thường dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin (information theory), và đại số tuyến tính (linear algebra) Trong thực tế, một
số cách tiếp cận cơ bản có thể chỉ ra là Term Frequency - Inverse Document
Frequency (TF-IDF), word sense disambiguation, n-grams, và phân cụm.
Có thể tìm thấy nhiều ví dụ về việc sử dụng các tiếp cận dựa trên dữ liệu
để trích chọn sự kiện trong các nghiên cứu về trích chọn thông tin Năm 2009, Okamoto và cộng sự [25] dựng một khung (framework) để phát hiện các sự kiện cục bộ (local events) Trong nghiên cứu của mình, tác giả sử dụng các kỹ thuật của phân cụm phân cấp Trong khi bản thân phân cụm có thể sinh ra các kết quả tốt cho trích chọn sự kiện, Liu M và cộng sự [23] kết hợp các đồ thị
có trọng số vô hướng chia đôi (weighted undirected bipartite graphs) và phân cụm để trích chọn các thực thể chín và các sự kiện có ý nghĩa từ các thông tin hàng ngày Các kỹ thuật phân cụm cũng được sử dụng bởi Tanev và cộng sự
để trích chọn các sự kiện bạo lực và thảm hoạ cho hệ thống giám sát
Bên cạnh đó, các kỹ thuật dựa trên dữ liệu cũng được áp dụng cho miền
dữ liệu dịch bệnh DoanS và cộng sự [12] xây dựng hệ thống giám sát sức khoẻ toàn cầu (Global Health Monitor system) hiển thị sự lây lan dịch bệnh trên thế giới Hệ thống này gồm ba thành phần chính: (1) phân lớp chủ đề, (2) nhận dạng thực thể, và (3) phát hiện tên bệnh và địa điểm bùng phát dịch bệnh Trong thành phần thứ nhất, bộ phân lớp Naive Bayes được sử dụng và
độ chính xác của quá trình phân lớp khoảng 88.10% Trong thành phần thứ hai, tác giả sử dụng Support Vector Machine (SVM) cho bài toán nhận dạng thực thể và độ chính xác khoảng 76.97% với độ đo F (F-score) Thành phần
Trang 25cuối cùng tác giả sử dụng một ontology (BioCaster Ontology) để phát hiện tên bệnh và địa điểm bùng phát Độ chính xác của thành phần thứ ba này khoảng 93.40%.
1.4.3 Phương pháp kết hợp luật và học máy
Phương pháp kết hợp (lai - hybrid) thường được sử dụng trong các bài toán trích chọn sự kiện Hầu hết các hệ thống hướng tri thức (knowledge-driven systems) được bổ sung bởi phương pháp dựa trên học máy, và như vậy,
nó có thể giải quyết khuyết điểm của phương pháp sử dụng luật Ví dụ, Jungermann và Morik [16] kết hợp các luật ngữ nghĩa với Conditional Random Fields (CRFs - được biểu diễn như các đồ thị vô hướng) để trích chọn các sự kiện từ phiên họp toàn thể của nghị viện Đức Piskorski và cộng
sự sử dụng các kỹ thuật bootstrapping với thống kê để trích chọn các sự kiện liên quan tới bạo lực từ các bản tin trực tuyến với độ chính xác và hồi tưởng cao Ở đây, tác giả đã giải quyết hạn chế của thuật toán học mẫu có giám sát với các cụm Chun và cộng sự [21] trích chọn các sự kiện y sinh bằng cách sử dụng các luật cú pháp kết hợp với đồng tham chiếu (co-occurrences) Lee và cộng sự [7] sử dụng ontology mờ (ontology-based fuzzy) để trích chọn sự kiện từ các bản tin tiếng Trung Quốc Tác giả đã sử dụng thống kê dựa trên ngữ pháp (grammar-based statistical) và gán nhãn từ loại (part-of-speech tagging); như vậy, phương pháp này có thể được coi là phương pháp lai
Volkova S và cộng sự sử dụng nhận dạng thực thể và phân lớp mức câu
để trích chọn các sự kiện dịch bệnh trên động vật Quá trình nhận dạng thực thể sự kiện gồm ba bước: (1) nhận dạng thực thể từ văn bản, (2) các câu được phân loại dựa trên các thực thể, (3) và các thực thể trong một câu sự kiện được tổ hợp để tạo thành một cấu trúc Trong quá trình nhận dạng sự kiệ, các
sự kiện đúng phải chứa một tên bệnh và một động từ liên quan tới bệnh đó
Độ chính xác của bộ nhận dạng sự kiện và bộ phân lớp mức câu là 75% và
Trang 2665% trên hai tập đặc trưng là Google-Set và WordNet Bênh cạnh đó, phương pháp của Son D và cộng sự [12] được đề cập trong mục 2.2 cũng có thể coi là phương pháp lai do sử dụng ontology trong quá trình trích chọn sự kiện.
để trích chọn các thành phần sự kiện dựa trên từ vựng, cú pháp, và các thành phần ngữ nghĩa Tiếp cận theo mẫu (luật) là một cách tiếp cận hợp lý khi cần trích chọn các thông tin đặc biệt (ví dụ như các thông tin thời gian được đề
cập không rõ ràng: “hôm qua”, “rạng sáng nay”) Có thể dễ dàng nhận thấy
phương pháp tiếp cận dựa trên luật đạt độ chính xác rất cao (do được xây dựng để lấy ra các thông tin đặc biệt) nhưng có độ hồi tưởng thấp Khi chỉ quan tâm tới độ chính xác thì sử dụng luật là một phương pháp hiệu quả
Bên cạnh những ưu điểm, phương pháp sử dụng luật cũng có những nhược điểm Đầu tiên, để xây dựng được tập luật có chất lượng đòi hỏi người dây dựng có kiến thức về ngôn ngữ, từ vựng, và trong một số trường hợp còn yêu cầu thêm có sự tham gia của những chuyên gia miền Hơn nữa, như đã đề cập ở trên, các luật thường được sử dụng để lấy ra những thông tin đặc biệt;
do đó, khi thay đổi miền ứng dụng cần phải thay đổi lại các luật cho phù hợp Đôi khi việc thay đổi này tốn nhiều thời gian và chi phí
Ngược lại với cách tiếp cận dùng luật, cách tiếp cận sử dụng học máy không đòi hỏi nhiều kiến thức về ngôn ngữ và chuyên và miền; tuy nhiên, phương pháp này đòi hỏi một lượng lớn dữ liệu để làm tập huấn luyện Dựa trên các dữ liệu này, các phương pháp dựa trên dữ liệu sẽ dùng các mô hình
Trang 27xác suất để xấp sỉ mô hình huấn luyện với dữ liệu Phương pháp này có những
ưu điểm sau [20] Thứ nhất, cách tiếp cận này không yêu cầu có sự tham gia của chuyên gia miền và chuyên gia ngôn ngữ Thứ hai, các mô hình sau khi huấn luyện dễ dàng được sử dụng với nhiều miền dữ liệu khác nhau
Tuy nhiên, cách tiếp cận sử dụng học máy cũng có những nhược điểm riêng [20] Đầu tiên, các phương pháp tiếp cận dựa trên dữ liệu không giải quyết được vấn đề ngữ nghĩa trong bài toán trích chọn sự kiện (ví dụ, các phương pháp này chỉ phát hiện các quan hệ trong tập dữ liệu mà không giải quyết được vấn đề ngữ nghĩa) Một nhược điểm khác là các phương pháp này yêu cầu một lượng lớn dữ liệu để huấn luyện mô hình nhưng trong một số trường hợp, việc gán nhãn dữ liệu tốn thời gian và chi phí Cuối cùng, do các phương pháp này dựa trên các mô hình xác suất thống kê, do đó, trong một số trường hợp kết quả của quá trình trích chọn không cao phát sinh từ quá trình làm dữ liệu huấn luyện
Trong thực tế, các hệ thống tri thức (knowledge systems) thường có sự kết hợp giữa các phương pháp sử dụng luật và phương pháp dựa trên học máy Phương pháp kết hợp ra đời để giải quyết các nhược điểm của phương pháp tiếp cận sử dụng luật và học máy Phương pháp này thường được áp dụng để giải quyết vấn đề thiếu chuyên gia miền ứng dụng khi hệ thống có sử dụng các luật Bên cạnh đó, các nhà nghiên cứu cũng có thể kết hợp các tiếp cận thống kê với tri thức (ví dụ để tránh các kết quả không mong muốn hoặc bổ sung cho các phương pháp thống kê ) Hơn nữa, chúng ta có thể ràng buộc các phương pháp học (data-driven approaches) bằng cách sử dụng tri thức chuyên gia để tạo ra các mô hình tốt
Trong các hệ thống trích chọn sự kiện sử dụng phương pháp lai, do có sử dụng các phương pháp tiếp cận sử dụng học máy nên vẫn yêu cầu có dữ liệu huấn luyện Bên cạnh đó, trong các hệ này vẫn cần phải có các luật, tuy nhiên
Trang 28sẽ không nhất thiết phải có chuyên gia miền do tri thức từ chuyên gia miền có thể được bổ sung từ dữ liệu Hơn nữa, kết hợp với luật sẽ giúp các hệ thống trích chọn sự kiện thu được các thông tin đặc biệt Tuy nhiên, phương pháp này có một nhược điểm đó là yếu tích hợp hệ thống khi kết hợp hai phương pháp dựa trên luật và dữ liệu [20].
Trong phạm vi của luận văn, tác giả lựa chọn phương pháp sử dụng hệ luật bởi một số lý do sau đây Thứ nhất, dữ liệu trong hệ thống nhiều, nếu dữ liệu này được dùng trực tiếp cho bước phân lớp thì sẽ làm tăng thời gian phát hiện sự kiện Do đó, tác giả sử dụng các luật cú pháp (từ khoá) để loại bỏ bớt
dữ liệu dư thừa Thứ hai, trong ba thông tin của sự kiện gồm: thời gian, tên bệnh, và địa điểm bùng phát có thông tin về thời gian là đặc biệt Đôi khi
thông tin này được đề cập không rõ ràng và thiếu chi tiết về thời gian (ví dụ,
”tối qua”, ”rạng sáng nay”, ); do đó, tác giả sử dụng luật ngữ nghĩa để trích
chọn thông tin này Chi tiết phương pháp được đề xuất trong luận văn sẽ được trình bày trong chương 2
1.5 Kết luận chương
Chương này giới thiệu tổng quan về bài toán trích chọn thông tin, trích chọn sự kiện và các phương pháp tiếp cận cơ bản để giải quyết bài toán trích chọn sự kiện: Phương pháp tiếp cận dựa trên luật (rule – based) gồm luật cú pháp và luật ngữ nghĩa, phương pháp tiếp cận dựa trên học máy (machine learning) và phương pháp kết hợp luật và học máy (hybrid) Có thể thấy, mỗi phương pháp đều có những ưu và nhược điểm riêng Sau khi đánh giá mức độ phù hợp của các phương pháp với đặc điểm của miền dữ liệu là sự kiện dịch bệnh, luận văn lựa chọn phương pháp sử dụng hệ luật Trong chương tiếp theo, luận văn sẽ trình bày chi tiết bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt và mô hình giải quyết bài toán
Trang 29Chương 2 BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH
TRONG VĂN BẢN TIẾNG VIỆT
Chương này trình bày các nội dung chính như sau:
1) Tổng quan về bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt, bao gồm phát biểu bài toán, ý nghĩa của bài toán.
2) Mô hình phát hiện sự kiện và trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt.
3) Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh trong văn bản tiếng Việt.
4) Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt.
2.1 Tổng quan bài toán trích chọn sự kiện dịch bệnh trong văn bản
tiếng Việt
2.1.1 Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh
2.1.1.1 Tầm quan trọng của trích chọn sự kiện dịch bệnh
Trích chọn sự kiện dịch bệnh có thể coi là một lĩnh vực con trong trích chọn sự kiện Nếu như trích chọn sự kiện có thể áp dụng cho cả miền dữ liệu đóng (close domain) hoặc miền dữ liệu mở (open domain) thì trích chọn sự kiện dịch bệnh chỉ quan tâm tới những văn bản liên quan tới dịch bệnh Ví dụ, khi người dùng đọc các bài báo liên quan tới một dịch bệnh (tay chân miệng),
họ muốn lấy ra các thông tin cơ bản, dễ nhớ của toàn bộ bài báo gồm: tên bệnh, địa điểm bùng phát, và thời gian bùng phát Như vậy, yêu cầu là cần
phải trích chọn được các thông tin cơ bản của một sự kiện dịch bệnh từ một văn bản đầu vào
Bài toán trích chọn dịch bệnh có ý nghĩa quan trọng không chỉ trong nghiên cứu mà còn trong đời sống, đặc biệt trong trường hợp các dịch bệnh nguy hiểm bùng phát và lây lan trên diện rộng Do một dịch bệnh thường
Trang 30bùng phát trong một thời gian ngắn và lây lan rất nhanh trên một phạm vi rộng, do vậy nó có thể tạo ra các tình huống xấu ảnh hưởng tới người dân và nền kinh tế Do đó, trích chọn và giám sát sự lây lan của các dịch bệnh có ý nghĩa rất quan trọng trong việc đối phó với sự lây lan của chúng.
Bài toán phát hiện và trích chọn sự kiện dịch bệnh được đề cập từ khá sớm và nhận được nhiều sự quan tâm từ phía các nhà khoa học Grishman và cộng sự [17] sử dụng các mẫu sự kiện (event patterns) để phân tích các câu đầu vào và trích chọn ra các sự kiện dịch bệnh Các mẫu sự kiện này được xây
dựng dựa trên mối quan hệ giữa các từ Ví dụ, mẫu “np (DISEASE) vg (KILL)
np (VICTIM)" sẽ được sử dụng để đối sánh với câu “Cholera killed 23 inhabitants" Một sự kiện được phát hiện dựa trên ràng buộc của hai cụm danh từ gồm: outbreak of và died from Trong nghiên cứu của mình, hiệu
quả của quá trình trích chọn khoảng 53.98% (F-score)
Volkova và cộng sự quan tâm tới trích chọn sự kiện dịch bệnh trên động vật Quá trình nhận dạng sự kiện gồm ba bước: đầu tiên là nhận dạng thực thể
từ các băn bản không có cấu trúc, thứ hai là phân lớp các câu dựa trên các thực thể, và cuối cùng là các thực thể trong một câu được kết hợp để tạo thành
sự kiện Độ chính xác trong pha nhận dạng sự kiện và phân lớp lần lượt là 75% và 65% trên hai tập dữ liệu là WordNet và GoogleSet
Doan và các cộng sự [12] xây dựng hệ thống Global Health Monitor cho
phép hiển thị các sự kiện dịch bệnh trên toàn thế giới Hệ thống gồm ba thành
phần chính: (1) phân lớp chủ đề, (2) nhận dạng thực thể (NER), và (3) phát hiện các thành phần của sự kiện (disease/location detection) Các tác giả sư
dụng Naive Bayes cho bài toán phân lớp chủ đề và đạt độ chính xác khoảng 88.10% Trong thành phần nhận dạng thực thể, các tác giả sử dụng Support Vector Machine và đạt độ chính xác vào khoản 76.97% (F-score) Trong bước cuối cùng, tác giả sử dụng một Ontology [9] với độ chính xác khoảng 93.49%
Trang 31Như vậy, cũng giống như định nghĩa về sự kiện, một sự kiện dịch bệnh
có thể coi như một mẫu (template) chứa các thuộc tính của sự kiện Trích chọn sự kiện dịch bệnh chỉ quan tâm tới những dữ liệu liên quan tới dịch bệnh (con người hoặc động vật)
2.1.1.2 Ý nghĩa khoa học
Về mặt khoa học, trích chọn sự kiện nói chung và trích chọn sự kiện dịch bệnh nói riêng là một trong những bài toán cơ bản của trích chọn thông tin Giải quyết tốt bài toán này sẽ là tiền đề tốt các các bài toán khác như phát hiện chuỗi sự kiện, dự đoán xu hướng, hay là đầu vào cho các hệ thống giám sát và hỗ trợ ra quyết định Bên cạnh đó, các nghiên cứu liên quan tới trích chọn sự kiện dịch bệnh trên thế giới đã thu được những kết quả khả quan, tuy nhiên không nhiều nghiên cứu được tiến hành trên dữ liệu tiếng Việt [27, 38, 12] Do đó, bài toán này cần được giải quyết một cách thoả đáng trên miền dữ liệu tiếng Việt
2.1.1.3 Ý nghĩa thực tiễn
Bài toán trích chọn sự kiện dịch bệnh có ý nghĩa rất lớn trong thực tế, đặc biệt trong trường hợp các dịch bệnh bùng phát Trong trường hợp này, các nhà quản lý, chính phủ, và công dân cần những giải pháp để theo dõi diễn tiến tình hình dịch bệnh, để từ đó có những quyết định phù hợp Trong ngữ cảnh bùng nổ thông tin liên quan tới một dịch bệnh, trích chọn sự kiện là một giải pháp phù hợp để đưa những thông tin hữu ích tới người dùng
Hiện tại có một số hệ thống áp dụng kỹ thuật trích chọn sự kiện và trực quan hoá để cung cấp thông tin cho người dùng Grishman và cộng sự xây dựng hệ thống Peoteous-BIO cung cấp các thông tin dịch bệnh dưới dạng sự kiện cho người dùng [18] Dữ liệu trong hệ thống được lấy từ các trang web
và các báo cáo của tổ chức World Health Organization (WHO) (http:// www.who.int /csr/don/en/) và ProMed (http://www.promedmail.org/) Collier
Trang 32và cộng sự đã xây dựng hệ thống BioCaster nơi mà người dùng có thể theo
dõi một số loại sự kiện trên toàn thế giới, đặc biệt là sự kiện dịch bệnh (http: //born.nii.ac.jp) Tương tự, hệ thống HealthMap của Freifeld Clark C và cộng
sự cho phép người dùng theo dõi tình hình dịch bệnh trên toàn thế giới (http: //www.healthmap.org) Tại Việt Nam, Tran và cộng sự đã xây dựng hệ thống
theo dõi ba loại sự kiện chính là: cháy nổ, tai nạn giao thông, và tội phạm [38] với nguồn dữ liệu từ các trang web
2.1.2 Các đặc tính của sự kiện dịch bệnh
Quá trình khảo sát trên miền dữ liệu chứa sự kiện dịch bệnh chỉ ra rằng một sự kiện dịch bệnh có thể chứa tên bệnh, thời gian bùng phát dịch bệnh, các địa điểm mà dịch bệnh bùng phát, và thông tin về các nạn nhân của dịch bệnh Trong một số trường hợp, một sự kiện dịch bệnh có thể chứa thêm các thông tin liên quan tới phương thức lây lan (lây trực tiếp hoặc qua các vật trung gian) hoặc môi trường lây nhiễm Như vậy, có thể thấy rằng các thông tin cơ bản của một sự kiện dịch bệnh là tên bệnh, thời gian, và địa điểm bùng phát
Trong nghiên cứu của mình, Grishman R và cộng sự [17] quan niệm rằng một sự kiện dịch bệnh chứa tên bệnh, thời gian và địa điểm dịch bệnh bùng phát, số lượng các nạn nhân, và kiểu nạn nhân (người hay động vật) Tuy nhiên, trong giới hạn của luận văn, tác giả chỉ quan tâm tới ba thông tin
cơ bản, đó là tên bệnh, thời gian, và địa điểm mà dịch bệnh bùng phát Tác
giả bỏ qua phương thức hoặc môi trường lây bệnh vì dữ liệu trong luận văn được thu thập từ các trang web thay vì các báo cáo y tế Như vậy, trong hầu hết các trường hợp, thông tin về phương thức hoặc môi trường lây lan không được đề cập một cách rõ ràng Hơn nữa, một sự kiện trong MUC gồm một tác nhân (actor) [19], tuy nhiên, trong luận văn, một tác nhân tương đương với tên bệnh, do vậy, tác giả sử dụng tên bệnh thay cho tác nhân
Trang 33Bên cạnh đó, quá trình khảo sát dữ liệu trên các bài báo chứa sự kiện dịch bệnh cũng chỉ ra rằng tên bệnh đôi khi giống với triệu trứng của bệnh Đây là một trong những lý do của sự nhầm lẫn trong quá trình trích chọn sự kiện Ví dụ, “cúm” là một triệu trứng của bệnh cúm gia cầm H5N1, tuy nhiên triệu trứng cúm vẫn được nhận diện là một bệnh.
2.1.3 Phát biểu bài toán
Cũng giống với bài toán trích chọn thông tin nói chung, bài toán trích chọn sự kiện dịch bệnh tập trung vào việc trích chọn các thông tin cơ bản của một sự kiện dịch bệnh từ các văn bản không có cấu trúc Một cách hình thức, bài toán có thể phát biểu như sau:
Đầu vào: Một bài báo điện tử.
Đầu ra: Mô hình sẽ phải kiểm tra xem bài báo ở đầu vào có chứa sự
kiện dịch bệnh hay không? Nếu có thì trích chọn các thông tin của dịch bệnh
Trong phạm vi của luận văn, một sự kiện dịch bệnh (từ nay gọi là sự
kiện) được định nghĩa là một bộ E gồm ba thành phần, đó là: tên dịch bệnh, thời gian, và vị trí dịch bệnh bùng phát Một cách hình thức, sự kiện E được
định nghĩa như trong công thức (2.1):
với:
Tên bệnh: là tên của dịch bệnh được đề cập trong bài báo.
Thời gian: là thời gian mà dịch bệnh bùng phát.
Địa điểm: là địa điểm mà dịch bệnh bùng phát Địa điểm có thể là
một hoặc một tập hợp các địa điểm
Một ví dụ minh hoạ cho sự kiện dịch bệnh E như sau: E = <cúm A/H5N1, 12/06/2012, Quảng Ngãi> Thông qua ba thông tin cơ bản này,