Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh

Còn theo định nghĩa của Allen và cộng sự [1], một sự kiện bao gồm bốn thuộc tính: phương thức, sự phân cực, mức độ, và thời điểm.Để có thể tìm hiểu sâu hơn về mô hình và phương pháp giải

Trang 1

LỜI CAM ĐOAN

Tác giả Phạm Xuân Hà xin cam kết rằng nội dung của Luận văn này chưa được nộp cho bất kỳ một chương trình cấp bằng cao học nào cũng như bất kỳ một chương trình đào tạo cấp bằng nào khác

Ngoài ra, tác giả cũng xin cam kết Luận văn thạc sĩ này là nỗ lực riêng của cá nhân tác giả Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này (ngoài các phần được trích dẫn) đều là kết quả làm việc của cá nhân tác giả

Thái Nguyên, ngày 10 tháng 5 năm 2016

Tác Giả

Phạm Xuân Hà

Trang 2

LỜI CẢM ƠN

Lời đầu tiên em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo,

Tổ chuyên môn Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tận tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt thời gian em theo học tại trường Các kiến thức, kinh nghiệm quý báu của các Quý thầy cô giáo không chỉ giúp cá nhân em hoàn thiện hệ thống kiến thức trong học tập mà còn giúp em ứng dụng các kiến thức đó trong công tác hiện tại tại đơn vị

Đặc biệt, em xin chân thành cảm ơn GS TS Vũ Đức Thi đã rất nhiệt tình

và tâm huyết trong việc định hướng và giúp đỡ em hoàn thành luận văn này

Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học Xin chân thành cảm ơn những người bạn lớp cao học CK13, trong 2 năm qua đã luôn luôn động viên, khích lệ và hỗ trợ em trong quá trình học tập

Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song chắc chắn luận văn của em vẫn còn nhiều thiếu sót Em rất mong nhận được

sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được hoàn thiện hơn

Thái Nguyên, ngày 10 tháng 5 năm 2016

Tác Giả

Phạm Xuân Hà

Trang 3

MỤC LỤC

Danh mục các bảng

Danh sách hình vẽ

MỞ ĐẦU 7

1.1 Sự cần thiết lựa chọn đề tài 7

1.2 Mục tiêu đề tài 8

1.3 Đối tượng và phạm vi nghiên cứu 8

1.4 Phương pháp nghiên cứu 8

1.5 Cấu trúc của luận văn 9

Chương 1 TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN 10

1.1 Tổng quan về trích chọn thông tin 10

1.1.1 Bài toán trích chọn thông tin 10

1.1.2 Cơ hội và thách thức cho bài toán trích chọn thông tin 11

1.2 Tổng quan về trích chọn sự kiện 15

1.2.1 Định nghĩa sự kiện 17

1.2.2 Trích chọn sự kiện 19

1.3 Khó khăn và thách thức của trích chọn sự kiện 20

1.4 Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện 21

1.4.1 Phương pháp tiếp cận dựa trên tập luật 21

1.4.2 Phương pháp tiếp cận dựa trên học máy 24

1.4.3 Phương pháp kết hợp luật và học máy 25

1.4.4 Một số nhận xét 26

1.5 Kết luận chương 28

Chương 2 BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRONG VĂN BẢN TIẾNG VIỆT 29

2.1 Tổng quan bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt 29

2.1.1 Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh 29

2.1.2 Các đặc tính của sự kiện dịch bệnh 32

2.1.3 Phát biểu bài toán 33

Trang 4

2.2 Mô hình trích chọn sự kiện dịch bệnh 34

2.2.1 Phương pháp sử dụng 34

2.2.2 Mô hình phát hiện và trích chọn sự kiện dịch bệnh 35

2.3 Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh 37

2.3.2 Xây dựng tập luật 38

2.3.3 Xây dựng mô hình phân lớp 40

2.4 Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh 41

2.4.2 Trích chọn thời gian 42

2.4.3 Trích chọn tên bệnh 43

2.4.4 Trích chọn địa điểm 45

2.5 Tổng kết chương 47

Chương 3 THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRÊN MỘT SỐ TRANG THÔNG TIN ĐIỆN TỬ 48

3.1 Bài toán 48

3.2 Môi trường và các công cụ thử nghiệm 49

3.3 Thử nghiệm quy trình trích chọn dịch 52

3.3.1 Thu thập dữ liệu (Web Crawler) 52

3.3.2 Phát hiện sự kiện dịch bệnh 53

3.3.3 Trích chọn sự kiện dịch bệnh 53

3.4 Thống kê báo cáo 57

3.5 Tổng kết chương……… 60

KẾT LUẬN 61

Tài liệu tham khảo 62

Trang 5

DANH MỤC CÁC BẢNG

Bảng 1.1 Thống kê trên dữ liệu Twitter……….12

Bảng 2.1 Danh sách các từ/cụm từ thường xuyên……….39

Bảng 3.1 Cấu hình thử nghiệm……… 48

Bảng 3.2 Công cụ phần mềm có sẵn……….49

Bảng 3.3 Kết quả lọc các bài viết có chứa thông tin về các dịch bệnh 53

Bảng 3.4 Kết quả trích chọn 55

Bảng 3.5 Thống kê theo địa điểm……….57

Bảng 3.6 Thống kê theo thời gian……….58

Bảng 3.7 Thống kê theo tên dịch bệnh 59

Trang 6

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020……… 12

Hình 1.2 Dữ liêu trên Internet trong 60 giây………13

Hình 1.2 Các bước trong quá trình khám phá tri thức trong cơ sở dữ liệu 14

Hình 2.1 Quá trình phát hiện và trích chọn sự kiện……… 36

Hình 2.2 Thành phần phát hiện sự kiện………37

Hình 2.3 Thành phần trích chọn sự kiện……… 41

Hình 2.4 Biểu diễn của cây phân cấp địa điểm……….46

Hình 3.1 Giao diện phần mềm crawler thu thập dữ liệu……… 52

Hình 3.2 Kết quả thử nghiệm trích chọn sự kiện dịch bệnh……….56

Hình 3.3 Biểu đồ thống kê theo địa điểm……….57

Hình 3.4 Biểu đồ thống kê theo thời gian……….58

Hình 3.5 Biều đồ thống kê theo tên dịch bệnh……….59

Trang 7

MỞ ĐẦU1.1 Sự cần thiết lựa chọn đề tài

Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ Để khai thác hiệu quả nguồn thông tin trên các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã

sử dụng công cụ máy tính điện tử để phát triển các phương pháp, kỹ thuật mới

hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge Discovery) mà hạt nhân là các kỹ thuật phân tích dữ liệu (Data Analysis), trong đó các phương pháp trích chọn thông tin, trích chọn sự kiện là mảng nghiên cứu quan trọng và có ứng dụng rộng rãi trong thực tiễn

Trích chọn sự kiện (Event Extraction - EE) là bài toán con trong trích chọn thông tin (Information Extraction - IE) và là một lĩnh vực nghiên cứu quan trọng trong khai phá dữ liệu và học máy, có nhiều ứng dụng quan trọng trong thực tiễn Kết quả của quá trình trích chọn là đầu vào cho các kỹ thuật khai phá dữ liệu và học máy nhằm trích lọc ra các tri thức, quy luật có ích trong dữ liệu, phục vụ công tác điều hành, dự báo, ra quyết định

Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trong lĩnh vực khai phá dữ liệu nói chung và trích chọn thông tin nói riêng Trích chọn sự kiện được đề xuất lần đầu tiên tại hội thảo Message Understanding Conference năm 1987 [19] Trong hội nghị này, một

sự kiện được định nghĩa như sau: một sự kiện bắt buộc phải có tác nhân, thời gian xảy ra sự kiện, địa điểm và tác động tới môi trường xung quanh Bên cạnh đó, chương trình Automatic Content Extraction (ACE) đưa ra định nghĩa:

Sự kiện là một hành động được tạo ra bởi người tham gia và được chia thành

Trang 8

tám loại: Cuộc sống, sự di chuyển, sự chuyển, kinh doanh, xung đột, liên hệ, con người và luật pháp Còn theo định nghĩa của Allen và cộng sự [1], một sự kiện bao gồm bốn thuộc tính: phương thức, sự phân cực, mức độ, và thời điểm.

Để có thể tìm hiểu sâu hơn về mô hình và phương pháp giải quyết bài

toán trích chọn sự kiện dịch bệnh, em đã chọn đề tài “Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh” để làm luận văn thạc sĩ của mình.

1.2 Mục tiêu đề tài

Tìm hiểu tổng quan về bài toán trích chọn sự kiện và các phương pháp giải quyết bài toán trích chọn sự kiện, trên cơ sở đó xây dựng mô hình giải quyết bài toán trích chọn sự kiện dịch bệnh từ các dữ liệu văn bản tiếng Việt Cài đặt và thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang thông tin điện tử tiếng Việt trên mạng Internet

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của đề tài là các phương pháp, công cụ giải quyết bài toán trích chọn sự kiện trong văn bản tiếng Việt và các trang thông tin điện tử tiếng Việt trên mạng Internet về dịch bệnh

Phạm vi nghiên cứu của đề tài là bài toán trích chọn sự kiện về các dịch bệnh trên một số trang thôn tin điện tử tiếng Việt (website) trên mạng Internet

1.4 Phương pháp nghiên cứu

Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên cứu thực nghiệm

Về nghiên cứu lý thuyết, đề tài đã tổng hợp các kết quả nghiên cứu về các phương pháp trích chọn sự kiện từ văn bản tiếng Việt phục vụ phân tích, thống kê, báo cáo, ra quyết định Về nghiên cứu thực nghiệm, đề tài xây dựng

và cài đặt, thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang thông tin điện tử (website) bằng tiếng Việt trên mạng Internet

Trang 9

1.5 Cấu trúc của luận văn

Cấu trúc luận văn gồm: mở đầu, ba chương chính, kết luận và tài liệu tham khảo

Phần mở đầu: Lý do chọn đề tài và bố cục luận văn

Chương 1: Giới thiệu tổng quan bài toán trích chọn sự kiện và một số

phương pháp tiếp cận giải quyết bài toán trích chọn sự kiện

Chương 2: Trình bày bài toán trích chọn sự kiện dịch bệnh từ dữ liệu

văn bản tiếng Việt, bao gồm phát biểu bài toán, phương pháp đề xuất, mô hình phát hiện và trích chọn sự kiện, ý nghĩa khoa học và thực tiễn của bài toán trích chọn sự kiện dịch bệnh

Chương 3: Trình bày kết quả thực nghiệm mô hình trích chọn sự kiện

dịch bệnh trên một số trang thông tin điện tử (website) bằng tiếng Việt trên mạng Internet

Phần kết luận: Tóm tắt các kết quả đạt được và hướng phát triển tiếp của

đề tài

Trang 10

Chương 1 TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN

Chương này giới thiệu tổng quan về trích chọn sự kiện và các phương pháp tiếp cận giải quyết bài toán trích chọn sự kiện

1.1 Tổng quan về trích chọn thông tin

1.1.1 Bài toán trích chọn thông tin

Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu

văn bản, nó được định nghĩa như sau: Trích chọn thông tin (IE - Information Extraction) là quá trình lấy thông tin từ các nguồn ở những định dạng không

đồng nhất thậm chí không có định dạng cụ thể khi nó ở dạng văn bản diễn đạt bằng ngôn ngữ tự nhiên, sau đó chuyển thành một dạng đồng nhất Dữ liệu sau khi trích chọn được sử dụng, trình bày trực tiếp cho người dùng, lưu vào

cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông tin như một dữ liệu đã qua bước tiền xử lý

Trích chọn thông tin (IE) có thể được coi nằm giữa thu hồi thông tin (Information Retrieval - IR) và hiểu văn bản (Text Understanding) [3] Không giống với thu hồi thông tin chỉ tập trung vào các mẩu thông tin có liên quan trong văn bản, trích xuất thông tin còn quan tâm tới các sự kiện có liên quan trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu (template) Bên cạnh đó, khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản (câu, đoạn văn), trích xuất thông tin quan tâm tới toàn bộ nội dung văn bản.Theo Peshkin và Pfeffer, trích chọn thông tin có thể được định nghĩa như

là một công việc điền thông tin vào các mẫu từ các dữ liệu không biết trước trong miền được định nghĩa trước Mục tiêu của trích chọn thông tin là lấy từ các văn bản các thông tin nổi bật của các sự kiện, thực thể, hoặc các mối quan

hệ Như vậy, có thể coi trích chọn thông tin là một kỹ nghệ lấy và biểu diễn tri

Trang 11

thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu vô tận trên Internet.

Vậy bài toán trích chọn thông tin có thể được phát biểu như sau:

1) Đầu vào: dữ liệu bất kỳ.

2) Đầu ra: thông tin hữu ích (tri thức) có cấu trúc.

Dữ liệu đầu vào cho bài toán trích chọn thông tin rất phong phú và đa dạng Dữ liệu có thể là có cấu trúc (structured), bán cấu trúc (semi-structured), không có cấu trúc (unstructured), hoặc có thể là dữ liệu không gian (partial),

dữ liệu thời gian (temporal) Với bất kỳ dạng dữ liệu nào, nhiệm vụ của trích chọn thông tin cũng phải đưa ra các kết quả có cấu trúc ngắn và ý nghĩa

1.1.2 Cơ hội và thách thức cho bài toán trích chọn thông tin

Trong tài liệu số [26], John chỉ ra rằng chúng ta đang dư thừa dữ liệu tuy

nhiên lại nghèo nàn về tri thức “We are drowning in data, but starving for knowledge!".

Theo thống kê của NOAA (National Oceanic and Atmospheric Administration, USA) tính tới thời điểm tháng 04-2012, dữ liệu người dùng tạo ra trên Internet khoảng gần 60.000 Terabytes và sẽ tăng lên khoảng 160.000 Terabytes trong vòng 8 năm tới Sự tăng trưởng được minh họa trong hình 1.1 (http://celebrating200years.noaa.gov/visions/data_mgmt/).

Trang 12

Hình 1.1 Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020

Theo thống kê từ http://www.statisticbrain.com/twitterstatistics/ ngày

01/01/2014 trên dữ liệu Twitter, mỗi ngày có khoảng 135.000 người đăng nhập vào Twitter, số lượng các thông điệp một ngày trên Twitter là khoảng 58 triệu tweet, trung bình mỗi giây có khoảng 9.100 thông điệp được người dùng đưa lên Twitter Số liệu chi tiết được minh hoạ trong Bảng 1.1

Bảng 1.1 Thống kê trên dữ liệu Twitter

Số lượng các người dùng đăng ký tích cực 645.750.000

Số lượng các người dùng đăng nhập một ngày 135.000

Số lượng các trang đặc biệt được thăm hàng tháng 190 triêu

Số lượng các truy vấn thông quan chức năng tìm kiếm một ngày 2.1 tỷ

Số lượng các người dùng tích cực hàng tháng 115 triêu

Số ngày mà tổng số thông điệp đạt tới 1 tỷ 5 ngày

Theo thống kế của Qmee (seconds/, http:// www.independent.co.uk / life-style / gadgets-and-tech / news

Trang 13

http://blog.qmee.com/qmee-online-in-60-/ what-happens-in-60-seconds-on-the-internet-8738267.html), dữ liệu trên Internet trong 60 giây có thể được trực quan hóa như Hình 1.2 dưới đây:

Hình 1.2 Dữ liêu trên Internet trong 60 giây

Thông qua Hình 1.2, mỗi giây người dùng tải lên 72 giờ video, có khoảng 2 triệu câu truy vấn trên Google, khoảng 41.000 thông điệp được người dùng Facebook tải lên mỗi giây, khoảng 20 triệu bức ảnh được tải lên Flick, 204 triệu email được gửi Những con số thống kê trên cho thấy dữ liệu được đưa lên Internet có số lượng lớn và phong phú về chủng loại

Từ các thống kê trên, chúng ta có thể thấy rằng dữ liệu có xu hướng bùng nổ trên Internet Tuy nhiên, nhiều dữ liệu không đảm bảo rằng người dùng có nhiều thông tin và càng không thể nói rằng người dùng có thể nắm bắt được tri thức một cách hiển nhiên và dễ dàng Trong thực tế, quá trình

Trang 14

biến đổi từ dữ liệu sang thông tin và cuối cùng sang tri thức là một quá trình lâu dài, đòi hỏi nhiều phương pháp xử lý phức tạp Quá trình biến đổi này có thể được minh hoạ trong hình 1.3.

Hình 1.2 Các bước trong quá trình khám phá tri thức trong cơ sở

dữ liệu

Theo Fayyad và cộng sự [15], quá trình biến đổi từ dữ liệu thành tri thức

là một quá trình biến đổi lâu dài, cần nhiều bước xử lý phức tạp Trong suốt quá trình này, dữ liệu được thể hiện ở ba mức: dữ liệu, thông tin (mẫu), và tri thức Ở đây, dữ liệu có thể coi là một tập hợp các sự kiện (các bản ghi trong

cơ sở dữ liệu) Thông tin (mẫu) là một sự biểu diễn trong một ngôn ngữ mô tả của một tập con dữ liệu Cuối cùng, thông tin sẽ là tri thức nếu nó vượt qua một ngưỡng (threshold)

Một điều rõ ràng, sự bùng nổ dữ liệu trên Internet tạo ra những thuận lợi

và thách thức: cho các nhà khoa học khi muốn thu hồi thông tin Đầu tiên, sự phát triển của Internet và sự bùng nổ thông tin tạo ra nhiều nguồn thông tin Nếu như trước đây, nguồn dữ liệu chủ yếu là văn bản (text) thì hiện nay dữ liệu rất phong phú, bao gồm các dữ liệu văn bản, hình ảnh, âm thanh, các dữ liệu thời gian, không gian Những nguồn dữ liệu tạo điều kiện thuận lợicho những nghiên cứu về trích chọn thông tin Bên cạnh đó, dữ liệu hiện nay không đơn 1thuần là tin tức, nó còn bao gồm thông tin cá nhân (cảm xúc, ý

Trang 15

kiến) Từ những dữ liệu mới này, trích chọn thông tin có thể thu hồi những thông tin mới phục vụ cho quá trình tích hợp thông tin.

Tuy nhiên, bên cạnh những thuận lợi, sự bùng nổ về dữ liệu tạo ra những thách thức không nhỏ trong lĩnh vực trích chọn thông tin Đầu tiên, với sự ra đời của các dữ liệu mới đòi hỏi cần phải có những kỹ thuật phù hợp Đôi khi trong một số trường hợp, trích chọn thông tin phải đương đầu với những dữ liệu phức tạp như hình ảnh, âm thanh, dữ liệu không gian, hoặc thời gian Thứ hai, sự đang dạng về nguồn dữ liệu đòi hỏi quá trình tích hợp dữ liệu phức tạp Điều này xuất phát do mục đích của trích chọn thông tin là lấy ra một lượng nhỏ thông tin có ý nghĩa, do đó, sau quá trình trích chọn, dữ liệu cần được tổng hợp từ nhiều nguồn khác nhau để cuối cùng đưa ra dữ liệu có ý nghĩa với người dùng Cuối cùng, bài toán về tốc độ xử lý và tính toán cần được giải quyết Với sự bùng nổ về số lượng và phức tạp về nội dung yêu cầu các phương pháp trích chọn thông tin phải có thời gian xử lý hợp lý

Như đã đề cập ở trên, chúng ta có thể thấy rõ tầm ảnh hưởng của dữ liệu lớn (Big Data) tới quá trình thu hồi thông tin của con người và vai trò của trích chọn thông tin trong bối cảnh thông tin bùng nổ và gây khó khăn cho người dùng trong quá trình tiếp cận tri thức

//www-được tổ chức tạo thành dãy hội nghị MUC Với mỗi hội nghị, thông tin //www-được quan tâm khác nhau nhưng đều có đặc điểm chung là chúng được trích xuất từ

Trang 16

dữ liệu nói về khủng hoảng (crisis) Các chủ đề trong dữ liệu thường là tội phạm, khủng bố, đánh bom Một trong những đóng góp lớn của MUC là đưa

ra việc trích xuất thông tin dựa trên mẫu (scenario template) Các mẫu được ban tổ chức quy định và các đội tham gia cần điền thông tin vào các mẫu này một cách tự động Cuối cùng, các sự kiện được trích chọn gồm các thông tin:

tổ chức, đối tượng tham gia (người, sự vật, sự việc), thời gian, địa điểm, số lượng Độ chính xác (precision) và hồi tưởng (recall) của các nghiên cứu

tham dự MUC nam trong khoảng 50% đến 60% [19]

Chương trình Phát hiện và theo dõi chủ đề (Topic Detection and

Tracking, TDT) (http://projects.ldc.upenn.edu/TDT/) được tổ chức từ năm

1997 thu hút nhiều nhóm nghiên cứu từ các trường đại học tham gia Chương trình này được phối hợp tổ chức bởi Viện Công nghệ và Chuẩn hoá quốc gia Hoa Kỳ (NIST) và DAPRA nham giải quyết bài toán phát hiện, theo dõi, và xâu chuỗi sự kiện Một số nhóm nghiên cứu tham gia chương trình này như: nhóm CMU của đại học Carnegie Mellon, nhóm BBN từ công ty BBN Technologies, nhóm DRAGON của công ty Dragon Systems, nhóm UPENN của trường đại học Pennsylvania (UPENN) Các bài toán quan trọng của TDT gồm: Story Segmentation, Topic Tracking, Topic Detection, First Story

Detection, and Link Detection (http: //www.itl.nist.gov/iad/mig//tests/tdt/) Chương trình Trích xuất nội dung tự động (Automatic Content

Extraction, ACE) 10 11 của đại học Pennsylvania cũng thu hút được nhiều sự quan tâm từ cộng đồng nghiên cứu về trích chọn thông tin cũng như trích chọn sự kiện Chương trình này tập trung vào các ngôn ngữ như tiếng Anh, Trung Quốc, và A rập (Arabic) Các thông tin được trích chọn gồm các thực thể, quan hệ giữa các thực thể, và các sự kiện chúng tham gia vào ACE có mục đích giống với MUC, tuy nhiên chương trình này tập trung vào các đối

Trang 17

tượng (thực thể, mối quan hệ thực thể và các sự kiện) hơn là tập trung vào các

từ (term of words) trong văn bản

Như vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự kiện nói riêng là một vấn đề quan trọng và thời sự, nhận được rất nhiều quan tâm từ cộng đồng khoa học Trong phần tiếp theo, luận văn sẽ làm sáng tỏ định nghĩa về sự kiện cũng như bài toán trích chọn sự kiện

pháp đề điền các thông tin vào các mẫu cho trước (scenario template) Các mẫu này gồm nhiều thành phần (slots/elements) khác nhau tương ứng với các thành phần được định nghĩa bên trên Thời gian ban đầu, MUC chỉ tập trung nghiên cứu các sự kiện quân sự Tuy nhiên, ở các lần tổ chức sau, các loại sự kiện mới được bổ sung như khủng bố, đầu tư mạo hiểm, tai nạn máy bay Trong chương trình ACE, Dodington George R và cộng sự đưa ra định

nghĩa sự kiện như sau: “một sự kiện là một hành động được tạo bởi những người tham gia” [13] ACE chia sự kiện thành 8 loại khác nhau gồm: LIFE (sự sống-chết), MOVEMENT (sự di chuyển), TRANSACTION (giao dịch), BUSINESS (kinh tế), CONFLICT (xung đột), CONTACT (giao thiệp, gặp gỡ), PERSONNEL (nhận- đuổi việc), JUSTICE (pháp lý) Mỗi dạng sự kiện lại phân biệt từng dạng con Ví dụ, LIFE có các dạng sự kiện con như BE-BORN (chào đời), INJURE (bị thương), DIE (chết), hay PERSONAL có START-POSITION (vị trí khi nhận việc), ENDPOSITION (vị trí khi thôi việc), NOMINATE (bổ nhiệm), ELECT (bầu chọn)

Trang 18

Trong nghiên cứu của mình, Allen và cộng sự cho rằng một sự kiện được

phản ánh qua tin tức khi nó có 4 yếu tố: phương thức (modality), tính đối cực (polarity), sự tổng quát (genericity), và thời điểm (tense) [1] Trong đó, phương thức là hành vi gây ra sự kiện; tính đối cực là sự kiện đó gây tác động tốt hay xấu (possi- tive/negative); sự tổng quát là sự kiện đó có tính chung hay riêng (specific/generic); và th ời điểm là thời gian xảy ra sự kiện (past, present, future, hoặc unspecified)

Trong miền dữ liệu liên quan tới dịch bệnh, Gishman R và cộng sự đưa

ra định nghĩa về một sự kiện như là một mẫu (template) gồm các thuộc tính:

tên bệnh (disease name), thời gian (date), địa điểm (location), số lượng nạn nhân (victime number), mô tả về nạn nhân (victim descriptor), tình trạng (victim status), loại nạn nhân (victim type), và sự kiện cha (parent event)

[17] Sự khác biệt trong định nghĩa của Grishman với các định nghĩa khác ở chỗ ông đề cập thêm tới sự kiện cha Trong thực tế, một sự kiện có thể là sự kiện bắt đầu hoặc được bắt đầu từ một sự kiện khác (parent event) Như vậy, quá trình trích chọn sự kiện không đơn giản chỉ lấy ra các thông tin tương ứng với mẫu được định nghĩa mà cần phát hiện thêm sự kiện ban đầu của sự kiện hiện tại

Trong công bố của Nguyen và cộng sự, các tác giả quan niệm một sự

kiện dịch bệnh là một mẫu (template) gồm các thuộc tính tên bệnh (disease name), thời điểm bùng phát (time), và địa điểm bùng phát (location) Khác

với quan niệm của Grishman và cộng sự, các tác giả chỉ quan tâm tới ba thuộc tính cho mục đích trực quan hoá hơn là trích chọn các thông tin chi tiết của sự kiện và phát hiện chuỗi sự kiện Trong miền dữ liệu tiếng Việt, Tran và các

cộng sự quan tâm tới ba loại sự kiện chính gồm: cháy nổ, tội phạm, và tại nạn giao thông Mục tiêu của tác giả là trích chọn ra các thông tin cơ bản của ba

loại sự kiện và trực quan hoá chúng trên một bản đồ theo dõi sự kiện

Trang 19

Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có thể coi như một mẫu (template) gồm nhiều các thuộc tính (elements) Quá trình trích chọn sự kiện quan tâm tới việc làm thế nào có thể điền các thông tin phù hợp từ văn bản gốc tương ứng với từng thuộc tính.

1.2.2 Trích chọn sự kiện

Trích xuất sự kiện có thể coi là một lĩnh vực con của trích chọn thông tin Tuy nhiên, trích chọn sự kiện có sự khác biệt với lĩnh vực cha của nó Nếu như trích chọn thông tin chỉ quan tâm với các dữ liệu rời rạc (tên người, địa điểm, các con số, ) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của thông tin trong một sự kiện Qua đó, người đọc

có thể dễ dàng suy luận ra các thông tin có ý nghĩa Ví dụ, với câu “Thêm một trẻ tử vong do bệnh tay chân miệng tại Quảng Nam vào ngày 12/06/2012” Trong ví dụ này, trích chọn thông tin đưa ra các kết quả rời rạc như: một, Quảng Nam, hoặc 12/06/2012; trong khi trích chọn sự kiện sẽ đưa ra một bộ

các thuộc tính biểu diễn cho sự kiện gồm {tay chân miệng, Quảng Nam,

12/06/2012} Một ví dụ khác, “Ngay sáng ngày 30/4, trên đường Xuân Thuỷ, thủ đô Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người trên xe máy bị thương nặng Nguyên nhân bước đầu được cho là do tài xế tắc-xi đã tăng tốc khi nhận điểm nên đã xô thẳng vào xe máy đi cùng chiều” Trong ví dụ này,

trích chọn thông tin đưa ra các kết quả rời rạc như: 30/4, Hà Nội, 2 hoặc tắc xi; trong khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu diễn cho sự kiện gồm {30/4, Hà Nội, 2 người bị thương, tắc-xi} Rõ ràng, với tập dữ liệu trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc

Một cách tổng quát, có thể coi trích chọn sự kiện nhận đầu vào là các văn bản không có cấu trúc và đầu ra là tri thức được biểu diễn dưới dạng thông tin có cấu trúc Những thông tin này có thể làm đầu vào cho những hệ thống giám sát (monitoring systems) hoặc các hệ thống hỗ trợ ra quyết định

Trang 20

(supported decision systems) Trích chọn sự kiện có thể được áp dụng cho một miền dữ liệu cụ thể (close domain) như dịch bệnh, cháy nổ, hoặc miền

dữ liệu mở (open domain), đồng thời đưa ra các thông tin xung quang sự kiện

đó, thông thường bao gồm: tác nhân, thời gian, địa điểm, số lượng,

Theo Grishman và cộng sự, trích chọn sự kiện là một bài toán khó do vấn đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trưng dữ liệu [19] Dễ dàng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào NLP, cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER) Mặc dù NER đã thu được những kết quả khả quan, tuy nhiên vẫn còn một số thách thức lớn, đặc biệt với các ngôn ngữ không phải tiếng Anh Bên cạnh đó, dữ liệu đầu vào của trích chọn sự kiện rất đa dạng nên sẽ ảnh hưởng tới tính hiệu quả củaquá trình trích chọn

1.3 Khó khăn và thách thức của trích chọn sự kiện

Mặc dù được nhiều nhà khoa học đầu tư nghiên cứu, tuy nhiên trích chọn

sự kiện vẫn phải đối mặt với nhiều thách thức trong việc nâng cao độ chính xác của quá trình trích chọn Đầu tiên, độ chính xác của quá trình trích chọn phụ thuộc rất lớn vào bài toán phát hiện sự kiện Trong khi đó, bài toán phát hiện sự kiện phụ thuộc vào độ chính xác của bộ phân lớp (giám sát hoặc không giám sát) Trong khi đó bài toán phân lớp đã đạt được những kết quả khả quan trong tiếng Anh, nó vẫn gặp nhiều khó khăn trong tiếng Việt do đặc trưng ngôn ngữ

Thứ hai, do quá trình trích chọn phụ thuộc nhiều vào các kỹ thuật của NLP, đặc biệt là NER Tuy bài toán NER đã được giải quyết trên tiếng Anh tuy nhiên trên tiếng Việt nó vẫn còn hạn chế Hơn nữa, một số yếu tố về mặt ngôn ngữ như nhập nhằng ngữ nghĩa (Word Sense Disambiguation), hiện tượng đồng tham chiếu (Co-References), hoặc nhận dạng tính ngữ nghĩa của

Trang 21

tiêu đề bản tin (Syntactically Ambiguious Headlines) có ảnh tác động không nhỏ tới độ chính xác của quá trình trích chọn.

Cuối cùng, quá trình trực quan hoá gặp khoá khăn khi dữ liệu trích chọn

không đầy đủ Ví dụ, với câu “Bệnh sởi bùng phát tại Hà Nội từ đầu tháng 4

”, kết quả của quá trình trích chọn là {bệnh sởi, Hà Nội, tháng 4} Với thông

tin về địa điểm không chi tiết, sẽ rất khó để biết chính xác dịch bệnh bùng phát ở đâu (quận, huyện, hoặc đường) Bên cạnh đó, thời gian của sự kiện cũng không cụ thể, dẫn đến việc tính thời gian chính xác của sự kiện gặp khó khăn

1.4 Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện

Trong phần này, luận văn trình bày một số phương pháp tiếp cận cho bài toán trích chọn sự kiện Các phương pháp này bao gồm: phương pháp dựa trên luật, phương pháp dựa trên học máy, và phương pháp kết hợp giữa luật

và học máy Phần cuối cùng, luận văn đưa ra một số bàn luận về các phương pháp Dựa trên cơ sở này, luận sẽ lựa chọn phương pháp phù hợp cho bài toán trích chọn sự kiện dịch bệnh ở Chương 2

1.4.1 Phương pháp tiếp cận dựa trên tập luật

Trong nghiên cứu của mình, Hogenboom F và cộng sự [20] cung cấp một khảo sát để lựa chọn phương pháp phù hợp cho bài toán trích chọn sự kiện trên văn bản Bài báo đã chỉ ra rằng có ba phương pháp cơ bản để giải quyết bài toán trích chọn sự kiện, đó là: phương pháp dựa trên dữ liệu (data-driven), phương pháp dựa trên tri thức (knowledge-driven), và phương pháp lai (hybrid) Phương pháp thứ nhất thường sử dụng học máy (các mô hình xác suất) trên một tập dữ liệu huấn luyện lớn để giải quyết bài toán trích chọn các thông tin của một sự kiện Điển hình cho phương pháp này là nhận dạng thực thể (NER) Phương pháp thứ hai dựa trên kiến thức chuyên gia miền (thường

là những chuyên gia ngôn ngữ và chuyên gia miền dữ liệu) để sinh ra tập luật

Trang 22

Tập luật này được sử dụng để trích chọn các thành phần của sự kiện Phương pháp cuối cùng kết hợp phương pháp thứ nhất và thứ hai Trong khuôn khổ luận văn, tác giả gọi phương pháp dựa trên dữ liệu là phương pháp sử dụng học máy và phương pháp dựa trên tri thức là phương pháp sử dụng luật.

1.4.1.1.Luật cú pháp

Luật cú pháp, đôi khi còn được gọi là các mẫu cú pháp (lexico-syntactic patterns) có thể coi là phương pháp được sử dụng sớm trong bài toán trích chọn sự kiện Các mẫu này được sinh ra từ các chuyên gia miền (domain experts) dưới dạng các luật (rules) [20] Điển hình cho phương pháp này chính là các luật được biểu diễn dưới dạng biểu thức chính quy (regular expression)

Các luật cú pháp kết hợp sự biểu diễn của các ký tự và các thông tin cú pháp với các biểu thức chính quy Sau khi các biểu thức chính quy được xây dựng, những biểu thức này được so khớp với dữ liệu trong văn bản đầu vào để trích chọn ra các thông tin tương ứng Trong một số trường hợp, luật cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá Các luật cú pháp được

sử dụng trong trích chọn sự kiện [5, 11, 10] Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tượng (object),

và hành vi(action) để biểu diễn một sự kiện được trích chọn từ blogs Trong lĩnh vực tiền tệ và chính trị, Aone và cộng sự dùng các luật cú pháp để trích chọn các thông tin của một sự kiện [2] Xu và cộng sự sử dụng các mẫu cú pháp để học các mẫu từ dữ liệu các sự kiện Các mẫu này đóng vai trò là tập nhân (seeds) trong kỹ thuật bootstrapping

Đặc biệt, các luật cú pháp còn được sử dụng để trích chọn các thông tin trong miền dữ y sinh Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xác định mối quan hệ và các sự kiện Các luật cú pháp định nghĩa các cấu trúc tham số bên trong văn bản

Trang 23

1.4.1.2.Luật ngữ nghĩa

Trong trích chọn sự kiện sử dụng luật, đôi khi phải trích chọn các khái niệm có ý nghĩa đặc biệt hoặc các mối quan hệ giữa các thành phần được trích chọn Tuy nhiên, các luật cú pháp không giải quyết được vấn đề này Để giải quyết vấn đề này, phương pháp thường được áp dụng là sử dụng luật ngữ nghĩa (lexico-semantic patterns) Các luật ngữ nghĩa không đơn giản là tập hợp của các từ dưới dạng biểu thức chính quy mà là các mẫu được xây dựng dưới dạng các từ và mối quan hệ giữa chúng

Các luật này được sử dụng với nhiều mục đích khác nhau Li Fang và cộng sự đã sử dụng các luật ngữ nghĩa để trích chọn thông tin từ sàn giao dịch trứng khoán (stock market) [14] Cohen và cộng sự [8] sử dụng khái niệm bộ nhận dạng (recognizer) trên miền dữ liệu y sinh để trích chọn các sự kiện y sinh từ tập dữ liệu Cách tiếp cận tương tự cũng được áp dụng bởi Vargas-Vera và Celjuska [24] khi tác giả đề xuất một bộ khung (framework) cho việc nhận diện các sự kiện tập trung trên các bài báo của Knowledge Media Institute (KMI) Capet và cộng sự sử dụng các mẫu ngữ nghĩa để trích chọn

sự kiện cho hệ thống tự động cảnh báo sớm

Trích chọn sự kiện từ các văn bản không có cấu trúc có thể được áp dụng trong nhiều lĩnh vực, đặc biệt trong miền dữ liệu dịch bệnh Grishman R và cộng sự đã sử dụng 120 mẫu sự kiện ngôn ngữ (linguasitc event patterns) để phân tích các câu và trích chọn các thông tiên liên quan tới một sự kiện dịch bệnh [17] Các mẫu này được xây dựng dựa trên các từ cà mối quan hệ giữa

chúng Ví dụ, mẫu “np (DISEASE) vp (KILL) np (VICTIM)" sẽ so khớp với một mệnh đề như “Cholera killed 23 inhabitants" Một sự kiện được nhận dạng khi nó chứa hai cụm từ “outbreak of " và “people died from " Các

mẫu này được áp dụng để trích chọn các sự kiện dịch bệnh và đạt độ đo F score) xấp xỉ 53.98%

Trang 24

(F-1.4.2 Phương pháp tiếp cận dựa trên học máy

Phương pháp dựa trên học máy thường được sử dụng cho các ứng dụng

xử lý ngôn ngữ tự nhiên và yêu cầu tập dữ liệu huấn luyện lớn để huấn luyện

mô hình sao cho xấp xỉ với các hiện tượng ngôn ngữ [20] Cách tiếp cận này thường dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin (information theory), và đại số tuyến tính (linear algebra) Trong thực tế, một

số cách tiếp cận cơ bản có thể chỉ ra là Term Frequency - Inverse Document

Frequency (TF-IDF), word sense disambiguation, n-grams, và phân cụm.

Có thể tìm thấy nhiều ví dụ về việc sử dụng các tiếp cận dựa trên dữ liệu

để trích chọn sự kiện trong các nghiên cứu về trích chọn thông tin Năm 2009, Okamoto và cộng sự [25] dựng một khung (framework) để phát hiện các sự kiện cục bộ (local events) Trong nghiên cứu của mình, tác giả sử dụng các kỹ thuật của phân cụm phân cấp Trong khi bản thân phân cụm có thể sinh ra các kết quả tốt cho trích chọn sự kiện, Liu M và cộng sự [23] kết hợp các đồ thị

có trọng số vô hướng chia đôi (weighted undirected bipartite graphs) và phân cụm để trích chọn các thực thể chín và các sự kiện có ý nghĩa từ các thông tin hàng ngày Các kỹ thuật phân cụm cũng được sử dụng bởi Tanev và cộng sự

để trích chọn các sự kiện bạo lực và thảm hoạ cho hệ thống giám sát

Bên cạnh đó, các kỹ thuật dựa trên dữ liệu cũng được áp dụng cho miền

dữ liệu dịch bệnh DoanS và cộng sự [12] xây dựng hệ thống giám sát sức khoẻ toàn cầu (Global Health Monitor system) hiển thị sự lây lan dịch bệnh trên thế giới Hệ thống này gồm ba thành phần chính: (1) phân lớp chủ đề, (2) nhận dạng thực thể, và (3) phát hiện tên bệnh và địa điểm bùng phát dịch bệnh Trong thành phần thứ nhất, bộ phân lớp Naive Bayes được sử dụng và

độ chính xác của quá trình phân lớp khoảng 88.10% Trong thành phần thứ hai, tác giả sử dụng Support Vector Machine (SVM) cho bài toán nhận dạng thực thể và độ chính xác khoảng 76.97% với độ đo F (F-score) Thành phần

Trang 25

cuối cùng tác giả sử dụng một ontology (BioCaster Ontology) để phát hiện tên bệnh và địa điểm bùng phát Độ chính xác của thành phần thứ ba này khoảng 93.40%.

1.4.3 Phương pháp kết hợp luật và học máy

Phương pháp kết hợp (lai - hybrid) thường được sử dụng trong các bài toán trích chọn sự kiện Hầu hết các hệ thống hướng tri thức (knowledge-driven systems) được bổ sung bởi phương pháp dựa trên học máy, và như vậy,

nó có thể giải quyết khuyết điểm của phương pháp sử dụng luật Ví dụ, Jungermann và Morik [16] kết hợp các luật ngữ nghĩa với Conditional Random Fields (CRFs - được biểu diễn như các đồ thị vô hướng) để trích chọn các sự kiện từ phiên họp toàn thể của nghị viện Đức Piskorski và cộng

sự sử dụng các kỹ thuật bootstrapping với thống kê để trích chọn các sự kiện liên quan tới bạo lực từ các bản tin trực tuyến với độ chính xác và hồi tưởng cao Ở đây, tác giả đã giải quyết hạn chế của thuật toán học mẫu có giám sát với các cụm Chun và cộng sự [21] trích chọn các sự kiện y sinh bằng cách sử dụng các luật cú pháp kết hợp với đồng tham chiếu (co-occurrences) Lee và cộng sự [7] sử dụng ontology mờ (ontology-based fuzzy) để trích chọn sự kiện từ các bản tin tiếng Trung Quốc Tác giả đã sử dụng thống kê dựa trên ngữ pháp (grammar-based statistical) và gán nhãn từ loại (part-of-speech tagging); như vậy, phương pháp này có thể được coi là phương pháp lai

Volkova S và cộng sự sử dụng nhận dạng thực thể và phân lớp mức câu

để trích chọn các sự kiện dịch bệnh trên động vật Quá trình nhận dạng thực thể sự kiện gồm ba bước: (1) nhận dạng thực thể từ văn bản, (2) các câu được phân loại dựa trên các thực thể, (3) và các thực thể trong một câu sự kiện được tổ hợp để tạo thành một cấu trúc Trong quá trình nhận dạng sự kiệ, các

sự kiện đúng phải chứa một tên bệnh và một động từ liên quan tới bệnh đó

Độ chính xác của bộ nhận dạng sự kiện và bộ phân lớp mức câu là 75% và

Trang 26

65% trên hai tập đặc trưng là Google-Set và WordNet Bênh cạnh đó, phương pháp của Son D và cộng sự [12] được đề cập trong mục 2.2 cũng có thể coi là phương pháp lai do sử dụng ontology trong quá trình trích chọn sự kiện.

để trích chọn các thành phần sự kiện dựa trên từ vựng, cú pháp, và các thành phần ngữ nghĩa Tiếp cận theo mẫu (luật) là một cách tiếp cận hợp lý khi cần trích chọn các thông tin đặc biệt (ví dụ như các thông tin thời gian được đề

cập không rõ ràng: “hôm qua”, “rạng sáng nay”) Có thể dễ dàng nhận thấy

phương pháp tiếp cận dựa trên luật đạt độ chính xác rất cao (do được xây dựng để lấy ra các thông tin đặc biệt) nhưng có độ hồi tưởng thấp Khi chỉ quan tâm tới độ chính xác thì sử dụng luật là một phương pháp hiệu quả

Bên cạnh những ưu điểm, phương pháp sử dụng luật cũng có những nhược điểm Đầu tiên, để xây dựng được tập luật có chất lượng đòi hỏi người dây dựng có kiến thức về ngôn ngữ, từ vựng, và trong một số trường hợp còn yêu cầu thêm có sự tham gia của những chuyên gia miền Hơn nữa, như đã đề cập ở trên, các luật thường được sử dụng để lấy ra những thông tin đặc biệt;

do đó, khi thay đổi miền ứng dụng cần phải thay đổi lại các luật cho phù hợp Đôi khi việc thay đổi này tốn nhiều thời gian và chi phí

Ngược lại với cách tiếp cận dùng luật, cách tiếp cận sử dụng học máy không đòi hỏi nhiều kiến thức về ngôn ngữ và chuyên và miền; tuy nhiên, phương pháp này đòi hỏi một lượng lớn dữ liệu để làm tập huấn luyện Dựa trên các dữ liệu này, các phương pháp dựa trên dữ liệu sẽ dùng các mô hình

Trang 27

xác suất để xấp sỉ mô hình huấn luyện với dữ liệu Phương pháp này có những

ưu điểm sau [20] Thứ nhất, cách tiếp cận này không yêu cầu có sự tham gia của chuyên gia miền và chuyên gia ngôn ngữ Thứ hai, các mô hình sau khi huấn luyện dễ dàng được sử dụng với nhiều miền dữ liệu khác nhau

Tuy nhiên, cách tiếp cận sử dụng học máy cũng có những nhược điểm riêng [20] Đầu tiên, các phương pháp tiếp cận dựa trên dữ liệu không giải quyết được vấn đề ngữ nghĩa trong bài toán trích chọn sự kiện (ví dụ, các phương pháp này chỉ phát hiện các quan hệ trong tập dữ liệu mà không giải quyết được vấn đề ngữ nghĩa) Một nhược điểm khác là các phương pháp này yêu cầu một lượng lớn dữ liệu để huấn luyện mô hình nhưng trong một số trường hợp, việc gán nhãn dữ liệu tốn thời gian và chi phí Cuối cùng, do các phương pháp này dựa trên các mô hình xác suất thống kê, do đó, trong một số trường hợp kết quả của quá trình trích chọn không cao phát sinh từ quá trình làm dữ liệu huấn luyện

Trong thực tế, các hệ thống tri thức (knowledge systems) thường có sự kết hợp giữa các phương pháp sử dụng luật và phương pháp dựa trên học máy Phương pháp kết hợp ra đời để giải quyết các nhược điểm của phương pháp tiếp cận sử dụng luật và học máy Phương pháp này thường được áp dụng để giải quyết vấn đề thiếu chuyên gia miền ứng dụng khi hệ thống có sử dụng các luật Bên cạnh đó, các nhà nghiên cứu cũng có thể kết hợp các tiếp cận thống kê với tri thức (ví dụ để tránh các kết quả không mong muốn hoặc bổ sung cho các phương pháp thống kê ) Hơn nữa, chúng ta có thể ràng buộc các phương pháp học (data-driven approaches) bằng cách sử dụng tri thức chuyên gia để tạo ra các mô hình tốt

Trong các hệ thống trích chọn sự kiện sử dụng phương pháp lai, do có sử dụng các phương pháp tiếp cận sử dụng học máy nên vẫn yêu cầu có dữ liệu huấn luyện Bên cạnh đó, trong các hệ này vẫn cần phải có các luật, tuy nhiên

Trang 28

sẽ không nhất thiết phải có chuyên gia miền do tri thức từ chuyên gia miền có thể được bổ sung từ dữ liệu Hơn nữa, kết hợp với luật sẽ giúp các hệ thống trích chọn sự kiện thu được các thông tin đặc biệt Tuy nhiên, phương pháp này có một nhược điểm đó là yếu tích hợp hệ thống khi kết hợp hai phương pháp dựa trên luật và dữ liệu [20].

Trong phạm vi của luận văn, tác giả lựa chọn phương pháp sử dụng hệ luật bởi một số lý do sau đây Thứ nhất, dữ liệu trong hệ thống nhiều, nếu dữ liệu này được dùng trực tiếp cho bước phân lớp thì sẽ làm tăng thời gian phát hiện sự kiện Do đó, tác giả sử dụng các luật cú pháp (từ khoá) để loại bỏ bớt

dữ liệu dư thừa Thứ hai, trong ba thông tin của sự kiện gồm: thời gian, tên bệnh, và địa điểm bùng phát có thông tin về thời gian là đặc biệt Đôi khi

thông tin này được đề cập không rõ ràng và thiếu chi tiết về thời gian (ví dụ,

”tối qua”, ”rạng sáng nay”, ); do đó, tác giả sử dụng luật ngữ nghĩa để trích

chọn thông tin này Chi tiết phương pháp được đề xuất trong luận văn sẽ được trình bày trong chương 2

1.5 Kết luận chương

Chương này giới thiệu tổng quan về bài toán trích chọn thông tin, trích chọn sự kiện và các phương pháp tiếp cận cơ bản để giải quyết bài toán trích chọn sự kiện: Phương pháp tiếp cận dựa trên luật (rule – based) gồm luật cú pháp và luật ngữ nghĩa, phương pháp tiếp cận dựa trên học máy (machine learning) và phương pháp kết hợp luật và học máy (hybrid) Có thể thấy, mỗi phương pháp đều có những ưu và nhược điểm riêng Sau khi đánh giá mức độ phù hợp của các phương pháp với đặc điểm của miền dữ liệu là sự kiện dịch bệnh, luận văn lựa chọn phương pháp sử dụng hệ luật Trong chương tiếp theo, luận văn sẽ trình bày chi tiết bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt và mô hình giải quyết bài toán

Trang 29

Chương 2 BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH

TRONG VĂN BẢN TIẾNG VIỆT

Chương này trình bày các nội dung chính như sau:

1) Tổng quan về bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt, bao gồm phát biểu bài toán, ý nghĩa của bài toán.

2) Mô hình phát hiện sự kiện và trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt.

3) Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh trong văn bản tiếng Việt.

4) Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt.

2.1 Tổng quan bài toán trích chọn sự kiện dịch bệnh trong văn bản

tiếng Việt

2.1.1 Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh

2.1.1.1 Tầm quan trọng của trích chọn sự kiện dịch bệnh

Trích chọn sự kiện dịch bệnh có thể coi là một lĩnh vực con trong trích chọn sự kiện Nếu như trích chọn sự kiện có thể áp dụng cho cả miền dữ liệu đóng (close domain) hoặc miền dữ liệu mở (open domain) thì trích chọn sự kiện dịch bệnh chỉ quan tâm tới những văn bản liên quan tới dịch bệnh Ví dụ, khi người dùng đọc các bài báo liên quan tới một dịch bệnh (tay chân miệng),

họ muốn lấy ra các thông tin cơ bản, dễ nhớ của toàn bộ bài báo gồm: tên bệnh, địa điểm bùng phát, và thời gian bùng phát Như vậy, yêu cầu là cần

phải trích chọn được các thông tin cơ bản của một sự kiện dịch bệnh từ một văn bản đầu vào

Bài toán trích chọn dịch bệnh có ý nghĩa quan trọng không chỉ trong nghiên cứu mà còn trong đời sống, đặc biệt trong trường hợp các dịch bệnh nguy hiểm bùng phát và lây lan trên diện rộng Do một dịch bệnh thường

Trang 30

bùng phát trong một thời gian ngắn và lây lan rất nhanh trên một phạm vi rộng, do vậy nó có thể tạo ra các tình huống xấu ảnh hưởng tới người dân và nền kinh tế Do đó, trích chọn và giám sát sự lây lan của các dịch bệnh có ý nghĩa rất quan trọng trong việc đối phó với sự lây lan của chúng.

Bài toán phát hiện và trích chọn sự kiện dịch bệnh được đề cập từ khá sớm và nhận được nhiều sự quan tâm từ phía các nhà khoa học Grishman và cộng sự [17] sử dụng các mẫu sự kiện (event patterns) để phân tích các câu đầu vào và trích chọn ra các sự kiện dịch bệnh Các mẫu sự kiện này được xây

dựng dựa trên mối quan hệ giữa các từ Ví dụ, mẫu “np (DISEASE) vg (KILL)

np (VICTIM)" sẽ được sử dụng để đối sánh với câu “Cholera killed 23 inhabitants" Một sự kiện được phát hiện dựa trên ràng buộc của hai cụm danh từ gồm: outbreak of và died from Trong nghiên cứu của mình, hiệu

quả của quá trình trích chọn khoảng 53.98% (F-score)

Volkova và cộng sự quan tâm tới trích chọn sự kiện dịch bệnh trên động vật Quá trình nhận dạng sự kiện gồm ba bước: đầu tiên là nhận dạng thực thể

từ các băn bản không có cấu trúc, thứ hai là phân lớp các câu dựa trên các thực thể, và cuối cùng là các thực thể trong một câu được kết hợp để tạo thành

sự kiện Độ chính xác trong pha nhận dạng sự kiện và phân lớp lần lượt là 75% và 65% trên hai tập dữ liệu là WordNet và GoogleSet

Doan và các cộng sự [12] xây dựng hệ thống Global Health Monitor cho

phép hiển thị các sự kiện dịch bệnh trên toàn thế giới Hệ thống gồm ba thành

phần chính: (1) phân lớp chủ đề, (2) nhận dạng thực thể (NER), và (3) phát hiện các thành phần của sự kiện (disease/location detection) Các tác giả sư

dụng Naive Bayes cho bài toán phân lớp chủ đề và đạt độ chính xác khoảng 88.10% Trong thành phần nhận dạng thực thể, các tác giả sử dụng Support Vector Machine và đạt độ chính xác vào khoản 76.97% (F-score) Trong bước cuối cùng, tác giả sử dụng một Ontology [9] với độ chính xác khoảng 93.49%

Trang 31

Như vậy, cũng giống như định nghĩa về sự kiện, một sự kiện dịch bệnh

có thể coi như một mẫu (template) chứa các thuộc tính của sự kiện Trích chọn sự kiện dịch bệnh chỉ quan tâm tới những dữ liệu liên quan tới dịch bệnh (con người hoặc động vật)

2.1.1.2 Ý nghĩa khoa học

Về mặt khoa học, trích chọn sự kiện nói chung và trích chọn sự kiện dịch bệnh nói riêng là một trong những bài toán cơ bản của trích chọn thông tin Giải quyết tốt bài toán này sẽ là tiền đề tốt các các bài toán khác như phát hiện chuỗi sự kiện, dự đoán xu hướng, hay là đầu vào cho các hệ thống giám sát và hỗ trợ ra quyết định Bên cạnh đó, các nghiên cứu liên quan tới trích chọn sự kiện dịch bệnh trên thế giới đã thu được những kết quả khả quan, tuy nhiên không nhiều nghiên cứu được tiến hành trên dữ liệu tiếng Việt [27, 38, 12] Do đó, bài toán này cần được giải quyết một cách thoả đáng trên miền dữ liệu tiếng Việt

2.1.1.3 Ý nghĩa thực tiễn

Bài toán trích chọn sự kiện dịch bệnh có ý nghĩa rất lớn trong thực tế, đặc biệt trong trường hợp các dịch bệnh bùng phát Trong trường hợp này, các nhà quản lý, chính phủ, và công dân cần những giải pháp để theo dõi diễn tiến tình hình dịch bệnh, để từ đó có những quyết định phù hợp Trong ngữ cảnh bùng nổ thông tin liên quan tới một dịch bệnh, trích chọn sự kiện là một giải pháp phù hợp để đưa những thông tin hữu ích tới người dùng

Hiện tại có một số hệ thống áp dụng kỹ thuật trích chọn sự kiện và trực quan hoá để cung cấp thông tin cho người dùng Grishman và cộng sự xây dựng hệ thống Peoteous-BIO cung cấp các thông tin dịch bệnh dưới dạng sự kiện cho người dùng [18] Dữ liệu trong hệ thống được lấy từ các trang web

và các báo cáo của tổ chức World Health Organization (WHO) (http:// www.who.int /csr/don/en/) và ProMed (http://www.promedmail.org/) Collier

Trang 32

và cộng sự đã xây dựng hệ thống BioCaster nơi mà người dùng có thể theo

dõi một số loại sự kiện trên toàn thế giới, đặc biệt là sự kiện dịch bệnh (http: //born.nii.ac.jp) Tương tự, hệ thống HealthMap của Freifeld Clark C và cộng

sự cho phép người dùng theo dõi tình hình dịch bệnh trên toàn thế giới (http: //www.healthmap.org) Tại Việt Nam, Tran và cộng sự đã xây dựng hệ thống

theo dõi ba loại sự kiện chính là: cháy nổ, tai nạn giao thông, và tội phạm [38] với nguồn dữ liệu từ các trang web

2.1.2 Các đặc tính của sự kiện dịch bệnh

Quá trình khảo sát trên miền dữ liệu chứa sự kiện dịch bệnh chỉ ra rằng một sự kiện dịch bệnh có thể chứa tên bệnh, thời gian bùng phát dịch bệnh, các địa điểm mà dịch bệnh bùng phát, và thông tin về các nạn nhân của dịch bệnh Trong một số trường hợp, một sự kiện dịch bệnh có thể chứa thêm các thông tin liên quan tới phương thức lây lan (lây trực tiếp hoặc qua các vật trung gian) hoặc môi trường lây nhiễm Như vậy, có thể thấy rằng các thông tin cơ bản của một sự kiện dịch bệnh là tên bệnh, thời gian, và địa điểm bùng phát

Trong nghiên cứu của mình, Grishman R và cộng sự [17] quan niệm rằng một sự kiện dịch bệnh chứa tên bệnh, thời gian và địa điểm dịch bệnh bùng phát, số lượng các nạn nhân, và kiểu nạn nhân (người hay động vật) Tuy nhiên, trong giới hạn của luận văn, tác giả chỉ quan tâm tới ba thông tin

cơ bản, đó là tên bệnh, thời gian, và địa điểm mà dịch bệnh bùng phát Tác

giả bỏ qua phương thức hoặc môi trường lây bệnh vì dữ liệu trong luận văn được thu thập từ các trang web thay vì các báo cáo y tế Như vậy, trong hầu hết các trường hợp, thông tin về phương thức hoặc môi trường lây lan không được đề cập một cách rõ ràng Hơn nữa, một sự kiện trong MUC gồm một tác nhân (actor) [19], tuy nhiên, trong luận văn, một tác nhân tương đương với tên bệnh, do vậy, tác giả sử dụng tên bệnh thay cho tác nhân

Trang 33

Bên cạnh đó, quá trình khảo sát dữ liệu trên các bài báo chứa sự kiện dịch bệnh cũng chỉ ra rằng tên bệnh đôi khi giống với triệu trứng của bệnh Đây là một trong những lý do của sự nhầm lẫn trong quá trình trích chọn sự kiện Ví dụ, “cúm” là một triệu trứng của bệnh cúm gia cầm H5N1, tuy nhiên triệu trứng cúm vẫn được nhận diện là một bệnh.

2.1.3 Phát biểu bài toán

Cũng giống với bài toán trích chọn thông tin nói chung, bài toán trích chọn sự kiện dịch bệnh tập trung vào việc trích chọn các thông tin cơ bản của một sự kiện dịch bệnh từ các văn bản không có cấu trúc Một cách hình thức, bài toán có thể phát biểu như sau:

 Đầu vào: Một bài báo điện tử.

 Đầu ra: Mô hình sẽ phải kiểm tra xem bài báo ở đầu vào có chứa sự

kiện dịch bệnh hay không? Nếu có thì trích chọn các thông tin của dịch bệnh

Trong phạm vi của luận văn, một sự kiện dịch bệnh (từ nay gọi là sự

kiện) được định nghĩa là một bộ E gồm ba thành phần, đó là: tên dịch bệnh, thời gian, và vị trí dịch bệnh bùng phát Một cách hình thức, sự kiện E được

định nghĩa như trong công thức (2.1):

với:

 Tên bệnh: là tên của dịch bệnh được đề cập trong bài báo.

 Thời gian: là thời gian mà dịch bệnh bùng phát.

 Địa điểm: là địa điểm mà dịch bệnh bùng phát Địa điểm có thể là

một hoặc một tập hợp các địa điểm

Một ví dụ minh hoạ cho sự kiện dịch bệnh E như sau: E = <cúm A/H5N1, 12/06/2012, Quảng Ngãi> Thông qua ba thông tin cơ bản này,

Định dạng
Số trang	66
Dung lượng	1,47 MB