1. Trang chủ
  2. » Luận Văn - Báo Cáo

Trích chọn sự kiện trong văn bản tin tức tiếng Việt

61 502 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 1,53 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai nạn, kết quả của quá trình này sẽ được t

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN THỊ THUẬN

TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN

TIN TỨC TIẾNG VIỆT

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2014

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN THỊ THUẬN

TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN

TIN TỨC TIẾNG VIỆT

Chuyên ngành : Hệ thống thông tin

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN TRÍ THÀNH

HÀ NỘI - 2014

Trang 3

i

LỜI CẢM ƠN

Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo, TS Nguyễn Trí Thành đã tận tình chỉ bảo; hướng dẫn; động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp

Tôi xin gửi lời cảm ơn tới Thầy giáo, PGS TS Hà Quang Thuỵ người đã tận tình giúp đỡ, cổ vũ, và góp ý cho tôi trong suốt thời gian tôi nghiên cứu và làm việc tại phòng thí nghiệm Công nghệ Tri thức (Knowledge Technology Laboratory - KTLab)

Tôi xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm Công nghệ Tri thức (KTLab) – Trường Đại học Công nghệ đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn

Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh: quan tâm; động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 20 tháng 6 năm 2014

Phan Thị Thuận

Trang 4

ii

LỜI CAM ĐOAN

Tôi xin cam đoan giải pháp trích chọn sự kiện trong văn bản tin tức tiếng Việt được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của

TS Nguyễn Trí Thành

Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tê Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn

Hà Nội, tháng 6 năm 2014

Tác giả luận văn

Phan Thị Thuận

Trang 5

iii

MỤC LỤC

DANH MỤC CÁC HÌNH vi

DANH MỤC CÁC BẢNG vi

MỞ ĐẦU vii

Chương 1 GIỚI THIỆU ĐỀ TÀI 1

1.1 BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN 1

1.2 TỔNG QUAN VỀ SỰ KIỆN 1

1.2.1 Định nghĩa sự kiện 3

1.2.2 Trích chọn sự kiện 3

1.3 TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT 4

1.3.1 Bài toán trích chọn sự kiện vụ tai nạn 4

1.3.2 Phát hiện sự kiện 6

1.3.3 Trích chọn sự kiện 6

1.4 Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 7

1.4.1 Ý nghĩa khoa học 7

1.4.2 Ý nghĩa thực tiễn 7

1.5 KẾT LUẬN 8

Chương 2 MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN 9

2.1 PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE – BASED) 9 2.1.1 Luật cú pháp (lexico-syntactic patterns) 10

2.1.2 Luật ngữ nghĩa (lexico-semantic patterns) 11

2.1.3 Hình dạng và biểu diễn của tập luật (Form and Representation of Rules) 11

Trang 6

iv

2.2 PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY 15

2.3 PHƯƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY 17

2.5 TỔNG KẾT 18

Chương 3 ĐỀ XUẤT MÔ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 19

3.1 CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN 19

3.2 PHÁT BIỂU BÀI TOÁN 19

3.3 MÔ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 21

3.3.1 Phương pháp đề xuất 21

3.3.2 Mô hình phát hiện và trích chọn sự kiện vụ tai nạn 22

3.4 GIẢI QUYẾT BÀI TOÁN PHÁT HIỆN SỰ KIỆN VÀ BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 23

3.4.1 Bài toán 1- Pháp hiện sự kiện vụ tai nạn (pha 1) 23

3.4.1.1 Phát biểu bài toán 23

3.4.1.2 Xây dựng tập luật 24

3.4.1.3 Xây dựng mô hình phân lớp 28

3.4.2 Bài toán 2- Trích chọn sự kiện vụ tai nạn (pha 2) 29

3.4.2.1 Phát biểu bài toán 29

3.4.2.2 Trích chọn thời gian 30

3.4.2.3 Trích chọn địa điểm 32

3.4.2.4 Trích chọn số thương vong 32

3.4.2.5 Trích chọn phương tiện gây tai nạn 33

3.5 TỔNG KẾT 34

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 36

Trang 7

v

4.1 MÔI TRƯỜNG VÀ CÁC CÔNG CỤ SỬ DỤNG THỰC NGHIỆM 36

4.2 XÂY DỰNG TẬP DỮ LIỆU 37

4.2.1 Thu thập dữ liệu 37

4.2.2 Tiền xử lý dữ liệu 37

4.3 ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN 37

4.3.1 Đánh giá bộ lọc dữ liệu 37

4.3.2 Đánh giá quá trình phân lớp 38

4.4 ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN 39

4.4.1 Thực nghiệm không qua bộ phân lớp 39

4.4.2 Thực nghiệm qua bộ phân lớp 41

4.4.3 Nhận xét 41

4.5 PHÂN TÍCH LỖI 41

4.5.1 Phân tích lỗi quá trình phát hiện sự kiện 41

4.5.2 Phân tích lỗi quá trình trích chọn sự kiện 42

4.6 MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN 43

Biểu đồ 4.3 Thống kê số vụ tai nạn theo tỉnh 44

4.7 TỔNG KẾT 45

TÀI LIỆU THAM KHẢO 48

Trang 8

vi

DANH MỤC CÁC HÌNH

Hình 3.1: Quá trình phát hiện và trích chọn sự kiện vụ tai nạn 22

Hình 3.2 Thành phần phát hiện sự kiện 24

Hình 3.3 Tiêu đề bản tin có chứa từ liên quan phương tiện giao thông 25

Hình 3.4 Tiêu đề không chứa các từ liên quan đến phương tiện giao thông 26

Hình 3.5 Thành phần trích chọn sự kiện 30

Hình 4.1 Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông 42

DANH MỤC CÁC BẢNG Bảng 3.1Phương tiện giao thông 26

Bảng 4.1 Cấu hình phần cứng 36

Bảng 4.2 Công cụ phần mềm sử dụng 36

Bảng 4.3 Các thành phần của một bản tin 37

Bảng 4.4 Tỷ lệ lỗi của quá trình lọc dữ liệu 38

Bảng 4.5 Đánh giá kết quả phân lớp 39

Bảng 4.6 Đánh giá quá trình trích chọn - dữ liệu không qua bộ phân lớp 41

Bảng 4.7 Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp 41

Bảng 4.8 Một số lỗi - trong quá trình trích chọn 43

Trang 9

vii

MỞ ĐẦU

Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM) Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trên thế giới và đã thu được nhiều kết quả trong thực tế Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau như kinh

tế, văn hóa, y tế, xã hội (chẳng hạn như thông tin về các vụ tai nạn giao thông), chính trị,

Theo những con số thống kê trên các trang báo điện tử về con số tai nạn

hàng năm, như: thông tin đăng trên báo điện tử http://binhduong.gov.vn, sáng

03 – 01-2013, Chính phủ tổ chức “Hội nghị trực tuyến tổng kết công tác trật tự

an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013” do Phó Thủ tướng Chính phủ Nguyễn Xuân Phúc chủ trì Trong hội nghị, Ủy ban An toàn

giao thông ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ

tai nạn giao thông, làm chết 9.838 người, bị thương 38.060 người Cũng theo

báo điện tử http://hanoimoi.com.vn, ngày 31-12-2013, Phó Thủ tướng Chính

phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội nghị trực tuyến với các bộ, ngành, địa phương nhằm tổng kết công tác bảo đảm trật tự ATGT năm 2013 và triển khai nhiệm vụ năm 2014 Theo thống kê của Ủy ban

ATGT Quốc gia, năm 2013 cả nước đã xảy ra 29.385 vụ tai nạn giao thông

(TNGT), làm chết 9.369 người, bị thương 29.500 người

Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thương vong là rất lớn Mặt khác, bản tin vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai nạn, kết quả của quá trình này sẽ được thống kê thành các con số hữu ích giúp các nhà quản lý và người dân tham gia giao thông đúng cách Đó cũng là lý

do, tác giả chọn và nghiên cứu đề tài“Trích chọn sự kiện trong văn bản tin tức

Trang 10

viii

tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn Chi tiết luận văn được

chia thành 4 chương:

Chương 1 Giới thiệu đề tài

Chương này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh bùng nổ thông tin trên Internet Hơn nữa nêu lên được ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng của đề tài trích chọn sự kiện vụ tai nạn giao thông trên miền văn bản tiếng Việt

Chương 2.Một số phương pháp tiếp cận

Chương này tập trung trình bày các phương pháp tiếp cận cho bài toán trích chọn sự kiện đó là, phương pháp tiếp cận dựa trên tâp luật, phương pháp tiếp cận dựa trên học máy, phương pháp tiếp cận kết hợp luật và học máy, trong mỗi phương pháp đều có nhận xét hữu ích Từ đó, luận văn sẽ chỉ ra phương pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn

Chương 3 Đề xuất mô hình trích chọn sự kiện vụ tai nạn

Chương này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn

sự kiện vụ tai nạn Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết

cho hai bài toán: phát hiện sự kiện và trích chọn sự kiện

Chương 4 Thực nghiệm và đánh giá

Chương này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề

xuất dựa trên hai bài toán, đó là: bài toán phát hiện sự kiện và bài toán trích

chọn sự kiện Ba độ đo được sử dụng trong pha phát hiện sự kiện là độ chính xác

(P - Precision), độ hồi tưởng (R - Recall), và độ đo F1 (F1-score) và so sánh với kết quả đánh giá thủ công (bằng tay) cho pha trích chọn sự kiện Thống kê và đánh giá (biểu đồ) các thuộc tính đã được trích chọn

Phần kết luận: trình bày kết quả đạt được của luận văn, những hạn chế và

hướng phát triển của luận văn trong tương lai

Trang 11

1

Chương 1 GIỚI THIỆU ĐỀ TÀI

Trong chương này, luận văn tập trung giải quyết các vấn đề sau: giới thiệu bài toán trích chọn thông tin, tổng quan về sự kiện, trích chọn sự kiện trong văn bản tin tức tiếng Việt (tin tức được đề cập là vụ tai nạn), ý nghĩa khoa học và ý nghĩa thực tiễn của bài toán trích chọn sự kiện vụ tai nạn

1.1 BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN

Theo Douglas E Appelt, trích chọn thông tin (Information Extraction- IE)

có thể được coi nằm giữa thu hồi thông tin (Information Retrieval - IR) và hiểu văn bản (Text Understanding - UT) [2] Không giống như thu hồi thông tin chỉ tập trung vào các mẫu thông tin có liên quan trong văn bản mà không chú trọng đến việc hiểu văn bản; trích chọn thông tin còn quan tâm tới các sự kiện có liên quan trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu thông tin có liên quan trong văn bản và biểu diễn chúng dưới dạng khuôn mẫu Khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản (câu, đoạn), trích chọn thông tin quan tâm tới toàn bộ nội dung văn bản

Theo Peshkin và Pfeffer [11], trích chọn thông tin có thể được định nghĩa:

như là một công việc điền thông tin vào các mẫu từ các dữ liệu chưa biết trước trong miền được định nghĩa trước Mục tiêu của trích chọn thông tin là lấy từ

văn bản các thông tin nổi bật của các sự kiện, thực thể, các mối liên hệ Như vậy, có thể coi trích xuất thông tin là một kỹ nghệ lấy và biểu diễn tri thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu lớn trên Internet

Bài toán trích chọn thông tin trong văn bản có thể được phát biểu như sau:

- Đầu vào: dữ liệu văn bản bất kỳ

- Đầu ra: thông tin hữu ích dưới dạng có cấu trúc

1.2 TỔNG QUAN VỀ SỰ KIỆN

Trích chọn sự kiện với vai trò trích chọn ra các thông tin có ý nghĩa từ tập

dữ liệu lớn và được cộng đồng khoa học rất quan tâm và đầu tư nghiên cứu

Trang 12

2

Năm 1987, Message Understanding Conferences (MUC)6 được tổ chức với sự

hỗ trợ của Quỹ nghiên cứu Bộ quốc phòng Hoa Kỳ7 và lần đầu tiên khái niệm

event (sự kiện) được đề cập Sau đó, rất nhiều hội nghị được tổ chức tạo thành

dãy hội nghị MUC Với mỗi hội nghị, thông tin được quan tâm khác nhau nhưng đều có đặc điểm chung là chúng được trích xuất từ dữ liệu nói về khủng hoảng (crisis) Các chủ đề trong dữ liệu thường là tội phạm, khủng bố, đánh bom… một trong những đóng góp lớn của MUC là đưa ra việc trích chọn thông tin dựa trên mẫu (scenariotemplate) Các mẫu được ban tổ chức quy định và các đội tham gia cần điền thông tin vào các mẫu này một các tự động Cuối cùng, các sự kiện được trích chọn gồm các thông tin: tổ chức, đối tượng tham gia (người, sự vật, sự việc), thời gian, địa điểm, số lượng…Độ chính xác (precision) và hồi tưởng (recall) của các nghiên cứu tham dự MUC nằm trong khoảng 50% đến 60% [5]

Chương trình Phát hiện và theo dõi chủ đề (Topic Detection and Tracking, TDT)8 được tổ chức từ năm 1997 thu hút nhiều nhóm nghiên cứu từ các trường đại học tham gia Chương trình này được phối hợp bởi Viện Công nghệ và Chuẩn hoá quốc gia Hoa Kỳ (NIST) và DAPRA nhằm giải quyết bài toán phát hiện, theo dõi và xâu chuỗi sự kiện Một số nhóm nghiên cứu tham gia chương trình như sau: nhóm CMU của đại học Carnegie Mellon, nhóm BBN từ công ty BBN Technologies, nhóm DRAGON của công ty Dragon, nhóm UPENN của trường đại học Pennsylvania (UPENN) Các bài toán quan trọng của TDT gồm: Story Segmentation, Topic Tracking, Topic Detection, First Story Detection, và Link Detection

Chương trình Trích chọn nội dung tự động (Automatic Content Extraction, ACE) của đại học Pennsylvania cũng thu hút được nhiều quan tâm từ các cộng đồng nghiên cứu và trích chọn thông tin cũng như trích chọn sự kiện Chương trình này tập trung vào các ngôn ngữ như tiếng Anh, Trung Quốc và Ả rập Các thông tin được trích chọn gồm các thực thể, quan hệ giữa các thực thể, và các sự kiện chúng tham gia vào

Trang 13

3

Như vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự kiện nói riêng là một vấn đề quan trọng và thời đại, nhận được rất nhiều quan tâm từ cộng đồng khoa học Trong phần tiếp theo luận văn sẽ làm sáng tỏ định nghĩa sự kiện [1.2.1] và trích chọn sự kiện [1.2.2]

1.2.1 Định nghĩa sự kiện

Trích chọn sự kiện lần đầu tiên được giới thiệu như một chủ đề quan trọng trong Message Understanding Conference (MUC) năm 1987 [21] Trong MUC,

một sự kiện được định nghĩa như sau: “một sự kiện có tác nhân (actor), thời

gian (time), địa điểm (place) và tác động tới môi trường xung quanh”

Trong chương trình ACE, Dodington Deorge R và cộng sự đưa ra định

nghĩa sự kiện như sau: “một sự kiện là một hành động được tạo bởi những

người tham gia”[22] ACE chia sự kiện thành 8 loại khác nhau: LIFE (sự sống -

chết), MOVEMENT (sự di chuyển), TRANSACTION (giao dịch), BUSINESS (kinh tế), CONFLICT (xung đột), CONTACT (giao thiệp), PERSONNEL (nhận - đổi việc), JUSTICE (pháp lý) Mỗi dạng sự kiện lại phân biệt từng dạng con Ví dụ, LIFE có các dạng con như BE-BORN (chào đời), INJURE (bị thương), DIE (chết), hay PERSONAL có START-POSITION (vị trí khi nhận việc), END-POSITION (vị trí khi thôi việc), NOMINATE (bổ nhiệm), ELECT (bầu chọn),

Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có thể coi như một mẫu (template) gồm nhiều các thuộc tính (elements) Quá trình trích chọn sự kiện quan tâm tới việc làm thế nào có thể điền các thông tin phù hợp từ các văn bản gốc tương ứng từng thuộc tính

1.2.2 Trích chọn sự kiện

Trích chọn sự kiện và trích chọn thông tin có điểm gì chung? Có thể nói rằng trích chọn sự kiện là một lĩnh vực con của trích chọn thông tin Nếu như trích chọn thông tin chỉ quan tâm các dữ liệu rời rạc (tên người, địa điểm, các con số,…) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ

Trang 14

4

liên quan của thông tin trong một sự kiện Từ đó, người đọc có thể dễ ràng suy

luận ra các thông tin có ý nghĩa Ví dụ, “ngay sáng ngày 30/4, trên đường Xuân

Thuỷ, thủ đô Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người trên xe máy

bị thương nặng Nguyên nhân bước đầu được cho là do tài xế tắc-xi đã tăng tốc khi nhận điểm nên đã xô thẳng vào xe máy đi cùng chiều.” Trong ví dụ này,

trích chọn thông tin đưa ra các kết quả rời rạc như: 30/4, Hà Nội, 2 hoặc tắc xi; trong khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu diễn cho sự kiện gồm {30/4, Hà Nội, 2 người bị thương, tắc-xi} Rõ ràng, với tập dữ liệu trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc

Một cách tổng quát, có thể coi trích chọn sự kiện trong văn bản nhận đầu vào là các văn bản phi cấu trúc và đầu ra là tri thức được biểu diễn dưới dạng thông tin có cấu trúc Những thông tin này rất hữu ích cho việc khai thác dữ liệu như: thống kê, hệ thống giám sát, các hệ thống hỗ trợ ra quyết định Trích chọn

sự kiện có thể áp dụng cho một miền dữ liệu cụ thể như vụ tai nạn giao thông, thông tin các tour du lịch, bệnh dịch,… đồng thời đưa ra các thông tin xung quanh sự kiện đó thường bao gồm: Thời gian, địa điểm, số lượng, …

Theo Grishman và cộng sự, trích chọn sự kiện là một bài toán khó do vấn

đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trưng

dữ liệu [21] Dễ ràng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào NLP, cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER) Bên cạnh

đó, dữ liệu đầu vào của trích chọn sự kiện rất đa dạng nên sẽ ảnh hưởng tới tính hiệu quả của quá trình trích chọn

1.3 TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT 1.3.1 Bài toán trích chọn sự kiện vụ tai nạn

Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM) Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan

Trang 15

Bài toán trích chọn sự kiện vụ tai nạn được phát biểu như sau:

Đầu vào: bản tin bất ký trên báo điện tử

Đầu ra: trích chọn những thông tin của sự kiện vụ tai nạn (nếu có)

Bài toán trích chọn sự kiện vụ tai nạn được chia thành hai bài toán Bài toán thứ nhất, phát hiện sự kiện vụ tai nạn, đầu vào là bản tin bất kỳ trên báo điện tử, bài toán phải chỉ ra đâu là sự kiện vụ tai nạn Kết quả của bài toán phát hiện sự kiện sẽ là dữ liệu đầu vào cho bài toán trích chọn; thông tin được trích chọn trong sự kiện vụ tai nạn có thể là thời gian, địa điểm xảy ra tai nạn, số thương vong, phương tiện gây tai nạn, giờ (giờ nào trong ngày xảy ra tai nạn),

độ tuổi của người điều khiển phương tiện xảy ra tai nạn, giới tính, địa hình xảy

ra tai nạn,… Trong giới hạn đề tài, tác giả tập trung vào việc trích chọn ra bộ các thuộc tính như: (thời gian, địa điểm xảy ra tai nạn, số thương vong, phương tiện gây tai nạn)

Trang 16

6

1.3.2 Phát hiện sự kiện

Bài toán phát hiện sự kiện trả lời câu hỏi “làm thể nào để phát hiện được

một văn bản có chứa sự kiện vụ tai nạn” Tức là, cho trước đầu vào là văn bản,

làm thế nào để phát hiện văn bản đó có chứa sự kiện vụ tai nạn? theo Grishman

và cộng sự [13], phát hiện sự kiện là quá trình học không giám sát, tác giả sử dụng các từ khoá để quyết định một văn bản có chứa sự kiện dịch bệnh hay không Hai từ khoá được tác giả sử dụng là “outbreak of…” và “died from…” Theo Doan và cộng sự [14], bài toán phát hiện sự kiện có thể coi như quá trình học có giám sát Trong nghiên cứu của mình, tác giả sử dụng phương pháp để phân lớp các tài liệu Bộ phân lớp này dựa trên một tập các dữ liệu đã được gán nhãn Qua quá trình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào

có chứa sự kiện dịch bệnh hay không

Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan và cộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịch bệnh Do đó, có thể vận dụng phương pháp này cho việc phát hiện sự kiện vụ tai nạn giao thông cùng với việc xây dựng bộ từ khoá hoặc xây dựng một tập các dữ liệu đã được gán nhãn phù hợp cho sự kiện vụ tai nạn giao thông

1.3.3 Trích chọn sự kiện

Nhiệm vụ của bài toán trích chọn sự kiện phải trả lời câu hỏi “làm thế nào

để trích chọn các thuộc tính của một sự kiện” Có nhiều phương pháp cho việc

trích chọn sự kiên; trong đó phải kể đến phương pháp sử dụng luật (học không giám sát) được sử dụng từ rất sớm để giải quyết bài toán này[13] Quá trình trích chọn bằng phương pháp này thường được sử dụng các luật dựa vào quá trình khảo sát dữ liệu để trích ra các thuộc tính của một sự kiện

Phương pháp sử dụng học máy và các kỹ thuật NLP để giải quyết bài toán trích chọn sự kiện Quá trình này thường sử dụng Named Entity Recognition (NER) để lấy ra các thuộc tính cơ bản của sự kiện: thời gian, địa điểm, tên người,… sau đó kết hợp các thuộc tính này thành một sự kiện [14]

Trang 17

gồ ghề, đường cao tốc,…) Từ những thống kê trên có thể trực quan hoá trên bản

đồ những địa điểm nhạy cảm hay xảy ra tai nạn

Qua đó, cung cấp cho người dân có thêm kiến thức khi tham gia giao thông như: trong khoảng thời gian nào, trên quãng đường nào,… hay xảy ra ta nạn Điều đó có thể giúp người dân biết cách đề phòng tránh các nguy cơ có thể xảy

ra tai nạn

Ngoài ra, nó còn giúp người dùng muốn tìm kiếm thông tin liên quan đến

vụ tai nạn giao thông

Trang 18

8

Hơn thế nữa, kết quả của bài toán có thể giúp các nhà quản lý có cái nhìn khách quan tình trạng tai nạn giao thông, có biệm pháp phòng ngừa các vụ tai nạn như: sửa chữa nâng cấp cơ sở hạ tầng, có biệm pháp giáo dục ý thức người dân khi tham gia, đặt biển cảnh báo nơi nào có nguy cơ cao xảy ra tai nạn, cần phải giảm tốc độ, thận trọng quan sát đường trong khi tham gia giao thông… Ngoài ra, những con số thống kê từ việc trích chọn sự kiện vụ tai nạn Còn giúp các nhà quản lý so sánh quy mô mức độ nghiêm trọng của các vụ tai nạn trong từng khoảng thời gian với nhau, từ đó đưa ra bản đánh giá trung về sự phát triển của các vụ tai nạn theo chiều hướng nào

1.5 KẾT LUẬN

Trong chương này, luận văn đã trình bày cơ bản bài toán trích chọn sự kiện Trọng tâm của chương này trình bày những khái niệm cơ bản của bài toán trích chọn sự kiện nói chung và bài toán trích chọn sự kiện vụ tai nạn nói riêng Bên cạnh đó, chương này cũng đề cập tới hai bài toán cơ bản của trích chọn sự kiện vụ tai nạn, đó là bài toán phát hiện sự kiện và bài toán trích chọn sự kiên; đồng thời nêu ý nghĩa khoa học, ý nghĩa thực tiễn, những khó khăn khi giải quyết bài toán trích chọn sự kiện vụ tai nạn Trong chương 2, luận văn sẽ trình bày các phương pháp tiếp cận để giải quyết bài toán phát hiện sự kiện và trích chọn sự kiện vụ tai nạn

Trang 19

9

Chương 2 MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN

Theo nghiên cứu của Hogenbcom F và cộng sự [4] đã cung cấp một khảo sát dựa trên ba phương pháp cơ bản phù hợp cho bài toán trích chọn sự kiện trong văn bản Đó là các phương pháp: phương pháp dựa luật hay còn được gọi

là phương pháp dựa ttrên tri thức (knowledge - driven), phương pháp học máy hay còn được gọi là phương pháp dựa trên dữ liệu (data-driven), phương pháp kết hợp giữa hai phương pháp trên hay còn được gọi là phương pháp lai (hybrid)

Phương pháp thứ nhất dựa trên tri thức, thường sử dụng kiến thức chuyên gia miền để sinh ra tập luật (thường là chuyên gia về ngôn ngữ và chuyên miền

dữ liệu); đòi hỏi đọc dữ liệu và hiểu dữ liệu sau đó sinh ra tập luật Phương pháp thứ hai dựa trên dữ liệu, phương pháp này dựa trên tri thức từ một tập dữ liệu lớn để giải quyết bài toán trích chọn thông tin trong một sự kiện (thường sử dụng phương pháp thống kê và mô hình toán học) Điển hình cho phương pháp này là nhận dạng thực thể (NER) Tập luật này thường sử dụng để trích chọn thuộc tính của sự kiện Phương pháp cuối cùng, sử dụng kết giữa hai phương pháp trên

Trong chương này, tác giả sẽ trình bày phương pháp tiếp cận bài toán Trích chọn sự kiện vụ tai nạn giao thông bao gồm: phương pháp tiếp cận dựa trên luật (rule - base), phương pháp tiếp cận dựa trên học máy, phương pháp tiếp cận kết hợp luật và học máy Phần cuối tác giả sẽ có những nhận xét và đưa ra phương pháp giải quyết bài toán trong chương 3 Chi tiết của từng phương pháp

Trang 20

10

ngôn ngữ và chuyên gia miền dữ liệu); đòi hỏi đọc và hiểu dữ liệu sau đó sinh ra tập luật

2.1.1 Luật cú pháp (lexico-syntactic patterns)

Luật cú pháp, đôi khi còn được gọi là mẫu cú pháp (lexico-syntactic patterns) có thể coi là phương pháp sử dụng sớm trong bài toán trích chọn sự kiện Các mẫu này được sinh ra từ các chuyên gia miền (expert knowledge) dưới dạng tập luật (rules) [4] Điển hình cho phương pháp này là các luật được biểu diễn dưới dạng biểu thức chính quy (regular expression)

Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin cú pháp với các biểu thức chính quy Sau khi các biểu thức chính quy đã được xây dựng, các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầu vào để trích chọn ra các thông tin tương ứng của các thuộc tính Đôi khi, luật cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá Tập luật cú pháp được

sử dụng trong trích chọn sự kiện [7], [5], [6] Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tượng (object),

và hành vi (action) để biểu diễn một sự kiện được trích chọn từ blogs [10] Trong lĩnh vưc y sinh, Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xác định mối quan hệ và các sự kiện [16] Còn trong lĩnh vực tiền và chính trị Aone và cộng sự đã dùng luật cú pháp để trích chọn thông tin của sự kiện [24] Luật cú pháp xác định các tham số bên trong văn bản không xác định ý nghĩa văn bản

Khi sử dụng luật để trích chọn sự kiện, đôi khi phải trích chọn khái niệm có

ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn Do đó,

sử dụng luật cú pháp không đáp ứng được điều này Để giải quyết được điều này, phương pháp thường sử dụng trong (rule–based) là sử dụng luật ngữ nghĩa (lexico-semantic patterns) Chi tiết của luật ngữ nghĩa sẽ được trình bày trong mục [2.1.2]

Trang 21

11

2.1.2 Luật ngữ nghĩa (lexico-semantic patterns)

Đôi khi trích chọn sự kiện phải trích chọn các khái niệm có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn Do đó, để giải quyết được điều này, phương pháp thường sử dụng trong (rule–based) là sử dụng luật ngữ nghĩa Các luật ngữ nghĩa không đơn giản là các từ được biểu diễn dưới dạng biểu thức chính quy mà là các từ và mối quan hệ giữa chúng

Luật ngữ nghĩa được sử dụng với nhiều mục đích và nhiều lĩnh vực khác nhau Ví dụ như, Li Fang và cộng sự đã sử dụng luật nghữ nghĩa đề trích chọn thông tin từ sàn chứng khoán (stock market) [25]; Hay, Cohen và cộng sự [17]

sử dụng khái niệm bộ nhận dạng (recognizer) trên miền dữ liệu y sinh để trích chọn thông tin y sinh từ tập dữ liệu; Capet và các cộng sự sử dụng mẫu ngữ nghĩa đề trích chọn sự kiện cho hệ thống cảnh báo sớm [27]; còn Vargas-Vera

và Celjuska đề xuất một bộ khung (framework) cho việc nhận diện các sự kiện tập trung trên báo Knowledge Media Institute (KMI) [26]

Trích chọn sự kiện trong văn bản phi cấu trúc có thể được ứng dụng trong nhiều lĩnh vực như: tài chính, chứng khoán, y sinh, bản tin pháp luật… Có lẽ sẽ

là chưa đầy đủ nếu không đề cấp chi tiết hơn đến hình dạng và biểu diễn của tập luật trong trích chọn thực thể Điều này sẽ đươc trình bày tại mục [2.1.3]

2.1.3 Hình dạng và biểu diễn của tập luật (Form and Representation of Rules)

Theo tài liệu Information Extraction của Sunita Sarawagi [1], một luật cơ bản có dạng: "mẫu theo ngữ cảnh → hành động" Một mẫu theo ngữ cảnh báo gồm một hoặc nhiều mẫu nhãn ghi lại thuộc tính của một hoặc nhiều thực thể và bối cảnh xuất hiện trong văn bản Một mẫu được gán nhãn là so khớp một biểu thức chính quy được xác định qua các tính năng của thẻ trong văn bản và một nhãn tuỳ chọn Các thuộc tính có thể được chỉ ra là thuộc tính của thẻ hoặc ngữ cảnh hoặc các văn bản trong các thẻ xuất hiện

Trang 22

12

Hầu hết các hệ thống dựa trên luật được liên tầng; luật được áp dụng trong nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với một chú thích như là tính năng đầu vào cho các giai đoạn tiếp theo Ví dụ, một trích chọn cho các địa chỉ liên lạc của người được tạo ra trong hai giai đoạn của luật: giai đoạn thứ nhất nhãn thẻ cùng với nhãn thực thể như: tên người, vị trí địa lý như tên đường, tên thành phố, và địa chỉ thư điện tử Giai đoạn thứ hai, xác định khối địa chỉ cùng với đầu ra của giai đoạn thứ nhất như là thuộc tính bổ sung

1/ Các thuộc tính của các thẻ (Features of Tokens)

Mỗi một thẻ trong một câu thường được kết hợp cùng với tập thuộc tính thu được thông qua một hoặc nhiều các tiêu chí sau:

- Các chuỗi đại diện cho thẻ

- Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗn hợp,

số, ký hiệu đặc biệt, dấu cách, dấu chấm câu, …

- Các phần phát biểu (part of speech) của thẻ

- Danh sách xuất hiện các thẻ của từ điển Thông thường, điều này có thể được tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắt đầu, kết thúc, hoặc từ giữa của từ điển Ví dụ, một thẻ như " New " phù hợp với từ đầu tiên của từ điển với tên thành phố, tên sẽ được liên kết với một thuộc tính

"Dictionary - Lookup = start of city "

- Chú thích kèm theo các bước xử lý trước đó

Luật để xác định một thực thể đơn (Rules to Identify a Single Entity):

Luật để nhận ra một thực thể đơn đầy đủ bao gồm ba loại mẫu

- Một mẫu tùy chọn ghi lại bối cảnh trước khi bắt đầu của một thực thể

- Một mẫu kết hợp các thẻ trong các thực thể

- Một mẫu tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực thể

Trang 23

13

Ví dụ về một mẫu để xác định tên người có dạng "Dr Yair Weiss" bao gồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa các mục như : “Prof ”, “Dr”, “Mr” ), một dấu chấm, và hai từ viết hoa là

({Dictionary - Lookup = Titles}{String = “.”}{Orthography type

=capitalized word}{2})→Person Names

Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ được theo sau cùng với số tùy chọn và chỉ ra số lần lặp lại của thẻ.Ví dụ về một luật

để đánh dấu tất cả số đi sau các giới từ "by" và "in" là thực thể năm: (String=“by”|String=“in”})({Orthography type = Number}):y→Year=:y Có hai mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện của các thực thể năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành " year" Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The XYZ Corp.” or “ABC Ltd.” được tạo bởi:

({String=“The”}? {Orthography type = All capitalized}{Orthography type

= Capitalized word, DictionaryType =Company end})→Company name

2/ Các luật đánh dấu ranh giới thực thể (Rules to Mark Entity Boundaries)

Đối với một số loại thực thể, trong các đơn vị dài đặc biệt như tiêu đề cuốn sách, nó là hiệu quả hơn để xác định các luật đặc biệt để đánh dấu sự bắt đầu và kết thúc một ranh giới thực thể Đó là loại bỏ một cách độc lập và tất cả các thẻ

ở trong giữ hai thẻ đánh dấu đầu và cuối được gọi là thực thể Nhìn nhận vấn đề theo một cách khác, mỗi luật cơ bản dẫn đến sự chèn của một đơn Thẻ SGML trong văn bản mà các thẻ này có thể là một thẻ bắt đầu hoặc một thẻ kết thúc Để giải quyết sự không nhất quán khi có hai thực thể bắt đầu đánh dấu trước và chỉ một thực thể đánh dấu kết thúc, điều này cần có một cách giải quyết đặc biệt Ví

dụ, một quy tắc để chèn một thẻ <journal>, để đánh dấu sự bắt đầu của một tên tạp chí trong một bản trích dẫn:

({String=“to”} {String=“appear”} {String=“in”}):jstart

Trang 24

3/ Các luật cho đa thực thể (Rules for Multiple Entities)

Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại diện cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận của nhiều đối tượng cùng một lúc Những luật này được sử dụng tốt hơn cho bản ghi dữ liệu theo định hướng Ví dụ, hệ thống dựa trên luật WHISK [18] đã được nhắm tới cho việc khai thác từ hồ sơ có cấu trúc như hồ sơ y tế , các bản ghi bảo trì thiết

bị, và phân loại quảng cáo Các luật này được viết lại từ [18], để trích chọn hai thực thể, số lượng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn hộ ({Orthography type = Digit}):Bedrooms ({String =“BR”})({}*)

({String =“$”})({Orthography type = Number}):Price→Number

of Bedrooms =:Bedroom, Rent =: Price

4/ Chọn lựa hình dạng của tập luật (Alternative Forms of Rules)

Có nhiều hệ thống dựa trên luật state-of-the-art cho phép các chương trình tùy ý viết bằng ngôn ngữ thủ tục như Java và C + + thay cho cả hai thành phần mẫu và phần hành vi của các luật Ví dụ, GATE[19] hỗ trợ các chương trình Java thay cho ngôn ngữ hình thức các luật tùy chỉnh của nó được gọi là JAPE trong hoạt động của một luật Đây là một khả năng mạnh mẽ bởi vì nó cho phép phần hành vi của các quy tắc để truy cập các thuộc tính khác nhau mà được sử dụng trong phần mẫu của các quy tắc và được sử dụng để chèn các trường mới cho chuỗi chú thích Ví dụ, phần hoạt động có thể dẫn đến chèn các dạng chuẩn của một chuỗi trong từ điển Các trường mới có thể được xem như các thuộc tính bổ sung cho một luật trong các đường lấy tin riêng Tương tự, trong các công thức Prolog-based từ [20] thì bất kỳ mã thủ tục nào cũng có thể được thay thế như là so khớp mẫu cho bất kỳ tập hợp con của các loại thực thể

Trang 25

15

Nhìn chung, trong các hệ thống tri thức (knowledge systems), ban đầu thường được sử dụng phương pháp tiếp cận dựa trên luật (rule-based) Ưu điểm của phương pháp này, thứ nhất, cần sử dụng ít dữ liệu huấn luyện hơn phương pháp tiếp cận dựa trên dữ liệu Thứ hai, phương pháp này có thể xây dựng các biểu thức chính quy tốt cho trích chọn thông dựa trên cú pháp, từ vưng, và các thành phần ngữ nghĩa Phương pháp tiếp cận dựa trên luật phù hợp với bài toán

trích chọn các thông tin về thời gian (“rạng sáng hôm qua”, “giữa trưa hôm

nay”) Phương pháp này cho độ chính xác rất cao (do được xây dựng để lấy ra

các thông tin đặc biệt), độ hồi tưởng thấp Do đó phương pháp này rất thích hợp cho các bài toán chỉ quan tâm đến độ chính xác

Bên cạnh những ưu điểm, phương pháp tiếp cận dựa trên luật còn có những nhược điểm Khi sử dụng phương pháp này đòi hỏi người xây dựng đóng vai trò như chuyên gia miền dữ liệu, cần phải rất am hiểu dữ liệu, người xây dựng phải

có kiến thức về ngôn ngữ, tự vựng, và cú pháp Hơn nữa, tập luật thường được xây dựng để lấy ra các thông tin đặc biệt, dó đó khi thay đổi sang miền dữ liệu khác thì lại phải xây dựng tập luật cho phù hợp Việc xây dựng tập luật đôi khi rất tốn thời gian và chi phí

2.2 PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY

Phương pháp này đôi khi còn được gọi với tên là tiếp cận dựa trên dữ liệu (data-driven) Phương pháp tiếp cận dựa trên học máy thường được sử dụng cho các ứng dụng xử lý ngôn ngữ tự nhiên và tập dữ liệu huấn luyện lớn để huấn luyện cho phù hợp với các hiện tượng ngôn ngữ [9] Phương pháp này thường dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin (information theory), và đại số tuyến tính (linear algebra) Một số cách tiếp cận

cơ bản thường được sử dụng là Term Frequency - Inverse Document Frequency (TF-IDF), n-grams hay phân cụm

Có rất nhiều ví dụ về áp dụng phương pháp tiếp cận dựa trên dữ liệu để trích chọn thông tin trong các sự kiện Năm 2009, Okamoto và cộng sự [9]

Trang 26

sự kiện có ý nghĩa từ các thông tin hàng ngày Các kỹ thuật phân cụm cũng được

sử dụng bởi Tanev và cộng sự [13] để trích chọn các sự kiện bạo lực và thảm hoạ cho hệ thống giám sát

Cách tiếp cận dựa trên dữ liệu (data - driven) không đòi hỏi người xây dựng cần đến các kiến thức về ngôn ngữ và chuyên gia miền Nhưng phương pháp này lại đòi hỏi một lượng dữ liệu lớn để làm tập huấn luyện Phương pháp tiếp cận dựa trên dữ liệu cần xây dựng xác suất để xấp sỉ mô hình huấn luyện với dữ liệu Phương pháp này có những ưu điểm Ưu thứ nhất, cách tiếp cận này không cần có sự tham gia của các chuyên gia về ngôn ngữ và chuyên gia miền

Ưu thứ hai, các mô hình sau khi huấn luyện có thể sử dụng với các miền dữ liệu khác nhau

Tuy thế, cách tiếp cận dựa trên dữ liệu cũng có những nhược điểm Thứ nhất, trong các bài toán trích chọn sự kiện, phương pháp tiếp cận dựa trên dữ liệu không giải quyết được các vấn đề có liên quan đến ngữ nghĩa (ví dụ, phương pháp này chỉ phát hiện các quan hệ trong tập dữ liệu mà không giải quyết được các vấn đề ngữ nghĩa) Thứ hai, phương pháp này cần một lượng dữ liệu lớn để huấn luyện mô hình Trong một số trường hợp, việc gán nhãn dữ liệu tốn thời gian và chi phí Thứ ba, do phương pháp tiếp cận dựa trên dữ liệu được xây dựng trên các mô hình xác suất thống kê, do đó, trong một số trường hợp nếu quá trình làm dữ liệu huấn luyện không tốt dẫn đến kết quả của quá trình trích chọn không cao

Trang 27

17

2.3 PHƯƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY

Phương pháp tiếp cận kết hợp luật và học máy (lai - hybrid) thường được

sử dụng trong các bài toán trích chọn sự kiện Hầu hết các hệ thống dựa trên tri thức (knowledge - driven) được bổ sung bởi các phương thức dựa trên dữ liệu (data - driven), do vậy nó có thể giải quyết được các khuyết điểm của phương pháp dựa trên tri thức Ví dụ, Piskorski và cộng sự [12] đã sử dụng các kỹ thuật bootstrapping cho hệ thống trích chọn các sự kiện liên quan tới bạo lực từ các bản tin trực tuyên với độ chính xác và độ hồi tưởng cao

Morik [8] kết hợp các luật ngữ nghĩa với Conditional Random Fields (CRFs) được biểu diễn như đồ thị vô hướng để trích chọn các sự kiện từ phiên họp toàn thể của nghị viện Đức Ở đây, tác giả đã giải quyết hạn chế của thuật toán học có giám sát với các cụm Lee và cộng sự [8] sử dụng ontology mờ (ontology-based fuzzy) để trích chọn sự kiện từ các bản tin tiếng Trung Quốc Tác giả đã sử dụng thống kê dựa trên ngữ pháp (grammar-based statistical) và gán nhãn từ loại (part-of-speech tagging) Chun và cộng sự [3] trích chọn các sự kiện y sinh bằng cách sử dụng các luật cú pháp kết hợp với đồng tham chiếu(co-occurrences) Như vậy phương pháp này có thể được coi là phương pháp lai Trong luận văn, tác giả sử dụng phương pháp kết hợp luật và học máy vì các lý do sau: Thứ nhất, để phân lớp dữ liệu thuộc miền tai nạn giao thông với

dữ liệu đầu vào lớn, cách thích hợp hơn cả là dùng luật cú pháp để lọc, bước làm này giảm đáng kể số lượng dữ liệu đầu vào cho quá phát hiện sự kiện Thứ hai, trong bốn thông tin của sự kiện vụ tai nạn: thời gian, địa điểm, số thương vong,

và loại phương tiện gây tai nạn Đặc biệt thông tin về thời gian, số thương vong,

và loại phương tiện gây tai nạn Đôi khi những thông tin này được đề cập không

rõ ràng thiếu chi tiết ví dụ “vào giữa trưa”, “đúng lúc tan tầm” hay “2 người

thiệt mạng”, “làm chết 1 người” hay “xe khách đâm vào xe tải”; do đó tác giả

sử dụng luật ngữ nghĩa để trích chọn ra các thông tin này Lý do thứ 3, tác giả sử dụng phương pháp lai đó là trong hệ thông có chức năng phân lớp và nhận dạng

Trang 28

18

thực thể mà các yêu cầu này được thực hiện tốt bởi phương pháp xác suất thống

kê dựa trên dữ liệu

2.5 TỔNG KẾT

Trong chương này, tác giả đã trình bày một số phương pháp tiếp cận bài toán và đã chỉ ra một số ưu nhược điểm của từng phương pháp Cuối cùng, tác giả nhận ra rằng sử dụng phương tiếp cận kết hợp luật và học máy để giải quyết bài toán trích chọn sự kiện vụ tai nạn là phù hợp Phát biểu bài toán, mô hình, phương pháp giải quyết bài toán sẽ được trình bày chi tiết trong chương 3

Trang 29

19

Chương 3 ĐỀ XUẤT MÔ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN

Trong chương này, tác giả tập trung phân tích làm rõ bài toán trích chọn sự kiện vụ tai nạn Tìm hiểu các đặc tính của sự kiện vụ tai nạn; pháp biểu bài toán,

đề xuất mô hình, cách giải quyết chi tiết hai bài toán quan trọng trong luận văn

là bài toán phát hiện sự kiện vụ tai nạn và bài toán trích chọn sự kiện vụ tai nạn

3.1 CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN

Quá trình kháo sát trên miền dữ liệu là thông tin vụ tai nạn chỉ ra rằng trong quá trình phát hiện sự kiện vụ tai nạn cần phải phân biệt rõ đâu là thông tin vụ tai nạn giao thông, đâu là thông tin tai nạn giao thông Thông tin vụ tai nạn giao thông là cái mà luận văn quan tâm trong bài toán trích chọn sự kiện vụ tai nạn,

ví dụ như “sáng ngày 25/5 một vụ tai nạn thảm khốc đã xảy ra trên quốc lộ

1A”; còn thông tin tai nạn giao thông như tiêu đề bài báo “làm thế nào để giảm thiểu số vụ tai nạn giao thông”, hay “sốc về con số thiệt mạng do tai nạn trong nửa đầu năm 2014” thì đây không phải thông tin vụ tai nạn giao thông mà chỉ là

thông tin tai nạn giao thông

Cũng qua khảo sát trên miền dữ liệu thông tin vụ tai nạn chỉ ra rằng một sự kiện vụ tai nạn có thể chứa thời gian xảy ra tai nạn, địa điểm, số thương vong, phương tiện gây tai nạn, nguyên nhân của vụ tai nạn, độ tuổi của người điều khiển phương tiện, vụ tai nạn xảy ra vào thời gian nào trong ngày… Trong số các thông tin đó thì thông tin về thời gian, địa điểm, số thương vong, phương tiện gây tai nạn được đặc biệt quan tâm và cũng là các thông tin sẽ được trích chọn trong sự kiện vụ tai nạn

3.2 PHÁT BIỂU BÀI TOÁN

Bài toán trích chọn sự kiện trong văn bản bản tin Tiếng Việt Trong luận văn, tác giả sẻ tập trung vào giải quyết bài toán trích chọn sự kiện trong bản tin

vụ tai nạn giao thông (từ nay sẽ được gọi là trích chọn sự kiện vụ tai nạn) Tác giả muốn nhấn mạnh là sự kiện vụ tai nạn để phân biệt với các thông tin về tai nạn giao thông nhưng không phải bản tin vụ tai nạn giao thông (ví dụ, bản tin

Trang 30

20

về buổi thảo luận làm thế nào để giảm thiểu tai nạn giao thông) Trong chương này, tác giả tập trung vào giải quyết bài toán trích chọn thông tin vụ tai nạn giao thông từ văn bản tin tức tiếng Việt, lấy từ các trang báo điện tử Việt Nam Trích

ra thông tin về sự kiện vụ tai nạn như thời gian xảy ra vụ tai nạn, địa điểm xảy ra tai nạn, số thương vong (số tử vong và số bị thương), phương tiện gây tai nạn,

độ tuổi của người gây tai nạn, địa hình gây tai nạn, nguyên nhân của vụ tai nạn… từ các văn bản phi cấu trúc Bài toán được phát biểu như sau:

Đầu vào: một bản tin trên báo điện tử

Đầu ra: bản tin ở đầu vào có phải sự kiện vụ tai nạn giao thông không, nếu

có thì trích chọn ra thông tin về vụ tai nạn giao thông

Thông tin trong một bản tin vụ tai nạn giao thông (từ nay gọi là bản tin vụ

tai nạn) được định nghĩa là một bộ E gồm bốn thành phần, đó là: Thời gian, địa

điểm, số thiệt hại, phương tiện gây tai nạn Một cách hình thức E được định nghĩa như sau:

E=<thời gian, địa điểm, số thiệt hại, phương tiện gây tai nạn> (3.1)

Thời gian: là thời gian xảy ra vụ tai nạn

Địa điểm: là địa điểm xảy ra vụ tai nạn

Số thương vong: là số nạn tử vong, số người bị thương Số thiệt hại có thể

là danh sách gồm có 2 trường là số thương vong và số tử vong Ví dụ, “ xế hộp

do say rượu đã đâm trực tiếp vào nhà người dân, làm cho 2 người bị thương nặng, tài xế chết ngay tại chỗ” Thông tin số thương vong được trích ra dưới

dạng danh sách:

số tử vong số thương vong

Ví dụ khác, “xe khách đâm thẳng vào xe tải đỗ bên đường, làm 3 hành

khách bị thương” Thông tin được trích ra dưới dạng danh sách:

Ngày đăng: 25/03/2015, 10:23

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India Sách, tạp chí
Tiêu đề: Information Extraction
Tác giả: Sunita Sarawagi
Năm: 2008
[2] Douglas E. Appelt. Introduction to information extraction technology. In Tutorial held at IJCAI-99, Stockholm, Sweden, 1999 Sách, tạp chí
Tiêu đề: In Tutorial held at IJCAI-99, Stockholm, Sweden
[3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim. Unsupervised event extraction from biomedical literature using co-occurrence information and basic patterns. In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004). Lecture Notes in Computer Science. Springer- Verlag Berlin Heidelberg, vol. 3248:777 786, 2004 Sách, tạp chí
Tiêu đề: In: 1st International Joint Conference on Natural Language Processing
[4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong. An overview of event extraction from text. Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011), 779:pp. 48 57, 2011.10 Sách, tạp chí
Tiêu đề: Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011)
[5] M.A Hearst. Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on Computational Linguistics (COLING 1992), vol.2:539 545, 1992 Sách, tạp chí
Tiêu đề: In: "14th Conference on Computational Linguistics (COLING 1992)
[6] M.A Hearst. Wordnet: An electronic lexical database and some of its applications. In Automated Discovery of WordNet Relations, pp. 131 151. MIT Press, 1998 Sách, tạp chí
Tiêu đề: In Automated Discovery of WordNet Relations, pp. 131 151. MIT Press
[7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar. Semi-automatic financial events discovery based on lexico-semantic patterns. International Journal of Web Engineering and Technology, 6(2):115 140, 2010 Sách, tạp chí
Tiêu đề: International Journal of Web Engineering and Technology

HÌNH ẢNH LIÊN QUAN

Hình 3.1: Quá trình phát hiện và trích chọn sự kiện vụ tai nạn - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Hình 3.1 Quá trình phát hiện và trích chọn sự kiện vụ tai nạn (Trang 32)
Hình 3.2 Thành phần phát hiện sự kiện  3.4.1.2. Xây dựng tập luật - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Hình 3.2 Thành phần phát hiện sự kiện 3.4.1.2. Xây dựng tập luật (Trang 34)
Hình 3.3 Tiêu đề bản tin có chứa từ liên quan phương tiện giao thông - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Hình 3.3 Tiêu đề bản tin có chứa từ liên quan phương tiện giao thông (Trang 35)
Hình 3.4 Tiêu đề không chứa các từ liên quan đến phương tiện giao thông - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Hình 3.4 Tiêu đề không chứa các từ liên quan đến phương tiện giao thông (Trang 36)
Hình 3.5. Thành phần trích chọn sự kiện - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Hình 3.5. Thành phần trích chọn sự kiện (Trang 40)
Bảng 4.2. Công cụ phần mềm sử dụng - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Bảng 4.2. Công cụ phần mềm sử dụng (Trang 46)
Bảng 4.1 Cấu hình phần cứng - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Bảng 4.1 Cấu hình phần cứng (Trang 46)
Bảng 4.3. Các thành phần của một bản tin - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Bảng 4.3. Các thành phần của một bản tin (Trang 47)
Bảng 4.5. Đánh giá kết quả phân lớp - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Bảng 4.5. Đánh giá kết quả phân lớp (Trang 49)
Bảng 4.7. Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp. - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Bảng 4.7. Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp (Trang 51)
Hình 4.1. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Hình 4.1. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông (Trang 52)
Bảng 4.8  Một số lỗi -  trong quá trình trích chọn - Trích chọn sự kiện trong văn bản tin tức tiếng Việt
Bảng 4.8 Một số lỗi - trong quá trình trích chọn (Trang 53)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w