Trích chọn sự kiện có thể áp dụng cho một miền dữ liệu cụ thể như các vụ tai nạn giao thông, dịch bệnh, các tour du lịch...và có nhiều ứng dụng trong các lĩnh vực khác nhau của đời sống
Trang 1i
LỜI CAM ĐOAN
Tác giả Phùng Chí Quốc xin cam đoan giải pháp trích chọn sự kiện trong văn bản tin tức tiếng Việt được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Long Giang
Tác giả đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tê Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn
Thái Nguyên, ngày 28 tháng 6 năm 2016
Tác giả
Phùng Chí Quốc
Trang 2ii
LỜI CẢM ƠN
Trước tiên, em xin được gửi lời cảm ơn và lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Long Giang đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện luận văn tốt nghiệp
Em xin bày tỏ lòng biết ơn đến các thầy cô trong trường Trường Đại học Công nghệ thông tin & Truyền thông – Đại học Thái Nguyên đã tận tình giảng dạy, truyền đạt những kiến thức làm nền tảng để nghiên cứu hoàn thành luận văn tốt nghiệp và còn giúp em ứng dụng những kiến thức đó trong công việc hiện tại
Em xin gởi lời cảm ơn tới những người bạn thân yêu, đặc biệt là các bạn trong lớp K13E đã đoàn kết, động viên, giúp đỡ em hoàn thành luận văn tốt nghiệp cũng như vượt qua những khó khăn trong học tập
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh: quan tâm; động viên tôi trong suốt quá trình học tập
và thực hiện luận văn tốt nghiệp này
Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song chắc chắn luận văn của em vẫn còn nhiều thiếu sót Em rất mong nhận được
sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được hoàn thiện hơn
Thái Nguyên, ngày 28 tháng 6 năm 2016
Tác giả
Phùng Chí Quốc
Trang 3iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC BIỂU ĐỒ vi
DANH MỤC CÁC HÌNH vii
MỞ ĐẦU 2
1.1 Sự cần thiết lựa chọn đề tài 2
1.2 Mục tiêu đề tài 3
1.3 Đối tượng và phạm vi nghiên cứu 3
1.4 Phương pháp nghiên cứu 3
1.5 Cấu trúc của luận văn 3
Chương 1 TỔNG QUAN VỀ TRÍCH CHỌN THÔNG TIN 5
1.1 Bài toán trích chọn thông tin trong văn bản (IE) 5
1.2 Các khái niệm cơ bản về sự kiện và trích chọn sự kiện (EE) 6
1.2.1 Định nghĩa sự kiện 7
1.2.2 Trích chọn sự kiện 8
1.3 Ý nghĩa khoa học và thực tiễn của bài toán trích chọn sự kiện tai nạn giao thông 9
1.3.1 Ý nghĩa khoa học 9
1.3.2 Ý nghĩa thực tiễn 9
1.4 Kết luận 10
Chương 2 CÁC PHƯƠNG PHÁP TRÍCH CHỌN SỰ KIỆN VÀ TIÊU CHUẨN ĐÁNH GIÁ THUẬT TOÁN 12
2.1 Các phương pháp dựa trên tập luật (rule-based) 13
2.1.1 Luật cú pháp (lexico-syntactic patterns) 13
2.1.2 Luật ngữ nghĩa (lexico-semantic patterns) 14
2.1.3 Hình dạng và biểu diễn của tập luật (Form and Representation of Rules) 15
2.2 Phương pháp tiếp cận dựa trên học máy 19
2.3 Các phương pháp kết hợp luật và học máy 20
Trang 4iv
2.4 Tiêu chuẩn đánh giá thuật toán 21
2.5 Kết luận 23
Chương 3 LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG 24
3.1 Bài toán trích chọn sự kiện các vụ tai nạn giao thông 24
3.1.1 Phát biểu bài toán 25
3.1.2 Phát hiện sự kiện 27
3.1.3 Trích chọn sự kiện 27
3.2 Lựa chọn phương pháp giải quyết bài toán trích chọn sự kiện tai nạn giao thông 28
3.2.1 Lựa chọn phương pháp giải quyết bài toán 28
3.2.2 Mô hình phát hiện và trích chọn sự kiện vụ tai nạn 29
3.2.4 Giải quyết bài toán phát hiện sự kiện vụ tai nạn (pha 1) 31
3.2.5 Giải quyết bài toán trích chọn sự kiện vụ tai nạn (Pha 2) 35
3.3 Đánh giá thuật toán 41
3.4 Kết luận 42
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 43
4.1 Bài toán trích chọn sự kiện 43
4.2 Môi trường và các công cụ thự nghiệm: 43
4.2.1 Về phần cứng: 43
4.2.2 Về công cụ phần mềm sử dụng để thử nghiệm: 44
4.3 Xây dựng cơ sở dữ liệu 45
4.3.1 Bảng dữ liệu lưu trữ các website 45
4.3.2 Bảng dữ liệu lưu trữ các bản tin chứa thông tin về sự kiện vụ tai nạn giao thông sau khi qua bộ lọc dữ liệu 45
4.3.3 Bảng dữ liệu lưu trữ chi tiết các thuộc tính của các vụ tai nạn 45
4.4 Các bước thử nghiệm bài toán 46
4.5 Thử nghiệm quy trình trích chọn thông tin 46
4.5.1 Thu thập dữ liệu: 46
4.5.2 Lọc dữ liệu: 48
4.5.3 Trích chọn thông tin sự kiện về tai nạn giao thông 49
Trang 5v
4.6 Đánh giá kết quả thực nghiệm 51
4.6.1 Đánh giá quá trình lọc dữ liệu: 51
Kết quả cho thấy độ chính xác của chức năng lọc dữ liệu là 81.4% Tuy nhiên vẫn có những bản tin chứa sự kiện tai nạn giao thông nhưng bị bỏ qua Nguyên nhân của quá trình này sẽ được trình bày trong mục 4.6 phân tích lỗi 51
4.6.2 Đánh giá quá trình trích chọn sự kiện 51
4.7 Phân tích lỗi: 52
4.7.1 Phân tích lỗi trong pha phát hiện sự kiện – quá trình lọc dữ liệu 52
4.7.2 Phân tích lỗi quá trình trích chọn sự kiện 54
4.8 Một số ứng dụng kết quả trích chọn thông tin: 55
4.8.1 Thống kê số vụ tai nạn giao thông theo địa điểm 55
4.8.2 Thống kế số vụ tai nạn giao thông theo Tháng 57
4.8.3 Thống kê số vụ tai nạn giao thông theo phương tiện 58
4.8.4 Đánh giá chung 59
4.9 Kết luận 60
KẾT LUẬN 61
1 Những kết quả chính của luận văn 61
2 Một số hạn chế 61
3 Định hướng tương lai 62
TÀI LIỆU THAM KHẢO 63
Trang 6vi
DANH MỤC CÁC BẢNG
Bảng 3.1 Phương tiện giao thông 33
Bảng 4.1 Cấu hình hệ thống phần cứng thực nghiệm 44
Bảng 4.2 Công cụ phần mềm sử dụng có sẵn 44
Bảng 4.3 Độ chính xác của chức năng lọc dữ liệu 51
Bảng 4.4 Đánh giá quá trình trích chọn thông tin vụ tai nạn giao thông 52
Bảng 4.5 Một số lỗi trong quá trình trích chọn 555
Bảng 4.6 Thống kê số vụ tai nạn giao thông theo tỉnh 566
DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 4.1 Thống kê số vụ tai nạn theo địa điểm 56
Biểu đồ 4.2 Biểu đồ thống kê số vụ tai nạn giao thống kê theo Tháng 57
Biểu đồ 4.3 Thống kê theo phương tiện gây tai nạn giao thông 599
Trang 7vii
DANH MỤC CÁC HÌNH
Hình 3.1 Quá trình phát hiện và trích chọn sự kiện vụ tai nạn 30
Hình 3.2 Mô hình làm việc của bộ thu thập dữ liệu 31
Hình 3.3 Thành phần phát hiện sự kiện 32
Hình 3.4 Thành phần trích chọn sự kiện 36
Hình 4.1 Thu thập dữ liệu từ http://www.24h.com.vn/tai-nan-giao-thong/ 47
Hình 4.2 Thu thập dữ liệu từ http://antoangiaothong.gov.vn/ 47
Hình 4.3 Kết quả lọc các bản tin có chứa thông tin về tai nạn giao thông 49
Hình 4.4 Kết quả phát hiện sự kiện tai nạn 50
Hình 4.5 Giao diện trích chọn thông tin sự kiện tai nạn 50
Hình 4.6 Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông 53
Hình 4.7 Lỗi bộ lọc khi dữ liệu thuộc miền tai nạn giao thông nhưng bị loại 53
Trang 82
MỞ ĐẦU
1.1 Sự cần thiết lựa chọn đề tài
Trích chọn thông tin (Information Extraction - IE) là một lĩnh vực quan trọng trong khai phá dữ liệu và học máy (Data mining and machine learning)
có nhiều ứng dụng trong thực tiễn với mục tiêu là trích lọc các thông tin có định dạng và hữu ích từ các nguồn dữ liệu lớn trên Internet [1, 2] Trích chọn
sự kiện (Event Extraction – EE) là bài toán con của trích chọn thông tin với mục tiêu là trích lọc ra các sự kiện từ các nguồn số liệu Đầu vào của trích chọn sự kiện là các văn bản lấy từ nhiều nguồn số liệu khác nhau như văn bản tin tức, mạng xã hội đầu ra là các tri thức biểu diễn dưới dạng thông tin có cấu trúc Những thông tin nay rất hữu ích cho việc khai thác dữ liệu như thống kê, giám sát, hỗ trợ ra quyết định Trích chọn sự kiện có thể áp dụng cho một miền dữ liệu cụ thể như các vụ tai nạn giao thông, dịch bệnh, các tour
du lịch và có nhiều ứng dụng trong các lĩnh vực khác nhau của đời sống xã hội như kinh tế, văn hóa, y tế, giáo dục…[3, 4, 5, 6, 7, 8]
Một trong những ứng dụng quan trọng của trích chọn sự kiện là trích chọn các sự kiện về các vụ tai nạn giao thông của các trang báo điện tử trên Internet Theo những con số thống kê trên các trang báo điện tử về số vụ tai nạn giao thông hàng năm (http://binhduong.gov.vn, http://hanoimoi.com.vn),
năm 2012 cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết 9.838 người,
bị thương 38.060 người; năm 2013 cả nước đã xảy ra 29.385 vụ tai nạn giao thông, làm chết 9.369 người, bị thương 29.500 người Từ các con số thống kê
về tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thương vong là rất lớn Mặt khác, bản tin
vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử,
do đó nguồn thông tin rất đa dạng, phong phú Việc ứng dụng các phương
Trang 93 pháp trích chọn sự kiện để trích chọn các thông tin về các vụ tai nạn giao thông là nhu cầu cấp thiết nhằm trích chọn thông tin hữu ích từ các bản tin vụ tai nạn Kết quả của quá trình này sẽ được phân tích, thống kê thành các con
số hữu ích giúp các nhà quản lý điều hành, ra các chính sách giao thông hợp
lý nhằm giảm thiểu tai nạn giao thông và góp phần nâng cao ý thức của người dân trong việc tham gia giao thông Do đó, học viên chọn đề tài luận văn thạc
sỹ “Trích chọn sự kiện tai nạn giao thông trong văn bản tin tức tiếng Việt”
1.2 Mục tiêu đề tài
Tìm hiểu các phương phương pháp trích chọn thông tin và xây dựng
mô hình giải quyết bài toán trích chọn sự kiện tai nạn giao thông trong văn bản tin tức tiếng Việt
1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là các phương pháp tiếp cận giải quyết bài toán trích chọn thông tin trong văn bản tiếng Việt và các trang thông tin điện tử tiếng Việt trên mạng Internet về sự kiện vụ tai nạn giao thông
Phạm vi nghiên cứu của đề tài là bài toán trích chọn sự kiện tai nạn giao thông trong văn bản tin tức tiếng Việt
1.4 Phương pháp nghiên cứu
Nghiên cứu các kết quả đã công bố trong lĩnh vực trích chọn thông tin (IE) và trích chọn sự kiện (EE), bài toán trích chọn sự kiện tai nạn giao thông
Phân tích, tổng hợp, đánh giá các kết quả
Phân tích lý thuyết và xây dựng chương trình để thử nghiệm bài toán trích chọn sự kiện tai nạn giao thông
1.5 Cấu trúc của luận văn
Cấu trúc luận văn gồm: mở đầu, bốn chương chính, kết luận và tài liệu
Trang 104 tham khảo
Phần mở đầu: Lý do chọn đề tài và bố cục luận văn
Chương 1: Giới thiệu tổng quan bài toán trích chọn thông tin và một số
lĩnh vực nghiên cứu liên quan
Chương 2: Trình bày một số phương pháp tiếp cận bài toán và chỉ ra
một số ưu nhược điểm của từng phương pháp
Chương 3: Tập trung vào bài toán trích chọn sự kiện các vụ tai nạn giao
thông: tìm hiểu các đặc tính của sự kiện vụ tai nạn; pháp biểu bài toán, đề xuất mô hình, cách giải quyết chi tiết hai bài toán quan trọng trong luận văn là bài toán phát hiện sự kiện vụ tai nạn và bài toán trích chọn sự kiện vụ tai nạn
Chương 4: Trình bày về môi trường, công cụ, cũng như các gói được
tác giả xây dựng và cài đặt, thử nghiệm mô hình trích chọn sự kiện tai nạn giao thông trên một số trang web đăng tin về tai nạn giao thông bằng tiếng Việt trên mạng Internet
Phần kết luận: Tóm tắt các kết quả đạt được và hướng phát triển tiếp
của đề tài
Trang 115
1.1 Bài toán trích chọn thông tin trong văn bản (IE)
Nhóm Carnegie Group [22], vào thập kỷ 70 của thế kỷ trước cho rằng: Trong khi một chương trình máy tính có thể cung cấp sự hiểu biết đầy đủ các văn bản đầu vào bất kỳ vẫn còn là một giấc mơ xa vời, tức là có thể xây dựng
hệ thống xử lý ngôn ngữ tự nhiên cung cấp một sự hiểu biết một phần của một số loại văn bản với độ chính xác hạn chế Hơn nữa, hệ thống như vậy có thể cung cấp các giải pháp hiệu quả chi phí về các vấn đề kinh doanh thương mại có ý nghĩa Họ đã mô tả một hệ thống như vậy gọi là JASPER JASPER
là một hệ thống khai thác đã phát triển và triển khai bởi Carnegie Group cho hãng Reuters JASPER sử dụng một cách tiếp cận mẫu điều khiển, kỹ thuật hiểu biết một phần và tìm ra các thủ tục để trích xuất một số phần quan trọng của thông tin từ một phạm vi giới hạn của văn bản
Theo Douglas E Appelt, trích chọn thông tin (Information Extraction- IE)
có thể được coi nằm giữa thu hồi thông tin (Information Retrieval - IR) và hiểu văn bản (Text Understanding - UT) [2] Không giống như thu hồi thông tin chỉ tập trung vào các mẫu thông tin có liên quan trong văn bản mà không chú trọng đến việc hiểu văn bản; trích chọn thông tin còn quan tâm tới các sự kiện có liên quan trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu thông tin có liên quan trong văn bản và biểu diễn chúng dưới dạng khuôn mẫu Khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản (câu, đoạn), trích chọn thông tin quan tâm tới toàn bộ nội dung văn bản
Theo Peshkin và Pfeffer [9], trích chọn thông tin có thể được định nghĩa như là một công việc điền thông tin vào các mẫu từ các dữ liệu chưa biết trước trong miền được định nghĩa trước. Mục tiêu của trích chọn thông tin là lấy từ văn bản các thông tin nổi bật của các sự kiện, thực thể, các mối liên hệ Như vậy, có thể coi trích xuất thông tin là một kỹ nghệ lấy và biểu diễn tri
Trang 126 thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu lớn trên Internet
Bài toán trích chọn thông tin trong văn bản có thể được phát biểu như sau:
- Đầu vào: dữ liệu văn bản bất kỳ
- Đầu ra: thông tin hữu ích dưới dạng có cấu trúc
1.2 Các khái niệm cơ bản về sự kiện và trích chọn sự kiện (EE)
Năm 1987, Hội nghị Message Understanding Conferences (MUC) [23]
đã được khởi xướng và tài trợ bởi Quỹ nghiên cứu Bộ quốc phòng Hoa Kỳ để khuyến khích sự phát triển các phương pháp mới và tốt hơn để trích chọn thông tin Sau đó, rất nhiều hội nghị được tổ chức tạo thành dãy hội nghị MUC Với mỗi hội nghị, như là một diễn đàn cho các báo cáo đánh giá về hệ thống nhận biết, hiểu văn bản Hội nghị đã đưa ra phương pháp trích chọn sự kiện theo khung mẫu với mục đích là trích chọn lấy các thông tin liên quan đến sự kiện
Chương trình phát hiện và theo dõi (Topic Detection and Tracking - TDT)
[24] được tổ chức từ năm 1997 là một sáng kiến do DARPA tài trợ để điều tra trạng thái của kỹ thuật trong việc tìm kiếm và theo dõi sự kiện mới Các vấn
đề TDT gồm ba nhiệm vụ chính: (1) phân chia một chuỗi bài phát biểu ghi nhận vào những câu chuyện riêng biệt; (2) xác định những câu chuyện mới để thảo luận về một sự kiện mới xảy ra trong các bản tin; và (3) đưa ra một số lượng nhỏ các mẫu câu chuyện tin tức về một sự kiện, tìm kiếm tất cả những câu chuyện theo chuỗi các sự kiện Một số nhóm nghiên cứu chính tham gia chương trình như: DARPA, Đại học Carnegie Mellon, Dragon Systems, và Đại học Massachusetts tại Amherst Các bài toán quan trọng của TDT gồm: Story Segmentation, Topic Tracking, Topic Detection, First Story Detection,
và Link Detection
Chương trình Trích chọn nội dung tự động (Automatic Content
Trang 137 Extraction, ACE) của đại học Pennsylvania cũng thu hút được nhiều quan tâm từ các cộng đồng nghiên cứu và trích chọn thông tin cũng như trích chọn
sự kiện Chương trình này tập trung vào các ngôn ngữ như tiếng Anh, Trung Quốc và Ả rập Các thông tin được trích chọn gồm các thực thể, quan hệ giữa các thực thể, và các sự kiện chúng tham gia vào
Như vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự kiện nói riêng là một vấn đề quan trọng và thời đại, nhận được rất nhiều quan tâm từ cộng đồng khoa học Trong phần tiếp theo luận văn sẽ làm sáng tỏ định nghĩa sự kiện [1.2.1] và trích chọn sự kiện [1.2.2]
1.2.1 Định nghĩa sự kiện
Tùy theo từng lĩnh vực và dữ liệu người ta có nhiều cách định nghĩa sự kiện Trên miền tin tức, James Allan và cộng sự định nghĩa tin tức chứa sự kiện nếu nó có bốn yếu tố: hành vi, chủ thể, thời gian và địa điểm [19] Trích chọn sự kiện lần đầu tiên được giới thiệu như một chủ đề quan trọng MUC năm 1987 Hội nghị MUC quan tâm đến các sự kiện như khủng bố, đầu tư mạo hiểm, tai nạn máy bay, quân sự …Một sự kiện được định nghĩa như sau:
“một sự kiện có tác nhân (actor), thời gian (time), địa điểm (place) và tác động tới môi trường xung quanh”
Trong chương trình ACE (Automatic Content Extraction) [25], mục tiêu nghiên cứu được xem là phát hiện với các đặc tính của thực thể, quan hệ, và
sự kiện Sự kiện đơn giản là một sự thay đổi trạng thái Loại sự kiện và các thuộc tính sự kiện được quy định chặt chẽ hơn Có tất cả tám loại sự kiện được sử dụng bao gồm business (kinh tế), conflict (xung đột), contact (liên lạc), justice (pháp lý), life (cuộc sống), movement (sự di chuyển), personnel (nhân sự) và transaction (giao dịch) Mỗi loại sự kiện sau đó lại được chia thành từng dạng con Ví dụ như sự kiện pháp lý bao gồm một số dạng như bắt giữ – bỏ tù, kết án, phạt…
Trang 148 Thông thường các nghiên cứu thường chỉ tập trung vào giải quyết vấn đề trong một lĩnh vực cụ thể Yoko Nishihara quan tâm sự kiện trong lĩnh vực mạng xã hội [10] Silja và Roman Yangaber quan tâm tới tăng cường tiếp cận với các báo cáo dịch bệnh [5], trong khi K Bretonnel Cohen lại tập trung vào
sự kiện y sinh [12]
Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có thể coi như một mẫu (template) gồm nhiều các thuộc tính (elements) Trong phạm vi khóa luận, tác giả quan tâm đến sự kiện thuộc chủ đề tai nạn giao thông trên một số trang tin tức tiếng Việt Như vậy trích chọn sự kiện đề cập tới việc làm thế nào có thể điền các thông tin phù hợp từ các văn bản gốc tương ứng
1.2.2 Trích chọn sự kiện
Trích chọn sự kiện là bài toán con của trích chọn thông tin với mục tiêu
là trích lọc ra các sự kiện từ các nguồn số liệu Nếu như trích chọn thông tin chỉ quan tâm các dữ liệu rời rạc (tên người, địa điểm, các con số,.) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của thông tin trong một sự kiện Từ đó, người đọc có thể dễ ràng suy luận ra các thông tin có ý nghĩa Ví dụ, “chiều ngày 29/12, trên đường Thanh Xuân, Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người đi xe máy bị thương nặng Nguyên nhân bước đầu được cho là do người điều khiển xe máy vượt ẩu xe tải đi cùng chiều” Trong ví dụ này, trích chọn thông tin đưa ra các kết quả rời rạc như: 29/12, Hà Nội, 2 hoặc xe máy; trong khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu diễn cho sự kiện gồm {29/12, Hà Nội,
2 người bị thương, xe máy, xe tải} Rõ ràng, với tập dữ liệu trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc
Một cách tổng quát, đầu vào của trích chọn sự kiện là các văn bản lấy từ nhiều nguồn số liệu khác nhau như văn bản tin tức, mạng xã hội đầu ra là
Trang 159 các tri thức biểu diễn dưới dạng thông tin có cấu trúc Những thông tin này rất hữu ích cho việc khai thác dữ liệu như: thống kê, hệ thống giám sát, các hệ thống hỗ trợ ra quyết định Trích chọn sự kiện có thể áp dụng cho một miền
dữ liệu cụ thể như các vụ tai nạn giao thông, dịch bệnh, các tour du lịch và
có nhiều ứng dụng trong các lĩnh vực khác nhau của đời sống xã hội như kinh
tế, văn hóa, y tế, giáo dục…
Trích chọn sự kiện thực sự là một bài toán khó Ngoài vấn đề xây dựng các bộ nhận dạng sự kiện nó còn gặp phải vấn đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) Dễ ràng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào NLP, cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER) Bên cạnh đó, theo David McClosky cấu trúc sự kiện trong miền các văn bản mở thường là rất phức tạp và lồng nhau: một sự kiện "tội phạm" có thể dẫn đến một sự kiện "điều tra", có thể dẫn đến một sự kiện "Bắt giữ" [13] Chính vì thế dữ liệu đầu vào của trích chọn sự kiện rất đa dạng nên sẽ ảnh hưởng tới tính hiệu quả của quá trình trích chọn
1.3 Ý nghĩa khoa học và thực tiễn của bài toán trích chọn sự kiện tai
nạn giao thông
1.3.1 Ý nghĩa khoa học
Ý nghĩa khoa học của bài toán trích chọn sự kiện được rất nhiều các nhà khoa học quan tâm Kết quả của bài toán trích chọn sự kiện vụ tai nạn làm tiền đề cho việc khai thác dữ liệu như thống kê, dự đoán xu hướng, hệ thống giám sát và hỗ trợ ra quyết định
1.3.2 Ý nghĩa thực tiễn
Kết quả việc trích chọn sự kiện vụ tai nạn là dữ liệu đầu vào cho việc khai thác: thống kê các con số liên quan đến vụ tai nạn như các vụ tai nạn hay xảy ra vào thời gian nào trong ngày (vào buổi sáng, giờ đến công sở, buổi trưa, giờ tan tầm, hay vào đêm ), những tháng nào trong năm hay xảy ra tai
Trang 1610 nạn (vào mùa lễ hội, mùa nghỉ mát hay mùa mưa ), phương tiện nào hay xảy
ra tai nạn (xe buýt, xe tải, tắc-xi, xe khách,.), độ tuổi của người điều kiển phương tiện giao thông (tuổi 18-20, tuổi ngoài 60, hay độ tuổi nào khác), nghề nghiệp của người điều khiển phương tiện giao thông (sinh viên, công nhân, công chức, ), địa hình gây tai nạn (đường vòng cua, đường giao nhau, đường rốc, đường trơn, đường gồ ghề, đường cao tốc,.) Từ những thống kê trên có thể trực quan hoá trên bản đồ những địa điểm nhạy cảm hay xảy ra tai nạn
Qua đó, cung cấp cho người dân có thêm kiến thức khi tham gia giao thông như: trong khoảng thời gian nào, trên quãng đường nào hay xảy ra tai nạn Điều đó có thể giúp người dân biết cách đề phòng tránh các nguy cơ có thể xảy ra tai nạn Nó còn giúp người dùng muốn tìm kiếm thông tin liên quan đến vụ tai nạn giao thông
Hơn thế nữa, kết quả của bài toán có thể giúp các nhà quản lý có cái nhìn khách quan tình trạng tai nạn giao thông, có biệm pháp phòng ngừa các vụ tai nạn như: sửa chữa nâng cấp cơ sở hạ tầng, có biệm pháp giáo dục ý thức người dân khi tham gia, đặt biển cảnh báo nơi nào có nguy cơ cao xảy ra tai nạn, cần phải giảm tốc độ, thận trọng quan sát đường trong khi tham gia giao thông
Ngoài ra, những con số thống kê từ việc trích chọn sự kiện vụ tai nạn Còn giúp các nhà quản lý so sánh quy mô mức độ nghiêm trọng của các vụ tai nạn trong từng khoảng thời gian với nhau, từ đó đưa ra bản đánh giá trung về
sự phát triển của các vụ tai nạn theo chiều hướng nào
1.4 Kết luận
Trong chương một, tác giả của luận văn đã trình bày cơ bản bài toán trích chọn thông tin trong văn bản Trọng tâm của chương đề cập tới các khái niệm về sự kiện và trích chọn sự kiện Đồng thời nêu ý nghĩa khoa học, ý
Trang 1711 nghĩa thực tiễn, những khó khăn khi giải quyết bài toán trích chọn sự kiện vụ tai nạn Trong chương 2, luận văn sẽ trình bày các phương pháp tiếp cận để giải quyết bài toán phát hiện sự kiện và trích chọn sự kiện vụ tai nạn
Trang 1812
TIÊU CHUẨN ĐÁNH GIÁ THUẬT TOÁN
Theo nghiên cứu của Hogenbcom F và cộng sự [3] cho rằng một ứng dụng phổ biến của khai phá văn bản là trích chọn sự kiện, trong đó bao gồm suy luận tri thức liên quan đến các thông tin nêu trong các văn bản Trích chọn sự kiện có thể được áp dụng cho nhiều loại hình văn bản, ví dụ như, (trực tuyến) thông báo tin tức, blog, và bản thảo Các tài liệu khảo sát này đánh giá các kỹ thuật khai phá văn bản được sử dụng cho mục đích khai thác
sự kiện khác nhau Nó cung cấp hướng dẫn chung về cách để lựa chọn một kỹ thuật trích trọn sự kiện đặc biệt tùy thuộc vào người sử dụng, các nội dung có sẵn và các kịch bản sử dụng
Cũng theo Hogenbcom F và cộng sự phân biệt giữa ba phương pháp chính để trích chọn sự kiện Đó là các phương pháp: phương pháp học máy hay còn được gọi là phương pháp dựa trên dữ liệu (data-driven), phương pháp dựa trên tập luật hay còn được gọi là phương pháp dựa trên tri thức (knowledge - driven), phương pháp kết hợp giữa hai phương pháp trên hay còn được gọi là phương pháp lai (hybrid)
Phương pháp dựa trên dữ liệu, phương pháp này dựa trên tri thức từ một tập dữ liệu lớn nhằm mục đích để chuyển đổi dữ liệu kiến thức thông qua việc
sử dụng các số liệu thống kê, học máy, đại số tuyến tính Phương pháp dựa trên tri thức, thường sử dụng kiến thức chuyên gia miền để sinh ra tập luật trong đó trích xuất những kiến thức thông qua các đại diện và khai thác kiến thức chuyên môn, thường là bằng phương tiện của phương pháp tiếp cận dựa trên mô hình Điển hình cho phương pháp này là nhận dạng thực thể (NER) Tập luật này thường sử dụng để trích chọn thuộc tính của sự kiện Phương pháp lai (hybrid), sử dụng kết giữa hai phương pháp trên
Trong chương này, tác giả sẽ trình bày phương pháp tiếp cận bài toán
Trang 1913 Trích chọn sự kiện vụ tai nạn giao thông bao gồm: phương pháp tiếp cận dựa trên luật (rule - base), phương pháp tiếp cận dựa trên học máy, phương pháp tiếp cận kết hợp luật và học máy Phần tiếp theo tác giả sẽ có những nhận xét, phát biểu và đưa ra phương pháp giải quyết bài toán trong chương 3
2.1 Các phương pháp dựa trên tập luật (rule-based)
Phương pháp dựa trên tập luật hay còn được gọi là phương pháp dựa trên tri thức, thường sử dụng kiến thức chuyên gia miền để sinh ra tập luật trong
đó trích xuất những kiến thức thông qua các đại diện và khai thác kiến thức chuyên môn, thường là bằng phương tiện của phương pháp tiếp cận dựa trên
mô hình Điển hình cho phương pháp này là nhận dạng thực thể (NER) Tập luật này thường sử dụng để trích chọn thuộc tính của sự kiện
2.1.1 Luật cú pháp (lexico-syntactic patterns)
Luật cú pháp, đôi khi còn được gọi là mẫu cú pháp (lexico-syntactic patterns) có thể coi là phương pháp sử dụng sớm trong bài toán trích chọn sự kiện Các mẫu này được sinh ra từ các chuyên gia miền (expert knowledge) dưới dạng tập luật (rules) [3] Điển hình cho phương pháp này là các luật được biểu diễn dưới dạng biểu thức chính quy (regular expression)
Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin
cú pháp với các biểu thức chính quy Sau khi các biểu thức chính quy đã được xây dựng, các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầu vào để trích chọn ra các thông tin tương ứng của các thuộc tính Đôi khi, luật
cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá Trong lĩnh vưc y sinh, Akane Yakushiji và cộng sự đã thiết kế và thực nghiệm một hệ thống trích chọn thông tin bằng cách sử dụng cú pháp đầy đủ để điều tra tính hợp lý của việc phân tích đầy đủ các văn bản sử dụng chung - phân tích cú pháp và ngữ pháp với mục đích áp dụng cho miền y sinh [21]; Jari Björne [26]
và cộng sự đã giới thiệu ứng dụng đầu tiên của sự kiện theo cách khai thác sự
Trang 2014 tương tác y sinh học từ tập dữ liệu (dataset) quy mô lơn trong thực tế, 1% của các cơ sở dữ liệu trích dẫn PubMed [27] Họ kết hợp các hệ thống phát hiện
sự kiện của J.Björne, các hệ thống chiến thắng của BioNLP'09 Shared Task, với các phân tích cú pháp Charniak-Johnson (Charniak và Johnson, 2005) được trang bị với các mô hình y sinh miền của McClosky (2009) và BANNER dò tên thực thể (Leaman và Gonzalez, 2008), tạo ra một hệ thống
có khả năng trích chọn sự kiện từ văn bản y sinh chưa được ghi chú (unannotated) Trong nghiên cứu của Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tượng (object) và hành vi (action) để biểu diễn một sự kiện được trích chọn từ blogs [10] Luật cú pháp xác định các tham số bên trong văn bản không xác định ý nghĩa văn bản
Khi sử dụng luật để trích chọn sự kiện, đôi khi phải trích chọn khái niệm
có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn
Do đó, sử dụng luật cú pháp không đáp ứng được điều này Để giải quyết được điều này, phương pháp thường sử dụng trong (rule-based) là sử dụng luật ngữ nghĩa (lexico-semantic patterns)
2.1.2 Luật ngữ nghĩa (lexico-semantic patterns)
Đôi khi trích chọn sự kiện phải trích chọn các khái niệm có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn Do đó, để giải quyết được điều này, phương pháp thường sử dụng trong (rule-based) là sử dụng luật ngữ nghĩa Các luật ngữ nghĩa không đơn giản là các từ được biểu diễn dưới dạng biểu thức chính quy mà là các từ và mối quan hệ giữa chúng Luật ngữ nghĩa được sử dụng với nhiều mục đích và nhiều lĩnh vực khác nhau Trong nghiên cứu của Li Fang và cộng sự đã sử dụng luật nghữ nghĩa
đề trích chọn thông tin từ sàn chứng khoán (stock market) [7]; Cohen và cộng sự [12] sử dụng khái niệm bộ nhận dạng (recognizer) trên miền dữ liệu y sinh để trích chọn thông tin y sinh từ tập dữ liệu; Capet và các cộng sự sử
Trang 2115 dụng mẫu ngữ nghĩa đề trích chọn sự kiện cho hệ thống cảnh báo sớm [8]; Trích chọn sự kiện trong văn bản phi cấu trúc có thể được ứng dụng trong nhiều lĩnh vực như: tài chính, chứng khoán, y sinh, bản tin pháp luật
2.1.3 Hình dạng và biểu diễn của tập luật (Form and Representation of
Rules)
Theo tài liệu Information Extraction của Sunita Sarawagi [1], một luật
cơ bản có dạng: "mẫu theo ngữ cảnh ^ hành động" Một mẫu theo ngữ cảnh báo gồm một hoặc nhiều mẫu nhãn ghi lại thuộc tính của một hoặc nhiều thực thể và bối cảnh xuất hiện trong văn bản Một mẫu được gán nhãn là so khớp một biểu thức chính quy được xác định qua các tính năng của thẻ trong văn bản và một nhãn tuỳ chọn Các thuộc tính có thể được chỉ ra là thuộc tính của thẻ hoặc ngữ cảnh hoặc các văn bản trong các thẻ xuất hiện
Hầu hết các hệ thống dựa trên luật được liên tầng; luật được áp dụng trong nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với một chú thích như là tính năng đầu vào cho các giai đoạn tiếp theo Ví dụ, một trích chọn cho các địa chỉ liên lạc của người được tạo ra trong hai giai đoạn của luật: giai đoạn thứ nhất nhãn thẻ cùng với nhãn thực thể như: tên người,
vị trí địa lý như tên đường, tên thành phố, và địa chỉ thư điện tử Giai đoạn thứ hai, xác định khối địa chỉ cùng với đầu ra của giai đoạn thứ nhất như là thuộc tính bổ sung
2.1.3.1 Các thuộc tính của các thẻ (Features of Tokens)
Mỗi một thẻ trong một câu thường được kết hợp cùng với tập thuộc tính thu được thông qua một hoặc nhiều các tiêu chí sau:
Các chuỗi đại diện cho thẻ
Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗn hợp,
số, ký hiệu đặc biệt, dấu cách, dấu chấm câu,
Các phần phát biểu (part of speech) của thẻ
Trang 2216 Danh sách xuất hiện các thẻ của từ điển Thông thường, điều này có thể được tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắt đầu, kết thúc, hoặc từ giữa của từ điển Ví dụ, một thẻ như " New " phù hợp với từ đầu tiên của từ điển với tên thành phố, tên sẽ được liên kết với một thuộc tính
"Dictionary - Lookup = start of city "
Chú thích kèm theo các bước xử lý trước đó
Luật để xác định một thực thể đơn (Rules to Identify a Single Entity): Luật để nhận ra một thực thể đơn đầy đủ bao gồm ba loại mẫu
Một mẫu tùy chọn ghi lại bối cảnh trước khi bắt đầu của một thực thể Một mẫu kết hợp các thẻ trong các thực thể
Một mẫu tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực thể
Ví dụ về một mẫu để xác định tên người có dạng "Dr Yair Weiss" bao gồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa các mục như : “Prof ”, “Dr”, “Mr” ), một dấu chấm, và hai từ viết hoa là
({Dictionary - Lookup = Titles}{String = “”}{Orthography type
=capitalized word}{2})^-Person Names
Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ được theo sau cùng với số tùy chọn và chỉ ra số lần lặp lại của thẻ Ví dụ về một luật để đánh dấu tất cả số đi sau các giới từ "by" và "in" là thực thể năm: (String=“by”|String=“in”})({Orthography type = Number}):y^Year=:y Có hai mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện của các thực thể năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành " year" Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The XYZ Corp.” or
“ABC Ltd.” được tạo bởi:
({String-‘The”}? {Orthography type = All capitalized}{Orthography type
= Capitalized word, DictionaryType -Company end})^Company name
Trang 23cả các thẻ ở trong giữ hai thẻ đánh dấu đầu và cuối được gọi là thực thể Nhìn nhận vấn đề theo một cách khác, mỗi luật cơ bản dẫn đến sự chèn của một đơn Thẻ SGML trong văn bản mà các thẻ này có thể là một thẻ bắt đầu hoặc một thẻ kết thúc Để giải quyết sự không nhất quán khi có hai thực thể bắt đầu đánh dấu trước và chỉ một thực thể đánh dấu kết thúc, điều này cần có một cách giải quyết đặc biệt Ví dụ, một quy tắc để chèn một thẻ <journal>, để đánh dấu sự bắt đầu của một tên tạp chí trong một bản trích dẫn:
({String=“to”} {String=“appear”} {String=“in”}):jstart
({Orthography type = Capitalized word}{2-5})^-insert <joumal> after:jstart
2.1.3.3 Các luật cho đa thực thể (Rules for Multiple Entities)
Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại diện cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận của nhiều đối tượng cùng một lúc Những luật này được sử dụng tốt hơn cho bản ghi dữ liệu theo định hướng Hệ thống dựa trên luật WHISK [14] đã được nhắm tới cho việc khai thác từ hồ sơ có cấu trúc như hồ sơ y tế , các bản ghi bảo trì thiết bị, và phân loại quảng cáo Các luật này được viết lại từ, để trích chọn hai thực thể, số lượng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn
hộ ({Orthography type = Digit}):Bedrooms ({String =“BR”})({}*)
({String =“$”})({Orthography type = Number}):Price^Number
of Bedrooms =:Bedroom, Rent =: Price
2.1.3.4 Chọn lựa hình dạng của tập luật (Alternative Forms of Rules)
Trang 2418
Có nhiều hệ thống dựa trên luật state-of-the-art cho phép các chương trình tùy ý viết bằng ngôn ngữ thủ tục như Java và C + + thay cho cả hai thành phần mẫu và phần hành vi của các luật Trong nghiến cứu của H Cunningham và cộng sự sử dụng hỗ trợ các chương trình Java thay cho ngôn ngữ hình thức các luật tùy chỉnh của nó được gọi là JAPE trong hoạt động của một luật Đây là một khả năng mạnh mẽ bởi vì nó cho phép phần hành vi của các quy tắc để truy cập các thuộc tính khác nhau mà được sử dụng trong phần mẫu của các quy tắc và được sử dụng để chèn các trường mới cho chuỗi chú thích [17]
Nhìn chung, trong các hệ thống tri thức (knowledge systems), ban đầu thường được sử dụng phương pháp tiếp cận dựa trên luật (rule-based) Phương pháp này có những ưu điểm và nhược điểm sau:
độ chính xác rất cao (do được xây dựng để lấy ra các thông tin đặc biệt), độ hồi tưởng thấp Do đó phương pháp này rất thích hợp cho các bài toán chỉ quan tâm đến độ chính xác
Về nhược điểm:
- Khi sử dụng phương pháp này đòi hỏi người xây dựng đóng vai trò như chuyên gia miền dữ liệu, cần phải rất am hiểu dữ liệu, người xây dựng phải có kiến thức về ngôn ngữ, tự vựng và cú pháp Hơn nữa, tập luật thường được xây dựng để lấy ra các thông tin đặc biệt, dó đó khi thay đổi sang miền
Trang 2519
dữ liệu khác thì lại phải xây dựng tập luật cho phù hợp Việc xây dựng tập luật đôi khi rất tốn thời gian và chi phí
2.2 Phương pháp tiếp cận dựa trên học máy
Phương pháp tiếp cận dựa trên học máy còn được gọi là phương pháp tiếp cận dựa trên dữ liệu (data-driven) Phương pháp tiếp cận này không đòi hỏi người xây dựng phải thành thạo về ngôn ngữ, lĩnh vực nghiên cứu như các chuyên gia Nhưng lại đòi hỏi một lượng lớn dữ liệu để xây dựng tập huấn luyện tốt vả đủ lớn dùng cho bộ phân lớp tối ưu Phương pháp này thường dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin (information theory) và đại số tuyến tính (linear algebra) Một bộ đoán nhận
sẽ thực hiện việc gán cho kho dữ liệu văn bản các nhãn phù hợp với từng lớp Sau khi có tập dữ liệu huấn luyện phù hợp đã được gán nhãn, thuật toán huấn luyện được sử dụng, hệ thống sẽ sử dụng kết quả trả về từ thuật toán huấn luyện để phục vụ cho quá trình phân tích văn bản mới Một số cách tiếp cận
cơ bản thường được sử dụng là Term Frequency - Inverse Document Frequency (TF-IDF), n-grams hay phân cụm
Trong nghiên cứu của Okamoto và cộng sự dựng một khung (frameword)
để phát hiện các sự kiện cục bộ (loacal events) Trong nghiên cứu tác giả sử dụng các kỹ thuật phân cụm phân cấp [15] Trong khi đó, phân cụm có thể sinh ra các kết quả tốt cho trích chọn sự kiện, Mingrong Liu và các cộng sự kết hợp các đồ thị có trọng số vô hướng chia đôi (weighted undirected bipartite graphs) và phân cụm để trích chọn các thực thể chính và các sự kiện
có ý nghĩa từ các thông tin hàng ngày [4] Các kỹ thuật phân cụm cũng được
sử dụng bởi Hristo Tanev và cộng sự để trích chọn các sự kiện bạo lực và thảm hoạ cho hệ thống giám sát [16]
Phương pháp tiếp cận dựa trên dữ liệu cần xây dựng xác suất để xấp sỉ
mô hình huấn luyện với dữ liệu Phương pháp này có ưu điểm nhưng vẫn tồn
Trang 2620 tại nhược điểm
- Trong các bài toán trích chọn sự kiện, phương pháp tiếp cận dựa trên
dữ liệu không giải quyết được các vấn đề có liên quan đến ngữ nghĩa (ví dụ, phương pháp này chỉ phát hiện các quan hệ trong tập dữ liệu mà không giải quyết được các vấn đề ngữ nghĩa)
- Phương pháp này cần một lượng dữ liệu lớn để huấn luyện mô hình Trong một số trường hợp, việc gán nhãn dữ liệu tốn thời gian và chi phí
- Do phương pháp tiếp cận dựa trên dữ liệu được xây dựng trên các mô hình xác suất thống kê, do đó, trong một số trường hợp nếu quá trình làm dữ liệu huấn luyện không tốt dẫn đến kết quả của quá trình trích chọn không cao
- Nếu như dữ liệu có sự thay đổi có thể dẫn đến cần phải gán nhãn lại cho cả tập dữ liệu huấn luyện
2.3 Các phương pháp kết hợp luật và học máy
Phương pháp tiếp cận kết hợp luật và học máy (lai - hybrid) thường được
sử dụng trong các bài toán trích chọn sự kiện Hầu hết các hệ thống dựa trên tri thức (knowledge - driven) được bổ sung bởi các phương thức dựa trên dữ liệu (data - driven), do vậy nó có thể giải quyết được các khuyết điểm của phương pháp dựa trên tri thức Hristo Tanev và cộng sự đã sử dụng các kỹ thuật bootstrapping cho hệ thống trích chọn các sự kiện liên quan tới bạo lực
từ các bản tin trực tuyến với độ chính xác và độ hồi tưởng cao [16]
C.S Lee và cộng sự [18] đã đề xuất một hệ thống câu hỏi và câu trả lời
Trang 2721 với khả năng khai thác câu hỏi tự động Có một số kỹ thuật được áp dụng như công nghệ logic mờ, mạng lưới thần kinh và xử lý ngôn ngữ tự nhiên Các công nghệ logic mờ nhằm mục đích lựa chọn câu chính và nhận biết câu hỏi; Trong khi đó, các mạng thần kinh (neural network) hỗ trợ xác định chính xác
và lựa chon loại câu hỏi Do đó, có thể trích xuất các câu hỏi dựa trên ontology đề xuất của chúng tôi Ngoài ra, phương pháp đề xuất cũng tích hợp các hệ thống phụ khai thác kiến thức và hệ thống phụ Q & A cơ sở tri thức để khai thác câu hỏi, và kết hợp hai hệ thống này với câu trả lời cho câu hỏi của
hệ thống con trả lời Chun và cộng sự [3] trích chọn các sự kiện y sinh bằng cách sử dụng các luật cú pháp kết hợp với đồng tham chiếu (co- occurrences) Như vậy phương pháp này có thể được coi là phương pháp lai
2.4 Tiêu chuẩn đánh giá thuật toán
Các kết quả của bất cứ một thuật toán phân cụm nào cũng nên được đánh giá sử dụng một thước đo chất lượng thông tin để chỉ ra “độ tốt” của các phân cụm kết quả Việc đánh giá phụ thuộc vào tri thức nào ta ưu tiên trong việc phân loại đối tượng dữ liệu (Ví dụ, chúng ta đã gán nhãn các dữ liệu hoặc không có sự phân loại dữ liệu) Nếu dữ liệu chưa được phân loại trước đó, chúng ta cần phải sử dụng các tiêu chuẩn chất lượng bên trong để cho phép so sánh giữa các tập phân cụm mà không phải tham khảo các tri thức bên ngoài Nói theo cách khác, nếu dữ liệu đã được gán nhãn, chúng ta sử dụng việc phân loại này để so sánh kết quả phân cụm với các phân loại gốc; độ đo này được biết đến như một độ đo chất lượng ngoài Chúng ta sẽ xem qua hai tiêu chuẩn chất lượng ngoài là Entropy và F-measure) và một tiêu chuẩn chất lượng trong là Overall Similarity
Entropy
Một độ đo chất lượng ngoài đó là entropy, nó cung cấp một độ đo về “độ tốt” cho các phân cụm được lấy ra hoặc cho các phân cụm tại một cấp độ của
Trang 2822 một phân cụm theo thứ bậc Entropy cho chúng ta biết sự đồng nhất của một phân cụm Một phân cụm càng đồng nhất thì entropy của nó càng giảm và ngược lại Entropy của một phân cụm mà chỉ chứa một đối tượng (cân bằng hoàn hảo) là 0
Coi P là một kết quả phân chia của một thuật toán phân cụm bao gồm m phân cụm Với tất cả phân cụm j trong P, chúng ta cần tính toán pij , với pij là khả năng một thành viên của phân cụm j thuộc vào lớp i Entropy của mỗi phân cụm j được tính toán sử dụng công thức chuẩn: , trong đó việc tính tổng được thực hiện với tất cả các lớp Tổng entropy của một tập các phân cụm được tính toán như là tổng cộng entropy của mỗi phân
cụm được tính toán theo kích cỡ của mỗi phân cụm:
, trong đó là kích cỡ của phân cụm j và N là tổng số lượng đối tượng dữ liệu
Như đã nói ở trên, chúng ta cần phải tạo ra các phân cụm với các entropy càng nhỏ càng tốt và entropy là một thước đo về độ đồng nhất (tương tự) của các đối tượng dữ liệu trong phân cụm
trong đó N ij là số lượng thành viên của lớp I trong phân cụm j, N j là số
lượng thành viên của phân cụm j và N i là số lượng thành viên của lớp i Độ đo
F của một lớp i được định nghĩa là:
Trang 29Trong đó |i| là số lượng đối tượng trọng lớp i Giá trị độ đo F càng cao
thì việc phân cụm càng tốt vì độ chính xác càng lớn của việc gắn kết các lớp gốc
Overall Similarity
Một độ đo chất lượng trong rất hay được sử dụng là độ đo tương tự toàn
diện (Overall Similarity) và được sử dụng khi không có bất cứ thông tin nào
từ bên ngoài như các lớp đã gán nhãn Độ đo này phân cụm đo sự kết nối của các phân phân cụm bằng việc sử dụng trọng số tương tự của phân cụm trong
Trang 3024
TOÁN TRÍCH CHỌN SỰ KIỆN TAI NẠN GIAO THÔNG
Trong chương này, tác giả tập trung vào bài toán trích chọn sự kiện các
vụ tai nạn giao thông: tìm hiểu các đặc tính của sự kiện vụ tai nạn; pháp biểu bài toán, đề xuất mô hình, cách giải quyết chi tiết hai bài toán quan trọng trong luận văn là bài toán phát hiện sự kiện vụ tai nạn và bài toán trích chọn
sự kiện vụ tai nạn
3.1 Bài toán trích chọn sự kiện các vụ tai nạn giao thông
Trong quá trình kháo sát trên miền dữ liệu là thông tin vụ tai nạn chỉ ra rằng trong quá trình phát hiện sự kiện vụ tai nạn cần phải phân biệt rõ đâu là thông tin vụ tai nạn giao thông, đâu là thông tin tai nạn giao thông Thông tin
vụ tai nạn giao thông là cái mà luận văn quan tâm trong bài toán trích chọn sự kiện vụ tai nạn, ví dụ như “ Khoảng 7h sáng nay (25.12), xe đầu kéo BKS 51C - 255.12 chở bồn gas lưu thông trên xa lộ Hà Nội, hướng từ Suối Tiên về cầu Sài Gòn Khi vừa đổ hết dốc cầu Rạch Chiếc (quận 2) bị mất lái tông hàng loạt dải phân cách bằng bê tông rồi lao sang làn đường xe hai bánh tông
và cuốn nhiều xe máy đang chờ đèn đỏ vào gầm”; còn thông tin tai nạn giao thông như tiêu đề bài báo “Giải pháp để giảm thiểu số vụ tai nạn giao thông ”,
hay “kinh hoàng về con số thiệt mạng do tai nạn trong 6 tháng đầu năm 2015” thì đây không phải thông tin vụ tai nạn giao thông mà chỉ là thông tin tai nạn giao thông
Một sự kiện vụ tai nạn có thể chứa thời gian xảy ra tai nạn, địa điểm, số thương vong, phương tiện gây tai nạn, nguyên nhân của vụ tai nạn, độ tuổi của người điều khiển phương tiện, vụ tai nạn xảy ra vào thời gian nào trong ngày Trong số các thông tin đó thì thông tin về thời gian, địa điểm, số thương vong, phương tiện gây tai nạn được đặc biệt quan tâm và cũng là các thông tin sẽ được trích chọn trong sự kiện vụ tai nạn
Trang 3125
3.1.1 Phát biểu bài toán
Bài toán trích chọn sự kiện các vụ tai nạn giao thông trong văn bản tin tức Tiếng Việt Trong luận văn, tác giả sẻ tập trung vào giải quyết bài toán trích chọn sự kiện trong bản tin vụ tai nạn giao thông (gọi tắt là trích chọn sự kiện vụ tai nạn) Tác giả muốn nhấn mạnh là sự kiện vụ tai nạn để phân biệt với các thông tin về tai nạn giao thông nhưng không phải bản tin vụ tai nạn giao thông Tác giả tập trung vào giải quyết bài toán trích chọn thông tin vụ tai nạn giao thông trong văn bản tin tức Tiếng Việt, lấy từ các trang báo điện
tử Việt Nam trên Internet Trích ra thông tin về sự kiện vụ tai nạn như thời gian xảy ra vụ tai nạn, địa điểm xảy ra tai nạn, số thương vong (số tử vong và
số bị thương), phương tiện gây tai nạn từ các văn bản phi cấu trúc Bài toán được phát biểu như sau:
Đầu vào: một bản tin trên báo điện tử
Đầu ra: bản tin ở đầu vào có phải sự kiện vụ tai nạn giao thông không, nếu có thì trích chọn ra thông tin về vụ tai nạn giao thông
Thông tin trong một bản tin vụ tai nạn giao thông (gọi tắt là bản tin vụ tai nạn) được định nghĩa là một bộ E gồm bốn thành phần, đó là: Thời gian, địa điểm, số thiệt hại, phương tiện gây tai nạn Một cách hình thức E được định nghĩa như sau:
E=<thời gian, địa điểm, số thiệt hại, phương tiện gây tai nạn> (3.1)
Thời gian: là thời gian xảy ra vụ tai nạn
Địa điểm: là địa điểm xảy ra vụ tai nạn
Số thiệt hại: là số người tử vong, số người bị thương Số thiệt hại có thể
là danh sách gồm có 2 trường là số thương vong và số tử vong
Ví dụ, “Tai nạn xảy ra trên Quốc lộ 1 ( quận Thủ Đức, TP HCM) giữa
xe container, ô tô 4 chỗ và xe khách vào rạng sáng 31- 5 làm 4 người trong chiếc xe bị biến dạng đã chết tại chỗ và 1 người thương vong” Thông tin số
Trang 3226 thương vong được trích ra dưới dạng danh sách:
Ví dụ khác, “xe tắc-xi đâm thẳng vào xe máy chờ đèn đỏ, làm 4 người bị
thương” Thông tin được trích ra dưới dạng danh sách:
Số tử vong Số thương vong
Phương tiện gây tai nạn: chỉ trích ra loại phương tiện gây ra tai nạn
Ví dụ, thông tin về sự kiện vụ tai nạn E như sau: E=<25/8/2015, Quốc lộ 2A, 2 người bị thương, ô tô> Qua bốn thông tin tai nạn cơ bản này, chúng ta
có thể dễ ràng suy luận ra rằng: “vào ngày 25 tháng 8 năm 2015 một vụ tai nạn xảy ra trên Quốc lộ 2A đã làm 2 người bị thương và phương tiện gây tai nạn là ô tô"
Bài toán định nghĩa, đầu vào của mô hình là các bản tin trên báo điện tử Tác giả chọn dữ liệu đầu vào là các trang báo điện tử vì ba lý do sau Thứ nhất, thông tin trên các trang rất phong phú; Thứ hai, thông tin có độ tin cậy cao và tính cập nhật cao; Thứ ba, quá trình thu thập dữ liệu từ trên các trang báo điện tử cũng khá dễ ràng Nên dữ liệu luôn bảo đảm tính đa dạng và tính cập nhật
Mô hình trong phần phát biểu bài toán được chia thành hai bài toán như sau: bài toán thứ nhất được gọi là pha 1- phát hiện sự kiện vụ tai nạn, bài toán giải quyết vấn đề phát hiện một bài báo có chứa thông tin vụ tai nạn hay không, bài toán thứ hai được gọi là pha 2 - trích chọn sự kiện vụ tai nạn, bài toán này sẽ giải quyết vấn đề sau khi pha 1 kiểm tra dữ liệu là sự kiện vụ tai
Số tử vong Số thương vong
Trang 3327 nạn, pha 2 sẽ trích chọn thông tin về sự kiện vụ tai nạn
dữ liệu đã được gán nhãn Qua quá trình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào có chứa sự kiện dịch bệnh hay không
Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan và cộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịch bệnh Do đó, có thể vận dụng phương pháp này cho việc phát hiện sự kiện vụ tai nạn giao thông cùng với việc xây dựng bộ từ khoá hoặc xây dựng một tập các dữ liệu đã được gán nhãn phù hợp cho sự kiện vụ tai nạn giao thông
Trang 3428 Recognition (NER) để lấy ra các thuộc tính cơ bản của sự kiện: thời gian, địa điểm, tên người, sau đó kết hợp các thuộc tính này thành một sự kiện [20] Như vậy, bài toán trích chọn sự kiện nói chung hay bài toán trích chọn
sự kiện vụ tai nạn nói riêng có thể được chia thành hai bài toán con, đó là: phát hiện sự kiện và trích chọn sự kiện
3.2 Lựa chọn phương pháp giải quyết bài toán trích chọn sự kiện tai
nạn giao thông
3.2.1 Lựa chọn phương pháp giải quyết bài toán
Trong chương 2, luận văn đã tập trung trình bày các phương pháp tiếp cận: phương pháp tiếp cận dựa trên luật (rule-based), phương pháp học máy,
và phương pháp kết hợp luật và học máy (phương pháp lai) Trong phần này, luận văn tiếp tục phát triển ý tưởng của việc kết hợp giữa luật và học máy cho bài toán trích chọn sự kiện vụ tai nạn Vì các lý do sau:
Để phân lớp dữ liệu thuộc miền tai nạn giao thông với dữ liệu đầu vào lớn, cách thích hợp hơn cả là dùng luật cú pháp để lọc, bước làm này giảm đáng kể số lượng dữ liệu đầu vào cho quá phát hiện
Trang 3529 thống kê dựa trên dữ liệu
Pha 1- Phát hiện sự kiện vụ tai nạn: Dữ liệu đầu vào của pha này là các bản tin trên các trang báo điện tử, số lượng các bản tin rất nhiều và của rất nhiều các lĩnh vực khác nhau Nên tác giả chia bài toán này thành hai bước; bước 1 - dùng luật để lọc ra dữ liệu trong miền tai nạn giao thông, bước 2 - dùng bộ lọc để nhận diện các bản tin có chứa sự kiện vụ tai nạn Như vậy, để giải quyết bài toán phát hiện sự kiện vụ tai nạn là kết hợp giữa luật và học máy
Pha 2- Trích chọn sự kiện vụ tai nạn: Trong pha này ta phải trích chọn ra các thông tin về thời gian xầy ra vụ tai nạn, địa điểm ở đâu, số thương vong,
và phương tiên gây tai nạn Trích chọn thông tin về địa điểm xảy ra vụ tai nạn dùng nhận dạng thực thể (NER) và ontology hoặc dùng từ điển; thông tin về thời gian có thể ở dạng chuẩn (dd/mm/yyyy) hoặc không chuẩn (“giữa trưa ”,
“nửa đêm ”, “giờ tan tầm ” .), nên ta dùng luật để trích chọn ra thông tin; Trích chọn thông tin số thương vong (số tử vong và số bị thương) sử dụng nhận dạng thực thể và luật để lọc ra thông tin; Trích chọn thông tin phương tiện gây tai nạn, tác giả xây dựng một bộ từ điển các phương tiện giao thông sau đó dùng luật để so khớp với bộ từ điển
Như vậy, để giải quyết được các vấn đề trong hai pha ta kết hợp cả luật
và học máy (ở đây là phân lớp và nhận dạng thực thể)
3.2.2 Mô hình phát hiện và trích chọn sự kiện vụ tai nạn
Để giải quyết các vấn đề ở cả hai pha phần 3.3.1, tác giả đề xuất mô hình phát hiện và trích chọn sự kiện vụ tai nạn gồm có các thành phần chính như sau:
Trang 3630
Hình 3.1 Quá trình phát hiện và trích chọn sự kiện vụ tai nạn
Thu thập dữ liệu: phần này có nhiệm vụ thu thập dữ liệu tự động từ các
bản tin từ các trang báo điện tử trên Internet sau đó chuyển cho bước tiền xử
lý dữ liệu
Bộ lọc dữ liệu: Làm sạch dữ liệu, loại bỏ đi các kí hiệu thừa và thông tin
không cần thiết như: các thẻ HTML, thông tin quảng cáo được dữ liệu dạng thô (text) Sau đó chuyển nó sang pha phát hiện sự kiện vụ tai nạn, ta dùng luật để lọc ra các dữ liệu thuộc miền thông tin vụ tai nạn giao thông cần trích chọn
Trích chọn sự kiện: là bước trích chọn sự kiện vụ tai nạn; Ở bước này ta
trích chọn những thông tin đặc trưng của vụ tai nạn như: thời gian, địa điểm,
số thương vong, phương tiện gây tai nạn giao thông
Nhiệm vụ của bài toán phát hiện sự kiện vụ tai nạn, từ dữ liệu thô (text)
ở bước tiền xử lý dùng luật để lọc lấy dữ liệu trong miền thông tin vụ tai nạn giao thông, sau đó dữ liệu được chuyển sang bài toán trích chọn sự kiện vụ tai nạn
Bộ lọc dữ liệu
Trích chọn