Vấn đề cốt lõi của bài toán rút trích thông tin trên các miền chuyên biệt là xác định các từ, cụm từ thích hợp trong văn bản, cũng như các mối quan hệ liên quan đến ngữ nghĩa, cú pháp gi
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TẠ DUY CÔNG CHIẾN
XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP HỒ CHÍ MINH NĂM 2016
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TẠ DUY CÔNG CHIẾN
XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)
Chuyên ngành: KHOA HỌC MÁY TÍNH
Trang 3i
LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất
kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Tác giả luận án
Chữ ký
Tạ Duy Công Chiến
Trang 4ii
TÓM TẮT LUẬN ÁN
Cùng với truy xuất thông tin, hệ thống hỏi đáp, rút trích thông tin là một trong các ứng dụng phổ biến trong thời đại ngày nay Đặc biệt các hệ thống rút trích thông tin trên các miền chuyên biệt như y học, sinh học, giảng dạy đã mang lại nhiều lợi ích trong cuộc sống Tuy nhiên việc xây dựng các hệ thống rút trích thông tin trên các miền chuyên biệt thường gặp nhiều thử thách như việc xử lý thông tin từ các nguồn tài nguyên khác nhau, độ chính xác của thông tin và tốc độ xử lý của hệ thống Vì vậy hiện nay đã và đang có rất nhiều công trình nghiên cứu trong và ngoài nước liên quan đến xây dựng các hệ thống rút trích thông tin trên các miền chuyên biệt Mục đích của luận án là xây dựng hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học)
Để xây dựng các hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học), luận án đề xuất một cách tiếp cận dựa trên bản thể học (Ontology-based Information Extraction) kết hợp với các giải thuật xử lý ngôn ngữ tự nhiên và phương pháp thống kê Để thực hiện mục tiêu trên, luận án phải giải quyết các vấn đề chính Thứ nhất, đề xuất mô hình lý thuyết cho hệ thống rút trích thông tin theo chủ đề trên các tập tin văn bản Thứ hai, đề xuất cấu trúc, các lớp và các thành phần của Bản thể học trên miền Tin học, được gọi là Computing Domain Ontology (CDO) được thể hiện qua nhiều quan hệ ngữ nghĩa hơn các mô hình Bản thể học khác nói chung Thứ ba, đề xuất và cải tiến các giải thuật rút trích thông tin từ ba nguồn ngữ liệu khác nhau để xây dựng và làm giàu ontology, bao gồm các tập tin văn bản trong trong tập thư viện điện tử ACM (ACM Digital Library), Wikipedia, và WordNet Thứ
tư, luận án cài đặt hệ thống rút trích thông tin dựa trên ontology để trả lời câu truy vấn của người dùng Phần thực nghiệm của luận án đã được tiến hành dựa trên các tập tin văn bản trong trong tập thư viện điện tử ACM, các câu truy vấn nhập trực tiếp từ người dùng và các từ điển liên quan đến lĩnh vực Tin học Kết quả thực nghiệm phản ánh tính khả thi của các mô hình, giải thuật được đề xuất trong luận án
Trang 5iii
ABSTRACT
Nowadays, besides Information Retrieval and Question Answering, Information Extraction has become an emerging trend in the modern area of digital information processing Especially, in some certain domains such as Medicine, Biology and Education, Information Extraction has made significant contributions for the improvement of human living condition However, there are also a lot of challenges arising when the information extraction is exploited in a specific domain, e.g processing data from different resources, the quality and correctness of the extracted information and system performance when dealing with large-scale datasets Therefore, there is much research, both in international and national scales, has been conducted on the issue of building an efficient information extraction system on a specific domain It prompts the general objective of this dissertation, which is to build
a topic-oriented document-based information extraction system for a specific domain (chosen as Computing within the dissertation scope)
To develop such a proposed system, the dissertation proposes a novel methodology which combines ontology engineering, natural language processing and statistics algorithms In order to fulfil its objective, the dissertation has made the following contributions The first, the dissertation proposes a topic-based theoretical model of the information extraction system on textual documents The second, the dissertation proposes the structure, classes and instances of a specific ontology, known
as Computting Domain Ontology (CDO), which renders more semantic relations than other typical existing ontological models The third, the dissertation proposes and improves some algorithms of information extraction for building and enriching the ontology Lastly, the dissertation develops an ontology-based information extraction system for answering user's queries The experiments of the dissertation were conducted from the following materials: (i) a dataset of text documents collected from the ACM Digital Library; (ii) a collection of the user's queries inputted directly into the system and (iii) the computing dictionaries The experiment results show that the algorithms and the proposed models are feasible and introduce significant improvement compared to similar existing works
Trang 6iv
LỜI CẢM ƠN
Trong quá trình hoàn thành luận này, tôi đã được các Thầy Cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thường xuyên động viên khích lệ
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp đỡ quý báu của GS.TS Phan Thị Tươi, thầy hướng dẫn mà tôi tôn vinh và bày tỏ lòng biết ơn sâu sắc nhất
Tôi muốn bày tỏ lòng biết ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách Khoa Tp Hồ Chí Minh đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu tại Khoa
Lời cảm ơn của tôi xin được gửi đến Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình hoàn thành luận án
Đồng thời, tôi muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa Tp.HCM, Phòng Khoa học Công nghệ & Dự án, Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện đề tài cấp trường năm 2011
Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những lời động viên khích lệ quí báu giúp tôi vượt qua khó khăn để hoàn thành tốt luận án
Tác giả luận án
Tạ Duy Công Chiến
Trang 7v
MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH viii
DANH MỤC BẢNG BIỂU x
DANH MỤC CÁC TỪ VIẾT TẮT xi
CHƯƠNG 1 GIỚI THIỆU 1
1.1 Động cơ nghiên cứu 1
1.2 Mục tiêu và phạm vi nghiên cứu 6
1.3 Kết quả đạt được của luận án 9
1.4 Cấu trúc của luận án 11
CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN 14
2.1 Giới thiệu 14
2.2 Các nghiên cứu liên quan đến xây dựng Ontology 14
2.2.1 Khái niệm về Ontology 14
2.2.2 Các nghiên cứu xây dựng ontology 16
2.3 Các nghiên cứu xử lý và rút trích thông tin 19
2.3.1 Trong nước 19
2.3.2 Ngoài nước 20
2.4 Kết chương 21
CHƯƠNG 3 XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRÊN MIỀN CHUYÊN BIỆT 23
3.1 Giới thiệu 23
3.2 Giới thiệu một số mô hình rút trích thông tin 25
3.2.1 Các mô hình rút trích thông tin trên web 25
3.2.2 Các mô hình rút trích thông tin trên văn bản 27
3.3 Mục tiêu, hướng giải quyết và nhiệm vụ nghiên cứu mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt của luận án 29
3.4 Phương pháp nghiên cứu và hướng tiếp cận 32
3.5 So sánh mô hình rút trích đề xuất với các mô hình rút trích khác đã đề cập 34
3.6 Các nguồn ngữ liệu phục vụ cho hệ thống rút trích của luận án 34
3.6.1 Tập chủ đề của ACM và tập thư viện điện tử ACM 34
3.6.2 Wikipedia 34
3.6.2 WordNet 35
3.6.3 Babelnet: Từ điển đa ngôn ngữ 35
3.7 Kết chương 36
Trang 8vi
CHƯƠNG 4 XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TRÊN MIỀN TIN HỌC
(COMPUTING DOMAIN ONTOLOGY – CDO) 37
4.1 Giới thiệu Ontology 37
4.1.1 Các khái niệm 38
4.1.2 Một số phương pháp xây dựng ontology 41
4.2 Giới thiệu về một số ontology liên quan đến Tin học 45
4.2.1 Computing Ontology [9] 45
4.2.2 SwetoDblp ontology 45
4.3 Xây dựng và làm giàu Ontology chuyên biệt trên miền Tin học 46
2 1 Bước 1 – Xây dựng Lớp chủ đề (Topic layer) 47
2 2 Bước 2 – Xây dựng lớp Thành phần (Ingredient layer) 49
2 3 Bước 3 – Xây dựng lớp Synset 58
2 4 Bước 4 – Xây dựng lớp câu (Sentence layer) 59
4.4 Biểu diễn và lưu trữ CDO 63
4.4.1 Resource Description Framwork (RDF) 63
4.4.2 Ontology Web Language (OWL) 64
4.4.3 Chuyển đổi từ OWL sang cơ sở dữ liệu quan hệ 66
4.5 Kết quả thực nghiệm và đánh giá CDO 74
4.5.1 So sánh CDO và một số ontology trên thế giới 74
4.5.2 Kết quả xây dựng và làm giàu CDO 76
4.5.3 Đánh giá kết quả xây dựng và làm giàu CDO 77
4.6 Kết chương 81
CHƯƠNG 5 XÁC ĐỊNH CHỦ ĐỀ CÂU TRUY VẤN 83
5.1 Mô hình xác định chủ đề của câu truy vấn 83
5.2 Bài toán xác định chủ đề câu truy vấn và phương pháp đề xuất 88
5.2.1 Phân tích câu truy vấn 89
5.2.2 Xác định các quan hệ ngữ nghĩa bằng cây phụ thuộc 90
5.2.3 So trùng trên ontology 93
5.3 Kết quả thực nghiệm và đánh giá 98
5.3.1 Thực nghiệm 98
5.3.2 Kết quả thực nghiệm và đánh giá phương pháp xác định chủ đề câu truy vấn dựa trên CDO 98
5.3.3 So sánh với AIchemyAPI 101
5.3.4 Đánh giá về thời gian thực thi 101
5.3.5 Công cụ hỗ trợ và môi trường thực nghiệm 103
Trang 9vii
5.4 Kết chương 104
CHƯƠNG 6 RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ 105
6.1 Mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt 105
6.1.1 Rút trích thông tin từ các nguồn tài nguyên khác nhau 105
6.1.2 Rút trích thông tin dựa trên CDO trả lời câu truy vấn 106
6.2 Ví dụ minh họa hoạt động của hệ thống rút trích thông tin cho câu truy vấn dựa vào ontology CDO 113
6.3 Phân tích và đánh giá mô hình rút trích thông tin theo chủ đề 118
6.4 Thực nghiệm và đánh giá kết quả rút trích thông tin dựa trên CDO 119
6.4.1 Thực nghiệm và đánh giá kết quả dựa trên độ chính xác, độ truy hồi và trung bình điều hòa 119
6.4.2 Đánh giá về thời gian thực thi 123
6.5 Kết chương 124
TỔNG KẾT 125
Kết luận 125
Hướng phát triển 127
CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 128
TÀI LIỆU THAM KHẢO 130
PHỤ LỤC 141
Trang 10viii
DANH MỤC CÁC HÌNH ẢNH
Hình 1.1 Mô hình rút trích thông tin theo chủ đề dựa trên văn bản 8
Hình 3.1 Mô hình rút trích thông tin trên web 26
Hình.3.2 Mô hình rút trích theo C Feilmayr (nguồn [54]) 27
Hình.3.3 Mô hình rút trích văn bản của S Jonnalagadda (nguồn [54]) 28
Hình 3.4 Mô hình rút trích thông tin theo đề nghị của Batcha (nguồn [57]) 28
Hình 3.5 Mô hình SOBA (nguồn [59]) 29
Hình 3.6.Sơ đồ hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt 31
Hình 3.7 Mô hình xử lý vấn đề 1 33
Hình 4.1 Mô hình biểu diễn ontology chuyên biệt (nguồn [15]) 40
Hình 4.2 Ontology trên miền địa danh (nguồn [67]) 41
Hình 4.3 Computing ontology do tổ chức ACM thành lập (nguồn [9]) 45
Hình 4.4 Cấu trúc phân cấp CDO 46
Hình 4.5 Cấu trúc phân cấp chủ đề trong CDO 47
Hình 4.6 Số phần tử được rút trích từ các nguồn tài nguyên khi chưa áp dụng giá trị ngưỡng 54
Hình 4.7 Số phần tử được rút trích từ các nguồn tài nguyên sau khi áp dụng giá trị ngưỡng là 0,4 55
Hình 4.8 Mô hình xây dựng và làm giàu CDO từ các tập tin văn bản của ACM và Wikipedia 56
Hình 4.9 Một số quan hệ giữa các đối tượng trong CDO 61
Hình 4.10 CDO biểu diễn bằng Protégé 66
Hình 4.11 Mô hình ánh xạ các lớp OWL thành bảng 67
Hình 4.12 Ánh xạ thuộc tính đối tượng theo E Vysniauskas 68
Hình 4.13 Ánh xạ thuộc tính đối tượng thành các bảng trong cơ sở dữ liệu quan hệ 68
Hình 4.14 Mô hình quan hệ của CDO biểu diễn bằng RDB 70
Hình 4.15 So sánh tỷ lệ rút trích các đối tượng với Stanford CoreNLP 80
Hình 4.16 So sánh tỷ lệ rút trích các quan hệ ngữ nghĩa với Stanford CoreNLP 81
Hình 5.1 Mô hình phân cấp các chủ đề theo P.G Ipeirotis (nguồn [118]) 84
Hình 5.2 Mô hình nhận dạng chủ đề của Y Ishizuka (nguồn [121]) 85
Hình 5.3 Mô hình truy vấn thông tin của K.Wen (nguồn [122]) 86
Hình 5.4 Mô hình xác định chủ đề của câu truy vấn 88
Hình 5.5 Cây phụ thuộc của ví dụ 5.4 được phân tích bằng mô hình ngôn ngữ 90
Hình 5.6 Cây phụ thuộc được SLDP xây dựng 91
Hình 5.7 Phân loại kỹ thuật so trùng theo HUANG (nguồn [15]) 93
Hình 5.8 Cây phụ thuộc của truy vấn ở ví dụ 5.6 được SLDP tạo ra 96
Hình 5.9 Cây phụ thuộc của câu ở ví dụ 5.8 do SLDP tạo ra 97
Hình 5.10 Biểu đồ thể hiện kết quả thực nghiệm trên 320 câu truy vấn 100
Hình 5.11 Cây phụ thuộc của câu ở ví dụ 5.9 104
Hình 6.1 Mô hình tổng quát rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học) 105
Hình 6.2 Mô hình rút trích thông tin trả lời câu truy vấn 106
Hình 6.3 Cây đồ thị phụ thuộc của câu ở ví dụ 6.2 109
Hình 6.4 Mô hình ánh xạ các từ khóa tương ứng 110
Trang 11ix
Hình 6.5 Cây phụ thuộc của câu ở ví dụ 6.3 112 Hình 6.6 Tỷ lệ rút trích thành công dựa vào CDO để tạo tự động dạng biểu diễn trung gian cho câu truy vấn 113 Hình 6.7 Cây phụ thuộc của ví dụ 6.4 114 Hình 6.8 Cây phụ thuộc của câu ở ví dụ 6.5 116Hình 6.9 Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập chỉ dựa trên
từ khóa và các quan hệ ngữ nghĩa trong câu 121Hình 6.10 Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập 123
Trang 12x
DANH MỤC BẢNG BIỂU
Bảng 4.1 Ví dụ minh họa cách tính độ lợi 52
Bảng 4.2 Một số ví dụ khi xử lý bằng SLDP 61
Bảng 4.3 Các quan hệ ngữ nghĩa biểu diễn dưới dạng OWL và RDB 73
Bảng 4.4 So sánh CDO và một số ontology trên thế giới 75
Bảng 4.5 Tỷ lệ các đối tượng được rút trích từ các nguồn tài nguyên 76
Bảng 4.6 Tỷ lệ số câu rút trích từ các nguồn tài nguyên khác nhau 76
Bảng 4.7 Số lượng các quan hệ ngữ nghĩa trên một số chủ đề của CDO 77
Bảng 4.8 Bảng đánh giá các đối tượng thuộc lớp Thành phần thể hiện qua một số chủ đề trên CDO 79
Bảng 4.9 Bảng đánh giá các quan hệ ngữ nghĩa trong CDO thể hiện qua một số chủ đề 79
Bảng 4.10 Bảng so sánh tỷ lệ rút trích các đối tượng so với Stanford CoreNLP 80
Bảng 4.11 Bảng so sánh tỷ lệ rút trích các quan hệ ngữ nghĩa so với Stanford CoreNLP 81
Bảng 5.1 Các mẫu câu truy vấn nhập vào 98
Bảng 5.2 Kết quả đánh giá việc xác định chủ đề trên tập văn bản 99
Bảng 5.3 Kết quả đánh giá xác định chủ đề trên các dạng câu truy vấn khác nhau 100
Bảng 5.4 Kết quả thực nghiệm khi sử dụng AIchemyAPI trên tập ngữ liệu ACM 101
Bảng 5.5 Kết quả đánh giá khi sử dụng giải thuật đề nghị 5.1 trên tập ngữ liệu ACM 101
Bảng 5.6 Kết quả đánh giá về thời gian thực thi trong trường hợp có một từ haycụm từ khóa trong câu 102
Bảng 5.7 Kết quả đánh giá về thời gian thực thi trong trường hợp có 2-5 từ hay cụm từ khóa trong câu 102
Bảng 6.1 Hệ thống xác định các chủ đề của câu truy vấn ở ví dụ 6.4 114
Bảng 6.2 Kết quả rút trích thông tin cho câu truy vấn “oracle database” 115
Bảng 6.3 Hệ thống nhận dạng các chủ đề với ví dụ 6.5 117
Bảng 6.4 Kết quả rút trích thông tin cho ví dụ 6.5 dựa trên CDO 117
Bảng 6.5 Các mẫu câu truy vấn cho hệ thống rút trích thông tin dựa trên CDO 119
Bảng 6.6 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề Network 120
Bảng 6.7 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề OS 120
Bảng 6.8 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề IR 120
Bảng 6.9 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề NLP 121
Bảng 6.10 Kết quả rút trích thông tin trên chủ đề Network 122
Bảng 6.11 Kết quả rút trích thông tin trên chủ đề OS 122
Bảng 6.12 Kết quả rút trích thông tin trên chủ đề IR 122
Bảng 6.13 Kết quả rút trích thông tin trên chủ đề NLP 122
Bảng 6.14 Đánh giá thời gian rút trích thông tin từ CDO 124
Trang 13xi
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt
CDO Computing Domain Ontology Bản thể học trên miền Tin Học CRF Conditional Random Fields Mô hình trường ngẫu nhiên có điều
kiện DOM Document Object Model Mô hình đối tượng tài liệu
FCA Formal Concept Analysis Phân tích khái niệm hình thức FOGA Fuzzy Ontology Generation
GeT Graph-embedded Tree Cây đồ thị nhúng
HTML/HTM Hyper Text Markup Language Ngôn ngữ đánh dấu siêu văn bản
IE Information Extraction Rút trích thông tin
IR Information Retrieval Truy xuất thông tin
JAPE Java Anotation Pattern Engine Động cơ mẫu chú thích java
KIM Knowledge and Information
Mangement
Quản lý thông tin và tri thức
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
NMF Non negative Matrix
Factorization
Thừa số ma trận không âm
OOMP Ontology of
Nền tảng mô tả tài nguyên
RMN Relational Markov Network Mạng Markov biểu diễn quan hệ
Trang 14xii
Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt
SLDP Stanford Lexical Dependency
Parser
Bộ phân tích cú pháp văn phạm phụ thuộc Stanford
SVM Support Vector Machines Máy vector hỗ trợ
UMLS Unified Medical Language
System
Hệ thống ngôn ngữ y học đồng nhất
XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng
YAGO Yet Another Great Ontology Bản thể học YAGO
Trang 151
CHƯƠNG 1 GIỚI THIỆU
1.1 Động cơ nghiên cứu
Trong lĩnh vực Rút trích thông tin, các nghiên cứu quan tâm đến rút trích nội dung văn bản dựa trên một số tính chất đặc trưng Rút trích nội dung văn bản là một vấn đề khó trong xử lý văn bản cũng như khó để đạt độ chính xác như mong muốn Gần đây, một số đề tài nghiên cứu rút trích thông tin trong văn bản đã đưa ra
hướng tiếp cận mới là rút trích các cụm từ đặc trưng mang tính ngữ nghĩa của câu trong văn bản Phương pháp này đã cải thiện độ chính xác và tăng khả năng ứng dụng
của chúng trong nhiều lĩnh vực khác nhau Tuy nhiên hướng tiếp cận này đòi hỏi hệ thống rút trích phải có khả năng phân tích cú pháp và ngữ nghĩa của các câu thậm chí
cả văn bản, cũng như phải được biệt lập trong một chủ đề nhất định
Hiện nay và trong tương lai, nguồn thông tin (văn bản) là vô cùng lớn và nhu cầu truy xuất thông tin chính xác của người sử dụng ngày càng cao trong từng chủ đề thuộc các lĩnh vực kinh tế, xã hội, khoa học Vì vậy các hệ thống rút trích thông tin, ngoài khả năng trích xuất các cụm từ đặc trưng ngữ nghĩa của câu trong văn bản còn
phải có khả năng phân tích thông tin theo từng chủ đề Thực hiện hai cách tiếp cận
này, hệ thống sẽ rút trích thông tin chính xác và hiệu quả hiệu quả hơn
Trong công trình nghiên cứu [1], A Nuntiyagul cùng các cộng sự thực hiện phân loại câu hỏi nhập vào từ người dùng trên miền toán học Trước hết A Nuntiyagul định
nghĩa khái niệm Item Banks là tập hợp các từ quan trọng trong câu hỏi được ghép lại thành câu dưới dạng rút gọn để qua đó nhận dạng và phận loại câu A Nuntiyagul đã xây dựng tập dữ liệu huấn luyện từ các văn bản liên quan đến Toán học bằng phương
pháp Term Frequency with Inverse Document Frequency (TFIDF) Quá trình rút trích
thông tin từ văn bản là rút trích các từ khóa và các quan hệ ngữ nghĩa liên quan đến
chúng Để rút trích từ khóa A Nuntiyagul tính tần suất xuất hiện của các từ trong văn bản Còn để rút trích các quan hệ ngữ nghĩa liên quan đến các từ khóa, A Nuntiyagul
đã áp dụng phương pháp “Gói từ (bag-of-words)” Sau đó A Nuntiyagul tiến hành xây dựng tập mẫu từ khóa trong câu (Patterned Keyword in Phrase – PKIF) dựa vào các từ khóa, các luật và giải thuật máy vector hỗ trợ (Support Vector Machine-SVM) Các
Trang 162
mẫu câu này sẽ được dùng để xác định chủ đề của các câu hỏi A Nuntiyagul cũng
định nghĩa một tập các chủ đề tương ứng với mẫu câu này Tuy nhiên cơng trình này vẫn cịn một số hạn chế như sau
i Phương pháp “gĩi từ” khơng xác định các quan hệ ngữ nghĩa liên quan đến các
từ khĩa
ii Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý
iii Phương pháp “gĩi từ” cũng khơng thể xếp loại quan hệ ngữ nghĩa đĩ thuộc về quan hệ IS-A, PART-OF, INCLUDE
iv Việc xác định các quan hệ ngữ nghĩa khơng chính xác dẫn đến việc phân loại chủ đề cho câu hỏi khơng chính xác
Trong cơng trình [2], F.Z Lahlou cùng các cộng sự xây dựng một hệ thống đề nghị (Context Aware Recommendation System - CARS) Mục đích của hệ thống sẽ hiển
thị những đề nghị cho người dùng từ nhiều lãnh vực khác nhau Để xây dựng hệ thống,
F.Z Lahlou rút trích thơng tin từ những bài phê bình của người dùng trên mạng từ
nhiều lĩnh vực khác nhau Để cĩ thể phân loại những bài phê bình này, F.Z Lahlou đã
sử dụng ba giải thuật khác nhau như SVM, k-Nearest Neighbor (k-NN) và Multinomial Nạve Bayes (MNB) Kết quả đánh giá theo F.Z Lahlou là thấp, trong đĩ tốt nhất là 60,1% (MNB) vì F.Z Lahlou khơng tập trung trên một miền nào cả nên tính chính xác
là khơng cao
Hiện tại Internet (Web) được xem là nguồn thơng tin khổng lồ của nhân loại Theo thời gian, nguồn thơng tin này khơng ngừng được chia sẻ, mở rộng và phát triển Các thơng tin trên Internet hầu hết được biểu diễn bởi ngơn ngữ tự nhiên, trong đĩ phần lớn là thơng qua các trang Web, thường là khơng cĩ cấu trúc Đồng thời với sự phát triển của Internet là sự gia tăng rất lớn về nhu cầu truy xuất thơng tin, rút trích thơng tin của người sử dụng, trong đĩ việc tìm kiếm các thơng tin thể hiện trong ngơn ngữ tiếng Anh chiếm tỉ lệ đáng kể
Để phục vụ cho những nhu cầu tìm kiếm thơng tin của người sử dụng, các hệ thống truy xuất thơng tin (IR), rút trích thơng tin (IE) đã được nghiên cứu và phát triển Tuy nhiên việc tìm kiếm thơng tin thường khơng nhận được kết quả đầy đủ, chính xác, đặc biệt là những thơng tin thuộc các chuyên ngành, như Y học, Sinh học, chống tội phạm
Trang 17Bên cạnh các mô hình xử lý ngôn ngữ tự nhiên, các mô hình học máy cũng thường được sử dụng để nhận dạng và rút trích thông tin nhất là rút trích các thực thể
có tên Công trình [4], J Diesner dùng mô hình Ràng buộc ngẫu nhiên có điều kiện
(CRF) để nhận dạng các thực thể có tên liên quan đến con người và tổ chức Công trình đã đạt những kết quả khả quan, tuy nhiên một vài hạn chế của công trình là:
i Chỉ giải quyết cho các bài toán nhận dạng thực thể có tên
ii Muốn rút trích các quan hệ ngữ nghĩa phải dựa vào các luật Do đó các quan hệ ngữ nghĩa thường chỉ là IS-A, PART-OF
iii Các quan hệ ngữ nghĩa chỉ là những quan hệ nhị phân
Trong công trình [5], J Jiang rút trích các đối tượng và các quan hệ ngữ nghĩa từ
các tập tin văn bản liên quan đến con người, các tổ chức và vị trí Tuy nhiên công trình này vẫn còn một số hạn chế sau
i Chỉ có hai quan hệ ngữ nghĩa là: FounderOf, HeadQuateredIn trong ontology
ii Các quan hệ này là quan hệ nhị phân, là quan hệ chỉ có hai đối tượng tham gia Các quan hệ nhị phân được tham chiếu từ ACE (Automatic Content Extraction) bao gồm: NEAR, AT, ROLE, SOCIAL, PART
iii Ontology không phân chia thành nhiều lớp khác nhau
Từ các phân tích trên, để cung cấp cho người dùng những thông tin chính xác về một lĩnh vực chuyên biệt mà họ quan tâm, như giá cả chứng khoán, thông tin về một món hàng trước khi mua, cách điều trị một căn bệnh , thì cần phải có các hệ thống rút trích thông tin cho các lĩnh vực chuyên biệt này
Để có thể rút trích thông tin phù hợp với mong muốn của người dùng, các hệ
thống phải có khả năng phân tích ngữ nghĩa của câu truy vấn và thông tin rút trích phải lấy từ các nguồn tài nguyên có độ tin cậy cao Bài toán xây dựng các hệ thống
rút trích thông tin trên các miền chuyên biệt sẽ giải quyết được đáng kể sự nhập nhằng ngữ nghĩa của thông tin khi tiến hành rút trích
Trang 184
Trong lĩnh vực quan trọng như Y học, liên quan đến việc chẩn đoán bệnh và cấp thuốc hàng ngày đối với các bệnh nhân, để tránh sai sót các hệ thống rút trích thông tin trên lĩnh vực này đã được nghiên cứu, xây dựng và phát triển khá nhiều Tương tự, các
hệ thống rút trích thông tin chuyên biệt trên các lĩnh vực sinh học, nông nghiệp hay phòng chống tội phạm cũng được nghiên cứu và phát triển khá mạnh Một lĩnh vực khác cũng cần phải nhắc đến đó là giáo dục Các hệ thống rút trích thông tin đã phục
vụ khá nhiều trong công việc giảng dạy, học tập Những hệ thống rút trích thông tin cho một số miền chuyên biệt liên quan đến các môn học hoặc liên quan đến chuyên ngành đào tạo giúp cho sinh viên học sinh tra cứu, tìm hiểu nhanh hơn về tri thức liên quan đến các khái niệm trong các môn học hay chuyên ngành được chọn
Vấn đề cốt lõi của bài toán rút trích thông tin trên các miền chuyên biệt là xác định các từ, cụm từ thích hợp trong văn bản, cũng như các mối quan hệ liên quan đến ngữ nghĩa, cú pháp giữa chúng để có được những thông tin chính xác và đầy đủ phù hợp với miền chuyên biệt Để giải quyết vấn đề này, nhiều nghiên cứu đã hướng đến
phân tích ngữ nghĩa của thông tin cần rút trích dựa trên cơ sở tri thức như bản thể học (ontology) Các hệ thống rút trích thông tin trên các miền chuyên biệt dựa trên
bản thể học hướng đến ngữ nghĩa nhiều hơn so với các hệ thống rút trích truyền thống trước đây được xây dựng bằng các mô hình toán học như mô hình Markov ẩn (HMM),
mô hình trường ngẫu nhiên có điều kiện (CRF), hay mô hình máy vector hỗ trợ (SVM) v.v Tuy nhiên một trong những thách thức của các mô hình rút trích thông tin dựa trên bản thể học là việc xây dựng và làm giàu bản thể học
Để hỗ trợ xây dựng các hệ thống rút trích trên các miền chuyên biệt, ontology được tổ chức thành các lớp tương ứng với các khái niệm, đối tượng khác nhau, giữa chúng tồn tại các mối quan hệ ngữ nghĩa do đó ontology tạo thành một mạng ngữ nghĩa liên kết các đối tượng Thông qua mạng ngữ nghĩa, ontology bổ sung tri thức đầy đủ cho các đối tượng, từ đó sẽ giúp cho người dùng hiểu rõ hơn ý nghĩa, đặc điểm của các đối tượng Việc xây dựng một hệ thống rút trích thông tin trên các miền chuyên biệt thành công hay không, điều này phụ thuộc vào việc xây dựng các khái niệm, đối tượng, các lớp và mối quan hệ giữa chúng trong ontology
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên Web), cùng với hướng giải quyết làm sao để hệ thống có thể thông minh khi xử lý nhằm rút
Trang 19vựng (Lexical Analyzer) để rút trích các sự kiện từ các bài báo khoa học Công trình
đã đạt được những kết quả và còn một số hạn chế sau
i Rút trích 79 sự kiện khác nhau liên quan các công thức về Y sinh, độ chính xác
là 84%, độ truy hồi là 21%
ii Dùng bộ phân tích cú pháp của văn phạm cấu trúc cụm từ hướng đến trọng tâm (Head-Driven Phrase Structure Grammar - HPSG) Bộ phân tích cú pháp HPSG phân tích câu của văn bản thuộc miền Y sinh Tuy nhiên HPSG không thể hiện được mối quan hệ phụ thuộc giữa các từ trong câu
iii Ontology không phân chia nhiều lớp
Trong công trình [7], M Abulaish xây dựng một hệ thống rút trích thông tin và
hỏi đáp từ văn bản trên miền sinh học dựa trên ontology Hệ thống đã rút trích các đối tượng và các quan hệ ngữ nghĩa liên quan đến miền sinh học từ các tập tin văn bản Công trình đã sử dụng NLP kết hợp với các luật để khai phá dữ liệu Tuy nhiên công trình vẫn còn một số hạn chế sau
i Các quan hệ ngữ nghĩa chỉ bao gồm các quan hệ IS-A, PART-OF và là quan hệ nhị phân R(Ci, Cj)
ii Ontology chỉ bao gồm ba chủ đề khác nhau: nguồn sinh học (Biological source), các vật liệu sinh học (Biological substance) và các tên khác (Other_name)
iii Ontology được rút trich từ các bài bào của MEDLINE bao gồm 400.000 từ và 100.000 chú thích do đó ontology chưa bao phủ được các chủ đề trong miền Sinh học
Trong công trình [8], M.P Nepal cùng các cộng sự xây dựng hệ thống rút trích
thông tin dựa trên ontology trên miền Xây dựng Để xây dựng ontology trên miền Xây
dựng, M.P Nepal đã rút trích thông tin từ trên Internet Ontology bao gồm hai lớp chính là Component và Intersection Trong mỗi lớp chính có một số lớp con và các đối tượng thuộc về các lớp con Lớp Component diễn tả các thành phần liên quan đến lĩnh
Trang 206
vực Xây dựng, trong khi Intersection diễn tả sự giao tiếp giữa các thành phần Công
trình đã hỗ trợ trong lĩnh vực Xây dựng, tuy nhiên vẫn còn một số hạn chế như :
i Do số lớp chủ đề trong ontology ít nên chưa thể hiện được nhiều vấn đề của lĩnh vực Xây dựng
ii Chỉ bao gồm một quan hệ ngữ nghĩa là IS-A
Từ nghiên cứu và phân tích các công trình khoa học về rút trích thông tin trên miền chuyên biệt dựa vào ontology hiện nay trên thế giới, tác giả nhận thấy còn tồn tại một số hạn chế sau
Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý [1]
Chưa sử dụng bộ phân tích cú pháp phù hợp nên không cung cấp được mối quan hệ phụ thuộc giữa các từ trong câu [6]
Sự phân lớp trong Ontology là đơn giản [6] ; số lớp khái niệm còn ít nên ontology chưa hỗ trợ rút trích thông tin cho nhiều vấn đề của lĩnh vực Xây dựng [8], hoặc ontology chỉ bao gồm ba chủ đề [7]
Các quan hệ ngữ nghĩa giữa các đối tượng trong ontology cũng chỉ bao gồm các quan hệ nhị phân R (Ci, Cj), là quan hệ IS-A, PART-OF [7] [9], hoặc chỉ bao gồm một quan hệ ngữ nghĩa là IS-A [8]
Ontology được xây dựng và làm giàu với 400.000 từ và 100.000 chú thích [7]
1.2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu luận án là xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học) dựa trên Computing Domain Ontology (CDO) Khác với Computing Ontology của nhóm ACM [9] (hiện nay vẫn còn đang cập nhật các chủ đề) chỉ tập trung vào việc phân loại các chủ đề liên quan đến Khoa Học Máy Tính là chính, không có nhiều các đối tượng trong mỗi lớp và chỉ có một số các quan hệ IS-A, PART-OF hay SwetoDblp Ontology [10] chỉ tập trung vào các công trình khoa học đã được công bố trên thế giới (bao gồm các thông tin : tác giả, tên công trình, ngày tháng năm công bố, tên hội nghị hay tạp chí) Hơn nữa, hai ontology này cũng không khai thác các quan hệ đồng nghĩa, thượng danh và hạ danh Nhằm khắc phục những hạn chế nêu trên, luận án đã thực hiện những cải tiến sau trong quá trình xây dụng CDO
Trang 217
i CDO do luận án đề xuất có 170 lớp chủ đề khác nhau, mỗi lớp có nhiều lớp con, với hơn 1 triệu đối tượng thuộc các lớp khác nhau, do đó có thể đáp ứng yêu cầu rút trích thông tin ở nhiều lĩnh vực liên quan đến Tin học
ii Các quan hệ ngữ nghĩa giữa các đối tượng thuộc CDO không chỉ có IS-A, PART-OF mà còn mở rộng thêm quan hệ : INCLUDE, MADE-OF, RESULT-
OF, quan hệ thượng danh, hạ danh và đồng nghĩa Qua đó thông tin rút trích sẽ giàu tính ngữ nghĩa hơn Quan hệ ngữ nghĩa trong CDO không chỉ giới hạn ở quan hệ nhị phân mà còn có thể là quan hệ của nhiều hơn hai đối tượng, được biểu diễn bằng R(C1, …, Ci) với i 2
iii Ngoài ra CDO còn có các quan hệ đồng nghĩa nên sẽ tránh được giai đoạn thay thế các từ viết tắt nếu trong câu truy vấn của người dùng có xuất hiện, do đó sẽ tiết kiệm thời gian hơn Ví dụ, trung bình một câu truy vấn được thực thi trên WordNet ở chế độ offline tốn 2,5ms (SQL Server), trong khi thực thi trên CDO với cùng một cơ sở dữ liệu chỉ mất 0,4ms
iv Việc xác định chủ đề dựa trên CDO và quá trình rút trích thông tin cho người dùng cũng được thực hiện trên lớp chủ đề này của CDO, nên sẽ tránh được sự nhập nhằng chủ đề khi rút trích thông tin
Trong phạm vi nghiên cứu, luận án sẽ áp dụng các giải thuật xử lý ngôn ngữ tự nhiên kết hợp với xác suất thông kê và ontology, đó là cơ sở để xây dựng một hệ thống rút trích thông tin văn bản theo chủ đề trên miền Tin học Ngoài chức năng rút trích thông tin, hệ thống còn có chức năng như một hệ thống hỏi đáp liên quan đến lĩnh vực Tin học Mô hình tổng quan của hệ thống được thể hiện qua hình 1.1
Trang 228
Hình 1.1 Mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học)
Để xây dựng mô hình rút trích thông tin theo chủ đề trên miền chuyên biệt (Tin học) dựa trên ontology, luận án cần giải quyết một số bài toán sau đây
Bài toán 1: Nhận dạng và rút trích các đối tượng, các quan hệ ngữ nghĩa từ những nguồn ngữ liệu khác nhau để xây dựng và làm giàu Ontology
Ontology là một cơ sở tri thức dùng để chia sẻ thông tin, trong đó bao gồm các lớp chủ đề với những khái niệm, đối tượng, đặc tính và mối quan hệ giữa chúng Ontology được xây dựng là ontology của một miền chuyên biệt Một miền chuyên biệt
có thể gồm nhiều chủ đề khác nhau Mỗi chủ đề sẽ là một hệ thống mạng ngữ nghĩa liên quan đến các từ, cụm từ đặc trưng cho chủ đề
Để xây dựng ontology trên miền Tin học, luận án sử dụng cấu trúc cây phân cấp chủ đề của ACM (ACM categories) để xây dựng lớp chủ đề trong ontology Kho ngữ liệu tiếp theo để xây dựng ontology là tập văn bản đã được xác định chủ đề từ tập thư viện điện tử ACM (ACM Digital Library) Để nhận dạng và rút trích các khái niệm, từ ngữ trong các tập tin văn bản theo từng lớp chủ đề khác nhau, luận án sử dụng một số các giải thuật về xử lý ngôn ngữ tự nhiên như tách câu, gán nhãn (POS-Tag), phân tích câu Sau khi nhận dạng, luận án sẽ tiến hành rút trích các đối tượng và các từ hay cụm
từ này trong các kho ngữ liệu Tuy nhiên để đảm bảo độ chính xác cho các đối tượng này, luận án đã kết hợp phương pháp xác suất thống kê với xử lý ngôn ngữ tự nhiên để đánh giá chúng trước khi bổ sung vào ontology [CT1], [CT4]
Để làm giàu tri thức cho ontology phục vụ cho quá trình rút trích, luận án sử dụng các ontology có sẵn như Wikipedia, WordNet, Babelnet
Một vấn đề khác không thể thiếu trong quá trình xây dựng và làm giàu ontology trên miền chuyên biệt là nhận dạng các mối quan hệ giữa các đối tượng trong ontology Các mối quan hệ này bao gồm các quan hệ ngữ nghĩa và quan hệ cú pháp giữa các khái niệm, các đối tượng trong câu Tùy thuộc vào mục đích khác nhau của các ứng dụng, mà các quan hệ này có thể được nhận dạng và rút trích theo nhiều cách khác nhau Thông thường những quan hệ này là quan hệ hai ngôi xác định mối quan hệ
giữa hai đối tượng như: thủ đô, vị trí, ví dụ, capital (“Hanoi”, “Vietnam”), location
(“Paris”, “France”), hay quan hệ IS-A, PART-OF, INCLUDE Trong phạm vi nghiên cứu của luận án, các quan hệ ngữ nghĩa được luận án khai thác là các quan hệ đồng
Trang 239
nghĩa, quan hệ thượng danh (hypernym), hạ danh (hyponym), là (is-a), từng phần (part-of), gộp (include) Bên cạnh đĩ, trong quá trình nhận dạng và rút trích các đối tượng, luận án cũng quan tâm đến các quan hệ cú pháp giữa của các đối tượng trong ontology để cĩ được những câu hồn thiện hơn Những câu này sẽ bổ sung tri thức cho chức năng hỏi đáp của hệ thống rút trích
Nội dung liên quan đến bài tốn này được cơng bố trong các cơng trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT9], [CT11] và [CT12]
Bài tốn 2: Xác định chủ đề câu truy vấn dựa trên ontology
Với mục tiêu xây dựng hệ thống rút trích thơng tin trả lời câu truy vấn từ người dùng, việc phân tích và xác định chủ đề câu truy vấn là một trong các bài tốn mà luận
án cần giải quyết Để giải quyết bài tốn này, một số phương pháp đã được đề xuất như giải thuật SVM, Nạve Bayes, hay dựa trên ontology Nhằm tận dụng cấu trúc phân lớp cĩ sẵn trong ontology, luận án đề xuất mơ hình xác định chủ đề câu truy vấn dựa trên các từ khĩa trong câu và dựa trên ontology Tương tự như trong bài tốn thứ nhất, các giải thuật xử lý ngơn ngữ tự nhiên như tách câu, gán nhãn để phân tích câu truy vấn được sử dụng trong bài tốn này Bên cạnh đĩ, luận án cũng sử dụng bộ phân tích cú pháp để nhận dạng và rút trích mối quan hệ ngữ nghĩa giữa các từ trong câu truy vấn
Nội dung liên quan đến bài tốn 2 được cơng bố trong cơng trình [CT5]
Bài tốn 3: Rút trích thơng tin trả lời câu truy vấn
Sau khi xác định chủ đề câu truy vấn ở bài tốn 2, hệ thống sẽ dựa trên ontology trên miền Tin học để rút trích thơng tin liên quan đến câu truy vấn từ người dùng Những thách thức của bài tốn này là thơng tin rút trích phải cĩ độ chính xác cao phù hợp với chủ đề câu truy vấn và tốc độ xử lý của hệ thống phải nhanh Để vượt quá những thách thức này luận án đã xét đến ngữ nghĩa của câu truy vấn kết hợp với kinh nghiệm (heuristic) để diễn dịch câu truy vấn sang ngơn ngữ trung gian sau đĩ mới tiến hành rút trích thơng tin từ ontology
Nội dung liên quan đến bài tốn này được cơng bố trong các cơng trình [CT6], [CT8] và [CT10]
1.3 Kết quả đạt được của luận án
Các kết quả đạt được của luận án bao gồm:
Trang 2410
Kết quả thứ nhất: Đề xuất mô hình xây dựng và làm giàu Computing Domain
Ontology (CDO)
CDO được xây dựng và làm giàu dựa trên ba nguồn tài nguyên khác nhau Luận án
đã đề xuất ba phương pháp khác nhau bao gồm: (i) phương pháp xây dựng CDO dựa
trên các tập tin văn bản từ tập thư viện điện tử ACM (Document - Based Knowledge
Base Traning); (ii) phương pháp làm giàu CDO dựa trên kho ngữ liệu có sẵn
Wikipedia (Wikipedia - Based Knowledge Base Traning); (iii) phương pháp làm giàu CDO dựa trên ontology WordNet (WordNet – Based Knowledge Base Training);
So với các ontology hiện tại thì CDO có một số điểm mới là:
Cấu trúc phân lớp trong CDO Trong CDO bao gồm bốn lớp trong đó các đối
tượng của lớp này có thể có những quan hệ với các đối tượng của lớp khác như quan hệ đồng nghĩa, hạ danh, thượng danh Mỗi lớp sẽ chứa đựng những đối tượng khác nhau phục vụ cho bài toán rút trích thông tin
Số lượng chủ đề CDO bao gồm 170 chủ đề khác nhau thuộc lĩnh vực Tin học
và hơn một triệu phần tử thuộc các lớp và các chủ đề khác nhau
Các quan hệ ngữ nghĩa CDO bao gồm các quan hệ đồng nghĩa, thượng danh
hạ danh, IS-A, PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS
CDO được làm giàu trên ba lớp: Thành phần, Synset và Câu
Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT10], [CT11] và [CT12]
Kết quả thứ hai: Đề xuất phương pháp xác định chủ đề dựa trên ontology có
xét đến quan hệ ngữ nghĩa giữa các từ trong câu
Phương pháp xác định chủ đề câu truy vấn bao gồm các bước: phân tích câu truy vấn từ người dùng; nhận dạng và rút trích các từ khóa cũng như các mối quan hệ ngữ nghĩa giữa chúng với các từ còn lại trong câu; xác định chủ đề dựa trên CDO
Khác với một số mô hình xác định chủ đề bằng các giải thuật có giám sát như SVM, HMM hay CRF, luận án đề xuất phương pháp xác định chủ đề dựa trên ontology Bởi vì ontology là mạng ngữ nghĩa biểu diễn mối quan hệ giữa các khái niệm theo cấu trúc phân cấp, do đó việc xác định chủ đề của câu truy vấn thông qua ontology sẽ có xác suất tìm thấy cao hơn (theo [11] [12]) và phù hợp với những chủ đề
Trang 2511
đã được hệ thống rút trích hỗ trợ, tránh được nhập nhằng Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT5]
Kết quả thứ 3: Xác định và rút trích các mối quan hệ ngữ nghĩa và cú pháp từ
các tập tin văn bản trong tập thư viện điện tử ACM và từ các nguồn tài nguyên
có sẵn như Wikipedia, WordNet
Xác định mối quan hệ giữa các đối tượng trong ontology là công việc quan trọng và cần thiết trong quá trình xây dựng và làm giàu ontology Luận án đề xuất hai phương pháp xác định mối quan hệ giữa các đối tượng là mối quan hệ ngữ nghĩa và mối quan hệ cú pháp Các quan hệ ngữ nghĩa và cú pháp ở đây có thể cho phép có nhiều hơn hai đối tượng tham gia trong quan hệ
Các quan hệ ngữ nghĩa bao gồm các quan hệ đồng nghĩa, thượng danh, hạ danh được rút trích từ ontology WordNet Bên cạnh đó, luận án còn nhận dạng các quan hệ ngữ nghĩa như IS-A, PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS khi tiến hành phân tích câu từ các nguồn ngữ liệu khác nhau Các quan hệ này bổ sung tri thức cho những khái niệm trong ontology
Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT9]
Kết quả thứ tư: Đề xuất mô hình hỏi đáp, rút trích thông tin dựa trên các từ
khóa, chủ đề câu truy vấn và từ CDO
Với chức năng của một hệ thống hỏi đáp, hệ thống phải trả lời các câu truy vấn
từ người dùng Để hỗ trợ việc truy xuất thông tin dễ dàng và nhanh hơn, luận án đề xuất phương pháp chuyển đổi từ ngôn ngữ OWL sang mô hình cơ sở dữ liệu quan hệ
Bên cạnh đó luận án cũng đề xuất phương pháp dựa trên kinh nghiệm (heuristic) để
thông dịch tự động câu truy vấn của người dùng sang ngôn ngữ trung gian trước khi rút trích thông tin từ CDO dựa trên các từ khóa, chủ đề câu truy vấn
Các giải thuật và nội dung liên quan đến các kết quả này được công bố trong các công trình [CT6] [CT8] và [CT10]
1.4 Cấu trúc của luận án
Luận án được chia thành sáu chương, phần tổng kết và hai phụ lục, trong đó ở đầu mỗi chương đều có phần giới thiệu tổng quan và ở cuối mỗi chương đều có phần kết chương
Trang 2612
Chương 1 trình bày động cơ nghiên cứu, mục tiêu, phạm vi và những kết quả đạt
được của luận án; giới thiệu cấu trúc của luận án
Chương 2 trình bày các nghiên cứu ở trong nước và ngoài nước liên quan đến
các vấn đề mà luận án quan tâm Chương này trình bày một cách tổng quan những hướng nghiên cứu liên quan đến việc xây dựng và làm giàu ontology trên các miền chuyên biệt cũng như những vấn đề liên quan đến nhận dạng, rút trích các khái niệm, các từ, cụm từ hay các quan hệ ngữ nghĩa, cú pháp liên quan đến ontology của luận án
Chương 3 trình bày các mô hình lý thuyết liên quan đến việc xây dựng và rút
trích thông tin trên miền chuyên biệt Các mô hình cũng như những giải thuật liên quan đến xử lý thông tin trên dữ liệu phi cấu trúc như tập tin văn bản hay trên dữ liệu
có cấu trúc như các trang web, XML, các cơ sở dữ liệu quan hệ Bên cạnh đó chương 3 cũng giới thiệu các ontology trên các miền chuyên biệt đã được xây dựng theo các phương pháp khác nhau, nhưng đều tốn rất nhiều công sức và thời gian Chương này cũng giới thiệu về các nguồn ngữ liệu mà luận án đã sử dụng để rút trích thông tin Nội dung của chương 3 là cơ sở cho việc đề xuất các mô hình và những giải thuật xử lý liên quan đến các chương tiếp theo
Chương 4 trình bày các mô hình, giải thuật liên quan đến việc xây dựng và làm
giàu ontology trên miền chuyên biệt Tin học Các giải thuật huấn luyện dữ liệu từ tập thư viện điện tử ACM, Wikipedia, WordNet để xây dựng và làm giàu ontology trên miền Tin học, để từ đó giải quyết các bài toán tiếp theo Nội dung này đã được công
bố trong các công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT10], [CT11], [CT12]
Chương 5 trình bày mô hình và giải thuật xác định chủ đề câu truy vấn của
người dùng Để xác định chủ đề của câu truy vấn làm tiền đề phục vụ cho việc rút trích thông tin, trước hết phải nhận dạng các từ, cụm từ khóa cùng các quan hệ cú pháp, ngữ nghĩa của các từ trong câu truy vấn, để từ đó mới có thể giải quyết bài toán xác định chủ đề một cách chính xác Luận án đã dùng ontology để xác định chủ đề câu truy vấn dựa vào các từ, cụm từ khóa và các quan hệ ngữ nghĩa, cú pháp giữa các từ trong câu truy vấn Nội dung này đã công bố trong công trình [CT5]
Chương 6 trình bày mô hình rút trích thông tin dựa trên ontology trả lời câu truy
vấn Với chức năng hỏi đáp liên quan đến lĩnh vực Tin học, sau khi xác định chủ đề,
hệ thống sẽ dựa vào ontology trên miền Tin học để rút trích các thông tin phù hợp hiển
Trang 2713
thị cho người dùng Một số các giải thuật đã được đề xuất và cải tiến để phù hợp với cấu trúc của ontology trong quá trình rút trích thông tin Nội dung này đã được công
bố trong các công trình [CT6], [CT8] và [CT10]
Phần tổng kết luận án trình bày những kết quả đạt được cũng như những dự
định nghiên cứu trong tương lai liên quan đến luận án Các kết quả của luận án đã được công bố trong các công trình [CT2], [CT6], [CT9], [CT10], [CT12]
Hai phụ lục liên quan đến kết quả thực nghiệm mà luận án đạt được
Trang 2814
Chương 2 sẽ trình bày các hướng nghiên cứu trong và ngoài nước, liên quan đến các nghiên cứu khai thác, xử lý thông tin, các phương pháp xây dựng và làm giàu ontology, các hệ thống ontology phục vụ cho các ứng dụng khác nhau Đồng thời chương này cũng trình bày các phương pháp và giải thuật xây dựng những hệ thống rút trích thông tin tự động dựa trên ontology Mục đích của chương là xác định những ưu điểm và hạn chế của các nghiên cứu trước đây, làm tiền đề cho hướng nghiên cứu của luận án
2.1 Giới thiệu
Mục tiêu của luận án là xây dựng hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (luận án đề xuất dựa trên ontology chuyên biệt) Các công việc tiến hành bao gồm:
Xây dựng ontology chuyên biệt trên miền Tin học
Xây dựng hệ thống rút trích dựa trên ontology
Để thực hiện những công việc trên, luận án đã áp dụng một số giải thuật xử lý ngôn ngữ tự nhiên kết hợp với xác suất thống kê để giải quyết các bài toán liên quan đến khai phá, xử lý, rút trích thông tin, xây dựng và làm giàu ontology Hiện tại đã và đang có rất nhiều những công trình nghiên cứu trong và ngoài nước giải quyết các bài toán nêu trên
2.2 Các nghiên cứu liên quan đến xây dựng Ontology
2.2.1 Khái niệm về Ontology
Khái niệm về ontology đã được nhiều nhóm nghiên cứu định nghĩa Theo Gruber
[13], ontology dùng để đặc tả các khái niệm theo một chuẩn Một định nghĩa khác về ontology là “sự phân loại các danh mục của các thuật ngữ, hay các khái niệm”, hoặc
“một ontology là một mô hình của thực tế, nhưng tự nó không là thực tế” Theo Leger
[14] ontology cải thiện độ chính xác trong tìm kiếm thông tin mờ và tạo thuận lợi cho việc đối thoại đơn ngữ hay đa ngữ giữa người và máy Trong ngành Khoa học máy tính, ontology là một kho ngữ liệu biểu diễn một tập các khái niệm và các quan hệ, dùng để mô tả, định nghĩa các tính chất của các khái niệm liên quan đến một miền
Trang 2915
(domain) [15] Ontology cung cấp những từ vựng và cách biểu diễn thông tin cần thiết, phù hợp với việc giao tiếp tường minh trong một miền tri thức Như vậy ontology là cách tốt nhất để biểu diễn và chia sẻ các khái niệm Những khái niệm và tính chất của các khái niệm được liên kết với nhau để tạo thành một mạng ngữ nghĩa mà máy tính
có thể hiểu được
Ontology được sử dụng nhiều trong các lĩnh vực liên quan đến Tin học như truy xuất, rút trích thông tin hay trong các hệ thống hỏi đáp Để xây dựng ontology, có ba cách thực hiện là:
Thủ công, như WordNet [16], KIM [17];
Tự động, như YAGO [18];
Có nội dung mở, mọi người có thể cập nhật, như Wikipedia [19]
WordNet
WordNet là một ontology từ vựng (Lexical ontology) [16] Trong WordNet các
từ vựng được tổ chức thành các tập đồng nghĩa (synset) và có các quan hệ khác nhau giữa các nghĩa như quan hệ đồng nghĩa (synonymy), quan hệ thượng danh (hypernymy), quan hệ hạ danh (hyponymy), quan hệ trái nghĩa (antonymy), quan hệ một phần (meronymy) và quan hệ tương tự (similarity) Phiên bản 3.0 của WordNet được sử dụng trong luận án có khoảng 155.000 từ và 117.000 tập đồng nghĩa Vấn đề khai thác từ vựng trong WordNet sẽ được đề cập kỹ hơn ở chương sau
KIM
KIM là một ontology bao gồm các thực thể có tên là con người, nơi chốn và những đối tượng khác được tham khảo bằng tên Một hệ thống KIM (Knowledge and Information Mangement) bao gồm ontology và mô-đun rút trích thông tin [20] KIM
có tổng cộng 300 lớp thực thể, 100 kiểu thuộc tính và quan hệ Các mối quan hệ trong KIM là các quan hệ hai ngôi, tức chỉ liên kết giữa hai đối tượng
YAGO
YAGO (Yet Another Great Ontology) [18] chứa khoảng 1,95 triệu thực thể, 93 loại quan hệ và 19 triệu sự kiện mô tả thuộc tính và quan hệ giữa các thực thể có tên Các sự kiện này được rút trích từ Wikipedia và WordNet bằng các luật Cũng giống như KIM, các quan hệ trong YAGO chỉ là hai ngôi
Wikipedia
Trang 3016
Wikipedia [19] là một dạng ontology mở cho phép người sử dụng có thể cập nhật nội dung, thêm từ mới Wikipedia cũng là một ontology bao gồm nhiều ngôn ngữ (45 ngôn ngữ) và nhiều lĩnh vực khác nhau trong đó có cả lĩnh vực Tin học Tương tự như WordNet, luận án đã sử dụng Wikipedia là một trong những nguồn tài nguyên để làm giàu ontology chuyên biệt trên miền Tin học, vấn đề này sẽ được đề cập chi tiết hơn trong chương sau
Babelnet
Babelnet [21] là một từ điển đa ngôn ngữ (271 ngôn ngữ) và đa ngành trong đó bao gồm Tin học Babelnet phiên bản 3.0 với các hàm JavaAPI hỗ trợ người dùng có thể lấy các khái niệm và các thuộc tính liên quan đến các khái niệm Babelnet phiên bản 3.0 tích hợp bao gồm WordNet, Open Multilingual WordNet, Wikipedia, OmegaWiki, Wiktionary, WikiData Luận án đã sử dụng Babelnet như một ontology
có sẵn để rút trích trên 47.000 các khái niệm và thuộc tính liên quan đến lĩnh vực “Trí tuệ Nhân tạo” từ ontology này
2.2.2 Các nghiên cứu xây dựng ontology
Có rất nhiều công trình liên quan đến việc xây dựng ontology cho các ứng dụng khác nhau được nghiên cứu trong và ngoài nước
Tác giả công trình [22] đã đề xuất phương pháp xây dụng ontology chuyên biệt dựa trên cây đồ thị nhúng (Graph-embedded Tree – GeT), là sự tích hợp giữa cấu trúc phân cấp và đồ thị để giải quyết bài toán nhập nhằng về ngữ nghĩa Bằng việc tích hợp này, GeT hỗ trợ cho việc xây dựng ontology trên các miền chuyên biệt khác nhau cũng như việc so trùng các đối tượng trong cấu trúc lớp phân cấp một cách tự nhiên Tuy nhiên trong công trình tác giả không đề cập đến việc làm sao lấy được các quan hệ ngữ nghĩa này
Tác giả công trình [23] đã nghiên cứu và xây dựng ontology LKIF (Legal Knowledge Interchange Format) trên miền chuyên biệt liên quan đến luật pháp Việt Nam và đã thu được những kết quả nhất định Các khái niệm, thông tin trong ontology LKIF được rút trích dựa trên các văn bản pháp luật tiếng Việt bao gồm những cá thể,
tổ chức, chính quyền, nơi chốn, các quy tắc, điều khoản trong luật Để có thể rút trích các khái niệm này, tác giả đã dựa trên một số giải thuật về xử lý ngôn ngữ tự nhiên và học máy để có được ontology Trước tiên, tác giả này đã sử dụng một số các luật và
Trang 31Tác giả công trình [24] đã nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Object-Member-Property) cùng cơ chế làm giàu dữ liệu Dựa trên tập tài liệu tiếng Anh từ nguồn TREC và khai thác dữ liệu từ WordNet để làm giàu OOMP, tác giả còn sử dụng OOMP để mở rộng câu truy vấn Ontology OOMP bao gồm nhiều lĩnh vực khác nhau như vị trí, du lịch, địa danh, v.v Tác giả này đã sử dụng cơ sở dữ liệu quan hệ SQL để lưu trữ cấu trúc phân cấp của OOMP Tuy nhiên công trình [24] không đề cập đến việc xây dựng các quan hệ giữa các đối tượng trong OOMP
Tác giả công trình [25] đã nghiên cứu và xây dựng ontology VN-KIM dựa trên công cụ GATE và JAPE để nhận dạng các thực thể có tên và rút trích chúng VN-KIM bao gồm các thực thể có tên liên quan đến chính trị, xã hội, kinh tế được rút trích từ các trang web Việt Nam Tác giả này đã sử dụng một số giải thuật xử lý ngôn ngữ tự nhiên kết hợp đồ thị để nhận dạng các thực thể có tên trong các trang web Các thực thể được nhận dạng trong ontology chỉ bao gồm bảy loại: con người, địa danh, tổ chức, tiền, ngày, tháng và tỷ lệ phần trăm liên quan đến các hoạt động trong kinh tế VN-KIM có tổng cộng 370 lớp, 115 thuộc tính và trên 120.000 thực thể có tên trong đó có 60% thuộc về Việt Nam, phần còn lại là trên thế giới Hạn chế của công trình là các dạng quan hệ ngữ nghĩa chỉ dừng lại ở IS-A, PART-OF và là các quan hệ hai ngôi Tác giả công trình [26] đã đề xuất một phương pháp cải tiến trong việc xây dựng ontology từ văn bản bằng cách sử dụng dữ liệu liên kết từ nhiều nguồn khác nhau như: DBpedia, Yago, Freebase, UMBEL Để thực hiện giải thuật, các thông tin được rút trích từ những bài trình chiếu báo cáo (Powerpoint) và từ Internet nơi các dữ liệu dạng Web được liên kết với nhau
Tác giả công trình [27] đã nghiên cứu và xây dựng ontology nhằm phục vụ cho vấn đề học tập trên mạng (E-learning) gọi là Learning Object Ontology Ontology
Trang 3218
được thiết kết bao gồm các khái niệm và các mối quan hệ liên quan đến các đối tượng học Để nhận dạng và rút trích các đối tượng trong các bài học là các tập tin dưới dạng thuyết trình (Powerpoint), tác giả đã sử dụng một số giải thuật xử lý ngôn ngữ tự nhiên Cấu trúc của ontology được tác giả đề xuất bao gồm bốn lớp:
Learning Resource: là lớp bao gồm các khái niệm liên quan đến tài nguyên học
(learning resource) Lớp này còn bao gồm một số các lớp con biểu diễn cho những loại tài nguyên khác nhau như: văn bản, hình ảnh, phim
Organization: là lớp bao gồm các khái niệm liên quan đến tổ chức cung cấp cho
các tài nguyên học Lớp này cũng có một số các lớp con biểu diễn cho các chương trình, khóa học, tài liệu liên quan đến các đối tượng học
Person: bao gồm các đối tượng liên quan đến con người, là những người đứng
ra tổ chức các lớp học
Learning Object Metadata (LOM): liên quan đến các chuẩn IEEE để thể hiện
các đối tượng trong ontology
Công trình [28] của tác giả Shalahli đã xây dựng ontology trên miền Khoa học
Máy tính bằng phương pháp thủ công Ontology bao gồm các khái niệm cho hai ngôn ngữ là tiếng Anh và Thổ nhĩ kỳ dựa trên cấu trúc của WordNet và dựa trên từ điển
Anh – Thổ Nhĩ Kỳ trong lĩnh vực Khoa học Máy tính Shalahli đã dùng ontololy này
để phục vụ cho một hệ thống tìm kiếm, tra cứu các khái niệm trong lĩnh vực Khoa học máy tính Công trình của tác giả chưa khai thác nhiều vào các quan hệ ngữ nghĩa liên quan đến lĩnh vực chuyên biệt
Công trình [29] nghiên cứu xây dựng và làm giàu ontology từ một ontology có sẵn trên miền Y Sinh học Để ứng dụng mang đến hiệu quả truy xuất cao, tác giả đã áp dụng các giải thuật xử lý ngôn ngữ tự nhiên để rút trích thông tin từ Unified Medical
Language System (UMLS) là một ontology lớn chứa những khái niệm và mối quan hệ
giữa chúng trong lĩnh vực Y sinh và Sức khỏe Để nhận dạng và rút trích các mối quan
hệ ngữ nghĩa liên quan đến các khái niệm, tác giả này đã sử dụng đồ thị ngữ cảnh (context map) được liên kết với đồ thị ngữ cảnh của UMLS
Trang 3319
2.3 Các nghiên cứu xử lý và rút trích thông tin
Xây dựng các hệ thống rút trích thông tin là một trong những bài toán đã và đang được nghiên cứu rất nhiều Đến nay, đã có nhiều nghiên cứu trong và ngoài nước liên quan đến lĩnh vực này Trong phần này luận án sẽ trình bày một số công trình tiêu biểu
có liên quan
2.3.1 Trong nước
Các công trình [30], [31] và [32] tập trung nghiên cứa giải thuật xử lý ngôn ngữ
tự nhiên được áp dụng trong một số lĩnh vực dịch máy, truy xuất và rút trích thông tin, phân loại và tóm lược văn bản Nhóm tác giả đã thực hiện một số nghiên cứu về xử lý thông tin như nhận dạng các danh từ riêng, gán nhãn trên câu trong văn bản tiếng Việt Năm 2009 một công trình nghiên cứu của nhóm đã khai thác ontology Wikipedia tiếng Việt trong việc xác định cụm danh từ đặc trưng trong văn bản tiếng Việt và đã đạt được nhiều kết quả khả quan
Các công trình [33] và [34] tập trung nghiên cứu phát triển các kỹ thuật xây dựng
và khai thác thông tin liên quan đến Web ngữ nghĩa, nhận dạng và rút trích các thực thể có tên Công trình [35] đã phát triển một hệ thống quản lý tri thức và thông tin cho các thực thể có tên ở Việt Nam, được đặt tên là VN-KIM Chức năng chính của VN-KIM là rút trích và chú thích tự động các lớp và danh hiệu của các thực thể có tên xuất hiện trong các trang báo điện tử tiếng Việt VN-KIM bao gồm các khối chính:
Cơ sở tri thức về các nhân vật, tổ chức, núi non, sông ngòi, và địa điểm phổ biến ở Việt Nam;
Khối rút trích thông tin tự động từ các trang báo điện tử tiếng Việt;
Khối truy hồi thông tin và các trang Web về các thực thể có tên ở Việt Nam Công trình [36] giải quyết bài toán gom nhóm văn bản để từ đó rút trích những ý chính trong các văn bản Khác với các công trình nghiên cứu trước là thay vì dựa vào
mô hình từ vựng hay mô hình vectơ, ở đây tác giả đã dùng đồ thị để phân tích tần suất xuất hiện nhiều lần và vị trí của một từ hay một cụm từ trong văn bản Trong năm
2008 và 2009, nhóm đã có những công trình nghiên cứu các ứng dụng về xử lý ngôn ngữ tự nhiên, phát triển hệ thống truy xuất thông tin đa ngôn ngữ và hệ thống hỏi đáp
Trang 3420
hỗ trợ tiếng Việt Các kết quả nghiên cứu cho thấy một triển vọng khả quan trong việc
áp dụng xử lý ngôn ngữ tự nhiên cho nhiều ứng dụng khác nhau
Các công trình [37], [38] và [39] nghiên cứu các giải thuật xử lý ngôn ngữ tự nhiên áp dụng cho một số các lĩnh vực như truy xuất thông tin, truy vấn hỏi đáp trên thư viện số Tác giả công trình [38] và các cộng sự đã xây dựng một mô hình xử lý truy vấn tiếng Việt Công trình [39] tác giả đề xuất mô hình truy xuất thông tin hỗ trợ song ngữ Việt và Anh Dựa vào những hệ thống rút trích thông tin sẵn có trên Internet (Web crawler) cùng với các hệ thống tìm kiếm (search engine), hệ thống của [39] sẽ trả về một danh sách các liên kết bao gồm tiếng Anh và tiếng Việt đáp ứng yêu cầu truy vấn người dùng
Các công trình [23] và [40] đề xuất xây dựng các hệ thống rút trích thông tin dựa trên ontology Các công trình này đã có những thành công bước đầu trong việc xây dựng các hệ thống rút trích thông tin trên các miền chuyên biệt liên quan đến điều luật qui định của Việt Nam ( [23]) cũng như đã xây dựng các luật để rút trích thông tin liên quan đến bệnh lý của các bệnh nhân dựa trên ontology chuyên biệt về Y học ( [40]) Các công trình [41] và [42] tập trung nghiên cứu xử lý thông tin bằng các giải thuật xử lý ngôn ngữ tự nhiên Ở công trình [41] tác giả đã sử dụng mô hình Ràng buộc ngẫu nhiên có điều kiện (CRF) để nhận dạng các thực thể có tên Trong khi đó ở công trình [42] tác giả này đề xuất sử dụng mô hình chủ đề ẩn (hidden topic model) kết hợp với LDA (Latent Dirichlet Allocation) để xử lý thông tin trên diễn đàn Twitter Các công trình [43] và [44] tập trung nghiên cứu xử lý thông tin bằng các phương pháp xử lý ngôn ngữ tự nhiên Công trình [43] thực hiện xây dựng mô hình rút trích thông tin để lấy ra các nội dung chính trên các trang web quảng cáo Công trình [44] thực hiện việc rút trích một số thông tin trong văn bản tiếng Việt sử dụng mô hình Ràng buộc ngẫu nhiên có điều kiện
Tuy nhiên các công trình nghiên cứu trên không tập trung vào việc khai thác các quan hệ ngữ nghĩa trong câu hay chỉ quan tâm đến một số các quan hệ ngữ nghĩa như IS-A, PART-OF
2.3.2 Ngoài nước
Năm 2008, công trình [45] đã xây dựng một hệ thống nhận dạng và rút trích các
từ khóa trong các câu truy vấn phức tạp Tác giả này đã sử dụng mối quan hệ phụ
Trang 3521
thuộc giữa các câu truy vấn và tính phụ thuộc giữa các kho ngữ liệu để tìm ra các từ, cụm từ chính trong các câu truy vấn để từ đó tiến hành rút trích
Công trình [46] đề xuất giải pháp nhận dạng các khái niệm chính trong ontology
Để nhận dạng chúng, tác giả kết hợp một số tiêu chí liên quan đến khoa học tri thức,
đồ hình mạng (network topology) và thống kê từ vựng Bên cạnh đó tác giả cũng đã đề xuất một số giải pháp so trùng ontology, phân loại, và đánh giá ontology
Công trình [47] và [48] đã xây dựng mô hình tự động rút trích thông tin và tóm lược văn bản dựa trên ontology Cũng trong năm này, công trình [49] đã giới thiệu hệ thống PAPITS Hệ thống này tiến hành phân loại chủ đề sử dụng kỹ thuật Information Gain kết hợp với phương pháp thống kê để nhận dạng
Công trình [50] đề xuất xây dựng hệ thống rút trích thông tin dựa trên ontology chuyên biệt liên quan đến các sản phẩm được mua bán trên trên Internet Thông tin liên quan đến sản phẩm trên các trang Web phải được biểu diễn giống nhau và được tổ chức tốt Để tiến hành xây dựng hệ thống, trước hết tác giả xây dựng ontology bằng cách rút trích các thông tin liên quan đến các sản phẩm mà người dùng quan tâm bằng các luật rút trích, sau đó hiển thị kết quả cho người dùng Tuy nhiên các luật rút trích
mà tác giả đề xuất chưa bao phủ nhiều chủ đề trong miền chuyên biệt mà tác giả chọn Công trình [51] đã xây dựng hệ thống tóm tắt văn bản dựa trên một số giải thuật
xử lý ngôn ngữ tự nhiên như phân tích cú pháp, gán nhãn cho câu và mô hình Markov
ẩn (HMM) để nhận dạng và rút trích các từ, cụm từ chính trong câu Mô hình đề xuất của tác giả đạt kết quả khá cao tuy nhiên tác giả chưa quan tâm nhiều lắm đến quan hệ ngữ nghĩa và cú pháp của các từ trong câu
2.4 Kết chương
Trong thời đại bùng nổ thông tin như hiện nay, khi số người tham gia truy Internet ngày càng nhiều và dữ liệu trên Internet ngày càng phong phú và đa dạng thì con người cần phải có nhiều hệ thống truy xuất và rút trích thông tin thông minh hơn
Vì vậy bài toán rút trích thông tin được xem là một trong các bài toán cấn thiết để nghiên cứu vì nó mang lại những hiệu quả rất to lớn trong việc truy xuất thông tin phục vụ con người Đặc biệt là các hệ thống rút trích thông tin trên các miền chuyên biệt đã đem lại những lợi ích thiết thực cho cuộc sống Vì vậy các công trình nghiên cứu này đã và đang được quan tâm ngày càng nhiều hơn Với nhiều cách tiếp cận khác
Trang 3622
nhau, có thể bằng những giải thuật xử lý ngôn ngữ tự nhiên, học máy, xác suất thống
kê hay sự kết hợp giữa chúng, các mô hình rút trích thông tin đã đạt được những kết quan khả quan Bên cạnh đó, với xu hướng xây dựng các hệ thống rút trích, hỏi đáp trên các miền chuyên biệt hướng đến ngữ nghĩa ngày càng nhiều thì xu thế sử dụng ontology để giải quyết cho bài toán này ngày càng được áp dụng rộng rãi
Trang 3723
THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRÊN MIỀN CHUYÊN BIỆT
Chương này trình bày các mô hình rút trích thông tin và một số phương pháp tiếp cận khi xây dựng mô hình rút trích Bên cạnh đó, chương này cũng giới thiệu về mô hình rút trích được đề nghị trong phạm vi nghiên cứu của luận án Mô hình rút trích thông tin của luận án được xây dựng dựa trên ontology cho miền chuyên biệt Tin học, bao gồm nhiều chủ đề và nhiều đối tượng trong lĩnh vực Tin học Để xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt, luận án đã xây dựng ontology trên miền Tin học, áp dụng và cải tiến một số các giải thuật xử lý ngôn ngữ
tự nhiên và xác suất thống kê
3.1 Giới thiệu
Rút trích thông tin là đi tìm và lấy ra những thông tin cần thiết theo những tiêu chí hay định dạng cho trước Các tiêu chí này có thể xuất phát từ yêu cầu của người dùng, hay xuất phát từ các tập luật Với truy xuất thông tin, kết quả trả về là các văn bản hay các đường siêu liên kết tới các văn bản, còn với rút trích thông tin, kết quả trả
về là tập các thông tin hay sự kiện Quá trình rút trích là đi tìm các từ, cụm từ có kích thước dài nhất và có nghĩa thỏa điều kiện rút trích Để khai thác lượng thông tin ngày càng phong phú từ các hệ thống thông tin nhất là thông tin trực tuyến trên mạng Internet, một cơ chế truy xuất thông tin hướng đến ngữ nghĩa ngày càng được quan tâm nghiên cứu và đã đạt được những kết quả quan trọng Rút trích thông tin có thể thực hiện trên nhiều nguồn tài liệu có các định dạng khác nhau như các trang web, các tập tin XML hay các tập tin văn bản Thông tin rút trích có thể ở dạng phi cấu trúc như văn bản, hoặc cũng có thể là cấu trúc như XML hay dưới dạng cơ sở dữ liệu
Để rút trích thông tin từ nhiều nguồn khác nhau, có ba cách tiếp cận như sau
Trang 3824
Nhận dạng và phân loại thực thể Việc nhận dạng thực thể được xem là một
lĩnh vực con của rút trích thông tin Nó liên quan đến các biểu thức biểu diễn cho các thực thể, ví dụ như, tên người, tên thuốc hay tên của các địa danh Ở đây, các nghiên cứu thường dựa vào các giải thuật xử lý ngôn ngữ tự nhiên để phân tích ngữ nghĩa, tìm ra các từ đặc trưng Trong các giải thuật này nổi bật
là mô hình HMM, và một số cải tiến trên mô hình này như mô hình CRF, RMN đã thu được những kết quả khá chính xác
Xác định mối quan hệ giữa các thành phần trong câu Để có kết quả hoàn
chỉnh hơn về mặt ngữ nghĩa, không chỉ là những cụm từ riêng lẻ, hệ thống rút trích cần phải tìm ra mối quan hệ cú pháp, ngữ nghĩa giữa các từ, cụm từ trong câu, từ đó kết quả hiển thị sẽ thể hiện được trọn vẹn ý nghĩa, không rời rạc, mà tường minh hơn Kết quả hiển thị cho người dùng có thể là một từ, cụm từ, một câu hay nhiều câu Việc tìm ra mối quan hệ giữa chúng là điều quan trọng
và cần thiết Một số các phương pháp đã được áp dụng để phát hiện, rút trích mối quan hệ ngữ nghĩa, cú pháp giữa chúng cho kết quả có độ chính xác khá cao như: Single Instant Learning, Multi Instant Learning
Chọn lọc thông tin sau khi rút trích Thông tin sau khi rút trích được hiển thị,
sẽ có những thông tin có độ chính xác cao và những thông tin có độ chính xác thấp Để đánh giá độ chính xác của thông tin, các nghiên cứu thường dựa vào một số phương pháp như dùng từ điển, cơ sơ tri thức, mạng ngữ nghĩa để đánh giá và sắp xếp chúng theo thứ tự có độ chính xác từ cao đến thấp
Mục đích nghiên cứu của luận án là xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt Ngoài ra mô hình này còn có khả năng trả lời các vấn đề liên quan đến lĩnh vực Tin học và còn có khả năng tự làm giàu tri thức cho hệ thống bằng việc lấy thông tin từ nhiều nguồn khác nhau như các trang web, các tập tin XML, các tập tin văn bản hay từ các ontology có sẵn như WordNet, Wikipedia Hiện tại, các mô hình rút trích theo dạng này được sử dụng rất nhiều đặc biệt trong đời sống,
y khoa (chẩn đoán bệnh, cho thuốc), an ninh (truy tìm tội phạm), kinh tế (phát triển sản phẩm trên thị trường) Trong phạm vi nghiên cứu, luận án đã chọn miền Tin học Tuy nhiên liên quan đến các chủ đề khác nhau thuộc miền Tin học, luận án phải dựa vào cấu trúc cây phân cấp chủ đề của ACM [52] và hiện tại mô hình của luận án đã có 170
Trang 393.2 Giới thiệu một số mô hình rút trích thông tin
Ngày nay, mọi người có thể tìm hiểu, nghiên cứu, xử lý thông tin thuộc các lĩnh vực khác nhau thông qua sách báo, tạp chí, đài, tivi và nhất là Internet Các thông tin trên Internet thuộc nhiều lĩnh vực khác nhau, với nhiều ngôn ngữ khác nhau, do đó khi
có một yêu cầu từ người dùng về một lĩnh vực nào đó thì thông tin trả về có thể đúng, không đúng và có thể gồm nhiều ngôn ngữ khác nhau Với mong muốn mang lại cho người dùng thông tin chính xác hơn, nhiều ứng dụng liên quan đến truy xuất, rút trích thông tin đã và đang được nghiên cứu Các hệ thống rút trích thông tin đã mang lại nhiều tiện ích cho con người, đặc biệt trong các lĩnh vực quan trọng như: Y khoa (chữa
và khám bệnh), Sinh học và phòng chống tội phạm, v.v
Các hệ thống rút trích thông tin có thể xử lý trên nhiều nguồn dữ liệu khác nhau như: văn bản, XML, HTML, v.v
3.2.1 Các mô hình rút trích thông tin trên web
Một mô hình rút trích dữ liệu chia làm ba phần:
Nhận dạng các thực thể có tên (Named Entity Recognition),
Loại bỏ tính nhập nhằng các thực thể có tên (Named Entity Disambiguation),
Rút trích mối quan hệ giữa các thực thể (Relation Extraction)
Phương pháp tiếp cận của các mô hình này gồm hai bước:
Rút trích thô,
Tinh chỉnh quá trình trình rút trích thô bằng cách kết hợp một số ràng buộc
Trang 4026
Để tiến hành rút trích thô trên các trang web có định dạng HTML, thông thường
các hệ thống sử dụng mô hình Document Object Model (DOM) Trong bước này một
số phương pháp nhận dạng từ hoặc câu như Rapier, HMM [51], hay mô hình đồ thị
như RMN [53] cho phép xử lý rút trích dạng thô nhanh, hiệu quả
Sau bước rút trích thô là quá trình tinh chỉnh Trong bước này các trang web có
định dạng HTML được DOM chuyển hóa thành dạng XML để dễ xử lý Một số
phương pháp được dùng như Ontology kết hợp với các phương pháp kinh nghiệm
(heuristic) nhằm phân tích ngữ nghĩa, nhận dạng các thành phần câu, loại bỏ tính nhập
nhằng giữa các thực thể
Cuối cùng định dạng XML được chuyển lại thành HTML để hiển thị tới người
dùng Trong giai đoạn này mối tương quan giữa các thực thể sau khi rút trích cũng
được hiển thị Mô hình rút trích được thể hiện trong hình 3.1
Hình 3.1 Mô hình rút trích thông tin trên web
Một mô hình rút trích khác trên web được xây dựng bởi C Feilmayr và các đồng
nghiệp được trình bày trong workshop tại ICT, 2010 [54] như hình 3.2 Trong mô hình
này, hệ thống rút trích gồm có ba mô-đun chính là:
Mô-đun 1 được gọi là web crawler, được dùng rút trích thông tin từ các trang
web có nội dung liên quan Mô-đun này gom các trang web lại thành một tập để xử lý