Mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (tin học)

Vấn đề cốt lõi của bài toán rút trích thông tin trên các miền chuyên biệt là xác định các từ, cụm từ thích hợp trong văn bản, cũng như các mối quan hệ liên quan đến ngữ nghĩa, cú pháp gi

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

TẠ DUY CÔNG CHIẾN

XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP HỒ CHÍ MINH NĂM 2016

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

TẠ DUY CÔNG CHIẾN

XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)

Chuyên ngành: KHOA HỌC MÁY TÍNH

Trang 3

i

LỜI CAM ĐOAN

Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất

kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định

Tác giả luận án

Chữ ký

Tạ Duy Công Chiến

Trang 4

ii

TÓM TẮT LUẬN ÁN

Cùng với truy xuất thông tin, hệ thống hỏi đáp, rút trích thông tin là một trong các ứng dụng phổ biến trong thời đại ngày nay Đặc biệt các hệ thống rút trích thông tin trên các miền chuyên biệt như y học, sinh học, giảng dạy đã mang lại nhiều lợi ích trong cuộc sống Tuy nhiên việc xây dựng các hệ thống rút trích thông tin trên các miền chuyên biệt thường gặp nhiều thử thách như việc xử lý thông tin từ các nguồn tài nguyên khác nhau, độ chính xác của thông tin và tốc độ xử lý của hệ thống Vì vậy hiện nay đã và đang có rất nhiều công trình nghiên cứu trong và ngoài nước liên quan đến xây dựng các hệ thống rút trích thông tin trên các miền chuyên biệt Mục đích của luận án là xây dựng hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học)

Để xây dựng các hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học), luận án đề xuất một cách tiếp cận dựa trên bản thể học (Ontology-based Information Extraction) kết hợp với các giải thuật xử lý ngôn ngữ tự nhiên và phương pháp thống kê Để thực hiện mục tiêu trên, luận án phải giải quyết các vấn đề chính Thứ nhất, đề xuất mô hình lý thuyết cho hệ thống rút trích thông tin theo chủ đề trên các tập tin văn bản Thứ hai, đề xuất cấu trúc, các lớp và các thành phần của Bản thể học trên miền Tin học, được gọi là Computing Domain Ontology (CDO) được thể hiện qua nhiều quan hệ ngữ nghĩa hơn các mô hình Bản thể học khác nói chung Thứ ba, đề xuất và cải tiến các giải thuật rút trích thông tin từ ba nguồn ngữ liệu khác nhau để xây dựng và làm giàu ontology, bao gồm các tập tin văn bản trong trong tập thư viện điện tử ACM (ACM Digital Library), Wikipedia, và WordNet Thứ

tư, luận án cài đặt hệ thống rút trích thông tin dựa trên ontology để trả lời câu truy vấn của người dùng Phần thực nghiệm của luận án đã được tiến hành dựa trên các tập tin văn bản trong trong tập thư viện điện tử ACM, các câu truy vấn nhập trực tiếp từ người dùng và các từ điển liên quan đến lĩnh vực Tin học Kết quả thực nghiệm phản ánh tính khả thi của các mô hình, giải thuật được đề xuất trong luận án

Trang 5

iii

ABSTRACT

Nowadays, besides Information Retrieval and Question Answering, Information Extraction has become an emerging trend in the modern area of digital information processing Especially, in some certain domains such as Medicine, Biology and Education, Information Extraction has made significant contributions for the improvement of human living condition However, there are also a lot of challenges arising when the information extraction is exploited in a specific domain, e.g processing data from different resources, the quality and correctness of the extracted information and system performance when dealing with large-scale datasets Therefore, there is much research, both in international and national scales, has been conducted on the issue of building an efficient information extraction system on a specific domain It prompts the general objective of this dissertation, which is to build

a topic-oriented document-based information extraction system for a specific domain (chosen as Computing within the dissertation scope)

To develop such a proposed system, the dissertation proposes a novel methodology which combines ontology engineering, natural language processing and statistics algorithms In order to fulfil its objective, the dissertation has made the following contributions The first, the dissertation proposes a topic-based theoretical model of the information extraction system on textual documents The second, the dissertation proposes the structure, classes and instances of a specific ontology, known

as Computting Domain Ontology (CDO), which renders more semantic relations than other typical existing ontological models The third, the dissertation proposes and improves some algorithms of information extraction for building and enriching the ontology Lastly, the dissertation develops an ontology-based information extraction system for answering user's queries The experiments of the dissertation were conducted from the following materials: (i) a dataset of text documents collected from the ACM Digital Library; (ii) a collection of the user's queries inputted directly into the system and (iii) the computing dictionaries The experiment results show that the algorithms and the proposed models are feasible and introduce significant improvement compared to similar existing works

Trang 6

iv

LỜI CẢM ƠN

Trong quá trình hoàn thành luận này, tôi đã được các Thầy Cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thường xuyên động viên khích lệ

Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự giúp đỡ quý báu của GS.TS Phan Thị Tươi, thầy hướng dẫn mà tôi tôn vinh và bày tỏ lòng biết ơn sâu sắc nhất

Tôi muốn bày tỏ lòng biết ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách Khoa Tp Hồ Chí Minh đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu tại Khoa

Lời cảm ơn của tôi xin được gửi đến Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình hoàn thành luận án

Đồng thời, tôi muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa Tp.HCM, Phòng Khoa học Công nghệ & Dự án, Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện đề tài cấp trường năm 2011

Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những lời động viên khích lệ quí báu giúp tôi vượt qua khó khăn để hoàn thành tốt luận án

Tác giả luận án

Tạ Duy Công Chiến

Trang 7

v

MỤC LỤC

DANH MỤC CÁC HÌNH ẢNH viii

DANH MỤC BẢNG BIỂU x

DANH MỤC CÁC TỪ VIẾT TẮT xi

CHƯƠNG 1 GIỚI THIỆU 1

1.1 Động cơ nghiên cứu 1

1.2 Mục tiêu và phạm vi nghiên cứu 6

1.3 Kết quả đạt được của luận án 9

1.4 Cấu trúc của luận án 11

CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN 14

2.1 Giới thiệu 14

2.2 Các nghiên cứu liên quan đến xây dựng Ontology 14

2.2.1 Khái niệm về Ontology 14

2.2.2 Các nghiên cứu xây dựng ontology 16

2.3 Các nghiên cứu xử lý và rút trích thông tin 19

2.3.1 Trong nước 19

2.3.2 Ngoài nước 20

2.4 Kết chương 21

CHƯƠNG 3 XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRÊN MIỀN CHUYÊN BIỆT 23

3.1 Giới thiệu 23

3.2 Giới thiệu một số mô hình rút trích thông tin 25

3.2.1 Các mô hình rút trích thông tin trên web 25

3.2.2 Các mô hình rút trích thông tin trên văn bản 27

3.3 Mục tiêu, hướng giải quyết và nhiệm vụ nghiên cứu mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt của luận án 29

3.4 Phương pháp nghiên cứu và hướng tiếp cận 32

3.5 So sánh mô hình rút trích đề xuất với các mô hình rút trích khác đã đề cập 34

3.6 Các nguồn ngữ liệu phục vụ cho hệ thống rút trích của luận án 34

3.6.1 Tập chủ đề của ACM và tập thư viện điện tử ACM 34

3.6.2 Wikipedia 34

3.6.2 WordNet 35

3.6.3 Babelnet: Từ điển đa ngôn ngữ 35

Trang 8

vi

CHƯƠNG 4 XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TRÊN MIỀN TIN HỌC

(COMPUTING DOMAIN ONTOLOGY – CDO) 37

4.1 Giới thiệu Ontology 37

4.1.1 Các khái niệm 38

4.1.2 Một số phương pháp xây dựng ontology 41

4.2 Giới thiệu về một số ontology liên quan đến Tin học 45

4.2.1 Computing Ontology [9] 45

4.2.2 SwetoDblp ontology 45

4.3 Xây dựng và làm giàu Ontology chuyên biệt trên miền Tin học 46

2 1 Bước 1 – Xây dựng Lớp chủ đề (Topic layer) 47

2 2 Bước 2 – Xây dựng lớp Thành phần (Ingredient layer) 49

2 3 Bước 3 – Xây dựng lớp Synset 58

2 4 Bước 4 – Xây dựng lớp câu (Sentence layer) 59

4.4 Biểu diễn và lưu trữ CDO 63

4.4.1 Resource Description Framwork (RDF) 63

4.4.2 Ontology Web Language (OWL) 64

4.4.3 Chuyển đổi từ OWL sang cơ sở dữ liệu quan hệ 66

4.5 Kết quả thực nghiệm và đánh giá CDO 74

4.5.1 So sánh CDO và một số ontology trên thế giới 74

4.5.2 Kết quả xây dựng và làm giàu CDO 76

4.5.3 Đánh giá kết quả xây dựng và làm giàu CDO 77

CHƯƠNG 5 XÁC ĐỊNH CHỦ ĐỀ CÂU TRUY VẤN 83

5.1 Mô hình xác định chủ đề của câu truy vấn 83

5.2 Bài toán xác định chủ đề câu truy vấn và phương pháp đề xuất 88

5.2.1 Phân tích câu truy vấn 89

5.2.2 Xác định các quan hệ ngữ nghĩa bằng cây phụ thuộc 90

5.2.3 So trùng trên ontology 93

5.3 Kết quả thực nghiệm và đánh giá 98

5.3.1 Thực nghiệm 98

5.3.2 Kết quả thực nghiệm và đánh giá phương pháp xác định chủ đề câu truy vấn dựa trên CDO 98

5.3.3 So sánh với AIchemyAPI 101

5.3.4 Đánh giá về thời gian thực thi 101

5.3.5 Công cụ hỗ trợ và môi trường thực nghiệm 103

Trang 9

vii

CHƯƠNG 6 RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ 105

6.1 Mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt 105

6.1.1 Rút trích thông tin từ các nguồn tài nguyên khác nhau 105

6.1.2 Rút trích thông tin dựa trên CDO trả lời câu truy vấn 106

6.2 Ví dụ minh họa hoạt động của hệ thống rút trích thông tin cho câu truy vấn dựa vào ontology CDO 113

6.3 Phân tích và đánh giá mô hình rút trích thông tin theo chủ đề 118

6.4 Thực nghiệm và đánh giá kết quả rút trích thông tin dựa trên CDO 119

6.4.1 Thực nghiệm và đánh giá kết quả dựa trên độ chính xác, độ truy hồi và trung bình điều hòa 119

6.4.2 Đánh giá về thời gian thực thi 123

TỔNG KẾT 125

Kết luận 125

Hướng phát triển 127

CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 128

TÀI LIỆU THAM KHẢO 130

PHỤ LỤC 141

Trang 10

viii

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1 Mô hình rút trích thông tin theo chủ đề dựa trên văn bản 8

Hình 3.1 Mô hình rút trích thông tin trên web 26

Hình.3.2 Mô hình rút trích theo C Feilmayr (nguồn [54]) 27

Hình.3.3 Mô hình rút trích văn bản của S Jonnalagadda (nguồn [54]) 28

Hình 3.4 Mô hình rút trích thông tin theo đề nghị của Batcha (nguồn [57]) 28

Hình 3.5 Mô hình SOBA (nguồn [59]) 29

Hình 3.6.Sơ đồ hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt 31

Hình 3.7 Mô hình xử lý vấn đề 1 33

Hình 4.1 Mô hình biểu diễn ontology chuyên biệt (nguồn [15]) 40

Hình 4.2 Ontology trên miền địa danh (nguồn [67]) 41

Hình 4.3 Computing ontology do tổ chức ACM thành lập (nguồn [9]) 45

Hình 4.4 Cấu trúc phân cấp CDO 46

Hình 4.5 Cấu trúc phân cấp chủ đề trong CDO 47

Hình 4.6 Số phần tử được rút trích từ các nguồn tài nguyên khi chưa áp dụng giá trị ngưỡng 54

Hình 4.7 Số phần tử được rút trích từ các nguồn tài nguyên sau khi áp dụng giá trị ngưỡng là 0,4 55

Hình 4.8 Mô hình xây dựng và làm giàu CDO từ các tập tin văn bản của ACM và Wikipedia 56

Hình 4.9 Một số quan hệ giữa các đối tượng trong CDO 61

Hình 4.10 CDO biểu diễn bằng Protégé 66

Hình 4.11 Mô hình ánh xạ các lớp OWL thành bảng 67

Hình 4.12 Ánh xạ thuộc tính đối tượng theo E Vysniauskas 68

Hình 4.13 Ánh xạ thuộc tính đối tượng thành các bảng trong cơ sở dữ liệu quan hệ 68

Hình 4.14 Mô hình quan hệ của CDO biểu diễn bằng RDB 70

Hình 4.15 So sánh tỷ lệ rút trích các đối tượng với Stanford CoreNLP 80

Hình 4.16 So sánh tỷ lệ rút trích các quan hệ ngữ nghĩa với Stanford CoreNLP 81

Hình 5.1 Mô hình phân cấp các chủ đề theo P.G Ipeirotis (nguồn [118]) 84

Hình 5.2 Mô hình nhận dạng chủ đề của Y Ishizuka (nguồn [121]) 85

Hình 5.3 Mô hình truy vấn thông tin của K.Wen (nguồn [122]) 86

Hình 5.4 Mô hình xác định chủ đề của câu truy vấn 88

Hình 5.5 Cây phụ thuộc của ví dụ 5.4 được phân tích bằng mô hình ngôn ngữ 90

Hình 5.6 Cây phụ thuộc được SLDP xây dựng 91

Hình 5.7 Phân loại kỹ thuật so trùng theo HUANG (nguồn [15]) 93

Hình 5.8 Cây phụ thuộc của truy vấn ở ví dụ 5.6 được SLDP tạo ra 96

Hình 5.9 Cây phụ thuộc của câu ở ví dụ 5.8 do SLDP tạo ra 97

Hình 5.10 Biểu đồ thể hiện kết quả thực nghiệm trên 320 câu truy vấn 100

Hình 5.11 Cây phụ thuộc của câu ở ví dụ 5.9 104

Hình 6.1 Mô hình tổng quát rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học) 105

Hình 6.2 Mô hình rút trích thông tin trả lời câu truy vấn 106

Hình 6.3 Cây đồ thị phụ thuộc của câu ở ví dụ 6.2 109

Hình 6.4 Mô hình ánh xạ các từ khóa tương ứng 110

Trang 11

ix

Hình 6.5 Cây phụ thuộc của câu ở ví dụ 6.3 112 Hình 6.6 Tỷ lệ rút trích thành công dựa vào CDO để tạo tự động dạng biểu diễn trung gian cho câu truy vấn 113 Hình 6.7 Cây phụ thuộc của ví dụ 6.4 114 Hình 6.8 Cây phụ thuộc của câu ở ví dụ 6.5 116Hình 6.9 Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập chỉ dựa trên

từ khóa và các quan hệ ngữ nghĩa trong câu 121Hình 6.10 Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập 123

Trang 12

x

DANH MỤC BẢNG BIỂU

Bảng 4.1 Ví dụ minh họa cách tính độ lợi 52

Bảng 4.2 Một số ví dụ khi xử lý bằng SLDP 61

Bảng 4.3 Các quan hệ ngữ nghĩa biểu diễn dưới dạng OWL và RDB 73

Bảng 4.4 So sánh CDO và một số ontology trên thế giới 75

Bảng 4.5 Tỷ lệ các đối tượng được rút trích từ các nguồn tài nguyên 76

Bảng 4.6 Tỷ lệ số câu rút trích từ các nguồn tài nguyên khác nhau 76

Bảng 4.7 Số lượng các quan hệ ngữ nghĩa trên một số chủ đề của CDO 77

Bảng 4.8 Bảng đánh giá các đối tượng thuộc lớp Thành phần thể hiện qua một số chủ đề trên CDO 79

Bảng 4.9 Bảng đánh giá các quan hệ ngữ nghĩa trong CDO thể hiện qua một số chủ đề 79

Bảng 4.10 Bảng so sánh tỷ lệ rút trích các đối tượng so với Stanford CoreNLP 80

Bảng 4.11 Bảng so sánh tỷ lệ rút trích các quan hệ ngữ nghĩa so với Stanford CoreNLP 81

Bảng 5.1 Các mẫu câu truy vấn nhập vào 98

Bảng 5.2 Kết quả đánh giá việc xác định chủ đề trên tập văn bản 99

Bảng 5.3 Kết quả đánh giá xác định chủ đề trên các dạng câu truy vấn khác nhau 100

Bảng 5.4 Kết quả thực nghiệm khi sử dụng AIchemyAPI trên tập ngữ liệu ACM 101

Bảng 5.5 Kết quả đánh giá khi sử dụng giải thuật đề nghị 5.1 trên tập ngữ liệu ACM 101

Bảng 5.6 Kết quả đánh giá về thời gian thực thi trong trường hợp có một từ haycụm từ khóa trong câu 102

Bảng 5.7 Kết quả đánh giá về thời gian thực thi trong trường hợp có 2-5 từ hay cụm từ khóa trong câu 102

Bảng 6.1 Hệ thống xác định các chủ đề của câu truy vấn ở ví dụ 6.4 114

Bảng 6.2 Kết quả rút trích thông tin cho câu truy vấn “oracle database” 115

Bảng 6.3 Hệ thống nhận dạng các chủ đề với ví dụ 6.5 117

Bảng 6.4 Kết quả rút trích thông tin cho ví dụ 6.5 dựa trên CDO 117

Bảng 6.5 Các mẫu câu truy vấn cho hệ thống rút trích thông tin dựa trên CDO 119

Bảng 6.6 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề Network 120

Bảng 6.7 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề OS 120

Bảng 6.8 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề IR 120

Bảng 6.9 Kết quả rút trích thông tin (không có chủ đề) trên chủ đề NLP 121

Bảng 6.10 Kết quả rút trích thông tin trên chủ đề Network 122

Bảng 6.11 Kết quả rút trích thông tin trên chủ đề OS 122

Bảng 6.12 Kết quả rút trích thông tin trên chủ đề IR 122

Bảng 6.13 Kết quả rút trích thông tin trên chủ đề NLP 122

Bảng 6.14 Đánh giá thời gian rút trích thông tin từ CDO 124

Trang 13

xi

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt

CDO Computing Domain Ontology Bản thể học trên miền Tin Học CRF Conditional Random Fields Mô hình trường ngẫu nhiên có điều

kiện DOM Document Object Model Mô hình đối tượng tài liệu

FCA Formal Concept Analysis Phân tích khái niệm hình thức FOGA Fuzzy Ontology Generation

GeT Graph-embedded Tree Cây đồ thị nhúng

HTML/HTM Hyper Text Markup Language Ngôn ngữ đánh dấu siêu văn bản

IE Information Extraction Rút trích thông tin

IR Information Retrieval Truy xuất thông tin

JAPE Java Anotation Pattern Engine Động cơ mẫu chú thích java

KIM Knowledge and Information

Mangement

Quản lý thông tin và tri thức

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

NMF Non negative Matrix

Factorization

Thừa số ma trận không âm

OOMP Ontology of

Nền tảng mô tả tài nguyên

RMN Relational Markov Network Mạng Markov biểu diễn quan hệ

Trang 14

xii

Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt

SLDP Stanford Lexical Dependency

Parser

Bộ phân tích cú pháp văn phạm phụ thuộc Stanford

SVM Support Vector Machines Máy vector hỗ trợ

UMLS Unified Medical Language

System

Hệ thống ngôn ngữ y học đồng nhất

XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng

YAGO Yet Another Great Ontology Bản thể học YAGO

Trang 15

1

CHƯƠNG 1 GIỚI THIỆU

1.1 Động cơ nghiên cứu

Trong lĩnh vực Rút trích thông tin, các nghiên cứu quan tâm đến rút trích nội dung văn bản dựa trên một số tính chất đặc trưng Rút trích nội dung văn bản là một vấn đề khó trong xử lý văn bản cũng như khó để đạt độ chính xác như mong muốn Gần đây, một số đề tài nghiên cứu rút trích thông tin trong văn bản đã đưa ra

hướng tiếp cận mới là rút trích các cụm từ đặc trưng mang tính ngữ nghĩa của câu trong văn bản Phương pháp này đã cải thiện độ chính xác và tăng khả năng ứng dụng

của chúng trong nhiều lĩnh vực khác nhau Tuy nhiên hướng tiếp cận này đòi hỏi hệ thống rút trích phải có khả năng phân tích cú pháp và ngữ nghĩa của các câu thậm chí

cả văn bản, cũng như phải được biệt lập trong một chủ đề nhất định

Hiện nay và trong tương lai, nguồn thông tin (văn bản) là vô cùng lớn và nhu cầu truy xuất thông tin chính xác của người sử dụng ngày càng cao trong từng chủ đề thuộc các lĩnh vực kinh tế, xã hội, khoa học Vì vậy các hệ thống rút trích thông tin, ngoài khả năng trích xuất các cụm từ đặc trưng ngữ nghĩa của câu trong văn bản còn

phải có khả năng phân tích thông tin theo từng chủ đề Thực hiện hai cách tiếp cận

này, hệ thống sẽ rút trích thông tin chính xác và hiệu quả hiệu quả hơn

Trong công trình nghiên cứu [1], A Nuntiyagul cùng các cộng sự thực hiện phân loại câu hỏi nhập vào từ người dùng trên miền toán học Trước hết A Nuntiyagul định

nghĩa khái niệm Item Banks là tập hợp các từ quan trọng trong câu hỏi được ghép lại thành câu dưới dạng rút gọn để qua đó nhận dạng và phận loại câu A Nuntiyagul đã xây dựng tập dữ liệu huấn luyện từ các văn bản liên quan đến Toán học bằng phương

pháp Term Frequency with Inverse Document Frequency (TFIDF) Quá trình rút trích

thông tin từ văn bản là rút trích các từ khóa và các quan hệ ngữ nghĩa liên quan đến

chúng Để rút trích từ khóa A Nuntiyagul tính tần suất xuất hiện của các từ trong văn bản Còn để rút trích các quan hệ ngữ nghĩa liên quan đến các từ khóa, A Nuntiyagul

đã áp dụng phương pháp “Gói từ (bag-of-words)” Sau đó A Nuntiyagul tiến hành xây dựng tập mẫu từ khóa trong câu (Patterned Keyword in Phrase – PKIF) dựa vào các từ khóa, các luật và giải thuật máy vector hỗ trợ (Support Vector Machine-SVM) Các

Trang 16

2

mẫu câu này sẽ được dùng để xác định chủ đề của các câu hỏi A Nuntiyagul cũng

định nghĩa một tập các chủ đề tương ứng với mẫu câu này Tuy nhiên cơng trình này vẫn cịn một số hạn chế như sau

i Phương pháp “gĩi từ” khơng xác định các quan hệ ngữ nghĩa liên quan đến các

từ khĩa

ii Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý

iii Phương pháp “gĩi từ” cũng khơng thể xếp loại quan hệ ngữ nghĩa đĩ thuộc về quan hệ IS-A, PART-OF, INCLUDE

iv Việc xác định các quan hệ ngữ nghĩa khơng chính xác dẫn đến việc phân loại chủ đề cho câu hỏi khơng chính xác

Trong cơng trình [2], F.Z Lahlou cùng các cộng sự xây dựng một hệ thống đề nghị (Context Aware Recommendation System - CARS) Mục đích của hệ thống sẽ hiển

thị những đề nghị cho người dùng từ nhiều lãnh vực khác nhau Để xây dựng hệ thống,

F.Z Lahlou rút trích thơng tin từ những bài phê bình của người dùng trên mạng từ

nhiều lĩnh vực khác nhau Để cĩ thể phân loại những bài phê bình này, F.Z Lahlou đã

sử dụng ba giải thuật khác nhau như SVM, k-Nearest Neighbor (k-NN) và Multinomial Nạve Bayes (MNB) Kết quả đánh giá theo F.Z Lahlou là thấp, trong đĩ tốt nhất là 60,1% (MNB) vì F.Z Lahlou khơng tập trung trên một miền nào cả nên tính chính xác

là khơng cao

Hiện tại Internet (Web) được xem là nguồn thơng tin khổng lồ của nhân loại Theo thời gian, nguồn thơng tin này khơng ngừng được chia sẻ, mở rộng và phát triển Các thơng tin trên Internet hầu hết được biểu diễn bởi ngơn ngữ tự nhiên, trong đĩ phần lớn là thơng qua các trang Web, thường là khơng cĩ cấu trúc Đồng thời với sự phát triển của Internet là sự gia tăng rất lớn về nhu cầu truy xuất thơng tin, rút trích thơng tin của người sử dụng, trong đĩ việc tìm kiếm các thơng tin thể hiện trong ngơn ngữ tiếng Anh chiếm tỉ lệ đáng kể

Để phục vụ cho những nhu cầu tìm kiếm thơng tin của người sử dụng, các hệ thống truy xuất thơng tin (IR), rút trích thơng tin (IE) đã được nghiên cứu và phát triển Tuy nhiên việc tìm kiếm thơng tin thường khơng nhận được kết quả đầy đủ, chính xác, đặc biệt là những thơng tin thuộc các chuyên ngành, như Y học, Sinh học, chống tội phạm

Trang 17

Bên cạnh các mô hình xử lý ngôn ngữ tự nhiên, các mô hình học máy cũng thường được sử dụng để nhận dạng và rút trích thông tin nhất là rút trích các thực thể

có tên Công trình [4], J Diesner dùng mô hình Ràng buộc ngẫu nhiên có điều kiện

(CRF) để nhận dạng các thực thể có tên liên quan đến con người và tổ chức Công trình đã đạt những kết quả khả quan, tuy nhiên một vài hạn chế của công trình là:

i Chỉ giải quyết cho các bài toán nhận dạng thực thể có tên

ii Muốn rút trích các quan hệ ngữ nghĩa phải dựa vào các luật Do đó các quan hệ ngữ nghĩa thường chỉ là IS-A, PART-OF

iii Các quan hệ ngữ nghĩa chỉ là những quan hệ nhị phân

Trong công trình [5], J Jiang rút trích các đối tượng và các quan hệ ngữ nghĩa từ

các tập tin văn bản liên quan đến con người, các tổ chức và vị trí Tuy nhiên công trình này vẫn còn một số hạn chế sau

i Chỉ có hai quan hệ ngữ nghĩa là: FounderOf, HeadQuateredIn trong ontology

ii Các quan hệ này là quan hệ nhị phân, là quan hệ chỉ có hai đối tượng tham gia Các quan hệ nhị phân được tham chiếu từ ACE (Automatic Content Extraction) bao gồm: NEAR, AT, ROLE, SOCIAL, PART

iii Ontology không phân chia thành nhiều lớp khác nhau

Từ các phân tích trên, để cung cấp cho người dùng những thông tin chính xác về một lĩnh vực chuyên biệt mà họ quan tâm, như giá cả chứng khoán, thông tin về một món hàng trước khi mua, cách điều trị một căn bệnh , thì cần phải có các hệ thống rút trích thông tin cho các lĩnh vực chuyên biệt này

Để có thể rút trích thông tin phù hợp với mong muốn của người dùng, các hệ

thống phải có khả năng phân tích ngữ nghĩa của câu truy vấn và thông tin rút trích phải lấy từ các nguồn tài nguyên có độ tin cậy cao Bài toán xây dựng các hệ thống

rút trích thông tin trên các miền chuyên biệt sẽ giải quyết được đáng kể sự nhập nhằng ngữ nghĩa của thông tin khi tiến hành rút trích

Trang 18

4

Trong lĩnh vực quan trọng như Y học, liên quan đến việc chẩn đoán bệnh và cấp thuốc hàng ngày đối với các bệnh nhân, để tránh sai sót các hệ thống rút trích thông tin trên lĩnh vực này đã được nghiên cứu, xây dựng và phát triển khá nhiều Tương tự, các

hệ thống rút trích thông tin chuyên biệt trên các lĩnh vực sinh học, nông nghiệp hay phòng chống tội phạm cũng được nghiên cứu và phát triển khá mạnh Một lĩnh vực khác cũng cần phải nhắc đến đó là giáo dục Các hệ thống rút trích thông tin đã phục

vụ khá nhiều trong công việc giảng dạy, học tập Những hệ thống rút trích thông tin cho một số miền chuyên biệt liên quan đến các môn học hoặc liên quan đến chuyên ngành đào tạo giúp cho sinh viên học sinh tra cứu, tìm hiểu nhanh hơn về tri thức liên quan đến các khái niệm trong các môn học hay chuyên ngành được chọn

Vấn đề cốt lõi của bài toán rút trích thông tin trên các miền chuyên biệt là xác định các từ, cụm từ thích hợp trong văn bản, cũng như các mối quan hệ liên quan đến ngữ nghĩa, cú pháp giữa chúng để có được những thông tin chính xác và đầy đủ phù hợp với miền chuyên biệt Để giải quyết vấn đề này, nhiều nghiên cứu đã hướng đến

phân tích ngữ nghĩa của thông tin cần rút trích dựa trên cơ sở tri thức như bản thể học (ontology) Các hệ thống rút trích thông tin trên các miền chuyên biệt dựa trên

bản thể học hướng đến ngữ nghĩa nhiều hơn so với các hệ thống rút trích truyền thống trước đây được xây dựng bằng các mô hình toán học như mô hình Markov ẩn (HMM),

mô hình trường ngẫu nhiên có điều kiện (CRF), hay mô hình máy vector hỗ trợ (SVM) v.v Tuy nhiên một trong những thách thức của các mô hình rút trích thông tin dựa trên bản thể học là việc xây dựng và làm giàu bản thể học

Để hỗ trợ xây dựng các hệ thống rút trích trên các miền chuyên biệt, ontology được tổ chức thành các lớp tương ứng với các khái niệm, đối tượng khác nhau, giữa chúng tồn tại các mối quan hệ ngữ nghĩa do đó ontology tạo thành một mạng ngữ nghĩa liên kết các đối tượng Thông qua mạng ngữ nghĩa, ontology bổ sung tri thức đầy đủ cho các đối tượng, từ đó sẽ giúp cho người dùng hiểu rõ hơn ý nghĩa, đặc điểm của các đối tượng Việc xây dựng một hệ thống rút trích thông tin trên các miền chuyên biệt thành công hay không, điều này phụ thuộc vào việc xây dựng các khái niệm, đối tượng, các lớp và mối quan hệ giữa chúng trong ontology

Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên Web), cùng với hướng giải quyết làm sao để hệ thống có thể thông minh khi xử lý nhằm rút

Trang 19

vựng (Lexical Analyzer) để rút trích các sự kiện từ các bài báo khoa học Công trình

đã đạt được những kết quả và còn một số hạn chế sau

i Rút trích 79 sự kiện khác nhau liên quan các công thức về Y sinh, độ chính xác

là 84%, độ truy hồi là 21%

ii Dùng bộ phân tích cú pháp của văn phạm cấu trúc cụm từ hướng đến trọng tâm (Head-Driven Phrase Structure Grammar - HPSG) Bộ phân tích cú pháp HPSG phân tích câu của văn bản thuộc miền Y sinh Tuy nhiên HPSG không thể hiện được mối quan hệ phụ thuộc giữa các từ trong câu

iii Ontology không phân chia nhiều lớp

Trong công trình [7], M Abulaish xây dựng một hệ thống rút trích thông tin và

hỏi đáp từ văn bản trên miền sinh học dựa trên ontology Hệ thống đã rút trích các đối tượng và các quan hệ ngữ nghĩa liên quan đến miền sinh học từ các tập tin văn bản Công trình đã sử dụng NLP kết hợp với các luật để khai phá dữ liệu Tuy nhiên công trình vẫn còn một số hạn chế sau

i Các quan hệ ngữ nghĩa chỉ bao gồm các quan hệ IS-A, PART-OF và là quan hệ nhị phân R(Ci, Cj)

ii Ontology chỉ bao gồm ba chủ đề khác nhau: nguồn sinh học (Biological source), các vật liệu sinh học (Biological substance) và các tên khác (Other_name)

iii Ontology được rút trich từ các bài bào của MEDLINE bao gồm 400.000 từ và 100.000 chú thích do đó ontology chưa bao phủ được các chủ đề trong miền Sinh học

Trong công trình [8], M.P Nepal cùng các cộng sự xây dựng hệ thống rút trích

thông tin dựa trên ontology trên miền Xây dựng Để xây dựng ontology trên miền Xây

dựng, M.P Nepal đã rút trích thông tin từ trên Internet Ontology bao gồm hai lớp chính là Component và Intersection Trong mỗi lớp chính có một số lớp con và các đối tượng thuộc về các lớp con Lớp Component diễn tả các thành phần liên quan đến lĩnh

Trang 20

6

vực Xây dựng, trong khi Intersection diễn tả sự giao tiếp giữa các thành phần Công

trình đã hỗ trợ trong lĩnh vực Xây dựng, tuy nhiên vẫn còn một số hạn chế như :

i Do số lớp chủ đề trong ontology ít nên chưa thể hiện được nhiều vấn đề của lĩnh vực Xây dựng

ii Chỉ bao gồm một quan hệ ngữ nghĩa là IS-A

Từ nghiên cứu và phân tích các công trình khoa học về rút trích thông tin trên miền chuyên biệt dựa vào ontology hiện nay trên thế giới, tác giả nhận thấy còn tồn tại một số hạn chế sau

 Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý [1]

 Chưa sử dụng bộ phân tích cú pháp phù hợp nên không cung cấp được mối quan hệ phụ thuộc giữa các từ trong câu [6]

 Sự phân lớp trong Ontology là đơn giản [6] ; số lớp khái niệm còn ít nên ontology chưa hỗ trợ rút trích thông tin cho nhiều vấn đề của lĩnh vực Xây dựng [8], hoặc ontology chỉ bao gồm ba chủ đề [7]

 Các quan hệ ngữ nghĩa giữa các đối tượng trong ontology cũng chỉ bao gồm các quan hệ nhị phân R (Ci, Cj), là quan hệ IS-A, PART-OF [7] [9], hoặc chỉ bao gồm một quan hệ ngữ nghĩa là IS-A [8]

 Ontology được xây dựng và làm giàu với 400.000 từ và 100.000 chú thích [7]

1.2 Mục tiêu và phạm vi nghiên cứu

Mục tiêu luận án là xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học) dựa trên Computing Domain Ontology (CDO) Khác với Computing Ontology của nhóm ACM [9] (hiện nay vẫn còn đang cập nhật các chủ đề) chỉ tập trung vào việc phân loại các chủ đề liên quan đến Khoa Học Máy Tính là chính, không có nhiều các đối tượng trong mỗi lớp và chỉ có một số các quan hệ IS-A, PART-OF hay SwetoDblp Ontology [10] chỉ tập trung vào các công trình khoa học đã được công bố trên thế giới (bao gồm các thông tin : tác giả, tên công trình, ngày tháng năm công bố, tên hội nghị hay tạp chí) Hơn nữa, hai ontology này cũng không khai thác các quan hệ đồng nghĩa, thượng danh và hạ danh Nhằm khắc phục những hạn chế nêu trên, luận án đã thực hiện những cải tiến sau trong quá trình xây dụng CDO

Trang 21

7

i CDO do luận án đề xuất có 170 lớp chủ đề khác nhau, mỗi lớp có nhiều lớp con, với hơn 1 triệu đối tượng thuộc các lớp khác nhau, do đó có thể đáp ứng yêu cầu rút trích thông tin ở nhiều lĩnh vực liên quan đến Tin học

ii Các quan hệ ngữ nghĩa giữa các đối tượng thuộc CDO không chỉ có IS-A, PART-OF mà còn mở rộng thêm quan hệ : INCLUDE, MADE-OF, RESULT-

OF, quan hệ thượng danh, hạ danh và đồng nghĩa Qua đó thông tin rút trích sẽ giàu tính ngữ nghĩa hơn Quan hệ ngữ nghĩa trong CDO không chỉ giới hạn ở quan hệ nhị phân mà còn có thể là quan hệ của nhiều hơn hai đối tượng, được biểu diễn bằng R(C1, …, Ci) với i  2

iii Ngoài ra CDO còn có các quan hệ đồng nghĩa nên sẽ tránh được giai đoạn thay thế các từ viết tắt nếu trong câu truy vấn của người dùng có xuất hiện, do đó sẽ tiết kiệm thời gian hơn Ví dụ, trung bình một câu truy vấn được thực thi trên WordNet ở chế độ offline tốn 2,5ms (SQL Server), trong khi thực thi trên CDO với cùng một cơ sở dữ liệu chỉ mất 0,4ms

iv Việc xác định chủ đề dựa trên CDO và quá trình rút trích thông tin cho người dùng cũng được thực hiện trên lớp chủ đề này của CDO, nên sẽ tránh được sự nhập nhằng chủ đề khi rút trích thông tin

Trong phạm vi nghiên cứu, luận án sẽ áp dụng các giải thuật xử lý ngôn ngữ tự nhiên kết hợp với xác suất thông kê và ontology, đó là cơ sở để xây dựng một hệ thống rút trích thông tin văn bản theo chủ đề trên miền Tin học Ngoài chức năng rút trích thông tin, hệ thống còn có chức năng như một hệ thống hỏi đáp liên quan đến lĩnh vực Tin học Mô hình tổng quan của hệ thống được thể hiện qua hình 1.1

Trang 22

8

Hình 1.1 Mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học)

Để xây dựng mô hình rút trích thông tin theo chủ đề trên miền chuyên biệt (Tin học) dựa trên ontology, luận án cần giải quyết một số bài toán sau đây

Bài toán 1: Nhận dạng và rút trích các đối tượng, các quan hệ ngữ nghĩa từ những nguồn ngữ liệu khác nhau để xây dựng và làm giàu Ontology

Ontology là một cơ sở tri thức dùng để chia sẻ thông tin, trong đó bao gồm các lớp chủ đề với những khái niệm, đối tượng, đặc tính và mối quan hệ giữa chúng Ontology được xây dựng là ontology của một miền chuyên biệt Một miền chuyên biệt

có thể gồm nhiều chủ đề khác nhau Mỗi chủ đề sẽ là một hệ thống mạng ngữ nghĩa liên quan đến các từ, cụm từ đặc trưng cho chủ đề

Để xây dựng ontology trên miền Tin học, luận án sử dụng cấu trúc cây phân cấp chủ đề của ACM (ACM categories) để xây dựng lớp chủ đề trong ontology Kho ngữ liệu tiếp theo để xây dựng ontology là tập văn bản đã được xác định chủ đề từ tập thư viện điện tử ACM (ACM Digital Library) Để nhận dạng và rút trích các khái niệm, từ ngữ trong các tập tin văn bản theo từng lớp chủ đề khác nhau, luận án sử dụng một số các giải thuật về xử lý ngôn ngữ tự nhiên như tách câu, gán nhãn (POS-Tag), phân tích câu Sau khi nhận dạng, luận án sẽ tiến hành rút trích các đối tượng và các từ hay cụm

từ này trong các kho ngữ liệu Tuy nhiên để đảm bảo độ chính xác cho các đối tượng này, luận án đã kết hợp phương pháp xác suất thống kê với xử lý ngôn ngữ tự nhiên để đánh giá chúng trước khi bổ sung vào ontology [CT1], [CT4]

Để làm giàu tri thức cho ontology phục vụ cho quá trình rút trích, luận án sử dụng các ontology có sẵn như Wikipedia, WordNet, Babelnet

Một vấn đề khác không thể thiếu trong quá trình xây dựng và làm giàu ontology trên miền chuyên biệt là nhận dạng các mối quan hệ giữa các đối tượng trong ontology Các mối quan hệ này bao gồm các quan hệ ngữ nghĩa và quan hệ cú pháp giữa các khái niệm, các đối tượng trong câu Tùy thuộc vào mục đích khác nhau của các ứng dụng, mà các quan hệ này có thể được nhận dạng và rút trích theo nhiều cách khác nhau Thông thường những quan hệ này là quan hệ hai ngôi xác định mối quan hệ

giữa hai đối tượng như: thủ đô, vị trí, ví dụ, capital (“Hanoi”, “Vietnam”), location

(“Paris”, “France”), hay quan hệ IS-A, PART-OF, INCLUDE Trong phạm vi nghiên cứu của luận án, các quan hệ ngữ nghĩa được luận án khai thác là các quan hệ đồng

Trang 23

9

nghĩa, quan hệ thượng danh (hypernym), hạ danh (hyponym), là (is-a), từng phần (part-of), gộp (include) Bên cạnh đĩ, trong quá trình nhận dạng và rút trích các đối tượng, luận án cũng quan tâm đến các quan hệ cú pháp giữa của các đối tượng trong ontology để cĩ được những câu hồn thiện hơn Những câu này sẽ bổ sung tri thức cho chức năng hỏi đáp của hệ thống rút trích

Nội dung liên quan đến bài tốn này được cơng bố trong các cơng trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT9], [CT11] và [CT12]

Bài tốn 2: Xác định chủ đề câu truy vấn dựa trên ontology

Với mục tiêu xây dựng hệ thống rút trích thơng tin trả lời câu truy vấn từ người dùng, việc phân tích và xác định chủ đề câu truy vấn là một trong các bài tốn mà luận

án cần giải quyết Để giải quyết bài tốn này, một số phương pháp đã được đề xuất như giải thuật SVM, Nạve Bayes, hay dựa trên ontology Nhằm tận dụng cấu trúc phân lớp cĩ sẵn trong ontology, luận án đề xuất mơ hình xác định chủ đề câu truy vấn dựa trên các từ khĩa trong câu và dựa trên ontology Tương tự như trong bài tốn thứ nhất, các giải thuật xử lý ngơn ngữ tự nhiên như tách câu, gán nhãn để phân tích câu truy vấn được sử dụng trong bài tốn này Bên cạnh đĩ, luận án cũng sử dụng bộ phân tích cú pháp để nhận dạng và rút trích mối quan hệ ngữ nghĩa giữa các từ trong câu truy vấn

Nội dung liên quan đến bài tốn 2 được cơng bố trong cơng trình [CT5]

Bài tốn 3: Rút trích thơng tin trả lời câu truy vấn

Sau khi xác định chủ đề câu truy vấn ở bài tốn 2, hệ thống sẽ dựa trên ontology trên miền Tin học để rút trích thơng tin liên quan đến câu truy vấn từ người dùng Những thách thức của bài tốn này là thơng tin rút trích phải cĩ độ chính xác cao phù hợp với chủ đề câu truy vấn và tốc độ xử lý của hệ thống phải nhanh Để vượt quá những thách thức này luận án đã xét đến ngữ nghĩa của câu truy vấn kết hợp với kinh nghiệm (heuristic) để diễn dịch câu truy vấn sang ngơn ngữ trung gian sau đĩ mới tiến hành rút trích thơng tin từ ontology

Nội dung liên quan đến bài tốn này được cơng bố trong các cơng trình [CT6], [CT8] và [CT10]

1.3 Kết quả đạt được của luận án

Các kết quả đạt được của luận án bao gồm:

Trang 24

10

 Kết quả thứ nhất: Đề xuất mô hình xây dựng và làm giàu Computing Domain

Ontology (CDO)

CDO được xây dựng và làm giàu dựa trên ba nguồn tài nguyên khác nhau Luận án

đã đề xuất ba phương pháp khác nhau bao gồm: (i) phương pháp xây dựng CDO dựa

trên các tập tin văn bản từ tập thư viện điện tử ACM (Document - Based Knowledge

Base Traning); (ii) phương pháp làm giàu CDO dựa trên kho ngữ liệu có sẵn

Wikipedia (Wikipedia - Based Knowledge Base Traning); (iii) phương pháp làm giàu CDO dựa trên ontology WordNet (WordNet – Based Knowledge Base Training);

So với các ontology hiện tại thì CDO có một số điểm mới là:

 Cấu trúc phân lớp trong CDO Trong CDO bao gồm bốn lớp trong đó các đối

tượng của lớp này có thể có những quan hệ với các đối tượng của lớp khác như quan hệ đồng nghĩa, hạ danh, thượng danh Mỗi lớp sẽ chứa đựng những đối tượng khác nhau phục vụ cho bài toán rút trích thông tin

 Số lượng chủ đề CDO bao gồm 170 chủ đề khác nhau thuộc lĩnh vực Tin học

và hơn một triệu phần tử thuộc các lớp và các chủ đề khác nhau

 Các quan hệ ngữ nghĩa CDO bao gồm các quan hệ đồng nghĩa, thượng danh

hạ danh, IS-A, PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS

 CDO được làm giàu trên ba lớp: Thành phần, Synset và Câu

Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT10], [CT11] và [CT12]

 Kết quả thứ hai: Đề xuất phương pháp xác định chủ đề dựa trên ontology có

xét đến quan hệ ngữ nghĩa giữa các từ trong câu

Phương pháp xác định chủ đề câu truy vấn bao gồm các bước: phân tích câu truy vấn từ người dùng; nhận dạng và rút trích các từ khóa cũng như các mối quan hệ ngữ nghĩa giữa chúng với các từ còn lại trong câu; xác định chủ đề dựa trên CDO

Khác với một số mô hình xác định chủ đề bằng các giải thuật có giám sát như SVM, HMM hay CRF, luận án đề xuất phương pháp xác định chủ đề dựa trên ontology Bởi vì ontology là mạng ngữ nghĩa biểu diễn mối quan hệ giữa các khái niệm theo cấu trúc phân cấp, do đó việc xác định chủ đề của câu truy vấn thông qua ontology sẽ có xác suất tìm thấy cao hơn (theo [11] [12]) và phù hợp với những chủ đề

Trang 25

11

đã được hệ thống rút trích hỗ trợ, tránh được nhập nhằng Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT5]

 Kết quả thứ 3: Xác định và rút trích các mối quan hệ ngữ nghĩa và cú pháp từ

các tập tin văn bản trong tập thư viện điện tử ACM và từ các nguồn tài nguyên

có sẵn như Wikipedia, WordNet

Xác định mối quan hệ giữa các đối tượng trong ontology là công việc quan trọng và cần thiết trong quá trình xây dựng và làm giàu ontology Luận án đề xuất hai phương pháp xác định mối quan hệ giữa các đối tượng là mối quan hệ ngữ nghĩa và mối quan hệ cú pháp Các quan hệ ngữ nghĩa và cú pháp ở đây có thể cho phép có nhiều hơn hai đối tượng tham gia trong quan hệ

Các quan hệ ngữ nghĩa bao gồm các quan hệ đồng nghĩa, thượng danh, hạ danh được rút trích từ ontology WordNet Bên cạnh đó, luận án còn nhận dạng các quan hệ ngữ nghĩa như IS-A, PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS khi tiến hành phân tích câu từ các nguồn ngữ liệu khác nhau Các quan hệ này bổ sung tri thức cho những khái niệm trong ontology

Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT9]

 Kết quả thứ tư: Đề xuất mô hình hỏi đáp, rút trích thông tin dựa trên các từ

khóa, chủ đề câu truy vấn và từ CDO

Với chức năng của một hệ thống hỏi đáp, hệ thống phải trả lời các câu truy vấn

từ người dùng Để hỗ trợ việc truy xuất thông tin dễ dàng và nhanh hơn, luận án đề xuất phương pháp chuyển đổi từ ngôn ngữ OWL sang mô hình cơ sở dữ liệu quan hệ

Bên cạnh đó luận án cũng đề xuất phương pháp dựa trên kinh nghiệm (heuristic) để

thông dịch tự động câu truy vấn của người dùng sang ngôn ngữ trung gian trước khi rút trích thông tin từ CDO dựa trên các từ khóa, chủ đề câu truy vấn

Các giải thuật và nội dung liên quan đến các kết quả này được công bố trong các công trình [CT6] [CT8] và [CT10]

1.4 Cấu trúc của luận án

Luận án được chia thành sáu chương, phần tổng kết và hai phụ lục, trong đó ở đầu mỗi chương đều có phần giới thiệu tổng quan và ở cuối mỗi chương đều có phần kết chương

Trang 26

12

Chương 1 trình bày động cơ nghiên cứu, mục tiêu, phạm vi và những kết quả đạt

được của luận án; giới thiệu cấu trúc của luận án

Chương 2 trình bày các nghiên cứu ở trong nước và ngoài nước liên quan đến

các vấn đề mà luận án quan tâm Chương này trình bày một cách tổng quan những hướng nghiên cứu liên quan đến việc xây dựng và làm giàu ontology trên các miền chuyên biệt cũng như những vấn đề liên quan đến nhận dạng, rút trích các khái niệm, các từ, cụm từ hay các quan hệ ngữ nghĩa, cú pháp liên quan đến ontology của luận án

Chương 3 trình bày các mô hình lý thuyết liên quan đến việc xây dựng và rút

trích thông tin trên miền chuyên biệt Các mô hình cũng như những giải thuật liên quan đến xử lý thông tin trên dữ liệu phi cấu trúc như tập tin văn bản hay trên dữ liệu

có cấu trúc như các trang web, XML, các cơ sở dữ liệu quan hệ Bên cạnh đó chương 3 cũng giới thiệu các ontology trên các miền chuyên biệt đã được xây dựng theo các phương pháp khác nhau, nhưng đều tốn rất nhiều công sức và thời gian Chương này cũng giới thiệu về các nguồn ngữ liệu mà luận án đã sử dụng để rút trích thông tin Nội dung của chương 3 là cơ sở cho việc đề xuất các mô hình và những giải thuật xử lý liên quan đến các chương tiếp theo

Chương 4 trình bày các mô hình, giải thuật liên quan đến việc xây dựng và làm

giàu ontology trên miền chuyên biệt Tin học Các giải thuật huấn luyện dữ liệu từ tập thư viện điện tử ACM, Wikipedia, WordNet để xây dựng và làm giàu ontology trên miền Tin học, để từ đó giải quyết các bài toán tiếp theo Nội dung này đã được công

bố trong các công trình [CT1], [CT2], [CT3], [CT4], [CT7], [CT10], [CT11], [CT12]

Chương 5 trình bày mô hình và giải thuật xác định chủ đề câu truy vấn của

người dùng Để xác định chủ đề của câu truy vấn làm tiền đề phục vụ cho việc rút trích thông tin, trước hết phải nhận dạng các từ, cụm từ khóa cùng các quan hệ cú pháp, ngữ nghĩa của các từ trong câu truy vấn, để từ đó mới có thể giải quyết bài toán xác định chủ đề một cách chính xác Luận án đã dùng ontology để xác định chủ đề câu truy vấn dựa vào các từ, cụm từ khóa và các quan hệ ngữ nghĩa, cú pháp giữa các từ trong câu truy vấn Nội dung này đã công bố trong công trình [CT5]

Chương 6 trình bày mô hình rút trích thông tin dựa trên ontology trả lời câu truy

vấn Với chức năng hỏi đáp liên quan đến lĩnh vực Tin học, sau khi xác định chủ đề,

hệ thống sẽ dựa vào ontology trên miền Tin học để rút trích các thông tin phù hợp hiển

Trang 27

13

thị cho người dùng Một số các giải thuật đã được đề xuất và cải tiến để phù hợp với cấu trúc của ontology trong quá trình rút trích thông tin Nội dung này đã được công

bố trong các công trình [CT6], [CT8] và [CT10]

Phần tổng kết luận án trình bày những kết quả đạt được cũng như những dự

định nghiên cứu trong tương lai liên quan đến luận án Các kết quả của luận án đã được công bố trong các công trình [CT2], [CT6], [CT9], [CT10], [CT12]

Hai phụ lục liên quan đến kết quả thực nghiệm mà luận án đạt được

Trang 28

14

Chương 2 sẽ trình bày các hướng nghiên cứu trong và ngoài nước, liên quan đến các nghiên cứu khai thác, xử lý thông tin, các phương pháp xây dựng và làm giàu ontology, các hệ thống ontology phục vụ cho các ứng dụng khác nhau Đồng thời chương này cũng trình bày các phương pháp và giải thuật xây dựng những hệ thống rút trích thông tin tự động dựa trên ontology Mục đích của chương là xác định những ưu điểm và hạn chế của các nghiên cứu trước đây, làm tiền đề cho hướng nghiên cứu của luận án

2.1 Giới thiệu

Mục tiêu của luận án là xây dựng hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (luận án đề xuất dựa trên ontology chuyên biệt) Các công việc tiến hành bao gồm:

 Xây dựng ontology chuyên biệt trên miền Tin học

 Xây dựng hệ thống rút trích dựa trên ontology

Để thực hiện những công việc trên, luận án đã áp dụng một số giải thuật xử lý ngôn ngữ tự nhiên kết hợp với xác suất thống kê để giải quyết các bài toán liên quan đến khai phá, xử lý, rút trích thông tin, xây dựng và làm giàu ontology Hiện tại đã và đang có rất nhiều những công trình nghiên cứu trong và ngoài nước giải quyết các bài toán nêu trên

2.2 Các nghiên cứu liên quan đến xây dựng Ontology

2.2.1 Khái niệm về Ontology

Khái niệm về ontology đã được nhiều nhóm nghiên cứu định nghĩa Theo Gruber

[13], ontology dùng để đặc tả các khái niệm theo một chuẩn Một định nghĩa khác về ontology là “sự phân loại các danh mục của các thuật ngữ, hay các khái niệm”, hoặc

“một ontology là một mô hình của thực tế, nhưng tự nó không là thực tế” Theo Leger

[14] ontology cải thiện độ chính xác trong tìm kiếm thông tin mờ và tạo thuận lợi cho việc đối thoại đơn ngữ hay đa ngữ giữa người và máy Trong ngành Khoa học máy tính, ontology là một kho ngữ liệu biểu diễn một tập các khái niệm và các quan hệ, dùng để mô tả, định nghĩa các tính chất của các khái niệm liên quan đến một miền

Trang 29

15

(domain) [15] Ontology cung cấp những từ vựng và cách biểu diễn thông tin cần thiết, phù hợp với việc giao tiếp tường minh trong một miền tri thức Như vậy ontology là cách tốt nhất để biểu diễn và chia sẻ các khái niệm Những khái niệm và tính chất của các khái niệm được liên kết với nhau để tạo thành một mạng ngữ nghĩa mà máy tính

có thể hiểu được

Ontology được sử dụng nhiều trong các lĩnh vực liên quan đến Tin học như truy xuất, rút trích thông tin hay trong các hệ thống hỏi đáp Để xây dựng ontology, có ba cách thực hiện là:

 Thủ công, như WordNet [16], KIM [17];

 Tự động, như YAGO [18];

 Có nội dung mở, mọi người có thể cập nhật, như Wikipedia [19]

 WordNet

WordNet là một ontology từ vựng (Lexical ontology) [16] Trong WordNet các

từ vựng được tổ chức thành các tập đồng nghĩa (synset) và có các quan hệ khác nhau giữa các nghĩa như quan hệ đồng nghĩa (synonymy), quan hệ thượng danh (hypernymy), quan hệ hạ danh (hyponymy), quan hệ trái nghĩa (antonymy), quan hệ một phần (meronymy) và quan hệ tương tự (similarity) Phiên bản 3.0 của WordNet được sử dụng trong luận án có khoảng 155.000 từ và 117.000 tập đồng nghĩa Vấn đề khai thác từ vựng trong WordNet sẽ được đề cập kỹ hơn ở chương sau

 KIM

KIM là một ontology bao gồm các thực thể có tên là con người, nơi chốn và những đối tượng khác được tham khảo bằng tên Một hệ thống KIM (Knowledge and Information Mangement) bao gồm ontology và mô-đun rút trích thông tin [20] KIM

có tổng cộng 300 lớp thực thể, 100 kiểu thuộc tính và quan hệ Các mối quan hệ trong KIM là các quan hệ hai ngôi, tức chỉ liên kết giữa hai đối tượng

 YAGO

YAGO (Yet Another Great Ontology) [18] chứa khoảng 1,95 triệu thực thể, 93 loại quan hệ và 19 triệu sự kiện mô tả thuộc tính và quan hệ giữa các thực thể có tên Các sự kiện này được rút trích từ Wikipedia và WordNet bằng các luật Cũng giống như KIM, các quan hệ trong YAGO chỉ là hai ngôi

 Wikipedia

Trang 30

16

Wikipedia [19] là một dạng ontology mở cho phép người sử dụng có thể cập nhật nội dung, thêm từ mới Wikipedia cũng là một ontology bao gồm nhiều ngôn ngữ (45 ngôn ngữ) và nhiều lĩnh vực khác nhau trong đó có cả lĩnh vực Tin học Tương tự như WordNet, luận án đã sử dụng Wikipedia là một trong những nguồn tài nguyên để làm giàu ontology chuyên biệt trên miền Tin học, vấn đề này sẽ được đề cập chi tiết hơn trong chương sau

 Babelnet

Babelnet [21] là một từ điển đa ngôn ngữ (271 ngôn ngữ) và đa ngành trong đó bao gồm Tin học Babelnet phiên bản 3.0 với các hàm JavaAPI hỗ trợ người dùng có thể lấy các khái niệm và các thuộc tính liên quan đến các khái niệm Babelnet phiên bản 3.0 tích hợp bao gồm WordNet, Open Multilingual WordNet, Wikipedia, OmegaWiki, Wiktionary, WikiData Luận án đã sử dụng Babelnet như một ontology

có sẵn để rút trích trên 47.000 các khái niệm và thuộc tính liên quan đến lĩnh vực “Trí tuệ Nhân tạo” từ ontology này

2.2.2 Các nghiên cứu xây dựng ontology

Có rất nhiều công trình liên quan đến việc xây dựng ontology cho các ứng dụng khác nhau được nghiên cứu trong và ngoài nước

Tác giả công trình [22] đã đề xuất phương pháp xây dụng ontology chuyên biệt dựa trên cây đồ thị nhúng (Graph-embedded Tree – GeT), là sự tích hợp giữa cấu trúc phân cấp và đồ thị để giải quyết bài toán nhập nhằng về ngữ nghĩa Bằng việc tích hợp này, GeT hỗ trợ cho việc xây dựng ontology trên các miền chuyên biệt khác nhau cũng như việc so trùng các đối tượng trong cấu trúc lớp phân cấp một cách tự nhiên Tuy nhiên trong công trình tác giả không đề cập đến việc làm sao lấy được các quan hệ ngữ nghĩa này

Tác giả công trình [23] đã nghiên cứu và xây dựng ontology LKIF (Legal Knowledge Interchange Format) trên miền chuyên biệt liên quan đến luật pháp Việt Nam và đã thu được những kết quả nhất định Các khái niệm, thông tin trong ontology LKIF được rút trích dựa trên các văn bản pháp luật tiếng Việt bao gồm những cá thể,

tổ chức, chính quyền, nơi chốn, các quy tắc, điều khoản trong luật Để có thể rút trích các khái niệm này, tác giả đã dựa trên một số giải thuật về xử lý ngôn ngữ tự nhiên và học máy để có được ontology Trước tiên, tác giả này đã sử dụng một số các luật và

Trang 31

Tác giả công trình [24] đã nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Object-Member-Property) cùng cơ chế làm giàu dữ liệu Dựa trên tập tài liệu tiếng Anh từ nguồn TREC và khai thác dữ liệu từ WordNet để làm giàu OOMP, tác giả còn sử dụng OOMP để mở rộng câu truy vấn Ontology OOMP bao gồm nhiều lĩnh vực khác nhau như vị trí, du lịch, địa danh, v.v Tác giả này đã sử dụng cơ sở dữ liệu quan hệ SQL để lưu trữ cấu trúc phân cấp của OOMP Tuy nhiên công trình [24] không đề cập đến việc xây dựng các quan hệ giữa các đối tượng trong OOMP

Tác giả công trình [25] đã nghiên cứu và xây dựng ontology VN-KIM dựa trên công cụ GATE và JAPE để nhận dạng các thực thể có tên và rút trích chúng VN-KIM bao gồm các thực thể có tên liên quan đến chính trị, xã hội, kinh tế được rút trích từ các trang web Việt Nam Tác giả này đã sử dụng một số giải thuật xử lý ngôn ngữ tự nhiên kết hợp đồ thị để nhận dạng các thực thể có tên trong các trang web Các thực thể được nhận dạng trong ontology chỉ bao gồm bảy loại: con người, địa danh, tổ chức, tiền, ngày, tháng và tỷ lệ phần trăm liên quan đến các hoạt động trong kinh tế VN-KIM có tổng cộng 370 lớp, 115 thuộc tính và trên 120.000 thực thể có tên trong đó có 60% thuộc về Việt Nam, phần còn lại là trên thế giới Hạn chế của công trình là các dạng quan hệ ngữ nghĩa chỉ dừng lại ở IS-A, PART-OF và là các quan hệ hai ngôi Tác giả công trình [26] đã đề xuất một phương pháp cải tiến trong việc xây dựng ontology từ văn bản bằng cách sử dụng dữ liệu liên kết từ nhiều nguồn khác nhau như: DBpedia, Yago, Freebase, UMBEL Để thực hiện giải thuật, các thông tin được rút trích từ những bài trình chiếu báo cáo (Powerpoint) và từ Internet nơi các dữ liệu dạng Web được liên kết với nhau

Tác giả công trình [27] đã nghiên cứu và xây dựng ontology nhằm phục vụ cho vấn đề học tập trên mạng (E-learning) gọi là Learning Object Ontology Ontology

Trang 32

18

được thiết kết bao gồm các khái niệm và các mối quan hệ liên quan đến các đối tượng học Để nhận dạng và rút trích các đối tượng trong các bài học là các tập tin dưới dạng thuyết trình (Powerpoint), tác giả đã sử dụng một số giải thuật xử lý ngôn ngữ tự nhiên Cấu trúc của ontology được tác giả đề xuất bao gồm bốn lớp:

 Learning Resource: là lớp bao gồm các khái niệm liên quan đến tài nguyên học

(learning resource) Lớp này còn bao gồm một số các lớp con biểu diễn cho những loại tài nguyên khác nhau như: văn bản, hình ảnh, phim

 Organization: là lớp bao gồm các khái niệm liên quan đến tổ chức cung cấp cho

các tài nguyên học Lớp này cũng có một số các lớp con biểu diễn cho các chương trình, khóa học, tài liệu liên quan đến các đối tượng học

 Person: bao gồm các đối tượng liên quan đến con người, là những người đứng

ra tổ chức các lớp học

 Learning Object Metadata (LOM): liên quan đến các chuẩn IEEE để thể hiện

các đối tượng trong ontology

Công trình [28] của tác giả Shalahli đã xây dựng ontology trên miền Khoa học

Máy tính bằng phương pháp thủ công Ontology bao gồm các khái niệm cho hai ngôn ngữ là tiếng Anh và Thổ nhĩ kỳ dựa trên cấu trúc của WordNet và dựa trên từ điển

Anh – Thổ Nhĩ Kỳ trong lĩnh vực Khoa học Máy tính Shalahli đã dùng ontololy này

để phục vụ cho một hệ thống tìm kiếm, tra cứu các khái niệm trong lĩnh vực Khoa học máy tính Công trình của tác giả chưa khai thác nhiều vào các quan hệ ngữ nghĩa liên quan đến lĩnh vực chuyên biệt

Công trình [29] nghiên cứu xây dựng và làm giàu ontology từ một ontology có sẵn trên miền Y Sinh học Để ứng dụng mang đến hiệu quả truy xuất cao, tác giả đã áp dụng các giải thuật xử lý ngôn ngữ tự nhiên để rút trích thông tin từ Unified Medical

Language System (UMLS) là một ontology lớn chứa những khái niệm và mối quan hệ

giữa chúng trong lĩnh vực Y sinh và Sức khỏe Để nhận dạng và rút trích các mối quan

hệ ngữ nghĩa liên quan đến các khái niệm, tác giả này đã sử dụng đồ thị ngữ cảnh (context map) được liên kết với đồ thị ngữ cảnh của UMLS

Trang 33

19

2.3 Các nghiên cứu xử lý và rút trích thông tin

Xây dựng các hệ thống rút trích thông tin là một trong những bài toán đã và đang được nghiên cứu rất nhiều Đến nay, đã có nhiều nghiên cứu trong và ngoài nước liên quan đến lĩnh vực này Trong phần này luận án sẽ trình bày một số công trình tiêu biểu

có liên quan

2.3.1 Trong nước

Các công trình [30], [31] và [32] tập trung nghiên cứa giải thuật xử lý ngôn ngữ

tự nhiên được áp dụng trong một số lĩnh vực dịch máy, truy xuất và rút trích thông tin, phân loại và tóm lược văn bản Nhóm tác giả đã thực hiện một số nghiên cứu về xử lý thông tin như nhận dạng các danh từ riêng, gán nhãn trên câu trong văn bản tiếng Việt Năm 2009 một công trình nghiên cứu của nhóm đã khai thác ontology Wikipedia tiếng Việt trong việc xác định cụm danh từ đặc trưng trong văn bản tiếng Việt và đã đạt được nhiều kết quả khả quan

Các công trình [33] và [34] tập trung nghiên cứu phát triển các kỹ thuật xây dựng

và khai thác thông tin liên quan đến Web ngữ nghĩa, nhận dạng và rút trích các thực thể có tên Công trình [35] đã phát triển một hệ thống quản lý tri thức và thông tin cho các thực thể có tên ở Việt Nam, được đặt tên là VN-KIM Chức năng chính của VN-KIM là rút trích và chú thích tự động các lớp và danh hiệu của các thực thể có tên xuất hiện trong các trang báo điện tử tiếng Việt VN-KIM bao gồm các khối chính:

 Cơ sở tri thức về các nhân vật, tổ chức, núi non, sông ngòi, và địa điểm phổ biến ở Việt Nam;

 Khối rút trích thông tin tự động từ các trang báo điện tử tiếng Việt;

 Khối truy hồi thông tin và các trang Web về các thực thể có tên ở Việt Nam Công trình [36] giải quyết bài toán gom nhóm văn bản để từ đó rút trích những ý chính trong các văn bản Khác với các công trình nghiên cứu trước là thay vì dựa vào

mô hình từ vựng hay mô hình vectơ, ở đây tác giả đã dùng đồ thị để phân tích tần suất xuất hiện nhiều lần và vị trí của một từ hay một cụm từ trong văn bản Trong năm

2008 và 2009, nhóm đã có những công trình nghiên cứu các ứng dụng về xử lý ngôn ngữ tự nhiên, phát triển hệ thống truy xuất thông tin đa ngôn ngữ và hệ thống hỏi đáp

Trang 34

20

hỗ trợ tiếng Việt Các kết quả nghiên cứu cho thấy một triển vọng khả quan trong việc

áp dụng xử lý ngôn ngữ tự nhiên cho nhiều ứng dụng khác nhau

Các công trình [37], [38] và [39] nghiên cứu các giải thuật xử lý ngôn ngữ tự nhiên áp dụng cho một số các lĩnh vực như truy xuất thông tin, truy vấn hỏi đáp trên thư viện số Tác giả công trình [38] và các cộng sự đã xây dựng một mô hình xử lý truy vấn tiếng Việt Công trình [39] tác giả đề xuất mô hình truy xuất thông tin hỗ trợ song ngữ Việt và Anh Dựa vào những hệ thống rút trích thông tin sẵn có trên Internet (Web crawler) cùng với các hệ thống tìm kiếm (search engine), hệ thống của [39] sẽ trả về một danh sách các liên kết bao gồm tiếng Anh và tiếng Việt đáp ứng yêu cầu truy vấn người dùng

Các công trình [23] và [40] đề xuất xây dựng các hệ thống rút trích thông tin dựa trên ontology Các công trình này đã có những thành công bước đầu trong việc xây dựng các hệ thống rút trích thông tin trên các miền chuyên biệt liên quan đến điều luật qui định của Việt Nam ( [23]) cũng như đã xây dựng các luật để rút trích thông tin liên quan đến bệnh lý của các bệnh nhân dựa trên ontology chuyên biệt về Y học ( [40]) Các công trình [41] và [42] tập trung nghiên cứu xử lý thông tin bằng các giải thuật xử lý ngôn ngữ tự nhiên Ở công trình [41] tác giả đã sử dụng mô hình Ràng buộc ngẫu nhiên có điều kiện (CRF) để nhận dạng các thực thể có tên Trong khi đó ở công trình [42] tác giả này đề xuất sử dụng mô hình chủ đề ẩn (hidden topic model) kết hợp với LDA (Latent Dirichlet Allocation) để xử lý thông tin trên diễn đàn Twitter Các công trình [43] và [44] tập trung nghiên cứu xử lý thông tin bằng các phương pháp xử lý ngôn ngữ tự nhiên Công trình [43] thực hiện xây dựng mô hình rút trích thông tin để lấy ra các nội dung chính trên các trang web quảng cáo Công trình [44] thực hiện việc rút trích một số thông tin trong văn bản tiếng Việt sử dụng mô hình Ràng buộc ngẫu nhiên có điều kiện

Tuy nhiên các công trình nghiên cứu trên không tập trung vào việc khai thác các quan hệ ngữ nghĩa trong câu hay chỉ quan tâm đến một số các quan hệ ngữ nghĩa như IS-A, PART-OF

2.3.2 Ngoài nước

Năm 2008, công trình [45] đã xây dựng một hệ thống nhận dạng và rút trích các

từ khóa trong các câu truy vấn phức tạp Tác giả này đã sử dụng mối quan hệ phụ

Trang 35

21

thuộc giữa các câu truy vấn và tính phụ thuộc giữa các kho ngữ liệu để tìm ra các từ, cụm từ chính trong các câu truy vấn để từ đó tiến hành rút trích

Công trình [46] đề xuất giải pháp nhận dạng các khái niệm chính trong ontology

Để nhận dạng chúng, tác giả kết hợp một số tiêu chí liên quan đến khoa học tri thức,

đồ hình mạng (network topology) và thống kê từ vựng Bên cạnh đó tác giả cũng đã đề xuất một số giải pháp so trùng ontology, phân loại, và đánh giá ontology

Công trình [47] và [48] đã xây dựng mô hình tự động rút trích thông tin và tóm lược văn bản dựa trên ontology Cũng trong năm này, công trình [49] đã giới thiệu hệ thống PAPITS Hệ thống này tiến hành phân loại chủ đề sử dụng kỹ thuật Information Gain kết hợp với phương pháp thống kê để nhận dạng

Công trình [50] đề xuất xây dựng hệ thống rút trích thông tin dựa trên ontology chuyên biệt liên quan đến các sản phẩm được mua bán trên trên Internet Thông tin liên quan đến sản phẩm trên các trang Web phải được biểu diễn giống nhau và được tổ chức tốt Để tiến hành xây dựng hệ thống, trước hết tác giả xây dựng ontology bằng cách rút trích các thông tin liên quan đến các sản phẩm mà người dùng quan tâm bằng các luật rút trích, sau đó hiển thị kết quả cho người dùng Tuy nhiên các luật rút trích

mà tác giả đề xuất chưa bao phủ nhiều chủ đề trong miền chuyên biệt mà tác giả chọn Công trình [51] đã xây dựng hệ thống tóm tắt văn bản dựa trên một số giải thuật

xử lý ngôn ngữ tự nhiên như phân tích cú pháp, gán nhãn cho câu và mô hình Markov

ẩn (HMM) để nhận dạng và rút trích các từ, cụm từ chính trong câu Mô hình đề xuất của tác giả đạt kết quả khá cao tuy nhiên tác giả chưa quan tâm nhiều lắm đến quan hệ ngữ nghĩa và cú pháp của các từ trong câu

2.4 Kết chương

Trong thời đại bùng nổ thông tin như hiện nay, khi số người tham gia truy Internet ngày càng nhiều và dữ liệu trên Internet ngày càng phong phú và đa dạng thì con người cần phải có nhiều hệ thống truy xuất và rút trích thông tin thông minh hơn

Vì vậy bài toán rút trích thông tin được xem là một trong các bài toán cấn thiết để nghiên cứu vì nó mang lại những hiệu quả rất to lớn trong việc truy xuất thông tin phục vụ con người Đặc biệt là các hệ thống rút trích thông tin trên các miền chuyên biệt đã đem lại những lợi ích thiết thực cho cuộc sống Vì vậy các công trình nghiên cứu này đã và đang được quan tâm ngày càng nhiều hơn Với nhiều cách tiếp cận khác

Trang 36

22

nhau, có thể bằng những giải thuật xử lý ngôn ngữ tự nhiên, học máy, xác suất thống

kê hay sự kết hợp giữa chúng, các mô hình rút trích thông tin đã đạt được những kết quan khả quan Bên cạnh đó, với xu hướng xây dựng các hệ thống rút trích, hỏi đáp trên các miền chuyên biệt hướng đến ngữ nghĩa ngày càng nhiều thì xu thế sử dụng ontology để giải quyết cho bài toán này ngày càng được áp dụng rộng rãi

Trang 37

23

THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRÊN MIỀN CHUYÊN BIỆT

Chương này trình bày các mô hình rút trích thông tin và một số phương pháp tiếp cận khi xây dựng mô hình rút trích Bên cạnh đó, chương này cũng giới thiệu về mô hình rút trích được đề nghị trong phạm vi nghiên cứu của luận án Mô hình rút trích thông tin của luận án được xây dựng dựa trên ontology cho miền chuyên biệt Tin học, bao gồm nhiều chủ đề và nhiều đối tượng trong lĩnh vực Tin học Để xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt, luận án đã xây dựng ontology trên miền Tin học, áp dụng và cải tiến một số các giải thuật xử lý ngôn ngữ

tự nhiên và xác suất thống kê

3.1 Giới thiệu

Rút trích thông tin là đi tìm và lấy ra những thông tin cần thiết theo những tiêu chí hay định dạng cho trước Các tiêu chí này có thể xuất phát từ yêu cầu của người dùng, hay xuất phát từ các tập luật Với truy xuất thông tin, kết quả trả về là các văn bản hay các đường siêu liên kết tới các văn bản, còn với rút trích thông tin, kết quả trả

về là tập các thông tin hay sự kiện Quá trình rút trích là đi tìm các từ, cụm từ có kích thước dài nhất và có nghĩa thỏa điều kiện rút trích Để khai thác lượng thông tin ngày càng phong phú từ các hệ thống thông tin nhất là thông tin trực tuyến trên mạng Internet, một cơ chế truy xuất thông tin hướng đến ngữ nghĩa ngày càng được quan tâm nghiên cứu và đã đạt được những kết quả quan trọng Rút trích thông tin có thể thực hiện trên nhiều nguồn tài liệu có các định dạng khác nhau như các trang web, các tập tin XML hay các tập tin văn bản Thông tin rút trích có thể ở dạng phi cấu trúc như văn bản, hoặc cũng có thể là cấu trúc như XML hay dưới dạng cơ sở dữ liệu

Để rút trích thông tin từ nhiều nguồn khác nhau, có ba cách tiếp cận như sau

Trang 38

24

 Nhận dạng và phân loại thực thể Việc nhận dạng thực thể được xem là một

lĩnh vực con của rút trích thông tin Nó liên quan đến các biểu thức biểu diễn cho các thực thể, ví dụ như, tên người, tên thuốc hay tên của các địa danh Ở đây, các nghiên cứu thường dựa vào các giải thuật xử lý ngôn ngữ tự nhiên để phân tích ngữ nghĩa, tìm ra các từ đặc trưng Trong các giải thuật này nổi bật

là mô hình HMM, và một số cải tiến trên mô hình này như mô hình CRF, RMN đã thu được những kết quả khá chính xác

 Xác định mối quan hệ giữa các thành phần trong câu Để có kết quả hoàn

chỉnh hơn về mặt ngữ nghĩa, không chỉ là những cụm từ riêng lẻ, hệ thống rút trích cần phải tìm ra mối quan hệ cú pháp, ngữ nghĩa giữa các từ, cụm từ trong câu, từ đó kết quả hiển thị sẽ thể hiện được trọn vẹn ý nghĩa, không rời rạc, mà tường minh hơn Kết quả hiển thị cho người dùng có thể là một từ, cụm từ, một câu hay nhiều câu Việc tìm ra mối quan hệ giữa chúng là điều quan trọng

và cần thiết Một số các phương pháp đã được áp dụng để phát hiện, rút trích mối quan hệ ngữ nghĩa, cú pháp giữa chúng cho kết quả có độ chính xác khá cao như: Single Instant Learning, Multi Instant Learning

 Chọn lọc thông tin sau khi rút trích Thông tin sau khi rút trích được hiển thị,

sẽ có những thông tin có độ chính xác cao và những thông tin có độ chính xác thấp Để đánh giá độ chính xác của thông tin, các nghiên cứu thường dựa vào một số phương pháp như dùng từ điển, cơ sơ tri thức, mạng ngữ nghĩa để đánh giá và sắp xếp chúng theo thứ tự có độ chính xác từ cao đến thấp

Mục đích nghiên cứu của luận án là xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt Ngoài ra mô hình này còn có khả năng trả lời các vấn đề liên quan đến lĩnh vực Tin học và còn có khả năng tự làm giàu tri thức cho hệ thống bằng việc lấy thông tin từ nhiều nguồn khác nhau như các trang web, các tập tin XML, các tập tin văn bản hay từ các ontology có sẵn như WordNet, Wikipedia Hiện tại, các mô hình rút trích theo dạng này được sử dụng rất nhiều đặc biệt trong đời sống,

y khoa (chẩn đoán bệnh, cho thuốc), an ninh (truy tìm tội phạm), kinh tế (phát triển sản phẩm trên thị trường) Trong phạm vi nghiên cứu, luận án đã chọn miền Tin học Tuy nhiên liên quan đến các chủ đề khác nhau thuộc miền Tin học, luận án phải dựa vào cấu trúc cây phân cấp chủ đề của ACM [52] và hiện tại mô hình của luận án đã có 170

Trang 39

3.2 Giới thiệu một số mô hình rút trích thông tin

Ngày nay, mọi người có thể tìm hiểu, nghiên cứu, xử lý thông tin thuộc các lĩnh vực khác nhau thông qua sách báo, tạp chí, đài, tivi và nhất là Internet Các thông tin trên Internet thuộc nhiều lĩnh vực khác nhau, với nhiều ngôn ngữ khác nhau, do đó khi

có một yêu cầu từ người dùng về một lĩnh vực nào đó thì thông tin trả về có thể đúng, không đúng và có thể gồm nhiều ngôn ngữ khác nhau Với mong muốn mang lại cho người dùng thông tin chính xác hơn, nhiều ứng dụng liên quan đến truy xuất, rút trích thông tin đã và đang được nghiên cứu Các hệ thống rút trích thông tin đã mang lại nhiều tiện ích cho con người, đặc biệt trong các lĩnh vực quan trọng như: Y khoa (chữa

và khám bệnh), Sinh học và phòng chống tội phạm, v.v

Các hệ thống rút trích thông tin có thể xử lý trên nhiều nguồn dữ liệu khác nhau như: văn bản, XML, HTML, v.v

3.2.1 Các mô hình rút trích thông tin trên web

Một mô hình rút trích dữ liệu chia làm ba phần:

 Nhận dạng các thực thể có tên (Named Entity Recognition),

 Loại bỏ tính nhập nhằng các thực thể có tên (Named Entity Disambiguation),

 Rút trích mối quan hệ giữa các thực thể (Relation Extraction)

Phương pháp tiếp cận của các mô hình này gồm hai bước:

 Rút trích thô,

 Tinh chỉnh quá trình trình rút trích thô bằng cách kết hợp một số ràng buộc

Trang 40

26

Để tiến hành rút trích thô trên các trang web có định dạng HTML, thông thường

các hệ thống sử dụng mô hình Document Object Model (DOM) Trong bước này một

số phương pháp nhận dạng từ hoặc câu như Rapier, HMM [51], hay mô hình đồ thị

như RMN [53] cho phép xử lý rút trích dạng thô nhanh, hiệu quả

Sau bước rút trích thô là quá trình tinh chỉnh Trong bước này các trang web có

định dạng HTML được DOM chuyển hóa thành dạng XML để dễ xử lý Một số

phương pháp được dùng như Ontology kết hợp với các phương pháp kinh nghiệm

(heuristic) nhằm phân tích ngữ nghĩa, nhận dạng các thành phần câu, loại bỏ tính nhập

nhằng giữa các thực thể

Cuối cùng định dạng XML được chuyển lại thành HTML để hiển thị tới người

dùng Trong giai đoạn này mối tương quan giữa các thực thể sau khi rút trích cũng

được hiển thị Mô hình rút trích được thể hiện trong hình 3.1

Hình 3.1 Mô hình rút trích thông tin trên web

Một mô hình rút trích khác trên web được xây dựng bởi C Feilmayr và các đồng

nghiệp được trình bày trong workshop tại ICT, 2010 [54] như hình 3.2 Trong mô hình

này, hệ thống rút trích gồm có ba mô-đun chính là:

Mô-đun 1 được gọi là web crawler, được dùng rút trích thông tin từ các trang

web có nội dung liên quan Mô-đun này gom các trang web lại thành một tập để xử lý

Định dạng
Số trang	162
Dung lượng	3,49 MB