Truy hồi thông tin theo thực thể có tên và từ khóa

Luận án này giới thiệu và khảo sát một số mô hình truy hồi thông tin kết hợp các đặc tính về mặt ngữ nghĩa của thực thể có tên và từ khóa theo nhiều hướng tiếp cận khác nhau.. Đối với h

Trang 2

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Khoá (Năm trúng tuyển): 2006

1- TÊN ĐỀ TÀI: TRUY HỒI THÔNG TIN THEO THỰC THỂ CÓ TÊN VÀ TỪ KHÓA 2- NHIỆM VỤ LUẬN VĂN:

Phát triển hệ thống truy hồi tài liệu theo thực thể có tên và từ khóa, bao gồm:

- Phân tích và đánh giá mô hình truy hồi thông tin theo thực thể có tên hiện có

- Truy hồi tài liệu theo thực thể có tên và từ khóa

- Đề xuất phương pháp thực nghiệm và đánh giá hiệu suất truy hồi thông tin

3- NGÀY GIAO NHIỆM VỤ: 20/01/2007

4- NGÀY HOÀN THÀNH NHIỆM VỤ: 03/09/2008

5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS CAO HOÀNG TRỤ

Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

QUẢN LÝ CHUYÊN NGÀNH

Trang 3

Lời cảm ơn

Tôi xin chân thành cảm ơn thầy PGS.TS Cao Hoàng Trụ Thầy đã tận tình hướng dẫn, định hướng tôi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, đến những công việc cụ thể trong luận án này

Xin chân thành cảm ơn các bạn trong khoa Công Nghệ Thông Tin, các đồng nghiệp trong công ty Tường Minh, những người đã giúp đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình thực hiện luận án

Con xin cảm ơn cha mẹ, cảm ơn chị và em trai, luôn động viên, khuyến khích và giúp

đỡ con trong quá trình học tập cũng như trong cuộc sống

Trang 4

Tóm tắt

Nhu cầu thông tin là một trong các nhu cầu cơ bản của người dùng Tuy nhiên, với khối lượng thông tin khổng lồ trên Internet, cần phải xây dựng được một mô hình truy hồi thông tin đủ mạnh, có khả năng đặc tả được trọn vẹn truy vấn thông tin và khả năng truy hồi được các tài liệu liên quan nhất Truy hồi thông tin theo từ khóa chỉ đơn thuần dựa trên sự xuất hiện của các từ trong văn bản Trong khi đó, ngôn ngữ tự nhiên luôn chứa đựng nhiều hàm ý Sự mơ hồ và nhập nhằng về nghĩa không thể được xử lý tốt khi chỉ được xác định thông qua từ khóa Một giải pháp cho vấn đề này là việc hiểu rõ ngữ nghĩa của văn bản, mà một phần ngữ nghĩa văn bản lại được xác định bởi thực thể có tên và các mối quan hệ giữa chúng Vì vậy, một yêu cầu được đặt ra ở đây là kết hợp truy hồi thông tin theo thực thể có tên và từ khóa nhằm nâng cao hiệu suất Luận án này giới thiệu và khảo sát một số mô hình truy hồi thông tin kết hợp các đặc tính về mặt ngữ nghĩa của thực thể có tên và từ khóa theo nhiều hướng tiếp cận khác nhau Các mô hình này mở rộng mô hình không gian vectơ truyền thống, với việc khai thác các đặc trưng của thực thể có tên, cụ thể là tên, lớp và danh hiệu Đồng thời, với việc kết hợp với từ khóa, hiệu suất truy hồi của các mô hình không bị ảnh hưởng khi ontology và cơ sở tri thức chưa hoàn thiện, hay khi truy vấn không chứa thực thể có tên Kết quả thực nghiệm cho thấy các mô hình giới thiệu đều có hiệu suất tốt hơn mô hình truy hồi theo từ khóa Lucene Vì vậy, những mô hình này có thể xem là cơ sở cho các nghiên cứu tiếp sau để tiếp tục hoàn thiện hệ thống và nâng cao hiệu suất truy hồi

Trang 5

Abstract

With an ever increasing number of documents available on the Web, the challenge for keyword-based indexing and retrieval techniques, which solely relies on the presence of keywords in the texts, is to provide users with concise and relevant information Especially the vagueness and ambiguity of natural languages are handled inadequately by keyword-based search A solution for these problems is to understand the semantics of the texts, a basic part of which is determined by named entities and their relations Hence, a particular concern here is the integration of named entity-based search with traditional keyword-based search technologies in order to improve retrieval performance This thesis introduces and explores various models that combine different ontological features with keywords, and in different ways The models are based on an adaptation of the traditional Vector Space Model with an extension of named entity indexing, taking into account three features of names entities, namely, names, classes and identifiers The models also achieve tolerance to knowledge base incompleteness by taking advantage of keyword-based retrieval features Experiments show better performance of the proposed models as compared to the keyword-based Lucene, and their advantages for both text retrieval and representation of documents and queries Thus the models provide grounds for further research and enhancement of information retrieval performance

Trang 6

Mục lục

Lời cảm ơn i

Tóm tắt ii

Abstract iii

Danh mục hình vi

Danh mục bảng biểu vii

Chương 1: Tổng quan 1

1.1 Phát biểu vấn đề 1

1.2 Các công trình liên quan 5

1.3 Cơ sở lý thuyết 8

Chương 2: Truy hồi thông tin theo thực thể có tên và từ khóa 13

2.1 Truy hồi thông tin theo thực thể có tên 13

2.1.1 Mô hình truy hồi thông tin theo thực thể có tên 15

2.1.2 Mô hình NEn 21

2.1.3 Mô hình NEo 22

2.2 Truy hồi thông tin theo thực thể có tên và từ khóa 23

2.2.1 Mô hình kết hợp NE VSM và KW VSM 25

2.2.2 Mô hình kết hợp NE và từ khóa trên một không gian vectơ chung 28

2.2.3 Kiến trúc của hệ thống truy hồi thông tin theo thực thể có tên và từ khóa 31

Chương 3: Thiết kế và hiện thực hệ thống 33

3.1 Phân tích, thiết kế hệ thống Semantic Lucene 34

3.2 Hiện thực hệ thống Semantic Lucene 39

3.3 Ứng dụng minh họa 44

Chương 4: Thực nghiệm và đánh giá 46

4.1 Phương pháp thực nghiệm và đánh giá 46

Trang 7

4.2 Thực nghiệm và kết quả 53

4.2.1 Thực nghiệm 53

4.2.2 Kết quả thực nghiệm 54

Chương 5: Tổng kết 61

5.1 Đóng góp của công trình 62

5.2 Hướng phát triển 63

Phụ lục A: Giới thiệu KIM 65

Phụ lục B: Giới thiệu Lucene 69

Phụ lục C: Phân tích tập TIME 74

Tài liệu tham khảo 82

Trang 8

Danh mục hình

Hình 1.1 Ví dụ KIM Ontology và KB 12

Hình 2.1 Kiến trúc của hệ thống truy hồi thông tin theo NE và từ khóa 31

Hình 3.1 Đánh chỉ mục trong Semantic Lucene 37

Hình 3.2 Hệ thống cấu trúc chỉ mục trong Semantic Lucene 40

Hình 3.3 Giao diện tìm kiếm 44

Hình 4.1 Độ truy hồi và độ chính xác đối với một truy vấn 49

Hình 4.2 Đường cong P-R trung bình của một truy vấn 51

Hình 4.3 Phương pháp thực nghiệm 53

Hình 4.4 Đường P-R, F-R trung bình của Lucene, NEn và KW+NE 1

Hình 4.5 Đường P-R trung bình của các truy vấn tiêu biểu của Lucene, KW+NE 57

Hình A.1 Kiến trúc của KIM 65

Hình A.2 Một nhánh trong cấu trúc cây phân cấp các lớp của PROTON 66

Hình A.3 Quá trình rút trích thông tin trong KIM 67

Hình B.1 Một ứng dụng tiêu biểu sử dụng Lucene 69

Trang 9

Danh mục bảng biểu

Bảng 3.1 Các trường dữ liệu trong Semantic Lucene 39

Bảng 4.1 Các tập dữ liệu kiểm thử 47

Bảng 4.2 Độ chính xác trung bình ở 11 điểm truy hồi chuẩn 55

Bảng 4.3 Độ F trung bình ở 11 điểm truy hồi chuẩn 55

Bảng 4.4 Thời gian đáp ứng khi thực nghiệm trên tập CNN 60

Bảng C.1 Các câu truy vấn trong tập TIME trên hai mô hình Lucene và KW+NE 74

Trang 10

và sử dụng nguồn tài nguyên thông tin này một cách hiệu quả nhất

Thông tin trên Web hầu hết đều thể hiện dưới dạng ngôn ngữ tự nhiên, thông qua các trang Web, và chỉ thích hợp cho con người đọc hiểu Các hệ thống truy hồi thông tin được phát triển và thành công nhất hiện nay là Google1, Yahoo2, v.v Tuy nhiên, các mô hình này đều sử dụng từ khóa để xử lý và truy hồi tài liệu Hiệu suất truy hồi của chúng có những giới hạn nhất định vì ngữ nghĩa của tài liệu bị mất đi nhiều khi văn bản được biểu diễn dưới dạng một tập các từ khóa Tương tự, yêu cầu thông tin từ phía người sử dụng cũng được biểu diễn bởi các từ khóa, và rõ ràng là không thể thể hiện được trọn vẹn nhu cầu thông tin mong muốn Do đó, không có gì lạ khi truy hồi thông tin trên các hệ thống hiện nay đều luôn nhận được các tài liệu không liên quan tới thông tin cần tìm

Để khắc phục nhược điểm của mô hình truy hồi thông tin theo từ khóa, bắt đầu từ khoảng cuối thập niên 90, cùng với sự ra đời và phát triển của Web ngữ nghĩa (Semantic Web [3]), ontology và cơ sở tri thức (Knowledge Base – KB) bắt đầu được sử dụng rộng rãi trong các nghiên cứu phát triển hệ thống truy hồi thông tin có ngữ nghĩa

Trang 11

Ontology là một đặc tả cụ thể, rõ ràng của các khái niệm hóa ([13]) Một cách đơn giản ontology là siêu kiến thức đặc tả cái tồn tại, còn cơ sở tri thức là kiến thức cụ thể ta biết Ý tưởng cơ bản của Web ngữ nghĩa là việc nhúng ngữ nghĩa vào trang Web thô, để máy tính có thể hiểu, xử lý và tìm kiếm theo ngữ nghĩa văn bản Trong đó, ontology và cơ

sở tri thức được xem như là nền tảng tri thức cho quá trình này Thực thể có tên (Named Entity – NE) là một trong những đối tượng chính được đặc tả trong ontology, và là tri thức của hệ thống lưu trữ thông tin

Thực thể có tên là con người, tổ chức, nơi chốn, và các đối tượng khác được tham khảo thông qua tên ([6]), được đề cập lần đầu tại Message Understanding Conference 6, năm 1995 (MUC-6, 1995)3, và được dùng rộng rãi trong các ứng dụng rút trích thông tin (Information Extraction – IE), trả lời câu hỏi (Question Answering – QA) hay xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) ([26]) Trong các ứng dụng này, nhận diện thực thể có tên trong văn bản là một bộ phận quan trọng, và sự thật nó đã thu hút rất nhiều nỗ lực nghiên cứu Một số hệ thống nổi tiếng có thể kể đến là Semtag ([9]) sử dụng các phương pháp thống kê, hay KIM ([21]) sử dụng các luật so trùng mẫu Hiện nay, quá trình nhận diện NE cũng đã đạt được các thành tựu nhất định, đặc biệt là trên tiếng Anh Thành tựu trong việc nhận diện NE tạo điều kiện và là cơ sở cho các nghiên cứu khai thác ngữ nghĩa của thực thể có tên

Một thực thể có tên được biểu diễn bởi bộ ba <tên, lớp, danh hiệu> Trong đó, danh

hiệu xác định duy nhất một thực thể có tên Các thực thể có tên khác nhau có thể có cùng tên, hoặc cùng lớp Thực thể có tên đóng một vai trò quan trọng về mặt ngữ nghĩa của tài liệu Thật vậy, ta hãy xét về quá trình đọc hiểu ngữ nghĩa của văn bản, nói một cách đại khái, cấp độ đầu tiên là hiểu nghĩa từ, được xác định bằng âm tiết và ngữ nghĩa của từ Đây chính là cấp độ mà xử lý thông tin theo từ khóa đạt được Cấp độ cao hơn là nhận ra các đối tượng được nói đến trong văn bản, được xác định bởi thực thể có tên và các mối

quan hệ của chúng Ta hãy phân tích câu văn “Putin và kế hoạch cải tổ đảng lớn nhất nước Nga” Nếu xét ở cấp độ ngữ nghĩa của từ, Putin chỉ là một tên riêng, và Nga cũng vậy Tuy nhiên, nếu xét ở cấp độ đối tượng, khi các thực thể có tên Putin và Nga được

Trang 12

xác định, ta có NE Nga nói đến nước Nga và NE Putin nói đến vị tổng thống Nga

Vladimir Putin Rõ ràng, với việc xác định các NE, ngữ nghĩa văn bản được thể hiện rõ nét và đầy đủ hơn Vì vậy, có thể nói, trong một chừng mực nào đó, các NE và các mối quan hệ của chúng tạo thành ngữ nghĩa chính của một tài liệu

Tìm kiếm và khai thác thông tin sẽ chính xác và hiệu quả hơn khi tài liệu được chú thích thông tin ngữ nghĩa cho các thực thể có tên xuất hiện trong nó Đồng thời, quá trình truy hồi thông tin cũng đạt kết quả tốt hơn khi khai thác NE trong quá trình tìm kiếm tài liệu thỏa yêu cầu truy vấn Một ví dụ đơn giản cho thấy việc sử dụng thực thể có tên sẽ

giúp quá trình truy hồi đạt hiệu quả cao là truy vấn thông tin về “thành phố Sài Gòn” Đối

với hệ thống truy hồi dựa trên từ khóa, kết quả trả về có thể có các thông tin nhiễu như là

sông Sài Gòn, bệnh viện Sài Gòn, ngân hàng Sài Gòn Công Thương, v.v… Trong khi đó, nếu xét thực thể có tên thành phố Sài Gòn, các thông tin nhiễu của các đối tượng khác sẽ không được trả về, và ngoài ra hệ thống còn có thể trả về các tài liệu về thành phố Hồ Chí Minh, vì đây là một tên khác của thành phố Sài Gòn

Khai thác ngữ nghĩa của văn bản thông qua thực thể có tên và các mối quan hệ giữa chúng, hệ thống truy hồi thông tin theo ngữ nghĩa có thể: (1) tăng độ chính xác (precision) nhờ ngữ nghĩa xác định của các NE trong tài liệu; (2) tăng độ đầy đủ (recall) khi tận dụng được các tên khác (alias), các mối quan hệ tổng quát hóa (superclass), chuyên biệt hóa (subclass) của các NE; và (3) có thể mở rộng truy vấn tài liệu theo lớp của thực thể có tên Một ví dụ cho truy vấn theo lớp của thực thể có tên là tìm kiếm tài liệu chứa thông tin về các quốc gia trên thế giới Đối với truy vấn này, tài liệu cần tìm không nhất thiết phải

chứa từ khóa quốc gia, mà chỉ cần có NE có lớp là Quốc gia, cụ thể đó là các nước trên

thế giới Trong các nghiên cứu [17], [18], [10], [32], NE được khai thác nhằm tăng hiệu suất truy hồi thông tin và đã đạt được các kết quả nhất định

Tuy nhiên, nếu chỉ tập trung khai thác NE mà bỏ qua từ khóa, đặc biệt là các từ khóa nói về những cái trừu tượng như là khái niệm, định nghĩa, các mối quan hệ, thuộc tính, v.v… ngữ nghĩa của tài liệu hay truy vấn sẽ không được mô tả trọn vẹn Ta xem xét đoạn

văn sau: “Kể từ sau người tiên phong Valentina Tereshkova lên vũ trụ vào năm 1963,

Trang 13

nhiều nữ phi hành gia khác lần lượt sánh vai các đồng nghiệp nam tiến vào không gian”4

Đoạn văn trên chứa một NE là Valentina Tereshkova, và tất nhiên với chỉ với một NE này không thể thể hiện được nội dung của đoạn văn Các từ khóa như là vũ trụ, nữ phi hành gia, không gian đóng vai trò rất lớn đến ngữ nghĩa của đoạn văn

Tương tự, nếu chỉ xem xét thực thể có tên trong câu truy vấn, ngữ nghĩa cũng không

thể hiện đầy đủ Ví dụ, trong truy vấn tìm kiếm thông tin về “động đất tại Peru”, nếu chỉ xem xét về thực thể có tên, ta chỉ có được thông tin tìm kiếm là nước Peru, và bỏ qua thông tin quan trọng của từ khóa động đất Và vì vậy, những tài liệu trả về đầu tiên có thể

chỉ chứa thông tin về nước Peru mà không hề có thông tin gì về động đất ở nước này Hơn nữa, trong nhiều trường hợp cả truy vấn và tài liệu đang xét đều không có chứa thực

thể có tên Chẳng hạn, truy vấn về “truy hồi thông tin” hoàn toàn không có một NE nào

Đối với các truy vấn dạng này, rõ ràng chỉ sử dụng thực thể có tên là không hiệu quả Ngoài ra, truy hồi thông tin theo ngữ nghĩa cần có một ontology và cơ sở tri thức tốt, đầy

đủ Đây là một thách thức không nhỏ vì hiện nay ontology và cơ sở tri thức đều được xây dựng chủ yếu bằng tay hoặc bán tự động

Tóm lại, ngữ nghĩa của văn bản thể hiện trọn vẹn và đầy đủ khi xem xét cả từ khóa

và NE xuất hiện trong văn bản Điều này cũng đúng cho các truy vấn từ phía người dùng Với nhận định trên, ta thấy một mô hình truy hồi thông tin kết hợp việc khai thác ngữ nghĩa của NE và từ khóa có thể cho hiệu suất truy hồi cao Các nghiên cứu [5], [19], [29] khai thác theo hướng tiếp cận này với việc kết hợp thông tin trong ontology và các từ khóa đem lại các kết quả khả quan Tuy nhiên, cho đến nay vẫn chưa có một mô hình truy hồi thông tin nào khai thác trọn vẹn cả ba tính chất của NE là tên, lớp và danh hiệu, đồng thời kết hợp với từ khóa trong việc tính toán độ tương tự Ngoài ra, các nghiên cứu hiện nay cũng chỉ mới khai thác NE và từ khóa theo các mô hình riêng rẽ Cũng chưa có một

mô hình nào đưa ra các đặc tả về mặt toán học một cách tổng quát cho tài liệu và truy vấn với sự tham gia của cả hai yếu tố là NE với đầy đủ các đặc trưng của nó và từ khóa Ta đã biết, trong mô hình không gian vectơ truyền thống, tài liệu và truy vấn được thể hiện thông qua các vectơ với chiều là các từ khóa xuất hiện trong văn bản tài liệu hay truy vấn

Trang 14

Một mô hình tương tự như vậy, trong đó kết hợp ngữ nghĩa của NE và từ khóa là thật sự cần thiết Đây là một mục tiêu mà trong luận án này chúng tôi khảo sát đến

Trong luận án này, chúng tôi giới thiệu và khảo sát một số mô hình truy hồi thông tin kết hợp các đặc tính về mặt ngữ nghĩa của NE và từ khóa theo nhiều hướng tiếp cận khác nhau Các mô hình này cải tiến mô hình không gian vectơ truyền thống, trong đó xét cả

NE và từ khóa vào quá trình tính toán độ tương tự ngữ nghĩa giữa tài liệu và truy vấn Đối với NE chúng tôi tiếp cận theo các thể hiện từng phần hoặc toàn bộ Mỗi NE được đại

điện bởi bộ ba <tên, lớp, danh hiệu> Bên cạnh các NE được xác định đầy đủ với ba đặc

trưng, một số NE chỉ xác định được tên hoặc lớp, hoặc tên và lớp Với cách tiếp cận linh hoạt này, chúng tôi nhận định rằng phương pháp sẽ thích ứng được với các trường hợp mà ontology và cơ sở tri thức chưa hoàn thiện Ngoài ra, với việc phân tích NE theo lớp thực thể, các mô hình đề xuất sẽ đặc biệt hiệu quả cho các truy vấn theo lớp, chẳng hạn truy vấn về các quốc gia trên thế giới, v.v…

Ngoài ra, trong các mô hình khảo sát, như đã đề cập, chúng tôi cũng đưa ra một đặc

tả toán học một cách tổng quát cho tài liệu và truy vấn trong đó xét cả NE với đầy đủ ba đặc trưng và từ khóa Trên cơ sở đó, phép toán tính độ tương tự về mặt ngữ nghĩa giữa tài liệu và truy vấn được xây dựng

1.2 Các công trình liên quan

Các kỹ thuật truy hồi thông tin truyền thống dựa trên từ khóa không thể hiện được trọn vẹn ngữ nghĩa của tài liệu, đơn giản vì chúng chỉ chuyển tài liệu thành một tập các từ khóa, do đó chất lượng truy hồi thông tin của các hệ thống này chỉ đạt được những thành tựu nhất định

Để tăng cường hiệu suất truy hồi thông tin, nhiều nghiên cứu [10], [5], [19], [29], [15], [8], [30], [11], [7], [20], [16] chú thích tài liệu với các thông tin ngữ nghĩa, cụ thể hơn đó là việc bổ sung thông tin ngữ nghĩa cho tài liệu hay truy vấn bằng cách xác định các thực thể có tên được định nghĩa trong ontology và cơ sở tri thức Quá trình truy hồi

Trang 15

thông tin với các thông tin về ngữ nghĩa sẽ cho kết quả truy hồi tốt hơn Các nghiên cứu liên quan trong lĩnh vực này có thể tạm chia thành bốn hướng chính như sau

Thứ nhất là hướng tiếp cận thông qua việc mở rộng truy vấn dựa trên ontology Hướng tiếp cận này tập trung khai thác ontology nhằm mở rộng câu truy vấn Trong đó, một số hướng sử dụng UMLS (Unified Medical Language System) làm ontology ([15], [8]), hoặc sử dụng WordNet5 là một ontology về ngôn ngữ để mở rộng truy vấn ([30], [11]) Một số hướng khác tự xây dựng ontology và khai thác ontology này trong quá trình xác định truy vấn Các nghiên cứu [19], [7] [19] sử dụng ontology và cơ sở tri thức làm

rõ ngữ nghĩa cho câu truy vấn thông qua việc tương tác với người dùng Trong cách tiếp cận này, ontology chủ yếu đóng vai trò là một từ điển chứa các thông tin liên quan đến các từ trong câu truy vấn, việc mở rộng dựa trên các từ đồng nghĩa (synonyms), các mối quan hệ tổng quát hóa hay chuyên biệt hóa, và hầu như không chú trọng đến ngữ cảnh của văn bản

Hướng tiếp cận thứ hai là khai thác mối quan hệ đồng xuất hiện để mở rộng vectơ tài liệu trong mô hình không gian vectơ truyền thống ([10]) Để khám phá các các mối quan

hệ tiềm ẩn, Gonçalves et al ([10]) thông qua giải thuật tính độ mạnh quan hệ CORDER ([33]) xác định các thực thể có tên và từ khóa không xuất hiện trong tài liệu nhưng có mối liên hệ với các thực thể có tên và từ khóa trong tài liệu, và sử dụng chúng trong việc mô tả nội dung của tài liệu Độ mạnh quan hệ được tính toán dựa trên việc đồng xuất hiện trong tài liệu Với việc mở rộng vectơ tài liệu, tác giả đã đạt được kết quả nhất định khi thực

nghiệm trên 20 câu truy vấn của tập CISI ([4]) Độ đo trung bình hài hoà F tăng 19.3% so

với 9.2% khi không mở rộng vectơ tài liệu Đây là một kết quả tốt, tuy nhiên giá trị của

độ F thấp, có thể là do tập CISI chứa rất ít thực thể có tên Tuy có những kết quả tốt, công

trình vẫn còn hạn chế, cụ thể là chỉ quan tâm đến việc mở rộng vectơ tài liệu mà bỏ qua vectơ truy vấn Ngoài ra, thực thể có tên cũng chỉ được xem xét ở khía cạnh tên thực thể,

bỏ qua các đặc trưng khác của NE Vì vậy, [10] không thể hỗ trợ các tìm kiếm theo lớp thực thể, cặp tên-lớp hay danh hiệu

Trang 16

Thứ ba là hướng tiếp cận trong đó truy hồi thông tin dựa trên ontology và cơ sở tri thức Với hướng tiếp cận này, tài liệu được xem như một tập các thực thể hoặc là được chú thích bởi các thực thể có trong KB ([17], [20], [16]) Hệ thống sử dụng ngôn ngữ truy vấn ontology để truy hồi các thực thể từ KB, về mặt cơ bản các hệ thống này tập trung vào việc truy vấn thực thể hơn là truy hồi các tài liệu

Hướng tiếp cận thứ tư kết hợp giữa truy hồi thông tin dựa trên ontology và cơ sở tri thức với mô hình không gian vectơ ([19], [29], [5]) Hệ thống sử dụng ngôn ngữ truy vấn ontology truy hồi thực thể có tên và sử dụng kết quả này tìm kiếm các tài liệu liên quan dựa trên mô hình không gian vectơ

Nagypál ([19]) sử dụng ontology và KB làm rõ ngữ nghĩa cho câu truy vấn thông qua việc tương tác với người dùng Ontology được sử dụng để mở rộng mô hình không gian vectơ với các mức độ khác nhau, các kết quả trả về được kết hợp và sắp xếp lại theo mô hình mạng niềm tin (belief network model) để có được kết quả cuối cùng

Tomassen et al ([29]) tăng cường hiệu suất truy hồi bằng cách sử dụng ontology mở rộng truy vấn thông qua vectơ đặc trưng (feature vector) nhằm hiểu rõ nhu cầu thông tin của người dùng Điểm nổi bật là việc kết nối các khái niệm trong ontology với một vectơ đặc trưng để chuyển đổi các khái niệm này phù hợp với tập tài liệu và thuật ngữ trong miền đang xét

Castells et al ([5]) sử dụng truy vấn dạng thức RDQL6 truy hồi thực thể trong KB Các tài liệu được chú thích ngữ nghĩa và các thực thể được đánh trọng số theo phương pháp TF-IDF ([2]) Thực thể có tên được xác định thông qua danh hiệu của chúng Do vậy, mỗi NE cần được xác định một cách chính xác Những NE không xác định sẽ không được xem xét trong trong phương pháp này Với tập thực thể tìm thấy sau quá trình truy hồi theo RDQL, và với tập tài liệu được chú thích ngữ nghĩa, hệ thống tìm ra các tài liệu liên quan Kết quả này được kết hợp với phương pháp truy hồi theo từ khóa để có được tập kết quả cuối cùng trả về cho người dùng Quá trình kết hợp giữa NE và từ khóa là tuyến tính, với các trọng số bằng nhau và là 0.5 lần lượt cho độ tương tự theo NE và từ khóa Nhờ vào việc khai thác ontology và cơ sở tri thức, [5] đã tăng độ đầy đủ khi thực

6 RDQL - A Query Language for RDF, http://www.w3.org/Submission/RDQL/

Trang 17

hiện truy vấn trên tập thực thể, và tăng độ chính xác khi sử dụng các truy vấn có cấu trúc ngữ nghĩa theo dạng RDQL

Trong các hướng tiếp cận, [5] tương đối gần với hướng tiếp cận của chúng tôi nhất Tuy nhiên, chúng tôi không thông qua việc truy hồi thực thể có tên để truy hồi tài liệu liên quan vì phương pháp này phụ thuộc rất nhiều vào sự đầy đủ và hoàn thiện của ontology

và cơ sở tri thức Ngoài ra, kết quả cuối cùng của quá trình truy hồi là trả về các tài liệu liên quan, việc chuyển đổi truy vấn từ phía người dùng thành truy vấn các thực thể trong

KB theo RDQL là một bước trung gian không cần thiết, và tất nhiên không được tự nhiên Phương pháp ràng buộc chất lượng của ontology và KB trong việc thể hiện cả tài liệu lẫn truy vấn Trong phương pháp này, nếu một NE không có trong KB của hệ thống thì sẽ không thể tìm được các tài liệu chứa NE này; cho dù là thực tế tồn tại nhiều NE này trong kho tài liệu Ví dụ, với truy vấn tìm kiếm tài liệu về các cầu thủ bóng chày, vectơ tài liệu được xác định thông qua các cầu thủ bóng chày trong KB Vì vậy, những tài liệu có chứa các cầu thủ bóng chày nhưng không được định nghĩa trong KB sẽ không được trả về Trong trường hợp xây dựng được một ontology và KB tốt và đủ lớn thì phương pháp vẫn gặp khó khăn vì tốc độ xử lý không tốt, nguyên do là vì phải thực hiện một bước tìm kiếm không cần thiết trên một tập thực thể lớn

Với các khảo sát trên, chúng tôi nhận xét rằng các nghiên cứu hiện tại đã không khai thác hết các đặc trưng của thực thể có tên, cụ thể là tên, lớp và danh hiệu Vì vậy, các nghiên cứu này không có tính linh hoạt cao, đặc biệt là khi cơ sở tri thức không đầy đủ, và cũng không thể mở rộng ra cho các truy vấn tài liệu theo lớp của thực thể có tên

1.3 Cơ sở lý thuyết

Vấn đề cơ bản của hệ thống truy hồi thông tin là việc xác định tài liệu nào liên quan đến truy vấn thông tin và tài liệu nào không liên quan Việc xác định này phụ thuộc vào giải thuật tính toán độ tương tự ngữ nghĩa Các giả thiết khác nhau về sự liên quan giữa tài liệu và truy vấn sẽ hình thành các mô hình truy hồi thông tin khác nhau

Trang 18

Dưới đây, chúng tôi sẽ trình bày mô hình không gian vectơ (VSM) theo từ khóa Đây

là mô hình phổ biến và cơ bản trong truy hồi thông tin Nó được xem là nền tảng để phát triển các mô hình khác vì tính đơn giản, nhanh và kết quả trả về tốt hoặc không hề thua kém các mô hình khác ([2]) Phần tiếp theo sau đó, chúng tôi trình bày hệ thống quản lý thông tin và tri thức KIM, được sử dụng trong quá trình chú thích ngữ nghĩa cho tài liệu

Mô hình truy hồi thông tin tổng quát

Mô hình truy hồi thông tin tổng quát được R Baeza-Yates và B Ribeiro-Neto ([2]) định nghĩa như sau

Định nghĩa 1.1: Một mô hình truy hồi thông tin là một bộ tứ [D , Q , F , ( , ) R q d ], i j

trong đó:

(1) D là tập hợp các thể hiện của tài liệu có trong bộ lưu trữ

(2) Q là tập hợp các thể hiện của nhu cầu thông tin của người sử dụng được gọi là các

Mô hình không gian vectơ theo từ khóa

Thể hiện tài liệu trong mô hình không gian vectơ theo từ khóa (KW VSM) là một tập các

từ khóa Trong đó, từ khóa là từ, cụm từ mà nghĩa của chúng giúp cho việc xác định nội dung chính của tài liệu

Trang 19

Định nghĩa 1.2: Gọi k là từ khóa, i d là tài liệu, j w là trọng số được gán cho cặp i j,

(k , i d ), j w ≥ 0; i j, w là trọng số được gán cho cặp [ i q, k , q ], i w ≥ 0 Ta có vectơ truy i q,vấn qr

= (w , …, 1,q w ) và vectơ tài liệu t q, durj

Phương pháp tf.idf được dùng để xác định trọng số cho từ khóa của tài liệu ([25]) Trong

đó, tf (term frequency) là hàm theo tần số xuất hiện của từ khóa trong tài liệu Nó đại diện cho vai trò của từ khóa trong việc xác định nội dung ngữ nghĩa của tài liệu idf (inverse

document frequency) là hàm theo tần số nghịch đảo của tần số xuất hiện của từ khóa trong tất cả các tài liệu Trọng số của từ khóa k i trong tài liệu d j được định nghĩa như sau:

freq là tần số xuất hiện của k trong tài liệu i d j

Đối với trọng số cho từ khóa trong truy vấn, Salton và Buckley ([24]) đề nghị cách tính như sau:

Trang 20

Trong mô hình không gian vectơ, với một truy vấn cho trước, quá trình truy hồi bao gồm hai bước chính là lọc tài liệu và xếp hạng tài liệu Mục đích của bước lọc tài liệu là giới hạn tập tài liệu cần xếp hạng bằng cách chọn những tài liệu thỏa mãn biểu thức

boolean trong câu truy vấn Ví dụ, với truy vấn k1∨k2, D1 và D2 lần lượt là hai tập tài liệu

chứa k1 và k2, ta có D1∪D2 là tập tài liệu cần tìm Tập tài liệu này được xếp hạng theo độ tương tự với truy vấn theo các công thức trong định nghĩa 1.2 trước khi trả về cho người dùng

Tổng quát, mô hình không gian vectơ có những ưu và nhược điểm sau:

Ưu điểm:

• Mô hình đơn giản, nhanh và hiệu suất truy hồi tốt Đây là một ưu điểm nổi trội của mô hình

• Phương pháp tính trọng số cho từ khóa cải thiện hiệu suất truy hồi

• Chiến lược so trùng một phần cho phép truy hồi các tài liệu chỉ tương đối liên quan đến truy vấn

• Phương pháp tính độ tương tự theo cosin cho phép xếp hạng tài liệu theo các mức độ liên quan, tài liệu liên quan nhất được trả về trước tiên

Nhược điểm:

• Trong mô hình vectơ, các từ khóa được xem là độc lập lẫn nhau Trọng số của từ khóa này không phụ thuộc vào trọng số của các từ khóa khác

KIM - Hệ thống quản lý thông tin và tri thức

KIM (Knowledge & Information Management)7 là hệ thống quản lý thông tin và tri thức được phát triển bởi Ontotext Lab Trong hệ thống KIM, ontology chứa các định nghĩa của lớp thực thể, các thuộc tính và các mối quan hệ ([17]) Thực thể có tên và các mối quan

Trang 21

hệ của chúng được lưu trữ trong cơ sở tri thức Hình 1.1 minh họa một số thông tin trong KIM Ontology và KB

Hình 1.1 Ví dụ KIM Ontology và KB [17]

KIM cung cấp các dịch vụ và cấu trúc cho truy hồi, đánh chỉ mục và chú thích ngữ nghĩa KIM thực hiện việc rút trích thông tin dựa trên một ontology (KIMO) và một cơ sở tri thức xây dựng sẵn Bản chất của quá trình rút trích thông tin (Information Extraction - IE) của KIM là tổ chức các thực thể vào trong KIMO Thực thể trong KIM được xác định bởi một URI duy nhất, được xem là danh hiệu của nó KIM IE được phát triển dựa trên nền mã nguồn mở GATE (General Architecture for Text Engineering)8, trong đó trung tâm là module nhận diện NE Nhận diện NE trong KIM cũng đạt được thành tự nhất định, với độ chính xác và độ đầy đủ trung bình lần lượt là 90% và 86%9 Đối với truy hồi thông tin, KIM cung cấp cơ chế đánh chỉ mục và truy hồi theo danh hiệu của thực thể có tên, và được xây dựng trên nền mã nguồn mở Lucene10

Trong luận án này, chúng tôi sử dụng KIM trong quá trình chú thích ngữ nghĩa văn bản, nhằm xác định các thực thể có tên trong tài liệu và các đặc trưng của chúng

Trang 22

Chương 2:

Truy hồi thông tin theo thực thể có tên và từ khóa

Một mô hình truy hồi thông tin mạnh có khả năng đặc tả được trọn vẹn truy vấn thông tin

và khả năng truy hồi được chính xác, đầy đủ các thông tin liên quan Tuy nhiên, tùy vào nhu cầu thông tin, người dùng thực hiện các hành vi tìm kiếm khác nhau Do đó, xây dựng một mô hình truy hồi thông tin cần phải thiết lập các giả định về hành vi tìm kiếm của người dùng

Hành vi tìm kiếm của người dùng, một cách tổng quát, có thể chia làm hai loại là tìm kiếm phổ quát (navigational search) và tìm kiếm chuyên sâu (research search) ([14]) Với tìm kiếm phổ quát, người dùng tìm kiếm các tài liệu cần thiết bằng cách cung cấp những cụm từ mà họ mong chờ có trong tài liệu Ngược lại, với tìm kiếm chuyên sâu, người dùng mong muốn thông tin của một đối tượng hay hiện tượng cụ thể, việc cung cấp từ khóa hay cụm từ cho máy tìm kiếm là nhằm mục đích tìm được các tài liệu có chứa thông tin cần tìm Trong luận án này, các mô hình chúng tôi khảo sát và xây dựng nhấn mạnh vào hướng tìm kiếm phổ quát Đó là quá trình tìm kiếm với mục tiêu tìm được càng nhiều tài liệu liên quan càng tốt, trong đó cả độ chính xác và độ đầy đủ đều quan trọng như nhau

và đạt được giá trị càng cao càng tốt ([1])

2.1 Truy hồi thông tin theo thực thể có tên

Một mô hình truy hồi thông tin theo thực thể có tên phụ thuộc khả năng chú thích ngữ nghĩa văn bản Đó là quá trình nhận diện NE trong văn bản và kết nối NE này với các đặc

tả ngữ nghĩa của nó trong KB ([22]) Khả năng chú thích ngữ nghĩa văn bản là cơ sở cho

Trang 23

nhiều ứng dụng khác nhau, trong đó có truy hồi thông tin theo thực thể có tên Do vậy, trước khi đi vào chi tiết quá trình truy hồi thông tin theo thực thể có tên, ta sẽ xem xét văn bản tài liệu sau khi được chú thích ngữ nghĩa

Tài liệu được chú thích ngữ nghĩa

Một NE có ba đặc trưng cơ bản là tên, lớp và danh hiệu Tuy nhiên, trong quá trình chú

thích ngữ nghĩa, không phải NE nào trong văn bản cũng được nhận diện, và cũng không phải tất cả các NE được nhận diện đều có đầy đủ các đặc trưng của nó Nguyên do là vì không thể có một KB đủ lớn chứa mọi thực thể có tên, cũng như chưa có một giải thuật hoàn hảo cho quá trình nhận diện NE Hơn nữa, ngôn ngữ tự nhiên luôn chứa đựng sự nhập nhằng và đa nghĩa Khi phân tích một tài liệu được chú thích ngữ nghĩa, ta cần phải chú ý đến hạn chế này

Ví dụ 2.1: Xem xét các đoạn văn sau (nguồn VNExpress11):

D1: “Trung Quốc bắt đầu tăng giá nhiên liệu thêm 18% hôm nay, nhằm hạn chế lượng tiêu thụ năng lượng ở nước này”

D2: “Theo ông Hồ Nghĩa Dũng, Bộ trưởng Giao thông, xe tự chế của thương binh, người tàn tật sẽ được phép lưu hành đến hết năm 2008”

D3: “Ấn Độ cấp thiết phải "tối ưu hóa các ứng dụng không gian cho mục đích quân sự", tướng Deepak Kapoor phát biểu hôm đầu tuần”

D4: “Nhà Trắng vừa ra tuyên bố cho biết, Tổng thống Mỹ George Bush hoan nghênh

cơ hội đàm thoại với Thủ tướng Việt Nam Nguyễn Tấn Dũng và sẽ đón tiếp ông tại Nhà Trắng vào ngày 24/6, để bàn thảo việc thúc đẩy hợp tác song phương”

Trong tài liệu D1, Trung Quốc được nhận diện là một NE, và vì NE này có trong KB,

NE Trung Quốc được xác định đầy đủ với cả ba đặc trưng, được đại diện bởi bộ ba (Trung Quốc/Quốc gia/Country_T.CH) Ngược lại, trong tài liệu D2, Hồ Nghĩa Dũng cũng được nhận diện là một NE, nhưng vì không tồn tại trong KB, NE này không có danh

Trang 24

hiệu Ta chỉ xác định được hai đặc trưng của NE Hồ Nghĩa Dũng là tên (Hồ Nghĩa Dũng)

và lớp (Con người) Tương tự, với tài liệu D3, NE Ấn Độ được xác định đầy đủ với bộ ba (Ấn Độ, Quốc gia, Country_T.IN) Trong khi đó NE Deepak Kapoor chỉ xác định được tên (Deepak Kapoor) và lớp (Con người) Trong tài liệu D4, Nhà Trắng là một NE đặc biệt, nó có thể là một tổ chức chính trị (Nhà Trắng ở đầu đoạn văn) hoặc là một nơi chốn (Nhà Trắng ở cuối đoạn văn) Như vậy, trong quá trình chú thích ngữ nghĩa tự động, NE Nhà Trắng mặc dù đã được nhận diện, nhưng lớp của thực thể này có thể không xác định được Ngoài NE Nhà Trắng, trong tài liệu D4, hai NE khác cũng được nhận diện là

George Bush và Nguyễn Tấn Dũng, trong đó NE George Bush có trong KB với danh hiệu

là Person_T.80

Tóm lại, vì sự hạn chế của cơ sở tri thức, của giải thuật nhận diện NE, hay vì sự nhập nhằng về ngữ nghĩa của ngôn ngữ tự nhiên, v.v… một NE xuất hiện trong văn bản tài liệu

có thể được nhận diện như sau:

• Tên NE được nhận diện, không xác định được lớp và danh hiệu

• Tên và lớp NE được nhận diện, không xác định được danh hiệu

• Tên, lớp và danh hiệu NE được nhận diện đầy đủ

2.1.1 Mô hình truy hồi thông tin theo thực thể có tên

Trong mô hình truy hồi thông tin theo từ khóa, ngữ nghĩa văn bản được thể hiện thông qua một tập các từ khóa Tuy nhiên, từ khóa không thể thể hiện trọn vẹn ngữ nghĩa của các NE chứa trong văn bản hay truy vấn Ta khảo sát ví dụ 2.2 dưới đây:

Ví dụ 2.2: Xét các truy vấn sau:

Q1: Tìm các tài liệu về thành phố

Q2: Tìm các tài liệu về thành phố Sài Gòn

Q3: Tìm các tài liệu về tháp Hà Nội

Q4: Tìm các tài liệu về trường đại học kỹ thuật Hà Nội

Trang 25

Đối với truy vấn Q1, tài liệu cần tìm không nhất thiết phải chứa từ khóa thành phố,

mà chính xác hơn, chỉ cần có NE có lớp là Thành phố, cụ thể đó là các thành phố trên thế giới Đối với Q2, không chỉ những tài liệu đề cập đến thành phố Sài Gòn, mà các tài liệu chứa các tên khác của thành phố Sài Gòn như là thành phố Hồ Chí Minh cũng là các kết quả cần tìm Trong truy vấn Q3, tài liệu chứa thông tin về thành phố Hà Nội, hay đại học

Hà Nội không phải là các tài liệu cần tìm mặc dù có chứa từ khóa Hà Nội Đối với Q4, tài

liệu cần tìm là một NE cụ thể, đó là trường đại học kỹ thuật Hà Nội, không phải bất cứ

một trường đại học nào khác có tên tương tự Qua các ví dụ trên, ta thấy, quá trình tìm kiếm và so trùng theo từ khóa có thể cho các kết quả không mong muốn hoặc không tìm

ra các tài liệu liên quan

Như vậy, một mô hình truy hồi thông tin theo thực thể có tên có thể mang lại hiệu suất tốt Tuy nhiên, như ta đã biết, một NE có thể được nhận diện một cách không đầy đủ các đặc trưng tên, lớp và danh hiệu của nó Vì vậy, mô hình xây dựng, ngoài yêu cầu khai thác các đặc trưng của NE, đòi hỏi phải phản ứng linh hoạt với hạn chế này

Mô hình truy hồi thông tin theo thực thể có tên được [31] khảo sát đã đưa ra một hướng tiếp cận uyển chuyển cho hạn chế trên Dưới đây là các định nghĩa chính thức đặc

tả mô hình truy hồi thông tin theo thực thể có tên thông qua các đặc trưng của NE

Định nghĩa 2.1: Cho một bộ ba (N, C , I ) trong đó N, C và I lần lượt là các tập

của tên, lớp và danh hiệu của thực thể có tên trong bộ lưu trữ

(1) Tài liệu dlà một tập con của (N∪{*})×(C ∪{*})×( I ∪{*}), trong đó ‘*’ đại diện cho một tên, lớp hay danh hiệu chưa biết của một NE trong tài liệu d

(2) d được miêu tả bởi bộ bốn vectơ (durN

lần lượt là các vectơ của tài liệu d trên N, C, N C× và I

Mỗi một vectơ trong bốn vectơ được giới thiệu trên được xem như một vectơ trong mô

hình không gian vectơ truyền thống, trong đó không gian từ khóa được thay bằng không

gian tên, lớp, tên-lớp và danh hiệu của NE

Trang 26

Để tính trọng số cho các thành phần của vectơ tài liệu và truy vấn trên không gian K,

ta vẫn áp dụng phương pháp tf.idf trong mô hình vectơ cổ điển, trong đó từ khóa được

thay thế bởi tên, lớp, tên-lớp và danh hiệu của các thực thể có tên Tuy nhiên, với các đặc trưng về ngữ nghĩa của NE, có hai yếu tố khác biệt quan trọng trong việc tính toán tần số xuất hiện Đó là các vấn đề về bao phủ lớp (class subsumption) và tên khác:

1 Tần số của tên NE được tính khi xuất hiện cả các tên khác của nó Nghĩa là, nếu tài liệu chứa NE với một tên khác, ta cũng xem như tên NE xuất hiện trong tài

liệu Ví dụ, nếu tài liệu có NE thành phố Hồ Chí Minh, thì mỗi lần xuất hiện của

nó cũng được tính là một lần xuất hiện của thành phố Sài Gòn, vì Hồ Chí Minh là một tên khác của Sài Gòn, cùng đề cập đến một NE duy nhất đó là thành phố Sài

Ví dụ 2.3 minh họa rõ cho vấn đề tên khác và bao phủ lớp, thông qua việc phân tích tác

động của các truy vấn lên tài liệu D

Ví dụ 2.3: Xét tài liệu và các truy vấn sau (nguồn VNExpress):

D: “Tổng thống Nga Dmitry Medvedev chọn Đức là điểm đến đầu tiên tại Tây Âu

Trang 27

trên cương vị mới, và tiếp tục bày tỏ mối lo ngại về việc NATO mở rộng sang phía đông và kế hoạch lá chắn tên lửa của Mỹ

Chuyến công du hôm qua diễn ra trong bối cảnh quan hệ Nga và châu Âu căng thẳng

vì vấn đề lá chắn tên lửa và NATO mở rộng, nhưng ông Medvedev và thủ tướng nước chủ nhà Đức Angela Merkel vẫn tìm được tiếng nói chung về tuyến đường ống dẫn khí đốt đang được xây dựng giữa hai nước

Thủ tướng Merkel mô tả dự án trên mang tính quan trọng chiến lược, trong khi ông Medvedev gọi đây là ‘công cuộc kinh doanh của châu Âu có ý nghĩa toàn cầu’ và sẽ mang lại lợi ích cho cả châu lục.”

Q1: Tìm các tài liệu về tổng thống Dmitry Medvedev

Q2: Tìm các tài liệu về thủ tướng Angela Merkel

Q3: Tìm các tài liệu về Con người

Trong tài liệu D, NE Dmitry Medvedev được xác định với hai tên là Dmitry Medvedev và Medvedev, thuộc lớp Nam giới Tương tự, NE Angela Merkel có hai tên là Angela Merkel và Merkel, thuộc lớp Con người 12 Vì vậy, khi xử lý Q1, NE Dmitry Medvedev xuất hiện ở cả ba vị trí trong văn bản Tương tự, với truy vấn Q2, NE Angela Merkel xuất hiện hai lần trong văn bản Đối với truy vấn Q3, lớp Con người có năm lần xuất hiện trong văn bản Trong đó, hai lần được tính cho NE Angela Merkel, và ba lần được tính cho NE Dmitry Medvedev, vì NE này thuộc lớp Nam giới, là lớp con của lớp Con người

Định nghĩa 2.2: Độ tương tự ngữ nghĩa của tài liệu d và truy vấn q được định nghĩa

12 NE Angela Merkel không có trong KB, vì vậy các thuộc tính của nó không được xác định Việc nhận diện

NE này phụ thuộc vào ngữ cảnh văn bản Trong đoạn văn trên, không thể xác định được thủ tướng Đức

Angela Merkel là phụ nữ, thuộc lớp Nữ giới

Trang 28

trong đó, w N + w C + w NC + w I = 1, w K= 0 nếu không tồn tại qrK

trong truy vấn q, với K là

N , C, N C× hoặc I

Trong định nghĩa, chúng tôi không xác định các giá trị cho các trọng số w K Tùy thuộc

vào ứng dụng cụ thể, người sử dụng lựa chọn các giá trị thích hợp nhằm nhấn mạnh vào một đặc trưng cụ thể của NE

Ngoài ra, chúng tôi cũng lưu ý rằng việc kết hợp hai vectơ durN

và durC

không thể thay thế được durNC

vì vectơ durNC

đề cập đến thực thể có tên với cặp tên-lớp xác định Đồng thời

việc kết hợp giữa I với Nvà C là không cần thiết vì tên và lớp của một NE được dẫn xuất từ một NE cụ thể xác định bởi danh hiệu của nó

Tóm lại, với mô hình trên chúng tôi đã tổng quát hóa mô hình không gian vectơ truyền thống, thay thế từ khóa bởi các đặc trưng của NE, lần lượt là tên, lớp, tên-lớp và danh hiệu; và sử dụng bốn vectơ trên các không gian này để đặc tả một tài liệu hay truy vấn cho quá trình truy hồi thông tin

Với các định nghĩa trên, ta có được một mô hình truy hồi thông tin cơ bản, khai thác tất cả các đặc trưng của NE, chúng tôi gọi mô hình này là NE VSM Trong mô hình này, một NE, khi xác định đầy đủ, gồm ba thành phần tên, lớp và danh hiệu Trong đó, danh hiệu xuất hiện trong vectơ durI

, tên xuất hiện trong vectơ durN

, lớp xuất hiện trong vectơ

C

d

ur

, và tên-lớp xuất hiện trong vectơ durNC

Ví dụ, với tài liệu chứa NE thành phố Hồ Chí Minh, NE này chứa đầy đủ thông tin cho bốn vectơ Tên NE là Hồ Chí Minh, lớp là Thành phố, cặp tên-lớp là Hồ Chí Minh-Thành phố và danh hiệu của NE này Ta thấy

việc tách các đặc trưng của NE thành bốn vectơ gây ra sự chồng lấp (overlapping) dữ liệu Nghĩa là, một thông tin của NE đã được dùng ở nhiều hơn một vectơ Vấn đề chồng lấp xảy ra ở cả tài liệu và truy vấn khi phân tích chúng thành các vectơ Ta cần phải khảo sát vấn đề này một cách chi tiết

Xem xét vấn đề chồng lấp dữ liệu đối với tài liệu, ta thấy việc chồng lấp này là hoàn toàn hợp lý, bởi vì các vectơ là các góc nhìn khác nhau trên cùng một tài liệu Đối với tài liệu, ta phải lưu trữ đầy đủ các thông tin và tùy vào yêu cầu thông tin nhận được từ câu truy vấn mà trả về tài liệu phù hợp

Trang 29

Ta phân tích ví dụ 2.4 với một tài liệu trong tập TIME ([4]) để làm rõ hơn cách xử lý chồng lấp dữ liệu khi phân tích tài liệu

Ví dụ 2.4: Xét tài liệu D dưới đây:

D: “… Last week U.S Defense Secretary Robert S McNamara flew from the NATO meeting in Paris to Saigon, for his second Viet Nam inspection visit in three months…” 13

NE Việt Nam trong tài liệu D trên được xác định đầy đủ vì nó có trong KB, đại diện bởi bộ ba (Viet Nam/Country/Country_T.VN) Nếu ta chỉ lưu thông tin NE này cho vectơ

khác nhau từ phía người dùng, và nó không gây ra bất cứ hiệu ứng lề nào

Ngược lại, ta nhận thấy việc chồng lấp thông tin trong quá trình phân tích câu truy vấn lại phụ thuộc vào mục đích tìm kiếm thông tin của người dùng Nếu muốn nhận được càng nhiều tài liệu liên quan, chồng lấp thông tin là tốt, ngược lại, không chồng lấp thông tin làm tăng độ chính xác khi giới hạn tập tài liệu trả về Như vậy, việc chấp nhận hay không chấp nhận chồng lấp thông tin trên câu truy vấn giữa các vectơ của NE VSM tạo ra hai biến thể, chúng tôi gọi là NEo (overlapped model) và NEn (non-overlapped model) Trong đó, NEo là mô hình chấp nhận chồng lấp dữ liệu, và NEn không chấp nhận chồng lấp dữ liệu

Ta phân tích ví dụ 2.5 với một truy vấn trong tập TIME để làm rõ hơn vấn đề xử lý chồng lấp dữ liệu khi phân tích câu truy vấn

Ví dụ 2.5: Xét truy vấn Q dưới đây:

Q: Tìm tài liệu liên quan đến truy vấn “Persons involved in the Viet Nam coup”

13 D là một đoạn trong tài liệu thứ 421 của tập TIME, là một tài liệu liên quan đến truy vấn “Persons

involved in the Viet Nam coup”

Trang 30

Phân tích truy vấn Q trên, ta có hai NE là (*/Person/*), và (Viet Nam/Country/Country_T.VN), với Country_T.VN là danh hiệu của NE nước Việt Nam

Ta có tập các term14 của hai mô hình NEo và NEn lần lượt như sau:

• Tập các term của NEo:

{(Viet Nam/*/*), (*/Person/*), (*/Country/*), (Viet Nam/Country/*), (Viet Nam/Country/Country_T.VN)}

• Tập các term của NEn:

{(*/Person/*), (Viet Nam/Country/Country_T.VN)}

Như vậy, với mô hình NEo truy vấn trên được thể hiện bởi bốn vectơ Trong đó, tập các term lần lượt là q N = {(Viet Nam/*/*)}, q C ={(*/Person/*), (*/Country/*)},

NC

q ={(Viet Nam/Country/*)}, và q I ={(Viet Nam/Country/Country_T.VN)} Ngược lại,

với mô hình NEn, ta chỉ có hai vectơ theo lớp và danh hiệu với tập các term lần lượt là

C

q ={(*/Person/*)}, và q I ={(Viet Nam/Country/Country_T.VN)}

Ta thấy, với việc chia tài liệu và truy vấn ra thành bốn không gian vectơ trên N, C,

N C× và I , khi thực hiện truy hồi thông tin trên từng không gian sẽ cho tập tài liệu kết quả trên không gian đó Ta gọi D N , D C , D NC và D I lần lượt là tập tài liệu trả về trên bốn không gian vectơ trên Theo định nghĩa 2.1, các tài liệu trong các tập này đã được xếp hạng trên không gian nó được tìm thấy Tài liệu trong tập kết quả cuối cùng xuất hiện trên nhiều không gian được xếp hạng theo định nghĩa 2.2 Một vấn đề còn lại ở đây là tập tài

liệu cuối cùng được tính như thế nào theo D N , D C , D NC và D I Chúng ta sẽ khảo sát kĩ vấn

đề này trên hai mô hình NEn và NEo

2.1.2 Mô hình NEn

14 Chúng tôi sử dụng từ term trong tiếng Anh mà không dịch ra tiếng Việt để tránh gây tối nghĩa không cần

thiết cho người đọc

Trang 31

Mô hình NEn là mô hình không chấp nhận chồng lấp dữ liệu khi phân tích truy vấn thành bốn vectơ qrN

, qrC

, qrNC

, qrI

Nghĩa là, thông tin đầy đủ nhất của một NE chỉ xuất hiện ở

đúng một vectơ Ví dụ, với truy vấn “Tìm tài liệu về thành phố Sài Gòn”, thông tin của

NE thành phố Sài Gòn xuất hiện chỉ trong vectơ qrI

với danh hiệu của nó

Định nghĩa 2.3: Gọi D N , D C , D NC và D I lần lượt là tập tài liệu trả về từ bốn không gian vectơ trên N, C, N C× và I của mô hình NEn Tập tài liệu kết quả cuối cùng D của truy vấn q được tính như sau:

Trong mô hình NEn, tập tài liệu kết quả D của truy vấn q là hợp của các tập D N , D C , D NC

và D I Dễ dàng lý giải cho phép hợp này, vì các vectơ qrN

, qrC

, qrNC

, qrI

là độc lập thông

tin lẫn nhau, do đó tập tài liệu kết quả phải là hợp của các tập riêng rẽ D N , D C , D NC và D I

Tài liệu trong D trước khi trả về cho người dùng được xếp hạng theo độ tương tự giữa tài

liệu và truy vấn Tính toán độ tương tự không thay đổi và hoàn toàn tuân thủ các định nghĩa 2.1 và 2.2

Việc chồng lấp dữ liệu xảy ra khi thông tin của một NE xuất

hiện ở nhiều hơn một vectơ Ví dụ, với truy vấn “Tìm tài liệu về thành phố Sài Gòn”, thông tin của NE thành phố Sài Gòn xuất hiện trong tất cả các vectơ qrN

Trang 32

Định nghĩa 2.4: Gọi D N , D C , D NC và D I lần lượt là tập tài liệu trả về từ bốn không gian

vectơ trên N, C, N C× và I của mô hình NEo Tập tài liệu kết quả cuối cùng D của

truy vấn q được tính như sau:

Trong mô hình NEo, tập tài liệu kết quả D của truy vấn q là tập giao của các tập D N , D C,

D NC và D I Ta lý giải cho phép toán giao này như sau: các vectơ qrN

, qrC

, qrNC

, qrI

là các

góc nhìn khác nhau của cùng một truy vấn gốc q trên các không gian N, C, N C× và I ,

và được xem là một phần của truy vấn gốc Nói một cách khác, truy vấn gốc q được giao

Tương tự mô hình NEn, tài liệu trong D trước khi trả về cho người dùng được xếp hạng

theo độ tương tự giữa tài liệu và truy vấn Tính toán độ tương tự cũng không thay đổi và

tuân thủ các định nghĩa 2.1 và 2.2

Tóm lại, với việc khai thác các đặc trưng của NE, chúng tôi đã giới thiệu và phân tích

mô hình truy hồi thông tin theo thực thể có tên NE VSM với hai biến thể của nó lần lượt

là NEn và NEo Tùy thuộc vào thực tế ứng dụng, ta lựa chọn mô hình thích hợp

2.2 Truy hồi thông tin theo thực thể có tên và từ khóa

Các mô hình NE VSM truy hồi thông tin theo thực thể có tên Tuy nhiên, như đã phân

tích ở trên ngữ nghĩa văn bản hay truy vấn không thể thể hiện trọn vẹn nếu chỉ dựa trên

các NE Ví dụ, trong truy vấn về “Viet Nam coup”, nếu chỉ xem xét về thực thể có tên, ta

chỉ có được thông tin tìm kiếm là nước Việt Nam, và bỏ qua thông tin quan trọng của từ

khóa coup Không những thế, hoàn toàn có những truy vấn không có NE Do đó, các mô

hình NE VSM cần phải được cải tiến, kết hợp với từ khóa để thể hiện được trọn vẹn ngữ

nghĩa của tài liệu và truy vấn, từ đó nâng cao hiệu xuất truy hồi

Trang 33

Trước khi đi vào phân tích các mô hình cụ thể, chúng ta hãy xem xét một số ví dụ sau minh họa cho quá trình truy hồi thông tin theo thực thể có tên và từ khóa

Ví dụ 2.6: Xét tài liệu và các truy vấn sau (nguồn VietnamNet15)

D1: “Bộ trưởng Y tế Peru Carlos Vallejos sáng nay (16/8) cho biết một trận động đất mạnh 7,9 độ richter đã làm rung chuyển nước này, khiến ít nhất 337 người thiệt mạng và hơn 1.000 người khác bị thương…”

D2: “Bờ biển Peru vừa hứng chịu trận động đất mạnh 7,9 độ richter và nhiều đợt dư chấn Đã có gần 500 người chết và hơn 1.000 người bị thương…”

D3: “Cựu Tổng thống Peru Alberto Fujimori - người hiện đang lưu vong tại Nhật Bản từ tháng 10/2000 - tuyên bố đang lên kế hoạch chuẩn bị ra tranh cử chức Tổng thống Peru vào năm 2006…”

Q: Tìm các tài liệu về động đất tại Peru

Dễ dàng nhận thấy rằng D1 và D2 là các tài liệu liên quan đến truy vấn Q, ngược lại

D3 không liên quan đến Q Một mô hình truy hồi thông tin tốt là trả về D1, D2 và không

trả về hoặc trả về D3 với xếp hạng độ tương tự thấp nhất cho truy vấn Q Trong các tài liệu trên, ta có bốn NE là Peru, Carlos Vallejos, Alberto Fujimori và Nhật Bản Trong truy vấn Q ta có một NE là Peru Với mô hình truy hồi thông tin theo thực thể có tên NE VSM, xử lý truy vấn Q là quá trình tìm kiếm NE Peru trong các tài liệu Tài liệu D3

không những được trả về mà còn được xếp hạng cao nhất vì chứa nhiều NE Peru hơn hai tài liệu còn lại Tóm lại, nếu bỏ qua từ khóa động đất, tìm kiếm trên trở nên khập khiễng, không còn đúng với mong muốn người dùng

Ví dụ 2.7: Xét tài liệu và các truy vấn sau (nguồn Wikipedia Việt Nam16)

D: “Cơ sở dữ liệu được hiểu theo cách định nghĩa kiểu kĩ thuật thì nó là một tập hợp thông tin có cấu trúc Tuy nhiên, thuật ngữ này thường dùng trong công nghệ thông tin và nó thường được hiểu rõ hơn dưới dạng một tập hợp liên kết các dữ liệu,

Trang 34

thường đủ lớn để lưu trên một thiết bị lưu trữ như đĩa hay băng Dữ liệu này được duy trì dưới dạng một tập hợp các tập tin trong hệ điều hành hay được lưu trữ trong các hệ quản trị cơ sở dữ liệu…”

Q: Tìm các tài liệu về cơ sở dữ liệu

Trong ví dụ 2.7, tài liệu và truy vấn đều không có NE Do đó, mô hình truy hồi thông

tin theo thực thể có tên không thể sử dụng cho truy vấn Q Mô hình thích hợp cho ví dụ

này là mô hình truy hồi theo từ khóa cổ điển

Thông qua hai ví dụ trên, ta thấy một mô hình truy hồi thông tin trong đó kết hợp từ khóa và NE là thật sự cần thiết Mô hình mới phải tận dụng được ưu điểm của từng mô hình riêng rẽ, đồng thời bổ trợ cho các khiếm khuyết của nhau

2.2.1 Mô hình kết hợp NE VSM và KW VSM

Ta đã biết, ngữ nghĩa văn bản được hình thành thông qua phân tích từ khóa và NE trong văn bản Nếu xem tập từ khóa là đại diện cho ngữ nghĩa văn bản, ta có mô hình KW VSM; nếu xem tập NE là đại diện cho ngữ nghĩa văn bản, ta có mô hình NE VSM Một hướng tiếp cận cho mô hình truy hồi thông tin kết hợp từ khóa và NE là kết hợp hai mô hình KW VSM và NE VSM

Như đã đề cập ở phần trước, truy hồi tài liệu trong mô hình không gian vectơ gồm hai bước là lọc tài liệu và xếp hạng tài liệu theo độ tương tự với truy vấn Vì vậy, việc kết hợp hai mô hình KW VSM và NE VSM chính là định nghĩa cách kết hợp hai mô hình này tại các bước trên Như đã biết, kết thúc quá trình lọc tài liệu, ta có các tập tài liệu liên quan của từng mô hình Dễ dàng nhận thấy có hai cách kết hợp các tập tài liệu này là giao hoặc hợp hai tập hợp Đồng thời, vì hai mô hình hoạt động độc lập, xếp hạng tài liệu trong tập kết quả cuối cùng cũng phải dựa vào kết quả xếp hạng của nó trên từng mô hình Định nghĩa 2.5 và 2.6 dưới đây đặc tả cách kết hợp hai mô hình KW VSM và NE VSM

Trang 35

Định nghĩa 2.5: Lần lượt thực hiện truy vấn q trên KW VSM và NE VSM Gọi tập tài

liệu D và KW D lần lượt là kết quả truy hồi của hai mô hình Tập tài liệu NE D là kết quả

của truy vấn theo từ khóa và thực thể có tên được tính như sau:

KW∩NEn, KW∪NEo và KW∪NEn Trong đó, tập tài liệu kết quả D của KW∩NEo là

tập giao giữa hai tập tài liệu trả về từ hai mô hình KW VSM và NEo, và tương tự như vậy cho KW∩NEn Đối với hai mô hình KW∪NEo và KW∪NEn, tập tài liệu kết quả D là

hợp của hai tập tài liệu của KW VSM và NEo hay NEn

Tài liệu trong tập kết quả D được xếp hạng theo độ tương tự với truy vấn Ta tính độ tương tự giữa một tài liệu d và một truy vấn q theo định nghĩa dưới đây

Định nghĩa 2.6: Độ tương tự giữa một tài liệu d và một truy vấn q trong các mô hình

là các vectơ trong mô hình

KW VSM truyền thống; α = 0 khi câu truy vấn không có chứa thực thể có tên

Trong mô hình KW∪NEo và KW∪NEn, tập tài liệu kết quả là hợp của hai tập tài liệu trả về từ hai mô hình từ khóa và NE Ta có nhiều tài liệu hơn nhưng vì thế số tài liệu

ít liên quan cũng nhiều hơn Trong mô hình KW∩NEo và KW∩NEn, tập kết quả là tập

Trang 36

giao Do vậy, ta có tập tài liệu nhỏ nhưng chính xác hơn và vì thế cũng có thể mất đi các tài liệu liên quan Việc chọn lựa mô hình phụ thuộc vào người sử dụng khi họ mong muốn tìm được nhiều tài liệu trả về hay chỉ cần một số ít tài liệu nhưng kết quả phải chính xác

Ví dụ 2.8 dưới đây phân tích một truy vấn trong tập TIME, minh họa cho các mô

Ví dụ 2.8: Xét truy vấn sau:

Q: “U.N team survey of public opinion in North Borneo and Sarawak on the question of joining the federation of Malaysia”

Tập từ khóa và tập NE của truy vấn trên trong các mô hình KW∩NEo, KW∩NEn,

KW∪NEo và KW∪NEn như sau:

Tập từ khóa = {U.N, opinion, North Borneo, Sarawak, join, federation, Malaysia}

Tập NE = {(U.N./InternationalOrganization/InternationalOrganization_T.17),

(North Borneo/Province/Province_T.2189), (Sarawak/Location/*) (Malaysia/Country/Country_T.MY)}

Mô hình KW VSM sử dụng tập từ khóa đại diện cho truy vấn Q, trong đó mô hình

NE VSM sử dụng tập NE Một câu hỏi có thể được đặt ra ở đây là liệu có sự chồng lấp dữ liệu giữa hai mô hình KW VSM và NE VSM không? Ta có thể khẳng định ở đây không

có sự chồng lấp dữ liệu vì hai mô hình này hoạt động độc lập nhau, tiếp cận dưới hai góc nhìn khác nhau là từ khóa và NE Tài liệu liên quan và độ tương tự của từng mô hình được tính toán riêng rẽ, sau đó được kết hợp lại một cách tuyến tính nhằm tận dụng ưu điểm của cả hai mô hình

Tuy nhiên, với câu hỏi trên gợi cho ta một hướng tiếp cận mới, trong đó ta có thể xem từ khóa và NE có vai trò như nhau, và là một thành phần trong một không gian vectơ chung

Trang 37

2.2.2 Mô hình kết hợp NE và từ khóa trên một không gian vectơ chung

tiếp cận chia tài liệu và truy vấn thành nhiều không gian vectơ Đó là các không gian vectơ theo từ khóa, theo tên, lớp, tên-lớp và danh hiệu của NE Một hướng tiếp cận khác, trong đó ta xem từ khóa hay NE có vai trò như nhau và là một thành phần tổng quát trong một không gian vectơ chung Trước khi đi vào phân tích chi tiết, ta khảo sát ví dụ 2.9

dưới đây, trong đó các tài liệu D1 và D2 được chú thích ngữ nghĩa với các NE xác định

Ví dụ 2.9: Xét các tài liệu và truy vấn sau (nguồn Wikipedia Việt Nam)

D1: “Thành phố Hồ Chí Minh/City/* là thành phố lớn nhất đồng thời cũng là trung tâm kinh tế…”

D2: “Hồ Chí Minh/Person/* là một nhà cách mạng, một trong những người đặt nền móng và lãnh đạo công cuộc đấu tranh…”

Q: Tìm các tài liệu về nhà cách mạng Hồ Chí Minh

Ta có hai NE trong các tài liệu trên là (Hồ Chí Minh/City/*) và (Hồ Chí Minh/Person/*) Khi NE trong D1, D2 được chú thích đầy đủ, đối với máy tìm kiếm, ngữ nghĩa của tài liệu được thể hiện rõ ràng hơn Ta áp dụng mô hình không gian vectơ lên các tài liệu được chú thích này Nhưng các term giờ đây không chỉ là từ khóa mà được

mở rộng ra cho NE được thể hiện dưới bộ ba tên, lớp và danh hiệu Chẳng hạn, trong tài

liệu D2, hai term trong tập các term của D2 là Hồ Chí Minh/Person/* và cách mạng Ta

gọi các term này là các term tổng quát (generalized term) vì chúng có thể là NE hoặc từ khóa Các term tổng quát có vai trò như nhau, và cùng đóng góp vào ngữ nghĩa văn bản Mỗi term chính là một chiều trong một không gian vectơ chung Với cách tiếp cận như vậy, ta thấy mô hình không gian vectơ không cần những thay đổi lớn nhưng lại tận dụng được sức mạnh của NE trong việc xác định ngữ nghĩa văn bản để tính độ tương tự với truy vấn Ta gọi mô hình đang khảo sát này là KW+NE

Như vậy, một tài liệu d được thể hiện bởi một vectơ trong một không gian tổng quát, trong đó các thành phần vectơ là từ khóa hoặc NE Đối với truy vấn q, cách tiếp cận cũng

Trang 38

hoàn toàn tương tự Độ tương tự giữa tài liệu d và truy vấn q được tính toán theo mô hình

không gian vectơ truyền thống Dưới đây là định nghĩa chính thức cho mô hình một không gian vectơ KW+NE

Định nghĩa 2.6: Gọi t là từ khóa hoặc NE, i w và i d, w lần lượt là trọng số được gán i q,

cho cặp (t , i d) và cặp (t , q ) Ta có, vectơ truy vấn q i r

= (w , …, 1,q w ) và vectơ tài liệu t q,

d

ur

= (w , …, 1,d w ), với t là tổng số từ khóa và NE trong bộ lưu trữ t d,

Độ tương tự ngữ nghĩa giữa tài liệu d và truy vấn q được tính bằng cosin của góc tạo bởi

bởi bộ ba đặc trưng <tên, lớp, danh hiệu> Với các đặc trưng này, cách tính tf.idf có

những điều chỉnh phù hợp cho NE

Để làm rõ hơn cho mô hình KW+NE, chúng tôi tiếp tục phân tích tài liệu và truy vấn trong các ví dụ 2.10 và 2.11:

Ví dụ 2.10: Xét tài liệu và truy vấn sau:

D: “Last week the final obstacle to independence was cleared away when the U.N.'s Malaysia team reported that both North Borneo and Sarawak favored the

Trang 39

federation”

Q: “U.N team survey of public opinion in North Borneo and Sarawak on the question of joining the federation of Malaysia”

Trong mô hình KW+NE, ta có:

Tập term tổng quát mô tả tài liệu D =

{last, week, final, obstacle, independence, clear, away,

(U.N./InternationalOrganization/InternationalOrganization_T.17), (Malaysia/Country/Country_T.MY), team, report, both, (North Borneo/Province/Province_T.2189), (Sarawak/Location/*), favor, federation}

Tập term tổng quát mô tả truy vấn Q =

{(U.N./InternationalOrganization/InternationalOrganization_T.17), opinion, (North Borneo/Province/Province_T.2189),

(Sarawak/Location/*), join, federation, (Malaysia/Country/Country_T.MY)}

Ví dụ 2.11: Xét tài liệu sau:

D: “… Hạ Long khi ấy giống như một bức tranh thủy mặc khổng lồ, nhưng nó không tĩnh như các bức tranh của các họa sĩ vẽ trên giấy mà hoàn toàn sống động…”

Trong mô hình KW+NE, Hạ Long được nhận diện là một NE thuộc lớp Nơi chốn Vị

trí NE này trong văn bản được xem là sự xuất hiện của một trong các term trong tập hợp dưới

Tập term đại diện NE Hạ Long =

{(Hạ Long/*/*), (*/Location/*), (Hạ Long/Location/*), (*/Object/*), (Hạ Long/Object/*), (*/Entity/*), (Hạ Long/Entity/*)}

Tùy thuộc vào truy vấn của người dùng theo tên, lớp, tên-lớp mà một trong các term trên sẽ được đại diện cho NE Hạ Long Ta cũng chú ý tập các term trên đã xét đến quan

hệ bao phủ lớp khi kết hợp NE Hạ Long với các lớp cha của nó

Trang 40

Như vậy, chúng tôi đã giới thiệu năm mô hình truy hồi thông tin kết hợp giữa thực thể có tên và từ khóa, lần lượt là KW∩NEo, KW∩NEn, KW∪NEo, KW∪NEn và KW+NE Trong các phần tiếp theo, chúng tôi sử dụng kí hiệu KW&NE là đại diện cho năm mô hình trên

Với các mô hình đã được xây dựng, chúng tôi tiếp tục khảo sát trong phần tiếp theo kiến trúc tổng quát của một hệ thống truy hồi thông tin theo thực thể có tên và từ khóa Trong đó có sự tham gia của các hệ thống nhận diện NE, chú thích ngữ nghĩa văn bản, v.v…

2.2.3 Kiến trúc của hệ thống truy hồi thông tin theo thực thể có tên và

từ khóa

Kiến trúc cho hệ thống truy hồi thông tin theo thực thể có tên và từ khóa được thể hiện ở Hình 2.1 Nó gồm một ontology và cơ sở tri thức của NE trong thế giới tìm kiếm, một module nhận diện NE và chú thích ngữ nghĩa cho tài liệu Trung tâm của hệ thống truy hồi là module đánh chỉ mục và xếp hạng độ tương tự Module này hoạt động tùy vào mô hình KW&NE lựa chọn

Hình 2.1 Kiến trúc của hệ thống truy hồi thông tin theo NE và từ khóa

User query Câu truy vấn

User query

Truy vấn được chú thích

Ontology và Cơ sở tri thức

truy vấn Tài liệu thô

Định dạng
Số trang	94
Dung lượng	1,39 MB