Xây dựng chỉ mục có ngữ nghĩa trong hệ thống truy hồi thông tin

Bằng cách khai thác thông tin về mối liên kết giữa các tài liệu trong môi trường web để xác định mức độ phổ biến của từng tài liệu, Google đã tạo nên nét ngữ nghĩa mới cho tài liệu tích

Trang 1

Đại Học Quốc Gia TP Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

TP Hồ Chí Minh, Tháng 12 – 2008

Trang 2

và hướng dẫn tôi trong suốt thời gian học tập và thực hiện luận văn

Tôi xin gửi lời cảm ơn đến gia đình, bạn bè và đồng nghiệp, những người luôn sát cánh động viên và tạo mọi điều kiện tốt nhất để tôi có thể học tập và hoàn tất được luận văn tốt nghiệp này

Trang 3

TÓM TẮT

Khi đối mặt với kho dữ liệu lớn, phương pháp truy hồi thông tin dựa vào từ khoá đã không cho được kết quả tìm kiếm chính xác cao như mong muốn Đã có nhiều nghiên cứu được đưa ra nhằm nâng cao độ chính xác tìm kiếm, nhưng các nghiên cứu này chủ yếu tập trung vào môi trường web với việc khai thác thông tin

về mối liên kết giữa các tài liệu web với nhau Cũng với mong muốn tăng được độ chính xác tìm kiếm, nhưng trong luận văn của mình chúng tôi tập trung vào các kho dữ liệu nhỏ hơn mang tính chất đặc thù riêng, từ đó xây dựng một hệ thống chỉ mục cho phép tích hợp các nét ngữ nghĩa thu được từ kho dữ liệu này Kho dữ liệu mà chúng tôi chọn để thực nghiệm là các bài báo khoa học được cung bởi tạp chí ACL

Trang 4

ABSTRACT

When faces with large data storage, the information retrieval system based

on keywords has turned out not to give such an accurate result as it is expected There have been many studies carried out to improve the accuracy of searching, but these researches have only focused on web environment to exploit the information about the hyperlinks between web pages What we do here, in this thesis, is also with the aim of increasing searching accuracy, however we primarily develop it in the context of the smaller domain but having specific characteristics, and from that build an index system allowing the integration of the semantic contents derived from this data storage The data storage that we choose to work is the scientific articles provided by ACL journal

Trang 5

MỤC LỤC

CHƯƠNG 1 TỔNG QUAN 1

1.1 LÝ DO CHỌN ĐỀ TÀI 1

1.2 MỤC TIÊU ĐỀ TÀI 2

1.3 ĐÓNG GÓP CỦA ĐỀ TÀI 3

1.4 Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI 3

1.5 CẤU TRÚC LUẬN VĂN 4

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 5

2.1 Mô hình không gian vector 5

2.2 Tiêu chí đánh giá chất lượng hệ thống truy hồi thông tin [3] 6

2.3 Giới thiệu hệ thống truy hồi thông tin dựa theo chiến lược Term Weighting (Trọng số từ) [4] 9

CHƯƠNG 3 CÁC NGHIÊN CỨU LIÊN QUAN ĐẾN ĐỀ TÀI 17

3.1 Kỹ thuật PageRank của Google 17

3.2 Cải tiến phương pháp PageRank bằng cách phân tích liên kết ở cấp độ Block 20 3.3 Máy tìm kiếm thông tin web ngữ nghĩa và metadata - Swoogle 26 CHƯƠNG 4 CƠ SỞ LÝ LUẬN CỦA ĐỀ TÀI 31

4.1 Mục tiêu đề tài 31

4.2 Đặc điểm của kho dữ liệu thư viện online 32

4.3 Kho dữ liệu ACL 33

4.4 Cấu trúc của một bài viết trên ACL 33

4.5 Hướng nghiên cứu của đề tài 34

4.6 Phương pháp xác định trọng số dựa vào nội dung tài liệu 36

4.7 Phương pháp xây dựng trọng số ngữ nghĩa dựa vào các mối quan hệ giữa các tài liệu 41

4.8 Trọng số tài liệu thống nhất sử dụng cho việc sắp thứ tự 46

Trang 6

CHƯƠNG 5 CÀI ĐẶT HỆ THỐNG 48

5.1 Chuyển đổi file từ định dạng pdf sang dạng text sử dụng thư viện PDFBox 50 5.2 Rút trích đặc trưng của tài liệu ACL (ACL Feature Extraction) 50

5.3 Lập chỉ mục tài liệu sử dụng Lucene Indexer 51

5.4 Chuyển Lucene index sang cơ sở dữ liệu (Index Converter) 52

5.5 Rút trích mối quan hệ tài liệu (ACL Relation Extraction) 53

5.6 Tính tần suất đặc trưng (fF Calculator) 53

5.7 Tính trọng số mức độ phổ biến tài liệu (PRref Calculator) 54

5.8 Tính trọng số tài liệu sử dụng cho việc sắp thứ tự 54

5.9 Giao diện chương trình 55

CHƯƠNG 6 THỰC NGHIỆM 57

6.1 Kết quả rút trích thông tin tài liệu ACL 57

6.2 So sánh kết quả tìm kiếm của hệ thống với các hệ thống khác 58

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66

TÀI LIỆU THAM KHẢO 68

Trang 7

DANH MỤC CÁC BẢNG

Bảng 2-1: Các công thức xác định trọng số cục bộ 11

Bảng 2-2: Các công thức xác định trọng số toàn cục 12

Bảng 2-3: Công thức xác định thành phần chuẩn hoá 13

Bảng 2-4: Kết quả thu được khi chỉ sử dụng trọng số cục bộ 14

Bảng 2-5: Kết quả thu được khi kết hợp trọng số cục bộ LOGN với từng trọng số toàn cục 14

Bảng 2-6: Kết quả thu được khi kết hợp thêm thành phần chuẩn hoá 14

Bảng 2-7: Kết quả thu được khi sử dụng kết hợp trọng số cho cả tài liệu và từ khoá truy vấn 15

Bảng 5-1: Tập giá trị trọng số của từng đặc trưng nội dung tài liệu 53

Bảng 6-1: Kết quả rút trích thông tin tài liệu ACL 57

Bảng 6-2: Độ dài từ khoá truy vấn 58

Bảng 6-3: Độ chính xác trung bình của các hệ thống 60

Bảng 6-4: Độ lệch tập tài liệu trả về giữa hệ thống LuceneSimC với các hệ thống khác 61

Bảng 6-5: Kết quả trả về của hai hệ thống đối với từ khoá “phrasal word alignment” 62

Bảng 6-6: Kết quả trả về đối với từ khoá “Traditional search engine” 63

Bảng 6-7: Kết quả trả về đối với từ khoá “information extraction” 64

Trang 8

DANH MỤC CÁC HÌNH

Hình 3-1: Độ chính xác trung bình theo tham số alpha cho PR-Combination

và BLPR-Combination, thực nghiệm với TREC2003 25

Hình 3-2: Độ chính xác theo điểm cắt P@10 theo alpha cho PR-Combination và BLPR-PR-Combination, thực nghiệm với TREC2003 25

Hình 3-3: Kiến trúc của hệ thống Swoogle 27

Hình 3-4: Lược đồ lướt trang của Swoogle 29

Hình 5-1: Mô hình hoạt động của hệ thống S_Engine 49

Hình 5-2: Giao diện người dùng nhập thông tin truy vấn 55

Hình 5-3: Giao diện trả kết quả tìm kiếm cho người dùng 56

Hình 5-4: Giao diện xem nội dung tài liệu 56

Trang 9

CHƯƠNG 1 TỔNG QUAN

1.1 LÝ DO CHỌN ĐỀ TÀI

Trong thời đại bùng nổ thông tin như hiện nay, khi mà các kho dữ liệu thường rất lớn, thì thách thức mà nó mang lại cho con người là làm thế nào để có thể quản lý và truy xuất thông tin một cách nhanh chóng và chính xác Điều này đòi hỏi các hệ thống truy hồi thông tin phải duy trì hoặc tăng được độ chính xác tìm kiếm Đối với các hệ thống truy hồi thông tin truyền thống chỉ dựa vào từ khoá thì việc duy trì này là không thể Vì vậy, nhiều nghiên cứu đã ra đời với mục đích tích hợp thêm các nét ngữ nghĩa đặc thù của từng loại tài liệu nhằm nâng cao độ chính xác của hệ thống

Trong những năm gần đây, sự ra đời của hệ thống tìm kiếm Google đã đánh dấu sự thành công cho hướng nghiên cứu tích hợp ngữ nghĩa này Bằng cách khai thác thông tin về mối liên kết giữa các tài liệu trong môi trường web để xác định mức độ phổ biến của từng tài liệu, Google đã tạo nên nét ngữ nghĩa mới cho tài liệu tích hợp thêm vào hệ thống Sự tích hợp này đã giúp Google phần nào đáp ứng được như cầu tìm kiếm thông tin của người dùng trong môi trường web và trở thành hệ thống tìm kiếm thông tin trong môi trường web phổ biến tại thời điểm hiện nay

Tuy nhiên, với việc giữ kín mô hình hoạt động và hầu như chỉ tập trung vào môi trường web nên Google không thể đáp ứng tốt nhu cầu tìm kiếm đối với các

hệ thống dữ liệu cục bộ của người dùng cũng như các hệ thống dữ liệu mà các tài liệu không phải là tài liệu web, do không thể rút trích được thông tin về mối liên kết giữa các tài liệu này

Ngược lại với việc giữ kín mô hình hoạt động của Google, Lucene được

Trang 10

truy hồi thông tin cho phép tìm kiếm thông tin trong toàn bộ nội dung tài liệu Tuy nhiên Lucene được thiết kế để có thể hỗ trợ tất cả các dạng tài liệu mà không quan tâm đến ngữ nghĩa của nội dung, do đó Lucene không thể khai thác và tích hợp các nét ngữ nghĩa đối với các dạng dữ liệu đặc thù

Với các kho dữ liệu cụ thể, khi mà các tài liệu trong đó tồn tại một số đặc trưng chung có thể truy xuất được, thì việc khai thác các đặc trưng này khi xây dựng hệ thống truy hồi thông tin sẽ là tiền đề cho phép ta có thể gia tăng được độ chính xác Với mong muốn có thể gia tăng được độ chính xác truy hồi thông tin trong một kho dữ liệu cụ thể, chúng tôi giới hạn kho dữ liệu của mình là tập các tài liệu được trích đăng trên tạp chí ACL (The Association for Computational Linguistics) [15] ACL là một tạp chí chuyên ngành về ngôn ngữ học tính toán, nên các tài liệu trích đăng thường có chủ đề về máy tính và được viết theo một đinh dạng chuẩn Việc giới hạn này cho phép chúng tôi rút trích được các đặc trưng của tài liệu như tên tài liệu, tên tác giả, thông tin tóm tắt, các tài liệu tham khảo … và sử dụng các đặc trưng này kết hợp với mô hình truy hồi thông tin dựa vào từ khoá để xây dựng một hệ thống chỉ mục tích hợp ngữ nghĩa, cho phép việc truy hồi thông tin có độ chính xác tốt hơn

1.2 MỤC TIÊU ĐỀ TÀI

Mục tiêu của đề tài là xây dựng một chỉ mục cho phép tích hợp thêm các nét ngữ nghĩa khác ngoài nội dung tài liệu nhằm làm tăng độ chính xác tìm kiếm Trong phạm vi đề tài chúng tôi thực hiện tích hợp hai nét ngữ nghĩa sau:

Nét ngữ nghĩa về vị trí xuất hiện từ khoá trong các đặc trưng nội dung của tài liệu (trình bài trong phần 4.6): các hệ thống truy hồi thông tin thường không xác định đặc trưng nội dung tài liệu, do đó không quan tâm đến vị trí xuất hiện của

từ khoá trong tài liệu Tuy nhiên, khi xác định được đặc trưng nội dung của tài liệu, ta nhận thấy rằng các tài liệu có từ khoá xuất hiện trong các đặc trưng quan trọng như tên tài liệu, phần tóm tắt … sẽ có xác suất phù hợp với từ khoá đó cao hơn Vì vậy, bằng cách xác định được vị trí xuất hiện của từ khoá trong đặc trưng

Trang 11

nào của tài liệu để làm nét ngữ nghĩa sẽ là cơ sở để ta có thể năng cao độ chính xác của hệ thống

Nét ngữ nghĩa về mối quan hệ tài liệu (trình bài trong phần 4.7): từ việc xác định được tác giả và tập tài liệu tham khảo của một tài liệu, ta có thể xác định được hai mối quan hệ là quan hệ tham khảo và quan hệ cùng tác giả Ta thấy rằng một tài liệu được tham khảo bởi nhiều tài liệu khác thì thường là tài liệu có nội dung tốt vì vậy nó nên được trả về cho người dùng Tương tự, một tài liệu có cùng tác giả với nhiều tài liệu khác về cùng một chủ đề thì nó có xác suất cao là thuộc

về chủ để đó Từ những nhận xét này chúng tôi đã sử dụng hai mối quan hệ trên làm nét ngữ nghĩa tích hợp vào hệ thống

1.3 ĐÓNG GÓP CỦA ĐỀ TÀI

Đề tài đã đề ra phương pháp cho phép xác định trọng số dựa vào các đặc trưng về nội dung tài liệu, sử dụng để cải tiến mô hình tìm kiếm dựa vào từ khoá truyền thống

Đề tài đề xuất phương pháp kết hợp các nét ngữ nghĩa khác nội dung (các mối quan hệ) của tài liệu với thông tin nội dung để xác định một giá trị chung của từng tài liệu, phục vụ cho việc sắp thứ tự tài liệu

1.4 Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI

Đề tài có thể được phát triển để phục vụ việc lập chỉ mục cho các kho dữ liệu đặc thù như thư viện số, cho phép người dùng cấu hình tích hợp các nét ngữ nghĩa như nhà xuất bản, tác giả, chủ đề, lượt truy cập … để nâng cao độ chính xác tìm kiếm

Trang 12

1.5 CẤU TRÚC LUẬN VĂN

Luận văn bao gồm 6 chương: Tổng quan, Cơ sở lý thuyết, Các nghiên cứu liên quan đến đề tài, Cơ sở lý luận của đề tài, Cài đặt hệ thống, Thực nghiệm

Trong phần mở đầu chúng tôi nêu lý do chọn đề tài, mục tiêu đề tài, đóng góp của đề tài cũng như ý nghĩa thực tiễn của đề tài

Phần cơ sở lý thuyết chúng tôi trình bày một số cơ sở lý thuyết nền tảng để

có được cái nhìn tổng quan về hệ thống truy hồi thông tin như: Mô hình không gian vector, Tiêu chí đánh giá chất lượng hệ thống truy hồi thông tin, và giới thiệu

mô hình hệ thống truy hồi thông tin sử dựng cơ chế trọng số từ

Phần các nghiên cứu liên quan đến đề tài, chúng tôi giới thiệu các hướng nghiên cứu đã ảnh hướng đến cơ sở lý luận của đề tài Các nghiên cứu này chủ yếu tập trung vào việc nâng cao tính chính xác của hệ thống truy hồi thông tin bằng cách tích hợp thêm các đặc trưng ngữ nghĩa khác của tài liệu vào mô hình truy hồi thông tin dựa từ khoá, bao gồm: Kỹ thuật PageRank của Google, Cải tiến phương pháp PageRank bằng cách phân tích liên kết ở cấp độ block, Máy tìm kiếm thông tin web ngữ nghĩa và metadata Swoogle

Trong phần cơ sở lý luận của đề, tài chúng tôi trình bày những lý luận cần thiết để xây dựng hệ thống chỉ mục hỗ trợ ngữ nghĩa Phần này chủ yếu tập trung vào việc xây dựng phương pháp xác định trọng số dựa vào nội dung tài liệu và phương pháp xác định trọng số dựa vào mối quan hệ giữa các tài liệu

Trong phần cài đặt hệ thống, chúng tôi đưa ra mô hình hoạt động của hệ thống cũng như giải thích chi tiết hoạt động từng module của mô hình

Cuối cùng chúng tôi trình bày các kết quả thực nghiệm thu được, từ đó đưa đến kết luận, cũng như đưa ra định hướng về các hướng phát triển của đề tài

Trang 13

CHƯƠNG 2

CƠ SỞ LÝ THUYẾT

Để nâng cao chất lượng tìm kiếm, các hệ thống truy hồi thông tin thường được phát triển bằng cách tích hợp thêm một số đặc trưng vào một mô hình truy hồi thông tin cổ điển dựa vào từ khoá Vì vậy trong chương này chúng tôi trình bày một số cơ sở lý thuyết cho phép ta có cái nhìn tổng quan về hệ thống truy hồi thông tin cổ điển, phương pháp đánh giá chất lượng, cũng như các kết quả thực nghiệm về chất lượng đạt được của các hệ thống truy hồi thông tin này

2.1 Mô hình không gian vector

2.1.1 Khái niệm

VSM (Vector Space Model) [1] là một mô hình cho phép mô tả tài liệu text dưới dạng vector nhằm hỗ trợ việc tính toán VSM được sử dụng trong các ứng dụng lọc thông tin, truy hồi thông tin, lập chỉ mục và sắp thứ tự tài liệu dựa theo mức độ tương tự giữa nội dung tài liệu với từ khoá truy vấn

Trong mô hình VSM, một tài liệu được mô tả bởi một vector Mỗi phần tử của vector tương ứng với một term (thông thường là một từ) Nếu term xuất hiện trong tài liệu thì giá trị của nó trong vector là khác 0, ngược lại sẽ bằng 0 Để VSM có thể hoạt động được, cần phải có thêm thuật toán xác định giá trị của các phần tử của vector Có nhiều giải pháp khác nhau đã được đề xuất, trong đó giải pháp được biết đến nhiều nhất là giải pháp đánh trọng số tf-idf [2] Giải pháp này xác định các giá trị trọng số dựa vào tần suất xuất hiện từ (term frequency) và nghịch đảo tần suất tài liệu (inverse document frequency)

Việc xác định một term phụ thuộc vào từng ứng dụng Thường thì term là một từ đơn, một từ khoá hoặc một cụm từ dài hơn Nếu từ đơn được chọn làm

Trang 14

term thì số chiều của vector sẽ là số lượng từ (không trùng nhau) trong toàn tập từ vựng

2.1.2 Ứng dụng của VSM

Trong các hệ thống truy hồi thông tin, VMS được sử dụng để tính toán mức

độ tương tự của tài liệu với từ khoá truy vấn Để xác định mức độ tương tự của tài liệu với từ khoá, cả tài liệu và từ khoá sẽ được mô tả dưới dạng vector Khi đó, mức độ tự được xác định bằng độ lớn của góc lệch giữa hai vector này Cụ thể mức độ tương tự tỉ lệ thuận với giá trị cosin của góc lệch giữa hai vector

Gọi v1, v2 lần lượt là vector mô tả tài liệu và câu truy vấn, ta có độ tương tự giữa tài liệu và từ khoá truy vấn là:

2 1

.cos

v v

=

θ

Nếu cosθ bằng 0 nghĩa là từ khoá truy vấn và tài liệu không có thông tin nào trùng với nhau hay tài liệu và từ khoá hoàn toàn khác nhau Ngược lại, giá trị cosθ càng lớn thì tài liệu và từ khoá sẽ càng giống với nhau Bằng cách so sánh giá trị về độ tương tự này của các tài liệu với nhau, hệ thống có thể sắp thứ tự các tài liệu để trả về cho người dùng

2.2 Tiêu chí đánh giá chất lượng hệ thống truy hồi thông tin [3]

Các hệ thống truy hồi thông tin thực hiện việc tính toán và trả về cho người dùng một danh sách tài liệu tương ứng với mỗi câu truy vấn nhận được Danh sách này sẽ có một số tài liệu là tốt (theo ý nghĩa là tài liệu phù hợp với mong muốn của người dùng), tuy nhiên cũng có một số tài liệu không tốt Chất lượng của hệ thống tìm kiếm được đánh giá theo các tiêu chí sau:

• Số các tài liệu tốt trong danh sách trả về

• Số các tài liệu tốt không trả về được trong danh sách

• Vị trí của các tài liệu tốt trong danh sách

Trang 15

Từ các tiêu chí này, hai độ đo được đề xuất dùng để đánh giá chất lượng hệ thống truy hồi thông tin là độ chính xác và độ truy hồi Độ chính xác là số đo về tính hữu ích của danh sách tài liệu trả về, trong khi độ truy hồi là số đo về tính đầy

đủ của danh sách đó Trong trường hợp lý tưởng, hệ thống truy hồi thông tin sẽ trả

về tất cả các tài liệu tốt và không trả về bất kỳ tài liệu xấu nào Khi đó hệ thống được gọi là có độ chính xác và độ truy hồi tuyệt đối Tuy nhiên thực tế cho thấy các hệ thống thường trả về tập hợp có cả tài liệu phù hợp và tài liệu không phù hợp với mong muốn của người dùng

2.2.1 Độ truy hồi

Độ truy hồi (recall) được tính bằng số lượng tài liệu phù hợp trong danh sách trả về chia cho số lượng tài liệu phù hợp trong toàn bộ hệ thống Công thức xác định độ truy hồi như sau:

{relevantDo cument}

ocument retrievedD

cument relevantDo

Độ truy hồi phản ánh chất lượng của hệ thống trong việc tìm kiếm tài liệu

Độ truy hồi bằng 100% khi tất cả các tài liệu phù hợp đều được trả về Về mặt lý thuyết ta có thể dễ dàng nhận được độ truy hồi tốt, đơn giản bằng cách trả về tất cả các tài liệu trong kho dữ liệu cho mọi từ khoá truy vấn nhận được Do đó, chỉ với

độ truy hồi thì không thể làm số đo để đánh giá chất lượng của hệ thống truy hồi thông tin

Trang 16

2.2.2 Độ chính xác

Độ chính xác (Precision) được tính bằng số tài liệu phù hợp trong danh sách trả về chia cho số lượng tài liệu mà hệ thống trả về cho người dùng Công thức như sau:

{retrievedD ocument}

ocument retrievedD

cument relevantDo

=

Độ chính xác phản ánh chất lượng của hệ thống trong việc loại bỏ các tài liệu không phù hợp ra khỏi danh sách trả về Độ chính xác là 100% nếu tất cả các tài liệu trả về đều phù hợp với câu truy vấn

Để xây dựng được một hệ thống truy hồi thông tin tốt cần phải làm tăng độ chính xác mà không làm mất độ truy hồi của hệ thống Tuy nhiên hầu hết các hệ thống tìm kiếm hiện tại thường được xây dựng với độ truy hồi tốt nhưng độ chính xác lại thấp, nghĩa là nó trả về một số tài liệu phù hợp cùng với nhiều tài liệu không phù hợp với ý muốn của người dùng Đây là các hệ thống không tốt vì khi

sử dụng các hệ thống này người dùng sẽ phải mất nhiều thời gian để tìm được tài liệu phù hợp với nhu cầu của mình trong tập tài liệu trả về

2.2.3 Độ chính xác theo điểm cắt

Độ truy hồi và độ chính xác được tính trong toàn bộ tập tài liệu trả về Vì vậy nó không hỗ trợ việc đánh giá các hệ thống có sắp thứ tự các tài liệu trả về cho người dùng Thông thường người dùng muốn các tài liệu trả về được sắp xếp thứ

tự dựa vào mức độ tương tự của nó với câu truy vấn, sao cho các tài liệu phù hợp nhất sẽ được trả về đầu tiên Chất lượng của hệ thống có sắp thứ tự tài liệu trả về được đo bằng cách xác định độ chính xác tại các điểm cắt khác nhau Cách tính độ chính xác tại điểm cắt i (gọi là precision[i] hay P@i) như sau:

i

k rel i

P i precision

i k

∑ =

=

@][

• Với: rel[k] bằng 1 nếu tài liệu thứ k trong danh sách là phù hợp; bằng 0 nếu ngược lại

Trang 17

Ví dụ: nếu 10 tài liệu trả về đầu tiên đều phù hợp và 10 tài liệu tiếp theo không phù hợp thì độ chính xác tại điểm cắt 10 tài liệu là P@10 = 100%, và độ chính xác tại điểm cắt 20 tài liệu là P@20 = 50%

2.2.4 Độ chính xác trung bình

Ta thấy độ chính xác theo điểm cắt không quan tâm đến độ truy hồi Vì vậy một phép đo mới được đề xuất gọi là độ chính xác trung bình kết hợp độ chính xác của tập sắp thứ tự và độ truy hồi Độ chính xác trung bình được tính bằng tổng số

độ chính xác tại các điểm cắt trong danh sách tài liệu trả về chia cho tổng số tài liệu phù hợp trong toàn kho dữ liệu Công thức cụ thể như sau:

R

i rel i precision cision

Averagepre

n i

• n là số lượng tài liệu trong tập danh sách trả về

• R là số lượng tài liệu phù hợp trong toàn kho dữ liệu

Độ chính xác trung bình được xem như số đo đánh giá chất lượng của của

hệ thống truy hồi thông tin Ta nhận thấy rằng, để đạt được độ chính xác trung bình bằng 1 thì hệ thống phải trả về tất cả các tài liệu phù hợp (recall = 1) và phải sắp thứ tự một cách tối ưu (nghĩa là độ chính xác tại điểm cắt R = 1)

2.3 Giới thiệu hệ thống truy hồi thông tin dựa theo chiến lược Term Weighting (Trọng số từ) [4]

Các hệ thống truy hồi thông tin cổ điển thường được xây dựng dựa trên mô hình VSM, trong đó thành phần cấu thành các vector của mô hình này được xác định theo chiến lược trọng số từ Theo chiến lược này thì các giá trị này được tính toán dựa vào tần suất xuất hiện của các từ trong nội dung tài liệu hoặc trong từ khoá truy vấn và số lượng tài liệu chứa từ đó trong toàn kho dữ liệu

Trang 18

• Thành phần chuẩn hoá (normalization)

Trọng số cục bộ là hàm số xác định số lần xuất hiện của mỗi từ trong nội dung của tài liệu hoặc trong từ khoá truy vấn Trọng số toàn cục là hàm số xác định số tài liệu có chứa từ trong toàn kho dữ liệu Thành phần chuẩn hoá có ý nghĩa để bù trừ ảnh hưởng của độ dài tài liệu Trọng số chung của một từ i trong tài liệu j, Wij được xác định bởi công thức:

Trang 19

Bảng 2-1: Các công thức xác định trọng số cục bộ

Trong đó:

• fij là tần suất xuất hiện của từ i trong tài liệu j

• aj là tần suất xuất hiện trung bình của các từ trong tài liệu j

• xj là tần suất xuất hiện lớn nhất của các từ trong tài liệu j

Trang 20

2.3.3 Trọng số toàn cục

Trọng số toàn cục có ý nghĩa xác định mức độ quan trọng giữa các từ với nhau Với ý tưởng là một từ có số lượng tài liệu chứa nó càng ít thì mức độ quan trọng của nó càng cao Như vậy một từ xuất hiện trong càng ít tài liệu thì trọng số toàn cục của nó sẽ càng lớn để làm tăng tác động của từ đó vào trọng số chung của tài liệu Bảng 2-2 liệt kê các công thức được sử dụng để tính trọng số toàn cục:

Bảng 2-2: Các công thức xác định trọng số toàn cục

Trong đó:

• N là số lượng tài liệu trong toàn kho dữ liệu

• ni là số tài liệu có chứa từ i

• Fi là tần suất xuất hiện của từ i trong toàn tập dữ liệu

Trang 21

2.3.4 Thành phần chuẩn hoá

Thành phần chuẩn hoá được dùng để chuẩn hoá vector tài liệu nhằm giúp việc xác định trọng số chung của tài không phụ thuộc vào độ dài của tài liệu Các công thức sử dụng để tính thành phần chuẩn hoá được liệt kê trong bảng 2-3:

Bảng 2-3: Công thức xác định thành phần chuẩn hoá

độ truy hồi

Các bảng 2-4, 2-5, 2-6, 2-7 dưới đây là các kết quả bài báo ghi nhận trong các trường hợp sử dụng riêng, hay kết hợp giữa các thành phần trọng số với nhau

Trang 22

Bảng 2-4: Kết quả thu được khi chỉ sử dụng trọng số cục bộ

Bảng 2-5: Kết quả thu được khi kết hợp trọng số cục bộ LOGN với từng trọng số

toàn cục

Bảng 2-6: Kết quả thu được khi kết hợp thêm thành phần chuẩn hoá

Trang 23

Bảng 2-7: Kết quả thu được khi sử dụng kết hợp trọng số cho cả tài liệu và từ khoá

truy vấn 2.3.6 Nhận xét về kết quả thực nghiệm của bài báo

Dựa vào kết quả thực nghiệm của bài báo ta nhận thấy:

Theo số liệu bảng 2-4, nếu chỉ sử dụng trọng số cục bộ thì độ chính xác trung bình thay đổi tùy theo từng công thức, cụ thể giá trị này thay đổi từ giá trị thấp nhất là 7.15% khi sử dụng công thức Binary (BNRY), đến giá trị cao nhất thu được là 7.92% khi sử dụng công thức Normalized Log (LOGN)

Theo số liệu bảng 2-5, việc kết hợp hai thành phần trọng số cục bộ và trọng

số toàn cục giúp cải thiện được chất lượng của hệ thống, vì hầu hết các sự kết hợp đều thu được độ chính xác trung bình cao hơn (lớn hơn 7.92%) Sự kết hợp giữa Normalized Log (LOGN) và Probabilistic Inverse (IDFP) thu được độ chính xác trung bình cao nhất là 9.30%

Trong khi đó theo kết quả thu được từ bảng 2-6 cho thấy thành phần chuẩn hoá khi được kết hợp không đem lại hiệu quả, do không làm tăng thêm độ chính xác ở tất cả các hình thức kết hợp

Số liệu trong bảng 2-7 thể hiện kết quả thu được khi sự kết hợp giữa trọng

số cục bộ và trọng số toàn cục được áp dụng cho cả tài liệu và từ khoá truy vấn Kết quả cho thấy việc kết hợp này làm tăng đáng kể chất lượng hệ thống khi độ chính xác trung bình đạt giá trị 12.35% (sử dụng LOGN-IDFP)

Trang 24

Như vậy ta thấy việc lựa chọn các công thức cũng như chiến lược kết hợp các công thức này với nhau sẽ giúp ta thu được các độ chính xác trung bình khác nhau Nói cách khác chất lượng của hệ thống truy hồi thông tin sẽ phụ thuộc vào chiến lược kết hợp các công thức này Tuy nhiên độ chính xác trung bình cao nhất thu được chỉ đạt mức 12.35% là không cao, dẫn đến chất lượng của hệ thống thu được không cao

Như vậy có thể thấy, nếu muốn xây dựng các hệ thống truy hồi thông tin có

độ chính xác cao thì việc chỉ sự dụng cơ chế trọng số từ là chưa đủ, mà đòi hỏi cần phải có sự kết hợp bổ sung với các phương pháp khác

Trang 25

CHƯƠNG 3 CÁC NGHIÊN CỨU LIÊN QUAN ĐẾN ĐỀ TÀI

Trong chương này chúng tôi xin giới thiệu một số nghiên cứu về hệ thống truy hồi thông tin Các nghiên cứu này tập trung chủ yếu vào việc cải thiện độ chính xác tìm kiếm theo hướng tích hợp vào hệ thống các đặc trưng của các kho

dữ liệu cụ thể Đây là những nghiên cứu đã định hướng cho ý tưởng của đề tài chúng tôi

3.1 Kỹ thuật PageRank của Google

Như đã trình bày ở phần 2.3, đối với các hệ thống truy hồi thông tin sử dụng mô hình VSM kết hợp với chiến lược trọng số từ, thì độ chính xác thu được

sẽ không cao Trong khi kho dữ liệu internet ngày càng lớn thì với các hệ thống có

độ chính xác thấp đòi hỏi người dùng phải mất nhiều thời gian để tìm kiếm tài liệu

mà mình mong muốn trong tập kết quả trả về Để có thể phục vụ tốt hơn cho người dùng thì điều kiện tiên quyết là phải nâng cao độ chính xác của các hệ thống tìm kiếm

Nhằm nâng cao độ chính xác, nhiều nghiên cứu ([6], [7], [8], [9], [10], [11], [12]) đã được xây dựng, đề cập đến việc khai thác thông tin về các mối quan hệ giữa các tài liệu với nhau Trong số các nghiên cứu này thì kỹ thuật PageRank [6] của Google đã khai thác thông tin liên kết (hyperlink) giữa các tài liệu web và có thể được xem là phương pháp đã khai thác thành công nhất

3.1.1 Trật tự sắp xếp cho môi trường web

Mối liên kết giữa các tài liệu trong môi trường web là tài nguyên quan trọng cho phép xác định mức độ phổ biến của một trang web Với ý tưởng, một trang web được liên kết đến bởi một trang web của người dùng khác chứng tỏ nó

Trang 26

được người dùng đó đánh giá cao Khi đó một trang web càng được nhiều trang web khác liên kết đến thì mức độ phổ biến (có thể xem như giá trị chất lượng của trang web) càng cao Như vậy, nếu có thể xây dựng được công cụ cho phép tính toán trọng số của các trang web dựa vào các liên kết, ta sẽ có thể xây dựng được một trật tự về mức độ phổ biến của các trang web

3.1.2 Thuật toán PageRank

Tác giả thuật toán PageRank sử dụng công thức sau để xác định giá trị trọng số về mức độ phổ biến của trang web A

))(

)(

)()

(

)(()1()

(

2

2 1

1

n

T C

T PR T

C

T PR T

C

T PR d d A

Trong đó:

• d là hệ số có giá trị trong khoản [0,1] và được tác giả chọn là 0.85

• T1, …, Tn là tập các trang web liên kết đến trang web A

• C(T) là số các liên kết ra ngoài (liên kết đến các trang web khác) của trang web T

Các giá trị PR của từng trang web được tính lặp đi lặp lại đến lúc nó đạt được giá trị bão hoà trên toàn hệ thống

Công thức xác định giá trị PageRank như trên có thể được giải thích theo

mô hình hành vi người dùng Giả sử một người dùng đang truy cập vào một trang web bất kỳ, hành vi người dùng thực hiện lướt web là chọn ngẫu nhiên một liên kết trong trang web hiện tại hoặc chọn một trang web bất kỳ Khi đó, PR(A) chính

là xác suất để trang web A được người dùng truy cập đến Hệ số d có ý nghĩa là xác suất người dùng chọn một trang web bất kỳ, (1-d) là xác suất người dùng chọn một liên kết trong trang web hiện tại

Tác giả cũng đề cập một cách giải thích công thức trên một cách trực quan hơn như sau: một trang web được xem là tốt nếu nó được nhiều trang web khác liên kết đến hoặc nó được một trang web tốt khác (có giá trị PR lớn) liên kết đến Đồng thời, điểm số nhận được từ một trang web càng nhiều nếu số các liên kết ra

Trang 27

ngoài của trang web này càng ít, do với số lượng liên kết ra ngoài ít thì xác suất người dùng chọn một trong các liên kết này càng cao

3.1.3 Sử dụng PageRank cho hệ thống truy hồi thông tin

Ta thấy PageRank chỉ là giá trị dùng để xác định chất lượng chung của một trang web mà không thể dùng làm đại lượng xác định thứ tự xếp hạng của tài liệu cho một câu truy vấn cụ thể Vì vậy, để có thể thu được đại lượng dùng để sắp xếp thứ hạng của tài liệu thì với mỗi câu truy vấn, trước tiên cần xác định trọng số về mặt nội dung (đại lượng xác định mức độ tương tự của mỗi trang web so với từ khoá truy vấn) Trọng số này thường thu được bằng việc sử dụng mô hình VSM kết hợp với cơ chế trọng số từ Sau đó kết hợp giá trị vừa xác định được này với giá trị PageRank để thu về một đại lượng chung cho phép xác định thứ tự sắp xếp của các tài liệu

3.1.4 Đánh giá

Như vậy có thể thấy phương pháp PageRank Google được xây dựng bằng cách mở rộng mô hình truy hồi thông tin truyền thống Việc mở rộng được thực hiện bằng cách tích hợp thêm vào hệ thống đặc trưng PageRank của tài liệu web Mặc dù trong [6] không đưa ra các kết quả thực nghiệm để đánh giá chất lượng hệ thống, tuy nhiên những thành công của Google đã chứng minh rằng giải pháp tích hợp này sẽ cải thiện được chất lượng của hệ thống

Hạn chế của phương pháp PageRank là được xây dựng dựa trên hai giả thuyết Thứ nhất là xác suất người dùng cảm thấy chán một trang web và muốn chuyển đến một trang ngẫu nhiên khác là như nhau cho tất cả các trang web Thứ hai, khi muốn chuyển đến một trang khác từ trang hiện tại, thì người dùng chọn ngẫu nhiên trong danh sách các liên kết của trang đó Tuy nhiên thực tế không phải hoàn toàn như vậy, vì trong cả hai giả thuyết của mình Google đã bỏ qua thông tin nội dung ngữ nghĩa của tài liệu, điều này là không phù hợp với hành vi

Trang 28

của người dùng Với việc nhận thấy các hạn chế của mô hình này, nhiều nghiên cứu đã được phát triển với mong muốn có thể khắc phục các hạn chế này

Phần tiếp theo sẽ giới thiệu một số nghiên cứu được phát triển dựa trên mô hình PageRank kèm với các cải tiến để khắc phục các điểm yếu đã nêu trên

3.2 Cải tiến phương pháp PageRank bằng cách phân tích liên kết ở cấp

độ Block

Với việc nhận ra được các điểm yếu như đã trình bày trong phần 3.1.4 về phương pháp PageRank của Google, bài báo “Block-level Link Analysis” [11] đề xuất một phương pháp cho phép xác định xác suất một liên kết được chọn có dựa vào thông tin nội dung của nó

Tác giả nhận thấy các thuật toán khai thác thông tin liên kết thường xem mỗi trang web là một node của đồ thị liên kết Tuy nhiên, thực tế một trang web thường chứa đựng nhiều thành phần ngữ nghĩa khác nhau nằm một cách riêng biệt

Vì vậy, nếu có thể chia nhỏ một trang web ra thành nhiều phần nhỏ hơn dựa vào thông tin ngữ nghĩa và xem mỗi phần này như một node trong đồ thị liên kết thì có thể sẽ nâng cao chất lượng tìm kiếm

Trong bài báo, tác giả sử dụng thuật toán phân trang dựa hình ảnh (vision based page segmentation algorithm) để tách một trang web thành các phần nhỏ hơn gọi là block, mỗi block mang thông tin một chủ đề khác nhau phân biệt với các block khác trong trang Do mỗi block có chủ đề nhất quán về mặt nội dung nên các liên kết trong cùng một block thường sẽ dẫn đến các trang có cùng chủ đề Ngoài ra, mỗi block trong trang web được xây dựng với các mức độ quan trọng khác nhau (các block có kích thước lớn và có vị trí tại trung tâm sẽ có mức độ quan trọng cao) Vì vậy trong giải pháp của mình, ngoài việc phân trang web thành các block tác giả còn gán thêm một giá trị đặc tả mức độ quan trọng của block đó Việc phân nhỏ trang web thành các block cho phép tác giả xây dựng được một đồ thị ngữ nghĩa trong đó mỗi node ở cấp độ block chỉ mang một chủ đề ngữ nghĩa duy nhất

Trang 29

Việc chia trang web ra thành các block nhỏ hơn đã cho phép tích hợp thêm thông tin ngữ nghĩa tác động đến hành vi người dùng Khi đó các liên kết thuộc các block khác nhau sẽ có xác suất được chọn khác nhau phụ thuộc vào mức độ quan trọng của block chứa nó Ngược lại, các liên kết thuộc cùng một block sẽ có cùng xác suất được chọn, do các block chứa thông tin về một chủ đề nhất quán nên các liên kết này sẽ chỉ đến các trang có cùng chủ đề và như vậy sẽ có xác suất được chọn giống nhau

3.2.1 Đồ thị Block-to-Page và Page-to-Block

Sau khi các trang web được phân thành các block, các quan hệ giữa các trang web khi đó sẽ được phân thành hai loại quan hệ là quan hệ xuất phát từ một trang web chỉ đến một block thuộc trang web khác (Page-to-Block) và quan hệ từ một block chỉ đến một trang web (Block-to-Page) Từ hai loại quan hệ trên tác giả xây dựng hai ma trận đồ thị Block-to-Page và Page-to-Block

Ma trận Block-to-Page Z có kích thước n*k được định nghĩa như sau:

1/si : nếu tồn tại một liên kết từ block i đến trang j

• si là số các trang mà block i có liên kết đến

Ma trận Page-to-Block X có kích thước k*n được định nghĩa như sau:

1/si : nếu bj∈ pi (si là số lượng block của pi)

Trang 30

Ma trận Page-to-Bock X trên không quan tâm đến sự khác biệt về mức độ quan trọng của các Block Để tích hợp thêm thông tin về mức độ quan trọng của các block vào mô hình, tác giả phát triển ma trận trên để thu được ma trận sau:

kích thước của block b trong trang pi

fp(b) = β

khoảng cách từ trung tâm của block b đến trung tâm màn hình

• β là tham số chuẩn hoá để tổng các fp(b) bằng 1

• Hàm số f có ý nghĩa giá trị xác suất người dùng tập trung vào block

b khi đang xem trang p

3.2.2 Đồ thị trang Page-to-Page G p

Đồ thị mô tả mối quan hệ giữa các trang web được định nghĩa là Gp(Vp, Ep,

Wp)

Trong đó:

• Vp là tập các node (trang web)

• Ep là tập các cạnh liên kết giữa hai node

• Wp là ma trận trọng số được định nghĩa trên các cạnh

Cách Gp thể hiện được mối quan hệ giữa các trang web được xây dựng như trên tương tự với đồ thị của Google PageRank Sự khác biệt tập trung ở việc xác định ma trận trọng số Wp Nếu ma trận Wp được xây dựng một cách đơn giản là:

1 : nếu có một liên kết từ trang i đến trang j

Tuy nhiên như đã thảo luận ở phần trên, ta có:

• Các liên kết thuộc các block quan trọng hơn sẽ tốt hơn so với các liên kết thuộc các block ít quan trọng khác

• Các liên kết trong cùng một block có cùng mức độ quan trọng

Trang 31

Từ đó tác giả định nghĩa ma trận Wp như sau:

Trang 32

3.2.4 Giải thuật PageRank cấp độ Block

Giải thuật PageRank cấp độ block (BLPR) được xây dựng hoàn toàn tương

tự với giải thuật PageRank của Google Điểm khác biệt duy nhất là BLPR sử dụng

ma trận trọng số có tích hợp thông tin ngữ nghĩa lấy được từ việc phân tích ở cấp

độ block, trong khi Google sử dụng ma trận trọng số cơ sở

3.2.5 Thực nghiệm và so sánh kết quả của PageRank cấp độ Block với Google pageRank

Trong thực nghiệm của mình, tác giả sử dụng BM2500 để xác định giá trị trọng số tương tự

Để so sánh với PageRank, tác giả hiện thực thuật toán PageRank với đồ thị liên kết sử dụng ma trận trọng số cơ sở Đồng thời thực hiện việc tính BLPR dựa vào ma trận trọng số thu được ở phần trước

Sau khi xác định được các giá trị PageRank và BLPR, các giá trị này lần lượt được kết hợp với trọng số tương tự thu được bằng cách áp dụng BM2500 để tính giá trị trọng số cuối cùng để thực hiện sắp xếp thứ tự tài liệu

Việc kết hợp này được thực hiện theo công thức xác định trọng số của tài liệu d như sau:

)()

1()(

)

rank =α relevance + −α impor ce

Trang 33

Kết quả thực nghiệm thu được được mô tả như trong các hình 3-1, 3-2

Hình 3-1: Độ chính xác trung bình theo tham số alpha cho PR-Combination và

BLPR-Combination, thực nghiệm với TREC2003

Hình 3-2: Độ chính xác theo điểm cắt P@10 theo alpha cho PR-Combination và

BLPR-Combination, thực nghiệm với TREC2003

Căn cứ vào kết quả thực nghiệm thu được ta thấy Pagerank kết hợp với trọng số tương tự thu được hiệu suất tốt nhất khi α = 0.94 Độ chính xác trung bình bằng 0.1485, P@10 bằng 0.136

BLPR kết hợp với trọng số tương tự đạt hiệu suất cao nhất khi α=0.92 Độ chính xác trung bình là 0.161, P@10 là 0.14

Trong cả hai hình, ta thấy đường biểu diễn hiệu suất của BLPR hầu như nằm trên đường biểu diễn hiệu suất của PageRank Như vậy kết quả thực nghiệm cho thấy việc áp dụng BLPR thay thế cho PageRank truyền thống đã giúp tăng độ

Trang 34

3.3 Máy tìm kiếm thông tin web ngữ nghĩa và metadata - Swoogle

Các bộ máy tìm kiếm như Google, Yahoo được thiết kế để làm việc với các thông tin ở dạng ngôn ngữ tự nhiên Vì vậy với các tài liệu web ngữ nghĩa (các tài liệu có định dạng RDF & OWL) các hệ thống này thường làm việc không tốt, do không hiểu được cấu trúc và ngữ nghĩa của các tài liệu này Với ý tưởng khai thác tốt hơn những thuận lợi mà web ngữ nghĩa mang lại, Swoogle [9] được xây dựng như một hệ thống truy hồi thông tin với nguồn dữ liệu là các tài liệu web ngữ nghĩa Nó thực hiện việc rút trích thông tin siêu dữ liệu (metadata), đồng thời từ đó xác định được mối liên kết giữa các tài liệu Với việc khai thác thông tin ngữ nghĩa này, tác giả của Swoogle mong muốn nâng cao độ chính xác tìm kiếm cho hệ thống của mình

3.3.1 Một số định nghĩa

RDF [13] (Resource Description Framework – Framework mô tả tài nguyên) là framework dùng để mô tả các tài nguyên internet như các trang web và nội dung của nó Ví dụ một mô tả RDF cho một trang web có thể bao gồm các thông tin như: tác giả, ngày tạo, ngày cập nhật, thông tin mô tả nội dung cho người dùng, từ khoá dùng cho máy tìm kiếm …

OWL [14] (Web Ontology Language – Ngôn ngữ ontology cho web) được thiết kế để phục vụ cho các ứng dụng cần xử lý nội dung thông tin hơn là chỉ hiển thị thông tin cho người dùng OWL và RDF có thể được xem là thiết kế để phục

vụ cho cùng một mục đích, tuy nhiên OWL được xây dựng với tập từ vựng và tập

cú pháp mạnh hơn so với RDF Cả RDF và OWL đều được xây dựng dựa vào ngôn ngữ XML

Tài liệu web ngữ nghĩa: tác giả định nghĩa tài liệu web ngữ nghĩa (Semantic Web Document - SWD) là một tài liệu được tạo bằng ngôn ngữ web ngữ nghĩa Các tài liệu này tồn tại trên web và có thể truy xuất được Cũng giống với các tài liệu trong hệ thống truy hồi thông tin truyền thống, SWD là đối tượng thông tin tìm kiếm nhỏ nhất trong mạng web ngữ nghĩa Trong phạm vi bài viết của mình

Trang 35

tác giả chia các SWD thành hai loại là ontology web ngữ nghĩa (Semantic Web Ontology – SWO) và cơ sở dữ liệu web ngữ nghĩa (Semantic Web Database – SWDB) phụ thuộc vào nội dung của nó

3.3.2 Kiến trúc của hệ thống Swoogle

Hình 3-3: Kiến trúc của hệ thống Swoogle

Như trong hình vẽ 3-3, kiến trúc của Swoogle bao gồm bốn thành phần chính là: bộ khám phá SWD, bộ rút trích metadata, bộ phân tích dữ liệu, và giao diện người dùng Các thành phần này hoạt động độc lập và tương tác với nhau thông qua cơ sở dữ liệu

• Bộ khám phá SWD: thực hiện khám phá môi trường web để thu thập các tài liệu SWD, đồng thời đảm bảo thông tin được cập nhật

• Bộ rút trích metadata: lưu lại một bản sao của các tài liệu SWD, và rút trích thông tin metadata của các SWD này

• Bộ phân tích dữ liệu: Sử dụng bản sao của các tài liệu SWD và thông tin metadata rút trích được để thực hiện phân loại SWD (xác định một SWD là SWO hay SWDB), lập chỉ mục cho SWD, sắp thứ

tự cho các tài liệu SWD

• Giao diện người dùng: tác giả hiện thực một giao diện web phục vụ người dùng tại địa chỉ http://swoogle.umbc.edu/

Trang 36

3.3.3 SWD metadata

SWD metadata được rút trích để tạo thêm các nét đặc trưng cho tài liệu, giúp nâng cao hiệu suất tìm kiếm cho hệ thống Swoogle chia metadata ra thành ba dạng sau:

• Metadata cơ bản: các đặc trưng của SWD về ngữ nghĩa và cú pháp

• Các quan hệ: là các quan hệ ngữ nghĩa giữa các SWD

• Kết quả phân tích: các kết quả thu được từ việc phân tích các thông tin thu được ở hai dạng metadata trên, như việc phân loại SWD thành SWO hay SWDB, cũng như sắp thứ tự các SWD

• IM: để chỉ một ontology truy xuất toàn bộ các thuật ngữ của một ontology khác

• EX: để chỉ một ontology có mở rộng từ một ontology khác

• PV: để chỉ một ontology là phiên bản củ của một ontology khác

• CPV: để chỉ một ontology là phiên bản củ của một ontology khác và tương thích với ontology đó

• IPV: để chỉ một ontology là phiên bản củ của một ontology khác những không tương thích với ontology đó

3.3.5 Sắp thứ tự cho các SWD

Trong mô hình PageRank của Google, xác suất người dùng chọn một liên kết trong tập các liên kết của trang web là như nhau Tuy nhiên trong thực tế các liên kết ngữ nghĩa khác nhau sẽ ảnh hưởng đến quyết định chọn liên kết nào tiếp

Trang 37

theo của người dùng, vì vậy xác suất để từng liên kết được chọn là khác nhau Từ nhận định này, Swoogle đã cải tiến mô hình PageRank của Google thành mô hình mới, trong đó xác suất mà một liên kết được chọn sẽ tuỳ thuộc vào loại của liên kết đó

Mô hình lướt trang của Swoogle có lược đồ như sau:

Hình 3-4: Lược đồ lướt trang của Swoogle

Dựa vào lập luận trên tác giả xây dựng công thức để xác định giá trị trọng

số của một SWD như sau:

1()(

a L

a x f x rawPR d

d a

)()

,(

a links l

l weight a

x f

∈

=

) (

),()

(

x T a

a x f x

f

• links(x,a) là tập các liên kết từ x đến a

Trang 38

• weight(l) là trọng số của liên kết l

• T(x) là tập các SWD mà x có liên kết đến

Từ công thức trên Swoogle tính toán giá trị trọng số cho từng loại SWD (SWDB và SWO) theo công thức sau:

)()

(

a TC x

PR

• Với: TC(a) là tập các SWO có quan hệ IM bởi a

3.3.6 Đánh giá giải pháp của Swoogle

Giải pháp mà Swoogle đưa ra là hướng nghiên cứu nhằm khai thác những đặc trưng riêng của kho dữ liệu cụ thể Mặc dù tác giả không có số liệu thực nghiệm để đánh giá hiệu quả của Swoogle cũng như so sánh với các hệ thống khác Nhưng dựa vào lập luận mà tác giả đưa ra trong bài báo, ta có thể hi vọng giải pháp sẽ làm tăng độ chính xác tìm kiếm so với các hệ thống chỉ sử dụng mô hình PageRank truyền thống

Trang 39

• Tốc độ tìm kiếm: để chỉ thời gian đáp ứng của hệ thống

• Độ truy hồi: để chỉ khả năng tìm kiếm tài liệu của hệ thống

• Độ chính xác: để chỉ sự chính xác của các kết quả tìm kiếm trả về Trong thời đại bùng nổ thông tin như hiện nay, khi mà các kho dữ liệu rất lớn, nó đã mang lại những thách thức cho các hệ thống truy hồi thông tin trong việc duy trì chất lượng của các đặc điểm trên Bởi vì

• Khi kích thước kho dữ liệu tăng lên thì hệ thống phải tìm kiếm thông tin trong một không gian rộng hơn làm cho tốc độ tìm kiếm sẽ giảm

đi, dẫn đến khả năng phục vụ người dùng sẽ kém đi

• Trong một không gian càng lớn thì số chủ đề mà nó đề cập đến càng nhiều, do đó có càng nhiều tài liệu không liên quan với mong muốn của người dùng, từ đó dẫn đến khả năng hệ thống tìm sai thông tin càng cao, nên độ chính xác của hệ thống sẽ giảm đi

Ngược lại, ta thấy độ truy hồi của hệ thống sẽ trở nên ít quan trọng với các kho dữ liệu lớn Vì nhu cầu của người dùng về số lượng tài liệu liên quan trả về là không đổi, trong khi đó khi kho dữ liệu lớn thì sẽ có nhiều tài liệu phù hợp với yêu cầu của người dùng, nên sẽ không khó cho hệ thống có thể tìm kiếm được một vài tài liệu phù hợp trong số đó để trả về cho người dùng

Như vậy, vấn đề mà các hệ thống truy hồi thông tin phải tập trung giải quyết là đảm bảo tốc độ tìm kiếm nhanh và độ chính xác cao Tuy nhiên việc cải

Trang 40

thiện tốc độ thực thi là yêu cầu nói chung của ngành công nghệ thông tin và có thể được cải thiện nhờ sự phát triển của phần cứng hay các giải thuật chung về xử lý

dữ liệu Trong khi đó việc nâng cao độ chính xác tìm kiếm lại là yêu cầu đặc thù của hệ thống truy hồi thông tin, do đó có thể thấy việc nâng cao độ chính xác là đề tài then chốt cho sự phát triển của các hệ thống truy hồi thông tin

Trong những năm gần đây, với sự bùng nổ thông tin Internet và thành công của hệ thống tìm kiếm Google, các nghiên cứu về hệ thống truy hồi thông tin chủ yếu tập trung vào kho dữ liệu internet với việc khai thác thông tin về các mối liên kết (hyperlink) giữa các trang web Các nghiên cứu này thông thường được xây dụng với mục đích khắc phục những điểm yếu tồn tại trong hệ thống Google

Tuy nhiên khác với dữ liệu internet, kho dữ liệu lưu trữ tài liệu dưới dạng các file riêng biệt như hệ thống thư viện online lại không tồn tại các liên kết giữa các tài liệu Vì vậy các nghiên cứu trên sẽ không đạt kết quả tốt khi ứng dụng vào các kho dữ liệu này Từ nhận xét đó, đề tài tập trung vào việc xây dựng chỉ mục có ngữ nghĩa cho hệ thống thư viên online với mong muốn có thể nâng cao độ chính xác tìm kiếm trong các kho dữ liệu thuộc dạng này

4.2 Đặc điểm của kho dữ liệu thư viện online

Khác với dữ liệu internet thường bao gồm các tài liệu không có cấu trúc thống nhất nên sẽ rất khó để có thể rút trích được các đặc trưng mô tả tài liệu, cũng như việc rút trích thông tin này thường có độ chính xác không cao Các tài liệu trong hệ thống thư viện online có thể được xem như các tài liệu bán cấu trúc, vì mặc dù không được xây dựng theo cùng một cấu trúc xác định, nhưng thông thường ta vẫn có thể xây dựng một cơ chế tự động cho phép rút trích được các đặc trưng của tài liệu với độ chính xác tương đối

Như đã biết, kho dữ liệu càng có cấu trúc thì độ chính xác tìm kiếm sẽ càng cao Như đối với kho dữ liệu có cấu trúc như các cơ sở dữ liệu thì kết quả tìm kiếm sẽ có độ chính xác tuyệt đối là 100% Vì vậy với việc rút trích được các đặc trưng của tài liệu, ta sẽ tiến hành khai thác các thông tin này để có thể nâng cao độ

Định dạng
Số trang	83
Dung lượng	1,32 MB