Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số

Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số NỘI DUNG I. TÌM KIẾM THÔNG TIN 1.1 Mô hình tìm kiếm thông tin 1.2 Truy vấn Boole BQ 1.3 Truy vấn xếp hạng RQ 1.4 Độ đo Cosin 1.5 Mô hình tìm kiếm thông tin xác suất 1.6 Hiệu suất tìm kiếm

Trang 1

BÀI TẬP

Môn: Thư viện số

“Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số”

NỘI DUNG

I TÌM KIẾM THÔNG TIN

1.1 Mô hình tìm kiếm thông tin

1.2 Truy vấn Boole BQ

1.3 Truy vấn xếp hạng RQ

1.4 Độ đo Cosin

1.5 Mô hình tìm kiếm thông tin xác suất

1.6 Hiệu suất tìm kiếm

Trang 2

1.1 MÔ HÌNH TÌM KIẾM THÔNG TIN

Tìm kiếm thông tin (IR) đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin

có liên quan tới nhu cầu thông tin của NSD

Mô hình tìm kiếm thông tin IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn

Cho

D = {d1, d2, , dM}, M  2 (1)*

là một tập hữu hạn không rỗng đối tượng, M là số tài liệu

 Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường Các đối tượng tiêu biểu là đại diện

Cho  là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó (D), nghĩa

là,

 : D  (D) (2)*

Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm , chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau: (3 định nghĩa)

 Định nghĩa 1 (cấu trúc tìm kiếm thông tin):

Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, > (3)*

Đây là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm  và đối tượng D Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và 

 Định nghĩa 2 (mô hình tìm kiếm thông tin MIR):

 Mô hình tìm kiếm thông tin MIR là một SIR S = <D, > với 2 thuộc tính sau đây:

Trang 3

a q =   ãi(q, ) = 1 i, q,  (tính phản xạ);

b i (q) = {  D| ãi(q, ) = max ãk(q, k)} ai, i cố định tùy ý

Trong đó:

+ T = {t1, t2, , tN} là một tập hữu hạn thuật ngữ chỉ mục, N  1;

+ O = {o1, o2, , oU} là một tập hữu hạn đối tượng, U  2;

+ (Dj)j  J = {1, 2, , M} là một họ cluster ( nhóm) đối tượng, Dj  (O),

M  2;

+ D = {j| j  J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa j = {(tk ,

j(tk))| tk  T, k = 1, , N}, j = 1, , M, j : T  S  [0, 1]  R là đại diện cluster của cluster đối tượng Dj

+ A = {ã1, , ãC} là một tập hữu hạn tiêu chuẩn, C  1, trong đó ãi = {((q,

j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C là một quan hệ mờ chuẩn hóa,

ãi : D x D  [0, 1]  R, q  D cố định tùy ý

 Theo truyền thống, IR kinh điển có thuộc tính phân đôi ( lưỡng cực ) trong đó có 2 tiêu chuẩn rõ ràng:

a có mặt và không có mặt;

b tìm kiếm được thực hiện dựa vào (a)

 ai = {  D| ãi(q, ) > i}, i = 1, , C là một i-lát cắt tiêu chuẩn mạnh ãi, i  0, q  D cố định tùy ý;

  : D  (D) là một ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựa chọn - đủ mạnh

Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định nghĩa dùng -lát cắt

 Định nghĩa 3: R.B Yates và B.R Neto

Một mô hình tìm kiếm thông tin là một bộ bốn [ D, Q, F, R(q i , d j ) ]

Trong đó

Trang 4

+ D là một tập các tài liệu;

+ Q là một tập hợp các truy vấn của NSD;

+ F là một khung mô hình hóa các biểu diễn tài liệu, truy vấn và các quan hệ giữa chúng;

+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi

 Q và một biểu diễn tài liệu dj  D Hàm sắp xếp xác định thứ tự giữa các tài liệu đối với truy vấn qi

Khảo sát 3 kiểu truy vấn :

 Truy vấn Boole BQ truyền thống;

 Truy vấn xếp hạng RQ;

 Mô hình tìm kiếm thông tin xác suất

1.2 TRUY VẤN BOOLE BQ TRUYỀN THỐNG

Đây là kiểu truy vấn đơn giản nhất, trong đó các thuật ngữ được tổ hợp với các phép toán AND, OR, và NOT

Quá trình truy vấn dùng một IFID là tương đối trực tiếp từ vựng được tìm kiếm đối với mỗi một thuật ngữ, mỗi một IL được tìm kiếm và giải mã, và các danh sách được trộn, lấy giao, hoặc là bù như thích hợp

Cuối cùng, các tài liệu chỉ mục như vậy được tìm kiếm và hiển thị với NSD như danh sách câu trả lời Đối với một truy vấn điển hình có 5 ÷ 10 thuật ngữ, 1 giây hoặc như vậy bị mất thời gian đọc và giải mã các IL; sau đó

Gồm

 1.1 Truy vấn BQ hội

Giả sử truy vấn là một phép hội, bao gồm các thuật ngữ kết nói với phép toán AND

Dạng t1 AND t2 AND AND tr

 1.2 Truy vấn BQ không hội

Dạng phổ biến khác là một phép hội của các phép tuyển:

(text OR data OR information) AND

Trang 5

(search OR seek) AND

(retrieval OR indexing)

 Ở đây các thuật ngữ bao gồm mỗi một liên kết có thể xử lý đồng thời

=> Đánh giá:

Hiện nay, hầu hết các hệ thống tìm kiếm IR thông tin hiện có trong thư viện sử

dụng truy vấn Boole BQ, nhưng xử lí không chính xác truy vấn Boole không hội,

phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất Nếu tập con tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích hợp, đó là nguyên nhân BQ thành công ở các hệ thống tìm kiếm thư mục Tuy nhiên yêu cầu tin thường biết ít chính xác hơn

1.3 TRUY VẤN XẾP HẠNG RQ

Hiện nay hầu hết các hệ thống tìm kiếm thông tin IR hiện có trong thư viện sử dụng truy vấn Boole BQ, nhưng xử lý không chính xác truy vấn Boole không hội,

phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất

Nếu tập cong tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích hợp Tuy nhiên yêu cầu thông tin thường biết ít chính xác hơn

1.3.1 So khớp toạ độ

Đếm số thuật ngữ truy vấn xuất hiện trong mỗi 1 tài liệu.Càng nhiều thuật ngữ xuất hiện hơn, càng có nhiều khả năng hơn tài liệu là có liên quan Truy vấn thành một truy vấn lai, trung gian giữa một truy vấn hội AND và một truy vấn

tuyển OR: một tài liệu chứa bất kỳtrong sốthuật ngữ được xem như một câu trả lời tiềm năng, nhưng sự ưu tiên được cho các tài liệu chứa tất cả hoặc hầu hết chúng Tất cả thông tin cần thiết nằm trong IF và cài đặt tương đối dễ

Xét 4 tài liệu trình bày ở bảng 1 Đối với truy vấn searching, tài liệu 1 là câu trả lời tốt nhất và duy nhất Nhưng về truy vấn information retrieval? Ở ngữ cảnh BQ hội, tài liệu 1 là câu trả lời duy nhất Nhưng 3 tài liệu khác có thể có liên quan và so

Trang 6

khớp toạ độ tạo ra xếp hạng D1> D2= D3= D4= 0 Các tài liệu chỉ chứa một trong

số thuật ngữ có sẵn khi trả lời, NSD nên kiểm tra

Bảng 1 – Văn bản mẫu

1.3.2 Tích trong độ tương tự

Quá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệu

Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau:

S(Q, D d ) = Q D d (4)*

trong đó: phép toán . là phép tích trong

Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:

(5)*

 Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc

“không” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu

 Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :

Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu

 Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn

1 Information retrieval issearching and indexing

2 Indexing is building an index

3 An inverted file is an index

4 Building an inverted file is indexing





n 1

y x Y

X

Trang 7

 Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:

S(Q, Dd) = Q . Dd = (6)*

Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau:

S(Q, Dd) = (7)*

 Bài toán 2 không tính đến các thuật ngữ khó tìm

Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF

 Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số

wt của một thuật ngữ t được tính như sau:

(8)*

trong đó: ft là số tài liệu chứa thuật ngữ t

 Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:

1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một

số cách khác nhau

2 Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh

ra một trọng số truy vấn-thuật ngữ wq,t

3 Có thể được dùng trong cả hai tính toán wd,t và wq,t , tức là, áp dụng hai lần

Q

∈ t

t , d t

,

Q

∈

t q , t d , t



t

t f 1

Trang 8

Không công thức nào ở trên là khả năng duy nhất được dùng đối với

wt , thành phần IDF

 Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo

Các vectơ tài liệu được tính như sau:

wd,t = rd,t (9)*

hoặc wd,t = rd,t wt (TF x IDF)

 Chú ý:

+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra tên của chúng Một heuristic độ tương tự được gọi là “TF x IDF”

bất kỳ khi dùng tần suất thuật ngữ fd,t tăng đều và tần suất tài liệu của thuật

ngữ ft giảm đều

+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự

 Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài Do

đó, luật tích trong đánh giá độ tương tự bằng

(10)*

trong đó là độ dài của tài liệu Dd

1.3.4 Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

(11)*

Điều quan tâm là hướng chỉ thị của 2 vecto hay chính xác hơn là sự khác nhau về hướng, không kể độ dài, hơn nữa là góc giữa 2 vecto

d

t , d t

, q Q t d

D

w

w )

D , Q (







 n

t

t d t q

D Q S

1

2 , ,

) , (

Trang 9

Hướng chỉ thị bởi 2 vectơ

(12)*

Công thức có 2 hàm ý: 1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu 2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng Luật cosin đối với xếp hạng: (13)*

trong đó (14)*

là độ dài Euclide – trọng số – của tài liệu d và (15)*

là trọng số của truy vấn q Độ tương tự: (16)*

1.4 ĐỘ ĐO COSIN

Đo độ cosin nhiều thông tin hơn được yêu cầu so với xử lý BQ và được thực hiện các quyết định về thông tin này

1.4.1 Tần suất bên trong tài liệu

Giả sử truy vấn Q nào đó được dùng để xếp hạng 1 CSDL tài liệu.Tần suất thuật ngữ fts từ vựng thì đối với hầu hết luật gán trọng số thuật ngữ mô tả, trọng số tài liệu - thuật ngữ wd,t có thể được tính với điều kiện là fd,t đã biết, vì Ngía trị khác duy nhất là toàn cục Vì vậy, fd,t có thể được lưu trữ trong danh sách đảo (IL) cùng với số tài liệu d









n

i i n

i i

n

i i i

y x

y x Y

X

Y X

1 2 1

2

1

cos 

d

d d

D Q

D

Q )

D ,

Q



t d n

1 t

t q d

q

w

∑ w W

W

1







 n

t t d

W

1

2 ,

∑

1

2 ,

n

t t q

W







     



d

D Q

e t d e q

d d

f

N f

W W D

Trang 10

Lưu ý: Dù cho ft về mặt logic là 1 trường trong danh sách đảo , có nhiều khă năng hơn được lưu trữ trong từ vựng cùng với thuật ngữ t, địa chỉ tệp đảo It và nếu nó được lưu trữ rõ ràng và không được trích dẫn trọng số thuật ngữ wt

Mỗi một danh sách đảo phải chứa các giá trị fd,t Thực tế mã đơn nguyên là một phương pháp hiệu quả để nén các tần suất bên trong tài liệu Là lý tưởng để biểu diễn các giá trị tần suất bên trong tài liệu fd,t Nếu một từ xuất hiện một lần trong một tài liệu, nó yêu cầu một mã 1 bit; nếu nó xuất hiện hai lần, một mã 2 bit… Thực tế IL đối với thuật ngữ t tăng lên bằng 1 số bit đúng bằng tổng số 2 lần xuất hiện của thuật ngữ đó trong toàn bộ CSDL Ft là tổng số lần xuất hiện của thuật ngữ t, sự xuất hiện trùng lặp được tính:

Ft d,t

Sau đó

t = F trong đó F là tổng số từ trong CSDL

Vì một mã đơn nguyên đối với x yêu cầu x bit, IL đối với thuật ngữ t tăng lên bằng đúng Ft bit và IF tổng tăng lên đúng bằng F bit

Hàng tần suất quan sát tương ứng với một mã Huffman toàn cục dựa vào tần suất thực của mỗi một số đã mã hóa, như vậy nó biểu diễn tốt nhất rằng trong bất kì trong số mã hóa này có thể đạt được

Bảng 2: Cộng thêm thông tin tần suất, bit/giây đối với TREC

Đơn nguyên 2.49

Có thể chỉ mục mọi thuật ngữ trong một văn bản lớn dùng ít hơn 1B cho mỗi con trỏ, ngay cả khi tệp chỉ mục chứa các tần suất thuật ngữ





 N

d

f

1





n

t F

1

Trang 11

γ là phương pháp lựa chọn nếu một mã đơn giản được dùng làm phương pháp nội suy là lựa chọn thích hợp nếu làm giảm kích thước chỉ mục, là mối quan tâm bao

quát

1.4.2 Tính độ đo cosin

Dùng luật đánh trọng số (TFxIDF) đánh giá độ đo cosin

Xét công thức:

Lấy tổng được đánh giá bằng cách xử lý lần lượt mỗi một IL, xếp hạng có thể được đánh giá không cần trợ giúp văn bản của CSDL tài liệu Sự có mặt của fd,t trong IL nghĩa là trọng số Wd của tài liệu d chỉ là giá trị còn lại được tính rõ

Mỗi một số tài liệu xuất hiện trong một IL tạo ra 1 phần đóng góp cosin được cộng vào thanh tích lũy Mỗi một tài liệu chứa bất kỳ trong số thuật ngữ truy vấn kết thúc với một thanh tích lũy khác 0.Tất cả phần đóng góp cosinđược tích lũy một lần, chúng được chuẩn hóa bằng các trọng số tài liệu tương ứng vào trong các giá trị tỉ lệ với độ cosin Cuối cùng chọn r lớn nhất trong tất cả các giá trị, tìm kiếm và hiển thị các tài liệu chũng biểu diễn

Tìm kiếm r tài liệu dùng độ đo cosin:

1 Đặt A  { } A là tập hợp tích lũy

2 Đối với mỗi một thuật ngữ truy vấn t ∊ Q,

a) Truy gốc từ t

b) Tìm kiếm từ vựng

c) Ghi ft và địa chỉ của It, mục vào IF đối với t

d) Đặt wt  1 + loge (N / ft)

e) Đọc mục vào IF It

f) Đỗi với mỗi một cặp (d, fd,f) thuộc It,

i Nếu Ad ∊A thì

Đặt Ad  0 Đặt A  A + {Ad}





     



d

D Q

e t d e q

d

f

N f

W W D

Q, ) 1 (1 log ) log 1

Trang 12

Đặt Ad  Ad + loge(1 + fd,t)* wt

ii Đối với mỗi một Ad ∊ A,

Đặt Ad  Ad / wd Bây giờ Ad tỉ lệ với giá trị cos(Q,Dd)

3 Đối với 1 ≤ i ≤ r,

a) Lựa chọn d sao cho Ad = max {A}

b) Dò tìm địa chỉ của tài liệu d

c) Tìm kiếm tài liệu d và trình bày với NSD

Đặt A  A – {Ad}

Giải thuật nêu lên 3 điểm như sau:

1 Wq bị bỏ qua vì Wq là một hằng số

2 lượng lớn bộ nhớ được sử dụng

3 chỉ r << N tài liệu có mặt

tích lũy vào trong các giá trị cosin, toàn bộ tệp trọng số sau đó phải được đọc

 Phương pháp khác được đề xuất nhằm loại trừ bộ nhớ yêu cầu bởi trong số tài liệu là lưu trữ fd,t /Wd thay cho fd,t trong IL, sao cho giá trị tích lũy trong Ad

có cùng tỷ lệ bằng Wd tuy nhiên khi IF được lưu trữ nén, điều này là cực kì đắt

 Như một thỏa hiệp giữa các trường hợp cực đoan tất cả trong bộ nhớ và tất cả trên đĩa, nếu lượng hạn chế nào đó của bộ nhớ chính có sẵn, có thể lưu trữ các trọng số gần đúng trong bộ nhớ và dùng chúng để hướng dẫn truy cập vào trong một tệp trên đĩa lưu trữ các trọng số tài liệu chính xác

1.4.3 Sắp xếp

Thành phần cuối cùng của qúa trình xếp hạng là sắp xếp Nhiều cơ chế được đề xuất để làm giảm thời gian sắp xếp, như là sắp xếp chỉ các thanh tích lũy khác 0, trong nhiều trường hợp, tập A có thể chứa các thanh tích lũy chỉ đối với một phần nhỏ trong số tài liệu, đặc biệt nếu với các số của chúng bị hạn chế giả tạo để tiết kiệm không gian, như đã đề xuất ở trên Ngay cả với một phần tương đối lớn trong

số thanh tích lũy khác 0- thời gian sắp xếp có thể được giảm nhiều 10%

Định dạng
Số trang	20
Dung lượng	0,94 MB