Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số NỘI DUNG I. TÌM KIẾM THÔNG TIN 1.1 Mô hình tìm kiếm thông tin 1.2 Truy vấn Boole BQ 1.3 Truy vấn xếp hạng RQ 1.4 Độ đo Cosin 1.5 Mô hình tìm kiếm thông tin xác suất 1.6 Hiệu suất tìm kiếm
Trang 1BÀI TẬP
Môn: Thư viện số
“Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số”
NỘI DUNG
I TÌM KIẾM THÔNG TIN
1.1 Mô hình tìm kiếm thông tin
1.2 Truy vấn Boole BQ
1.3 Truy vấn xếp hạng RQ
1.4 Độ đo Cosin
1.5 Mô hình tìm kiếm thông tin xác suất
1.6 Hiệu suất tìm kiếm
Trang 21.1 MÔ HÌNH TÌM KIẾM THÔNG TIN
Tìm kiếm thông tin (IR) đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin
có liên quan tới nhu cầu thông tin của NSD
Mô hình tìm kiếm thông tin IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn
Cho
D = {d1, d2, , dM}, M 2 (1)*
là một tập hữu hạn không rỗng đối tượng, M là số tài liệu
Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường Các đối tượng tiêu biểu là đại diện
Cho là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó (D), nghĩa
là,
: D (D) (2)*
Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm , chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau: (3 định nghĩa)
Định nghĩa 1 (cấu trúc tìm kiếm thông tin):
Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, > (3)*
Đây là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm và đối tượng D Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và
Định nghĩa 2 (mô hình tìm kiếm thông tin MIR):
Mô hình tìm kiếm thông tin MIR là một SIR S = <D, > với 2 thuộc tính sau đây:
Trang 3a q = ãi(q, ) = 1 i, q, (tính phản xạ);
b i (q) = { D| ãi(q, ) = max ãk(q, k)} ai, i cố định tùy ý
Trong đó:
+ T = {t1, t2, , tN} là một tập hữu hạn thuật ngữ chỉ mục, N 1;
+ O = {o1, o2, , oU} là một tập hữu hạn đối tượng, U 2;
+ (Dj)j J = {1, 2, , M} là một họ cluster ( nhóm) đối tượng, Dj (O),
M 2;
+ D = {j| j J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa j = {(tk ,
j(tk))| tk T, k = 1, , N}, j = 1, , M, j : T S [0, 1] R là đại diện cluster của cluster đối tượng Dj
+ A = {ã1, , ãC} là một tập hữu hạn tiêu chuẩn, C 1, trong đó ãi = {((q,
j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C là một quan hệ mờ chuẩn hóa,
ãi : D x D [0, 1] R, q D cố định tùy ý
Theo truyền thống, IR kinh điển có thuộc tính phân đôi ( lưỡng cực ) trong đó có 2 tiêu chuẩn rõ ràng:
a có mặt và không có mặt;
b tìm kiếm được thực hiện dựa vào (a)
ai = { D| ãi(q, ) > i}, i = 1, , C là một i-lát cắt tiêu chuẩn mạnh ãi, i 0, q D cố định tùy ý;
: D (D) là một ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựa chọn - đủ mạnh
Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định nghĩa dùng -lát cắt
Định nghĩa 3: R.B Yates và B.R Neto
Một mô hình tìm kiếm thông tin là một bộ bốn [ D, Q, F, R(q i , d j ) ]
Trong đó
Trang 4+ D là một tập các tài liệu;
+ Q là một tập hợp các truy vấn của NSD;
+ F là một khung mô hình hóa các biểu diễn tài liệu, truy vấn và các quan hệ giữa chúng;
+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi
Q và một biểu diễn tài liệu dj D Hàm sắp xếp xác định thứ tự giữa các tài liệu đối với truy vấn qi
Khảo sát 3 kiểu truy vấn :
Truy vấn Boole BQ truyền thống;
Truy vấn xếp hạng RQ;
Mô hình tìm kiếm thông tin xác suất
1.2 TRUY VẤN BOOLE BQ TRUYỀN THỐNG
Đây là kiểu truy vấn đơn giản nhất, trong đó các thuật ngữ được tổ hợp với các phép toán AND, OR, và NOT
Quá trình truy vấn dùng một IFID là tương đối trực tiếp từ vựng được tìm kiếm đối với mỗi một thuật ngữ, mỗi một IL được tìm kiếm và giải mã, và các danh sách được trộn, lấy giao, hoặc là bù như thích hợp
Cuối cùng, các tài liệu chỉ mục như vậy được tìm kiếm và hiển thị với NSD như danh sách câu trả lời Đối với một truy vấn điển hình có 5 ÷ 10 thuật ngữ, 1 giây hoặc như vậy bị mất thời gian đọc và giải mã các IL; sau đó
Gồm
1.1 Truy vấn BQ hội
Giả sử truy vấn là một phép hội, bao gồm các thuật ngữ kết nói với phép toán AND
Dạng t1 AND t2 AND AND tr
1.2 Truy vấn BQ không hội
Dạng phổ biến khác là một phép hội của các phép tuyển:
(text OR data OR information) AND
Trang 5(search OR seek) AND
(retrieval OR indexing)
Ở đây các thuật ngữ bao gồm mỗi một liên kết có thể xử lý đồng thời
=> Đánh giá:
Hiện nay, hầu hết các hệ thống tìm kiếm IR thông tin hiện có trong thư viện sử
dụng truy vấn Boole BQ, nhưng xử lí không chính xác truy vấn Boole không hội,
phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất Nếu tập con tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích hợp, đó là nguyên nhân BQ thành công ở các hệ thống tìm kiếm thư mục Tuy nhiên yêu cầu tin thường biết ít chính xác hơn
1.3 TRUY VẤN XẾP HẠNG RQ
Hiện nay hầu hết các hệ thống tìm kiếm thông tin IR hiện có trong thư viện sử dụng truy vấn Boole BQ, nhưng xử lý không chính xác truy vấn Boole không hội,
phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất
Nếu tập cong tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích hợp Tuy nhiên yêu cầu thông tin thường biết ít chính xác hơn
1.3.1 So khớp toạ độ
Đếm số thuật ngữ truy vấn xuất hiện trong mỗi 1 tài liệu.Càng nhiều thuật ngữ xuất hiện hơn, càng có nhiều khả năng hơn tài liệu là có liên quan Truy vấn thành một truy vấn lai, trung gian giữa một truy vấn hội AND và một truy vấn
tuyển OR: một tài liệu chứa bất kỳtrong sốthuật ngữ được xem như một câu trả lời tiềm năng, nhưng sự ưu tiên được cho các tài liệu chứa tất cả hoặc hầu hết chúng Tất cả thông tin cần thiết nằm trong IF và cài đặt tương đối dễ
Xét 4 tài liệu trình bày ở bảng 1 Đối với truy vấn searching, tài liệu 1 là câu trả lời tốt nhất và duy nhất Nhưng về truy vấn information retrieval? Ở ngữ cảnh BQ hội, tài liệu 1 là câu trả lời duy nhất Nhưng 3 tài liệu khác có thể có liên quan và so
Trang 6khớp toạ độ tạo ra xếp hạng D1> D2= D3= D4= 0 Các tài liệu chỉ chứa một trong
số thuật ngữ có sẵn khi trả lời, NSD nên kiểm tra
Bảng 1 – Văn bản mẫu
1.3.2 Tích trong độ tương tự
Quá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệu
Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau:
S(Q, D d ) = Q D d (4)*
trong đó: phép toán . là phép tích trong
Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:
(5)*
Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc
“không” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu
Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :
Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu
Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn
1 Information retrieval issearching and indexing
2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing
n 1
y x Y
X
Trang 7 Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:
S(Q, Dd) = Q . Dd = (6)*
Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau:
S(Q, Dd) = (7)*
Bài toán 2 không tính đến các thuật ngữ khó tìm
Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF
Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số
wt của một thuật ngữ t được tính như sau:
(8)*
trong đó: ft là số tài liệu chứa thuật ngữ t
Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:
1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một
số cách khác nhau
2 Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh
ra một trọng số truy vấn-thuật ngữ wq,t
3 Có thể được dùng trong cả hai tính toán wd,t và wq,t , tức là, áp dụng hai lần
Q
∈ t
t , d t
,
Q
∈
t q , t d , t
t
t f 1
Trang 8Không công thức nào ở trên là khả năng duy nhất được dùng đối với
wt , thành phần IDF
Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo
Các vectơ tài liệu được tính như sau:
wd,t = rd,t (9)*
hoặc wd,t = rd,t wt (TF x IDF)
Chú ý:
+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra tên của chúng Một heuristic độ tương tự được gọi là “TF x IDF”
bất kỳ khi dùng tần suất thuật ngữ fd,t tăng đều và tần suất tài liệu của thuật
ngữ ft giảm đều
+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự
Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài Do
đó, luật tích trong đánh giá độ tương tự bằng
(10)*
trong đó là độ dài của tài liệu Dd
1.3.4 Mô hình không gian vectơ
Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:
(11)*
Điều quan tâm là hướng chỉ thị của 2 vecto hay chính xác hơn là sự khác nhau về hướng, không kể độ dài, hơn nữa là góc giữa 2 vecto
d
t , d t
, q Q t d
D
w
w )
D , Q (
n
t
t d t q
D Q S
1
2 , ,
) , (
Trang 9Hướng chỉ thị bởi 2 vectơ
(12)*
Công thức có 2 hàm ý: 1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu 2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng Luật cosin đối với xếp hạng: (13)*
trong đó (14)*
là độ dài Euclide – trọng số – của tài liệu d và (15)*
là trọng số của truy vấn q Độ tương tự: (16)*
1.4 ĐỘ ĐO COSIN
Đo độ cosin nhiều thông tin hơn được yêu cầu so với xử lý BQ và được thực hiện các quyết định về thông tin này
1.4.1 Tần suất bên trong tài liệu
Giả sử truy vấn Q nào đó được dùng để xếp hạng 1 CSDL tài liệu.Tần suất thuật ngữ fts từ vựng thì đối với hầu hết luật gán trọng số thuật ngữ mô tả, trọng số tài liệu - thuật ngữ wd,t có thể được tính với điều kiện là fd,t đã biết, vì Ngía trị khác duy nhất là toàn cục Vì vậy, fd,t có thể được lưu trữ trong danh sách đảo (IL) cùng với số tài liệu d
n
i i n
i i
n
i i i
y x
y x Y
X
Y X
1 2 1
2
1
cos
d
d d
D Q
D
Q )
D ,
Q
t d n
1 t
t q d
q
w
∑ w W
W
1
n
t t d
W
1
2 ,
∑
1
2 ,
n
t t q
W
d
D Q
e t d e q
d d
f
N f
W W D
Trang 10Lưu ý: Dù cho ft về mặt logic là 1 trường trong danh sách đảo , có nhiều khă năng hơn được lưu trữ trong từ vựng cùng với thuật ngữ t, địa chỉ tệp đảo It và nếu nó được lưu trữ rõ ràng và không được trích dẫn trọng số thuật ngữ wt
Mỗi một danh sách đảo phải chứa các giá trị fd,t Thực tế mã đơn nguyên là một phương pháp hiệu quả để nén các tần suất bên trong tài liệu Là lý tưởng để biểu diễn các giá trị tần suất bên trong tài liệu fd,t Nếu một từ xuất hiện một lần trong một tài liệu, nó yêu cầu một mã 1 bit; nếu nó xuất hiện hai lần, một mã 2 bit… Thực tế IL đối với thuật ngữ t tăng lên bằng 1 số bit đúng bằng tổng số 2 lần xuất hiện của thuật ngữ đó trong toàn bộ CSDL Ft là tổng số lần xuất hiện của thuật ngữ t, sự xuất hiện trùng lặp được tính:
Ft d,t
Sau đó
t = F trong đó F là tổng số từ trong CSDL
Vì một mã đơn nguyên đối với x yêu cầu x bit, IL đối với thuật ngữ t tăng lên bằng đúng Ft bit và IF tổng tăng lên đúng bằng F bit
Hàng tần suất quan sát tương ứng với một mã Huffman toàn cục dựa vào tần suất thực của mỗi một số đã mã hóa, như vậy nó biểu diễn tốt nhất rằng trong bất kì trong số mã hóa này có thể đạt được
Bảng 2: Cộng thêm thông tin tần suất, bit/giây đối với TREC
Đơn nguyên 2.49
Có thể chỉ mục mọi thuật ngữ trong một văn bản lớn dùng ít hơn 1B cho mỗi con trỏ, ngay cả khi tệp chỉ mục chứa các tần suất thuật ngữ
N
d
f
1
n
t F
1
Trang 11γ là phương pháp lựa chọn nếu một mã đơn giản được dùng làm phương pháp nội suy là lựa chọn thích hợp nếu làm giảm kích thước chỉ mục, là mối quan tâm bao
quát
1.4.2 Tính độ đo cosin
Dùng luật đánh trọng số (TFxIDF) đánh giá độ đo cosin
Xét công thức:
Lấy tổng được đánh giá bằng cách xử lý lần lượt mỗi một IL, xếp hạng có thể được đánh giá không cần trợ giúp văn bản của CSDL tài liệu Sự có mặt của fd,t trong IL nghĩa là trọng số Wd của tài liệu d chỉ là giá trị còn lại được tính rõ
Mỗi một số tài liệu xuất hiện trong một IL tạo ra 1 phần đóng góp cosin được cộng vào thanh tích lũy Mỗi một tài liệu chứa bất kỳ trong số thuật ngữ truy vấn kết thúc với một thanh tích lũy khác 0.Tất cả phần đóng góp cosinđược tích lũy một lần, chúng được chuẩn hóa bằng các trọng số tài liệu tương ứng vào trong các giá trị tỉ lệ với độ cosin Cuối cùng chọn r lớn nhất trong tất cả các giá trị, tìm kiếm và hiển thị các tài liệu chũng biểu diễn
Tìm kiếm r tài liệu dùng độ đo cosin:
1 Đặt A { } A là tập hợp tích lũy
2 Đối với mỗi một thuật ngữ truy vấn t ∊ Q,
a) Truy gốc từ t
b) Tìm kiếm từ vựng
c) Ghi ft và địa chỉ của It, mục vào IF đối với t
d) Đặt wt 1 + loge (N / ft)
e) Đọc mục vào IF It
f) Đỗi với mỗi một cặp (d, fd,f) thuộc It,
i Nếu Ad ∊A thì
Đặt Ad 0 Đặt A A + {Ad}
d
D Q
e t d e q
d
d
f
N f
W W D
Q, ) 1 (1 log ) log 1
Trang 12Đặt Ad Ad + loge(1 + fd,t)* wt
ii Đối với mỗi một Ad ∊ A,
Đặt Ad Ad / wd Bây giờ Ad tỉ lệ với giá trị cos(Q,Dd)
3 Đối với 1 ≤ i ≤ r,
a) Lựa chọn d sao cho Ad = max {A}
b) Dò tìm địa chỉ của tài liệu d
c) Tìm kiếm tài liệu d và trình bày với NSD
Đặt A A – {Ad}
Giải thuật nêu lên 3 điểm như sau:
1 Wq bị bỏ qua vì Wq là một hằng số
2 lượng lớn bộ nhớ được sử dụng
3 chỉ r << N tài liệu có mặt
tích lũy vào trong các giá trị cosin, toàn bộ tệp trọng số sau đó phải được đọc
Phương pháp khác được đề xuất nhằm loại trừ bộ nhớ yêu cầu bởi trong số tài liệu là lưu trữ fd,t /Wd thay cho fd,t trong IL, sao cho giá trị tích lũy trong Ad
có cùng tỷ lệ bằng Wd tuy nhiên khi IF được lưu trữ nén, điều này là cực kì đắt
Như một thỏa hiệp giữa các trường hợp cực đoan tất cả trong bộ nhớ và tất cả trên đĩa, nếu lượng hạn chế nào đó của bộ nhớ chính có sẵn, có thể lưu trữ các trọng số gần đúng trong bộ nhớ và dùng chúng để hướng dẫn truy cập vào trong một tệp trên đĩa lưu trữ các trọng số tài liệu chính xác
1.4.3 Sắp xếp
Thành phần cuối cùng của qúa trình xếp hạng là sắp xếp Nhiều cơ chế được đề xuất để làm giảm thời gian sắp xếp, như là sắp xếp chỉ các thanh tích lũy khác 0, trong nhiều trường hợp, tập A có thể chứa các thanh tích lũy chỉ đối với một phần nhỏ trong số tài liệu, đặc biệt nếu với các số của chúng bị hạn chế giả tạo để tiết kiệm không gian, như đã đề xuất ở trên Ngay cả với một phần tương đối lớn trong
số thanh tích lũy khác 0- thời gian sắp xếp có thể được giảm nhiều 10%