BÀI TẬP Môn: Thư viện số “Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số” NỘI DUNG I. TÌM KIẾM THÔNG TIN 1.1 Mô hình tìm kiếm thông tin 1.2 Truy vấn Boole BQ 1.3 Truy vấn xếp hạng RQ 1.4 Độ đo Cosin 1.5 Mô hình tìm kiếm thông tin xác suất 1.6 Hiệu suất tìm kiếm
Trang 1BÀI TẬP
Môn: Thư viện số
“Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số”
NỘI DUNG
I TÌM KIẾM THÔNG TIN
I.1 Mô hình tìm kiếm thông tin
I.2 Truy vấn Boole BQ
I.3 Truy vấn xếp hạng RQ
I.4 Độ đo Cosin
I.5 Mô hình tìm kiếm thông tin xác suất
I.6 Hiệu suất tìm kiếm
1.1 MÔ HÌNH TÌM KIẾM THÔNG TIN
Trang 2Tìm kiếm thông tin (IR) đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin
có liên quan tới nhu cầu thông tin của NSD
Mô hình tìm kiếm thông tin IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn
Cho
D = {d1, d2, , dM}, M 2 (1)*
là một tập hữu hạn không rỗng đối tượng, M là số tài liệu
Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường Các đối tượng tiêu biểu là đại diện
Cho là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó (D), nghĩa
là,
: D (D) (2)*
Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm , chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau: (3 định nghĩa)
Định nghĩa 1 (cấu trúc tìm kiếm thông tin):
Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, > (3)*
Đây là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệtcủa ánh xạ tìm kiếm và đối tượng D Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và
Định nghĩa 2 (mô hình tìm kiếm thông tin MIR):
Mô hình tìm kiếm thông tin MIR là một SIR S = <D, > với 2 thuộc tính sau đây:
a q = ãi(q, ) = 1 i, q, (tính phản xạ);
Trang 3b i (q) = { D| ãi(q, ) = max ãk(q, k)} ai, i cố định tùy ý.
Trong đó:
+ T = {t1, t2, , tN} là một tập hữu hạn thuật ngữ chỉ mục, N 1;
+ O = {o1, o2, , oU} là một tập hữu hạn đối tượng, U 2;
+ (Dj)j J = {1, 2, , M} là một họ cluster ( nhóm) đối tượng, Dj (O), M
2;
+ D = {j| j J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa j = {(tk ,
j(tk))| tk T, k = 1, , N}, j = 1, , M, j : T S [0, 1] R là đại diệncluster của cluster đối tượng Dj
+ A = {ã1, , ãC} là một tập hữu hạn tiêu chuẩn, C 1, trong đó ãi = {((q,
j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C là một quan hệ mờ chuẩn hóa,
: D (D) là một ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựa chọn - đủ mạnh
Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định nghĩa dùng -lát cắt
Định nghĩa 3: R.B Yates và B.R Neto
Một mô hình tìm kiếm thông tin là một bộ bốn [ D, Q, F, R(qi, dj) ]
Trong đó
Trang 4+ D là một tập các tài liệu;
+ Q là một tập hợp các truy vấn của NSD;
+ F là một khung mô hình hóa các biểu diễn tài liệu, truy vấn và các quan hệ giữa chúng;
+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi
Q và một biểu diễn tài liệu dj D Hàm sắp xếp xác định thứ tự giữa các tài liệu đối với truy vấn qi
Khảo sát 3 kiểu truy vấn :
Truy vấn Boole BQ truyền thống;
Truy vấn xếp hạng RQ;
Mô hình tìm kiếm thông tin xác suất
1.2 TRUY VẤN BOOLE BQ TRUYỀN THỐNG
Đây là kiểu truy vấn đơn giản nhất, trong đó các thuật ngữ được tổ hợp với các phép toán AND, OR, và NOT
Quá trình truy vấn dùng một IFID là tương đối trực tiếp từ vựng được tìm kiếm đối với mỗi một thuật ngữ, mỗi một IL được tìm kiếm và giải mã, và các danh sáchđược trộn, lấy giao, hoặc là bù như thích hợp
Cuối cùng, các tài liệu chỉ mục như vậy được tìm kiếm và hiển thị với NSD như danh sách câu trả lời Đối với một truy vấn điển hình có 5 ÷ 10 thuật ngữ, 1 giây hoặc như vậy bị mất thời gian đọc và giải mã các IL; sau đó
Gồm
1.1 Truy vấn BQ hội
Giả sử truy vấn là một phép hội, bao gồm các thuật ngữ kết nói với phép toán AND
Dạng t1 AND t2 AND AND tr
1.2 Truy vấn BQ không hội
Dạng phổ biến khác là một phép hội của các phép tuyển:
(text OR data OR information) AND
Trang 5(search OR seek) AND
(retrieval OR indexing)
Ở đây các thuật ngữ bao gồm mỗi một liên kết có thể xử lý đồng thời
=> Đánh giá:
Hiện nay, hầu hết các hệ thống tìm kiếm IR thông tin hiện có trong thư viện sử
dụng truy vấn Boole BQ, nhưng xử lí không chính xác truy vấn Boole không hội,
phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất Nếu tập con tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích hợp, đó là nguyên nhân BQ thành công ở các hệ thống tìm kiếm thư mục Tuy nhiên yêu cầu tin thường biết ít chính xác hơn
1.3 TRUY VẤN XẾP HẠNG RQ
Hiện nay hầu hết các hệ thống tìm kiếm thông tin IR hiện có trong thư viện sử dụng truy vấn Boole BQ, nhưng xử lý không chính xác truy vấn Boole không hội, phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất
Nếu tập cong tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắcchắn thích hợp Tuy nhiên yêu cầu thông tin thường biết ít chính xác hơn
1.3.1 So khớp toạ độ
Đếm số thuật ngữ truy vấn xuất hiện trong mỗi 1 tài liệu.Càng nhiều thuật ngữ xuấthiện hơn, càng có nhiều khả năng hơn tài liệu là có liên quan Truy vấn thành mộttruy vấn lai, trung gian giữa một truy vấn hội AND và một truy vấn
tuyển OR: một tài liệu chứa bất kỳtrong sốthuật ngữ được xem như một câu trả lờitiềm năng, nhưng sự ưu tiên được cho các tài liệu chứa tất cả hoặc hầu hết chúng.Tất cả thông tin cần thiết nằm trong IF và cài đặt tương đối dễ
Xét 4 tài liệu trình bày ở bảng 1 Đối với truy vấn searching, tài liệu 1 là câu trả lờitốt nhất và duy nhất Nhưng về truy vấn information retrieval? Ở ngữ cảnh BQ hội,tài liệu 1 là câu trả lời duy nhất Nhưng 3 tài liệu khác có thể có liên quan và so
Trang 6khớp toạ độ tạo ra xếp hạng D1> D2= D3= D4= 0 Các tài liệu chỉ chứa một trong
số thuật ngữ có sẵn khi trả lời, NSD nên kiểm tra
trong đó: phép toán . là phép tích trong
Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:
(5)*
Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc
“không” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu
Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :
Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu
Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn
1 Information retrieval issearching and indexing
2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing
Trang 7 Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:
S(Q, Dd) = Q . Dd = (6)*
Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau:
S(Q, Dd) = (7)*
Bài toán 2 không tính đến các thuật ngữ khó tìm
Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF
Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số
wt của một thuật ngữ t được tính như sau:
(8)*
trong đó: ft là số tài liệu chứa thuật ngữ t
Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:
1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một
Trang 8Không công thức nào ở trên là khả năng duy nhất được dùng đối với
wt , thành phần IDF
Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo
Các vectơ tài liệu được tính như sau:
+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự
Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài Do
đó, luật tích trong đánh giá độ tương tự bằng
(10)*
trong đó là độ dài của tài liệu Dd
1.3.4 Mô hình không gian vectơ
Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:
(11)*
Điều quan tâm là hướng chỉ thị của 2 vecto hay chính xác hơn là sự khác nhau về hướng, không kể độ dài, hơn nữa là góc giữa 2 vecto
Trang 9Hướng chỉ thị bởi 2 vectơ
(12)*
Công thức có 2 hàm ý: 1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu 2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng Luật cosin đối với xếp hạng: (13)*
trong đó (14)*
là độ dài Euclide – trọng số – của tài liệu d và (15)*
là trọng số của truy vấn q Độ tương tự: (16)*
1.4 ĐỘ ĐO COSIN
Đo độ cosin nhiều thông tin hơn được yêu cầu so với xử lý BQ và được thực hiện các quyết định về thông tin này
1.4.1 Tần suất bên trong tài liệu
Giả sử truy vấn Q nào đó được dùng để xếp hạng 1 CSDL tài liệu.Tần suất thuật ngữ fts từ vựng thì đối với hầu hết luật gán trọng số thuật ngữ mô tả, trọng số tài liệu - thuật ngữ wd,t có thể được tính với điều kiện là fd,t đã biết, vì Ngía trị khác duy nhất là toàn cục Vì vậy, fd,t có thể được lưu trữ trong danh sách đảo (IL) cùng với số tài liệu d
Trang 10Lưu ý: Dù cho ft về mặt logic là 1 trường trong danh sách đảo , có nhiều khă nănghơn được lưu trữ trong từ vựng cùng với thuật ngữ t, địa chỉ tệp đảo It và nếu nóđược lưu trữ rõ ràng và không được trích dẫn trọng số thuật ngữ wt.
Mỗi một danh sách đảo phải chứa các giá trị fd,t Thực tế mã đơn nguyên là mộtphương pháp hiệu quả để nén các tần suất bên trong tài liệu Là lý tưởng để biểudiễn các giá trị tần suất bên trong tài liệu fd,t Nếu một từ xuất hiện một lần trongmột tài liệu, nó yêu cầu một mã 1 bit; nếu nó xuất hiện hai lần, một mã 2 bit…Thực tế IL đối với thuật ngữ t tăng lên bằng 1 số bit đúng bằng tổng số 2 lần xuấthiện của thuật ngữ đó trong toàn bộ CSDL Ft là tổng số lần xuất hiện của thuậtngữ t, sự xuất hiện trùng lặp được tính:
Ft d,t
Sau đó
t = Ftrong đó F là tổng số từ trong CSDL
Vì một mã đơn nguyên đối với x yêu cầu x bit, IL đối với thuật ngữ t tăng lên bằngđúng Ft bit và IF tổng tăng lên đúng bằng F bit
Hàng tần suất quan sát tương ứng với một mã Huffman toàn cục dựa vào tần suấtthực của mỗi một số đã mã hóa, như vậy nó biểu diễn tốt nhất rằng trong bất kìtrong số mã hóa này có thể đạt được
Bảng 2: Cộng thêm thông tin tần suất, bit/giây đối với TREC
Trang 11γ là phương pháp lựa chọn nếu một mã đơn giản được dùng làm phương pháp nộisuy là lựa chọn thích hợp nếu làm giảm kích thước chỉ mục, là mối quan tâm bao
Mỗi một số tài liệu xuất hiện trong một IL tạo ra 1 phần đóng góp cosin được cộngvào thanh tích lũy Mỗi một tài liệu chứa bất kỳ trong số thuật ngữ truy vấn kếtthúc với một thanh tích lũy khác 0.Tất cả phần đóng góp cosinđược tích lũy mộtlần, chúng được chuẩn hóa bằng các trọng số tài liệu tương ứng vào trong các giátrị tỉ lệ với độ cosin Cuối cùng chọn r lớn nhất trong tất cả các giá trị, tìm kiếm vàhiển thị các tài liệu chũng biểu diễn
Tìm kiếm r tài liệu dùng độ đo cosin:
ii Đối với mỗi một Ad A,∊
Trang 12Đặt Ad Ad / wd.Bây giờ Ad tỉ lệ với giá trị cos(Q,Dd).
3 Đối với 1 ≤ i ≤ r,
a) Lựa chọn d sao cho Ad = max {A}
b) Dò tìm địa chỉ của tài liệu d
c) Tìm kiếm tài liệu d và trình bày với NSD
tích lũy vào trong các giá trị cosin, toàn bộ tệp trọng số sau đó phải được đọc
Phương pháp khác được đề xuất nhằm loại trừ bộ nhớ yêu cầu bởi trong số tài liệu là lưu trữ fd,t /Wd thay cho fd,t trong IL, sao cho giá trị tích lũy trong Ad
có cùng tỷ lệ bằng Wd tuy nhiên khi IF được lưu trữ nén, điều này là cực kì đắt
Như một thỏa hiệp giữa các trường hợp cực đoan tất cả trong bộ nhớ và tất cả trên đĩa, nếu lượng hạn chế nào đó của bộ nhớ chính có sẵn, có thể lưu trữ các trọng số gần đúng trong bộ nhớ và dùng chúng để hướng dẫn truy cập vào trong một tệp trên đĩa lưu trữ các trọng số tài liệu chính xác
1.4.3 Sắp xếp
Thành phần cuối cùng của qúa trình xếp hạng là sắp xếp Nhiều cơ chế được đề xuất để làm giảm thời gian sắp xếp, như là sắp xếp chỉ các thanh tích lũy khác 0, trong nhiều trường hợp, tập A có thể chứa các thanh tích lũy chỉ đối với một phần nhỏ trong số tài liệu, đặc biệt nếu với các số của chúng bị hạn chế giả tạo để tiết kiệm không gian, như đã đề xuất ở trên Ngay cả với một phần tương đối lớn trong
số thanh tích lũy khác 0- thời gian sắp xếp có thể được giảm nhiều 10%
Trang 13Tuy nhiên một cách tiếp cận đơn giản hơn, đó là phương pháp nhận xét số tài liệu rđược biểu thị rất nhỏ so với N ở hầu hết trường hợp và trích lọc r << N giá trị lớn nhất từ một tâp hoàn toàn là một định đề khác với sắp xếp toàn bộ tập hợp.
1.5 MÔ HÌNH TÌM KIẾM THÔNG TIN XÁC SUẤT
Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probability
ranking principle):
Nếu đáp ứng của một hệ tìm kiếm thông tin với mỗi một yêu cầu của NSD làmột dãy các tài liệu sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các xác suất ở đây được đánh giá là độ chính xác có thể trên CSDL có sẵn thì toàn bộ hiệu quả của hê đối với NSD sẽ là tốt nhất trên CSDL đó
Mô hình tìm kiếm thông tin xác suất như sau:
Định nghĩa 1.5.1 (PIR)
Mô hình tìm kiếm thông tin xác suất PIR là một MIR S = <D, > thỏa mãn điều kiện sau đây:
C = 2 (16)*
Chúng ta lấy C = 2 là vì ở mô hình IR xác suất truyền thống có 2 tiêu chuẩn:
có liên quan và không liên quan ( tài liệu có liên quan và không liên quan)
Định nghĩa 1.5.2 (PIR): định nghĩa 1.5.1có thể được định nghĩa lại như sau:
Mô hình tìm kiếm thông tin xác suất PIR là
một MIR S = <D, >
trong đó: C = 2 và
(q) = {|ãi(q,) ãj(q, )}, j = i + (-1)i+1, ãi(q, ) > i} (17)*
Định nghĩa 1.5.3 (mô hình tìm kiếm thông tin xác suất kinh điển)
Cho D là một tập tài liệu, q D một truy vấn và P(R|(q, d)) xác suất tài liệu
d D là có liên quan /không liên quan với truy vấn q tương ứng Cho R(q) là tập
Trang 14tài liệu tìm kiếm đáp ứng truy vấn q Một tài liệu d được lựa chọn đáp ứng một truyvấn q nếu
P(R|(q, d)) P(I|(q, d)) (Luật quyết định Bayes) (18)*
nghĩa là,
R(q) = {d| P(R|(q, d)) P(I|(q, d))} (19)*
Chính xác hơn, P(R|(q, d)) và P(I|(q, d)) là xác suất liên đới tới d khi nó được xét có liên quan và không liên quan tới q tương ứng
Đánh giá P(R|(q, d)) và P(I|(q, d)) dựa vào công thức Bayes
Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q D và hai tiêu chuẩn ã1 và ã2 là liên quan và không liên quan tương ứng Cho ãi(q, ), i = 1, 2 là mức độ mà một đối tượng bất kỳ d D thỏa mãn tiêu chuẩn ãi liên quan tới q
Trang 15 Các xác suất có điều kiện có thể được đánh giá từ bảng 4.4
P [có liên quan | thuật ngữ t có mặt] = Rt / ft (21)*
P [thuật ngữ t có mặt | không liên quan] = (ft – Rt) / (N – R)
trọng số wt đối với thuật ngữ t nhận được dùng công thức Bayes:
(23)*
Trong đó các giá trị lớn hơn 1chir thị sự xuất hiện của thuật ngữ t nên được lấy như
là trợ giúp cho giả thuyết tài liệu là có liên quan và các giá trị nhỏ hơn 1 chỉ thị sự xuất hiện của thuật ngữ giả thiết tài liệu là không liên quan
SỰ PHẢN HỒI LIÊN QUAN
Trang 16 Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm Giả sử một truy vấn Qo được đưa ra với mọt hệ tìm kiếm và một số tài liệu được trả lại sau đó người sử dụng khảo sát một số hoặc tất cả chúng và quyết địnhlà chúng có, hoặc không liên quan Trong một môi trường xử lý theo lô, đây là điểm cuối của quá trình- hệ thống cho phép chỉ định các tài liệu có liên quan
và sau đó, không thực sự nghi ngờ sự lựa chọn này, NSD làm việc với các tập con tài liệu nay, nhưng nó không cần kết thúc ở đó
Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn
Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn Q đều được coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt Chiến lược đơn giản nhất như sau:
(24)*
Trong đó:
+ Dn là tài liệu xếp hạng cao nhất không liên quan;
+ R là tập tài liệu có liên quan
Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trong những tài liệu không liên quan ảnh hưởng đến truy vấn mới và bao hàm dự trữ sẵn cho truy vấn ban đầu nhằm ảnh hưởng đến tất cả truy vấn tiếp theo:
(25)*
trong đó:
, , và là các hằng trọng số (với 0);
R là tập con tài liệu có liên quan;
I là một tập con tài liệu không liên quan bởi vì đáp ứng của NSD với các phép lặp truy vấn