Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số

BÀI TẬP Môn: Thư viện số “Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số” NỘI DUNG I. TÌM KIẾM THÔNG TIN 1.1 Mô hình tìm kiếm thông tin 1.2 Truy vấn Boole BQ 1.3 Truy vấn xếp hạng RQ 1.4 Độ đo Cosin 1.5 Mô hình tìm kiếm thông tin xác suất 1.6 Hiệu suất tìm kiếm

Trang 1

BÀI TẬP

Môn: Thư viện số

“Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số”

NỘI DUNG

I TÌM KIẾM THÔNG TIN

I.1 Mô hình tìm kiếm thông tin

I.2 Truy vấn Boole BQ

I.3 Truy vấn xếp hạng RQ

I.4 Độ đo Cosin

I.5 Mô hình tìm kiếm thông tin xác suất

I.6 Hiệu suất tìm kiếm

1.1 MÔ HÌNH TÌM KIẾM THÔNG TIN

Trang 2

Tìm kiếm thông tin (IR) đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin

có liên quan tới nhu cầu thông tin của NSD

Mô hình tìm kiếm thông tin IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn

Cho

D = {d1, d2, , dM}, M  2 (1)*

là một tập hữu hạn không rỗng đối tượng, M là số tài liệu

 Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường Các đối tượng tiêu biểu là đại diện

Cho  là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó (D), nghĩa

là,

 : D  (D) (2)*

Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm , chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau: (3 định nghĩa)

 Định nghĩa 1 (cấu trúc tìm kiếm thông tin):

Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, > (3)*

Đây là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệtcủa ánh xạ tìm kiếm  và đối tượng D Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và 

 Định nghĩa 2 (mô hình tìm kiếm thông tin MIR):

 Mô hình tìm kiếm thông tin MIR là một SIR S = <D, > với 2 thuộc tính sau đây:

a q =   ãi(q, ) = 1 i, q,  (tính phản xạ);

Trang 3

b i (q) = {  D| ãi(q, ) = max ãk(q, k)} ai, i cố định tùy ý.

Trong đó:

+ T = {t1, t2, , tN} là một tập hữu hạn thuật ngữ chỉ mục, N  1;

+ O = {o1, o2, , oU} là một tập hữu hạn đối tượng, U  2;

+ (Dj)j  J = {1, 2, , M} là một họ cluster ( nhóm) đối tượng, Dj  (O), M

 2;

+ D = {j| j  J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa j = {(tk ,

j(tk))| tk  T, k = 1, , N}, j = 1, , M, j : T  S  [0, 1]  R là đại diệncluster của cluster đối tượng Dj

+ A = {ã1, , ãC} là một tập hữu hạn tiêu chuẩn, C  1, trong đó ãi = {((q,

j), ãi(q, j)) | j D, j =1, , M}, i = 1, , C là một quan hệ mờ chuẩn hóa,

  : D  (D) là một ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựa chọn - đủ mạnh

Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định nghĩa dùng -lát cắt

 Định nghĩa 3: R.B Yates và B.R Neto

Một mô hình tìm kiếm thông tin là một bộ bốn [ D, Q, F, R(qi, dj) ]

Trong đó

Trang 4

+ D là một tập các tài liệu;

+ Q là một tập hợp các truy vấn của NSD;

+ F là một khung mô hình hóa các biểu diễn tài liệu, truy vấn và các quan hệ giữa chúng;

+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi

 Q và một biểu diễn tài liệu dj  D Hàm sắp xếp xác định thứ tự giữa các tài liệu đối với truy vấn qi

Khảo sát 3 kiểu truy vấn :

 Truy vấn Boole BQ truyền thống;

 Truy vấn xếp hạng RQ;

 Mô hình tìm kiếm thông tin xác suất

1.2 TRUY VẤN BOOLE BQ TRUYỀN THỐNG

Đây là kiểu truy vấn đơn giản nhất, trong đó các thuật ngữ được tổ hợp với các phép toán AND, OR, và NOT

Quá trình truy vấn dùng một IFID là tương đối trực tiếp từ vựng được tìm kiếm đối với mỗi một thuật ngữ, mỗi một IL được tìm kiếm và giải mã, và các danh sáchđược trộn, lấy giao, hoặc là bù như thích hợp

Cuối cùng, các tài liệu chỉ mục như vậy được tìm kiếm và hiển thị với NSD như danh sách câu trả lời Đối với một truy vấn điển hình có 5 ÷ 10 thuật ngữ, 1 giây hoặc như vậy bị mất thời gian đọc và giải mã các IL; sau đó

Gồm

 1.1 Truy vấn BQ hội

Giả sử truy vấn là một phép hội, bao gồm các thuật ngữ kết nói với phép toán AND

Dạng t1 AND t2 AND AND tr

 1.2 Truy vấn BQ không hội

Dạng phổ biến khác là một phép hội của các phép tuyển:

(text OR data OR information) AND

Trang 5

(search OR seek) AND

(retrieval OR indexing)

 Ở đây các thuật ngữ bao gồm mỗi một liên kết có thể xử lý đồng thời

=> Đánh giá:

Hiện nay, hầu hết các hệ thống tìm kiếm IR thông tin hiện có trong thư viện sử

dụng truy vấn Boole BQ, nhưng xử lí không chính xác truy vấn Boole không hội,

phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất Nếu tập con tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích hợp, đó là nguyên nhân BQ thành công ở các hệ thống tìm kiếm thư mục Tuy nhiên yêu cầu tin thường biết ít chính xác hơn

1.3 TRUY VẤN XẾP HẠNG RQ

Hiện nay hầu hết các hệ thống tìm kiếm thông tin IR hiện có trong thư viện sử dụng truy vấn Boole BQ, nhưng xử lý không chính xác truy vấn Boole không hội, phức tạp BQ không phải là phương pháp tìm kiếm thông tin duy nhất

Nếu tập cong tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắcchắn thích hợp Tuy nhiên yêu cầu thông tin thường biết ít chính xác hơn

1.3.1 So khớp toạ độ

Đếm số thuật ngữ truy vấn xuất hiện trong mỗi 1 tài liệu.Càng nhiều thuật ngữ xuấthiện hơn, càng có nhiều khả năng hơn tài liệu là có liên quan Truy vấn thành mộttruy vấn lai, trung gian giữa một truy vấn hội AND và một truy vấn

tuyển OR: một tài liệu chứa bất kỳtrong sốthuật ngữ được xem như một câu trả lờitiềm năng, nhưng sự ưu tiên được cho các tài liệu chứa tất cả hoặc hầu hết chúng.Tất cả thông tin cần thiết nằm trong IF và cài đặt tương đối dễ

Xét 4 tài liệu trình bày ở bảng 1 Đối với truy vấn searching, tài liệu 1 là câu trả lờitốt nhất và duy nhất Nhưng về truy vấn information retrieval? Ở ngữ cảnh BQ hội,tài liệu 1 là câu trả lời duy nhất Nhưng 3 tài liệu khác có thể có liên quan và so

Trang 6

khớp toạ độ tạo ra xếp hạng D1> D2= D3= D4= 0 Các tài liệu chỉ chứa một trong

số thuật ngữ có sẵn khi trả lời, NSD nên kiểm tra

trong đó: phép toán . là phép tích trong

Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:

(5)*

 Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc

“không” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu

 Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :

Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu

 Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn

1 Information retrieval issearching and indexing

2 Indexing is building an index

3 An inverted file is an index

4 Building an inverted file is indexing

Trang 7

 Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:

S(Q, Dd) = Q . Dd = (6)*

Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau:

S(Q, Dd) = (7)*

 Bài toán 2 không tính đến các thuật ngữ khó tìm

Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF

 Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số

wt của một thuật ngữ t được tính như sau:

(8)*

trong đó: ft là số tài liệu chứa thuật ngữ t

 Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:

1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một

Trang 8

Không công thức nào ở trên là khả năng duy nhất được dùng đối với

wt , thành phần IDF

 Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo

Các vectơ tài liệu được tính như sau:

+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự

 Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài Do

đó, luật tích trong đánh giá độ tương tự bằng

(10)*

trong đó là độ dài của tài liệu Dd

1.3.4 Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

(11)*

Điều quan tâm là hướng chỉ thị của 2 vecto hay chính xác hơn là sự khác nhau về hướng, không kể độ dài, hơn nữa là góc giữa 2 vecto

Trang 9

Hướng chỉ thị bởi 2 vectơ

(12)*

Công thức có 2 hàm ý: 1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu 2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng Luật cosin đối với xếp hạng: (13)*

trong đó (14)*

là độ dài Euclide – trọng số – của tài liệu d và (15)*

là trọng số của truy vấn q Độ tương tự: (16)*

1.4 ĐỘ ĐO COSIN

Đo độ cosin nhiều thông tin hơn được yêu cầu so với xử lý BQ và được thực hiện các quyết định về thông tin này

1.4.1 Tần suất bên trong tài liệu

Giả sử truy vấn Q nào đó được dùng để xếp hạng 1 CSDL tài liệu.Tần suất thuật ngữ fts từ vựng thì đối với hầu hết luật gán trọng số thuật ngữ mô tả, trọng số tài liệu - thuật ngữ wd,t có thể được tính với điều kiện là fd,t đã biết, vì Ngía trị khác duy nhất là toàn cục Vì vậy, fd,t có thể được lưu trữ trong danh sách đảo (IL) cùng với số tài liệu d

Trang 10

Lưu ý: Dù cho ft về mặt logic là 1 trường trong danh sách đảo , có nhiều khă nănghơn được lưu trữ trong từ vựng cùng với thuật ngữ t, địa chỉ tệp đảo It và nếu nóđược lưu trữ rõ ràng và không được trích dẫn trọng số thuật ngữ wt.

Mỗi một danh sách đảo phải chứa các giá trị fd,t Thực tế mã đơn nguyên là mộtphương pháp hiệu quả để nén các tần suất bên trong tài liệu Là lý tưởng để biểudiễn các giá trị tần suất bên trong tài liệu fd,t Nếu một từ xuất hiện một lần trongmột tài liệu, nó yêu cầu một mã 1 bit; nếu nó xuất hiện hai lần, một mã 2 bit…Thực tế IL đối với thuật ngữ t tăng lên bằng 1 số bit đúng bằng tổng số 2 lần xuấthiện của thuật ngữ đó trong toàn bộ CSDL Ft là tổng số lần xuất hiện của thuậtngữ t, sự xuất hiện trùng lặp được tính:

Ft d,t

Sau đó

t = Ftrong đó F là tổng số từ trong CSDL

Vì một mã đơn nguyên đối với x yêu cầu x bit, IL đối với thuật ngữ t tăng lên bằngđúng Ft bit và IF tổng tăng lên đúng bằng F bit

Hàng tần suất quan sát tương ứng với một mã Huffman toàn cục dựa vào tần suấtthực của mỗi một số đã mã hóa, như vậy nó biểu diễn tốt nhất rằng trong bất kìtrong số mã hóa này có thể đạt được

Bảng 2: Cộng thêm thông tin tần suất, bit/giây đối với TREC

Trang 11

γ là phương pháp lựa chọn nếu một mã đơn giản được dùng làm phương pháp nộisuy là lựa chọn thích hợp nếu làm giảm kích thước chỉ mục, là mối quan tâm bao

Mỗi một số tài liệu xuất hiện trong một IL tạo ra 1 phần đóng góp cosin được cộngvào thanh tích lũy Mỗi một tài liệu chứa bất kỳ trong số thuật ngữ truy vấn kếtthúc với một thanh tích lũy khác 0.Tất cả phần đóng góp cosinđược tích lũy mộtlần, chúng được chuẩn hóa bằng các trọng số tài liệu tương ứng vào trong các giátrị tỉ lệ với độ cosin Cuối cùng chọn r lớn nhất trong tất cả các giá trị, tìm kiếm vàhiển thị các tài liệu chũng biểu diễn

Tìm kiếm r tài liệu dùng độ đo cosin:

ii Đối với mỗi một Ad A,∊

Trang 12

Đặt Ad  Ad / wd.Bây giờ Ad tỉ lệ với giá trị cos(Q,Dd).

3 Đối với 1 ≤ i ≤ r,

a) Lựa chọn d sao cho Ad = max {A}

b) Dò tìm địa chỉ của tài liệu d

c) Tìm kiếm tài liệu d và trình bày với NSD

tích lũy vào trong các giá trị cosin, toàn bộ tệp trọng số sau đó phải được đọc

 Phương pháp khác được đề xuất nhằm loại trừ bộ nhớ yêu cầu bởi trong số tài liệu là lưu trữ fd,t /Wd thay cho fd,t trong IL, sao cho giá trị tích lũy trong Ad

có cùng tỷ lệ bằng Wd tuy nhiên khi IF được lưu trữ nén, điều này là cực kì đắt

 Như một thỏa hiệp giữa các trường hợp cực đoan tất cả trong bộ nhớ và tất cả trên đĩa, nếu lượng hạn chế nào đó của bộ nhớ chính có sẵn, có thể lưu trữ các trọng số gần đúng trong bộ nhớ và dùng chúng để hướng dẫn truy cập vào trong một tệp trên đĩa lưu trữ các trọng số tài liệu chính xác

1.4.3 Sắp xếp

Thành phần cuối cùng của qúa trình xếp hạng là sắp xếp Nhiều cơ chế được đề xuất để làm giảm thời gian sắp xếp, như là sắp xếp chỉ các thanh tích lũy khác 0, trong nhiều trường hợp, tập A có thể chứa các thanh tích lũy chỉ đối với một phần nhỏ trong số tài liệu, đặc biệt nếu với các số của chúng bị hạn chế giả tạo để tiết kiệm không gian, như đã đề xuất ở trên Ngay cả với một phần tương đối lớn trong

số thanh tích lũy khác 0- thời gian sắp xếp có thể được giảm nhiều 10%

Trang 13

Tuy nhiên một cách tiếp cận đơn giản hơn, đó là phương pháp nhận xét số tài liệu rđược biểu thị rất nhỏ so với N ở hầu hết trường hợp và trích lọc r << N giá trị lớn nhất từ một tâp hoàn toàn là một định đề khác với sắp xếp toàn bộ tập hợp.

1.5 MÔ HÌNH TÌM KIẾM THÔNG TIN XÁC SUẤT

 Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probability

ranking principle):

Nếu đáp ứng của một hệ tìm kiếm thông tin với mỗi một yêu cầu của NSD làmột dãy các tài liệu sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các xác suất ở đây được đánh giá là độ chính xác có thể trên CSDL có sẵn thì toàn bộ hiệu quả của hê đối với NSD sẽ là tốt nhất trên CSDL đó

 Mô hình tìm kiếm thông tin xác suất như sau:

Định nghĩa 1.5.1 (PIR)

Mô hình tìm kiếm thông tin xác suất PIR là một MIR S = <D, > thỏa mãn điều kiện sau đây:

C = 2 (16)*

Chúng ta lấy C = 2 là vì ở mô hình IR xác suất truyền thống có 2 tiêu chuẩn:

có liên quan và không liên quan ( tài liệu có liên quan và không liên quan)

Định nghĩa 1.5.2 (PIR): định nghĩa 1.5.1có thể được định nghĩa lại như sau:

Mô hình tìm kiếm thông tin xác suất PIR là

một MIR S = <D, >

trong đó: C = 2 và

(q) = {|ãi(q,)  ãj(q, )}, j = i + (-1)i+1, ãi(q, ) > i} (17)*

Định nghĩa 1.5.3 (mô hình tìm kiếm thông tin xác suất kinh điển)

Cho D là một tập tài liệu, q  D một truy vấn và P(R|(q, d)) xác suất tài liệu

d  D là có liên quan /không liên quan với truy vấn q tương ứng Cho R(q) là tập

Trang 14

tài liệu tìm kiếm đáp ứng truy vấn q Một tài liệu d được lựa chọn đáp ứng một truyvấn q nếu

P(R|(q, d))  P(I|(q, d)) (Luật quyết định Bayes) (18)*

nghĩa là,

R(q) = {d| P(R|(q, d))  P(I|(q, d))} (19)*

 Chính xác hơn, P(R|(q, d)) và P(I|(q, d)) là xác suất liên đới tới d khi nó được xét có liên quan và không liên quan tới q tương ứng

 Đánh giá P(R|(q, d)) và P(I|(q, d)) dựa vào công thức Bayes

Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q  D và hai tiêu chuẩn ã1 và ã2 là liên quan và không liên quan tương ứng Cho ãi(q, ), i = 1, 2 là mức độ mà một đối tượng bất kỳ d  D thỏa mãn tiêu chuẩn ãi liên quan tới q

Trang 15

 Các xác suất có điều kiện có thể được đánh giá từ bảng 4.4

P [có liên quan | thuật ngữ t có mặt] = Rt / ft (21)*

P [thuật ngữ t có mặt | không liên quan] = (ft – Rt) / (N – R)

 trọng số wt đối với thuật ngữ t nhận được dùng công thức Bayes:

(23)*

Trong đó các giá trị lớn hơn 1chir thị sự xuất hiện của thuật ngữ t nên được lấy như

là trợ giúp cho giả thuyết tài liệu là có liên quan và các giá trị nhỏ hơn 1 chỉ thị sự xuất hiện của thuật ngữ giả thiết tài liệu là không liên quan

 SỰ PHẢN HỒI LIÊN QUAN

Trang 16

 Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm Giả sử một truy vấn Qo được đưa ra với mọt hệ tìm kiếm và một số tài liệu được trả lại sau đó người sử dụng khảo sát một số hoặc tất cả chúng và quyết địnhlà chúng có, hoặc không liên quan Trong một môi trường xử lý theo lô, đây là điểm cuối của quá trình- hệ thống cho phép chỉ định các tài liệu có liên quan

và sau đó, không thực sự nghi ngờ sự lựa chọn này, NSD làm việc với các tập con tài liệu nay, nhưng nó không cần kết thúc ở đó

 Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn

Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn Q đều được coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt Chiến lược đơn giản nhất như sau:

(24)*

Trong đó:

+ Dn là tài liệu xếp hạng cao nhất không liên quan;

+ R là tập tài liệu có liên quan

 Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trong những tài liệu không liên quan ảnh hưởng đến truy vấn mới và bao hàm dự trữ sẵn cho truy vấn ban đầu nhằm ảnh hưởng đến tất cả truy vấn tiếp theo:

(25)*

trong đó:

, ,  và  là các hằng trọng số (với   0);

R là tập con tài liệu có liên quan;

I là một tập con tài liệu không liên quan bởi vì đáp ứng của NSD với các phép lặp truy vấn

Định dạng
Số trang	21
Dung lượng	108,89 KB