1. Trang chủ
  2. » Giáo án - Bài giảng

TẬP BÀI GIẢNG MÔN THƯ VIỆN SỐ

34 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 646,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TẬP BÀI GIẢNG MÔN THƯ VIỆN SỐ TỔNG QUAN VỀ THƯ VIỆN SỐ DL MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL CHỈ MỤC TÀI LIỆU TÌM KIẾM THÔNG TIN CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE

Trang 1

BÀI GIẢNG THƯ VIỆN SỐ

Trang 2

NỘI DUNG

III CHỈ MỤC TÀI LIỆU

THƯ VIỆN SỐ GREENSTONE

Trang 3

4.1 MÔ HÌNH TÌM KIẾM THÔNG TIN

 Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin có liên quan tới nhu cầu thông tin của NSD

 Mô hình IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn

Cho

D = {d1, d2, , dM}, M  2 (4.1)

là một tập hữu hạn không rỗng đối tượng

 Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường Các đối tượng tiêu biểu là đại diện

Trang 4

Định nghĩa 4.1 (D)cấu trúc tìm kiếm thông tin):

Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, >(4.3)

Định nghĩa 4.1 là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm  và đối tượng

D Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và 

Trang 5

Định nghĩa 4.2 (D)mô hình tìm kiếm thông tin MIR):

Mô hình tìm kiếm thông tin MIR là một SIR S = <D, > với 2

thuộc tính sau đây:

+ (Dj)j  J = {1, 2, , M} là một họ cluster đối tượng, Dj  (O),

M  2;

Trang 7

+ ai = {  D| ãi(q, ) > i}, i = 1, , C là một i-lát cắt tiêu chuẩn mạnh ãi, i  0, q  D cố định tùy ý;

+  : D  (D) là một ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựa chọn -

đủ mạnh

Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định nghĩa dùng -lát cắt

Trang 8

Định nghĩa 4.3: R.B Yates và B.R Neto

Một mô hình tìm kiếm thông tin là một bộ bốn

Trang 9

Khảo sát 3 kiểu truy vấn:

 Truy vấn Boole BQ truyền thống;

 Truy vấn xếp hạng RQ;

 Mô hình tìm kiếm thông tin xác suất

4.2 TRUY VẤN BOOLE BQ

4.2.1 Truy vấn BQ hội

Dạng t1 AND t2 AND AND tr

4.2.2 Truy vấn BQ không hội

Dạng phổ biến khác là một phép hội của các phép tuyển:

(text OR data OR information) AND

(search OR seek) AND

(retrieval OR indexing)

Trang 10

Quá trình được hình thức hoá bằng một tích trong của một

vectơ truy vấn với một tập vectơ tài liệu

Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau:

S(D)Q, D d ) = Q . D d (4.5) trong đó: phép toán . là phép tích trong

Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:

i i i

yxY

.X

Trang 11

Bảng 4.1 – Các vectơ đối với tính toán tích trong

(a) Vectơ tài liệu, (b) Vectơ truy vấn.

Trang 12

3 Các tài liệu dài với nhiều thuật ngữ

Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá

“có” hoặc “không” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu

Trang 13

Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :

Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu

Ví dụ:

Tính độ tương tự đối với truy vấn mẫu trở thành

S(information retrieval, D1)

= (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2

vì tài liệu D1 chứa information 1 lần và retrieval 1 lần

 Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một

trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác

wq,t trong vectơ truy vấn

Trang 14

 Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:

S(Q, Dd) = Q . Dd = (4.7)

Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau: S(Q, Dd) = (4.8)

Bài toán 2 không tính đến các thuật ngữ khó tìm

Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF

t d, t

q, w w

Trang 15

 Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau:

(4.9)

trong đó: ft là số tài liệu chứa thuật ngữ t

 Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:

1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t

để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một số cách khác nhau

2 Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh

w 

Trang 16

Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo

Các vectơ tài liệu được tính như sau:

wd,t = rd,t (4.12)hoặc wd,t = rd,t wt (TF x IDF)

 Chú ý:

+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra tên của chúng Một heuristic độ tương tự được

gọi là “TF x IDF” bất kỳ khi dùng tần suất thuật ngữ fd,t tăng đều

và tần suất tài liệu của thuật ngữ ft giảm đều

+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự

Trang 17

Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài

liệu dài Do đó, luật tích trong đánh giá độ tương tự bằng

(4.14)

trong đó là độ dài của tài liệu Dd

d

t , d t

, q Q

t d

D

w

w )

D , Q (

Trang 18

4.3.3 Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

(4.15)

Hướng chỉ thị bởi 2 vectơ

(4.18)

Công thức có 2 hàm ý:

1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài

Euclide của tài liệu

2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng

2 i

n 1 i

2 i

n 1

y x

y x Y

X

Y

X cos

n 1 t

2 t d t

q

D , Q ( S

Trang 19

Luật cosin đối với xếp hạng:

(4.19)trong đó

DQ

D

Q)

D,Q

n 1

d q

w

∑wW

t

e t

d e q

d

d

f

N1

log)

flog1

(W

W

1)

D,Qcos(

n 1 t

2 t, d

2 t, q

q

Trang 20

4.4 ĐỘ ĐO COSIN

4.4.1 Tần suất bên trong tài liệu

4.4.2 Tính độ đo cosin

Xét lại công thức (4.22) đối với độ đo cosin:

4.4.3 Bộ nhớ dành cho trọng số tài liệu

N 1

log )

f log 1

( W

W

1 )

D , Q cos(

Trang 22

(a) Lựa chọn d sao cho Ad = max{A}.

(b) Dò tìm địa chỉ của tài liệu d.

(c) Tìm kiếm tài liệu d và trình bày với NSD.

Trang 23

4.5 MÔ HÌNH TÌM KIẾM THÔNG TIN XÁC SUẤT

(probability ranking principle):

Nếu đáp ứng của một hệ tìm kiếm thông tin với mỗi một yêu cầu của NSD là một dãy các tài liệu sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các xác suất ở đây được đánh giá là

độ chính xác có thể trên CSDL có sẵn thì toàn bộ hiệu quả của

hê đối với NSD sẽ là tốt nhất trên CSDL đó

Định nghĩa 4.4 (D)PIR):

Mô hình tìm kiếm thông tin xác suất PIR là một MIR S = <D,

> thỏa mãn điều kiện sau đây:

Chúng ta lấy C = 2 là vì ở mô hình IR xác suất truyền thống có 2 tiêu chuẩn: có liên quan và không liên quan

Trang 24

lại như sau:

Mô hình tìm kiếm thông tin xác suất PIR là

một MIR S = <D, >

trong đó:

C = 2 và

(q) = {|ãi(q,)  ãj(q, )}, j = i + (-1)i+1, ãi(q, ) > i} (4.30)

(D)mô hình tìm kiếm thông tin xác suất kinh điển)

Cho D là một tập tài liệu, q  D một truy vấn và P(R|(q, d)) xác suất tài liệu d  D là có liên quan /không liên quan với truy vấn

q tương ứng Cho R(q) là tập tài liệu tìm kiếm đáp ứng truy vấn

q Một tài liệu d được lựa chọn đáp ứng một truy vấn q nếu

P(D)R|(D)q, d))  P(D)I|(D)q, d)) (Luật quyết định Bayes)

(4.31)

Trang 25

nghĩa là,

khi nó được xét có liên quan và không liên quan tới q tương ứng

Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q  D và hai tiêu chuẩn ã1 và ã2 là liên quan và không liên quan tương ứng

thỏa mãn tiêu chuẩn ãi liên quan tới q

Mô hình tìm kiếm thông tin xác suất PIR là

một MIR S = <D, >

trong đó: (q) = {|ã1(q,)  ã2(q, )}, ã1(q, ) > 1} (4.33)

Trang 26

Thuật ngữ t

vắng mặt R - Rt N - ft - (R - Rt) N - ft

Trang 27

P [thuật ngữ t có mặt | không liên quan] = (ft – Rt) / (N – R)

)RR/(

Rw

t t

t t

t

t t

Trang 28

SỰ PHẢN HỒI LIÊN QUAN

 Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm

 Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn

Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn

Q đều được coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt Chiến lược đơn giản nhất như sau:

(4.39)trong đó:

+ Dn là tài liệu xếp hạng cao nhất không liên quan;

+ R là tập tài liệu có liên quan

Q 1

Trang 29

 Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trong những tài liệu không liên quan ảnh hưởng đến truy vấn mới và bao hàm dự trữ sẵn cho truy vấn ban đầu nhằm ảnh hưởng đến tất cả truy vấn tiếp theo:

(4.40)trong đó:

, ,  và  là các hằng trọng số (với   0);

R là tập con tài liệu có liên quan;

I là một tập con tài liệu không liên quan bởi vì đáp ứng của NSD với các phép lặp truy vấn

d R

d

d i

0 1

Q

Trang 30

4.6 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM

4.6.1 Độ chính xác và độ phục hồi

Độ chính xác P của một phương pháp xếp hạng đối với điểm

cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn:

(4.41)

Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ

của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất:

(4.42)

quan lien

co lieu tai

so tong

kiem tim

duoc quan

lien co

lieu tai

so

R 

kiem lieu tim

tai so tong

quan lien

co kiem lieu tim

tai so

P 

Trang 31

NT là tổng số tài liệu có liên quan tới một truy vấn q, NT  0;

| (q) | =  là số tài liệu tìm kiếm được đáp ứng q,   0;

NR là số tài liệu có liên quan tìm kiếm được

Định đề: Tỉ số giữa độ phục hồi và độ chính xác R / P thay đổi

tuyến tính đối với 

R 

Trang 32

4.6.2 Đường cong độ phục hồi-độ chính xác

Hình 4.1 – Đường cong P-R đối với hạng của bảng 3.2

Do thi hieu suat tinh toan

0 50 100 150 200

R

P (%)

Trang 33

1 Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm,

Nxb Đại học Quốc gia Hà Nội

2 Lourdes T.D (2006), Thư viện số và truy cập mở tài liệu lưu

trữ, Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội.

3 The 10th International Conference on Digital Libraries (2007),

Asian Digital Libraries: Looking Back 10 years and Forging New Frontiers, Ha Noi

4 Tài liệu hướng dẫn cài đặt, sử dụng và phát triển của hệ phần mềm thư viện số Greenstone

5 Arms W.Y (2003), Digital Libraries, MIT Press, Cambridge.

6 Fox E.A (2000), Advanced Digital Libraries, Virginia

Polytechnic Institue and State University

7 Lesk M (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco

8 Witten I.H., Bainbridge D (2003), How to Build a Digital

Library, Morgan Kaufmann, San Francisco.

Trang 34

KẾT THÚC ! TRÂN TRỌNG CÁM ƠN !

Ngày đăng: 04/05/2021, 21:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Thư viện số - Chỉ mục và Tìm kiếm
Tác giả: Đỗ Quang Vinh
Nhà XB: Nxb Đại học Quốc gia Hà Nội
Năm: 2009
2. Lourdes T.D. (2006), Thư viện số và truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình và nnk biên dịch, UNESCO, Hà Nội Sách, tạp chí
Tiêu đề: Thư viện số và truy cập mở tài liệu lưu trữ
Tác giả: Lourdes T.D
Năm: 2006
3. The 10th International Conference on Digital Libraries (2007), Asian Digital Libraries: Looking Back 10 years and Forging New Frontiers, Ha Noi Sách, tạp chí
Tiêu đề: Asian Digital Libraries: Looking Back 10 years and Forging New Frontiers
Tác giả: The 10th International Conference on Digital Libraries
Năm: 2007
5. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge Sách, tạp chí
Tiêu đề: Digital Libraries
Tác giả: Arms W.Y
Năm: 2003
6. Fox E.A. (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University Sách, tạp chí
Tiêu đề: Advanced Digital Libraries
Tác giả: Fox E.A
Năm: 2000
7. Lesk M. (2005), Understanding Digital Libraries, 2 nd Edition, Morgan Kaufmann, San Francisco Sách, tạp chí
Tiêu đề: Understanding Digital Libraries
Tác giả: Lesk M
Năm: 2005
8. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco Sách, tạp chí
Tiêu đề: How to Build a Digital Library
Tác giả: Witten I.H., Bainbridge D
Năm: 2003
4. Tài liệu hướng dẫn cài đặt, sử dụng và phát triển của hệ phần mềm thư viện số Greenstone Khác

TỪ KHÓA LIÊN QUAN

w