1. Trang chủ
  2. » Giáo án - Bài giảng

BAO CAO THU VIEN SO

44 540 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thư viện số
Tác giả Quách Tuấn Ngọc, Đỗ Quang Vinh
Trường học Đại học Carnegie Mellon
Chuyên ngành Công nghệ thông tin
Thể loại Báo cáo
Năm xuất bản 2008
Thành phố Hà Nội
Định dạng
Số trang 44
Dung lượng 324,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL  Hoạt động nghiên cứu DL ở Mỹ  Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số

Trang 3

World Wide Web đã xâm nhập vào cuộc sống hàng ngày

Giao diện cho Web tiến triển từ duyệt đến tìm kiếm

DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới

Tổng quan hoạt động nghiên cứu DL

Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới

Trọng tâm của các dự án DL

Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin

Trang 4

Về xã hội: khảo sát CSDL tài liệu và các vấn đề

xã hội liên quan tới DL

Hoạt động nghiên cứu DL ở Mỹ

Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh

2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự

án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế

Dự án thư viện số DLI:

Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU

Trang 5

Dự án dịch vụ thông tin số của Đại học California ở Berkeley

Dự án Alexandria của Đại học California ở Santa Barbara

Dự án Interspace của Đại học Illinois ở Champaign

Urbana- Dự án UMDL của Đại học Michigan

 Dự án InfoBus của Đại học Stanford

Các dự án DL chủ yếu khác ở Mỹ:

Thư viện quốc hội (Library of Congress)

Dự án công nghệ thư viện số DLT của NASA

Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ

Trang 6

Dự án thư viện số của IBM

Dự án thư viện số California CDL

Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)

Dự án MOA của hai Đại học Cornel và Michigan

Dự án Open Book của Đại học Yale

Dự án hợp tác Red Sage của Đại học California

ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag

Dự án TULIP của nhà xuất bản Elsevier Science Publisher

Trang 7

Hoạt động DL ở các nước khác:

Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch

sử, văn hoá và nghệ thuật:

Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand

Trang 8

 Việt Nam

Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin

Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi

Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam

Trang 9

Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin

Hiện nay, một số phần mềm được cài đặt:

Giải pháp thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam

Giải pháp thư viện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia

Hệ phần mềm thư viện số Greenstone của dự

án New Zealand Digital Library ở thư viện Đại

Trang 10

1 ĐỊNH NGHĨA

Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông

tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng.

Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một

thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu

Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL

là các kho dữ liệu mạng về tài liệu văn bản số, ảnh,

âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai.

Trang 11

Định nghĩa 1.4 (Sun Microsystems) [135]: DL là sự

mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống

Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là

các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì.

Tóm lại, thư viện số là một kho thông tin số khổng

lồ có tổ chức với các dịch vụ liên kết qua mạng

Thư viện số phân phát thông tin tốt hơn thư viện

truyền thống

Trang 12

LỢI ÍCH CỦA DL

1 Thư viện số mang thư viện đến người sử dụng

2 Máy tính được sử dụng để tìm kiếm và duyệt

3 Thông tin có thể được chia sẻ

4 Thông tin dễ dàng cập nhật hơn

5 Thông tin luôn sẵn có

6 Các dạng thông tin mới trở thành thực hiện được

7 Giá của DL

4 lĩnh vực kỹ thuật nổi bật đối với DL

1 Lưu trữ điện tử trở nên rẻ hơn giấy

2 Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn

3 Mạng tốc độ cao trở nên phổ biến

4 Máy tính trở nên di động

Trang 13

NGHIÊN CỨU TIN HỌC TRONG DL

1 Mô hình đối tượng

2 Giao diện NSD

3 Chỉ mục và Tìm kiếm thông tin

4 Quản trị và bảo trì CSDL

5 Tính liên tác

CHỈ MỤC & TÌM KIẾM THÔNG TIN

1 Siêu dữ liệu mô tả

2 Chỉ mục tự động

3 Xử lý ngôn ngữ tự nhiên

4 Tài liệu phi văn bản

Trang 14

Hình - Máy tính trong thư viện số (W.Y.Arms)

NSD

Kho lưu trữ

Hệ thống định vị Hệ thống tìm kiếm

Trang 15

Định nghĩa 1.23: Một không gian là một không gian

đo được, không gian độ đo, không gian xác suất,

không gian vector hoặc một không gian topo

Trang 16

5 Kịch bản

Định nghĩa 1.26: Một kịch bản là một dãy sự kiện

chuyển trạng thái liên quan (e 1 , e 2 , , e n ) trên tập

trạng thái S sao cho e k = (s k , s k+1 ) đối với 1  k  n

Định nghĩa 1.29: Một cộng đồng là một bộ (C, R),

trong đó:

C = {c 1 , c 2 , , c n } là một tập

của các cộng đồng khái niệm, mỗi một cộng đồng

quy về một tập cá thể có cùng lớp hoặc kiểu;

R = {r 1 , r 2 , , r n } là

một tập quan hệ, mỗi một quan hệ là một bộ r j = (e j ,

i j ) trong đó e j là một tích Đề các c k1 x c k2 x x c knj , 1

k 1 < k 2 < < k nj  n, định rõ các cộng đồng bị

dính vào quan hệ và i j là một hoạt động mô tả tương

tác hoặc truyền thông giữa các cá thể

Trang 17

7 Định nghĩa hình thức thư viện số

Định nghĩa 1.41: Một thư viện số là một bộ bốn

Trang 18

II CHỈ MỤC TÀI LIỆU VĂN BẢN

2.1 MỞ ĐẦU

Định nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là

một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số

Trang 19

Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu

trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó

Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là

một cách tìm kiếm thông tin

Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ

cho trước trong văn bản

Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục

Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống

Trang 20

Bảng 2.2 - Văn bản mẫu; mỗi dòng là một tài liệu

1 Information retrieval is searching and indexing

2 Indexing is building an index

3 An inverted file is an index

4 Building an inverted file is indexing

Trang 21

Bảng 2.3 - IF đối với văn bản của bảng 2.2

Trang 22

Định nghĩa 2.6: Độ hạt (granularity) của một chỉ mục là tính

chính xác để nhận dạng vị trí của thuật ngữ

Bảng 2.4 - IF mức từ đối với văn bản của bảng 2.2

Số Thuật ngữ (Tài liệu; từ)

Trang 23

Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn

bản Mỗi một tài liệu có một ký số liên kết, một xâu bit bắt nội

dung tài liệu theo một nghĩa nào đó

Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn

bằng cách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị

ma trận bit

Trang 24

2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC

Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số

Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng,

IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn

IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi

2.5 CÁC MÔ HÌNH NÉN IFID

2.5.1 Đặt vấn đề Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu trong thư viện số.

Chìa khoá của bài toán nén là nhận xét mỗi một IL có thể

được lưu trữ như một dãy số nguyên tăng dần.

Trang 25

2.5.2 Mô hình nén toàn cục

Mô hình không tham số

Mô hình Bernoulli toàn cục 2.5.3 Các mô hình nén cục bộ

Trang 26

2.5.4 Hiệu năng của các mô hình nén chỉ mục

Bảng 2.9 - Nén IF bằng số bit/con trỏ đối với TREC

Trang 27

NHẬN XÉT: các mô hình cục bộ có xu hướng thực

hiện nén tốt hơn mô hình toàn cục và không hiệu quả

hơn về thời gian xử lý đòi hỏi trong khi giải mã, vì

chúng có xu hướng cài đặt phức tạp hơn Đối với mục

Trang 28

III TÌM KIẾM THÔNG TIN

3.1 MỞ ĐẦU

Khảo sát hai kiểu truy vấn:

Truy vấn Boole BQ truyền thống

Truy vấn xếp hạng RQ

3.2 TRUY VẤN BOOLE BQ

3.2.1 Truy vấn BQ hội

3.2.2 Truy vấn BQ không hội

Dạng phổ biến khác là một phép hội của các phép tuyển:

(text OR data OR information) AND

(search OR seek) AND

(retrieval OR indexing)

Trang 29

Quá trình được hình thức hoá bằng một tích trong của

một vectơ truy vấn với một tập vectơ tài liệu

Độ tương tự của truy vấn Q với tài liệu D d được biểu diễn

như sau :

S(Q, Dd) = Q Dd (3.1)

trong đó: phép toán là phép tích trong

Tích trong của hai n-vectơ X = <x i > và Y = <y i > được định

X

Trang 30

3 các tài liệu dài với nhiều thuật ngữ

Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :

Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu

Ví dụ:

Tính độ tương tự đối với truy vấn mẫu trở thành

S(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) (1, 1, 1, 1, 0, 0, 0, 0)

= 2

Trang 31

Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán

S(Q, D d ) = Q . D d = (3.3)

Độ tương tự là tích trong của hai trọng số

S(Q, D d ) = (3.4)

Nếu hạng được coi là một độ đo tầm quan trọng thì trọng

w w

Trang 32

Nhân tử chuẩn hoá để không kể đến phần đóng góp của các

tài liệu dài Do đó, luật tích trong đánh giá độ tương tự bằng

(3.10)

trong đó là độ dài của tài liệu D d

3.3.3 Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

(3.11)

d

t , d t

, q Q

t d

D

w

w )

D , Q (

2 t d t

q

D , Q ( S

Trang 33

Hướng chỉ thị bởi 2 vectơ

(3.14)

Công thức có 2 hàm ý:

1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ

dài Euclide của tài liệu

2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng

2 i

n 1 i

2 i

n 1

y x

y x Y

X

Y X cos

Trang 34

Luật cosin đối với xếp hạng:

D Q

D Q )

D , Q

n 1

d q

w

∑ w W

d e q

d

d

f

N 1

log )

f log 1

( W

W

1 )

D , Q cos(

Trang 35

3.4 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM

3.4.1 Độ chính xác và độ phục hồi

Độ chính xác P của một phương pháp xếp hạng đối với

điểm cắt nào đó r là một phần trong số tài liệu xếp hạng

cao nhất r có liên quan đến truy vấn:

(3.19)

Độ phục hồi R của một phương pháp tại giá trị r nào đó

là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm

trong r cao nhất:

(3.20) tongso tailieu co lien quan

kiem tim

duoc quan

lien co

lieu tai

so

R 

kiem lieu tim

tai so tong

quan lien

co kiem lieu tim

tai so

P 

Trang 36

3.4.2 Đường cong độ phục hồi-độ chính xác

Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2

Do thi hieu suat tinh toan

50 100 150 200

do phuc hoi

Đuong cong P-R doi voi hang

0 20 40 60 80 100 120

R

P (%)

Trang 37

N 1

log )

f log 1

( W

W

1 )

D , Q cos(

Trang 38

Tìm kiếm r tài liệu dùng độ đo cosin,

Trang 39

Đặt Ad  Ad / Wd.

Bây giờ Ad tỉ lệ với giá trị cos(Q, Dd).

4 Đối với 1  i  r,

(a) Lựa chọn d sao cho Ad = max{A}.

(b) Dò tìm địa chỉ của tài liệu d.

(c) Tìm kiếm tài liệu d và trình bày với NSD.

(d) Đặt A  A - {Ad}.

Giải thuật 3.2 Tìm kiếm r tài liệu dùng độ đo cosin

Giải thuật nêu lên 3 điểm như sau:

1 W q bị bỏ qua vì W q là một hằng số

2 lượng lớn bộ nhớ được sử dụng

3 chỉ r << N tài liệu có mặt

Trang 40

1 Đưa ra một mô hình hình thức cho thư viện số dựa

vào đại số hiện đại: Một thư viện số là một bộ bốn

Trang 41

2 Phân tích chi tiết các phương pháp chỉ mục tài liệu

văn bản trong DL: phương pháp chỉ mục tệp đảo

IFID và phương pháp chỉ mục ký số SFID, so sánh

2 phương pháp chỉ mục, rút ra quy luật chỉ mục tài

liệu trong DL:Ở hầu hết ứng dụng, IF thực hiện tốt

hơn SF trong phạm vi của cả hai kích thước chỉ mục

và tốc độ truy vấn IF nén chắc chắn là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi Phân tích các mô hình nén toàn cục và mô hình nén cục bộ hyperbol, từ đó,

đề xuất mô hình nén cục bộ Bernoulli và nén nội suy đối với IFID dựa vào các phương pháp xác suất và

thống kê toán học, phương pháp mã hóa, phương

pháp nén dữ liệu .

Trang 42

3 Phân tích chi tiết mô hình tìm kiếm thông tin kinh

điển dựa vào truy vấn Boole BQ hiện đang được sử dụng trong hầu hết các hệ thư viện, chỉ ra nhược điểm của truy vấn BQ Từ đó, luận án đề xuất một

mô hình tìm kiếm văn bản dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ chính xác

P và độ phục hồi R.

4 Phân tích chi tiết các giải thuật kinh điển: giải thuật

đảo danh sách móc nối và giải thuật đảo dựa vào sắp xếp, chỉ ra hạn chế của chúng là chỉ thích hợp với các CSDL tài liệu văn bản cỡ nhỏ và vừa Từ đó, luận án

đề xuất hai giải thuật trộn nhiều đường tại chỗ dựa

vào sắp xếp và giải thuật phân chia dựa vào văn bản phù hợp với CSDL tài liệu văn bản cỡ lớn trong DL

Trang 43

1 Nghiên cứu các phương pháp chỉ mục

4 Nghiên cứu bài toán tóm tắt

và trích rút tài liệu văn bản trong DL.

Trang 44

Chân thành cám ơn !

Ngày đăng: 07/09/2013, 06:10

HÌNH ẢNH LIÊN QUAN

Hình - Máy tính trong thư viện số (W.Y.Arms) - BAO CAO THU VIEN SO
nh Máy tính trong thư viện số (W.Y.Arms) (Trang 14)
Bảng 2.3 - IF đối với văn bản của bảng 2.2 - BAO CAO THU VIEN SO
Bảng 2.3 IF đối với văn bản của bảng 2.2 (Trang 21)
Bảng 2.4 - IF mức từ đối với văn bản của bảng 2.2 - BAO CAO THU VIEN SO
Bảng 2.4 IF mức từ đối với văn bản của bảng 2.2 (Trang 22)
Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2 - BAO CAO THU VIEN SO
Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2 (Trang 36)

TỪ KHÓA LIÊN QUAN

w