Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL Hoạt động nghiên cứu DL ở Mỹ Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số
Trang 3World Wide Web đã xâm nhập vào cuộc sống hàng ngày
Giao diện cho Web tiến triển từ duyệt đến tìm kiếm
DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới
Tổng quan hoạt động nghiên cứu DL
Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới
Trọng tâm của các dự án DL
Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin
Trang 4 Về xã hội: khảo sát CSDL tài liệu và các vấn đề
xã hội liên quan tới DL
Hoạt động nghiên cứu DL ở Mỹ
Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh
2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự
án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế
Dự án thư viện số DLI:
Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU
Trang 5Dự án dịch vụ thông tin số của Đại học California ở Berkeley
Dự án Alexandria của Đại học California ở Santa Barbara
Dự án Interspace của Đại học Illinois ở Champaign
Urbana- Dự án UMDL của Đại học Michigan
Dự án InfoBus của Đại học Stanford
Các dự án DL chủ yếu khác ở Mỹ:
Thư viện quốc hội (Library of Congress)
Dự án công nghệ thư viện số DLT của NASA
Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ
Trang 6 Dự án thư viện số của IBM
Dự án thư viện số California CDL
Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)
Dự án MOA của hai Đại học Cornel và Michigan
Dự án Open Book của Đại học Yale
Dự án hợp tác Red Sage của Đại học California
ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag
Dự án TULIP của nhà xuất bản Elsevier Science Publisher
Trang 7 Hoạt động DL ở các nước khác:
Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch
sử, văn hoá và nghệ thuật:
Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand
Trang 8 Việt Nam
Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin
Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi
Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam
Trang 9 Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin
Hiện nay, một số phần mềm được cài đặt:
Giải pháp thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam
Giải pháp thư viện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia
Hệ phần mềm thư viện số Greenstone của dự
án New Zealand Digital Library ở thư viện Đại
Trang 101 ĐỊNH NGHĨA
Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông
tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng.
Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một
thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu
Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL
là các kho dữ liệu mạng về tài liệu văn bản số, ảnh,
âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai.
Trang 11 Định nghĩa 1.4 (Sun Microsystems) [135]: DL là sự
mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống
Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là
các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì.
Tóm lại, thư viện số là một kho thông tin số khổng
lồ có tổ chức với các dịch vụ liên kết qua mạng
Thư viện số phân phát thông tin tốt hơn thư viện
truyền thống
Trang 12 LỢI ÍCH CỦA DL
1 Thư viện số mang thư viện đến người sử dụng
2 Máy tính được sử dụng để tìm kiếm và duyệt
3 Thông tin có thể được chia sẻ
4 Thông tin dễ dàng cập nhật hơn
5 Thông tin luôn sẵn có
6 Các dạng thông tin mới trở thành thực hiện được
7 Giá của DL
4 lĩnh vực kỹ thuật nổi bật đối với DL
1 Lưu trữ điện tử trở nên rẻ hơn giấy
2 Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn
3 Mạng tốc độ cao trở nên phổ biến
4 Máy tính trở nên di động
Trang 13NGHIÊN CỨU TIN HỌC TRONG DL
1 Mô hình đối tượng
2 Giao diện NSD
3 Chỉ mục và Tìm kiếm thông tin
4 Quản trị và bảo trì CSDL
5 Tính liên tác
CHỈ MỤC & TÌM KIẾM THÔNG TIN
1 Siêu dữ liệu mô tả
2 Chỉ mục tự động
3 Xử lý ngôn ngữ tự nhiên
4 Tài liệu phi văn bản
Trang 14Hình - Máy tính trong thư viện số (W.Y.Arms)
NSD
Kho lưu trữ
Hệ thống định vị Hệ thống tìm kiếm
Trang 15Định nghĩa 1.23: Một không gian là một không gian
đo được, không gian độ đo, không gian xác suất,
không gian vector hoặc một không gian topo
Trang 165 Kịch bản
Định nghĩa 1.26: Một kịch bản là một dãy sự kiện
chuyển trạng thái liên quan (e 1 , e 2 , , e n ) trên tập
trạng thái S sao cho e k = (s k , s k+1 ) đối với 1 k n
Định nghĩa 1.29: Một cộng đồng là một bộ (C, R),
trong đó:
C = {c 1 , c 2 , , c n } là một tập
của các cộng đồng khái niệm, mỗi một cộng đồng
quy về một tập cá thể có cùng lớp hoặc kiểu;
R = {r 1 , r 2 , , r n } là
một tập quan hệ, mỗi một quan hệ là một bộ r j = (e j ,
i j ) trong đó e j là một tích Đề các c k1 x c k2 x x c knj , 1
k 1 < k 2 < < k nj n, định rõ các cộng đồng bị
dính vào quan hệ và i j là một hoạt động mô tả tương
tác hoặc truyền thông giữa các cá thể
Trang 177 Định nghĩa hình thức thư viện số
Định nghĩa 1.41: Một thư viện số là một bộ bốn
Trang 18II CHỈ MỤC TÀI LIỆU VĂN BẢN
2.1 MỞ ĐẦU
Định nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là
một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số
Trang 19 Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu
trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó
Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là
một cách tìm kiếm thông tin
Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ
cho trước trong văn bản
Định nghĩa 2.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục
Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống
Trang 20Bảng 2.2 - Văn bản mẫu; mỗi dòng là một tài liệu
1 Information retrieval is searching and indexing
2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing
Trang 21Bảng 2.3 - IF đối với văn bản của bảng 2.2
Trang 22 Định nghĩa 2.6: Độ hạt (granularity) của một chỉ mục là tính
chính xác để nhận dạng vị trí của thuật ngữ
Bảng 2.4 - IF mức từ đối với văn bản của bảng 2.2
Số Thuật ngữ (Tài liệu; từ)
Trang 23 Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn
bản Mỗi một tài liệu có một ký số liên kết, một xâu bit bắt nội
dung tài liệu theo một nghĩa nào đó
Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn
bằng cách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị
ma trận bit
Trang 242.4 SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC
Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số
Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng,
IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn
IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi
2.5 CÁC MÔ HÌNH NÉN IFID
2.5.1 Đặt vấn đề Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu trong thư viện số.
Chìa khoá của bài toán nén là nhận xét mỗi một IL có thể
được lưu trữ như một dãy số nguyên tăng dần.
Trang 252.5.2 Mô hình nén toàn cục
Mô hình không tham số
Mô hình Bernoulli toàn cục 2.5.3 Các mô hình nén cục bộ
Trang 262.5.4 Hiệu năng của các mô hình nén chỉ mục
Bảng 2.9 - Nén IF bằng số bit/con trỏ đối với TREC
Trang 27 NHẬN XÉT: các mô hình cục bộ có xu hướng thực
hiện nén tốt hơn mô hình toàn cục và không hiệu quả
hơn về thời gian xử lý đòi hỏi trong khi giải mã, vì
chúng có xu hướng cài đặt phức tạp hơn Đối với mục
Trang 28III TÌM KIẾM THÔNG TIN
3.1 MỞ ĐẦU
Khảo sát hai kiểu truy vấn:
Truy vấn Boole BQ truyền thống
Truy vấn xếp hạng RQ
3.2 TRUY VẤN BOOLE BQ
3.2.1 Truy vấn BQ hội
3.2.2 Truy vấn BQ không hội
Dạng phổ biến khác là một phép hội của các phép tuyển:
(text OR data OR information) AND
(search OR seek) AND
(retrieval OR indexing)
Trang 29Quá trình được hình thức hoá bằng một tích trong của
một vectơ truy vấn với một tập vectơ tài liệu
Độ tương tự của truy vấn Q với tài liệu D d được biểu diễn
như sau :
S(Q, Dd) = Q Dd (3.1)
trong đó: phép toán là phép tích trong
Tích trong của hai n-vectơ X = <x i > và Y = <y i > được định
X
Trang 303 các tài liệu dài với nhiều thuật ngữ
Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :
Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu
Ví dụ:
Tính độ tương tự đối với truy vấn mẫu trở thành
S(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) (1, 1, 1, 1, 0, 0, 0, 0)
= 2
Trang 31Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán
S(Q, D d ) = Q . D d = (3.3)
Độ tương tự là tích trong của hai trọng số
S(Q, D d ) = (3.4)
Nếu hạng được coi là một độ đo tầm quan trọng thì trọng
w w
Trang 32Nhân tử chuẩn hoá để không kể đến phần đóng góp của các
tài liệu dài Do đó, luật tích trong đánh giá độ tương tự bằng
(3.10)
trong đó là độ dài của tài liệu D d
3.3.3 Mô hình không gian vectơ
Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:
(3.11)
d
t , d t
, q Q
t d
D
w
w )
D , Q (
2 t d t
q
D , Q ( S
Trang 33Hướng chỉ thị bởi 2 vectơ
(3.14)
Công thức có 2 hàm ý:
1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ
dài Euclide của tài liệu
2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng
2 i
n 1 i
2 i
n 1
y x
y x Y
X
Y X cos
Trang 34Luật cosin đối với xếp hạng:
D Q
D Q )
D , Q
n 1
d q
w
∑ w W
d e q
d
d
f
N 1
log )
f log 1
( W
W
1 )
D , Q cos(
Trang 353.4 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM
3.4.1 Độ chính xác và độ phục hồi
Độ chính xác P của một phương pháp xếp hạng đối với
điểm cắt nào đó r là một phần trong số tài liệu xếp hạng
cao nhất r có liên quan đến truy vấn:
(3.19)
Độ phục hồi R của một phương pháp tại giá trị r nào đó
là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm
trong r cao nhất:
(3.20) tongso tailieu co lien quan
kiem tim
duoc quan
lien co
lieu tai
so
R
kiem lieu tim
tai so tong
quan lien
co kiem lieu tim
tai so
P
Trang 363.4.2 Đường cong độ phục hồi-độ chính xác
Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2
Do thi hieu suat tinh toan
50 100 150 200
do phuc hoi
Đuong cong P-R doi voi hang
0 20 40 60 80 100 120
R
P (%)
Trang 37N 1
log )
f log 1
( W
W
1 )
D , Q cos(
Trang 38Tìm kiếm r tài liệu dùng độ đo cosin,
Trang 39Đặt Ad Ad / Wd.
Bây giờ Ad tỉ lệ với giá trị cos(Q, Dd).
4 Đối với 1 i r,
(a) Lựa chọn d sao cho Ad = max{A}.
(b) Dò tìm địa chỉ của tài liệu d.
(c) Tìm kiếm tài liệu d và trình bày với NSD.
(d) Đặt A A - {Ad}.
Giải thuật 3.2 Tìm kiếm r tài liệu dùng độ đo cosin
Giải thuật nêu lên 3 điểm như sau:
1 W q bị bỏ qua vì W q là một hằng số
2 lượng lớn bộ nhớ được sử dụng
3 chỉ r << N tài liệu có mặt
Trang 401 Đưa ra một mô hình hình thức cho thư viện số dựa
vào đại số hiện đại: Một thư viện số là một bộ bốn
Trang 412 Phân tích chi tiết các phương pháp chỉ mục tài liệu
văn bản trong DL: phương pháp chỉ mục tệp đảo
IFID và phương pháp chỉ mục ký số SFID, so sánh
2 phương pháp chỉ mục, rút ra quy luật chỉ mục tài
liệu trong DL:Ở hầu hết ứng dụng, IF thực hiện tốt
hơn SF trong phạm vi của cả hai kích thước chỉ mục
và tốc độ truy vấn IF nén chắc chắn là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi Phân tích các mô hình nén toàn cục và mô hình nén cục bộ hyperbol, từ đó,
đề xuất mô hình nén cục bộ Bernoulli và nén nội suy đối với IFID dựa vào các phương pháp xác suất và
thống kê toán học, phương pháp mã hóa, phương
pháp nén dữ liệu .
Trang 423 Phân tích chi tiết mô hình tìm kiếm thông tin kinh
điển dựa vào truy vấn Boole BQ hiện đang được sử dụng trong hầu hết các hệ thư viện, chỉ ra nhược điểm của truy vấn BQ Từ đó, luận án đề xuất một
mô hình tìm kiếm văn bản dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ chính xác
P và độ phục hồi R.
4 Phân tích chi tiết các giải thuật kinh điển: giải thuật
đảo danh sách móc nối và giải thuật đảo dựa vào sắp xếp, chỉ ra hạn chế của chúng là chỉ thích hợp với các CSDL tài liệu văn bản cỡ nhỏ và vừa Từ đó, luận án
đề xuất hai giải thuật trộn nhiều đường tại chỗ dựa
vào sắp xếp và giải thuật phân chia dựa vào văn bản phù hợp với CSDL tài liệu văn bản cỡ lớn trong DL
Trang 431 Nghiên cứu các phương pháp chỉ mục
4 Nghiên cứu bài toán tóm tắt
và trích rút tài liệu văn bản trong DL.
Trang 44Chân thành cám ơn !