1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các phương pháp chỉ số hoá và tìm kiếm thông tin văn bản ứng dụng trong thư viện số

162 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 162
Dung lượng 1,26 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Phân tích các phương pháp chỉ mục tài liệu văn bản trong thư viện số, tập trung phân tích phương pháp chỉ mục hữu ích và phù hợp nhất: chỉ mục tệp đảo IFID, phân tích chi tiết các mô h

Trang 1

-

ĐỖ QUANG VINH

NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHỈ SỐ HOÁ

VÀ TÌM KIẾM THÔNG TIN VĂN BẢN

ỨNG DỤNG TRONG THƯ VIỆN SỐ

Chuyên ngành: Đảm bảo toán học cho máy tính

và hệ thống tính toán

LUẬN ÁN TIẾN SỸ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

HÀ NỘI - 2006

Trang 4

3.2.2 Truy vấn BQ không hội 72

Trang 5

Kết luận chương 4 137

Trang 6

DANH MỤC BẢNG

Trang

Bảng 2.2 Văn bản mẫu; mỗi dòng là một tài liệu 40

Bảng 2.4 IF mức từ đối với văn bản của bảng 2.2 42 Bảng 2.5 Mã hoá chồng lên của tài liệu 2 đối với SF 44

Bảng 2.7 Nén IF bằng số bit cho mỗi con trỏ đối với TREC 62 Bảng 3.1 Các vectơ đối với tính toán tích trong: 75

Bảng 3.3 Cộng thêm thông tin tần suất, bit cho mỗi giây đối với TREC 88 Bảng 3.4 Mã hình học xấp xỉ đối với L = 10.0, U = 18.0 và b = 2 93 Bảng 4.1 Ma trận tần suất đối với văn bản của bảng 2.2 101 Bảng 4.2 Chuyển vị tương đương của ma trận tần suất của bảng 4.1 102

Bảng 4.4 Yêu cầu tài nguyên để đảo CSDL mẫu 2070.29 MB 104

Trang 7

DANH MỤC CHỮ VIẾT TẮT

ASCII Bộ mã chuyển đổi thông tin chuẩn

của Hoa Kỳ

American Standard Code for Information Interchange

GIF Định dạng ảnh từ CompuServe Graphics Information Format HTML Ngôn ngữ đánh dấu siêu văn bản HyperText Markup Language HTTP Giao thức truyền siêu văn bản HyperText Transfer Protocol

IR Tìm kiếm thông tin Information Retrieval

JPEG Định dạng ảnh từ JPEG Joint Photographic Experts

Group MIME Kiểu thư Internet nhiều mục đích Multipurpose Internet Mail

Extension

SFID Chỉ mục tệp ký số Signature File Index

SGML Ngôn ngữ đánh dấu chung chuẩn Standard Generalized Markup

Language UML Ngôn ngữ mô hình hóa thống nhất Unified Modeling Language URL Bộ định vị tài nguyên thống nhất Uniform Resource Locator

URN Tên tài nguyên thống nhất Uniform Resource Name

Trang 8

DANH MỤC HÌNH VẼ

Trang

Hình 1.2 Một kịch bản đối với truyền một dòng 27

Trang 9

LỜI CAM ĐOAN

Tôi xin cam đoan rằng mọi kết quả nghiên cứu được trình bày trong luận án không có sự sao chép hay lấy từ các nghiên cứu của những người khác một cách bất hợp pháp

Tôi xin chịu hoàn toàn trách nhiệm về các kết quả nghiên cứu được đưa ra trong luận án

Trang 10

MỞ ĐẦU

1 NHIỆM VỤ, ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Tính cấp thiết, ý nghĩa lý thuyết và thực tiễn của đề tài

Ngày nay, World Wide Web đã xâm nhập vào cuộc sống hàng ngày, đồng thời, qua một số năm giao diện cho Web tiến triển từ duyệt đến tìm kiếm Hàng triệu người trên thế giới thực hiện tìm kiếm Web hàng ngày, nhưng công nghệ tìm kiếm cơ sở dữ liệu tài liệu lớn ít thay đổi từ những năm 1980 Sự nhận thức chung

về Net tạo ra một cuộc cách mạng mới về công nghệ tìm kiếm thông tin trong thư viện số (DL), diễn ra theo cuộc cách mạng phần cứng ở máy tính cá nhân

Có nhiều CSDL phân tán trên khắp thế giới, trong đó mỗi một cộng đồng nhỏ bảo trì một CSDL tài liệu riêng của mình Chỉ mục là có giá trị đối với mỗi một CSDL, dùng ngữ nghĩa mở rộng nhằm trợ giúp tìm kiếm và điều hướng cho hệ thống thuật ngữ chuyên ngành của mỗi một cộng đồng Sự chuyển qua khái niệm chỉ mục ngữ nghĩa tạo khả năng cho thành viên của một cộng đồng dễ dàng tìm kiếm hệ thống thuật ngữ của cộng đồng khác

Hiện nay, DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới DL trở nên quan trọng về mặt quốc gia và quốc tế là do sự bùng nổ thông tin theo hàm mũ trên Web

Giới thiệu các kết quả nghiên cứu đã có về DL, những tồn tại mà tác giả phát hiện cần tiếp tục nghiên cứu

Trong những năm gần đây, cách tìm kiếm và thu thập thông tin đã thay đổi Không cần ra khỏi nhà để tìm kiếm và truy cập lượng thông tin lớn hiện sẵn có trực tuyến thông qua cổng số, được cung cấp bởi nhiều nhà cung cấp thông tin, như các

DL, nhà xuất bản điện tử, doanh nghiệp, tổ chức, cá nhân Sự truy cập thông tin không còn bị hạn chế tới các cuốn sách hay tạp chí sẵn có ở thư viện gần nhất, mà

có thể truy cập được từ một lượng lớn CSDL tài liệu phân tán toàn cầu

Thông tin không chỉ là văn bản và dữ liệu số mà còn là hình ảnh, âm thanh/tiếng nói, dữ liệu địa lý, video, audio, multimedia Điều này làm tăng tính đa

Trang 11

dạng của thông tin cho phép NSD thực hiện các cuộc du lịch ảo các viện bảo tàng, các điểm di tích lịch sử và các kỳ quan thiên nhiên, tham dự những buổi hoà nhạc

và biểu diễn sân khấu ảo, xem phim và đọc sách báo, nghe giảng và âm nhạc - tất cả thông qua DL

Tổng quan hoạt động nghiên cứu DL

Trong những năm gần đây, có sự bùng nổ về nghiên cứu DL, các dự án và các chương trình DL ở Mỹ và trên thế giới [43], [44]

Trọng tâm của các dự án DL là:

Về công nghệ: các hướng nghiên cứu chính vượt ra ngoài phạm vi của

ngành tin học, nhấn mạnh đến các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin

Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL

♦ Hoạt động nghiên cứu DL ở Mỹ

Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ

và số lượng tăng nhanh

Hai dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số-giai đoạn 2 (DLI-2) công bố vào đầu năm 1998 và Dự án thư viện số quốc tế công bố vào giữa năm 1998

Dự án thư viện số DLI:

 Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU;

 Dự án dịch vụ thông tin số của Đại học California ở Berkeley;

 Dự án Alexandria của Đại học California ở Santa Barbara;

 Dự án Interspace của Đại học Illinois ở Urbana-Champaign;

 Dự án UMDL của Đại học Michigan;

 Dự án InfoBus của Đại học Stanford

Các hoạt động nghiên cứu DL chủ yếu khác ở Mỹ:

 Thư viện quốc hội (Library of Congress);

 Dự án công nghệ thư viện số DLT của NASA;

 Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ;

Trang 12

 Dự án thư viện số của IBM;

 Dự án thư viện số California CDL;

 Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency);

 Dự án MOA của hai Đại học Cornel và Michigan;

 Dự án Open Book của Đại học Yale;

 Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag;

 Dự án TULIP của nhà xuất bản Elsevier Science Publisher

♦ Hoạt động DL ở các nước khác

Hầu hết các hoạt động DL ở các nước khác tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật, như: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand

♦ Ở Việt Nam, khái niệm Thư viện điện tử/ Thư viện số là mới đối với cộng đồng thư viện Nhu cầu nghiên cứu DL bắt đầu từ khi vạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi, mà xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam Hiện tại chúng ta đang ở trong giai đoạn quá độ xây dựng thư viện điện tử Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin [11].Hiện nay, có một vài phần mềm sau đây đang được cài đặt và thử nghiệm:

 Giải pháp thư viện điện tử ILIB của công ty CMC đang cài đặt và thử nghiệm ở Thư viện Quốc gia;

Trang 13

 Giải pháp thư viện điện tử LIBOL của công ty Tinh vân, đang cài đặt và thử nghiệm ở Trung tâm Thông tin khoa học và công nghệ Quốc gia;

 Hệ phần mềm thư viện số Greenstone, sản phẩm mã nguồn mở của dự án New Zealand Digital Library, cài đặt ở thư viện Đại học Khoa học tự nhiên Thành phố Hồ Chí Minh

Tuy nhiên, hiện nay phần lớn thư viện như Thư viện Quốc gia, Trung tâm Thông tin khoa học và công nghệ Quốc gia, thư viện các tỉnh, thư viện các trường đại học v.v vẫn đang sử dụng hệ phần mềm CDS/ISIS do UNESCO cung cấp

♦ Nhiệm vụ của luận án: Nghiên cứu các phương pháp chỉ số hoá và tìm kiếm thông tin văn bản ứng dụng trong thư viện số, bao gồm:

- Chỉ số/ chỉ mục tài liệu văn bản;

- Nén chỉ mục tệp đảo IFID;

- Tìm kiếm thông tin văn bản

♦ Đối tượng nghiên cứu: Thư viện số (DL)

♦ Các phương pháp nghiên cứu

- Hệ cơ sở dữ liệu Multimedia;

- Các phương pháp chỉ mục;

- Các phương pháp mã hoá;

- Các phương pháp nén dữ liệu;

- Các phương pháp tìm kiếm thông tin văn bản;

- Các phương pháp xác suất và thống kê toán học

2 CẤU TRÚC LUẬN ÁN

Những đóng góp chính của luận án bao gồm:

 Trình bày tổng quan về thư viện số, sau đó, đề xuất một mô hình hình thức cho thư viện số dựa vào đại số hiện đại

 Phân tích các phương pháp chỉ mục tài liệu văn bản trong thư viện số, tập trung phân tích phương pháp chỉ mục hữu ích và phù hợp nhất: chỉ mục tệp đảo IFID, phân tích chi tiết các mô hình nén toàn cục và mô hình nén cục bộ hyperbol,

đề xuất các mô hình nén cục bộ Bernoulli và nén nội suy đối với IFID dựa vào các

Trang 14

phương pháp xác suất và thống kê toán học, phương pháp mã hóa, phương pháp nén

dữ liệu

 Phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ, đề xuất một mô hình tìm kiếm thông tin dựa vào truy vấn xếp hạng RQ

có đánh giá hiệu suất dựa vào độ chính xác P và độ phục hồi R

 Phân tích chi tiết các giải thuật kinh điển: danh sách móc nối và đảo dựa vào sắp xếp, đề xuất các giải thuật trộn nhiều đường tại chỗ dựa vào sắp xếp và giải thuật phân chia dựa vào văn bản, so sánh các giải thuật đảo

Luận án có cấu trúc như sau:

 Phần mở đầu: trình bày nhiệm vụ, đối tượng, phương pháp nghiên cứu và tóm tắt các đóng góp chính của luận án

 Chương 1 trình bày tổng quan về thư viện số, đề xuất một mô hình hình thức cho thư viện số dựa vào đại số hiện đại

 Chương 2 trình bày hai phương pháp chính chỉ mục tài liệu văn bản trong thư viện số, phân tích chi tiết phương pháp chỉ mục tệp đảo IFID, phân tích các mô hình nén toàn cục và mô hình nén cục bộ hyperbol, đề xuất mô hình nén cục bộ Bernoulli và nén nội suy đối với IFID

 Chương 3 trình bày mô hình tìm kiếm thông tin kinh điển: mô hình truy vấn Boole BQ, đề xuất một mô hình truy vấn xếp hạng tài liệu RQ trong thư viện số, đánh giá hiệu suất tìm kiếm dựa vào hai tham số: độ chính xác P và độ phục hồi R

 Chương 4 trình bày các giải thuật kinh điển: đảo dựa vào bộ nhớ, đảo dựa vào sắp xếp, đề xuất các giải thuật trộn nhiều đường tại chỗ dựa vào sắp xếp và giải thuật phân chia dựa vào văn bản, so sánh các giải thuật đảo, trình bày bài toán chỉ mục CSDL động

 Phần kết luận: trình bày các kết luận của luận án và các hướng nghiên cứu tiếp theo

 Phần danh mục tài liệu tham khảo liệt kê tất cả sách chuyên khảo và bài báo

mà tác giả đã sử dụng khi nghiên cứu đề tài

Trang 15

CHƯƠNG 1 TỔNG QUAN VỀ THƯ VIỆN SỐ

1.1 MỞ ĐẦU

Ở đây, tác giả trình bày các định nghĩa không hình thức về thư viện số

với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng Ý chính của định nghĩa là thông tin có tổ chức DL chứa các loại kho thông tin khác nhau dùng bởi nhiều NSD khác nhau DL có quy mô từ nhỏ đến rất lớn DL có thể sử dụng bất kỳ loại thiết bị tính toán nào và bất kỳ phần mềm phù hợp Chủ đề thống nhất là thông tin được tổ chức trên máy tính và có sẵn trên mạng với các thủ tục lựa chọn tài liệu trong các kho để tổ chức, làm cho sẵn có với NSD

và lưu trữ

quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu

DL là một kho thông tin số có tổ chức Một DL được biểu thị là một tập hợp các máy chủ tự phân tán làm việc đồng thời nhằm trao cho NSD diện mạo của một CSDL tài liệu liên kết Thực tế, mỗi máy chủ lưu trữ một lượng lớn thông tin đa dạng trên nhiều loại vật tải lưu trữ

Đặc điểm của DL là trợ giúp cộng tác, bảo quản tài liệu số, quản trị CSDL phân tán, siêu văn bản, trích lọc thông tin, tìm kiếm thông tin, các đơn thể hướng dẫn, các quyền sở hữu trí tuệ, các dịch vụ thông tin multimedia và các dịch vụ tra cứu, khám phá tài nguyên và phổ biến thông tin có chọn lọc Chúng cho phép thông tin được truy cập toàn cầu, sao chép không lỗi, lưu trữ cô đặc và tìm kiếm nhanh

kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai

Trang 16

Định nghĩa 1.4 (Sun Microsystems) [135]: Thư viện số là sự mở rộng điện tử

về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống Các tài nguyên thông tin được chuyển thành dạng số, lưu trữ trong các kho multimedia và làm cho sẵn có thông qua các dịch vụ Web

tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì

Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch

vụ liên kết qua mạng

Lý do chính xây dựng thư viện số là sự tin tưởng DL phân phát thông tin tốt hơn thư viện truyền thống Thư viện truyền thống là một phần cơ bản của xã hội, nhưng không hoàn thiện

1 DL mang thư viện đến NSD;

2 Máy tính được sử dụng để tìm kiếm và duyệt;

3 Thông tin có thể được chia sẻ;

4 Thông tin dễ dàng cập nhật hơn;

5 Thông tin luôn sẵn có;

6 Các dạng thông tin mới trở thành thực hiện được;

7 Giá của DL

Bốn lĩnh vực kỹ thuật nổi bật đối với DL:

1 Lưu trữ điện tử trở nên rẻ hơn giấy;

2 Hiển thị máy tính cá nhân trở nên sử dụng thích hợp hơn;

3 Mạng máy tính tốc độ cao trở nên phổ biến;

4 Máy tính trở nên di động

Trang 17

1.2 CÁC KHÁI NIỆM CƠ BẢN

Thuật ngữ thường là một rào cản khi thảo luận DL Người xây dựng DL đến

từ nhiều ngành và mang thuật ngữ của các ngành đó đến với DL Một số từ có nghĩa

xã hội, luật hoặc kỹ thuật, chúng cản trở sự thảo luận giữa những người có cơ sở khác nhau

1.2.1 Cơ sở dữ liệu tài liệu

DL quản lý bất kỳ thông tin có thể được mã hoá thành dãy bit Đôi lúc có các version số hoá của vật tải thông thường, như là văn bản, ảnh, âm thanh, đặc tả và thiết kế kỹ thuật và v.v

Dữ liệu và siêu dữ liệu

Thông tin lưu trữ trong dữ liệu có thể được phân chia thành dữ liệu và siêu dữ liệu Dữ liệu là một thuật ngữ mô tả thông tin được mã hoá thành dạng số

Siêu dữ liệu là dữ liệu về dữ liệu khác Các loại siêu dữ liệu thông thường bao gồm siêu dữ liệu mô tả, như thông tin thư mục, siêu dữ liệu cấu trúc về dạng và cấu trúc và siêu dữ liệu quản trị bao gồm các quyền, sự cho phép và thông tin khác được

sử dụng để quản lý truy cập Một mục tin của siêu dữ liệu là bộ nhận dạng, nhận dạng một mục tin với thế giới bên ngoài

Sự phân biệt giữa dữ liệu và siêu dữ liệu thường phụ thuộc vào ngữ cảnh Mục lục bản ghi hoặc tóm tắt thường được coi là siêu dữ liệu, bởi vì chúng mô tả dữ liệu khác, nhưng ở một mục lục trực tuyến hoặc một CSDL về tóm tắt chúng là dữ liệu

mô tả một mục tin như lưu trữ trong DL, điển hình gồm có dữ liệu, dữ liệu liên kết

và một bộ nhận dạng Người ta còn gọi mỗi một mục tin trong DL là một tài liệu

Trang 18

Đối tượng thư viện

Thuật ngữ đối tượng thư viện là hữu ích đối với quan điểm của NSD về đối tượng được lưu trữ trong thư viện Xét một bài báo ở một tạp chí trực tuyến Độc giả nghĩ nó là một thực thể đơn, một đối tượng thư viện, nhưng bài báo chắc là được lưu trữ trên một máy tính như một vài đối tượng riêng biệt Chúng chứa các trang của văn bản số hoá, đồ hoạ, thậm chí có thể các chương trình máy tính hoặc các mục tin liên kết ở máy tính từ xa Theo quan điểm của NSD, đây là một đối tượng thư viện được hình thành từ một số đối tượng số

Ví dụ chứng tỏ các đối tượng thư viện có cấu trúc nội tại Chúng thường có cả hai dữ liệu và siêu dữ liệu liên kết Siêu dữ liệu cấu trúc được dùng để mô tả dạng

và quan hệ của các thành phần

Dạng lưu trữ của đối tượng số

Dạng thông tin được lưu trữ trong dữ liệu có thể rất khác nhau Một mô hình

mô phỏng dùng để huấn luyện phi công máy bay được lưu trữ như một số chương trình máy tính, cấu trúc dữ liệu, ảnh số hoá và dữ liệu khác Đây là dạng lưu trữ của đối tượng

Hầu hết mọi người dùng thuật ngữ nội dung không chặt Thuật ngữ được sử dụng trong bất kỳ ngữ cảnh khi nhấn mạnh đến tài liệu thư viện, không chỉ là bit và byte được xử lý bằng máy tính mà là thông tin được chú ý bởi NSD

Trang 19

1.2.2 Máy tính và mạng

DL gồm có nhiều máy tính kết nối bằng một mạng truyền thông Mạng có ảnh hưởng lớn là Internet Sự nổi lên của Internet như một mạng trên toàn thế giới, giá thấp, linh động là một trong những yếu tố chính dẫn đến sự phát triển của DL

Hình 1.1 - Máy tính trong thư viện số (Arms W.Y [31]) Hình 1.1 trình bày một số máy tính được sử dụng trong DL Máy tính có ba chức năng chính: trợ giúp NSD tương tác với thư viện, lưu trữ CSDL tài liệu và cung cấp dịch vụ

 Bất kỳ người nào tương tác với máy tính được gọi là NSD máy tính (user) Đây là một thuật ngữ rộng bao gồm nhà tạo ra thông tin, NSD thư viện, chuyên gia thông tin và bất kỳ người nào truy cập máy tính Để truy cập DL, NSD thường sử dụng máy tính cá nhân, được gọi là máy khách (client)

 Tiếp theo trong DL là kho lưu trữ (repository) các CSDL và cung cấp truy cập Một kho lưu trữ là một kho được tổ chức để bảo quản tài liệu lâu dài

NSD

Hệ thống định vị

Kho lưu trữ

Hệ thống tìm kiếm

Trang 20

 Hình 1.1 trình bày hai loại dịch vụ điển hình được cung cấp bởi DL: hệ thống định vị và hệ thống tìm kiếm Hệ thống tìm kiếm cung cấp các mục lục, chỉ mục và các dịch vụ khác để trợ giúp NSD tìm kiếm thông tin Hệ thống định vị

được dùng để nhận dạng và định vị thông tin

 Ở một số trường hợp có thể có các máy tính khác nằm giữa máy khách và máy tính lưu trữ thông tin, không được trình bày ở hình 1.1 Gương (mirror)

cậy Sự khác nhau giữa chúng là các gương tái tạo tập thông tin lớn, trong khi cache chỉ lưu trữ thông tin mới sử dụng Proxygateway cung cấp các cầu nối giữa các loại hệ thống máy tính khác nhau

đóng vai trò là một kho, hệ thống tìm kiếm và hệ thống định vị Ngược lại, các chức năng riêng có thể được phân bố qua nhiều máy chủ Chẳng hạn, hệ thống đặt tên miền là một hệ thống định vị đối với các máy tính trên Internet, là một dịch vụ tích hợp, đơn giản thực hiện trên hàng ngàn máy chủ riêng biệt

trong số hệ phân tán phức tạp nhất từng được xây dựng Các máy tính cá nhân của NSD phải trao đổi thông báo với máy chủ, quản lý bởi hàng ngàn tổ chức khác nhau, chạy phần mềm từ hợp thời đến không hợp thời Thuật ngữ tính liên tác

thành phần riêng biệt khác nhau về kỹ thuật và được quản lý bởi các tổ chức khác nhau

1.3 NGHIÊN CỨU TIN HỌC TRONG THƯ VIỆN SỐ

Hiện nay, thư viện số là một lĩnh vực nghiên cứu đang được nhiều người nghiên cứu quan tâm

1.3.1 Mô hình đối tượng

Một chủ đề nghiên cứu quan trọng là hiểu các đối tượng trong DL DL lưu trữ

và phân phát bất kỳ thông tin ở dạng số Kết quả là, các bài toán nghiên cứu về biểu diễn và thao tác thông tin là đa dạng

Trang 21

NSD nhận thấy một công việc có thể được biểu diễn ở một máy tính là một quá trình lắp ráp các tệp và cấu trúc dữ liệu thành nhiều dạng Quan hệ giữa các thành phần này và quan niệm về đối tượng của NSD được gọi là một mô hình đối

với một NSD như một văn bản liên tục đơn lẻ với một ít đồ hoạ Nhìn bề ngoài, nó được lưu trữ như một vài tệp văn bản, một vài ảnh và có thể một vài chương trình thực hiện được Nhiều version của chính một đối tượng có thể tồn tại DL thường có các ấn bản tài liệu riêng được chuẩn bị phát hành công cộng Sau khi phát hành, các

ấn bản mới có thể được yêu cầu sửa lỗi, các tài liệu có thể được tổ chức lại hoặc chuyển tới các máy tính khác nhau, hoặc các dạng mới có thể được bổ sung là các thành tựu công nghệ

Khả năng của giao diện NSD trình bày công việc với NSD phụ thuộc vào khả năng hiểu các thành phần khác nhau, có liên quan như thế nào với sự tạo thành một đối tượng thư viện Siêu dữ liệu cấu trúc được dùng để mô tả quan hệ Các ngôn ngữ đánh dấu là một phương pháp biểu diễn cấu trúc trong văn bản Chẳng hạn, ở một trang HTML, tag <img> là siêu dữ liệu cấu trúc chỉ thị vị trí của một ảnh Nhiều công trình đầu về siêu dữ liệu cấu trúc thực hiện ngoài thư viện với các bức tranh, âm nhạc, video clip và các đối tượng khác số hoá chuyển đổi từ vật tải vật lý Nhìn xa hơn các tài liệu thư viện thông thường, nội dung tạo lập ở dạng số không bị ràng buộc bởi tính tuyến tính của tài liệu in Đây là nghiên cứu quan tâm đến thông tin thời gian thực Mỗi một loại có các vấn đề của nó như nắm bắt thông tin, lưu trữ, mô tả, tìm kiếm thông tin và phân phát Có nhiều câu hỏi không dễ giải quyết riêng biệt và thậm chí còn khó khăn hơn khi kết hợp Vấn đề là đưa ra các mô hình đối tượng trợ giúp tài liệu thư viện kết hợp nhiều dạng và làm cho các DL độc lập có khả năng liên tác

1.3.2 Giao diện người sử dụng

Cải tiến cách NSD tương tác với thông tin trên máy tính là một chủ đề thú vị

và phức tạp Sự phát triển về các trình duyệt Web là một ví dụ về nghiên cứu sáng

Trang 22

tạo ở các lĩnh vực như trực quan thông tin, phân lớp thông tin chứa trong tài liệu và trích rút một bản tóm tắt

Với NSD, DL chính là môi trường làm việc Nghiên cứu giao diện NSD, xét toàn bộ môi trường có khả năng bao gồm thư điện tử, xử lý văn bản và các ứng dụng chuyên cho lĩnh vực làm việc của cá nhân Hơn nữa, môi trường bao hàm một dải rộng thông tin không ở dạng số, như sách, báo, băng video, bản đồ hoặc ảnh chụp Khả năng của NSD tương tác với đối tượng số, qua chú thích để thao tác và thêm nó vào CSDL đang tỏ ra là một lĩnh vực nghiên cứu đầy sáng tạo

1.3.3 Tìm kiếm thông tin

Tìm kiếm thông tin là một chủ đề chính của thư viện Tìm kiếm thông tin riêng biệt trong các CSDL văn bản lớn đang thu hút chú ý trong tin học

biên mục hoặc chỉ mục siêu dữ liệu được sản xuất bởi một chuyên gia nào đó Điều này bao hàm dữ liệu ở các mục lục thư viện, các dịch vụ tóm tắt và chỉ mục Không may, chỉ mục bởi con người chậm và đắt Các cách tiếp cận khác nhau yêu cầu đối với lượng lớn tài liệu thay đổi nhanh được mong chờ ở DL Một cách tiếp cận là cung cấp lượng nhỏ siêu dữ liệu mô tả cho mỗi một đối tượng số Một số siêu dữ liệu được sinh ra tự động Sau đó, siêu dữ liệu có thể được cung cấp cho một chương trình chỉ mục tự động

xuyên, đối với nó tất cả được biên mục bởi các nhà biên mục lành nghề Nghiên cứu

về chỉ mục tự động sử dụng chương trình máy tính quét các đối tượng số, trích rút thông tin chỉ mục và xây dựng chỉ mục có thể tìm kiếm được, như motor tìm kiếm Web (search engine): AltaVista, Lycos, InfoSeek , được thực hiện trước khi DL trở thành một lĩnh vực nghiên cứu

trình tìm kiếm hiểu một số cấu trúc ngôn ngữ Nghiên cứu liên quan về ngôn ngữ tính toán bao hàm phân tích cú pháp tự động để nhận dạng cách cấu trúc ngữ pháp,

Trang 23

hình thái học để liên kết các biến thể của chính một từ, từ vựng và từ điển đồng nghĩa

bản, nhưng các nhà nghiên cứu còn chưa tập trung vào tìm kiếm thông tin ở dạng khác Nhận dạng tiếng nói chỉ mới bắt đầu sử dụng để chỉ mục các chương trình radio và các track âm thanh của video Nhận dạng ảnh, trích chọn tự động các đặc tính từ ảnh đang là lĩnh vực nghiên cứu tích cực

1.3.4 Quản trị và bảo trì CSDL

Quản trị CSDL là một chủ đề nghiên cứu được quan tâm trong DL Qua nhiều năm, thư viện truyền thống phát triển các phương pháp cho phép nhóm người quản

lý kho tài liệu lớn, nhưng các DL đầu tiên đã tập trung chú ý Về sự tạo lập CSDL

số, các nhu cầu tổ chức và bảo trì tài liệu lâu dài không được chú ý Bây giờ, các chủ đề này được nhận ra là khó khăn và quan trọng

vấn đề giống nhau khi tài liệu là một tạp chí điện tử, một Web site lớn, một thư viện phần mềm, một sưu tập bản đồ trực tuyến hoặc một dịch vụ thông tin lớn Chúng bao gồm tải thông tin ở dạng khác nhau như thế nào, tổ chức nó như thế nào để lưu trữ và tìm kiếm Nhằm truy cập trên khắp thế giới, cần tạo ra một số bản sao, dùng các kỹ thuật nhân bản khác nhau Bài toán được mở rộng bởi thông tin số thay đổi trên thực tế Thông tin trực tuyến có thể thay đổi liên tục Nhiều chủ đề nghiên cứu đối với tính liên tác giữa các CSDL là quan trọng vì nhằm tổ chức CSDL lớn Nghiên cứu hiện thời về từ định danh, siêu dữ liệu và xác thực áp dụng vào cả hai quản trị CSDL và tính liên tác giữa các CSDL

nghiên cứu chính về quản trị CSDL Các tài liệu vật lý, như sách in có đặc tính hữu ích là chúng có thể bị bỏ quên hàng chục năm nhưng vẫn có thể đọc được Các tài liệu số là ngược lại Vật tải lưu trữ dữ liệu có số năm tồn tại đủ ngắn Chúng ta phải thực hiện cập nhật dữ liệu bằng cách sao chép bit định kỳ lên vật tải mới Các dạng thông tin được lưu trữ thường được thay thế bởi ấn bản mới

Trang 24

Chuyển đổi: Chuyển đổi tài liệu vật lý thành dạng số bộc lộ những khó khăn

về quản trị CSDL Sự chuyển đổi văn bản là một ví dụ đặc biệt thú vị Nhận dạng

ký tự quang sử dụng máy tính để nhận dạng ký tự và từ trên một trang là hấp dẫn nhưng không đầy đủ

1.3.5 Tính liên tác

Từ quan điểm tính toán, nhiều bài toán khó khăn nhất ở DL là các khía cạnh

việc đồng thời Điều này bao hàm từ tính liên tác cú pháp cung cấp tính chất giống nhau đối với tìm đường và truy cập đến một mức độ sâu hơn của tính liên tác, trong

đó các hệ thống máy tính riêng biệt chia sẻ thông tin

Trên thế giới, nhiều DL độc lập đang được tạo ra với các chính sách quản lý

và hệ thống tính toán khác nhau

Tính liên tác và sự chuẩn hoá được xen kẽ nhau Không may, quá trình tạo lập các chuẩn quốc tế thường đối lập với tính liên tác ở DL

Tính liên tác bao gồm:

khác nhau Tính liên tác nhằm vào trình bày tài liệu từ CSDL theo cách chặt chẽ

DL Internet cung cấp một định danh số cho mọi máy tính, một địa chỉ IP và hệ thống tên miền định danh mọi máy tính trên Internet Bộ định vị tài nguyên thống nhất của Web URL (Uniform Resource Locator) mở rộng tên tới các tệp riêng biệt Các tài liệu thư viện cần định danh để nhận dạng tài liệu, không chỉ vị trí của tài liệu được lưu trữ tại một thời điểm cho trước Định danh độc lập vị trí đôi khi được gọi là tên tài nguyên thống nhất URN (Uniform Resource Name)

với một ít dạng thức, đáng chú ý là HTML đối với văn bản đơn giản, GIF và JPEG đối với ảnh Văn bản thách thức tính liên tác Vào những năm 1980, ASCII nổi lên

là một tập ký tự chuẩn đối với máy tính Hiện thời, Unicode nổi lên là một tập ký tự

Trang 25

mở rộng trợ giúp một dải rất rộng SGML được ủng hộ rộng rãi và sử dụng ở một số

DL, nhưng phức tạp và linh động đến mức khó đạt được tính liên tác đầy đủ

DL, nhưng đặc biệt quan trọng đối với tính liên tác Như thảo luận trước đây, siêu

dữ liệu thường được phân chia thành ba loại: siêu dữ liệu mô tả được dùng cho thư mục và tìm kiếm, siêu dữ liệu cấu trúc liên quan tới các đối tượng khác và một phần trong số đối tượng liên quan với nhau; siêu dữ liệu quản trị được dùng để quản trị CSDL, bao gồm điều khiển truy cập Đối với tính liên tác, một số siêu dữ liệu phải được trao đổi giữa các máy tính Điều này yêu cầu thống nhất về tên trường siêu dữ liệu, các dạng dùng để mã hóa và thống nhất về ngữ nghĩa

nhiều CSDL độc lập Mỗi một có thể được tổ chức theo một cách chặt chẽ, nhưng siêu dữ liệu mô tả sẽ thay đổi, như các khả năng tìm kiếm Bài toán tìm kiếm phân tán là cách tìm kiếm thông tin qua nhiều CSDL Cách tiếp cận truyền thống là yêu cầu tất cả CSDL phù hợp với một tập siêu dữ liệu chuẩn và trợ giúp các giao thức tìm kiếm giống nhau Ngày càng nhiều nhà nghiên cứu DL nhận ra đây chỉ là điều

lý tưởng Nó phải có khả năng tìm kiếm hợp lý qua các CSDL mặc dù không đồng ý cách tổ chức tài liệu của chúng

yêu cầu tính liên tác ở mức mạng Sự chấp nhận phổ biến nhất về họ giao thức Internet giải quyết bài toán trên quy mô lớn

máy tính gửi một thông báo đến máy tính khác để tìm kiếm mục tin nhất định Thông báo phải được truyền bằng giao thức nào đó Giao thức có thể là HTTP Về

lý thuyết, giao thức trợ giúp sự xác thực bảo mật về cả hai máy tính, các truy vấn mức cao để phát hiện các tài nguyên được cung cấp, tính đa dạng của khả năng tìm kiếm, các phương pháp lưu trữ và sửa đổi các kết quả trung gian và giao diện với nhiều dạng thức và thủ tục Thử nghiệm nổi bật nhất là giao thức Z39.50 [31]

Trang 26

Xác thực và an toàn: Một số bài toán về tính liên tác trong DL bao hàm sự xác thực DL cần nhiều loại xác thực khác nhau Thứ nhất là sự xác thực về NSD

Từ một số phương pháp xác thực được chấp nhận rộng rãi, DL thường bắt buộc cung cấp mỗi NSD với một ID và mật khẩu Thứ hai là sự xác thực về máy tính Các hệ thống nắm giữ thông tin có giá trị, như các giao dịch tài chính, cần biết máy tính đang kết nối vào Một cách tiếp cận thô là dựa vào địa chỉ Internet IP của mỗi máy tính Cuối cùng là sự xác thực về tài liệu thư viện Người ta cần tin chắc rằng

họ nhận được bản xác thực của mục tin, chứ không phải là một bản đã bị sửa đổi ngẫu nhiên hoặc có chủ ý Đối với một số yêu cầu, các phương pháp xác thực tốt đang tồn tại, nhưng chúng không được triển khai đủ rộng nhằm cho phép tính liên tác đầy đủ

với bài toán tổng quát, khi các máy tính chuyển qua các thông báo, chúng cần chia

sẻ sự giải thích ngữ nghĩa giống nhau về thông tin trong thông báo Tính liên tác ngữ nghĩa xử lý với khả năng của NSD truy cập tới các lớp đối tượng số giống nhau, phân tán qua các CSDL không thuần nhất

Web đưa ra một mức liên tác cơ bản, nhưng tính đơn giản của công nghệ cơ sở dẫn đến sự chấp nhận rộng rãi của nó có nhược điểm URL đặt tên ngắn đối với thuật ngữ dài; HTML bị hạn chế về tính đa dạng của thông tin biểu diễn; MIME định danh kiểu của mỗi một mục tin tốt đến mức có thể được nhưng thông tin thư viện khá giàu so với khung nhìn MIME về kiểu dữ liệu; giao diện NSD bị ràng buộc bởi tính đơn giản của giao thức HTTP Một thành tựu đáng chú ý là sự đưa vào ngôn ngữ lập trình JAVA, có đóng góp lớn vào giao diện NSD, vượt qua nhiều ràng buộc của HTTP

Nghịch lý, thành tựu của Web là một rào cản cho thế hệ tiếp theo của DL Nhu cầu thực tế trợ giúp cơ sở cài đặt này tạo ra một tình trạng tới hạn khi thực hiện nghiên cứu Nếu các nhà nghiên cứu muốn công trình của họ được chấp nhận, họ phải đề xuất một cách đi từ Web hiện thời Chẳng hạn, thực tế các trình duyệt Web không trợ giúp URN là một rào cản dùng URN để định danh tài liệu bên trong DL

Trang 27

1.4 MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ

1.4.1 Cơ sở toán học

Ở đây, tác giả xét cơ sở toán học cần thiết để phát triển mô hình hình thức cho

DL Các khái niệm bao gồm tập hợp, quan hệ, hàm, dãy, bộ, xâu, đồ thị và văn phạm [1], [3], [4], [7], [8], [9], [13], [144], [147], [150]

biệt

của A x B Ký hiệu (a,b) ∈ R là aRb Một quan hệ R n-phân trên các tập hợp A1,

A2, , An là một tập con của tích Đề các A1x A2 x x An

phân trên A x B sao cho đối với mỗi một a ∈ A tồn tại b ∈ B sao cho (a,b) ∈ f và nếu (a,b) ∈ f và (a,c) ∈ f thì b = c Tập hợp A được gọi là miền xác định của f và tập hợp B được gọi là miền giá trị của f Ký pháp f : A → B và b = f(a) là một ký pháp chung đối với (a,b) ∈ f Tập hợp {f(a)| a ∈ A} được gọi là vùng của f

nhiên hoặc tập con ban đầu nào đó của {1, 2, , n} của các số tự nhiên và miền giá trị của nó là tập bất kỳ

liệt kê dải các giá trị của hàm như <f(1), f(2), , f(n)>

một tập hợp hữu hạn với ít nhất hai phần tử, được gọi là bảng chữ Một xâu thường được ký hiệu bằng cách nối với nhau dải các giá trị không có ký tự phân cách Cho Σ là một bảng chữ Σ* ký hiệu tập hợp tất cả xâu từ Σ, bao hàm xâu rỗng (một dãy rỗng ε) Một ngôn ngữ là một tập con của Σ*

không rỗng và E là một tập của một tập cạnh {u, v}, u, v ∈ V Một đồ thị có hướng

G là một cặp (V, E), trong đó V là một tập đỉnh (nút) không rỗng và E là một tập cạnh (cung) trong đó mỗi một cạnh là một cặp thứ tự đỉnh phân biệt (vi, vj) với vi,

Trang 28

vj ∈ V và vi ≠ vj Cạnh (vi, vj) được gọi là liên thuộc trên các đỉnh vi và vj, trong

đó vi kề với vj và vj kề từ vi

trong đó V là một tập biến gọi là không kết thúc, Σ là bộ chữ ký hiệu kết thúc, R là một tập luật hữu hạn và s0 là một phần tử phân biệt của V gọi là ký hiệu bắt đầu Một luật/ một sản xuất là một phần tử của tập V x (V ∪ Σ)* Mỗi một sản xuất

có dạng SX → α trong đó SX là một ký hiệu không kết thúc và α là một xâu ký hiệu (kết thúc và/hoặc không kết thúc)

1.4.2 Dòng

Dòng là các dãy phần tử có kiểu bất kỳ Ở ngữ cảnh này, chúng có thể mô hình hóa cả hai nội dung tĩnh như tài liệu văn bản và nội dung động như theo một trình diễn tạm thời của một video số hoặc thời gian và số liệu vị trí (như từ một GPS) đối với một đối tượng di động

Một dòng động biểu diễn một luồng thông tin - một dãy thông báo mã hóa bởi người gửi và truyền thông dùng một kênh truyền có khả năng bị méo với ồn, đến một người nhận mà mục đích là xây dựng lại các thông báo của người gửi và dịch thông báo có nghĩa [144] Các dòng động làm cho truyền thông dễ dàng trong DL

và như vậy là quan trọng đối với biểu diễn bất kỳ truyền thông xảy ra trong DL Ví

dụ về dòng động và các ứng dụng của nó bao gồm VOD (video-on-demand) và định tuyến dòng tin và truyền thông báo Điển hình, một dòng động được hiểu thông qua bản chất thời gian của nó Sau đó, một dòng động có thể được hiểu là một dãy hữu hạn thời gian và các giá trị có thể được sử dụng để định nghĩa một đại số dòng, cho phép thao tác trên các loại dòng multimedia khác nhau Sự đồng bộ của các dòng có thể được định rõ với mạng Petri hoặc các cách tiếp cận khác

Ở trường hợp tĩnh, một dòng tương ứng với nội dung thông tin của một thực thể và được hiểu là một dãy phần tử cơ bản, hầu như có cùng loại Các loại dòng bao gồm văn bản, video và audio Loại dòng xác định ngữ nghĩa và phạm vi ứng dụng của nó Chẳng hạn, theo quan điểm thống kê, bất kỳ biểu diễn văn bản có thể

Trang 29

được coi là một dòng ký tự, sao cho các tài liệu văn bản, như các bài báo khoa học

và sách có thể coi là các dòng có cấu trúc Dòng được định nghĩa hình thức sau đây:

1.4.3 Cấu trúc

Một cấu trúc định rõ cách sắp xếp hoặc tổ chức các thành phần Ở DL, các cấu trúc có thể biểu diễn siêu văn bản, sự phân loại, các kết nối hệ thống, quan hệ NSD, chính sách, dòng dữ liệu và dòng công việc để trích dẫn một ít Chẳng hạn, cuốn sách có thể được cấu trúc thành các chương, mục, tiểu mục và đoạn, hoặc về mặt vật lý thành bìa sách, các trang, đoạn và dòng Cấu trúc định hướng NSD bên trong một không gian thông tin của một tài liệu Thật vậy, các tài liệu có cấu trúc thường dựa vào các ngôn ngữ đánh dấu

Các CSDL quan hệ và hướng đối tượng áp đặt cấu trúc chặt chẽ (gọi là lược đồ) lên dữ liệu, điển hình sử dụng các bảng hoặc đồ thị là đơn vị cấu trúc Chỉ mục

ở hệ thống tìm kiếm thông tin bằng một quá trình bằng tay hoặc tự động không chỉ nhằm cải thiện hiệu năng mà còn để phân nhóm và/hoặc phân loại tài liệu để trợ giúp các yêu cầu tương lai, sinh ra một cấu trúc có tổ chức đối với không gian tài liệu

Với sự tăng tính không đồng nhất của tài liệu liên tục được thêm vào DL, chúng ta tìm thấy nhiều tài liệu là “bán cấu trúc” (semistructured) hoặc không có cấu trúc “Dữ liệu bán cấu trúc” như thế qui về dữ liệu có thể có cấu trúc nào đó, trong đó cấu trúc không phải là cứng nhắc, có qui tắc hoặc đầy đủ như cấu trúc dùng bởi các tài liệu có cấu trúc hoặc các hệ quản trị CSDL truyền thống Các ngôn ngữ truy vấn và giải thuật có thể trích chọn cấu trúc từ dữ liệu này [26] Mặc dù hầu hết công trình có quan điểm “dữ liệu trung tâm” về dữ liệu bán cấu trúc, các công trình gần đây có quan điểm “tài liệu trung tâm” hơn nổi lên Nói chung, loài người

và các thủ tục xử lý ngôn ngữ tự nhiên có thể mở rộng nỗ lực đáng kể để mở ra các cấu trúc trộn lẫn với nhau tìm thấy ở văn bản ở mức cú pháp, ngữ nghĩa, ngữ dụng

và ngôn từ Ở đây, tác giả trình bày định nghĩa về cấu trúc mở rộng từ đồ thị hoặc cây

Trang 30

Định nghĩa 1.15: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một

đồ thị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V ∪ E) → L

Như một dẫn xuất của định nghĩa này, một định nghĩa tiếp theo như sau:

khác (G’, L’, F’) trong đó G’ = (V’, E’) là một đồ thị con của G, L’ ⊆ L và F’ : (V’

∪ E’) → L’

1.4.4 Không gian

Một không gian là tập đối tượng bất kỳ cùng với các phép toán trên các đối tượng này tuân theo các luật nhất định Không kể tính tổng quát của định nghĩa này, không gian là một cấu trúc toán học cực kỳ quan trọng Các phép toán và luật liên quan tới một không gian xác định các thuộc tính của nó [3, 8] Ở ngữ cảnh của DL, Licklider thảo luận các không gian thông tin Về tìm kiếm thông tin, Salton và Lesk trình bày một lý thuyết đại số dựa vào không gian vectơ và cài đặt trong hệ thống SMART [125] Các không gian có thể được sinh ra thành ”không gian đặc tính”, đôi khi sử dụng với ảnh cũng như các CSDL tài liệu và phù hợp với phân nhóm hoặc tìm kiếm xác suất [145, 159] Không gian tài liệu là một khái niệm chính trong

lý thuyết

Tri thức loài người được bắt trong không gian khái niệm Các không gian khác nhau hoặc không gian con có thể quản lý siêu dữ liệu như tác giả và ngày tháng, hoặc quan hệ như các liên kết dựa vào trích dẫn [92] Các hệ thống multimedia phải biểu diễn không gian thực cũng như không gian tổng hợp theo một hoặc một vài chiều, hạn chế bởi không gian trình diễn nào đó (windows, view, projection) và chuyển đổi sang không gian khác để làm cho xử lý thuận tiện như nén [160, 161] Nhiều không gian tổng hợp biểu diễn ở các hệ thống thực tại ảo là tương tự với không gian thực, hoặc với các không gian thông tin có loại khác nhau DL có thể

mô hình hóa thư viện truyền thống bằng cách sử dụng các không gian thực tại ảo hoặc môi trường [59] Các không gian đối với công việc cộng tác trợ giúp máy tính còn cung cấp một ngữ cảnh đối với hội họp ảo và cộng tác [59]

Trang 31

Hơn nữa, không gian được phân biệt bởi các phép toán trên các phần tử của

nó DL có thể sử dụng nhiều loại không gian để chỉ mục, trực quan và các dịch vụ khác Không gian nổi bật nhất đối với DL là không gian đo được, không gian độ đo, không gian xác suất, không gian vectơ và không gian topo Tiếp theo, tác giả trình bày định nghĩa hình thức các khái niệm không gian

các tập con của X thỏa mãn các điều kiện sau đây:

1 Mọi hợp của một tập đếm được gồm các tập thuộc B lại thuộc B, nghĩa là, nếu Ai ∈ B (i = 1, 2, 3, ) thì ∞ A ∈B

1

2 Nếu A ∈ B thì A∈B, trong đó A là phần bù của A đối với X

Một hệ quả của định nghĩa về σ-đại số là giao của một tập đếm được về các tập thuộc B lại thuộc B

X và một σ-đại số B về các tập con của X

Một tập con A của X được gọi là đo được (hoặc đo được đối với B) nếu A ∈

B Một độ đo µ trên không gian đo được (X, B) là một hàm thực mở rộng không âm định nghĩa đối với tất cả tập của B sao cho các điều kiện sau đây được thỏa mãn:

B) với độ đo µ xác định trên B

sao cho µ(X) = 1

với một trường S vô hướng với một phép tính cộng + : V x V → V sao cho nếu x, y,

z thuộc về V và thuộc về S thì:

1 Tồn tại một vectơ duy nhất 0 ∈ V sao cho x + 0 = x đối với mọi x ∈ V;

Trang 32

2 Đối với mỗi vectơ x ∈ V tồn tại một vectơ -x ∈ V sao cho x + (-x) = 0;

một họ T ⊂ 2X tập con của X sao cho:

1 φ ∈ T và X ∈ T;

2 Đối với tập bất kỳ về các tập thuộc T, {Ai ∈ T|i ∈ I}, ∪i∈I Ai cũng thuộc T

và nếu I hữu hạn, ∩i∈I Ai thuộc T

T được gọi là một topo đối với X và các phần tử của T được gọi là tập mở Phần bù của một tập mở được gọi là tập đóng

Không gian vectơ và không gian độ đo thường được xây dựng trên đỉnh của không gian topo, không gian sau là khái niệm cơ bản hơn Sử dụng khái niệm khoảng cách hàm ý một không gian metric cơ sở, là một không gian topo mà tập mở của nó được xác định bởi {y|d(x, y)<r}, trong đó d(x, y) là khoảng cách giữa x và y

Trang 33

Định nghĩa 1.23: Một không gian là một không gian đo được, không gian độ

đo, không gian xác suất, không gian vectơ hoặc một không gian topo

1.4.5 Kịch bản

Một kịch bản là một tường thuật mô tả các cách có thể để sử dụng một hệ thống thực hiện chức năng nào đó mà NSD mong muốn Kịch bản là hữu ích như phần của quá trình thiết kế hệ thống thông tin Kịch bản có thể được sử dụng để mô

tả hành vi hệ thống ngoài theo quan điểm của NSD; cung cấp hướng dẫn xây dựng một nguyên mẫu; hoặc trợ giúp công nhận, suy luận và trợ giúp các đặc tả yêu cầu

và chấp nhận các tiêu chuẩn kiểm thử Các nhà phát triển nhanh chóng nắm được các tiềm năng và tính phức tạp của DL thông qua các kịch bản Kịch bản trình bày điều xảy ra với dòng trong không gian và thông qua cấu trúc Kịch bản trợ giúp tác giả trực quan không gian bằng cách cài đặt các dòng theo quan điểm của cấu trúc Như vậy, thực hiện đồng thời các kịch bản mô tả các dịch vụ, hoạt động, tác vụ và phép toán và chúng cơ bản định rõ các chức năng của DL

Chẳng hạn, các kịch bản NSD mô tả một hoặc nhiều hơn NSD tham gia vào hoạt động có ý nghĩa với một hệ thống đang tồn tại Cách tiếp cận sử dụng như một

mô hình thiết kế đối với ứng dụng hypermedia Các nhu cầu thông tin của con người và các quá trình thỏa mãn chúng trong ngữ cảnh DL, được phù hợp tốt với sự

mô tả kịch bản, bao gồm các loại chính sau đây: tìm hiểu thực tế, học, thu thập và khai thác Hơn nữa, kịch bản giúp hiểu về ảnh hưởng của DL đến tổ chức và cộng đồng [59] Kịch bản cũng trợ giúp xem xét tính phức tạp của các phương pháp xuất bản hiện thời, cũng như cách chúng có thể được tạo lại hình dáng trong kỷ nguyên của DL, xem xét các cách xuất bản, các thành phần liên kết và các chức năng xuất bản [151]

Các khái niệm về trạng thái và sự kiện là cơ bản để hiểu kịch bản Một trạng thái được xác định không hình thức bởi nội dung ở vị trí định rõ, như ở bộ nhớ máy tính, đĩa, trực quan hoặc thế giới thực Một sự kiện biểu thị sự chuyển trạng thái hoặc thay đổi giữa các trạng thái, chẳng hạn, thực thi một lệnh trong một chương trình Các kịch bản định rõ dãy sự kiện, bao gồm các hành động sửa đổi trạng thái

Trang 34

của một tính toán và ảnh hưởng đến sự xuất hiện và kết quả của các sự kiện tương lai Từ đây, dễ dàng nhận thấy cách luồng dữ liệu và luồng công việc ở DL và có thể được mô hình hóa khi sử dụng kịch bản Tiếp theo, tác giả trình bày định nghĩa hình thức các khái niệm sau đây:

V Một tập trạng thái S gồm có một tập hàm trạng thái s : L → V

Như vậy, si(X) là giá trị, hoặc nội dung của vị trí X ở trạng thái si ∈ S

một tập trạng thái S là một phần tử e = (si , sj) ∈ (S x S) của một quan hệ nhị phân trên tập trạng thái S biểu thị sự chuyển trạng thái từ trạng thái này sang trạng thái khác Một sự kiện e được xác định bởi một hàm điều kiện c(si) đánh giá một hàm Boole ở trạng thái si

Sự kiện chuyển trạng thái không phải là một sự kiện xác suất [4] Đúng hơn, thích hợp hơn với sự kiện trong lý thuyết hệ điều hành mạng, sự chuyển trạng thái trong máy trạng thái hữu hạn [1], [7], [13], chúng được mô hình bởi UML (Unified Modeling Language), hoặc sự chuyển trạng thái giữa các vị trí trong mạng Petri Điều kiện được sử dụng để mô tả trường hợp có thể xảy ra chuyển trạng thái Một hành động mô hình hóa một tham chiếu tới một toán tử, lệnh, chương trình con hoặc phương pháp, chịu trách nhiệm thực hiện chuyển trạng thái thực sự Các sự kiện và hành động có thể có các tham số tóm tắt các mục dữ liệu liên quan tới các thuộc tính (nhãn) của một trạng thái

(e1, e2, , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 ≤ k ≤ n

Một kịch bản là một đường đi trong một đồ thị có hướng G = (S, Σe), trong đó các đỉnh tương ứng với các trạng thái trong tập trạng thái S và các cạnh có hướng tương đương với các sự kiện trong tập sự kiện Σe và tương ứng với sự chuyển giữa các trạng thái Về mặt kỹ thuật, G phải là một giả đồ thị có hướng, vì các nút (si, sj)

có thể là các sự kiện Một đồ thị có hướng cho phép cả hai nút và nhiều cạnh giữa các nút

Trang 35

Định nghĩa 1.27: Một dịch vụ, hoạt động, tác vụ, thủ tục hoặc phép toán là một tập kịch bản

Chú ý các kịch bản xác định một dịch vụ có thể chia sẻ các trạng thái Một tập kịch bản như thế liên quan được gọi là một “khung nhìn kịch bản” và một “trường hợp sử dụng” ở UML Ở khuôn khổ này, một dịch vụ truyền đơn giản của dòng được định nghĩa hình thức là:

Định nghĩa 1.28: Cho T = <t1, t2, , tn> là một dòng Cho S là tập trạng thái ban đầu của nguồn trước khi truyền Cho D là tập trạng thái cuối cùng của đích sau khi truyền Cho st là trạng thái thuộc S ∪ D chỉ thị nguồn sẵn sàng truyền dòng mục tin ti Cho dti là trạng thái thuộc S ∪ D chỉ thị đích nhận đúng dòng mục tin ti Cho sự kiện eti = <sti , dti> Một sự truyền dòng T là kịch bản (dãy sự kiện) eT = <

et1 , et2 , , etn> (xem hình 1.2)

Các kịch bản được cài đặt để làm một hệ thống làm việc và như vậy cái gọi là khe hẹp “đặc tả-cài đặt” phải được vượt qua Sự cài đặt kịch bản hình thức có thể được nhận thấy theo 2 cách bổ sung cho nhau Dễ dàng nhận thấy cách ánh xạ định nghĩa kịch bản như phát biểu về một máy tóm tắt biểu diễn bởi một automat hữu hạn tất định (DFA) Automat M = (Q, Σe, δ, q0, F) sao cho M là máy trạng thái khái niệm nhận biết NSD của hệ thống và chấp nhận một ngôn ngữ L(M) qua tập sự kiện

Σe Một văn phạm G = (V, Σe, R, s0) đối với ngôn ngữ L(M) sao cho tập ký hiệu không kết thúc V tương ứng với tập trạng thái S, các ký hiệu là tập hữu hạn các sự kiện Σe , s0 là một trạng thái ban đầu phân biệt khởi tạo tất cả vị trí X và R là một tập hữu hạn luật Mỗi một luật trong R có dạng si → esj và chuyển hệ thống từ trạng thái si sang sj là một kết quả của sự kiện e, hoặc có dạng si → e khi sj ∈ F là một trạng thái cuối cùng Văn phạm và máy trạng thái khái niệm tương ứng hình thành mô hình hình thức tóm tắt mà nhà phân tích sử dụng để bắt, biểu diễn và hiển thị hành vi hệ thống trong phạm vi các kịch bản Ngữ nghĩa biểu thị đưa ra một triển vọng ngôn ngữ lập trình đối với câu hỏi Sự cài đặt về một kịch bản có thể được nhận thấy như sự đặc tả của một chương trình máy tính lý tưởng Chương trình gồm

Trang 36

có các biểu thức (như Boole, số học) được đánh giá và các lệnh được thực thi Các biểu thức được đánh giá đối với một trạng thái riêng sản xuất các giá trị theo kiểu của nó Các giá trị kết quả có thể ảnh hưởng đến sự thực thi lệnh, dẫn đến thay đổi

về trạng thái (hoặc theo thuật ngữ của chúng, sản xuất sự kiện)

Hình thức hơn, tác giả biểu diễn trường hợp của một biểu thức số học a chờ để được đánh giá ở một trạng thái si bằng cặp <a, si> Tác giả xác định một quan hệ đánh giá giữa cặp như thế và số <a, si> → n có nghĩa là: biểu thức a ở trạng thái siđánh giá về số n Vai trò của một lệnh là thực thi, thay đổi trạng thái Một cặp <c,

si> biểu diễn cấu hình lệnh từ đó nó vẫn là thực thi lên c từ trạng thái si Quan hệ

<c, si> → sj biểu diễn sự thực thi đầy đủ lệnh c ở trạng thái si mà ngừng ở trạng thái sj

Ở ngữ nghĩa biểu thị ký hiệu của một lệnh hoặc biểu thức được xác định là một hàm riêng trên các trạng thái Như vậy, chẳng hạn, một biểu thức số học a ký hiệu một hàm A[[a]] : S → R, từ một tập trạng thái đến tập số thức Tương tự, một biểu thức Boole b ký hiệu một hàm B[[b]] : S → T từ tập trạng thái đến tập giá trị logic Một lệnh c ký hiệu một hàm riêng C[[c]] : S → S Dấu ngoặc [[]] là truyền thống theo ngữ nghĩa biểu thị A thực sự là một hàm từ một biểu thức số học exp

Dòng T Trạng thái gốc Trạng thái đích

et1

et2

Stn

dt1

dt2

dtn

D

S

Thời gian Kịch bản

truyền

Hình 1.2 Một kịch bản đối với truyền một dòng

Trang 37

đến hàm A[[exp]] : s → R A[[a]] tức là ký hiệu biểu thức a Ngữ nghĩa của các hàm này được xác định bằng phương pháp quy nạp cấu trúc Ký hiệu về một tổng số học bằng quy nạp cấu trúc là một quan hệ giữa các trạng thái và số như sau:

A[[n]] = {(s,n)| s ∈ S}

A[[X]] = {(s, s(X))| s ∈ S}

A[[a0 + a1]] = {(s, n0 +n1)| (s, n0) ∈ A[[a0]] và (s, a1) ∈ A[[a1]]}

Các quy nạp cấu trúc này trên tổng số học chỉ ra “+” là một hàm trong đó vế trái biểu diễn các ký hiệu cú pháp nhưng ngược lại các ký hiệu ở vế phải biểu diễn các phép toán trên số, nghĩa là, đối với bất kỳ trạng thái s,

A[[3 + 5]]s = A[[3]]s + A[[5]]s = 3 + 5 = 8

Đối với lệnh c tác giả định nghĩa một hàm riêng C[[c]] ánh xạ c từ một hàm C[[c]] : S → S

Tóm lại, các biểu thức và lệnh liệt kê rõ ràng được liên kết với những thay đổi trạng thái (hoặc sự kiện) và định nghĩa một ký hiệu cho mỗi một, tác giả có thể biểu diễn hình thức sự cài đặt về kịch bản Những đặc tả này có thể được chấp nhận hình thức và ánh xạ về ngôn ngữ lập trình nào đó ở một máy tính thực Một cách tiếp cận tương tự tóm tắt quá trình đặc tả của một hành vi chương trình được đề xuất cho phép giữ thuật ngữ dài về thông tin số

1.4.6 Cộng đồng

Một cộng đồng là một tập các thực thể và các hoạt động và các quan hệ giữa chúng Thực thể là phần cứng, phần mềm và con người liên quan với thư viện số Các hoạt động là điều thực thể đã, đang và sẽ làm với nhau Quan hệ thực hiện các kết nối giữa và trong các thực thể và hoạt động của xã hội

Cộng đồng là cần thiết để mô tả ngữ cảnh sử dụng DL, vì cộng đồng là lý do

vì sao thư viện được xây dựng và duy trì Ở ngữ cảnh này, DL được sử dụng nhằm tập hợp, bảo quản và chia sẻ thông tin giữa các thành viên xã hội Chẳng hạn, DL trợ giúp để phát triển quan hệ giữa các độc giả thư viện (thành viên xã hội) và thông tin họ tìm kiếm

Trang 38

Một cộng đồng là thành phần mức cao nhất của thư viện, như một DL tồn tại

để phục vụ các nhu cầu thông tin của xã hội Chẳng hạn, các mô hình nhận thức đối với tìm kiếm thông tin tập trung vào hành vi của NSD (nghĩa là, dạng thức, bản chất

và các thuộc tính của nhu cầu thông tin của một NSD) và vào các cách hệ tìm kiếm thông tin được sử dụng trong môi trường vận hành

Ở DL, cộng đồng loài người định rõ bao gồm độc giả, tác giả, nhà xuất bản, nhà biên tập, nhà bảo trì, nhà phát triển và đội ngũ cán bộ thư viện

Một cộng đồng bao gồm các cá thể Các cá thể có bản chất giống nhau và được tập hợp lại thành cộng đồng bằng cách mô tả thích hợp với tất cả thành viên của cộng đồng Các cá thể có liên quan với nhau thông qua các mối quan hệ Tác giả hình thức hóa khái niệm cộng đồng như sau:

1 C = {c1 , c2, , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu (nghĩa là, người tham gia, hoạt động, thành phần, phần cứng, phần mềm, dữ liệu);

2 R = {r1 , r2, , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej,

ij) trong đó ej là một tích Đề các ck1 x ck2 x x ckn

j, 1 ≤ k1 < k2 < < knj ≤ n, định

rõ các cộng đồng bị dính vào quan hệ và ij là một hoạt động (xem định nghĩa 1.26)

mô tả tương tác hoặc truyền thông giữa các cá thể

1.4.7 Định nghĩa hình thức thư viện số

Như chỉ ra ở trên, không có một định nghĩa thống nhất về DL Điều này làm cho nhiệm vụ định nghĩa hình thức DL gặp khó khăn

Ở đây, tác giả tiếp cận bài toán bằng cách định nghĩa một thư viện số “tối thiểu”, nghĩa là, tập tối thiểu các thành phần tạo nên một thư viện số, mà không có

nó theo quan điểm của tác giả một hệ thống không thể coi là một DL Mỗi thành phần (nghĩa là, CSDL, dịch vụ) được định nghĩa hình thức dựa vào cơ sở toán học ở trên

Theo định nghĩa 1.1 không hình thức của Arms W.Y [31]: Thông tin trong DL được biểu thị theo thuật ngữ đối tượng số, có thể chứa nội dung văn bản hoặc

Trang 39

multimedia (nghĩa là, ảnh, audio, video) và siêu dữ liệu Siêu dữ liệu được định nghĩa không hình thức là dữ liệu về dữ liệu khác Mặc dù sự khác biệt giữa dữ liệu

và siêu dữ liệu thường phụ thuộc vào ngữ cảnh, siêu dữ liệu thường xuất hiện theo một cách có cấu trúc và bao phủ các loại thông tin khác nhau về một đối tượng số Kiểu siêu dữ liệu thông thường nhất là siêu dữ liệu mô tả, bao gồm mục lục, chỉ mục và thông tin tóm tắt khác dùng để mô tả đối tượng trong một DL Đặc trưng thông thường khác của đối tượng số và siêu dữ liệu là sự có mặt của cấu trúc nội tại nào đó, có thể được biểu diễn rõ ràng và khai thác để cung cấp các dịch vụ DL tốt hơn Các dịch vụ cung cấp bởi DL là chỉ mục, tìm kiếm và duyệt Các dịch vụ này

có thể đáp ứng nhu cầu cho các cộng đồng khác nhau phụ thuộc vào vai trò của họ, chẳng hạn, người sáng tạo tài liệu, cán bộ thư viện, khách hàng, v.v

Tiếp theo, tác giả định nghĩa hình thức các khái niệm về siêu dữ liệu (cấu trúc

và mô tả), đối tượng số, CSDL, mục lục, kho, các dịch vụ chỉ mục, tìm kiếm và duyệt, cuối cùng là thư viện số

Định nghĩa nhấn mạnh vai trò của siêu dữ liệu cấu trúc là một biểu diễn hoặc tóm tắt về quan hệ giữa các đối tượng số và các thành phần của chúng

và thuộc tính tương ứng Siêu dữ liệu mô tả là một cấu trúc (G, R ∪ L ∪ P, F), trong

đó đối với mỗi một cạnh có hướng e = (vi , vj) của G, F(vj) ∈ R ∪ L và F(e) ∈ P F(vk) ∈ L nếu và chỉ nếu nút vk có bậc ra bằng 0 Bộ ba st = (F(vi), F(e), F(vj)) được gọi là một mệnh đề, có nghĩa là tài nguyên hoặc chữ gán nhãn F(vi) có thuộc tính F(e) với giá trị F(vj) (có thể được định rõ là tài nguyên khác hoặc một chữ) Định nghĩa nhấn mạnh các quan hệ ngữ nghĩa hàm ý bằng hàm gán nhãn trong cấu trúc

một SS là một hàm V → (N x N) liên kết mỗi một nút vk ∈ V với một cặp số tự nhiên (a, b), a < b, tương ứng với một dãy con kề nhau [Sa , Sb] của dòng S

Trang 40

Do đó, một SS định nghĩa một ánh xạ từ các nút của một cấu trúc đến đoạn của một dòng Một ví dụ về một dòng văn bản có thể nhận thấy ở hình 1.3 Từ ví

dụ, nó có thể được giảm rằng một số cấu trúc có thể được áp đặt trên một dòng và ngược lại Hơn nữa, nó có thể được nhận thấy rằng các đoạn liên kết với một nút nên bao gồm các đoạn của con của nó (ở trường hợp của một cây phân cấp), dù cho

nó không bằng hợp của chúng như “khe” hoặc “lỗ” có thể xuất hiện giữa các đoạn con Cuối cùng, chú ý định nghĩa có hiệu lực đối với các dòng multimedia, như audio, video và ảnh

1 h ∈ H, trong đó H là một tập điều khiển duy nhất phổ biến (nhãn);

2 SM = {sm1, sm2, , smn} là một tập dòng;

3 ST = {st1, st2, , stm} là một tập siêu dữ liệu cấu trúc;

4 SS = {stsm1, stsm2, , stsmp} là một tập hàm SS định nghĩa từ các dòng trong tập SM (thành phần thứ hai) của đối tượng số và từ các cấu trúc trong tập ST (thành phần thứ ba)

Luận án Tiêu đề Tác giả Tóm tắt Chương Chương

Hình 1.3 Một SS đối với luận án

Ngày đăng: 27/02/2021, 11:01

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w