1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề cương ôn tập môn Thư viện số

72 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 0,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

THƯ VIỆN SỐ Câu 1. Trình bày tổng quan về tình hình nghiên cứu và phát triển Thư viện số DL (Digital Library) trên thế giới và ở Việt Nam. a) Trên thế giới Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới Trọng tâm của các dự án DL Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL  Nghiên cứu và phát triển DL ở Mỹ  Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh  2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số giai đoạn 2 (DLI2) và Dự án thư viện số quốc tế  Dự án thư viện số DLI: ....

Trang 1

- Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL

 Nghiên cứu và phát triển DL ở Mỹ

 Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiếnhành ở Mỹ và số lượng tăng nhanh

 2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giaiđoạn 2 (DLI-2) và Dự án thư viện số quốc tế

 Dự án thư viện số DLI:

 Dự án thư viện video số Informedia của Đại học Carnegie MellonCMU

 Dự án dịch vụ thông tin số của Đại học California ở Berkeley

 Dự án Alexandria của Đại học California ở Santa Barbara

 Dự án Interspace của Đại học Illinois ở Urbana-Champaign

 Dự án UMDL của Đại học Michigan

 Dự án InfoBus của Đại học Stanford

 Các dự án DL chủ yếu khác ở Mỹ:

 Thư viện quốc hội (Library of Congress)

 Dự án công nghệ thư viện số DLT của NASA

 Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ

 Dự án thư viện số của IBM

 Dự án thư viện số California CDL

 Chương trình thư viện số D-Lib của DARPA (the Defence AdvancedResearh Project Agency)

 Dự án MOA của hai Đại học Cornel và Michigan

 Dự án Open Book của Đại học Yale

 Dự án hợp tác Red Sage của Đại học California ở San Francisco,Công ty AT&T Laboratories và Springer-Verlag

 Dự án TULIP của nhà xuất bản Elsevier Science Publisher

 DL ở các nước khác

Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tớicác CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp,Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan,Australia, New Zealand

Trang 2

b) Việt Nam

− Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược pháttriển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sựchuyển hướng toàn cầu sang xã hội thông tin

− Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, vớitoàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi

− Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trìnhtin học hoá, là các cổng vào thông tin và là một bộ phận của các thưviện lớn truyền thống ở Việt Nam

 Đại bộ phận thư viện sẽ đi theo con đường: kết hợp các nguồn tintruyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văntrên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoámột phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện choNSD chủ động khai thác thông tin

 Hiện nay, một số phần mềm được cài đặt:

 PM Thư viện số Greenstone của dự án New Zealand Digital Library ởĐại học Quốc gia TP Hồ Chí Minh và nhiều trường Đại học khác

 PM Thư viện số VTLS ở Đại học Bách khoa Hà Nội

 PM Thư viện số Koha ở Đại học Quốc gia Hà Nội

 PM Thư viện số Dspace ở Đại học Đà Lạt

 PM thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia ViệtNam

 PM thư viện điện tử LIBOL của công ty Tinh vân ở Cục Thông tinkhoa học và công nghệ Quốc gia

− Hệ phần mềm nguồn mở Greenstone rất phổ biến trong xây dựng thưviện số PM cung cấp cách tổ chức thông tin và đưa thông tin lênInternet rất thuận tiện Kho tài liệu do Greenstone tạo ra có thể duytrì, tìm kiếm và duyệt Kho tài liệu dành cho mọi đối tượng độc giả và

có thể mở rộng PM được phát hành theo General Public License(GNU) với tinh thần là phần mềm nguồn mở Xem thông tin chi tiếttại www.nzdl.org Phần mềm Thư viện số Greenstone do Dự án Thưviện số New Zealand của trường Đại học Waikato triển khai Có thểtải phần mềm từ www.nzdl.org

− Hệ phần mềm thư viện số Greenstone đang được Tổ chức Giáo dục,Khoa học và Văn hóa của Liên hợp quốc UNESCO ủng hộ và khuyếncáo các nước trên thế giới cài đặt và sử dụng

Câu 2 Trình bày các định nghĩa không hình thức về DL, lợi ích của DL,

ưu điểm và nhược điểm của DL.

a) Trình bày các định nghĩa không hình thức về DL

 Định nghĩa 1 (Arms W.Y.): DL là một kho thông tin có quản lý vớicác dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và cóthể truy cập qua một mạng

Trang 3

 Định nghĩa 2 (Chen H., Houston A.L.): DL là một thực thể liên quantới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạngtoàn cầu

 Định nghĩa 3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữliệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học vàphần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thểtruy cập phổ biến về tất cả tri thức của loài người trong tương lai

 Định nghĩa 4 (Sun Microsystems): DL là sự mở rộng điện tử về cácchức năng điển hình NSD thực hiện và các tài nguyên NSD truy cậptrong thư viện truyền thống

 Định nghĩa 5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng

số, bao gồm văn bản, video và audio cùng với các phương pháp truycập và tìm kiếm, lựa chọn, tổ chức và bảo trì

 Định nghĩa 6 (Liên đoàn Thư viện số - The Digital LibraryFederation): Thư viện số là những tổ chức cung cấp các nguồn lựcgồm cả cán bộ chuyên môn để lựa chọn, xây dựng, truy cập tri thức,giải thích, phân phát, bảo tồn tính toàn vẹn và đảm bảo tính bền vữngvượt thời gian của các kho tài liệu số, do đó chúng luôn sẵn sàng đápứng nhu cầu sử dụng của một cộng đồng cụ thể hoặc của một nhómcộng đồng

 Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng

 Ngoài ra, còn có một số định nghĩa khác về DL:

 “Thư viện số là thuật ngữ được chấp nhận rộng rãi như sự mô tả việc

sử dụng công nghệ số của thư viện để thu thập, lưu trữ, bảo tồn vàcung cấp sự truy cập đến thông tin" - Trung tâm Nghiên cứu và đổimới thư viện Anh

 Thư viện số không phải chỉ là một thực thể đơn lẻ; Thư viện số phải

có công nghệ để liên kết tài nguyên của nhiều dịch vụ; Sự liên kếtgiữa những thư viện điện tử và dịch vụ thông tin phải là trong suốt đốivới người dùng tin đầu cuối; Sự truy nhập đến thư viện điện tử vàdịch vụ thông tin là mục đích; Sưu tập số của thư viện số không chỉgiới hạn ở mẫu tìm của tài liệu; nó được mở rộng cả đến các đốitượng số mà chúng không thể được trình bày hoặc phổ biến ở dạng in

ấn - Hiệp hội Thư viện nghiên cứu

 "Thư viện số là cơ quan/tổ chức có các nguồn lực, kể cả các nguồnnhân lực chuyên hoá, để lựa chọn, cấu trúc việc truy cập đến diễngiải, phổ biến, bảo quản sự toàn vẹn, đảm bảo sự ổn định trong thờigian dài của sưu tập các công trình số hoá mà chúng ở dạng sẵn sàng

để sử dụng một cách kinh tế cho một hoặc một số cộng đồng nhấtđịnh." - Liên đoàn Thư viện Hoa Kỳ

Trang 4

 Thư viện số là nơi trình bày những bộ sưu tập thông tin có tổ chức.Đối tượng của những bộ sưu tập đó là nguồn tài nguyên thông tin sốhóa cùng với các phương thức: truy hồi, chọn lọc, truy cập, tổ chức vàbảo trì bộ sưu tập đó.

 Thư viện điện tử là loại thư viện "sử dụng các phương tiện điện tửtrong thu thập, lưu trữ, xử lý, tìm kiếm và phổ biến thông tin" - VũVăn Sơn

 Thư viện điện tử là thư viện duy trì toàn bộ hay một phần đáng kể sưutập của mình ở dạng máy tính có thể xử lý được như một phương thứcthay thế, bổ sung cho những tài liệu in truyền thống hoặc tài liệu trên

vi hình hiện đang chiếm ưu thế trong thư viện – B Sloan

 “Thư viện điện tử là hệ thống thông tin phân tán cho phép tích hợp,bảo quản và sử dụng một cách hiệu quả những tập hợp đa dạng tàiliệu điện tử, truy cập được ở dạng thuận tiện cho người sử dụng thôngqua mạng truyền dữ liệu toàn cầu" - Chương trình thư viện điện tửcủa Nga

b) Lợi ích của DL

1 Thư viện số mang thư viện đến người sử dụng

2 Máy tính được sử dụng để tìm kiếm và duyệt

3 Thông tin có thể được chia sẻ

4 Thông tin dễ dàng cập nhật hơn

5 Thông tin luôn sẵn có

6 Các dạng thông tin mới trở thành thực hiện được

7 Giá của DL

c) Ưu điểm và nhược điểm của DL

- ƯU ĐIỂM

 Không bị giới hạn về địa lý

 Tiết kiệm không gian

 Phụ thuộc vào nhà cung cấp

 Lưu trữ lâu dài

 Mua quyền truy cập

Câu 3 Trình bày qui trình số hóa tài liệu trong DL.

Câu 4 Trình bày vấn đề bản quyền tài liệu trong DL.

a Khái niệm cơ bản

 Bản quyền (Copyright): thuật ngữ pháp lý mô tả quyền xác định chongười sáng tạo đối với tài liệu và các công trình nghệ thuật của họ

Trang 5

 Vi phạm bản quyền (Copyright infringement): việc sử dụng tài liệuđược bảo vệ bởi luật bản quyền không được phép của chủ sở hữu,hoặc cấp phép và/hoặc bán quyền sử dụng.

 Người sáng tạo (Creator): tác giả của tác phẩm, người mà công trìnhcủa họ được công nhận Chủ sở hữu bản quyền

 Nguyên tắc sử dụng không phải xin phép (Fair use principle): chophép thư viện sao chụp tác phẩm Kiểm tra bốn nhân tố sẽ đảm bảothư viện quyết định việc sử dụng là phải xin phép hay không trongtrường hợp có một bản sao thực làm ra

 Học thuyết chấm dứt quyền sau lần bán đầu tiên (First sale doctrine):điều khoản cho phép thư viện, một khi đã bản sao tác phẩm đúng bảnquyền, quyền phổ biến bản sao không cần phép của chủ sở hữu bảnquyền Lần bán đầu tiên đảm bảo các thư viện mượn sách hoặc tiếnhành mượn liên thư viện không vi phạm luật bản quyền

 Quyền sở hữu trí tuệ (Intellectual Property Right)): sáng tạo trí óc:sáng chế, tác phẩm văn học và nghệ thuật, biểu tượng, tên, ảnh và cácthiết kế dùng trong thương mại

 Quyền tinh thần (Moral rights): quyền dành cho như người sáng tạotác phẩm, thực hiện hành động nếu ai đó gây sai trái hoặc tác phẩm bịxuyên tạc

 WIPO - Tổ chức Sở hữu trí tuệ quốc tế là tổ chức chuyên môn củaLiên hiệp quốc hoạt động trong việc phát triển một hệ thống sở hữu trítuệ quốc tế truy cập được và ổn định dành cho sự sáng tạo, kích thíchcải tiến và góp phần vào phát triển kinh tế trong khi bảo vệ được lợiích chung

b Quyền sở hữu trí tuệ là gì?

- Mở đầu

 Thư viện là cơ quan có nhiệm vụ cung cấp sự truy cập thông tin côngbằng cho cộng đồng nó phục vụ Quyền sở hữu trí tuệ và bản quyềnảnh hưởng đến nhiệm vụ này như thế nào?

 WIPO định nghĩa quyền sở hữu trí tuệ là “sáng tạo trí óc: sáng chế,tác phẩm văn học và nghệ thuật, biểu tượng, tên, ảnh và các thiết kếdùng trong thương mại.”

 Theo WIPO, quyền sở hữu trí tuệ được phân thành hai loại: sở hữucông nghiệp và bản quyền

Trang 6

 Nói chung, người sáng tạo ra tác phẩm là chủ sở hữu bản quyền.Trong trường hợp có từ hai người sáng tạo trở lên, điều quan trọng làcần có một bản cam kết viết ra xem ai là chủ sở hữu bản quyền Mặtkhác, đã có những ngoại lệ với quy định này, và ngoại lệ cũng khácnhau giữa các nước.

 Bản quyền cũng có thể được cấp lại (thí dụ, cho nhà xuất bản) và/hoặchết thời hạn sau khi tác giả chết

- Quyền dành riêng cho chủ sở hữu bản quyền

 Quyền tái bản tác phẩm (gồm sao chụp, sao chép, làm phim, ghi âm

và quét)

 Đưa tác phẩm đến với công chúng lần đầu tiên

 Tuyên truyền tác phẩm với công chúng

 Trình diễn tác phẩm với công chúng (chiếu phim, chơi nhạc)

 Phóng tác (gồm dịch, kịch hoá, chuyển biên)

 Truyền tệp và ghi âm cho công chúng bằng cách sử dụng bất kỳ hìnhthức công nghệ nào (qua thư điện tử, phát thanh, )

 Phát lại trên vô tuyến hoặc truyền hình

- Bản quyền sẽ chấm dứt trong bao lâu?

 Khoảng thời gian bản quyền khác nhau giữa các nước Ở Philippines,khoảng thời gian bản quyền chấm dứt sau khi người sáng tạo chết 50năm

 Ở Ôxtrâylia, từ tháng 1/2005, khoảng thời gian bản quyền là cuộc đờingười sáng tạo công thêm 70 năm hoặc 70 năm từ khi tác phẩm đượcxuất bản lần đầu tiên

 Các điều khoản ở Hoa Kỳ còn phức tạp hơn

- Vi phạm bản quyền là gì?

 Vi phạm bản quyền là sử dụng tài liệu được bảo vệ bản quyền khôngđược phép của chủ sở hữu, hoặc cấp phép và/hoặc bán trái phép

- Các hoạt động không vi phạm bản quyền

 Đó là các hoạt động thuộc sử dụng không phải xin phép

 Sử dụng thông tin, không nằm trong diện bảo vệ bản quyền

- Các tác phẩm không được bảo vệ bản quyền

 Ý tưởng, quá trình, hệ thống, phương pháp hoặc hoạt động, kháiniệm, nguyên lý, phát hiện hoặc siêu dữ liệu cũng như sự kiện nếuđược diễn tả, giải thích, minh hoạ hoặc kèm trong một tác phẩm

 Tin tức hàng ngày và các sự kiện linh tinh khác có tính chất bìnhthường của thông tin báo chí

 Tài liệu luật, hành chính hoặc có tính pháp lý, cũng như các bản dịchchính thức của các tài liệu này

 Tài liệu của chính phủ; tuy nhiên cần phải xin phép trước khi khaithác vì mục đích lợi nhuận

Trang 7

 Tác giả của các bài nói chuyện, bài giảng, bài thuyết giáo, bài luậnvăn sẽ có độc quyền tạo ra bộ sưu tập các tác phẩm của họ.

- Quyền tinh thần: Bổ sung cho bản quyền, người sáng tạo có các quyền tinhthần Đó là các quyền dành cho người sáng tạo tác phẩm, thực hiện hànhđộng nếu ai đó xâm phạm tác phẩm hoặc tác phẩm bị xuyên tạc

- Học thuyết chấm dứt quyền sau lần bán đầu tiên là gì?

 Khi thư viện hoặc cá nhân mua hợp pháp một bản sao tác phẩm, Họcthuyết chấm dứt quyền sau lần bán đầu tiên của luật bản quyền (17U.S.C Section 109) cho phép thư viện hoặc cá nhân này có thể thựchiện quyền dành riêng khác của bản quyền-quyền phổ biến bản sao-không cần phép của chủ sở hữu bản quyền

 Lần bán đầu tiên đảm bảo cho thư viện mượn sách và tiến hành cácdịch vụ liên thư viện không cần cam kết không vi phạm bản quyền

- Hướng dẫn sử dụng không phải xin phép: Việc sao chép cá nhân một tácphẩm đã xuất bản ra một bản sao duy nhất, ở đây việc sao chép được thựchiện bởi một người tự nhiên chỉ cho mục đích nghiên cứu hoặc học tập cánhân, sẽ được phép, không cần sự cho phép của chủ sở hữu bản quyền tácphẩm Mặt khác, bản quyền sẽ không được mở rộng cho:

 Sao chép toàn bộ cuốn sách hoặc phần quan trọng của nó hoặc nhạcphẩm dưới dạng đồ hoạ bằng các phương tiện sao chụp;

 Tập hợp dữ liệu và các tài liệu khác;

- Phân tích 4 yếu tố về sử dụng không phải xin phép: Sử dụng việc kiểm trasau đây để xác định việc sử dụng có phải là không cần xin phép hay không:

– Mục đích và đặc điểm sử dụng là gì? Đó sử dụng có bản chấtthương mại hay mục đích đào tạo phi lợi nhuận,

 Lưu trữ những tác phẩm bị phá huỷ, hư hỏng, ăn cắp và mất

 Sao chụp cho người dùng thư viện

Trang 8

 Sao chụp cho những người dùng khác (mượn liên thư viện).

- Trình diễn và trưng bày trong dạy trực tiếp và đào tạo từ xa: Các cơ quangiáo dục cũng được phép trưng bày và trình diễn tác phẩm khác trong cáckhoá học có giảng dạy trực tiếp, và mức độ ít hơn trong đào tạo từ xa

- Bảo vệ bản quyền quốc tế: Không có gì là bảo vệ bản quyền quốc tế,nhưng phần lớn các nước có bảo vệ các tác phẩm nước ngoài theo các hiệpước và công ước quốc tế

- Ghi nhớ: Nếu không chắc chắn về các điều khoản của luật này, để áp dụng

cụ thể, cần xin giấy phép sử dụng tài liệu từ chủ sở hữu bản quyền và/hoặc

tư vấn luật sư vì luật bản quyền ở các nước khác nhau thì khác nhau Mặtkhác, cũng nên nhớ rằng, do công ước quốc tế, có sự dành cho nhau nhữngđặc quyền trong luật này với các nước tham gia công ước, hiệp ước hoặcnghị định liên quân đến quyền sở hữu trí tuệ

c Luật bản quyền hiện hành có áp dụng trong thời đại số hay không?

- Mở đầu: Mục đích của luật bản quyền là cân bằng quyền của chủ sở hữubản quyền và người dùng Luật bản quyền hiện hành có áp dụng được trongthời đại số hay không? Thư viện mua thông tin để cung cấp bình đẳng chocộng đồng của mình Vì ngày càng có nhiều thông tin phổ biến dưới dạng

số, nên thư viện cần phải chú ý để đảm bảo cho công chúng có thể đượchưởng các quyền truy cập giống như với thông tin dạng in

- Bản sao số: Bản quyền dựa trên việc sao chép tài liệu Trong thời đại in,việc sao chụp có thể nhận biết được, và một trong các quyền dành riêng chichủ sở hữu bản quyền là sao chụp Trong thời đại số, các bản sao số đượctạo ra ngay khi tài liệu này được truy cập

- Cấp phép và quyền sở hữu: Ngày nay các thư viện không bổ sung tài liệu

số để sở hữu riêng Thay vào đó họ mua quyền truy cập, mà đòi hỏi đặt muadài hạn liên tục

- Vấn đề bảo quản: Luật bản quyền cho phép thư viện sao chụp tài liệu in vàsao chép tài liệu điện tử với mục đích bảo quản

- Đăng ký trước điện tử

 Luật bản quyền hạn chế việc đặt trước tài liệu điện tử ở các chương,bài báo đơn lẻ, một số biểu đồ và các minh hoạ khác, hoặc nhữngphần nhỏ của tác phẩm

 Truy cập cũng có thể hạn chế cho các thành viên của lớp và cần chấmdứt vào cuối khoá học này Giấy phép cũng có thể cần thiết đối vớinhững tài liệu mà sẽ được sử dụng lại sau này

- Ngoại lệ đối với thư viện và cơ quan lưu trữ

 Theo Đạo luật bản quyền ở Hoa Kỳ, mục 404 của đạo luật bản quyềnthiên niên kỷ số (DMCA) bổ sung mục 108 của đạo luật bản quyền

 Mục “Hạn chế các quyền đặc biệt: Tái bản bởi thư viện và cơ quanlưu trữ”

- Kết luận

Trang 9

 Mặc dù DMCA đã có hiệu lực năm 2000, những vẫn còn những vấn

đề bất ổn và các mối quan tâm về bản quyền trong thời đại số Đó làvấn đề ở Hoa Kỳ cũng như ở bất kỳ nước nào Một lần nữa, xin lưu ýrằng nên tư vấn luật sư về các vấn đề bản quyền cụ thể

 Dùng Internet để tìm các luật trong nước bạn tác động đến bản quyềntrong thời đại số Nếu không có, hãy tìm các diều khoản bản quyềntác động đến thư viện ở nước bạn

Câu 5 Trình bày mô hình hình thức cho DL.

x An

 Định nghĩa 3: Cho trước hai tập hợp A và B, một hàm f là một quan

hệ nhị phân trên A x B sao cho đối với mỗi một a ∈ A tồn tại b ∈ Bsao cho (a,b) ∈ f và nếu (a,b) ∈ f và (a,c) ∈ f thì b = c Tập hợp Ađược gọi là miền xác định của f và tập hợp B được gọi là miền giá trịcủa f Ký pháp f : A → B và b = f(a) là một ký pháp chung đối với(a,b) ∈ f Tập hợp {f(a)| a ∈ A} được gọi là vùng của f

 Định nghĩa 4: Một dãy là một hàm f , có miền xác định là tập hợp các

số tự nhiên hoặc tập con ban đầu nào đó của {1, 2, , n} của các số

tự nhiên và miền giá trị của nó là tập bất kỳ

Cho Σ là một bảng chữ Σ* ký hiệu tập hợp tất cả xâu từ Σ, bao hàmxâu rỗng (một dãy rỗng ε) Một ngôn ngữ là một tập con của Σ*

 Định nghĩa 7:

Một đồ thị G là một cặp (V, E), trong đó V là một tập đỉnh không rỗng

và E là một tập của một tập cạnh {u, v}, u, v ∈ V Một đồ thị có hướng G làmột cặp (V, E), trong đó V là một tập đỉnh (nút) không rỗng và E là một tậpcạnh (cung) trong đó mỗi một cạnh là một cặp thứ tự đỉnh phân biệt (vi, vj)với vi, vj ∈ V và vi ≠ vj Cạnh (vi, vj) được gọi là liên thuộc trên các đỉnh

vi và vj, trong đó vi kề với vj và vj kề từ vi

Trang 10

 Định nghĩa 8:

Một văn phạm phi ngữ cảnh là một bộ bốn (V, Σ, R, s0) trong đó V làmột tập biến gọi là không kết thúc, Σ là bộ chữ ký hiệu kết thúc, R là mộttập luật hữu hạn và s0 là một phần tử phân biệt của V gọi là ký hiệu bắt đầu

Một luật/ một sản xuất là một phần tử của tập V x (V ∪ Σ)* Mỗi mộtsản xuất có dạng SX →α trong đó SX là một ký hiệu không kết thúc và α làmột xâu ký hiệu (kết thúc và/hoặc không kết thúc)

2 Dòng: Một dòng là một dãy có miền giá trị là một tập không rỗng

3 Cấu trúc: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một đồthị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F làmột hàm gán nhãn F : (V ∪ E) → L

4 Không gian: Một không gian là một không gian đo được, không gian độ

đo, không gian xác suất, không gian vector hoặc một không gian topo

5 Kịch bản: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 ≤ k ≤n

6 Cộng đồng

Một cộng đồng là một bộ (C, R), trong đó:

C = {c1 , c2, , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu;

R = {r1 , r2, , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj

= (ej, ij) trong đó ej là một tích Đề các ck1 x ck2 x x cknj , 1 ≤ k1 < k2

< < knj ≤ n, định rõ các cộng đồng bị dính vào quan hệ và ij là một hoạt động mô tả tương tác hoặc truyền thông giữa các cá thể

7 Định nghĩa hình thức thư viện số

a) Lý do xây dựng thư viện số

- Lý do chính: DL phân phát thông tin tốt hơn thư viện truyền thống

- Số lượng tài liệu ngày càng tăng

- Sự phát triển của công nghệ thông tin và các hình thức xuất bản mới

- Nhu cầu của người sử dụng thay đổi

- Các hình thức tìm tin mới

- Vai trò của thư viện thay đổi

b) Các bước cơ bản của dự án xây dựng DL

Trang 11

1 Xác định dự án

2 Phác thảo kế hoạch triển khai DL

3. Thực hiện

1 Xác định dự án

Nêu mục đích, mục tiêu rõ ràng, xác định đối tượng độc giả và nội dung:

- Phát triển hình ảnh và nhiệm vụ Thư viện là các nguồn thông tin hàngđầu; là trung tâm thông tin quan trọng nhất dành cho sinh viên, giảng viên

và nhân viên của trường đại học/ cao đẳng Để thực hiện nhiệm vụ củamình, thư viện phát triển các kho tài liệu, tổ chức kho tài liệu để truy cập,cung cấp khả năng truy cập các nguồn thông tin khác, dạy người dùng các

kỹ năng thư viện, tuyển dụng và đào tạo cán bộ các kỹ năng cần thiết để thưviện hoạt động, cung cấp phương tiện và dịch vụ thúc đẩy nghiên cứu và họctập

- Lập mục đích và mục tiêu

+ Mục đích là mục tiêu dài hạn hình thành cùng với hình ảnh của tổ chức + Mục tiêu là những hoạt động cụ thể mà tổ chức muốn hoàn thành trongmột giai đoạn nào đó, thường là trong vòng một năm Mục tiêu mang tínhngắn hạn, chỉ tiêu phấn đấu có thể đạt được

2 Phác thảo kế hoạch triển khai thư viện số

Xác định các nguồn yêu cầu và phác thảo các nhiệm vụ khác nhau,chiến lược và thời hạn để hoàn thành mục đích Chiến lược do các phươngpháp cấu thành, được thiết kế để hoàn thành mục đích và mục tiêu Chiếnlược bao gồm kế hoạch hành động, người phụ trách, thời hạn và các nguồncần có Bảng dưới đây là bản mẫu của một kế hoạch hành động

Người phụtrách

Ngày dự kiếnhoàn thành

Các nguồn lực yêu cầu:

- Nội dung vốn tài liệu số đáp ứng nhu cầu của đối tượng độc giả và mụctiêu của dự án

- Nhân sự và những kỹ năng cần thiết để xây dựng, tổ chức và quản lý thưviện số và thức hiện các nhiệm vụ cần thiết trong xây dựng thư viện số

- Hạ tầng công nghệ thông tin (VD: phần cứng, phần mềm, khả năng kếtnối)

- Phân bổ ngân sách

- Hỗ trợ và hợp tác của các đơn vị chính tham gia

- Khảo sát môi trường Điểm chung của tất cả các định nghĩa và nhiệm vụnày là nhu cầu khảo sát môi trường kỹ lưỡng để có thể chuẩn bị một hìnhảnh cho tương lai và chiến lược để đạt được tương lai đó

- Các công cụ cùng các tiêu chuẩn và giao thức tương ứng cho việc cung cấpthông tin và dịch vụ và mô tả việc bảo trì và đánh giá hệ thống sẽ được thựchiện nằm trong chiến lược xây dựng thư viện số

3 Thực hiện

Trang 12

- Lựa chọn nội dung Tiêu chí lựa chọn cần phải mở rộng

- Tổ chức tài liệu gốc để số hoá, lưu giữ, truy cập, tìm kiếm và tra cứu

- Cung cấp dịch vụ Nghiên cứu thị trường và cung cấp các dịch vụ phù hợp

- Tìm kiếm và sử dụng các công nghệ và công cụ chuyên dụng cho kế hoạch

- Bảo trì hệ thống Liên tục giám sát và bảo trì hệ thống là biện pháp cầnthiết để nâng cao chất lượng dịch vụ tốt hơn

- Thực hiện các chiến lược marketing Thư viện số cần được tiếp thị tớingười dùng hiện tại và tiềm năng Có rất nhiều cách xúc tiến việc sử dụngthư viện số

- Giám sát và đánh giá hoạt động của thư viện Đánh giá hoạt động định kỳ

sẽ cho phép ban quản lý định hướng lại kế hoạch nhằm đáp ứng những thayđổi của môi trường Nhu cầu tái định hướng có thể do những thay đổi côngnghệ, chính sách…

 Khảo sát môi trường: Điểm chung của tất cả các định nghĩa và nhiệm

vụ này là nhu cầu khảo sát môi trường kỹ lưỡng để có thể chuẩn bịmột hình ảnh cho tương lai và chiến lược để đạt được tương lai đó

 Kho tài liệu: Tiêu chí lựa chọn tài liệu của tổ chức cần phải rõ ràng.Tài liệu lựa chọn phải phù hợp với tiêu chí đề ra: chủ đề, yêu cầu, tínhduy nhất và giá trị Tài liệu còn phải có giá trị sử dụng lâu dài Đôikhi một ấn phẩn mới có thể thay thế ấn phẩm hiện có

 Bản quyền: Mục đích của thư viện số là cung cấp truy cập vốn tài liệu

từ xa Bản quyền là vấn đề quan trọng cần cân nhắc trong xây dựngthư viện số vì chức năng phân phối lại của thư viện số

 Công nghệ:

- Có công nghệ để số hoá tài liệu in và tài liệu dạng thu nhỏ Chí phí dànhcho công nghệ tốn kém và đôi khi việc mua công nghệ có thể là sự lựa chọntốt hơn Ngoài ra, việc tạo ra các công cụ truy cập cần phải cân nhắc kỹ vìchi phí bỏ ra có thể rất cao Công nghệ OCR vẫn chưa thực sự đáng tin cậy

- Tiếp nhận và xây dựng hạ tầng công nghệ thông tin cần thiết Lựa chọn hệthống thư viện số dựa vào nhu cầu và khả năng của cơ quan (Ví dụ: ngânsách, khả năng chuyên môn) Bạn nên lựa chọn hệ thống có bán trên thịtrường hay hệ thống sử dụng phần mềm nguồn mở do chính bạn xây dựng?

Câu 7 Trình bày tóm tắt các phương pháp chỉ mục tài liệu trong DL.

 Định nghĩa 2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc

dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiệnnào đó

Trang 13

 Định nghĩa 3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là mộtcách tìm kiếm thông tin

 Định nghĩa 4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ chotrước trong văn bản

 Định nghĩa 5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữtrong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danhsách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính,trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đóxuất hiện IL đôi khi được coi là một danh sách mục lục và các con trỏ

 Xây dựng chỉ mục tệp đảo IFID

+ Xây dựng chỉ mục là một trong những nhiệm vụ thách thức nhất phảiđương đầu khi xây dựng một CSDL

+ Ở đây, ta đề cập đến bài toán xây dựng chỉ mục tệp đảo IFID, vì đây làdạng chỉ mục thiết thực nhất đối với cả hai truy vấn BQ và RQ

+ Quá trình xây dựng chỉ mục được coi là sự đảo văn bản Từ điển TheConcise Oxford Dictionary định nghĩa “sự đảo là đảo lộn trên dưới, đảo

vị trí, trật tự hoặc quan hệ bình thường” và đây đúng là điều phải làm đểtạo lập chỉ mục

2 CHỈ MỤC TỆP KÝ SỐ SFID

 Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản Mỗimột tài liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệutheo một nghĩa nào đó

 Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằngcách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị ma trận bit

Câu 8 Trình bày phương pháp chỉ mục tệp đảo tài liệu IFID trong DL Câu 9 Trình bày phương pháp chỉ mục tệp ký số tài liệu SFID trong DL.

Câu 10 So sánh 2 phương pháp chỉ mục tệp đảo tài liệu IFID và chỉ mục tệp ký số tài liệu SFID.

 Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là haiphương pháp chỉ mục chính tài liệu trong thư viện số

 Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thựchiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độtruy vấn IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớncác tài liệu văn bản có độ dài có thể thay đổi

Câu 11 Trình bày mô hình tìm kiếm thông tin tổng quát IR trong DL.

Trang 14

 Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánhgiá thông tin có liên quan tới nhu cầu thông tin của NSD.

 Mô hình IR tổng quát là một cặp bao gồm các đối tượng và một ánh

xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diệncho một truy vấn

Cho

D = {d1, d2, , dM}, M ≥ 2 (1)

là một tập hữu hạn không rỗng đối tượng

 Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầmthường Các đối tượng tiêu biểu là đại diện

Cho ℜ là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó ρ(D), nghĩalà,

Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm ℜ, định nghĩa cấutrúc tìm kiếm thông tin như sau:

 Định nghĩa 1 (cấu trúc tìm kiếm thông tin):

Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, ℜ> (3)

Định nghĩa 1 là một định nghĩa tổng quát: nó không đề cập đến về cácdạng riêng biệt của ánh xạ tìm kiếm ℜ và đối tượng D Từ đó, các mô hình

IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và ℜ

 Định nghĩa 2 (mô hình tìm kiếm thông tin MIR):

Mô hình tìm kiếm thông tin MIR là một SIR S = <D, ℜ> với 2 thuộctính sau đây:

i q = δ ⇒ µãi(q, δ) = 1 ∀i, q, δ (tính phản xạ); (4)

ii ℜi (q) = {δ ∈ D| µãi(q, δ) = max µãk(q, δk)}∩ aαi, i cố định tùy ý.trong đó:

+ T = {t1, t2, , tN} là một tập hữu hạn thuật ngữ chỉ mục, N ≥ 1;

+ O = {o1, o2, , oU} là một tập hữu hạn đối tượng, U ≥ 2;

+ (Dj)j ∈ J = {1, 2, , M} là một họ cluster đối tượng, Dj ∈ ρ(O), M ≥ 2;

D = {δj| j ∈ J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa δj = {(tk ,

δµj(tk))| tk ∈ T, k = 1, , N}, j = 1, , M, δµj : T → S ⊆ [0, 1] ⊂ R là đạidiện cluster của cluster đối tượng Dj

+ A = {ã1, , ãC} là một tập hữu hạn tiêu chuẩn, C ≥ 1, trong đó ãi = {((q,

δj), µãi(q, δj)) | δj∈ D, j =1, , M}, i = 1, , C là một quan hệ mờ chuẩnhóa, µãi : D x D → [0, 1] ⊂ R, q ∈ D cố định tùy ý

 Theo truyền thống, IR kinh điển có thuộc tính phân đôi (lưỡng cực)trong đó có 2 tiêu chuẩn rõ ràng:

Trang 15

i có mặt và không có mặt;

ii tìm kiếm được thực hiện dựa vào (i)

+ aαi = {δ ∈ D| µãi(q, δ) > αi}, i = 1, , C là một αi-lát cắt tiêu chuẩnmạnh ãi, αi ≥ 0, q ∈ D cố định tùy ý;

+ ℜ : D →ρ(D) là một ánh xạ tìm kiếm Về mặt hình thức, tìm kiếm nghĩa

là liên kết một tập con tài liệu với một truy vấn nếu chúng liên quan vớinhau – tuân theo một tiêu chuẩn lựa chọn - đủ mạnh

Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìmkiếm được định nghĩa dùng α-lát cắt

 Định nghĩa 3: R.B Yates và B.R Neto

Một mô hình tìm kiếm thông tin là một bộ bốn: [D, Q, F, R(qi, dj)]trong đó:

+ D là một tập các tài liệu;

+ Q là một tập hợp các truy vấn của NSD;

+ F là một khung mô hình hóa các biểu diễn tài liệu, truy vấn và các quan hệgiữa chúng;

+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi ∈ Q

và một biểu diễn tài liệu dj ∈ D Hàm sắp xếp xác định thứ tự giữa các tàiliệu đối với truy vấn qi

Khảo sát 3 kiểu truy vấn:

 Truy vấn Boole BQ truyền thống;

 Truy vấn xếp hạng RQ;

 Mô hình tìm kiếm thông tin xác suất

Câu 12 Trình bày phương pháp truy vấn xếp hạng tài liệu RQ trong DL.

Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:

i i i

y x Y

X

Trang 16

 Cách tiếp cận so khớp toạ độ có 3 hạn chế:

1 Không tính đến tần suất thuật ngữ

2 Không tính đến sự khó tìm thuật ngữ

3 Các tài liệu dài với nhiều thuật ngữ

− Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :

Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu

− Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng

số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trongvectơ truy vấn

− Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng củatích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệutương ứng:

S(Q, Dd) = Q Dd =Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau: S(Q, Dd) =

− Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch vớihạng của nó Tức là, nếu hạng được coi là một độ đo tầm quan trọngthì trọng số wt của một thuật ngữ t được tính như sau:

trong đó: ft là số tài liệu chứa thuật ngữ t

− Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:

1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t

để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tínhtheo một số cách khác nhau

2 Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh

 Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo

Các vectơ tài liệu được tính như sau:

t d, t

q, w w

Trang 17

wd,t = rd,t hoặc wd,t = rd,t wt (TF x IDF)

 Chú ý:

+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là cáchàm đưa ra tên của chúng Một heuristic độ tương tự được gọi là “TF x IDF”bất kỳ khi dùng tần suất thuật ngữ fd,t tăng đều và tần suất tài liệu của thuậtngữ ft giảm đều

+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự

− Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài Do đó, luật tích trong đánh giá độ tương tự bằng

trong đó là độ dài của tài liệu Dd

3) Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

Hướng chỉ thị bởi 2 vectơ

Công thức có 2 hàm ý:

1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu

2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng

Luật cosin đối với xếp hạng:

trong đó

d

t , d t

, q Q

t

w

w )

D , Q (

D Q

S

1

2 , ,

) , (

i n

i i

n i

i i

y x

y x Y

X

Y X

1

2 1

D Q

D Q )

D , Q

W

1

2 ,

t d

n 1

t q td

q

w

∑ w W

W

1

=

=

Trang 18

là độ dài Euclide – trọng số – của tài liệu d và

là trọng số của truy vấn q

Độ tương tự:

Câu 13 Trình bày mô hình tìm kiếm thông tin xác suất trong DL.

- Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probabilityranking principle): Nếu đáp ứng của một hệ tìm kiếm thông tin với mỗi mộtyêu cầu của NSD là một dãy các tài liệu sắp xếp theo thứ tự giảm dần củacác xác suất liên quan, các xác suất ở đây được đánh giá là độ chính xác cóthể trên CSDL có sẵn thì toàn bộ hiệu quả của hê đối với NSD sẽ là tốt nhấttrên CSDL đó

- Mô hình tìm kiếm thông tin xác suất như sau:

+ Định nghĩa 1 (PIR): Mô hình tìm kiếm thông tin xác suất PIR là một MIR

S = <D, ℜ> thỏa mãn điều kiện sau đây: C = 2

Chúng ta lấy C = 2 là vì ở mô hình IR xác suất truyền thống có 2 tiêu chuẩn:

có liên quan và không liên quan

+ Định nghĩa 2 (PIR): định nghĩa 1 có thể được định nghĩa lại như sau: Môhình tìm kiếm thông tin xác suất PIR là một MIR S = <D, ℜ>

trong đó: C = 2 và

ℜ(q) = {δ|µãi(q,δ) ≥ µãj(q, δ)}, j = i + (-1)i+1, µãi(q, δ) > α

+ Định nghĩa 3 (mô hình tìm kiếm thông tin xác suất kinh điển)

Cho D là một tập tài liệu, q ∈ D một truy vấn và P(R|(q, d)) xác suất tài liệu

d ∈ D là có liên quan /không liên quan với truy vấn q tương ứng Cho R(q)

là tập tài liệu tìm kiếm đáp ứng truy vấn q Một tài liệu d được lựa chọn đápứng một truy vấn q nếu

P(R|(q, d)) ≥ P(I|(q, d)) (Luật quyết định Bayes) nghĩa là: R(q) = {d| P(R|(q, d)) ≥ P(I|(q, d))}

− Chính xác hơn, P(R|(q, d)) và P(I|(q, d)) là xác suất liên đới tới d khi

nó được xét có liên quan và không liên quan tới q tương ứng

− Đánh giá P(R|(q, d)) và P(I|(q, d)) dựa vào công thức Bayes

∑1

2 ,

n t

t q

d e q

d

d

f

N 1

log )

f log 1

( W

W

1 )

D

,

Q

cos(

Trang 19

Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q ∈ D vàhai tiêu chuẩn ã1 và ã2 là liên quan và không liên quan tương ứng Cho

µãi(q, δ), i = 1, 2 là mức độ mà một đối tượng bất kỳ d ∈ D thỏa mãn tiêuchuẩn ãi liên quan tới q

+ Định nghĩa 4 (PIR): Mô hình tìm kiếm thông tin xác suất PIR là một MIR

− Các xác suất có điều kiện có thể được đánh giá từ bảng 1

P [có liên quan | thuật ngữ t có mặt] = Rt / ft

Trang 20

 trọng số wt đối với thuật ngữ t nhận được dùng công thức Bayes:

- SỰ PHẢN HỒI LIÊN QUAN

− Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm

− Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn Q đềuđược coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt.Chiến lược đơn giản nhất như sau:

trong đó:

+ Dn là tài liệu xếp hạng cao nhất không liên quan;

+ R là tập tài liệu có liên quan

 Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trongnhững tài liệu không liên quan ảnh hưởng đến truy vấn mới và baohàm dự trữ sẵn cho truy vấn ban đầu nhằm ảnh hưởng đến tất cả truyvấn tiếp theo:

trong đó:

π, ω, λ và η là các hằng trọng số (với η≤ 0);

R là tập con tài liệu có liên quan;

I là một tập con tài liệu không liên quan bởi vì đáp ứng của NSD với cácphép lặp truy vấn

câu14 Trình bày mô hình tìm kiếm không gian vector trong DL và Đánh giá hiệu suất tìm kiếm tài liệu trong DL

1) Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

Hướng chỉ thị bởi 2 vectơ

d R

d

d i

)) (

/(

) (

) /(

t t

t t

t

t t

R R f

N R

f

R R

R w

d n

D Q

S

1

2 , ,

) , (

i n

i i

n i

i i

y x

y x Y

X

Y X

1

2 1

2 1

cos θ

Trang 21

Công thức có 2 hàm ý:

1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu

2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng

Luật cosin đối với xếp hạng:

trong đó

là độ dài Euclide – trọng số – của tài liệu d và

là trọng số của truy vấn q

Độ tương tự:

2) ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM

Độ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn:

Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất:

 Độ chính xác P:

kiem lieu tim

tai so tong

quan lien

co kiem lieu tim

tai so

P =

quan lien

co lieu tai

so tong

kiem tim

duoc quan

lien co

lieu tai

D Q

D

Q )

D , Q

W

1

2 ,

∑1

2 ,

n t

t q

t

e t,

d e q

d

d

f

N 1

log )

f log 1

( W

W

1 )

1

t q td

q

w

∑ w W

W

1

=

=

Trang 22

 Độ phục hồi R:

trong đó:

NT là tổng số tài liệu có liên quan tới một truy vấn q, NT ≠ 0;

| ℜ(q) | = κ là số tài liệu tìm kiếm được đáp ứng q, κ ≠ 0;

NR là số tài liệu có liên quan tìm kiếm được

 Định đề: Tỉ số giữa độ phục hồi và độ chính xác R / P thay đổi tuyến tính đối với κ

Chứng minh:

NR = R NT = P κ⇒ R / P = κ / NT

Câu 15 Trình bày tóm tắt các chuẩn trình bày trong DL.

ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP

a ASCII

− American Standard Code for Information Exchange

− Tiêu chuẩn Việt Nam: TCVN 5712-1993

− Văn bản chỉ có ký tự, không có lệnh trình bày (plain text file) Vănbản bằng ký tự ASCII không có khả năng trình bày các công thức toánhọc và hoá học

− Thường phải được nhập thủ công vào CSDL

+ Không bảo toàn được nguyên dạng của trang

+ Không hỗ trợ đa ngôn ngữ (255 ký tự)

b UNICODE

− Dùng cho văn bản

− Tiêu chuẩn Việt Nam: TCVN 6909-2001

− Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự

Trang 23

– Phụ thuộc sự phát triển của công ty

– Đòi hỏi bản quyền

 Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở

 Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn dữ liệukhông độc quyền

 Ngôn ngữ đánh dấu tổng quát chuẩn SGML

Standard Generalized Markup Language

 SGML là cách thức trình bày tài liệu số bằng các mã đánh dấu

 Là tiêu chuẩn ISO 8879 (Information processing Text and officesystems - Standard Generalized Markup Language)

 Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu trúc

 Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ liệu Thídụ:

 <Title>Đây là nhan đề tài liệu</Title>

 Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên tắc

 Cấu trúc tài liệu SGML

Gồm 3 phần

– Phần 1: Phần thông báo (Statement)

<?sgml version="1.0" encoding="ISO-8859-1"?>

– Phần 2: Định nghĩa phần tử tài liệu

– DTD - Document Type Definition

Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả làgì, )

– Phần 3: Nội dung tài liệu

 Định nghĩa phần tử dữ liệu (DTD)

DTD Document Type Definition

 DTD xác định các khối thông tin hợp lệ của một tài liệu SGML

 DTD xác định cấu trúc của tài liệu thông qua một danh mục các yếu

Trang 24

 Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc

 Phức tạp, phát triển ứng dụng tốn kém

 Phải có trình duyệt riêng để đọc

 Điều quan trọng để ứng dụng SGML là xây dựng DTD

 HTML

HyperText Mark-up Language

− Là một ứng dụng của SGML dùng cho tài liệu WEB

− Đơn giản hoá SGML

− Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi cộng đồng

– Được đọc bằng những trình duyệt (Browser)

– Được các công ty hỗ trợ phát triển trình duyệt: Internet

Explorer, Netscape Navigator, Mosaic,

<Title>Nhan đề trang Web</Title>

<meta name=“subject” content=“Thông tin”>

 Thẻ trợ giúp mô tả tài liệu HTML

 Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong phần

<Head> của tài liệu

Trang 25

− Là một dạng của SGML và được World Wide Web Consortium(W3C) đề xuất

− Đơn giản hơn SGML

− Linh hoạt hơn HTML

− Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo trong tạo lậpcác tài nguyên điện tử

 Đặc điểm của XML

− XML là ngôn ngữ đánh dấu tương tự HTML

− Được thiết kế để chứa/trao đổi dữ liệu nhưng không để trình bày dữliệu

− Các thẻ XML không được xác định trước Người dùng tự xác định cácthẻ của mình

− XML được thiết kế để tự mô tả (self-descriptive)

− Tổ chức 3WC gọi XML là:

"một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ liệu"

 Sự khác biệt giữa XML và HTML

 XML không thay thế HTML

 XML và HTML được thiết kế cho 2 mục đích khác nhau:

– XML dùng để chứa và chuyển tải dữ liệu XML định hướng dữ liệu

– HTML được thiết kế để trình bày dữ liệu

 XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu Phải có phầnmềm để xử lý

 XML là tệp văn bản không mã hóa

 Người dùng tự quy định thẻ cho tài liệu (thí dụ <title> and <author>)

 Không có thẻ XML mặc định

 XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho Internet

 XHTML: phiên bản mới nhất của HTML

 RDF and OWL for describing resources and ontology

RDF = Resource Description FormatOWL = Ontology Web Language

 Cấu trúc tài liệu XML

 Tương tự như SGML

 Gồm 3 phần

– Phần 1: Phần thông báo

– Phần 2: Định nghĩa phần tử tài liệu

DTD - Document Type Definition

Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô

tả là gì, )

– Phần 3: Nội dung tài liệu

 Định nghĩa phần tử dữ liệu XML DTD

Trang 26

 Mục tiêu của DTD là xác định cấu trúc của một tài liệu XML

 Thông báo các yếu tố hợp lệ trong tài liệu

– <!DOCTYPE note [

– <!ELEMENT note (to,from,heading,body)>

– <!ELEMENT to (#PCDATA)>

– <!ELEMENT from (#PCDATA)

– <!ELEMENT heading (#PCDATA)

– <!ELEMENT body (#PCDATA)>]>

 Dùng để tự xác định các thành phần của tài liệu XML

 Với DTD, những nhóm người sử dụng khác có thể hiểu và xử lý đượctài liệu XML và trao đổi được DL

 Dùng làm chuẩn để kiểm định tài liệu XML, kiểm định dữ liệu

 Ký hiệu đặc biệt - Entities

Một số ký tự có nghĩa với XML được định nghĩa sẵn trong XML

Trang 27

 Mọi yếu tố XML phải có thẻ đóng (Closing Tag)

 Thẻ XML phân biện chữ hoa-chữ thường (Case Sensitive)

– Thẻ <Letter> khác với <letter>

– Thẻ mở và thẻ đóng phải có cùng kiểu viết hoa/viết thường

 Yếu tố XML phải được lồng ghép chính xác

 Tài liệu XML phải có một yếu tố gốc (Root Element)

Tài liệu XML phải chứa 1 yếu tố làm cao nhất cho mọi yếu tố khác

 Các giá trị thuộc tính XML phải được đặt trong ngoặc kép

 Khái niệm Định dạng đúng "Well formed"

XML có cú pháp đúng được gọi là "Well Formed" XML

 Khái niệm Hợp lệ "Valid XML"

XML được thẩm định so với DTD là XML "Valid" (Hợp lệ)

 Định dạng đúng (Well Formed XML)

− Có cú pháp đúng

− Có yếu tố gốc (root element)

− Mọi yếu tố phải có thẻ đóng

− Thẻ XML phân biệt chữ hoa/thường

− Yếu tố được lồng ghép chính xác

− Giá trị thuộc tính thẻ XML phải được đặt trong dấu ngoặc kép

Trang 28

– tiêu chuẩn ISO 8879 (SGML):

– để sử dụng được phải phát triển các DTD

 Không phải XML thay thế MARC mà một sơ đồ siêu dữ liệu nào đó

sử dụng XML sẽ được chấp nhận dùng chung cho thư viện

 Một số loại siêu dữ liệu ứng dụng với XML

 MARC với XML: MARCXML

 METS - Metadata Encoding and Transformation Standards

 MODS – Metadata Object Description Schema

 Dublin Core Metadata Element

 TEI – Text Encoding Initiatives

 EAD – Encoded Archival Description

 OAI – Open Archive Initiative

− Mầu sắc có thể đạt đến 256 màu (8 bit)

− Chuẩn riêng, là sở hữu trí tuệ của Công ty Compuserve

− Thường dùng cho biểu đồ, biểu tượng (icons)

Trang 29

− PNG được dự kiến sử dụng thay cho định dạng GIF.

Câu 16 Trình bày tóm tắt các chuẩn biên mục tự động trong DL.

I Khổ mẫu MARC, UNIMARC, CCF

 ISO 2709 chỉ đưa ra cấu trúc tổng quát

 Không quy định cụ thể nhãn của trường (có thể là ký tự, là số)

 Không quy định mã trường con

 Các nước và một số tổ chức quốc tế áp dụng ISO 2709 để đưa ranhững khổ mẫu chuẩn

 Một số khổ mẫu nổi tiếng:

– USMARC  MARC21

– UNIMARC

– CCF = Common Communication Format

a Khổ mẫu MARC

Machine Readable Cataloguing

- Từ năm 1964, do Thư viện Quốc hội Mỹ xây dựng

- Nhiều hệ thống thư viện trên thế giới áp dụng => trở thành chuẩn De facto

- Theo MARC => UKMARC, CANMARC, AUSMARC, SINGMARC,THAIMARC

- MARC trở thành thuật ngữ chung,

- MARC của Mỹ được gọi là USMARC

MARC21

− TVQH Mỹ và TVQG Canada phối hợp phát triển MARC 21

− Hai nhóm chịu trách nhiệm chính về MARC 21:

+ Uỷ ban Thông tin thư mục đọc máy MARBI (MachineReadable Bibliographic Information Committee), của ALA+ Uỷ ban Tư vấn về MARC: gồm các đại diện của các thư việnquốc gia, các tổ chức thư mục, các nhóm cung cấp dịch vụ sảnphẩm (bán hàng)

 Năm 1997, TVQH Mỹ ban hành tài liệu "MARC 21 - Những đặc tảcho cấu trúc biểu ghi, bộ mã kỹ tự, và phương tiện trao đổi" (MARC

21 - Specifications for Record Structure, Character sets, andExchange Media)

 Mục đích của MARC21

− Khổ mẫu MARC 21 là chuẩn để trình bày và trao đổi thông tin thưmục và những thông tin liên quan dưới dạng máy tính đọc được(machine-readable)

Trang 30

− Được sử dụng để làm khổ mẫu biờn mục cho cỏc nước

 Cấu trỳc

− 3 thành phần:

+ cấu trỳc biểu ghi (record structure);

+ định danh nội dung (content designation);

+ nội dung dữ liệu

Cấu trỳc biểu ghi MARC 21 là một triển khai ứng dụng của chuẩn Mỹ

ANSI Z39.2 (Information Exchange Format)

− Chuẩn ANSI39.2 tương đồng với chuẩn ISO 2709

− Biểu ghi MARC21 là tập hợp các mã và định danh nộidung được quy định thống nhất để mã hoá các biểughi trao đổi máy tính đọc được

− Mọi thông tin lưu trữ trong biểu ghi MARC được lưu dướidạng ký tự Biểu ghi trao đổi được mã hoá theo ký tựtrong Bảng mã ASCII mở rộng (extended ASCII)

 Sử dụng khổ mẫu

− Là khổ mẫu trao đổi; không áp đặt những chuẩn lưutrữ dữ liệu bên trong hệ thống và chuẩn trình bày dữliệu (display format) của từng hệ thống riêng biệt

− Khổ mẫu MARC 21 cố gắng tạo ra sự tương hợp với một

số khổ quốc gia (như UKMARC) và quốc tế (nhưUNIMARC)

Cấu trúc biểu ghi

- Đầu biểu ghi (Leader): 24 ký tự

- Danh mục (Directory): danh mục về các trường có trongbiểu ghi Kết thúc bằng dấu kết thúc trường

- Các trường dữ liệu (gồm hai nhóm là trường kiểm soát vàtrường dữ liệu)

Trang 31

− Độ dài biểu ghi 00-04

− Trạng thái biểu ghi 05

– f - Tư liệu bản đồ vẽ tay

– g - Tư liệu chiếu hình hay video (phim, hình ảnh

động, phim cuộn, phim máy chiếu (slide), giấy chiếu trong, băng hoặc đĩa ghi hình,

– i - Băng hoặc đĩa ghi âm không phải nhạc (nhưghi âm bài phát biểu, tiếng nói, )

– j - Băng hoặc đĩa ghi âm là nhạc

– k - Tư liệu đồ hoạ hai chiều (ảnh, bản vễ thiếtkế, )

– l - Tư liệu điện tử, tư liệu trên nguồn điện tử– m - Tư liệu đa phương tiện (multimedia)

– o - Bộ tư liệu (kit), chứa tập hợp chứa nhiều thànhphần trên các dạng khác nhau

– p - Tư liệu hỗn hợp

 Sơ đồ mục

Trang 32

Thông tin ghi vào Vị trí Giá trị

− Vùng danh mục bắt đầu ở vị trí 24 của mỗi biểu ghi

− Trường kiểm soát không có chỉ thị;

− Trường dữ liệu có chỉ thị (có độ dài biến động)

− Chỉ chứa Dữ liệu và mã kết thức trường mà không cónhãn trường

Trang 33

+ 0XX Khối trường kiểm soát, số và mã

+ 1XX Khối trường về tiêu đề chính

+ 2XX Khối trường Nhan đề và thông tin liên quan

đến nhan đề

 Khối trường

− 4XX Khối trường về tùng thư

− 5XX Khối trường phụ chú

− 6XX Khối trường điểm truy cập chủ đề

− 7XX Khối trường Tiêu đề bổ sung

− 8XX Khối trường tiêu đề tùng thư bổ sung

− 9XX Khối trường thông tin cục bộ

− Phiên bản MARC Lite: trên Web và trên giấy)

 Nguyên tắc phát triển trường cục bộ

− MARC21 có thể áp dụng cho các nước hoặc thư viện

− Các nước hoặc thư viện có thể thêm vào các trường

đặc thù (LOCAL FIELDS)

− Những trường này không dùng trao đổi

− Cập nhật vào các nhóm trường sau:

+ Khối 9XX: trường cục bộ

+ Nhóm trờng X9X của từng khối

UNIMARC

− 1977, IFLA phỏt triển UNIMARC (UNIversal Marc format)

− Tổ chức duy trỡ phỏt triển UNIMARRC:

+ Uỷ ban thường trực UNIMARC của IFLA (PermanentUNIMARC Committee (PUC)),

+ Ban thư ký của Uỷ ban này là: Chương trỡnh Kiểm soỏt thưmục toàn cầu và MARC cốt lừi quốc tế của IFLA (IFLAUniversal Bibliographic Control and International MARC CoreProgramme (UBCIM)

Trang 34

+ UNIMARC khụng được thay đổi để bao quỏt biờn mục khụngtuõn thủ ISBD hoặc mõu thuẫn với chuẩn này

− Phiờn bản mới nhất: 1994 (trờn Website IFLA)

 Mục đích và phạm vi của Unimarc

 Mục đích:

– Mục đích chính: hỗ trợ trao đổi thông tin thưmục quốc tế dưới dạng máy tính đọc được giữacác cơ quan biên mục quốc gia

– UNIMARC sử dụng là mô hình để phát triển cáckhổ mẫu thư mục đọc máy mới

 Phạm vi:

– xác định các định danh nội dung (nhãn trường,chỉ thị và mã trường con) cho các biểu ghi thưmục máy tính đọc được

– Xác định cấu trúc lôgic và vật lý của biểu ghi– Sử dụng cho: chuyên khảo, xuất bản phẩm nhiều

kỳ, tài liệu bản đồ, âm nhạc, ghi âm, đồ hoạ, tàiliệu chiếu hình, sách hiếm, nguồn tin điện tử

 Cấu trúc UNIMARC

− Không khác biệt về nguyên tắc với MARC 21

− ứng dụng tiêu chuẩn ISO 2709 về cấu trúc biểu ghi trao

đổi thông tin

− Chỉ khác nhau về quy định nhãn trường, trường con

 Đặc trưng của UNIMARC

− Tuân thủ nguyên tắc mô tả của ISBD

− Không chú trọng đến tiêu đề mô tả mà chỉ chú trọng

điểm truy cập

− Có sự liên kết giữ các tưrờng (Linking Fields)

− Cách sắp xếp trường không theo trình tự xuất hiệntrên phiếu thư mục (MARC - theo trình tự xuất hiệntrên phiếu thư mục)

 Các trường của UNIMARC

Chia thành các khối sau:

1 0XX- Khối nhận dạng (Identification block) - 7 trường

2 1XX- Khối thông tin mã hoá (Coded Information block) - 9trường

3 2XX - Khối thông tin mô tả (Descriptive Block) - 8 trường

4 3XX - Khối phụ chú (Notes)

5 4XX - Khối trường liên kết (Linking Entry block): 29 trường

6 5XX- Khối Nhan đề liên quan (Related title block): 16 ường

Trang 35

tr-7 6XX - Khối phân tích chủ đề (Subject analysis block): 12trường

8 7XX - Khối trách nhiệm trí tuệ (Intellectial responsibilityblock) - 9 trường

9 8XX - Khối trường sử dụng quốc tế

10 9XX - Khối trường quốc gia

 Các trường bắt buộc có trong biểu ghi unimarc

001* Mã số biểu ghi (RECORD IDENTIFIER)

100* Dữ liệu xử lý chung (GENERAL PROCESSING DATA)

101 Ngôn ngữ (LANGUAGE OF THE WORK (when applicable))

120 Dữ liệu mã hoá - Tài liệu bản đồ CODED DATA FIELD:CARTOGRAPHIC MATERIALS GENERAL (Chỉ đối với tài liệubản đồ)

123 Dữ liệu mã hoá Tỷ lệ và toạ độ bản đồ (chỉ đối với tàiliệu bản đồ)

200* Nhan đề và thông tin trách nhiệm (TITLE ANDSTATEMENT OF RESPONSIBILITY (Trường con A)

206 Vùng dữ liệu toán học của bản đồ (CARTOGRAPHICMATERIALS MATHEMATICAL DATA)

801* Nguồn tin gốc

Những trường có dấu (*) phải có mặt trong tất cả các biểughi

c CCF - Common Communication Format

− Do UNESCO phỏt triển năm 1984

− Đơn giản hơn

− Sử dụng làm cơ sở để có thể phát triển CSDL riêngcho từng cơ quan

 Đặc điểm sử dụng CCF

− Chỉ có một tập hợp tối thiểu trương bắt buộc có để

đảm bảo cung cấp thông tin về tài liệu thư mục

− Cung cấp một số yếu tố bắt buộc và lựa chọn một cáchmềm dẻo để thích hợp với các thực tiễn biên mục khácnhau

Trang 36

− Cho phép cơ quan sử dung CCF có thể đưa vào nhữngyếu tố chưa chuẩn hoá

− Đưa thêm thông tin liên kết (linking) để có thể liên kếtmột nhóm biểu ghi mà không băt buộc cơ quan biênmục phải thực hiện những xử lý phức tạp

− Cấu trúc biểu ghi tuân thủ ISO 2709

− Biểu ghi cốt lõi chỉ chứa một số không nhiều ường bắt buộc

tr-− Có nhiều trường bổ sung để hỗ trợ các trườngbắt buộc

− Sử dụng kỹ thuật chuẩn đề tạo sự liên kết giữacác biểu ghi

d MARC XML

 Yờu cầu thiết kế

1 Đơn giản và linh hoạt

2 Chuyển đổi khụng mất dữ liệu giữa MARC21 sang XML

3 Chuyển đổi được từ XML sang MARC

4 Trỡnh bày được dữ liệu

5 Chỉnh sửa dữ liệu theo MARC

6 Chuyển đổi dữ liệu

7 Duyệt dữ liệu MARC (Validation of MARC data)

8 Cú khả năng mở rộng

Kiến trỳc MARC XML

Chuyển đổi được MARC 21 (2709) sang/từ cỏc khổ mẫu MARC 21 (XML)

và XML khỏc

II Siờu dữ liệu Metadata

Hiện nay cú một số sơ đồ siờu dữ liệu đang được sử dụng

TEI – Text Encoding Initiative

EAD – Encoded Archival Description

OAI – Open Archive Initiative

Dublin Core

a Sỏng kiến Mó hoỏ văn bản (TEI)

TEI Text Encoding Initiative http://www.tei-c.org/

− Bắt đầu từ năm 1987

− Năm 1994: Hướng dẫn TEI với hơn 1400 trang

Ngày đăng: 06/05/2021, 12:56

TỪ KHÓA LIÊN QUAN

w