1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài Giảng Thư Viện Số Ts. Đỗ Quang Vinh

133 863 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 133
Dung lượng 1,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Ngôn ngữ đánh dấu tổng quát chuẩn SGML Standard Generalized Markup Language  SGML là cách thức trình bày tài liệu số bằng các mã đánh dấu  Là tiêu chuẩn ISO 8879 Information process

Trang 1

PHD DO QUANG VINH

Email: dqvinh@live.com

HANOI - 2013

Trang 2

BÀI GIẢNG THƯ VIỆN SỐ

TS ĐỖ QUANG VINH

Email: dqvinh@live.com

Trang 3

NỘI DUNG

I TỔNG QUAN VỀ THƯ VIỆN SỐ DL

II MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL

III CHỈ MỤC TÀI LIỆU

IV TÌM KIẾM THÔNG TIN

V CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ

VI THỰC HÀNH HỆ PHẦN MỀM

THƯ VIỆN SỐ GREENSTONE

Trang 4

V CÁC CHUẨN SỬ DỤNG TRONG DL

5.1 Chuẩn trình bày

ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP

a ASCII

American Standard Code for Information Exchange

Tiêu chuẩn Việt Nam: TCVN 5712-1993

Văn bản chỉ có ký tự, không có lệnh trình bày (plain

text file) Văn bản bằng ký tự ASCII không có khả năng trình bày các công thức toán học và hoá học.

Thường phải được nhập thủ công vào CSDL

Trang 5

+ Không bảo toàn được nguyên dạng của trang.

+ Không hỗ trợ đa ngôn ngữ (255 ký tự)

Trang 6

b UNICODE

Dùng cho văn bản

Tiêu chuẩn Việt Nam: TCVN 6909-2001

Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự

Vẫn còn ít chương trình hỗ trợ UNICODE

Trang 7

– Phụ thuộc sự phát triển của công ty

– Đòi hỏi bản quyền

Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở

Trang 8

 Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn

dữ liệu không độc quyền

Trang 9

 Ngôn ngữ đánh dấu tổng quát chuẩn SGML

Standard Generalized Markup Language

SGML là cách thức trình bày tài liệu số bằng các mã đánh

dấu

Là tiêu chuẩn ISO 8879 (Information processing Text and

office systems - Standard Generalized Markup Language)

Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu

trúc

Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ

liệu Thí dụ:

<Title>Đây là nhan đề tài liệu</Title>

Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên

tắc.

Trang 10

 Cấu trúc tài liệu SGML

Gồm 3 phần

– Phần 1: Phần thông báo (Statement)

<?sgml version="1.0" encoding="ISO-8859-1"?>

– Phần 2: Định nghĩa phần tử tài liệu

– DTD - Document Type Definition

Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )

– Phần 3: Nội dung tài liệu

 Định nghĩa phần tử dữ liệu (DTD)

DTD Document Type Definition

 DTD xác định các khối thông tin hợp lệ của một tài liệu

SGML

 DTD xác định cấu trúc của tài liệu thông qua một danh

Trang 11

<!ELEMENT from (#PCDATA)>

<!ELEMENT heading (#PCDATA)>

<!ELEMENT body (#PCDATA)> ]>

Nội dung của văn bản

Tài liệu là Note

Có 4 yếu tố: to, from, heading, body

Những yếu tố này đều dạng

dữ liệu Character (ký tự)

Trang 13

 Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc

 Phức tạp, phát triển ứng dụng tốn kém

 Phải có trình duyệt riêng để đọc

 Điều quan trọng để ứng dụng SGML là xây dựng DTD

 Ví dụ về ứng dụng:

TEI – Text Encoding Initiative

Trang 14

HTML

HyperText Mark-up Language

Là một ứng dụng của SGML dùng cho tài liệu WEB

Đơn giản hoá SGML

Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi

cộng đồng sử dụng Web

Các thẻ HTML được thống nhất toàn cầu (W3C –

WWW Consortium)

Trang 15

 Ưu nhược điểm của HTML

 Ưu điểm

– Đơn giản

– Có định hướng đến trình bày

– Được đọc bằng những trình duyệt (Browser)

– Được các công ty hỗ trợ phát triển trình duyệt: Internet

Explorer, Netscape Navigator, Mosaic,

 Nhược điểm

– Phải chờ thông qua cho thẻ mới

– Số thẻ hạn chế

Trang 16

 Cấu trúc của tài liệu HTML

Dữ liệu hiển thị trên màn hình

Trang 17

 Thẻ trợ giúp mô tả tài liệu HTML

 Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong phần <Head> của tài liệu

Trang 18

<META NAME="DC.SUBJECT" CONTENT="Lúa lai">

<META NAME="DC.SUBJECT" CONTENT="Giống cây

trồng">

<META NAME="DC.SUBJECT" CONTENT="Gieo trồng">

<META NAME="DC.IDENTIFIER"

CONTENT="/THUVIENDIENTU/BOOK/Vb/2001/Vb44.pdf">

Trang 19

Ngôn ngữ đánh dấu mở rộng XML

XML eXtensible Markup Language

Là một dạng của SGML và được World Wide Web

Consortium (W3C) đề xuất

Đơn giản hơn SGML

Linh hoạt hơn HTML

Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo

trong tạo lập các tài nguyên điện tử

Trang 20

 Đặc điểm của XML

XML là ngôn ngữ đánh dấu tương tự HTML

Được thiết kế để chứa/trao đổi dữ liệu nhưng không để trình bày dữ liệu

Các thẻ XML không được xác định trước Người dùng tự xác định các thẻ của mình

XML được thiết kế để tự mô tả (self-descriptive)

Tổ chức 3WC gọi XML là:

"một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ liệu"

Trang 21

 Sự khác biệt giữa XML và HTML

 XML không thay thế HTML

 XML và HTML được thiết kế cho 2 mục đích khác nhau:

– XML dùng để chứa và chuyển tải dữ liệu XML định

hướng dữ liệu

– HTML được thiết kế để trình bày dữ liệu

 XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu Phải có phần mềm để xử lý.

 XML là tệp văn bản không mã hóa

 Người dùng tự quy định thẻ cho tài liệu (thí dụ <title> and

<author>)

 Không có thẻ XML mặc định

Trang 22

 XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho

Internet

 XHTML: phiên bản mới nhất của HTML

 RDF and OWL for describing resources and ontology

RDF = Resource Description Format

OWL = Ontology Web Language

 Cấu trúc tài liệu XML

 Tương tự như SGML

 Gồm 3 phần

– Phần 1: Phần thông báo

– Phần 2: Định nghĩa phần tử tài liệu

DTD - Document Type Definition

Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )

Trang 24

– <!ELEMENT from (#PCDATA)

– <!ELEMENT heading (#PCDATA)

– <!ELEMENT body (#PCDATA)>]>

Trang 26

 Tại sao cần DTD

 Dùng để tự xác định các thành phần của tài liệu XML

 Với DTD, những nhóm người sử dụng khác có thể hiểu và xử

lý được tài liệu XML và trao đổi được DL

 Dùng làm chuẩn để kiểm định tài liệu XML, kiểm định dữ

Trang 27

 Ký hiệu đặc biệt - Entities

Một số ký tự có nghĩa với XML được định nghĩa sẵn trong XML Thực thể Ký tự

Trang 28

 Cú pháp XML

 Mọi yếu tố XML phải có thẻ đóng (Closing Tag)

 Thẻ XML phân biện chữ hoa-chữ thường (Case Sensitive)

– Thẻ <Letter> khác với <letter>.

– Thẻ mở và thẻ đóng phải có cùng kiểu viết hoa/viết thường

 Yếu tố XML phải được lồng ghép chính xác

 Tài liệu XML phải có một yếu tố gốc (Root Element)

Tài liệu XML phải chứa 1 yếu tố làm cao nhất cho mọi yếu tố khác

 Các giá trị thuộc tính XML phải được đặt trong ngoặc kép

<note date="12/11/2007">

<to>Tove</to>

Trang 30

 Thẩm định XML

XML Validation

 Khái niệm Định dạng đúng "Well formed"

XML có cú pháp đúng được gọi là "Well Formed" XML

 Khái niệm Hợp lệ "Valid XML"

XML được thẩm định so với DTD là XML "Valid" (Hợp lệ)

 Định dạng đúng (Well Formed XML)

Có cú pháp đúng

Có yếu tố gốc (root element)

Mọi yếu tố phải có thẻ đóng

Thẻ XML phân biệt chữ hoa/thường

Yếu tố được lồng ghép chính xác

Giá trị thuộc tính thẻ XML phải được đặt trong dấu ngoặc

Trang 31

– tiêu chuẩn ISO 8879 (SGML):

– để sử dụng được phải phát triển các DTD

 Không phải XML thay thế MARC mà một sơ đồ siêu

dữ liệu nào đó sử dụng XML sẽ được chấp nhận dùng chung cho thư viện

Trang 32

 Ví dụ về lược đồ XML đơn giản

<xs: element name=”sach”>

<xs: complexType>

<xs:sequence>

<xs: element name = “tensach” type =”xs:string”/>

<xs: element name = “tacgia” type =”xs:string”/>

<xs: element name = “nhaxb” type =”xs:string”/>

<xs: element name = “namxb” type =”xs:string”/>

<xs:sequence>

<xs: complexType>

<xs:element>

Trang 33

 Một số loại siêu dữ liệu ứng dụng với XML

 MARC với XML: MARCXML

 METS - Metadata Encoding and Transformation Standards

 MODS – Metadata Object Description Schema

 Dublin Core Metadata Element

 TEI – Text Encoding Initiatives

 EAD – Encoded Archival Description

 OAI – Open Archive Initiative

Trang 34

 Mô hình truy vấn dữ liệu có hỗ trợ XML

NSD truy

vấn

Kết quả trả về cho NSD

Trang 36

 Tệp ảnh GIF

GIF: Graphic Interchange Format

Phần mở rộng tên tệp: *.GIF

Mầu sắc có thể đạt đến 256 màu (8 bit)

Chuẩn riêng, là sở hữu trí tuệ của Công ty Compuserve

Thường dùng cho biểu đồ, biểu tượng (icons)

Trang 38

5.2.2 Siêu dữ liệu Metadata

TEI – Text Encoding Initiative

EAD – Encoded Archival Description

OAI – Open Archive Initiative

Dublin Core

Trang 39

5.2.1 Khổ mẫu MARC, UNIMARC, CCF

ISO 2709 chỉ đưa ra cấu trúc tổng quát

Không quy định cụ thể nhãn của trường (có thể là ký tự, là

số)

Không quy định mã trường con.

Các nước và một số tổ chức quốc tế áp dụng ISO 2709 để

đưa ra những khổ mẫu chuẩn

Một số khổ mẫu nổi tiếng:

– CCF = Common Communication Format

Trang 40

a Khổ mẫu MARC

Machine Readable Cataloguing

Từ năm 1964, do Thư viện Quốc hội Mỹ xây dựng

Nhiều hệ thống thư viện trên thế giới áp dụng => trở thành chuẩn De facto

Theo MARC => UKMARC, CANMARC, AUSMARC, SINGMARC, THAIMARC

MARC trở thành thuật ngữ chung,

MARC của Mỹ được gọi là USMARC

Trang 41

 MARC21

TVQH Mỹ và TVQG Canada phối hợp phát triển MARC 21

Hai nhóm chịu trách nhiệm chính về MARC 21:

+ Uỷ ban Thông tin thư mục đọc máy MARBI (Machine Readable Bibliographic Information Committee), của ALA

+ Uỷ ban Tư vấn về MARC: gồm các đại diện của các thư viện quốc gia, các tổ chức thư mục, các nhóm cung cấp dịch vụ sản phẩm (bán hàng)

Trang 42

 Năm 1997, TVQH Mỹ ban hành tài liệu "MARC 21 - Những đặc tả cho cấu trúc biểu ghi, bộ mã kỹ tự, và phương tiện trao đổi" (MARC 21 - Specifications for Record Structure, Character sets, and Exchange Media)

 Mục đích của MARC21

Khổ mẫu MARC 21 là chuẩn để trình bày và trao đổi thông tin thư mục và những thông tin liên quan dưới dạng máy tính đọc được (machine-readable).

Trang 43

 Cấu trúc

3 thành phần:

+ cấu trúc biểu ghi (record structure);

+ định danh nội dung (content designation);

+ nội dung dữ liệu

Cấu trúc biểu ghi MARC 21 là một triển khai ứng dụng của chuẩn Mỹ ANSI Z39.2 (Information Exchange Format)

Chuẩn ANSI39.2 tương đồng với chuẩn ISO 2709

Trang 44

Biểu ghi MARC21 là tập hợp các mã và định danh nội dung đ ợc quy định thống nhất để mã hoá các biểu ghi trao đổi máy tính đọc đ ợc.

Mọi thông tin l u trữ trong biểu ghi MARC đ ợc l u d ới dạng ký tự Biểu ghi trao đổi đ ợc mã hoá theo ký tự trong Bảng mã ASCII mở rộng (extended ASCII).

Sử dụng khổ mẫu

Là khổ mẫu trao đổi; không áp đặt những chuẩn

l u trữ dữ liệu bên trong hệ thống và chuẩn trình bày dữ liệu (display format) của từng hệ thống riêng biệt

Khổ mẫu MARC 21 cố gắng tạo ra sự t ơng hợp với một số khổ quốc gia (nh UKMARC) và quốc tế (nh

Trang 45

 CÊu tróc biÓu ghi

§Çu biÓu ghi (Leader): 24 ký tù

Danh môc (Directory): danh môc vÒ c¸c tr êng cã trong biÓu ghi KÕt thóc b»ng dÊu kÕt thó tr êng

C¸c tr êng d÷ liÖu (gåm hai nhãm lµ tr êng kiÓm so¸t vµ tr êng d÷ liÖu):

M· kÕt thóc tr êng

M· kÕt thóc biÓu ghi.

Trang 47

 §Çu biÓu ghi (LEADER)

24 ký tù

Tr¹ng th¸i biÓu ghi 05

Lo¹i biÓu ghi 06

Trang 48

 vÞ trÝ 06 - Lo¹i biÓu ghi

Trang 49

–i -ư Băngưhoặcư đĩaưghiưâmưkhôngưphảiưnhạcư(nhưư ghiư âmư bàiưphátưbiểu,ưtiếngưnói, )

–pư-ưTưưliệuưhỗnưhợp

Trang 51

 Danh môc

tr êng trong biÓu ghi MARC 21

Th«ng tin VÞ trÝ

Nh·n tr êng (3 ký tù) 00-02

§é dµi tr êng (4 ký tù)03-06

VÞ trÝ ký tù b¾t ®Çu (5 ký tù) 07-11

Trang 52

C¸c tr êng d÷ liÖu

C¸c tr êng d÷ liÖu ® îc ® a ra ngay sau phÇn

Danh môc C¸c tr êng nµy chia thµnh 2 nhãm:

Trang 56

 H ớng dẫn MARC21

− Phiênưbảnưđầyưđủư(updateư1):ưhơnư210ưtrường

− Phiênưbảnưtómưtắtư(ConciseưVersion):ưtrênưWeb

− PhiênưbảnưMARCưLite:ưtrênưWebưvàưtrênưgiấy)

Trang 57

 Nguyên tắc phát triển tr ờng cục bộ

MARC21 có thể áp dụng cho các n ớc hoặc th viện

Các n ớc hoặc th viện có thể thêm vào các tr ờng đặc thù (LOCAL FIELDS)

Những tr ờng này không dùng trao đổi

Cập nhật vào các nhóm tr ờng sau:

+ Khốiư9XX:ưtrườngưcụcưbộ

+ NhómưtrườngưX9Xưcủaưtừngưkhối

Trang 59

UNIMARC

1977, IFLA phát triển UNIMARC (UNIversal Marc format)

Tổ chức duy trì phát triển UNIMARRC:

+ Uỷ ban thường trực UNIMARC của IFLA (Permanent

UNIMARC Committee (PUC)), + Ban thư ký của Uỷ ban này là: Chương trình Kiểm soát thư

mục toàn cầu và MARC cốt lõi quốc tế của IFLA (IFLA Universal Bibliographic Control and International MARC Core Programme (UBCIM)

+ UNIMARC không được thay đổi để bao quát biên mục không

tuân thủ ISBD hoặc mâu thuẫn với chuẩn này

Phiên bản mới nhất: 1994 (trên Website IFLA)

Trang 60

 Mục đích và phạm vi của Unimarc

 Mục đích:

–Mụcưđíchưchính:ưhỗưtrợưtraoưđổiưthôngưtinưthưưmụcưquốcưtếưdướiưdạngưmáyưtínhưđọcưđượcưgiữaưcácưcơưquanưbiênưmụcưquốcưgia

–UNIMARCưsửưdụngưlàưmôưhìnhưđểưphátưtriểnưcácưkhổưmẫuưthưưmụcưđọcưmáyưmới

 Phạm vi:

–xácưđịnhưcácưđịnhưdanhưnộiưdungư(nhãnưtrường,ưchỉưthịưvàưmãưtrườngưcon)ưchoưcácưbiểuưghiưthưưmụcưmáyưtínhưđọcưđược

–Xácưđịnhưcấuưtrúcưlôgicưvàưvậtưlýưcủaưbiểuưghi

–Sửư dụngưcho:ư chuyênưkhảo,ư xuấtư bảnưphẩmư nhiềuưkỳ,ưtàiưliệuưbảnư đồ,ư âmư nhạc,ư ghiư âm,ư đồư hoạ,ư tàiư liệuư chiếuư hình,ư sáchư

Trang 61

 Cấu trúc UNIMARC

ghi trao đổi thông tin

 Đặc tr ng của UNIMARC

trọng điểm truy cập

hiện trên phiếu th mục (MARC - theo trình tự xuất hiện trên phiếu th mục)

Trang 62

 Các tr ờng của UNIMARC

Chia thành các khối sau:

1 0XX- Khối nhận dạng (Identification block) - 7 tr ờng

2 1XX- Khối thông tin mã hoá (Coded Information block)

- 9 tr ờng

3 2XX - Khối thông tin mô tả (Descriptive Block) - 8 tr ờng

4 3XX - Khối phụ chú (Notes)

5 4XX - Khối tr ờng liên kết (Linking Entry block): 29 tr ờng

6 5XX- Khối Nhan đề liên quan (Related title block): 16

Trang 63

 Các tr ờng bắt buộc có trong biểu ghi unimarc

001* Mã số biểu ghi (RECORD IDENTIFIER)

100* Dữ liệu xử lý chung (GENERAL PROCESSING DATA)

101 Ngôn ngữ (LANGUAGE OF THE WORK (when applicable))

120 Dữ liệu mã hoá - Tài liệu bản đồ CODED DATA FIELD: CARTOGRAPHIC MATERIALS GENERAL (Chỉ

đối với tài liệu bản đồ)

123 Dữ liệu mã hoá Tỷ lệ và toạ độ bản đồ (chỉ đối với tài liệu bản đò)

200* Nhan đề và thông tin trách nhiệm (TITLE AND STATEMENT OF RESPONSIBILITY (Tr ờng con A)

206 Vùng dữ liệu toán học của bản đồ (CARTOGRAPHIC MATERIALS MATHEMATICAL DATA)

801* Nguồn tin gốc

Những tr ờng có dấu (*) ohải có mặt trong tất cả các biểu ghi

Trang 64

c CCF - Common Communication Format

Do UNESCO phát triển năm 1984.

Đơn giản hơn

Có hai khổ mẫu:

+ Cho dữ liệu thư mục - CCF/B

+ Cho dữ kiện - CCF/F

Trang 65

Sử dụng làm cơ sở để có thể phát triển CSDL riêng cho từng cơ quan

Trang 66

 Đặc điểm sử dụng CCF

để đảm bảo cung cấp thông tin về tài liệu th mục

một cách mềm dẻo để thích hợp với các thực tiễn biên mục khác nhau

những yếu tố ch a chuẩn hoá

kết một nhóm biểu ghi mà không băt buộc cơ quan biên mục phải thực hiện những xử lý phức

Trang 68

d MARC XML

Yêu cầu thiết kế

1 Đơn giản và linh hoạt

2 Chuyển đổi không mất dữ liệu giữa MARC21 sang XML

3 Chuyển đổi được từ XML sang MARC

4 Trình bày được dữ liệu

5 Chỉnh sửa dữ liệu theo MARC

6 Chuyển đổi dữ liệu

7 Duyệt dữ liệu MARC (Validation of MARC data)

Trang 69

 Kiến trúc MARC XML

Chuyển đổi được MARC 21 (2709) sang/từ các khổ mẫu MARC

21 (XML) và XML khác

Trang 70

5.2.2 Siêu dữ liệu Metadata

Hiện nay có một số sơ đồ siêu dữ liệu đang được sử dụng

TEI – Text Encoding Initiative

EAD – Encoded Archival Description

OAI – Open Archive Initiative

Dublin Core

Ngày đăng: 24/01/2017, 11:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Thư viện số - Chỉ mục và Tìm kiếm
Tác giả: Đỗ Quang Vinh
Nhà XB: Nxb Đại học Quốc gia Hà Nội
Năm: 2009
2. Cao Minh Kiểm (2006), MARC 21 rút gọn cho dữ liệu thư mục, Trung tâm thông tin KHCNQG Sách, tạp chí
Tiêu đề: MARC 21 rút gọn cho dữ liệu thư mục
Tác giả: Cao Minh Kiểm
Năm: 2006
3. Arms W.Y. (2003), Digital Libraries, MIT Press, Cambridge Sách, tạp chí
Tiêu đề: Digital Libraries
Tác giả: Arms W.Y
Năm: 2003
4. Lesk M. (2005), Understanding Digital Libraries, 2 nd Edition, Morgan Kaufmann, San Francisco Sách, tạp chí
Tiêu đề: Understanding Digital Libraries
Tác giả: Lesk M
Năm: 2005
5. Witten I.H., Bainbridge D. (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco Sách, tạp chí
Tiêu đề: How to Build a Digital Library
Tác giả: Witten I.H., Bainbridge D
Năm: 2003
6. UNESCO Institute for Information Technologies in Khác

TỪ KHÓA LIÊN QUAN

w