Ngôn ngữ đánh dấu tổng quát chuẩn SGML Standard Generalized Markup Language SGML là cách thức trình bày tài liệu số bằng các mã đánh dấu Là tiêu chuẩn ISO 8879 Information process
Trang 1PHD DO QUANG VINH
Email: dqvinh@live.com
HANOI - 2013
Trang 2BÀI GIẢNG THƯ VIỆN SỐ
TS ĐỖ QUANG VINH
Email: dqvinh@live.com
Trang 3NỘI DUNG
I TỔNG QUAN VỀ THƯ VIỆN SỐ DL
II MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL
III CHỈ MỤC TÀI LIỆU
IV TÌM KIẾM THÔNG TIN
V CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ
VI THỰC HÀNH HỆ PHẦN MỀM
THƯ VIỆN SỐ GREENSTONE
Trang 4V CÁC CHUẨN SỬ DỤNG TRONG DL
5.1 Chuẩn trình bày
ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP
a ASCII
− American Standard Code for Information Exchange
− Tiêu chuẩn Việt Nam: TCVN 5712-1993
− Văn bản chỉ có ký tự, không có lệnh trình bày (plain
text file) Văn bản bằng ký tự ASCII không có khả năng trình bày các công thức toán học và hoá học.
− Thường phải được nhập thủ công vào CSDL
Trang 5+ Không bảo toàn được nguyên dạng của trang.
+ Không hỗ trợ đa ngôn ngữ (255 ký tự)
Trang 6b UNICODE
− Dùng cho văn bản
− Tiêu chuẩn Việt Nam: TCVN 6909-2001
− Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự
− Vẫn còn ít chương trình hỗ trợ UNICODE
Trang 7– Phụ thuộc sự phát triển của công ty
– Đòi hỏi bản quyền
Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở
Trang 8 Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn
dữ liệu không độc quyền
Trang 9 Ngôn ngữ đánh dấu tổng quát chuẩn SGML
Standard Generalized Markup Language
SGML là cách thức trình bày tài liệu số bằng các mã đánh
dấu
Là tiêu chuẩn ISO 8879 (Information processing Text and
office systems - Standard Generalized Markup Language)
Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu
trúc
Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ
liệu Thí dụ:
<Title>Đây là nhan đề tài liệu</Title>
Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên
tắc.
Trang 10 Cấu trúc tài liệu SGML
Gồm 3 phần
– Phần 1: Phần thông báo (Statement)
<?sgml version="1.0" encoding="ISO-8859-1"?>
– Phần 2: Định nghĩa phần tử tài liệu
– DTD - Document Type Definition
Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )
– Phần 3: Nội dung tài liệu
Định nghĩa phần tử dữ liệu (DTD)
DTD Document Type Definition
DTD xác định các khối thông tin hợp lệ của một tài liệu
SGML
DTD xác định cấu trúc của tài liệu thông qua một danh
Trang 11<!ELEMENT from (#PCDATA)>
<!ELEMENT heading (#PCDATA)>
<!ELEMENT body (#PCDATA)> ]>
Nội dung của văn bản
Tài liệu là Note
Có 4 yếu tố: to, from, heading, body
Những yếu tố này đều dạng
dữ liệu Character (ký tự)
Trang 13 Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc
Phức tạp, phát triển ứng dụng tốn kém
Phải có trình duyệt riêng để đọc
Điều quan trọng để ứng dụng SGML là xây dựng DTD
Ví dụ về ứng dụng:
TEI – Text Encoding Initiative
Trang 14 HTML
HyperText Mark-up Language
− Là một ứng dụng của SGML dùng cho tài liệu WEB
− Đơn giản hoá SGML
− Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi
cộng đồng sử dụng Web
− Các thẻ HTML được thống nhất toàn cầu (W3C –
WWW Consortium)
Trang 15 Ưu nhược điểm của HTML
Ưu điểm
– Đơn giản
– Có định hướng đến trình bày
– Được đọc bằng những trình duyệt (Browser)
– Được các công ty hỗ trợ phát triển trình duyệt: Internet
Explorer, Netscape Navigator, Mosaic,
Nhược điểm
– Phải chờ thông qua cho thẻ mới
– Số thẻ hạn chế
Trang 16 Cấu trúc của tài liệu HTML
Dữ liệu hiển thị trên màn hình
Trang 17 Thẻ trợ giúp mô tả tài liệu HTML
Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong phần <Head> của tài liệu
Trang 18<META NAME="DC.SUBJECT" CONTENT="Lúa lai">
<META NAME="DC.SUBJECT" CONTENT="Giống cây
trồng">
<META NAME="DC.SUBJECT" CONTENT="Gieo trồng">
<META NAME="DC.IDENTIFIER"
CONTENT="/THUVIENDIENTU/BOOK/Vb/2001/Vb44.pdf">
Trang 19 Ngôn ngữ đánh dấu mở rộng XML
XML eXtensible Markup Language
− Là một dạng của SGML và được World Wide Web
Consortium (W3C) đề xuất
− Đơn giản hơn SGML
− Linh hoạt hơn HTML
− Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo
trong tạo lập các tài nguyên điện tử
Trang 20 Đặc điểm của XML
− XML là ngôn ngữ đánh dấu tương tự HTML
− Được thiết kế để chứa/trao đổi dữ liệu nhưng không để trình bày dữ liệu
− Các thẻ XML không được xác định trước Người dùng tự xác định các thẻ của mình
− XML được thiết kế để tự mô tả (self-descriptive)
− Tổ chức 3WC gọi XML là:
"một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ liệu"
Trang 21 Sự khác biệt giữa XML và HTML
XML không thay thế HTML
XML và HTML được thiết kế cho 2 mục đích khác nhau:
– XML dùng để chứa và chuyển tải dữ liệu XML định
hướng dữ liệu
– HTML được thiết kế để trình bày dữ liệu
XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu Phải có phần mềm để xử lý.
XML là tệp văn bản không mã hóa
Người dùng tự quy định thẻ cho tài liệu (thí dụ <title> and
<author>)
Không có thẻ XML mặc định
Trang 22 XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho
Internet
XHTML: phiên bản mới nhất của HTML
RDF and OWL for describing resources and ontology
RDF = Resource Description Format
OWL = Ontology Web Language
Cấu trúc tài liệu XML
Tương tự như SGML
Gồm 3 phần
– Phần 1: Phần thông báo
– Phần 2: Định nghĩa phần tử tài liệu
DTD - Document Type Definition
Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )
Trang 24– <!ELEMENT from (#PCDATA)
– <!ELEMENT heading (#PCDATA)
– <!ELEMENT body (#PCDATA)>]>
Trang 26 Tại sao cần DTD
Dùng để tự xác định các thành phần của tài liệu XML
Với DTD, những nhóm người sử dụng khác có thể hiểu và xử
lý được tài liệu XML và trao đổi được DL
Dùng làm chuẩn để kiểm định tài liệu XML, kiểm định dữ
Trang 27 Ký hiệu đặc biệt - Entities
Một số ký tự có nghĩa với XML được định nghĩa sẵn trong XML Thực thể Ký tự
Trang 28 Cú pháp XML
Mọi yếu tố XML phải có thẻ đóng (Closing Tag)
Thẻ XML phân biện chữ hoa-chữ thường (Case Sensitive)
– Thẻ <Letter> khác với <letter>.
– Thẻ mở và thẻ đóng phải có cùng kiểu viết hoa/viết thường
Yếu tố XML phải được lồng ghép chính xác
Tài liệu XML phải có một yếu tố gốc (Root Element)
Tài liệu XML phải chứa 1 yếu tố làm cao nhất cho mọi yếu tố khác
Các giá trị thuộc tính XML phải được đặt trong ngoặc kép
<note date="12/11/2007">
<to>Tove</to>
Trang 30 Thẩm định XML
XML Validation
Khái niệm Định dạng đúng "Well formed"
XML có cú pháp đúng được gọi là "Well Formed" XML
Khái niệm Hợp lệ "Valid XML"
XML được thẩm định so với DTD là XML "Valid" (Hợp lệ)
Định dạng đúng (Well Formed XML)
− Có cú pháp đúng
− Có yếu tố gốc (root element)
− Mọi yếu tố phải có thẻ đóng
− Thẻ XML phân biệt chữ hoa/thường
− Yếu tố được lồng ghép chính xác
− Giá trị thuộc tính thẻ XML phải được đặt trong dấu ngoặc
Trang 31– tiêu chuẩn ISO 8879 (SGML):
– để sử dụng được phải phát triển các DTD
Không phải XML thay thế MARC mà một sơ đồ siêu
dữ liệu nào đó sử dụng XML sẽ được chấp nhận dùng chung cho thư viện
Trang 32 Ví dụ về lược đồ XML đơn giản
<xs: element name=”sach”>
<xs: complexType>
<xs:sequence>
<xs: element name = “tensach” type =”xs:string”/>
<xs: element name = “tacgia” type =”xs:string”/>
<xs: element name = “nhaxb” type =”xs:string”/>
<xs: element name = “namxb” type =”xs:string”/>
<xs:sequence>
<xs: complexType>
<xs:element>
Trang 33 Một số loại siêu dữ liệu ứng dụng với XML
MARC với XML: MARCXML
METS - Metadata Encoding and Transformation Standards
MODS – Metadata Object Description Schema
Dublin Core Metadata Element
TEI – Text Encoding Initiatives
EAD – Encoded Archival Description
OAI – Open Archive Initiative
Trang 34 Mô hình truy vấn dữ liệu có hỗ trợ XML
NSD truy
vấn
Kết quả trả về cho NSD
Trang 36 Tệp ảnh GIF
GIF: Graphic Interchange Format
− Phần mở rộng tên tệp: *.GIF
− Mầu sắc có thể đạt đến 256 màu (8 bit)
− Chuẩn riêng, là sở hữu trí tuệ của Công ty Compuserve
− Thường dùng cho biểu đồ, biểu tượng (icons)
Trang 385.2.2 Siêu dữ liệu Metadata
TEI – Text Encoding Initiative
EAD – Encoded Archival Description
OAI – Open Archive Initiative
Dublin Core
Trang 395.2.1 Khổ mẫu MARC, UNIMARC, CCF
ISO 2709 chỉ đưa ra cấu trúc tổng quát
Không quy định cụ thể nhãn của trường (có thể là ký tự, là
số)
Không quy định mã trường con.
Các nước và một số tổ chức quốc tế áp dụng ISO 2709 để
đưa ra những khổ mẫu chuẩn
Một số khổ mẫu nổi tiếng:
– CCF = Common Communication Format
Trang 40a Khổ mẫu MARC
Machine Readable Cataloguing
− Từ năm 1964, do Thư viện Quốc hội Mỹ xây dựng
− Nhiều hệ thống thư viện trên thế giới áp dụng => trở thành chuẩn De facto
− Theo MARC => UKMARC, CANMARC, AUSMARC, SINGMARC, THAIMARC
− MARC trở thành thuật ngữ chung,
− MARC của Mỹ được gọi là USMARC
Trang 41 MARC21
− TVQH Mỹ và TVQG Canada phối hợp phát triển MARC 21
− Hai nhóm chịu trách nhiệm chính về MARC 21:
+ Uỷ ban Thông tin thư mục đọc máy MARBI (Machine Readable Bibliographic Information Committee), của ALA
+ Uỷ ban Tư vấn về MARC: gồm các đại diện của các thư viện quốc gia, các tổ chức thư mục, các nhóm cung cấp dịch vụ sản phẩm (bán hàng)
Trang 42 Năm 1997, TVQH Mỹ ban hành tài liệu "MARC 21 - Những đặc tả cho cấu trúc biểu ghi, bộ mã kỹ tự, và phương tiện trao đổi" (MARC 21 - Specifications for Record Structure, Character sets, and Exchange Media)
Mục đích của MARC21
− Khổ mẫu MARC 21 là chuẩn để trình bày và trao đổi thông tin thư mục và những thông tin liên quan dưới dạng máy tính đọc được (machine-readable).
Trang 43 Cấu trúc
− 3 thành phần:
+ cấu trúc biểu ghi (record structure);
+ định danh nội dung (content designation);
+ nội dung dữ liệu
− Cấu trúc biểu ghi MARC 21 là một triển khai ứng dụng của chuẩn Mỹ ANSI Z39.2 (Information Exchange Format)
− Chuẩn ANSI39.2 tương đồng với chuẩn ISO 2709
Trang 44− Biểu ghi MARC21 là tập hợp các mã và định danh nội dung đ ợc quy định thống nhất để mã hoá các biểu ghi trao đổi máy tính đọc đ ợc.
− Mọi thông tin l u trữ trong biểu ghi MARC đ ợc l u d ới dạng ký tự Biểu ghi trao đổi đ ợc mã hoá theo ký tự trong Bảng mã ASCII mở rộng (extended ASCII).
Sử dụng khổ mẫu
− Là khổ mẫu trao đổi; không áp đặt những chuẩn
l u trữ dữ liệu bên trong hệ thống và chuẩn trình bày dữ liệu (display format) của từng hệ thống riêng biệt
− Khổ mẫu MARC 21 cố gắng tạo ra sự t ơng hợp với một số khổ quốc gia (nh UKMARC) và quốc tế (nh
Trang 45 CÊu tróc biÓu ghi
− §Çu biÓu ghi (Leader): 24 ký tù
− Danh môc (Directory): danh môc vÒ c¸c tr êng cã trong biÓu ghi KÕt thóc b»ng dÊu kÕt thó tr êng
− C¸c tr êng d÷ liÖu (gåm hai nhãm lµ tr êng kiÓm so¸t vµ tr êng d÷ liÖu):
− M· kÕt thóc tr êng
− M· kÕt thóc biÓu ghi.
Trang 47 §Çu biÓu ghi (LEADER)
24 ký tù
− Tr¹ng th¸i biÓu ghi 05
− Lo¹i biÓu ghi 06
Trang 48 vÞ trÝ 06 - Lo¹i biÓu ghi
Trang 49–i -ư Băngưhoặcư đĩaưghiưâmưkhôngưphảiưnhạcư(nhưư ghiư âmư bàiưphátưbiểu,ưtiếngưnói, )
–pư-ưTưưliệuưhỗnưhợp
–
Trang 51 Danh môc
tr êng trong biÓu ghi MARC 21
Th«ng tin VÞ trÝ
Nh·n tr êng (3 ký tù) 00-02
§é dµi tr êng (4 ký tù)03-06
VÞ trÝ ký tù b¾t ®Çu (5 ký tù) 07-11
Trang 52 C¸c tr êng d÷ liÖu
− C¸c tr êng d÷ liÖu ® îc ® a ra ngay sau phÇn
Danh môc C¸c tr êng nµy chia thµnh 2 nhãm:
Trang 56 H ớng dẫn MARC21
− Phiênưbảnưđầyưđủư(updateư1):ưhơnư210ưtrường
− Phiênưbảnưtómưtắtư(ConciseưVersion):ưtrênưWeb
− PhiênưbảnưMARCưLite:ưtrênưWebưvàưtrênưgiấy)
Trang 57 Nguyên tắc phát triển tr ờng cục bộ
− MARC21 có thể áp dụng cho các n ớc hoặc th viện
− Các n ớc hoặc th viện có thể thêm vào các tr ờng đặc thù (LOCAL FIELDS)
− Những tr ờng này không dùng trao đổi
− Cập nhật vào các nhóm tr ờng sau:
+ Khốiư9XX:ưtrườngưcụcưbộ
+ NhómưtrườngưX9Xưcủaưtừngưkhối
Trang 59 UNIMARC
− 1977, IFLA phát triển UNIMARC (UNIversal Marc format)
− Tổ chức duy trì phát triển UNIMARRC:
+ Uỷ ban thường trực UNIMARC của IFLA (Permanent
UNIMARC Committee (PUC)), + Ban thư ký của Uỷ ban này là: Chương trình Kiểm soát thư
mục toàn cầu và MARC cốt lõi quốc tế của IFLA (IFLA Universal Bibliographic Control and International MARC Core Programme (UBCIM)
+ UNIMARC không được thay đổi để bao quát biên mục không
tuân thủ ISBD hoặc mâu thuẫn với chuẩn này
− Phiên bản mới nhất: 1994 (trên Website IFLA)
Trang 60 Mục đích và phạm vi của Unimarc
Mục đích:
–Mụcưđíchưchính:ưhỗưtrợưtraoưđổiưthôngưtinưthưưmụcưquốcưtếưdướiưdạngưmáyưtínhưđọcưđượcưgiữaưcácưcơưquanưbiênưmụcưquốcưgia
–UNIMARCưsửưdụngưlàưmôưhìnhưđểưphátưtriểnưcácưkhổưmẫuưthưưmụcưđọcưmáyưmới
Phạm vi:
–xácưđịnhưcácưđịnhưdanhưnộiưdungư(nhãnưtrường,ưchỉưthịưvàưmãưtrườngưcon)ưchoưcácưbiểuưghiưthưưmụcưmáyưtínhưđọcưđược
–Xácưđịnhưcấuưtrúcưlôgicưvàưvậtưlýưcủaưbiểuưghi
–Sửư dụngưcho:ư chuyênưkhảo,ư xuấtư bảnưphẩmư nhiềuưkỳ,ưtàiưliệuưbảnư đồ,ư âmư nhạc,ư ghiư âm,ư đồư hoạ,ư tàiư liệuư chiếuư hình,ư sáchư
Trang 61 Cấu trúc UNIMARC
ghi trao đổi thông tin
Đặc tr ng của UNIMARC
trọng điểm truy cập
hiện trên phiếu th mục (MARC - theo trình tự xuất hiện trên phiếu th mục)
Trang 62 Các tr ờng của UNIMARC
Chia thành các khối sau:
1 0XX- Khối nhận dạng (Identification block) - 7 tr ờng
2 1XX- Khối thông tin mã hoá (Coded Information block)
- 9 tr ờng
3 2XX - Khối thông tin mô tả (Descriptive Block) - 8 tr ờng
4 3XX - Khối phụ chú (Notes)
5 4XX - Khối tr ờng liên kết (Linking Entry block): 29 tr ờng
6 5XX- Khối Nhan đề liên quan (Related title block): 16
Trang 63 Các tr ờng bắt buộc có trong biểu ghi unimarc
001* Mã số biểu ghi (RECORD IDENTIFIER)
100* Dữ liệu xử lý chung (GENERAL PROCESSING DATA)
101 Ngôn ngữ (LANGUAGE OF THE WORK (when applicable))
120 Dữ liệu mã hoá - Tài liệu bản đồ CODED DATA FIELD: CARTOGRAPHIC MATERIALS GENERAL (Chỉ
đối với tài liệu bản đồ)
123 Dữ liệu mã hoá Tỷ lệ và toạ độ bản đồ (chỉ đối với tài liệu bản đò)
200* Nhan đề và thông tin trách nhiệm (TITLE AND STATEMENT OF RESPONSIBILITY (Tr ờng con A)
206 Vùng dữ liệu toán học của bản đồ (CARTOGRAPHIC MATERIALS MATHEMATICAL DATA)
801* Nguồn tin gốc
Những tr ờng có dấu (*) ohải có mặt trong tất cả các biểu ghi
Trang 64c CCF - Common Communication Format
− Do UNESCO phát triển năm 1984.
− Đơn giản hơn
− Có hai khổ mẫu:
+ Cho dữ liệu thư mục - CCF/B
+ Cho dữ kiện - CCF/F
Trang 65− Sử dụng làm cơ sở để có thể phát triển CSDL riêng cho từng cơ quan
Trang 66 Đặc điểm sử dụng CCF
để đảm bảo cung cấp thông tin về tài liệu th mục
một cách mềm dẻo để thích hợp với các thực tiễn biên mục khác nhau
những yếu tố ch a chuẩn hoá
kết một nhóm biểu ghi mà không băt buộc cơ quan biên mục phải thực hiện những xử lý phức
Trang 68d MARC XML
Yêu cầu thiết kế
1 Đơn giản và linh hoạt
2 Chuyển đổi không mất dữ liệu giữa MARC21 sang XML
3 Chuyển đổi được từ XML sang MARC
4 Trình bày được dữ liệu
5 Chỉnh sửa dữ liệu theo MARC
6 Chuyển đổi dữ liệu
7 Duyệt dữ liệu MARC (Validation of MARC data)
Trang 69 Kiến trúc MARC XML
Chuyển đổi được MARC 21 (2709) sang/từ các khổ mẫu MARC
21 (XML) và XML khác
Trang 705.2.2 Siêu dữ liệu Metadata
Hiện nay có một số sơ đồ siêu dữ liệu đang được sử dụng
TEI – Text Encoding Initiative
EAD – Encoded Archival Description
OAI – Open Archive Initiative
Dublin Core