Tiêu chuẩn đề xuất các quy tắclập chỉ mục, các phương pháp được sử dụng phân tích bằng trí tuệ, thuật toán máytính hoặc cả hai, phương tiện lập chỉ mục và các phương pháp trình bày
Trang 1BỘ THÔNG TIN VÀ TRUYỀN THÔNGĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN
THUYẾT MINH TIÊU CHUẨN
TIÊU CHUẨN KỸ THUẬT TẠO LẬP CHỈ MỤC (DÙNG CHO METADATA VÀ TÀI LIỆU TOÀN VĂN)
HÀ NỘI - THÁNG 1/2017
Trang 2Mục lục
1 Giới thiệu 4
1.1 Tên gọi của tiêu chuẩn Việt Nam 4
1.2 Mục đích của việc xây dựng tiêu chuẩn 4
1.3 Các nội dung nghiên cứu 4
2 Tình hình trong và ngoài nước về tiêu chuẩn lập chỉ mục và tài liệu toàn văn 5
3 Cơ sơ xây dựng các yêu cầu kỹ thuật 10
3.1 Phân tích tình hình đối tượng tiêu chuẩn 10
3.2 TCVN 4743:1989 11
3.3 TCVN 7539:2005 11
3.4 Tài liệu toàn văn theo tiêu chuẩn ISO 14
3.5 Tiêu chuẩn ISO 15836:2003 17
3.6 Tiêu chuẩn ISO 999:1996 21
3.7 TCVN 10669:2014 (ISO 5963:1985) 29
3.8 NISO TR02-1997, Guidelines for Indexes and Related Information Retrieval Devices 31
4 Xây dựng tiêu chuẩn 33
4.1 Sở cứ xây dựng tiêu chuẩn 33
4.2 Hình thức xây dựng tiêu chuẩn 35
4.3 Cấu trúc tiêu chuẩn 35
4.4 Nội dung tiêu chuẩn 36
Tài liệu tham khảo 40
Trang 3THUYẾT MINH TIÊU CHUẨN
TIÊU CHUẨN KỸ THUẬT TẠO LẬP CHỈ MỤC (DÙNG CHO METADATA VÀ TÀI LIỆU TOÀN VĂN)
1 Giới thiệu
1.1 Tên gọi của tiêu chuẩn Việt Nam
Tiêu chuẩn kỹ thuật tạo lập chỉ mục (dùng cho metadata và tài liệu toàn văn)
1.2 Mục đích của việc xây dựng tiêu chuẩn
Tiêu chuẩn này cung cấp hướng dẫn về nội dung, tổ chức và trình bày chỉ mục sửdụng cho việc tìm kiếm tài liệu và các phần của tài liệu Tiêu chuẩn đề xuất các quy tắclập chỉ mục, các phương pháp được sử dụng (phân tích bằng trí tuệ, thuật toán máytính hoặc cả hai), phương tiện lập chỉ mục và các phương pháp trình bày chỉ mục chotìm kiếm Nó nhấn mạnh ba quy trình cần thiết cho tất cả các chỉ mục: thiết kế toàndiện, quản lý vốn từ vựng và cung cấp các cú pháp Nó bao gồm các định nghĩa về chỉmục và các thành phần, thuộc tính và các khía cạnh; từ vựng thống nhất; mô tả bảnchất và sự đa dạng của các chỉ mục; các khuyến nghị liên quan đến việc thiết kế, tổchức và trình bày các chỉ mục
Tiêu chuẩn này liên quan đến việc chuẩn bị tất cả các loại chỉ mục cho tìm kiếm thôngtin, bất kể chúng được tạo lập trên cơ sở phân tích bằng trí tuệ, bằng các phương pháp
tự động hoặc được máy tính hỗ trợ, cho dù chúng được tìm kiếm bằng mắt thườnghoặc bằng thuật toán điện tử và được biên soạn bởi một người lập chỉ mục hoặc mộtnhóm người lập chỉ mục
1.3 Các nội dung nghiên cứu
Bộ Thông tin và Truyền thông đã giao Viện Công nghệ thông tin - Đại học Quốc gia HàNội xây dựng "Tiêu chuẩn kỹ thuật tạo lập chỉ mục (dùng cho metadata và tài liệu toànvăn) – Phần 2: Lập chỉ mục cho tài liệu toàn văn ", đây là bộ dự thảo trong khuôn khổ
dự án "Xây dựng 04 chuẩn từ vựng về dữ liệu nội dung số và trao đổi thông tin; 58chuẩn tạo lập, lưu trữ, trao đổi và quản lý dữ liệu và nội dung số" Nhóm thực hiệnnghiên cứu đã có những kết quả nghiên cứu tập hợp tóm tắt ở phần dưới đây
Trang 42 Tình hình trong và ngoài nước về tiêu chuẩn lập chỉ mục và tài liệu toàn văn.
Thuật ngữ tạo lập chỉ mục trong ngôn ngữ của ngành Thông tin Tư liệu được gọi làđịnh chỉ mục Định chỉ mục là một quy trình xử lý nội dung tài liệu được áp dụng rộngrãi trong các thư viện và cơ quan thông tin nhằm tạo ra các bảng chỉ mục cho phépngười dùng có thể truy cập thông tin và có thể tìm kiếm và thu thập thông tin cónghĩa theo chủ đề và từ khóa
Trong cuốn NIST's Dictionary of Algorithms and Data Structures (Từ điển thuật toánvà cấu trúc dữ liệu của Viện Tiêu chuẩn và Kỹ thuật Quốc gia Mỹ) có định nghĩa vềcác loại chỉ mục trong đó có định nghĩa về chỉ mục ngược (inverted indexing) là cấutrúc dữ liệu chỉ mục lưu giữ các ánh xạ từ nội dung (từ hoặc số) đến vị trí của nótrong một tệp tin cơ sở dữ liệu hoặc trong một tài liệu hoặc trong một tập tài liệu Có
2 loại chỉ mục ngược: chỉ mục ngược mức tài liệu và chỉ mục ngược mức từ
Trong hoạt động tiêu chuẩn hóa sản xuất, các lĩnh vực của đời sống xã hội, việcchuẩn hóa các quy trình luôn là một vấn đề luôn được quan tâm, các quy trình hoạtđộng thư viện, trao đổi thông tin là một phần trong các quy trình đó
Hiện nay, Tổ chức Tiêu chuẩn hóa Quốc tế đã ban hành các Tiêu chuẩn quốc tế ISOliên quan đến lập chỉ mục và tài liệu toàn văn sau:
- ISO 5963:1985 Documentation - Method for examining documents, determiningtheir subject and selecting indexing terms
- ISO 999:1996 Information and documentation - Guidelines for the content,organization and presentation of indexes
- ISO 23950:1998 Information and documentation Information retrieval (Z39.50) Application service definition and protocol specification
- ISO/IEC 26300:2006 Information technology - Open Document Format for OfficeApplications (OpenDocument) v1.0
- ISO/IEC 29500-1:2012 Information technology Document description andprocessing languages Office Open XML File Formats Part 1: Fundamentals andMarkup Language Reference
Trang 5- ISO/IEC 29500-2:2012 Information technology Document description andprocessing languages Office Open XML File Formats Part 2: Open PackagingConventions
- ISO/IEC 29500-3:2012 Information technology Document description andprocessing languages Office Open XML File Formats Part 3: MarkupCompatibility and Extensibility
- ISO/IEC 29500-4:2012 Information technology Document description andprocessing languages Office Open XML File Formats Part 4: TransitionalMigration Features
- ISO/IEC TS 30135-1:2014 Information technology Digital publishing EPUB3 Part 1: EPUB3 Overview
- ISO/IEC TS 30135-2:2014 Information technology Digital publishing EPUB3 Part 2: Publications
- ISO/IEC TS 30135-3:2014 Information technology Digital publishing EPUB3 Part 3: Content Documents
- ISO/IEC TS 30135-4:2014 Information technology Digital publishing EPUB3 Part 4: Open Container Format
- ISO/IEC TS 30135-5:2014 Information technology Digital publishing EPUB3 Part 5: Media Overlay
- ISO/IEC TS 30135-6:2014 Information technology Digital publishing EPUB3 Part 6: EPUB Canonical Fragment Identifier
- ISO/IEC TS 30135-7:2014 Information technology Digital publishing EPUB3 Part 7: EPUB3 Fixed-Layout Documents
- ISO 14739 -1:2014 Document management - 3D use of Product RepresentationCompact (PRC) format Part 1: PRC 10001
- ISO 14289-1:2012 Document management applications Electronic document fileformat enhancement for accessibility Part 1: Use of ISO 32000-1 (PDF/UA-1)
- ISO 19005-1:2005 Document management Electronic document file format forlong-term preservation Part 1: Use of PDF 1.4 (PDF/A-1)
Trang 6- ISO 19005-2:2011 Document management Electronic document file format forlong-term preservation Part 2: Use of ISO 32000-1 (PDF/A-2)
- ISO 19005-3:2012 Document management Electronic document file format forlong-term preservation Part 3: Use of ISO 32000-1 with support for embedded files(PDF/A-3)
- ISO 24517-1:2008 Document management Engineering document format usingPDF Part 1: Use of PDF 1.6 (PDF/E-1)
- ISO 32000-1:2008 Document management Portable document format Part 1:PDF 1.7
Tiêu chuẩn do các nước ban hành:
- Tính đến năm 2001, có 8 nước đã chấp nhận ISO 5963: 1985 làm tiêu chuẩn quốcgia Một số nước chấp nhận ISO 5963: 1985 làm tiêu chuẩn quốc gia không có bổsung hiệu chỉnh: Anh, Tây Ban Nha, Thụy Điển, Đức, Bungari, Cộng hòa Séc, NamPhi Một số nước chấp nhận ISO 5963: 1985 làm tiêu chuẩn quốc gia có bổ sung,hiệu chỉnh: Ý, Nga…
- Tổ chức tiêu chuẩn hóa Công hòa Liên bang Nga đã xây dựng và ban hành hai tiêuchuẩn quốc gia liên quan đến định chỉ mục tài liệu, bao gồm: GOST 7.59-2003 "Địnhchỉ mục tài liệu Yêu cầu chung cho tổ chức và lập chỉ mục” và GOST 7.66-92 "Địnhchỉ mục tài liệu Yêu cầu chung để phối hợp định chỉ mục
- Mỹ: Guidelines for Indexes and Related Information Retrieval Devices (Hướng dẫnlập chỉ mục và các công cụ tìm kiếm thông tin có liên quan) ban hành năm 1997
Các tiêu chuẩn Việt nam về thông tin và tư liệu
Ở nước ta, ngày 14 tháng 7 năm 2004, Tổng cục trưởng Tổng cục Tiêu chuẩn-Đolường-Chất lượng ra Quyết định số 414/TĐC-QĐ về việc thành lập Ban Kỹ thuật tiêuchuẩn TCVN/TC 46: Thông tin Tư liệu
Ban Kỹ thuật tiêu chuẩn TCVN/TC 46 ra đời góp phần đẩy mạnh hoạt động tiêuchuẩn hóa trong lĩnh vực thông tin-thư viện, lưu trữ và xuất bản theo mô hình vàphương hướng của Tổ chức Tiêu chuẩn hoá quốc tế (ISO) Trong mảng thông tin-thư viện, TCVN/TC 46 phần lớn tập trung vào việc nghiên cứu và biên soạn tiêuchuẩn thuộc ba lĩnh vực chủ đề : 1) các tiêu chuẩn dùng cho mô tả thư mục và dữliệu thư mục; 2) các tiêu chuẩn dùng cho mô tả chủ đề và dữ liệu chủ đề và 3)
Các tiêu chuẩn trình bày tư liệu
Trang 7Thời gian qua, TCVN/TC 46 đã xem xét, sửa đổi và cập nhật các tiêu chuẩn trướcđây do Trung tâm Tiêu chuẩn Chất lượng phối hợp với Viện Thông tin KHKT Trungương (nay là Trung tâm Thông tin KH&CN Quốc gia) hoặc Cục xuất bản biên soạndựa trên các tiêu chuẩn của Liên Xô cũ hoặc Khối SEV và trình Bộ KH&CN phêduyệt và ban hành Đó là: TCVN 2243 – 77: Chuyển chữ cái Nga sang chữ cái Việt,TCVN 4523-88: Ấn phẩm thông tin, phân loại, cấu trúc và trình bày; TCVN 4524-88:
Xử lý thông tin, bài tóm tắt và bài chú giải; TCVN 4743-89: Mô tả thư mục tài liệu,yêu cầu chung và quy tắc biên soạn; TCVN 5453-1991: Hoạt động thông tin khoahọc và tư liệu Thuật ngữ và khái niệm cơ bản; TCVN 5697-1992: Hoạt động thôngtin tư liệu Từ và cụm từ tiếng Việt viết tắt dùng trong mô tả thư mục; TCVN 5698-
1992 Hoạt động thông tin tư liệu Từ và cụm từ tiếng nước ngoài viết tắt dùng trong
mô tả thư mục; và một số tiêu chuẩn dựa trên ISO như TCVN 6380: 1998 về Thôngtin và tư liệu – Mã số tiêu chuẩn quốc tế cho sách (ISBN) VN 6381: 1998 về Thôngtin và tư liệu – Mã số tiêu chuẩn quốc tế cho xuất bản phẩm nhiều kỳ (ISSN) TCVN6909:2001 (Phông chữ Unicode) dùng chung cho nhiều ngành,…
Từ khi thành lập, TCVN/TC 46 chủ trương biên soạn các TCVN (một vài tiêu chuẩntrong số đó dựa trên ISO):
- TCVN 7420-1:2004 và TCVN 7420-2 :2004 (tương đương với ISO 15489 –1 và ISO
15489 –2): Thông tin và Tư liệu – Quản lý hồ sơ Phần 1 : Yêu cầu chung và Thôngtin và Tư liệu – Quản lý hồ sơ Phần 2 : Hướng dẫn;
- TCVN 7539: 2005 Thông tin và Tư liệu– Khổ mẫu MARC 21 cho dữ liệu thư mục;
- TCVN 7587: 2007 Thông tin và Tư liệu — Tên và mã địa danh Việt Nam dùng tronglưu trữ và trao đổi thông tin KHCN;
- TCVN 7588: 2007 Thông tin và Tư liệu – Tên và mã tổ chức dịch vụ thông tinKH&CN Việt Nam dùng trong lưu trữ và trao đổi thông tin KH&CN;
- TCVN 5453: 2009 Thông tin và Tư liệu: Từ vựng, v.v…
- TCVN 10669:2014 (ISO 5963:1985) Thông tin và tư liệu – Phương pháp phân tíchtài liệu, xác định chủ đề và lựa chọn các thuật ngữ định chỉ mục
- TCVN 10846:2015 (ISO 999:1996) Thông tin và tư liệu – Hướng dẫn về nội dung,
tổ chức và trình bày các bảng chỉ mục
Muốn bám sát chương trình tiêu chuẩn hóa của ISO trong lĩnh vực thông tin và tưliệu (Xem phụ lục), trên con đường hội nhập và hiện đại hóa, TCVN/TC 46 còn rất
Trang 8nhiều việc phải làm, mặc dầu kinh phí hiện nay được cấp chỉ đủ để tổ chức biênsoạn và ban hành 2 hoặc 3 tiêu chuẩn mỗi năm Vì vậy, chúng ta phải không ngừngcải tiến hoạt động của TCVN/TC 46 nói chung và cân bằng việc biên soạn giữa cáctiêu chuẩn về các công đoạn, công cụ xử lý, lưu trữ và phổ biến thông tin truyềnthống với các tiêu chuẩn cần thiết trong thời đại áp dụng công nghệ thông tin mới đểtheo kịp với đà phát triển của hoạt động tiêu chuẩn hóa trong khu vực và trên thếgiới.
Ngày 20/09/2011, Bộ Thông tin và Truyền thông ban hành Thông tư số BTTTT về "Quy định về việc tạo lập, sử dụng và lưu trữ dữ liệu đặc tả trên trangthông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước"
24/2011/TT-Theo Thông tư số 24/2011/TT-BTTTT, Dữ liệu đặc tả là những thông tin mô tả cácđặc tính của dữ liệu như nội dung, định dạng, chất lượng, điều kiện và các đặc tínhkhác nhằm tạo thuận lợi cho quá trình tìm kiếm, truy cập, quản lý và lưu trữ dữ liệu.Và nhằm tạo thuận lợi cho quá trình tìm kiếm, truy cập, quản lý và lưu trữ dữ liệu,thông tin đăng tải trên cổng thông tin điện tử, cổng thông tin điện tử của cơ quan nhànước phải sử dụng dữ liệu đặc tả theo chuẩn Dublin Core với 15 yếu tố dữ liệu đặctả Trong đó, quy định 6 yếu tố dữ liệu đặc tả bắt buộc gồm: Tiêu đề, người tạo, thờigian, mô tả, cơ quan ban hành và yếu tố định danh; Các yếu tố được khuyến nghịnên sử dụng là: Ngôn ngữ, nguồn, người cộng tác và chủ đề; Còn các yếu tố tùychọn bao gồm: Phạm vi, dạng, định dạng, quan hệ và các quyền
Trang 9Nhận xét: Thông tư số 24/2011/TT-BTTTT, Quy định về việc tạo lập, sử dụng và lưutrữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơquan nhà nước theo chuẩn Dublin Core Như vậy khi xem xét phạm vi đối tượng ápdụng của dự án chung và kết hợp với mục đích xây dựng dự thảo này, các đối tượng
áp dụng khác (ngoài cơ quan nhà nước) cũng có thể áp dụng chuẩn Dublin Core vàotrong hoạt động tạo lập, sử dụng và lưu trữ dữ liệu đặc tả của họ
Việc này tạo ra sự thống nhất trong trao đổi và lưu trữ thông tin, dữ liệu và giảm bớtkhó khăn kỹ thuật không đáng có Cụ thể trong dự thảo này, nhóm biên soạn nhất tríkhuyến nghị sử dụng chuẩn Dublin Core trong quá trình tạo lập chỉ mục ngược chometadata
Các tiêu chuẩn TCVN 7980:2008 hoàn toàn tương đương ISO 15836:2003, TCVN10669:2014 hoàn toàn tương đương với ISO 5963:1985 Các tiêu chuẩn TCVN kháckhi xét các yếu tố ràng buộc có liên quan như đã phân tích bên trên thì nhóm biênsoạn thống nhất không cần phải xem xét đến
Như vậy các tài liệu, tiêu chuẩn kỹ thuật mà nhóm biên soạn sử dụng để xây dựngquyển thuyết minh này từ đó có thể xem xét sở cứ xây dựng dự thảo phục vụ chomục đích dự án bao gồm:
- TCVN 4743:1989: Xử lý thông tin - Mô tả thư mục tài liệu;
- TCVN 5453: 2009, Thông tin và Tư liệu – Từ vựng;
- TCVN 7539:2005: Khổ mẫu MARC 21 cho dữ liệu thư mục;
- TCVN 5697:2009: Từ và cụm từ tiếng Việt viết tắt trong mô tả thư mục;
- TCVN 10669:2014 (ISO 5963:1985) Thông tin và tư liệu – Phương pháp phântích tài liệu, xác định chủ đề và lựa chọn các thuật ngữ định chỉ mục;
- TCVN 7980:2008 (ISO 15836:2003) Thông tin và tài liệu – Bộ phần tử dự liệuđặc tả Dublin Core;
- ISO 999:1996, Information and documentation – Guidelines for the content,organization and presentation of indexes;
- ISO 15836:2003, Information and documentation The Dublin Core metadataelement set;
- NISO TR02-1997, Guidelines for Indexes and Related Information RetrievalDevices;
Trang 10- NISO TR03-1999, Guidelines for Alphabetical Arrangement of Letters andSorting of Numerals and Other Symbols;
3 Cơ sơ xây dựng các yêu cầu kỹ thuật.
3.1 Phân tích tình hình đối tượng tiêu chuẩn
Khi đề cập đến ngành thư viện, quy trình tạo lập chỉ mục đã được hình thành và pháttriển gần như song hành cùng ngành thư viện Từ hồi mở đầu trên tài liệu giấy, quytrình tạo lập chỉ mục được tiến hành thủ công, người định chỉ mục tiến hành tỉ mỉ vàtốn nhiều thời gian để lập được bảng chỉ mục cho một tài liệu giấy Tuy nhiên khikhoa học công nghệ phát triển, số lượng sách, các dạng xuất bản phẩm ở dạng giấyvà không ở dạng giấy được xuất bản, phát hành ngày một nhiều, quy trình tạo lập chỉmục thủ công đã không còn phù hợp nữa Bảng chỉ mục trong hiện tại đã có nhiềuthay đổi, ứng dụng bảng chỉ mục góp phần để giới thiệu cho người đọc về tài liệu,cách đọc, cách khai thác, cách tra cứu như thế nào để thấy được “Ngọc trong sách” Với nhiều phong cách khác nhau, các nhà văn muốn bạn đọc của mình tiếp cận vớinhững từ, những câu “đắt nhất” đó một cách tự nhiên hoặc bất ngờ, vào thời điểmcao trào hay trầm lắng
Đối với một nhà nghiên cứu, trong công trình nghiên cứu khoa học của mình thường
sử dụng nhiều thuật ngữ chuyên môn, thuật ngữ khoa học, cách tiếp cận mới đượcthể hiện Và đó cũng chính là những ý tưởng, tư tưởng, tính mới trong nghiên cứu…được tác giả mong muốn thể hiện, chia sẻ với giới chuyên môn, với người đọc thamkhảo và với người học
Vậy làm sao để bạn đọc sớm phát hiện ra những ý “đắt nhất” đó? Cách thức nào đểbạn đọc kiểm soát nội dung cuốn sách, hệ thống các vấn đề, các nội dung trùng lặpnhau để thuận tiện cho việc đối chiếu, so sánh và suy ngẫm về một vấn đề? Việc làmnày chỉ có tác giả và các cán bộ là chuyên gia trong công tác biên tập đúng nghĩacủa nhà xuất bản mới có thể thực hiện được Đó chính là tạo “bảng chỉ mục” cho tàiliệu sách, đặc biệt là sách tham khảo và nghiên cứu chuyên ngành Việc tạo “bảngchỉ mục” cho tài liệu sách sẽ giúp người đọc lựa chọn phạm vi nội dung, định hướngviệc đọc sách và kiểm soát việc đọc sách của chính mình "Bảng chỉ mục" đượcngười định chỉ mục dày công chỉ ra, đánh dấu những thuật ngữ, từ chuyên môn, các
Trang 11từ khóa… hay còn được hiểu là những từ, ý, câu “đắt nhất” của công trình nghiêncứu khoa học.
3.2 TCVN 4743:1989
Quy định những yêu cầu đặt ra với công tác mô tả thư mục một tài liệu Khái niệm tàiliệu ở đây bao gồm các tài liệu công bố hoặc không công bố với các loại hình khácnhau: sách, ấn phẩm tiếp tục, các tài liệu định mức kỹ thuật, các tài liệu kỹ thuật, cácbáo cáo nghiên cứu khoa học, các tài liệu dịch và luận án
Tiêu chuẩn đã đưa ra các quy tắc để mô tả tài liệu với thành phần các yếu tố mô tả,trình tự sắp xếp các yếu tố, cách điền và phương pháp trình bày các yếu tố mô tả,
sử dụng các dấu phân cách giữa các yếu tố và các vùng mô tả
3.3 TCVN 7539:2005
Tiêu chuẩn này quy định về cách trình bày các dữ liệu thư mục cho biên mục đọcmáy Đây là một tiêu chuẩn mới được ban hành và là tiêu chuẩn duy nhất trong sốbốn tiêu chuẩn vừa đề cập được xây dựng trên cơ sở một chuẩn biên mục của HoaKỳ
TCVN 7539:2005: Khổ mẫu MARC 21 cho dữ liệu thư mục, được áp dụng nhiềunhất Tuy nhiên, một số thư viện đại học cho biết: hiện thư viện có biên mục theoMARC 21 nhưng lại không biết có TCVN 7539:2005 Kết quả cụ thể về việc áp dụngTCVN trong xử lý tài liệu tại thư viện công cộng
Tiêu chuẩn TCVN 7539:2005 dày 100 trang, khổ A4, gồm 17 điều:
— Các điều 1-3 là các điều khoản chung liên quan tới: Phạm vi áp dụng, Thuậtngữ và Quy định chung về biểu ghi thư mục;
— Các điều từ 4-17 quy định các trường trong biểu ghi MARC21 được lựa chọnvào tiêu chuẩn là những trường được sử dụng thường xuyên với mục đích đảm bảo
sự bao quát ở mức hợp lý trên cơ sở nghiên cứu thực tiễn biên mục ở Việt Nam Mỗi trường được cấu trúc thành 3 phần:
— Định nghĩa và phạm vi trường;
— Cấu trúc trường;
— Quy ước nhập dữ liệu
Trang 12Cuối tiêu chuẩn có 2 phụ lục có thể dùng để tham khảo, bao gồm: Danh mục các từviết tắt (sử dụng trong tiêu chuẩn) và Danh mục một số mã thường gặp Với cáchtrình bày ngắn gọn, rõ ràng, tuân thủ các quy định trình bày TCVN, TCVN 7539:2005
có thể là cẩm nang cho các cán bộ trực tiếp biên mục cũng như cán bộ nghiên cứuvà giảng dạy biên mục đọc máy tại Việt Nam
Định danh của xuất bản phẩm nhiều kỳ có thể là một loạt chữ số và ngày tháng,nhưng chỉ có một số yếu tố đáp ứng tiêu chuẩn nhất định mới được coi là định danh
số và thời gian
Định danh số Một chữ số hoặc kết hợp các chữ số, ngày tháng, chữ cái hoặc từ đểnhận dạng một xuất bản phẩm nhiều kỳ
Định danh thời gian Một ngày tháng hoặc kết hợp của ngày tháng, chữ số, hoặc các
từ để nhận dạng một xuất bản phẩm nhiều kỳ
Một số xuất bản phẩm nhiều kỳ có nhiều định danh số hoặc ngày tháng Trong bàiviết này, thuật ngữ “định danh” đề cập đến dạng định danh số hoặc ngày tháng hoặckết hợp cả hai khi được mô tả ở trường 362 hoặc 500
Định danh phải “nhận dạng” một số cụ thể Ở đây, khía cạnh nhận dạng là chủ yếu
Ví dụ, nếu xuất bản phẩm nhiều kỳ được xuất bản hàng tháng và chỉ có 1 định danhngày tháng, thì phải chứa ít nhất tên tháng, năm để phân biệt mỗi số của từng thángvới các số khác Nếu một xuất bản phẩm nhiều kỳ mang cả định danh số và thờigian, ít nhất một loại định danh phải nhận dạng được số đó, trong trường hợp này,cần mô tả cả hai loại định danh
Nguồn mô tả Nguồn lấy thông tin để mô tả định danh là toàn bộ xuất bản phẩmnhiều kỳ (AACR2 12.0B1) Điều này có nghĩa là thông tin được lấy từ bất cứ vị trínào của tài liệu mà không cần dùng các dấu ngoặc Định danh có thể hoặc khôngxuất hiện trên nguồn lấy thông tin chính Trong nhiều xuất bản phẩm nhiều kỳ, mộtphần định danh có trên bìa trong khi định danh đầy đủ lại ở trang biên tập hay tiêu đềchạy AACR2 liệt kê nguồn lấy thông tin mô tả là trang nhan đề, phần mở đầu, dẫnnhập và lời ghi cuối sách
Nguồn ưu tiên Định danh có thể được lấy từ bất kỳ nguồn nào khi cần thiết, nhưngthường ưu tiên hơn với định danh được giới thiệu một cách đầy đủ nhất, dễ dàng tìm
Trang 13thấy nhất Định danh xuất hiện cùng với nhan đề hoặc bất cứ vị trí nào ở nguồn lấythông tin chính thường là định danh được ưu tiên.
Nguồn định danh có chứa một định danh số và một định danh thời gian Khi xuất bảnphẩm nhiều kỳ có cả hai loại định danh số và thời gian, mỗi phần của định danh cóthể được lấy từ các nguồn khác nhau Tạp chí thường chỉ có ngày tháng trên bìa,còn số thứ tự các tập thì có ở trang thông tin biên tập Mỗi phần định danh được lựachọn như thực thể riêng rẽ thì được hợp lại với dấu phân cách thích hợp
Hợp nhất định danh số và thời gian Định danh số có thể được lấy từ một nguồn vàđịnh danh thời gian từ một nguồn khác Định danh số có thể nhóm lại từ nhiều nguồnkhác nhau khi thấy rõ ràng là nhà xuất bản dự định dùng hai phần định danh nàythay cho định danh số Khi không rõ thì không hợp nhất định danh số từ nhiềunguồn Nếu cũng có trong tay số mới nhất ghi là volume 1, issue 2, thì ý định củanhà xuất bản là rõ ràng và cả hai định danh số và thời gian có thể được mô tả nhưđịnh danh số
Định danh thời gian cũng có thể được hợp lại với nhau từ nhiều nguồn và thườngkhông khó hiểu như với định danh số
Lấy định danh từ một nguồn không chính thức hoặc không được trình bày nổi bật
Mô tả một định danh từ một nguồn không chính thức, như tìm thấy trong lời nói đầu,nếu đó không phải là số thứ tự hoặc thời gian khác được coi là định danh và phảichắc chắn đó là một xuất bản phẩm nhiều kỳ
3.4 Tài liệu toàn văn theo tiêu chuẩn ISO.
a Tài liệu PDF
PDF (viết tắt từ tên tiếng Anh Portable Document Format, Định dạng Tài liệu Diđộng) là một định dạng tập tin văn bản khá phổ biển của hãng Adobe Systems.Tương tự như định dạng Word (.doc), PDF hỗ trợ văn bản thô (text) cùng với phôngchữ, hình ảnh đồ họa, âm thanh và nhiều hiệu ứng khác Tuy nhiên, việc hiển thị vănbản PDF không phụ thuộc vào môi trường làm việc của người sử dụng (cấu hìnhmáy, phần mềm và hệ điều hành) Không như văn bản Word, một văn bản PDF,trong hầu hết các trường hợp, sẽ được hiển thị giống nhau trên những môi trường
Trang 14làm việc khác nhau Chính vì ưu điểm này, định dạng PDF đã trở nên phổ biển choviệc phát hành sách, báo hay các tài liệu khác qua mạng Internet.
Việc phổ biến định dạng PDF trong thời gian đầu tương đối chậm Những phiên bảnđầu tiên của PDF không hỗ trợ siêu liên kết bên ngoài, làm giảm tính hữu dụng của
nó trên web Kích thước tập tin tăng lên so với văn bản thuần cũng có nghĩa là thờigian để tải xuống một tài liệu PDF sẽ lâu hơn, đây cũng là một vấn đề với nhữngmodem chậm thời đó
Kể từ năm 1995, Adobe đã tham gia vào một số các nhóm làm việc để tạo ra thông
số kỹ thuật cho các ấn phẩm của ISO và hợp tác trong quá trình ISO trên một phầnnhỏ của các tiêu chuẩn chuyên ngành cho các ngành công nghiệp PDF và các mụcđích cụ thể (ví dụ như PDF / X hoặc PDF / A)
Các chuẩn ISO cho các dạng PDF:
- PDF/X (theo chuẩn ISO 15929 và 15930 – Công nghệ đồ họa – Trạo đổi dữ liệusố): dạng “PDF trao đổi” dựa trên PDF 1.3, PDF 1.4 và PDF 1.6
- PDF/A (theo chuẩn ISO 19005 – Quản lý tài liệu - Định dạng tập tin tài liệu điện tử
để bảo quản lâu dài): dạng “PDF lưu trữ” dựa trên PDF 1.4 và PDF 1.7
- PDF/E (theo chuẩn ISO 24517 – Quản lý tài liệu - Định dạng tài liệu kỹ thuật sửdụng PDF): dạng “PDF kỹ thuật” dựa trên PDF 1.6
- Tiêu chuẩn ISO cho "PDF đầy đủ chức năng" được xuất bản dưới hình thức tiêuchuẩn ISO 32000 Đặc tả chức năng đầy đủ của không chỉ là một tập hợp con củađặc điểm kỹ thuật Adobe PDF, trong khuyến nghị của ISO 32000-1 các chức năngPDF đầy đủ bao gồm tất cả mọi thứ được định nghĩa trong PDF 1.7
ISO 32000-1: 2008 quy định cụ thể một dạng kỹ thuật số cho đại diện cho tài liệuđiện tử cho phép người dùng trao đổi và xem các tài liệu điện tử độc lập với môitrường mà họ đã tạo ra trong hoặc môi trường mà họ đang xem hoặc in trong nàydành cho các nhà phát triển phần mềm đó tạo ra các tập tin PDF (phù hợp với cácnhà văn), phần mềm đọc file PDF hiện có và giải thích nội dung của họ để hiển thị vàtương tác (phù hợp với độc giả) và các sản phẩm PDF có thể đọc và / hoặc viết cáctập tin PDF cho nhiều mục đích khác (phù hợp với sản phẩm)
b Tài liệu EPUB
Trang 15EPUB (short for electronic publication) là tiêu chuẩn e-book mở và miễn phí do Diễnđàn xuất bản quốc tế (IDPF) đề xuất có đuôi file là epub.
EPUB được thiết kế cho nội dung ngược, có nghĩa là một người đọc EPUB thể tối
ưu hóa văn bản cho một thiết bị hiển thị cụ thể EPUB cũng hỗ trợ nội dung cố định.Định dạng này được dự định như là một định dạng duy nhất mà các nhà xuất bản vànhà ở chuyển đổi có thể sử dụng trong nhà, cũng như để phân phối và bán hàng Nóthay thế các tiêu chuẩn mở eBook
Các chuẩn ISO cho EPUB
- Part 1 ISO/IEC TS 30135-1 2014-11-05 EPUB3 Overview
- Part 2 ISO/IEC TS 30135-2 2014-11-05 Publications
- Part 3 ISO/IEC TS 30135-3 2014-11-05 Content Documents
- Part 4 ISO/IEC TS 30135-4 2014-11-05 Open Container Format
- Part 5 ISO/IEC TS 30135-5 2014-11-05 Media Overlay
- Part 6 ISO/IEC TS 30135-6 2014-11-05 EPUB Canonical FragmentIdentifier
- Part 7 ISO/IEC TS 30135-7 2014-11-05 EPUB3 Fixed-LayoutDocuments
c Tài liệu PRC
PRC là một định dạng ebook khá phổ biến tại Việt Nam Đây là một dạng file nénđược tối ưu hóa để lưu trữ, tải và hiển thị các loại dữ liệu 3D, đặc biệt là dữ liệu đạidiện cho sản phẩm sản xuất Định dạng cho phép lưu trữ các file CAD lớn trong mộthình thức nén cao so với bản gốc Cấu trúc hoàn chỉnh của PRC được xác định bởihệ thống CAD chứa trong một file PRC nhằm đáp ứng nhu cầu tài liệu 3D của sảnphẩm sản xuất và các ngành công nghiệp liên quan
Tiêu chuẩn ISO cho PRC:
- ISO 14739-1: 2014 Document management 3D use of Product RepresentationCompact (PRC) format Part 1: PRC 10001
d Tài liệu mở (.odt)
Trang 16Tài liệu mở (hay còn gọi là OpenDocument trong tiếng Anh) là một định dạng tập tinthuộc họ XML dùng để lưu những tài liệu điện tử như bức thư, văn bản, bảng tính,biểu đồ, và bản thuyết trình.
Tiêu chuẩn này được phát triển bởi Organization for the Advancement of StructuredInformation Standards (OASIS) Các thông số kỹ thuật của tiêu chuẩn đã được pháttriển bởi Sun Microsystems cho các định dạng XML ban đầu được tạo ra và thựchiện bởi OpenOffice.org
Đinh dạng OpenDocument được sử dụng trong các phần mềm tự do và cả ở phầnmềm độc quyền Nó bao gồm bộ phần mềm văn phòng (cả dạng phần mềm truyềnthống lẫn phần mềm trên nền web) và các ứng dụng cá nhân như phần mềm xử lývăn bản, bảng tính, bản thuyết trình, và ứng dụng quản lý dữ liệu
Ngoài việc là một tiêu chuẩn OASIS, phiên bản 1.0 được công bố như là một tiêuchuẩn quốc tế ISO/IEC
Tiêu chuẩn ISO cho odt:
- ISO/IEC 26300:2006 Open Document Format for Office Applications
e Tài liệu mở XML (.docx)
Tài liệu mở XML (cũng chính thức được gọi là OOXML hoặc OpenXML) là định dạngtập tin XML được phát triển bởi Microsoft cho đại diện cho bảng tính, biểu đồ, trìnhdiễn và văn bản
Bộ chương trình Microsoft Office 2007 mặc định lưu tập tin dùng định dạng này.Office Open XML bao gồm nhiều ngôn ngữ đánh dấu đặc biệt thuộc họ XML và góilại những tập tin XML trong lưu trữ Open Packaging Convention (hợp với định dạngZIP) Bản đặc tả định dạng bao gồm các giản đồ XML (XML schema) dùng để kiểmchứng cú pháp XML trong một tập tin
Microsoft phát triển bản đặc tả về Office Open XML để thay thế các định dạng nhịphân cũ của Office và nó được Ecma International xuất bản là tiêu chuẩn Ecma 376vào tháng 12 năm 2006 và ISO/IEC chuẩn hóa (ISO/IEC 29500)
Tiêu chuẩn ISO cho docx:
Trang 17- ISO/IEC 29500-1:2012 Information technology - Document description andprocessing languages - Office Open XML File Formats - Part 1: Fundamentals andMarkup Language Reference.
- ISO/IEC 29500-2:2012 Information technology - Document description andprocessing languages - Office Open XML File Formats - Part 2: Open PackagingConventions
- ISO/IEC 29500-3:2012 Information technology - Document description andprocessing languages - Office Open XML File Formats - Part 3: Markup Compatibilityand Extensibility
- ISO/IEC 29500-4:2012 Information technology - Document description andprocessing languages Office Open XML File Formats - Part 4: TransitionalMigration Features
3.5 Tiêu chuẩn ISO 15836:2003.
Bộ phần tử dự liệu đặc tả Dublin Core là một chuẩn đề cập đến việc mô tả tàinguyên thông tin liên lĩnh vực Ở đây, tài nguyên thông tin được định nghĩa là cácthông tin được định danh Đây là định nghĩa được sử dụng trong chuẩn Internet RFC
2396, “các thẻ định danh tài nguyên thống nhất (URI): Cú pháp chung” do TimBerners-Lee và cộng sự phát triển Đối với các ứng dụng Dublin Core, tài nguyênthông tin là một tài liệu điện tử
Tiêu chuẩn này chỉ áp dụng cho bộ phần tử được sử dụng chung trong các ứngdụng hoặc dự án cụ thể Các chính sách, yêu cầu của cộng đồng và địa phươngkhác nhau có thể áp đặt thêm một số giới hạn, quy tắc và cách thông dịch Tiêuchuẩn này không định nghĩa chi tiết tiêu chí mà bộ phần tử được sử dụng trong cácứng dụng và dự án cụ thể Tiêu chuẩn này thay thế cho chuẩn RFC 2413, đây làphiên bản phát hành đầu tiên về Dublin Core
Trong các mô tả phần tử, mỗi phần tử có một nhãn mô tả nhằm truyền đạt sự amhiểu ngữ nghĩa về phần tử và mỗi phần tử còn có một tên duy nhất, gồm một từ màmáy có thể hiểu được, dùng để tạo ra đặc tả cú pháp của các phần tử đơn giản hơntrong lược đồ mã hóa
Trang 18Tuy nhiên trong một vài môi trường, như HTML, không phân biệt dạng chữ hoa vàchữ thường thì việc tuân thủ các quy ước về tên các phần tử là cách tốt nhất nhằmtránh xung đột khi dự liệu đặc tả được trích dẫn hoặc chuyển đổi sang các môitrường có sự phân biệt chữ hoa, chữ thường, như XML (Ngôn ngữ đánh dấu mởrộng).
Mỗi phần tử là tùy chọn và có thể lặp lại Các phần tử dự liệu đặc tả có thể xuất hiện
ở mọi thứ tự Việc sắp xếp theo thứ tự số lần xuất hiện của một phần tử (ví dụ: tácgiả) có ý nghĩa đối với nhà cung cấp, nhưng không đảm bảo các phần tử được duytrì trong mỗi hệ thống
Để thúc đẩy tính tương tác toàn cầu, một số mô tả phần tử nên có một từ điển đốivới các giá trị phần tử tương ứng Điều này được giả định rằng các từ vựng đượckiểm soát khác sẽ được phát triển về tính tương tác trong các miền cục bộ nào đó.Các phần tử gồm có:
1 Tiêu đề: Tên được đặt cho một tài nguyên Thông thường, Tiêu đề được hiểu làtên chính thức của một tài nguyên
2 Tác giả: Một thực thể trách nhiệm chính là tạo ra nội dung cho tài nguyên Thôngthường, tên của tác giả nên được sử dụng để định danh thực thể này
3 Chủ đề: Một chủ điểm nội dung của tài nguyên Thông thường, Chủ đề được thểhiện là các từ khóa, cụm từ khóa, hoặc các mã phân loại mô tả chủ điểm của tàinguyên Cách tốt nhất được khuyến cáo là lựa chọn một giá trị từ một từ vựng đượckiểm soát hay từ một lược đồ phân loại chính thức
4 Mô tả: Mô tả nội dung của tài nguyên Các ví dụ về mô tả bao gồm, nhưng khôngchỉ như vậy, một tóm tắt, mục lục, tham chiếu đến nội dung của tài liệu bằng đồ họa,văn bản
5 Nhà phát hành: Thực thể có trách nhiệm tạo ra tài nguyên thông tin sẵn sàng để
sử dụng Thông thường, tên của nhà phát hành nên được sử dụng để chỉ ra thực thểđó
6 Người đóng góp: Thực thể có trách nhiệm đóng góp vào nội dung của tài nguyênthông tin đó Thông thường, tên của người đóng góp nên được sử dụng để chỉ rathực thể đó
Trang 197 Ngày tháng: Ngày tháng của sự kiện trong vòng đời của tài nguyên Thôngthường, Ngày tháng là ngày tạo ra tài nguyên hoặc ngày tài nguyên sẵn sàng sửdụng Cách tốt nhất được khuyến cáo đối với việc mã hóa giá trị ngày tháng đượcxác định trong một hồ sơ theo TCVN ISO 8601:2004 [W3CDTF] và bao gồm ngàytháng theo dạng YYYY-MM-DD.
8 Kiểu: Bản chất hoặc dạng nội dung của tài nguyên Kiểu bao gồm các thuật ngữ
mô tả các danh mục phân loại chung, các chức năng, các dạng hoặc các mức kếthợp nội dung Cách tốt nhất được khuyến cáo để chọn một giá trị từ một từ vựngđược kiểm soát (ví dụ, từ vựng kiểu DCMI [DCT]) Để mô tả biểu thị dạng vật lý hoặcdạng số của tài nguyên, sử dụng phần tử định dạng
9 Định dạng: Biểu thị dạng vật lý hoặc số của tài nguyên Thông thường, định dạngbao gồm kiểu phương tiện hoặc các kích cỡ của tài nguyên Định dạng được sửdụng để định danh phần mềm, phần cứng, hoặc thiết bị cần thiết khác dùng cho việcđiều hành hoặc hiển thị Các ví dụ về kích thước bao gồm kích cỡ và khoảng thờigian Cách tốt nhất được khuyến cáo là lựa chọn giá trị từ một từ vựng được kiểmsoát (ví dụ, danh sách các kiểu phương tiện Internet (Internet Media Types [MIME])định nghĩa các định dạng môi trường máy tính)
10 Thẻ định danh: Tham chiếu đến tài nguyên thông tin trong ngữ cảnh cụ thể Cáchtốt nhất được khuyến cáo là định danh tài nguyên bằng một chuỗi hoặc số phù hợpvới hệ thống định danh chính thức Hệ thống định danh chính thức bao gồm nhưngkhông hạn chế đối với thẻ định danh tài nguyên thông tin thống nhất (URI) (gồmngười quy định tài nguyên thống nhất (URL), thẻ định danh đối tượng dạng số (DOI),và mã số sách tiêu chuẩn quốc tế ( (ISBN))
11 Nguồn: Tham chiếu đến một tài nguyên ở đó tài nguyên hiện tại được tạo Tàinguyên hiện tại có thể được lấy từ toàn bộ hoặc một phần tài nguyên gốc Cách tốtnhất được khuyến cáo là định danh tài nguyên được tham chiếu bởi chuỗi hoặc bởi
số phù hợp với hệ thống định danh chính thức
12 Ngôn ngữ: Ngôn ngữ mô tả nội dung tri thức của tài nguyên Cách tốt nhất là sửdụng RFC 3066 kết hợp với ISO 639 [ISO639], định nghĩa các thẻ ngôn ngữ chínhgồm hai và ba chữ cái cùng với các thẻ nhỏ tùy chọn
Trang 2013 Quan hệ: Tham chiếu đến tài nguyên có liên quan Cách tốt nhất được khuyếncáo là định danh tài nguyên được tham chiếu bằng chuỗi hoặc số phù hợp với hệthống định danh chính thức.
14 Phạm vi: Phạm vi về nội dung của tài nguyên Thông thường, phạm vi bao gồm
vị trí về không gian (tên địa điểm hoặc tọa độ địa lý), khoảng thời gian (nhãn, ngàytháng, hoặc dãy ngày tháng), hoặc pháp nhân (như thực thể quản trị được đặt tên).Cách tốt nhất được khuyến cáo là lựa chọn một giá trị từ một từ vựng được kiểmsoát
15 Quyền: Thông tin về các quyền đối với tài nguyên Thông thường, quyền baogồm tuyên bố quản lý các quyền đối với tài nguyên, hoặc tham chiếu một dịch vụ cấpthông tin Thông tin về các quyền thường bao gồm Quyền sở hữu trí tuệ (IPR), bảnquyền, và các quyền sở hữu khác Nếu có mặt phần tử quyền, thì không có giả địnhnào được tạo ra về các quyền trong tài nguyên đó
3.6 Tiêu chuẩn ISO 999:1996.
Tiêu chuẩn này cung cấp hướng dẫn về nội dung, tổ chức và trình bày các chỉ mục,
áp dụng cho việc lập chỉ mục cho các dữ liệu toán văn và tài liệu điện tử
Tiêu chuẩn này liên quan đến các nguyên tắc lập chỉ mục cơ bản và thực hành chứkhông phải là các thủ tục chi tiết về lập chỉ mục tùy theo loại tài liệu được lập chỉ mụcvà người dùng được chỉ mục nhắc đến
Tiêu chuẩn này bao gồm các lựa chọn, hình thức và sự sắp xếp của các Tiêu đề vàTiêu đề phụ được sử dụng trong mục nhập chỉ mục khi các đối tượng lập chỉ mụcđược xác định
Mặc dù tiêu chuẩn này không đưa ra bất cứ hướng dẫn cho việc tạo ra chỉ mục tựđộng trên máy tính, nó có liên quan đến việc tạo ta tất cả các loại chỉ mục, bất kểchúng được thực hiện thủ công hoặc bằng các phương pháp có máy tính hỗ trợ, vàđược biên soạn bởi một người lập chỉ mục hoặc một nhóm người lập chỉ mục
Tiêu chuẩn này không bao gồm việc trích xuất bằng máy các từ khóa để tạo ra chỉmục, cũng không bao gồm các hệ thống lập chỉ mục đặc biệt như PRECIS, hệ thống