Tiêu chuẩn này liên quan đến việc chuẩn bị tất cả các loại chỉ mục cho tìm kiếm thông tin, bất kể chúngđược tạo lập trên cơ sở phân tích bằng trí tuệ, bằng các phương pháp tự động hoặc đ
Trang 1T I Ê U C H U Ẩ N Q U Ố C G I A
TCVN XXX:2017Xuất bản lần 1
TIÊU CHUẨN KỸ THUẬT TẠO LẬP CHỈ MỤC (DÙNG CHO METADATA VÀ TÀI LIỆU TOÀN VĂN)
Technical standard for indexing (for metadata and full text document)
HÀ NỘI - 2017
TCVN
Trang 3TCVN XXX:2017
Lời nói đầu 5
1 Phạm vi áp dụng 7
2 Tài liệu viện dẫn 7
3 Thuật ngữ và định nghĩa 7
4 Chức năng của chỉ mục 9
5 Phân loại chỉ mục 10
5.1 Chỉ mục theo chủ đề 10
5.2 Chỉ mục theo tác giả 10
5.3 Chỉ mục theo tên 10
5.4 Chỉ mục địa lý 10
5.5 Chỉ mục theo nhan đề 10
5.6 Chỉ mục theo số hiệu và mã hiệu 10
6 Kiểm soát chất lượng 11
6.1 Chất lượng của chỉ mục 11
6.2 Độ dài và chi tiết của chỉ mục 11
6.3 Tính nhất quán trong lập chỉ mục 11
7 Nội dung và tổ chức chỉ mục 12
7.1 Cấu trúc và nội dung tổng quát 12
7.2 Lựa chọn các tiêu đề 12
7.3 Tên riêng 14
7.4 Dấu định vị 19
7.5 Tham chiếu chéo 21
8 Cách sắp xếp các mục từ trong chỉ mục 22
8.1 Trật tự cơ bản của việc sắp xếp các ký tự 22
8.2 Sắp xếp theo trật tự chữ cái theo từng từ so với từng ký tự 22
8.3 Sắp xếp chữ và số 22
8.4 Sắp xếp các tiêu đề chỉ mục 23
8.5 Tiêu đề chỉ mục bắt đầu bằng cùng một thuật ngữ 23
8.6 Sắp xếp các phụ đề 23
8.7 Sắp xếp các mục từ chứa tham chiếu chéo 24
9 Trình bày chỉ mục dữ liệu đặc tả 24
9.1 Trình bày chỉ mục trình duyệt 24
9.2 Trình bày hồ sơ tìm kiếm 24
9.3 Từ điển dữ liệu đặc tả 24
10 Trình bày chỉ mục tài liệu toàn văn 25
10.1 Trình bày bản chỉ mục để xử lý cuối cùng 25
Trang 410.2 Ghi chú dẫn nhập 26
10.3 Trình bày chỉ mục 26
10.4 Hỗ trợ tìm kiếm 27
Tài liệu tham khảo 30
Trang 5TCVN XXX:2017
Lời nói đầu
TCVN XXX:2017 được xây dựng trên cơ sở tham khảo các tài liệu:
TCVN 10669:2014 (ISO/IEC 5963:1985) và TCVN 10846:2015 (ISO
999:1996)
TCVN XXX:2017 do Viện Công nghệ thông tin Đại học Quốc gia Hà Nội
biên soạn, Bộ Thông tin và Truyền thông đề nghị, Tổng cục Tiêu chuẩn
Đo lường Chất lượng thẩm định, Bộ Khoa học và Công nghệ ban hành
Trang 7Tiêu chuẩn này liên quan đến việc chuẩn bị tất cả các loại chỉ mục cho tìm kiếm thông tin, bất kể chúngđược tạo lập trên cơ sở phân tích bằng trí tuệ, bằng các phương pháp tự động hoặc được máy tính hỗtrợ, cho dù chúng được tìm kiếm bằng mắt thường hoặc bằng thuật toán điện tử và được biên soạnbởi một người lập chỉ mục hoặc một nhóm người lập chỉ mục.
Việc lập chỉ mục cho dữ liệu đặc tả (metadata) dựa trên các thông tin tóm tắt trong các phần tử dữ liệuđặc tả như nhan đề, chủ đề, tác giả, định danh, mô tả… Tiêu chuẩn dữ liệu đặc tả theo TCVN7980:2008 (ISO 15836:2003) và hướng dẫn tại thông tư số 24/2011/TT-BTTTT ngày 20/9/2011 của BộThông tin và Truyền thông
2 Tài liệu viện dẫn
TCVN 10669:2014 (ISO 5963:1985) Thông tin và tư liệu – Phương pháp phân tích tài liệu, xác định chủ
Trang 83.2 Lập chỉ mục (indexing)
Hành động mô tả hoặc nhận dạng một tài liệu bằng các thuật ngữ về nội dung chủ đề của nó [TCVN5453: 2009, định nghĩa 4.2.2.7.01]
3.4 Mục từ chỉ mục (entry)
Đại diện của một đơn vị tài liệu trong một chỉ mục Nó bao gồm ít nhất một tiêu đề và một dấu định vị
Có nhiều hơn một dấu định vị cho một tiêu đề trong một bảng mục từ chỉ mục, nhưng mỗi dấu định vịkết hợp với một tiêu đề đại diện cho một mục từ duy nhất
3.10 Dữ liệu toàn văn (full text data)
Dữ liệu nguồn bao gồm các các tài liệu hoàn chỉnh hoặc các phần cơ bản của tài liệu [TCVN 5453:
2009, định nghĩa 1.1.4.12]
3.11 Từ điển từ chuẩn (thesaurus)
Bộ từ vựng có kiểm soát chứa các thuật ngữ tương đương, mối quan hệ liên đới và các quy tắc ápdụng [TCVN 5453: 2009, định nghĩa 4.2.2.6.01]
Trang 9TCVN XXX:2017
3.12 Tệp chuẩn (authority file):
Danh sách hoặc tập các tiêu đề được sử dụng trong một chỉ mục, ví dụ: hình thức của tên riêng, Tiêu
đề chủ đề
3.13 Tham chiếu chéo (cross-reference)
Liên kết giữa hai hoặc nhiều hơn hai từ hoặc tiêu đề trong một chỉ mục Có ba kiểu quan hệ giữa các
từ yêu cầu tham chiếu chéo:
- Quan hệ tương đương giữa các từ hoặc tiêu đề đồng nghĩa;
- Quan hệ liên kết, cho thấy một mối quan hệ không xác định giữa các từ hoặc tiêu đề (gọi là từ hoặctiêu đề có liên quan);
Quan hệ thứ bậc, chỉ một mối quan hệ rộng hơn/hẹp hơn giữa các từ hoặc tiêu đề
3.14 Từ điển từ chuẩn (thesaurus)
Bộ từ vựng có kiểm soát chứa các thuật ngữ tương đương, mối quan hệ liên đới và các quy tắc ápdụng [TCVN 5453: 2009, định nghĩa 4.2.2.6.01]
3.15 Tệp chuẩn (authority file):
Danh sách hoặc tập các tiêu đề được sử dụng trong một chỉ mục, ví dụ: hình thức của tên riêng, Tiêu
đề chủ đề
4 Chức năng của chỉ mục
Chức năng của một chỉ mục là cung cấp cho người dùng một phương tiện tìm kiếm thông tin có hiệuquả Do đó, việc lập chỉ mục nên:
a) Nhận dạng và định vị thông tin thích hợp trong các tài liệu được lập chỉ mục;
b) Phân biệt giữa thông tin về một chủ đề và đề cập về một chủ đề;
c) Phân tích các khái niệm được đề cập trong tài liệu mà một số tiều đề thể hiện;
d) Đảm bảo các thuật ngữ được sử dụng trong chỉ mục phù hợp với người dùng chỉ mục để họ có thể:
- Nhanh chóng thiết lập sự tồn tại hay không thông tin về một chủ đề cụ thể;
- Nhanh chóng phục hồi thông tin được ghi nhớ trong một phần hoặc toàn bộ tài liệu;
- Nhanh chóng xác định các tài liệu trong bộ sưu tập
e) Nhóm các thông tin nằm rải rác trong các tài liệu hoặc bộ sưu tập;
Trang 10f) Tổng hợp các tiêu đề và tiêu đề phụ vào trong các dẫn mục; sự tổng hợp này có thể đặt vào một tệpchuẩn;
g) Sắp xếp các dẫn mục theo thứ tự có hệ thống và tiện dụng
5 Phân loại chỉ mục
Chỉ mục có thể được tạo lập cùng hoặc riêng biệt với tài liệu
Chỉ mục có thể bao gồm các dẫn mục cho một loạt các loại khác nhau bao gồm tên (người, nhóm, địadanh), từ kỹ thuật, các chủ đề, nhan đề, trích dẫn, từ viết tắt, số, ngày tháng, v.v…
Chỉ mục tổng quát kết hợp các dẫn mục cho tất cả hoặc bất kỳ loại nào nêu trên theo một tuần tự duynhất
Chỉ mục theo tác giả có thể bao gồm tác giả là cá nhân hoặc tập thể
5.5 Chỉ mục theo nhan đề
Chỉ mục theo nhan đề cung cấp truy cập theo nhan đề hoặc trích dẫn của tài liệu được thể hiện trongmột chuỗi các nhan đề
5.6 Chỉ mục theo số hiệu và mã hiệu
Chỉ mục theo số hiệu và mã hiệu đề cung cấp truy cập theo định danh của tài liệu
Trang 116.2 Độ dài và chi tiết của chỉ mục
Bảng chỉ mục cần đủ chi tiết để đáp ứng nhu cầu mong đợi của người dùng, phản ánh số lượng chi tiết
và số chủ đề được bao quát bởi, các tài liệu được định chỉ mục Các nhân tố ảnh hưởng đến độ dài của một bảng chỉ mục bao gồm:
a) Đặc điểm và mục đích của các tài liệu được định chỉ mục, ví dụ, tài liệu hàn lâm hoặc kỹ thuật có thểyêu cầu xử lý chi tiết hơn tài liệu phổ cập;
b) Mục đích định chỉ mục, ví dụ, một người đọc cụ thể có thể chỉ quan tâm đến một khía cạnh của cáctài liệu phức tạp Khi việc trình bày một tài liệu nghiêng về một quan điểm riêng biệt về định chỉ mục,điều này cần được thể hiện rõ ràng trong một ghi chú giới thiệu, hoặc trong nhan đề hoặc ở một vị trínào đó
Nếu xem xét chuyên môn của người định chỉ mục về mức độ chi tiết của định chỉ mục cần thiết trong việc tạo ra một bảng chỉ mục dài hơn phép tính kinh tế của nhà xuất bản thì những thay đổi trong cách trình bày hoặc in ấn được ưu tiên hơn là làm giảm số mục từ trong bảng chỉ mục
Sẽ hữu ích nếu người định chỉ mục có thể đánh giá được số lượng và phạm vi của các mục từ ở giaiđoạn bắt đầu, để việc trình bày này có thể được thảo luận vào thời gian thích hợp
6.3 Tính nhất quán trong lập chỉ mục
Chi tiết, văn phong và cách trình bày của một bảng chỉ mục cần phải nhất quán
Bảng chỉ mục, cần được xây dựng phù hợp với một mẫu logic, cân đối, nhất quán và dễ nhận biết Tính nhất quán phù hợp với số lượng chi tiết xác định, việc sử dụng thuật ngữ, phân nhóm, đảo
ngược, các tham chiếu chéo, các dấu định vị và văn phong và cách trình bày chung
Tính nhất quán có thể đạt được nếu
a) Các chính sách định chỉ mục và các tệp chuẩn được thiết lập và tuân thủ;
Trang 12b) Các nguồn lực định chỉ mục tin cậy được sử dụng, ví dụ, các từ điển, các bộ từ vựng có kiểm soát,các tư vấn với chuyên gia;
c) Các quyết định định chỉ mục được ghi lại có hệ thống;
d) Công việc với cùng một bảng chỉ mục được thực hiện bởi từ hai người định chỉ mục trở lên đượcphối hợp chặt chẽ
Kiểm tra cẩn thận, biên tập và đọc rà soát bảng chỉ mục là điều kiện cơ bản để đảm bảo việc sử dụngnhất quán các tiêu đề và phụ đề, tính chính xác trong các tham chiếu chéo, các dấu định vị, sắp xếptheo chữ cái hoặc cách khác, việc sử dụng đúng các dấu chấm câu và khoảng cách, và (nếu cần) thaythế các tham chiếu chéo bằng các mục từ bổ sung
7 Nội dung và tổ chức chỉ mục.
7.1 Cấu trúc và nội dung tổng quát.
7.1.1 Diện bao quát.
Các bảng chỉ mục thường phải bao quát tất cả nội dung trong các tài liệu Những loại bỏ đáng kể cầnphải làm cho người dùng chú ý trong một ghi chú giới thiệu
Trong trường hợp các tài liệu in, nội dung thường được định chỉ mục bao gồm các lời giới thiệu, cácghi chú, các phụ đính, các hình minh họa và các phụ lục
Các trang nhan đề, các lời đề tặng, các mục lục, các toát yếu hoặc các bản tóm tắt ở đầu bài báo hoặcchương, các quảng cáo và các mục tương tự, thường không được định chỉ mục, mặc dù chúng phảiđược nghiên cứu để lấy tài liệu đưa vào bảng chỉ mục
7.1.2 Thông tin ngầm chứa và bổ sung được định chỉ mục.
Các bảng chỉ mục cần có thể cung cấp thông tin ngầm chứa trong các tài liệu, ví dụ, các tên đầy đủ,các ngày tháng xác định, các tên hóa chất, vì những thông tin này có thể hữu ích đặc biệt đối với ngườidùng
7.1.3 Ghi chú giới thiệu.
Khi cần thiết, một ghi chú giới thiệu giải thích việc thiết kế hoặc xây dựng chúng cần phải được cungcấp ở đầu các bảng chỉ mục hoặc đầu một loạt các bảng chỉ mục
7.2 Lựa chọn các tiêu đề
7.2.1 Lựa chọn các khái niệm.
Việc lựa chọn các khái niệm đưa vào các bảng chỉ mục phụ thuộc vào nhu cầu mong đợi của ngườidùng và bản chất của các tài liệu được định chỉ mục Các phụ đề có thể càng cụ thể càng cần thiết để
hỗ trợ người dùng
Trang 13TCVN XXX:2017
Khi lựa chọn các khái niệm, tiêu chí chủ yếu phải luôn là giá trị tiềm năng của một khái niệm với vai trò
là một yếu tố trong quá trình thể hiện chủ đề của tài liệu và quá trình truy hồi thông tin Khi lựa chọncác khái niệm, người định chỉ mục cũng luôn phải nhớ các câu hỏi, trong phạm vi chúng được biết đến,
có thể được đặt ra đối với hệ thống thông tin Trên thực tế, tiêu chí này trình bày lại chức năng chủ đạocủa việc định chỉ mục Trong bối cảnh này, người định chỉ mục nên:
a) Chọn các khái niệm được một cộng đồng người dùng nhất định coi là thích hợp nhất, luôn nhớ rõmục đích của chỉ mục,
b) Nếu cần, chỉnh sửa cả các công cụ lẫn thủ tục định chỉ mục nếu đó là phản hồi từ các yêu cầu Tuynhiên những chỉnh sửa này không nên mở rộng đến mức phải biến đổi cấu trúc hoặc tính logic củangôn ngữ định chỉ mục
Tính chi tiết đề cập đến mức độ một khái niệm cụ thể xuất hiện trong một tài liệu có thể được chỉ rõmột cách chính xác trong ngôn ngữ định chỉ mục Sự mất đi tính chi tiết xảy ra khi một khái niệm cụ thểđược thể hiện bởi một thuật ngữ mang nghĩa khái quát nhiều hơn
Các khái niệm nên được xác định càng chi tiết càng tốt Các khái niệm khái quát hơn có thể được ưutiên trong một số trường hợp, phụ thuộc vào các yếu tố sau:
a) Mức độ mà người định chỉ mục cho rằng tính riêng biệt thái quá có thể tác động tiêu cực đến chấtlượng của hệ thống định chỉ mục Chẳng hạn, người định chỉ mục có thể quyết định rằng các phiên bảnrất cụ thể của sản phẩm có thể được thay thế bằng các thuật ngữ khái quát hơn như tên của nhà sảnxuất và có lẽ của dòng sản phẩm, đặc biệt là khi các khái niệm này chỉ xuất hiện ở các lĩnh vực ngoại vicủa lĩnh vực chủ đề mà chỉ mục đang đề cập
b) Mức độ quan trọng được tác giả đặt vào khái niệm Nếu người định chỉ mục cho rằng một ý kiếnkhông được phát triển đầy đủ, hoặc chỉ được tác giả nhắc đến một cách ngẫu nhiên thì việc định chỉmục ở một mức độ khái quát hơn có thể là hợp lý
Trang 14- Các từ điển từ chuẩn, đặc biệt là những cuốn được xây dựng theo đúng tiêu chuẩn ISO 2788 hoặcISO 5964;
- Thể hiện bằng các thuật ngữ hoặc từ mô tả mà những từ này được đưa vào ngôn ngữ chỉ mục ngaylập tức;
- Thể hiện tạm thời bằng các thuật ngữ có ý nghĩa khái quát hơn, còn các khái niệm mới thì được đềxuất để đưa vào sau này
Khi biên soạn một tệp tên chuẩn để định chỉ mục nhiều tài liệu, người định chỉ mục cần chọn hình thứctên cá nhân mới nhất hoặc được sử dụng phổ biến nhất làm tiêu đề và bổ sung các tham chiếu chéo
“xem” từ các dạng khác
VÍ DỤ
Trang 15Finnbogadóttir, Vígdís xem Vígdís Finnbogadóttir
Ngoại lệ, trong các nước và các tình huống khi những người dùng không mong muốn phân biệt tênngười từ các nền văn hóa khác, các tên có thể được hoán vị với các tham chiếu chéo thích hợp từdạng thuận
c) Các cá nhân chỉ được xác định bởi tên thánh cần được định chỉ mục dưới tên này, có bổ nghĩa,nếu cần, bởi chức vụ trong cơ quan hoặc hình dung từ phân biệt khác
VÍ DỤ
1 Boudicca, Queen of the Iceni
2 Ethelred the Unready
Trang 162 Marlborough, John Churhcil, first Duke of
3 Sévigné, Marie de Rabutin-Chantal (Marquise de)
e) Các họ ghép hoặc nhiều họ, cho dù có gạch nối hoặc không cần định chỉ mục dưới thành phầnđầu tiên, với bất kỳ tham chiếu chéo “xem” cần thiết nào từ các phần khác, ngoại trừ ở nơi nào việc sửdụng thiên về bất kỳ một dạng nào khác
VÍ DỤ
1 Lattre de Tassigny, Jean de
Tasigny, Jean de Lattre de xem Lattre de Tassigny, Jean de
2 Layzell Ward, Patricia
Ward, Patricia Layzell xem Layzell Ward, Patricia
4 Pérez de Cuéllar, Javier
7.3.1.3 Phân biệt các cá nhân có cùng một tên
Từ hai cá nhân trở lên có cùng tên cần được phân biệt bằng cách thêm thông tin làm rõ, như ngàytháng, nghề nghiệp hoặc chức vụ
Trang 17TCVN XXX:2017
VÍ DỤ
1 Academia Scientiarum Fennica
2 Brish Museum
3 Ecole nationale supérieure des mines (Paris)
Ecole nationale supérieure des mines (Sainte-Etienne)
4 Koninklijke Bibliotheek (Bruxelles)
Koninklijke Bibliotheek (‘s-Gravenhage)
5 Marks & Son (1936)
Marks & Son (Fisheries)
Tuy nhiên, sự hoán vị có thể được sử dụng nếu xét thấy rằng điều này có thể trợ giúp người dùngbảng chỉ mục
VÍ DỤ
1 Nông nghiệp, Bộ (Agriculture, Ministry of)
2 Whitaker (J) & Sons
Tham chiếu chéo “xem” phải được thực hiện từ các cách tiếp cận khác (xem 7.5.1)
VÍ DỤ
1 Bộ Nông nghiệp (Ministry of Agriculture) xem Nông nghiệp, Bộ (Agriculture, Ministry of)
2 J Whitaker & Sons xem Whitaker (J) & Sons
Trong các bảng chỉ mục của một tài liệu, các tên tập thể phải lấy dạng được sử dụng trong tài liệu,nhưng nếu văn bản này không phù hợp, người định chỉ mục phải chấp nhận một dạng khác Các thamchiếu chéo “xem” cần được thực hiện từ các dạng khác, cho dù nó có được sử dụng trong tài liệu haykhông (xem 7.5.1)
Khi biên soạn tệp tên chuẩn để định chỉ mục nhiều tài liệu, người định chỉ mục cần chọn dạng tên tậpthể mới nhất hoặc được dùng phổ biến nhất làm tiêu đề chính và bổ sung các tham chiếu chéo “xem”
từ các dạng khác
VÍ DỤ
1 John Moores University xem Liverpool John Moores University
Liverpool John Moores University
Liverpool Politechnic xem Liverpool John Moores University
2 OCLC
Ohio Colledges Library Center xem OCLC
Online Computer Library Center Inc xem OCLC