1. Trang chủ
  2. » Thể loại khác

II.5.10 Quy trinh tao lap chi muc nguoc toan van Final

7 158 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 287,38 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

5 Tiêu chuẩn kỹ thuật tạo lập chỉ mục ngược dùng cho metadata và tài liệu toàn văn – Phần 2: Quy trình tạo lập chỉ mục cho tài liệu toàn văn Technical standard for inverted indexing

Trang 1

T I Ê U C H U Ẩ N Q U Ố C G I A

TCVN II.5.10:2015

Xuất bản lần 1

TIÊU CHUẨN KỸ THUẬT TẠO LẬP CHỈ MỤC NGƯỢC

(DÙNG CHO METADATA VÀ TÀI LIỆU TOÀN VĂN)

PHẦN 2: QUY TRÌNH TẠO LẬP CHỈ MỤC CHO TÀI LIỆU TOÀN

VĂN

Technical standard for inverted indexing (for metadata and full text document)

Part 2: Indexing process for full text document

HÀ NỘI - 2015

TCVN

Trang 3

3

Lời nói đầu 4

1 Phạm vi áp dụng 5

2 Tài liệu viện dẫn 5

3 Thuật ngữ và định nghĩa 5

4 Từ điển từ chuẩn cho dữ liệu toàn văn Error! Bookmark not defined

5 Quy trình tạo lập chỉ mục ngược cho toàn văn Error! Bookmark not defined

5.1 Bước phân tích tài liệu Error! Bookmark not defined

5.2 Bước thiết kế chỉ mục Error! Bookmark not defined

5.3 Bước trình bày chỉ mục Error! Bookmark not defined

5.4 Bước kiểm tra chất lượng chỉ mục Error! Bookmark not defined

Phụ lục A (Tham khảo) Ví dụ sơ đồ thiết kế chỉ mục ngược cho tài liệu toàn vănError! Bookmark not defined

Thư mục tài liệu tham khảo Error! Bookmark not defined

Trang 4

Lời nói đầu

TCVN II.5.10:2015 được xây dựng trên cơ sở tham khảo các tài liệu:

ISO/IEC 5963:1985 và NISO/TR 02:1997

TCVN II.5.10:2015 do Viện Công nghệ thông tin Đại học Quốc gia Hà Nội biên soạn, Bộ Thông tin và Truyền thông đề nghị, Tổng cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học và Công nghệ ban hành

Trang 5

5

Tiêu chuẩn kỹ thuật tạo lập chỉ mục ngược (dùng cho metadata

và tài liệu toàn văn) –

Phần 2: Quy trình tạo lập chỉ mục cho tài liệu toàn văn

Technical standard for inverted indexing (for metadata and full text document) –

Part 2: Indexing process for full text document

1 Phạm vi áp dụng

Tiêu chuẩn này đề cập về quy trình tạo lập chỉ mục ngược cho tài liệu toàn văn mà đã được quy định

kỹ thuật và phương pháp tạo lập chỉ mục trong TCVN II.1.13

Phạm vi của tiêu chuẩn này bao gồm quy trình tạo lập chỉ mục cho tài liệu toàn văn của tài liệu in và tài liệu không in Thuật ngữ chỉ mục được sử dụng trong tiêu chuẩn này là chỉ mục ngược bao gồm chỉ mục ngược mức tài liệu và chỉ mục ngược mức từ

Phạm vi của tiêu chuẩn này không bao gồm những vấn đề không được quy định trong TCVN II.1.13

2 Tài liệu viện dẫn

Các tài liệu viện dẫn sau đây rất cần thiết cho việc áp dụng tiêu chuẩn này Đối với các tài liệu ghi năm công bố thì áp dụng phiên bản được nêu Đối với các tài liệu không ghi năm công bố thì áp dụng phiên bản mới nhất, bao gồm cả các sửa đổi, bổ sung (nếu có)

TCVN 5453: 2009, Thông tin và tư liệu – Từ vựng;

TCVN 7420-1:2004, Thông tin và tư liệu – Quản lý hồ sơ – Phần 1: Yêu cầu chung;

TCVN 10669:2014, Thông tin và tư liệu - Phương pháp phân tích tài liệu, xác định chủ đề và lựa chọn các thuật ngữ định chỉ mục;

NIST's Dictionary of Algorithms and Data Structures (Từ điển thuật toán và cấu trúc dữ liệu của Viện Tiêu chuẩn và Kỹ thuật Quốc gia Mỹ);

NISO TR03-1999, Guidelines for Alphabetical Arrangement of Letters and Sorting of Numerals and Other Symbols;

3 Thuật ngữ và định nghĩa

Tiêu chuẩn này áp dụng các thuật ngữ và định nghĩa được quy định trong TCVN II.1.13 và các thuật ngữ sau

3.1 Chỉ mục (Index)

Một danh sách các chủ đề xếp theo thứ tự chữ cái hoặc theo một hệ thống chỉ dẫn tới vị trí của mỗi

chủ đề trong một hay một tập hợp tài liệu

T I Ê U C H U Ẩ N Q U Ố C G I A TCVN II.5.10:2015

Trang 6

3.2 Chỉ mục ngược (inverted index)

Cấu trúc dữ liệu chỉ mục lưu giữ các ánh xạ từ nội dung (từ hoặc số) đến vị trí của nó trong một tệp tin cơ sở dữ liệu hoặc trong một tài liệu hoặc trong một tập tài liệu Có 2 loại chỉ mục ngược: chỉ mục ngược mức tài liệu và chỉ mục ngược mức từ

[NIST's Dictionary of Algorithms and Data Structures]

CHÚ THÍCH Chỉ mục ngược còn được gọi là tệp định vị (postings file) hoặc tệp ngược (inverted file) được sử dụng chủ yếu cho bộ máy tìm kiếm

3.3 Chỉ mục ngược mức tài liệu (record level inverted index)

Chỉ mục ngược chứa một danh sách tham chiếu đến các tài liệu cho từng từ

[NIST's Dictionary of Algorithms and Data Structures]

CHÚ THÍCH Chỉ mục ngược mức tài liệu còn được gọi là chỉ mục tệp tin ngược (inverted file index) hoặc tệp ngược (inverted file)

3.4 Chỉ mục ngược mức từ (word level inverted index)

Chỉ mục ngược chứa một danh sách cho biết bị trí của từng từ trong một tài liệu

[NIST's Dictionary of Algorithms and Data Structures]

CHÚ THÍCH 1 Chỉ mục ngược mức từ còn được gọi là danh sách chỉ mục ngược (inverted index list) hoặc danh sách ngược (inverted list)

CHÚ THÍCH 2 Chỉ mục ngược mức từ có thể áp dụng cho tìm kiếm cụm từ (pharse search) với khả năng xử lý và bộ nhớ tiêu tốn nhiều hơn

3.5 Từ điển từ chuẩn (thesaurus)

Bộ từ vựng có kiểm soát chứa các thuật ngữ tương đương, mối quan hệ liên đới và các quy tắc áp dụng

[Điều 3.8.3, TCVN 10669:2014]

3.6 Dữ liệu toàn văn (full text data)

Dữ liệu nguồn bao gồm các các tài liệu hoàn chỉnh hoặc các phần cơ bản của tài liệu

[TCVN 5453: 2009, định nghĩa 1.1.4.12]

3.7 Tiêu đề chỉ mục (heading)

Điểm truy cập đầu tiên tới một mô tả trong hệ thông tìm thông tin

[TCVN 5453: 2009, định nghĩa 4.2.1.3.01]

3.8 Phụ đề chỉ mục (subheading)

Tiêu đề được gộp vào dưới một tiêu đề để chỉ ra mối quan hệ phụ thuộc hoặc đang biến thể

3.9 Dấu định vị (locator)

Thành phần của dẫn mục trong chỉ mục cho biết vị trí của đơn vị tài liệu mà dẫn mục đề cập Dấu

Trang 7

7

3.10 Tham chiếu chéo (cross-reference)

Liên kết giữa hai hoặc nhiều hơn hai từ hoặc tiêu đề trong một chỉ mục Có ba kiểu quan hệ giữa các

từ yêu cầu tham chiếu chéo:

- Quan hệ tương đương giữa các từ hoặc tiêu đề đồng nghĩa;

- Quan hệ liên kết, cho thấy một mối quan hệ không xác định giữa các từ hoặc tiêu đề (gọi là từ hoặc tiêu đề có liên quan);

- Quan hệ thứ bậc, chỉ một mối quan hệ rộng hơ n/hẹp hơ n giữa các từ hoặc tiêu đề

3.11 Dữ liệu toàn văn (full text data)

Dữ liệu nguồn bao gồm các các tài liệu hoàn chỉnh hoặc các phần cơ bản của tài liệu [TCVN 5453:

2009, định nghĩa 1.1.4.12]

3.12 Tệp chuẩn (authority file)

Danh sách hoặc tập các tiêu đề được sử dụng trong một chỉ mục, ví dụ: hình thức của tên riêng, Tiêu

đề chủ đề

Ngày đăng: 15/12/2017, 14:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w