1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Hệ thống tìm tin Ngô Thanh Thảo

111 1,6K 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 111
Dung lượng 1,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sơ ñồ quá trình tìm tin 1.1.3.Các dạng tìm tin Có thể phân chia các dạng tìm tin theo các tiêu chí khác nhau như dựa vào tính chất của thông tin ñược tra cứu, dựa vào công cụ tìm tin ñượ

Trang 1

LỜI NÓI đẦU

Giáo trình ỘHệ thống tìm tinỢ ựược biên sọan nhằm cung cấp những kiến thức cơ bản về hệ thống tìm tin cho sinh viên chuyên ngành thông tin-thư viện

Nội dung giáo trình bao gồm 7 chương như sau:

Chương 1: Tổng quan về hệ thống tìm tin

Chương 2: Hệ thống công cụ xử lý ngữ nghĩa trong các hệ thống tìm tin

Chương 3: Tổ chức thông tin trong hệ thống tìm tin

Chương 4: Thiết kế hệ thống tìm tin

Chương 5: Hệ thống tìm tin thủ công

Chương 6: Hệ thống tìm tin tự ựộng hóa

Chương 7: đánh giá hiệu quả hoạt ựộng của hệ thống tìm tin

Giáo trình này ựược biên soạn lần ựầu nên không tránh khỏi những thiếu sót Rất mong nhận ựược ý kiến ựóng góp của các ựồng nghiệp và bạn ựọc ựể giáo trình ựược hoàn thiện hơn trong những lần xuất bản sau

Xin chân thành cảm ơn các ựồng nghiệp ở khoa Thư viện -Thông tin học, trường đại học Khoa học xã hội và nhân văn Tp.Hồ Chắ Minh, PGS.TS đoàn Phan Tân, ThS.Vĩnh Quốc Bảo ựã nhiệt tình giúp ựỡ và có nhiều ý kiến ựóng góp cho tác giả trong quá trình biên soạn giáo trình

TP.Hồ Chắ Minh, tháng 12 năm 2009 Tác giả

Trang 2

BẢNG CÁC TỪ VIẾT TẮT

AACR: Quy tắc biên mục Anh-Mỹ (Anglo-American Cataloguing Rule)

CSDL: Cơ sở dữ liệu

CQTT: Cơ quan thông tin

DDC: Khung phân lọai thập phân Dewey (Dewey Decimal Classification)

DC: Yếu tố siêu dữ liệu cốt lõi Dublin (Dublin Core)

Trang 3

CHƯƠNG 1 TỔNG QUAN VỀ HỆ THỐNG TÌM TIN

1.1.Tìm tin

1.1.1 Khái niệm tìm tin

Khái niệm tìm tin ñược nhiều tác giả ñề cập ñến trong nhiều tài liệu về các lĩnh vực khác nhau như thông tin học, thư viện học, khoa học máy tính… Sau ñây là một số ñịnh nghĩa về tìm tin

Theo TCVN 5453-1991, tìm tin là quá trình lựa chọn và ñưa ra từ một tập hợp tài liệu hay mảng tin nào ñó những tài liệu, thông tin thích hợp với nội dung yêu cầu tin [8]

Các tác giả cuốn “Cơ sở thông tin học” của Viện thông tin VINITI ñưa ra ñịnh nghĩa “Tìm tin là một tập hợp các công ñoạn ñược thực hiện với mục ñích tìm ra những tài liệu có chứa thông tin nhất ñịnh (sau ñó cung cấp chính các tài liệu ñó hoặc các bản sao của chúng) hoặc với mục ñích cung cấp các số liệu cụ thể ñể trả lời các câu hỏi ñược ñịnh trước” [24]

Theo C.T Meadow, các thuật ngữ tìm tài liệu, tìm dữ kiện, chọn lọc dữ liệu và tìm tin ñược sử dụng ñể chỉ quá trình tìm các tài liệu ñáp ứng yêu cầu tin (tìm tài liệu)

hoặc tìm thông tin trực tiếp (ba dạng tìm sau cùng) Vì vậy, “Tìm tin là quá trình tìm kiếm trong một mảng tin nào ñó những tài liệu chứa thông tin và việc tìm kiếm này không phụ thuộc vào bản chất, loại thông tin cần tìm và phương thức sử dụng thông tin ñó.” [22]

Theo B.C.Vickery, tìm tin là quá trình lựa chọn thông tin từ một mảng tin [31] Những ñịnh nghĩa trên cho thấy mặc dù cách diễn ñạt khác nhau nhưng có sự thống nhất tương ñối giữa các tác giả về ý nghĩa của thuật ngữ tìm tin Như vậy, tìm tin là một thuật ngữ chung ñược sử dụng ñể phản ánh quá trình tìm kiếm tài liệu hoặc thông tin cần thiết trong một mảng tin nào ñó

Việc tìm kiếm tài liệu hoặc thông tin cần thiết ñược thực hiện một cách chọn lọc và thường ñòi hỏi nhiều công sức, thời gian và chi phí Thư viện là một ví dụ ñiển hình

về một tổ chức chuyên phục vụ cho việc tìm kiếm thông tin một cách chọn lọc Một người dùng tin ñến thư viện không phải ñể ñọc toàn bộ tài liệu có trong thư viện mà

ñể tìm tài liệu hoặc thông tin một cách chọn lọc nhằm thỏa mãn các nhu cầu tin của mình Phương pháp hiệu quả nhất ñể tìm tài liệu hoặc thông tin cần thiết trong một thư viện bất kỳ là ñọc qua từng tài liệu của thư viện này Tuy nhiên, trong thực tế không thể áp dụng phương pháp này vì số lượng tài liệu trong các thư viện thường rất lớn nên việc ñọc tất cả tài liệu ñể chọn ra những tài liệu cần thiết là không khả thi Vì vậy, người ta sử dụng một phương pháp tìm tin khác, ñó là tìm tin theo các ñặc tính

nội dung ngắn gọn hoặc theo các ñặc tính hình thức của tài liệu

Trang 4

Có thể xem tìm tin như một quá trình truyền thông một cách gián tiếp giữa các tác giả hoặc những người tạo lập các biểu ghi với những người sử dụng thông tin Các ngôn ngữ và các kênh của hệ thống truyền thông này khác với các hệ thống truyền thông khác như truyền thông ñại chúng hoặc truyền thông trực tiếp Các ngôn ngữ ñược sử dụng trong hệ thống truyền thông này có thể là các ngôn ngữ tìm tin và/hoặc ngôn ngữ tự nhiên Còn các kênh truyền thông có thể là các công cụ tìm tin như hệ thống mục lục, bảng tra, cơ sở dữ liệu…Nói cách khác, tìm tin là một quá trình tương tác giữa người sử dụng và các mảng tin thông qua các công cụ tìm tin khác nhau

Quá trình tìm tin là một quá trình tương tác phụ thuộc vào khả năng của người dùng tin, sự phản hồi từ hệ thống tìm tin và các quyết ñịnh của người dùng tin về các hành ñộng tiếp theo dựa trên sự phản hồi này Các chi tiết về nhu cầu tin ban ñầu của người sử dụng có thể thay ñổi Các nhu cầu tin ban ñầu thường ñược ñiều chỉnh sau khi người tìm tin biết nhiều hơn về vấn ñề ñang tìm kiếm thông qua sự tương tác với các hệ thống tìm tin Vì vậy, quá trình tìm tin tiếp tục ñến khi người dùng tin có ñược thông tin thỏa mãn nhu cầu tin ñã ñược ñiều chỉnh của mình Công nghệ thích hợp, chẳng hạn hệ thống tìm tin và giao diện người sử dụng thích hợp, có thể thúc ñẩy quá trình nhưng ñó không phải là vấn ñề cơ bản nhất vì quá trình tìm tin phụ thuộc nhiều vào người dùng tin và nhu cầu tin của người dùng tin cũng như bản chất, số lượng và

sự ña dạng của thông tin

Trang 5

Xác định HTTTthích hợp

Đặt yêu cầu tincho HTTT

Nhận kết quả tìm

Đánh giá kết quả tìm

Thỏa mãnKhông thỏa mãn

Trang 6

Hình 1.1 Sơ ñồ quá trình tìm tin 1.1.3.Các dạng tìm tin

Có thể phân chia các dạng tìm tin theo các tiêu chí khác nhau như dựa vào tính chất của thông tin ñược tra cứu, dựa vào công cụ tìm tin ñược sử dụng, dựa vào loại hình tài liệu, dựa vào thời gian xuất bản của tài liệu, dựa vào ngôn ngữ tài liệu Trên thực

tế, ñể tìm tin một cách hiệu quả, quá trình tìm tin thường ñược thực hiện dựa trên sự kết hợp nhiều dạng tìm tin với nhau Dưới ñây là hai cách phân chia các dạng tìm tin thường ñược sử dụng

1.1.3.1 Dựa vào tính chất của thông tin ñược tra cứu

Dựa vào tính chất của thông tin ñược tra cứu, có thể phân chia thành các dạng tìm tài liệu và tìm thông tin dữ kiện

Tìm tài liệu là quá trình xác ñịnh và chọn lọc các tài liệu từ các nguồn tìm tương ứng với yêu cầu tin hoặc các dấu hiệu tìm tin cho trước như tên tác giả, tên tài liệu, nơi xuất bản, nhà xuất bản…

Tìm thông tin dữ kiện là quá trình xác ñịnh, chọn lọc và tách ra khỏi nguồn tin những số liệu, dữ kiện cụ thể như các số liệu thống kê, các ñặc tính, thông số kỹ thuật của các thiết bị, vật liệu, các khái niệm khoa học…ñể ñáp ứng các yêu cầu tin

1.1.3.2 Dựa vào công cụ tìm tin

Dựa vào công cụ tìm tin, có thể chia thành các dạng tìm tin thủ công, bán tự ñộng

và tự ñộng hóa

Tìm tin thủ công là quá trình tìm tin dựa trên các công cụ tìm tin thủ công hay còn gọi là công cụ tìm tin truyền thống như hệ thống mục lục, bộ phiếu tra cứu, bảng tra, thư mục, ấn phẩm thông tin, tài liệu tra cứu…

Tìm tin bán tự ñộng là quá trình tìm tin dựa trên các công cụ tìm tin bán tự ñộng như phiếu lỗ mép và phiếu lỗ soi

Tìm tin tự ñộng hóa là quá trình tìm kiếm các thông tin ñược xử lý, lưu trữ và truy cập thông qua máy tính hoặc mạng máy tính

Trước ñây, tìm tin thủ công là dạng tìm tin phổ biến nhất trong các thư viện và cơ quan thông tin Ngày nay, với sự phát triển nhanh chóng của công nghệ thông tin và viễn thông, tìm tin tự ñộng hóa ngày càng phổ biến hơn và trở thành dạng tìm tin chủ yếu trong các thư viện và cơ quan thông tin lớn Bên cạnh ñó, các công cụ tìm tin bán

tự ñộng hầu như không còn ñược sử dụng nữa nên dạng tìm tin bán tự ñộng ngày càng ñược ít người biết ñến

1.2.1 Một số khái niệm

1.2.1.1 Khái niệm hệ thống tìm tin

Khái niệm hệ thống tìm tin (HTTT) ñược ñề cập ñến trong nhiều tài liệu khác nhau Sau ñây là một số ñịnh nghĩa về hệ thống tìm tin

Theo TCVN 5453-1991, hệ thống tìm tin là hệ thống ñược xây dựng nhằm tạo ñiều kiện cho việc tìm tin.[8]

Theo D.B.Cleveland, hệ thống tìm tin là một công cụ thực hiện quá trình tìm tin.[14]

Trang 7

Theo F.W.Lancaster, hệ thống tìm tin là tổ hợp bao gồm các tài liệu, yêu cầu tin, các mô tả thống nhất tài liệu và yêu cầu tin, phương tiện cho phép so sánh các mô tả này, và con người (bao gồm các chuyên gia thông tin, chuyên gia ñiều hành hệ thống

Trong giáo trình “Hệ thống thông tin”, V.P.Zakharov ñịnh nghĩa “Hệ thống tìm tin

là tập hợp có tổ chức các tài liệu và các phương tiện kỹ thuật ñể lưu trữ và tìm kiếm thông tin hoặc tài liệu hoặc dữ liệu.” [33]

G.Kowalski, tác giả cuốn chuyên khảo “ Hệ thống tìm tin: Lý thuyết và ứng dụng”, ñưa ra ñịnh nghĩa ñơn giản “Hệ thống tìm tin là một hệ thống có khả năng lưu trữ, bảo quản và tìm kiếm thông tin” [19]

Những ñịnh nghĩa trên cho thấy thuật ngữ “hệ thống tìm tin” nói chung ñược dùng

ñể chỉ một hệ thống ñược xây dựng ñể lưu trữ và tìm kiếm thông tin ñã ñược lưu trữ

Có nhiều loại hệ thống thông tin khác nhau, từ các hệ thống thủ công với thông tin ñược lưu trữ trên giấy ñến các hệ thống ñược số hóa hoàn toàn Cách tổ chức thông tin và các kỹ thuật tìm tin trong các hệ thống tìm tin cũng khác nhau nhưng vấn ñề chung ñối với tất cả các hệ thống tìm tin là ñảm bảo hiệu quả tìm tin của hệ thống

1.2.1.2 Một số khái niệm liên quan

Nhu cầu tin

Nhu cầu tin là nhu cầu khách quan của người dùng tin về những thông tin cần thiết cho công việc cụ thể của mình [8]

Yêu cầu tin

Yêu cầu tin là nhu cầu tin của người dùng tin ñược thể hiện dưới dạng văn bản hoặc lời [8]

Mảng tin

Mảng tin (Information retrieval file) là tập hợp các tài liệu, dữ kiện (hoặc các thông tin về chúng) ñược sắp xếp theo một trình tự nhất ñịnh tiện lợi cho việc tìm và xử lý tin [8]

Mẫu tìm

Mẫu tìm của tài liệu là nội dung cơ bản của tài liệu ñược thể hiện bằng các thuật ngữ của ngôn ngữ tìm tin

Mẫu tìm của một tài liệu ñược tạo lập trong quá trình xử lý tài liệu và ñược sử dụng

ñể tìm tài liệu ñó trong tập hợp nhiều tài liệu khác Tập hợp các mẫu tìm của tài liệu là một bộ phận không thể thiếu của mảng tin

Quá trình thể hiện nội dung cơ bản của tài liệu bằng mẫu tìm ñược gọi là quá trình ñánh chỉ số

Lệnh tìm

Lệnh tìm là nội dung của yêu cầu tin ñược thể hiện bằng các thuật ngữ của ngôn ngữ tìm tin

Trang 8

ðiểm truy cập

ðiểm truy cập (access point) là một từ, cụm từ, mã số, tên gọi…ñược sử dụng ñể tìm thông tin trong một hệ thống tìm tin ðiểm truy cập có thể là giá trị của các thuộc

tính (hình thức và/hoặc nội dung) của ñối tượng ñược phản ánh trong hệ thống tìm tin

Ví dụ, trong một hệ thống tìm tin tư liệu, ñiểm truy cập có thể là tên tác giả, nhan ñề,

ñề mục chủ ñề, từ khóa, ký hiệu phân loại…cho phép tìm kiếm và nhận dạng một biểu ghi thư mục Các ñiểm truy cập này ñược người xử lý tài liệu lựa chọn khi tạo lập một biểu ghi

Tiêu chuẩn phù hợp ý nghĩa

Tiêu chuẩn phù hợp ý nghĩa là tập hợp các qui tắc nhằm xác lập một cách hình thức mức ñộ thích hợp của tài liệu với yêu cầu tin

Có thể chia các tiêu chuẩn phù hợp ý nghĩa thành hai nhóm chính là ñịnh lượng và logic Loại thứ nhất sử dụng các tiêu chí ñịnh lượng ñể ñánh giá mức ñộ giống nhau

về nội dung giữa tài liệu và yêu cầu tin (hệ số tương thích) ðiều này cho phép sắp xếp kết quả tìm ñược theo trật tự giảm dần về mức ñộ thích hợp của tài liệu với yêu cầu tin

Có nhiều mô hình toán học và công thức khác nhau ñể tính hệ số tương thích Tuy nhiên, cách tính ñơn giản nhất là dựa trên sự trùng hợp giữa các thuật ngữ trong mẫu tìm và lệnh tìm Cách tính này ñược áp dụng trong tất cả các hệ thống tìm tin tư liệu

sử dụng các ngôn ngữ tìm tin phân loại, ñề mục chủ ñề và từ khoá

Xác suất trùng hợp hoàn toàn giữa mẫu tìm và lệnh tìm trong các hệ thống tìm tin thường rất thấp Vì vậy, có thể phải ñánh giá mức ñộ trùng hợp một phần giữa mẫu tìm và lệnh tìm Nếu sự trùng hợp này ñạt ñến một mức ñộ cần và ñủ thì tài liệu tìm ñược ñược xem là thích hợp với yêu cầu tin

Gọi R là mức ñộ trùng hợp cần và ñủ giữa mẫu tìm và lệnh tìm ñể tài liệu tìm ñược

về cơ bản ñáp ứng ñược yêu cầu tin R ñược biểu thị bằng tỉ lệ % R ñược tính bằng công thức: R= (M/N) x 100%, trong ñó:

M là số lượng các thuật ngữ của mẫu tìm và lệnh tìm trùng nhau khi tìm tin

N là tổng số thuật ngữ có trong mẫu tìm

Trường hợp lý tưởng nhất là khi mẫu tìm trùng hợp hoàn toàn với lệnh tìm, nghĩa

là M=N hay R=100% Trên thực tế, với R>=25% là xem như ñạt yêu cầu

Loại tiêu chuẩn phù hợp ý nghĩa thứ hai là tiêu chuẩn phù hợp ý nghĩa logic Trên thực tế, các hệ thống tìm tin sử dụng các lệnh tìm với các toán tử logic Bool ngày càng phổ biến Trong các hệ thống này, các yêu cầu tin ñược thể hiện bằng biểu thức logic bao gồm một tập hợp các thuật ngữ tìm ñược liên kết với nhau bằng các toán tử

Trang 9

Bool Các thuật ngữ tìm của biểu thức ñóng vai trò như các biến số và sẽ nhận giá trị

1 (ñúng) nếu thuật ngữ ñó ñược chứa trong tài liệu hoặc nhận giá trị 0 (sai) khi tài liệu không chứa thuật ngữ ñó Tài liệu ñược xem là thích hợp với yêu cầu tin nếu kết quả tổng thể của biểu thức logic nhận giá trị ñúng Nếu kết quả có giá trị sai thì tài liệu

không thích hợp với yêu cầu tin Việc sử dụng các toán tử Bool ñảm bảo cho logic so

sánh mẫu tìm và lệnh tìm dễ hiểu ñối với người sử dụng Chính sự ñơn giản và dễ hiểu của tiêu chuẩn phù hợp ý nghĩa logic ñã giúp tiêu chuẩn này trở nên phổ biến

1.2.2 Mục ñích của hệ thống tìm tin

Một hệ thống tìm tin ñược xây dựng ñể tìm các tài liệu hoặc thông tin ñược cộng ñồng người sử dụng yêu cầu và phải sẵn sàng cung cấp tài liệu hoặc thông tin cần thiết cho người sử dụng Vì vậy, một hệ thống tìm tin bất kỳ phải tập trung vào việc thu thập và tổ chức thông tin về một hoặc nhiều lĩnh vực kiến thức nhằm cung cấp thông tin một cách nhanh chóng nhất khi người sử dụng yêu cầu Trên thực tế, hệ thống tìm tin ñóng vai trò như một cầu nối giữa các nguồn tài nguyên thông tin và những người sử dụng thông tin

Mục ñích chung của một hệ thống tìm tin là giảm tối ña chi phí của người sử dụng

ñể tìm thông tin cần thiết Chi phí tìm tin có thể ñược tính bằng thời gian một người

sử dụng phải bỏ ra trong tất cả các bước của quá trình tìm tin cho ñến khi có ñược tài liệu hoặc thông tin cần thiết Người sử dụng có thể gặp nhiều trở ngại trong quá trình tìm tin Vì vậy, mục ñích của một hệ thống tìm tin là hỗ trợ tối ña ñể người sử dụng có thể tìm ñược thông tin cần thiết một cách nhanh chóng, ñầy ñủ và chính xác

1.2.3 Chức năng của hệ thống tìm tin và yêu cầu ñối với hệ thống tìm tin

1.2.3.1 Chức năng của hệ thống tìm tin

Một hệ thống tìm tin phải xử lý nhiều nguồn thông tin và yêu cầu tin khác nhau của người sử dụng Có thể chia các chức năng của một hệ thống tìm tin thành hai nhóm chính là: 1) Phân tích nội dung và 2) Tìm tin và cung cấp kết quả tìm Phân tích nội dung bao gồm các chức năng liên quan ñến việc phân tích, tổ chức và lưu trữ thông tin Tìm tin và cung cấp kết quả tìm bao gồm các chức năng phân tích yêu cầu tin của người sử dụng, tìm tin, chọn lọc và cung cấp kết quả tìm

Cụ thể, các chức năng chính của một hệ thống tìm tin bao gồm:

 Phân tích nội dung các tài liệu: phân tích và trình bày nội dung chính của tài liệu bằng các ngôn ngữ thích hợp;

 Tổ chức và lưu trữ thông tin một cách thích hợp ñể có thể tìm kiếm thông tin theo các yêu cầu tin của người sử dụng;

 Phân tích các yêu cầu tin của người sử dụng và thể hiện các yêu cầu tin ở dạng thích hợp với việc tìm kiếm trong hệ thống;

 Tìm trong hệ thống và lựa chọn thông tin thích hợp với yêu cầu tin;

Chức năng của một hệ thống tìm tin tư liệu ñơn giản ñược thể hiện trên sơ ñồ trong hình 1.2

Trang 10

Trong hình 1.2 là một hệ thống tìm tin với hai đầu vào (dành cho tài liệu và yêu cầu tin) và một đầu ra để cung cấp tài liệu hoặc thơng tin theo yêu cầu Ở các đầu vào

cĩ các bộ phận đánh chỉ số tài liệu và yêu cầu tin Các mẫu tìm của tài liệu cùng với các địa chỉ lưu trữ tài liệu được đưa vào bộ nhớ của hệ thống cịn các tài liệu được đưa vào bộ phận lưu trữ tài liệu Các lệnh tìm của từng yêu cầu tin được bộ xử lý đối chiếu với mẫu tìm của tất cả các tài liệu được chứa trong bộ nhớ Nếu mẫu tìm và lệnh tìm tương thích (tồn phần hoặc theo tiêu chuẩn phù hợp ý nghĩa đã xác định) thì bộ xử lý

sẽ đưa ra lệnh cung cấp tài liệu được chứa trong bộ phận lưu trữ tài liệu Bộ phận lưu trữ tài liệu được xem như bậc thứ hai của hệ thống và thành phần này khơng hiện diện trong các hệ thống tìm tin thư mục (chỉ cĩ một bậc là bộ nhớ lưu trữ thơng tin về tài liệu ) Sơ đồ này thể hiện hoạt động của một hệ thống tìm tin bất kỳ, bao gồm cả các

hệ thống truyền thống Ví dụ, trong hệ thống tìm tin thủ cơng của một thư viện, các

bộ phận ở các đầu vào của hệ thống tương ứng các bộ phận xử lý tài liệu và tra cứu tin, bộ nhớ tương ứng với các mục lục thủ cơng Trong hệ thống tìm tin thủ cơng khơng cĩ bộ xử lý Bộ phận này được thay thế bằng trí tuệ của người dùng tin hoặc cán bộ tra cứu – là người thực hiện việc so sánh, đối chiếu lệnh tìm với mẫu tìm và

lựa chọn kết quả tìm được

Tài liệu Tài liệu

Tài liệu

Hình 1.2 Sơ đồ tổng quát của hệ thống tìm tin

1.2.3.2 Yêu cầu đối với hệ thống tìm tin

Hệ thống tìm tin phải hướng đến người sử dụng, nghĩa là phải chú trọng các tiện ích cho người sử dụng Vì vậy, hệ thống tìm tin phải đáp ứng các yêu cầu chức năng sau:

- Bảo đảm khả năng tương tác giữa người thiết kế hệ thống và người sử dụng;

- Cung cấp thơng tin với dạng thức thích hợp để cĩ thể sử dụng ngay;

- Cĩ phạm vi đủ rộng để bao quát tất cả các loại yêu cầu tin của cộng đồng người sử dụng;

Trang 11

- Có khả năng cung cấp thông tin thích hợp và kịp thời;

- Có khả năng tương thích với những thay ñổi của môi trường;

- Phải duy trì các chuẩn ñể bảo vệ dữ liệu;

- Hệ thống phải dễ truy cập và dễ sử dụng;

- Hỗ trợ khai thác thông tin một cách hiệu quả

1.2.4 Thành phần của hệ thống tìm tin

Thành phần của một hệ thống tìm tin cụ thể bao gồm:

1 Các mảng tin bao gồm tài liệu, thông tin về tài liệu/siêu dữ liệu, dữ kiện;

2 Các công cụ logic-ngữ nghĩa, bao gồm ngôn ngữ tìm tin, các qui tắc sử dụng

ngôn ngữ tìm tin và các tiêu chuẩn phù hợp ý nghĩa;

3 Các phương tiện kỹ thuật ñảm bảo thực hiện các chức năng của hệ thống;

4 Các yếu tố ñảm bảo cho việc khai thác hệ thống như nhân sự, tài liệu hướng

dẫn sử dụng…

Các thành phần cơ bản của hệ thống tìm tin ñược gọi là các phân hệ Việc phân

chia thành các phân hệ rất cần thiết và hữu ích cho việc thiết kế cũng như mô tả cơ

chế vận hành của hệ thống tìm tin Có nhiều cách chia hệ thống tìm tin thành các phân

hệ, trong ñó hai cách thường ñược sử dụng nhất là phân chia theo loại yếu tố và

phương tiện ñảm bảo hoạt ñộng của hệ thống và phân chia theo nguyên tắc chức năng

1.2.4.1.Các phân hệ ñảm bảo hoạt ñộng của hệ thống tìm tin

Các phương tiện và yếu tố ñảm bảo việc thực hiện các chức năng của hệ thống tìm

tin ñược chia thành các phân hệ ñảm bảo hoạt ñộng của hệ thống tìm tin Ở dạng tổng

quát, các phân hệ bao gồm bốn thành phần của hệ thống tìm tin ñược liệt kê ở trên Ở

dạng chi tiết hơn, có thể chia thành các phân hệ như ñảm bảo ngôn ngữ, ñảm bảo thông

tin, ñảm bảo kỹ thuật, ñảm bảo công nghệ, ñảm bảo nhân sự…

Phân hệ ñảm bảo thông tin bao gồm các mảng tin (tài liệu, thông tin về tài liệu/siêu

dữ liệu, dữ kiện), các phương tiện, phương pháp mô tả và xây dựng các mảng tin

Phân hệ ñảm bảo ngôn ngữ bao gồm các ngôn ngữ tìm tin, các qui tắc ứng dụng, các

tiêu chuẩn phù hợp ý nghĩa và các công cụ ngôn ngữ khác Ở những giai ñoạn ñầu, khi

hệ thống tìm tin mới bắt ñầu phát triển, ñảm bảo thông tin và ñảm bảo ngôn ngữ thường

ñược nhập chung thành một phân hệ ñảm bảo thông tin-ngôn ngữ Về sau, hai phân hệ

này ñược tách riêng mặc dù ranh giới giữa chúng không thực sự rõ ràng Chẳng hạn, có

thể ñưa các ngôn ngữ mô tả thông tin vào phân hệ ñảm bảo ngôn ngữ cũng như vào

phân hệ ñảm bảo thông tin

Phân hệ ñảm bảo chương trình bao gồm các thuật toán và các phần mềm (bao gồm

phần mềm hệ thống và phần mềm ứng dụng) thực hiện các chức năng của hệ thống tìm

tin với sự trợ giúp của máy tính

Phân hệ ñảm bảo kỹ thuật bao gồm các phương tiện kỹ thuật hỗ trợ cho việc lưu trữ,

tìm và cung cấp thông tin

Phân hệ ñảm bảo công nghệ là tập hợp và trình tự thực hiện các qui trình (tự ñộng

hóa và thủ công) và các thủ tục xử lý thông tin trong hệ thống tìm tin, bao gồm mô tả

Trang 12

các qui trình và thủ tục, các sơ ựồ thông tin-công nghệ và các tài liệu hướng dẫn nghiệp

ẦCác bộ phận này ựược gọi là các phân hệ chức năng và tạo thành mô hình cấu trúc (còn gọi là mô hình vận hành) của hệ thống tìm tin Vắ dụ, một hệ thống tìm tin tư liệu

có thể bao gồm các phân hệ chức năng cơ bản sau:

1 Phân hệ xử lý tài liệu thực hiện các chức năng xử lý tài liệu, lưu trữ và quản trị tài liệu và mẫu tìm của tài liệu;

2 Phân hệ xử lý yêu cầu tin thực hiện các chức năng xác ựịnh yêu cầu tin, xây dựng lệnh tìm và nhập lệnh tìm;

3 Phân hệ tìm tin có chức năng tìm và ựưa ra các kết quả tìm

4 Phân hệ xử lý và cung cấp các kết quả tìm thực hiện chức năng phân tắch các kết quả tìm, lựa chọn các kết quả thắch hợp và cung cấp cho người sử dụng

1.2.5 Các loại hệ thống tìm tin

Có thể phân loại các hệ thống tìm tin dựa trên nhiều cơ sở khác nhau Trong mục này

sẽ ựề cập một số cách phân loại cơ bản nhất

Dựa vào tắnh chất của thông tin ựược lưu trữ và cung cấp, có thể phân các hệ

thống tìm tin thành hai loại là hệ thống tìm tin tư liệu và hệ thống tìm tin dữ kiện

Hệ thống tìm tin tư liệu là hệ thống tìm tin ựược xây dựng ựể tìm và cung cấp thông tin về tài liệu hoặc tài liệu Hệ thống tìm tin tư liệu ựáp ứng các yêu cầu tin ựược ựặt ra cho hệ thống bằng cách cung cấp các mô tả thư mục của tài liệu, các tài liệu gốc, các bản sao hoặc ựịa chỉ những nơi bảo quản các tài liệu chứa thông tin ựược yêu cầu đôi khi loại hệ thống tìm tin tư liệu chỉ cung cấp các mô tả thư mục của các tài liệu cần tìm ựược gọi là hệ thống tìm tin thư mục

Hệ thống tìm tin dữ kiện là hệ thống tìm tin ựược xây dựng ựể lưu trữ, tìm và cung cấp các số liệu và dữ kiện như các số liệu khoa học, kỹ thuật, kinh tế, ựặc tắnh của các quá trình, hiện tượng, ựịa chỉ, tên cá nhân hoặc tổ chứcẦ

Giữa hệ thống tìm tin tư liệu và hệ thống tìm tin dữ kiện không có sự khác biệt về nguyên tắc xây dựng Sự khác biệt cơ bản giữa các hệ thống tìm tin tư liệu và hệ thống tìm tin dữ kiện là ở mức ựộ xử lý ban ựầu nội dung tài liệu ựể sau ựó có thể tìm ựược thông tin Trong các hệ thống tìm tin tư liệu, tài liệu ựược phân tắch và mô tả ở mức Ộtài liệu nói về cái gìỢ, còn trong các hệ thống tìm tin dữ kiện thì mô tả ở mức

Ộựiều ựược ựề cập trong tài liệu cụ thể là gìỢ Nói cách khác, các hệ thống tìm tin tư liệu lưu trữ thông tin về tài liệu còn các hệ thống tìm tin dữ kiện lưu trữ các số liệu

Trang 13

hoặc dữ kiện về một ñối tượng hoặc một nhóm ñối tượng nhất ñịnh và ñược trình bày với một hình thức riêng biệt Các số liệu/dữ kiện này có thể ñược thu thập trực tiếp hoặc ñược rút ra từ các tài liệu Ví dụ, với yêu cầu tin “Vận tốc ánh sáng”, hệ thống tìm tin tư liệu sẽ cung cấp các bài báo và sách chuyên khảo nói về vận tốc ánh sáng và

có thể chứa câu trả lời cho yêu cầu tin ñược ñặt ra, còn hệ thống tìm tin dữ kiện sẽ cung cấp câu trả lời cụ thể là “Vận tốc ánh sáng bằng 3.000 km/giây” Có nhiều trường hợp các hệ thống tìm tin là hệ thống hỗn hợp, trong ñó thông tin dữ kiện ñược

sử dụng như một phương tiện hỗ trợ cho việc tìm kiếm tài liệu và ngược lại Trong các hệ thống tìm tin tư liệu, các văn bản cũng có thể ñược cấu trúc lại, ñược chia thành nhiều ñoạn hoặc trường và việc xử lý, cung cấp thông tin về tài liệu có thể ñược thực hiện ở mức ñộ các trường riêng biệt Trên thực tế, các hệ thống tìm tin trong thư viện chính là sự kết hợp một số hệ thống tìm tin tư liệu và tìm tin dữ kiện

ðặc ñiểm chung lớn nhất của hệ thống tìm tin tư liệu và hệ thống tìm tin dữ kiện là

ñể ñáp ứng các yêu cầu tin ñược ñặt ra cho hệ thống, cả hai hệ thống có thể và chỉ có thể cung cấp thông tin ñã ñược lưu trữ trong hệ thống trước ñó

Dựa vào phương tiện lưu trữ và tìm kiếm thông tin, có thể chia thành các hệ

thống tìm tin thủ công, bán tự ñộng và tự ñộng hóa

Trong hệ thống tìm tin thủ công, thông tin về tài liệu hoặc dữ kiện ñược lưu trữ trong các bộ phiếu tra cứu thư mục, bộ phiếu tra cứu dữ kiện và hệ thống mục lục truyền thống Có thể sử dụng hệ thống tìm tin thủ công ñể tìm tin một cách hiệu quả trong các mảng tin chứa dưới 10.000 tài liệu

Trong hệ thống tìm tin bán tự ñộng, thông tin về tài liệu ñược chứa trong các phiếu

lỗ mép hoặc phiếu lỗ soi

Trong phiếu lỗ mép, thông tin ñược tổ chức theo tài liệu, nghĩa là thông tin về mỗi tài liệu ñược trình bày trên một phiếu Phiếu này ñược chia làm hai vùng là vùng giữa

và vùng xung quanh mép phiếu Vùng giữa của phiếu chứa mô tả thư mục tài liệu Vùng xung quanh mép phiếu là vùng ñục lỗ theo một mã số ñã qui ñịnh Các ñặc trưng nội dung của tài liệu có thể ñược ghi dưới dạng các lỗ khuyết nhằm giúp cho việc tìm tài liệu một cách dễ dàng Việc tìm tin ñược thực hiện theo từng tập phiếu của bộ phiếu ðể tìm một tài liệu nào ñó, ngưòi tìm tin phải lấy một tập phiếu rồi dùng que xiên vào lỗ tương ứng với ñặc trưng cần tìm và cho tập phiếu rơi tự do Những phiếu có bấm lỗ khuyết sẽ rơi xuống và ñó sẽ là kết quả lựa chọn Nếu một ñặc trưng ñược thể hiện bằng nhiều lỗ và nếu muốn tra cứu theo nhiều ñặc trưng thì phải lặp lại thao tác trên với những phiếu ñã rơi xuống và ñược lựa chọn ở lần trước Có thể thực hiện việc lựa chọn bằng tay hoặc bằng máy chọn có bàn que xiên và bộ rung ñiện

Phiếu lỗ mép có thể ñược làm bằng bìa cứng, bìa mỏng hoặc giấy Bristol và có kích thước từ 75x125mm ñến 210x297mm Các lỗ có ñường kính từ 2,5 ñến 3mm và khoảng cách giữa chúng là 5,6mm hoặc 6,35mm

Thông tin trong phiếu lỗ soi ñược tổ chức theo nội dung tài liệu, nghĩa là mỗi phiếu ứng với một từ khóa hoặc từ chuẩn ñặc trưng cho nội dung tài liệu Mỗi lỗ tượng trưng cho một số ñăng ký của tài liệu trong hệ thống Việc ghi một tài liệu vào bộ nhớ ñược thực hiện bằng cách ñục lỗ ở vị trí dành cho nó trong những phiếu ứng với các

từ khóa hoặc từ chuẩn có chứa trong mẫu tìm của tài liệu ñó Việc tra cứu ñược thực

Trang 14

hiện bằng cách ñặt một tập các phiếu có những ñặc trưng (từ khóa hoặc từ chuẩn) cần tìm trước một nguồn sáng Những phiếu chứa tài liệu phù hợp với yêu cầu tin là những phiếu có cùng vị trí ñục lỗ trên toàn bộ tập phiếu nên ánh sáng có thể xuyên qua ñược

Phiếu lỗ soi có thể ñược làm bằng giấy Bristol nhẹ với nhiều kích thước khác nhau Trên mỗi phiếu có một mạng các vị trí ñược xây dựng bằng phương pháp tọa ñộ Mỗi

vị trí ứng với một số ñăng ký của tài liệu ñã ñược xử lý từ trước Số lượng các vị trí trên mỗi phiếu ứng với số lượng tài liệu trong hệ thống có mẫu tìm chứa từ khóa hoặc

từ chuẩn ñược thể hiện trên phiếu ñó Ngoài ra, số lượng các vị trí còn phụ thuộc vào dung lượng của mỗi phiếu Dung lượng của mỗi phiếu có thể chứa 5.000 vị trí như mẫu phiếu SPHINXO hoặc 14.000 vị trí như mẫu phiếu SELECTO

Trong các hệ thống tìm tin tự ñộng hóa, việc lưu trữ và tìm kiếm thông tin ñược thực hiện trên máy tính ñiện tử Các thành phần cơ bản của HTTT tự ñộng hóa bao gồm các công cụ xử lý ngữ nghĩa, các phương tiện kỹ thuật, cơ sở dữ liệu và nhân viên làm việc với hệ thống

Dựa vào loại ngôn ngữ tìm tin, có thể chia thành hệ thống tìm tin sử dụng ngôn

ngữ tiền kết hợp và hệ thống tìm tin sử dụng ngôn ngữ hậu kết hợp, thường ñược gọi tắt là hệ thống tìm tin tiền kết hợp (pre-coordinate system) và hệ thống tìm tin hậu kết hợp (post-coordinate system)

Dựa vào loại tiêu chuẩn phù hợp ý nghĩa, có thể chia thành hệ thống tìm tin với

tiêu chuẩn phù hợp ý nghĩa logic và hệ thống tìm tin với tiêu chuẩn phù hợp ý nghĩa ñịnh lượng Trong các hệ thống tìm tin thuộc nhóm ñầu tiên, mức ñộ phù hợp ý nghĩa ñược xác ñịnh dựa trên việc sử dụng logic mệnh ñề ñể so sánh mẫu tìm và lệnh tìm

Cơ sở ñể tính mức ñộ phù hợp ý nghĩa trong các hệ thống tìm tin thuộc nhóm thứ hai

là các công thức, số liệu thống kê ñược xây dựng chủ yếu dựa trên tần số xuất hiện ñồng thời của các thuật ngữ trong mẫu tìm và lệnh tìm

Trang 15

CHƯƠNG 2

TRONG CÁC HỆ THỐNG TÌM TIN

2.1 Khái niệm hệ thống công cụ xử lý ngữ nghĩa

Hệ thống công cụ xử lý ngữ nghĩa là tập hợp các công cụ ngôn ngữ -logic và phương pháp ñược sử dụng ñể xử lý, trình bày, tổ chức và tìm kiếm thông tin trong hệ thống tìm tin

Hệ thống công cụ xử lý ngữ nghĩa bao gồm các thành phần sau:

- Ngôn ngữ tìm tin:

+ Từ vựng và cú pháp của ngôn ngữ tìm tin;

+ Các công cụ trình bày tóm tắt nội dung: từ ñiển, từ ñiển từ chuẩn, khung ñề mục, bảng phân loại…

- Các công cụ bảo ñảm sự thống nhất giữa các ngôn ngữ khác nhau:

- Các tiêu chuẩn phù hợp ý nghĩa

- Các chuẩn mô tả dữ liệu (mã hoá )

- Các công cụ hỗ trợ xử lý văn bản với ngôn ngữ tự nhiên:

+ Các công cụ xử lý cú pháp dữ liệu dạng văn bản;

+ Các công cụ ngữ nghĩa và thuật toán phân loại tự ñộng tài liệu;

+ Các công cụ ngữ nghĩa và thuật toán lập biểu thức tìm tin tự ñộng;

+ Các công cụ tìm lỗi tự ñộng

- Các công cụ hỗ trợ ñảm bảo ngữ nghĩa

+ Các tài liệu hướng dẫn thực hiện

+ Qui trình lập và quản trị từ vựng trên máy tính;

2.2 Ngôn ngữ tìm tin

2.2.1 Khái niệm ngôn ngữ tìm tin

Ngôn ngữ tìm tin là ngôn ngữ nhân tạo ñược dùng ñể mô tả nội dung tài liệu hoặc yêu cầu tin và ñể tìm tin [8]

Trang 16

Ngôn ngữ tìm tin ñược xây dựng ñể khắc phục các hạn chế của ngôn ngữ tự nhiên trong việc diễn ñạt thông tin và tìm kiếm thông tin, bao gồm:

- Có nhiều ngôn ngữ tự nhiên và mỗi ngôn ngữ ñều có vốn từ vựng rất lớn, trong ñó có nhiều từ không thể sử dụng ñể xử lý tài liệu và tìm tin;

- Ngôn ngữ tự nhiên có nhiều loại từ và các loại từ có giá trị thông tin khác nhau;

- Có nhiều từ ñồng nghĩa, từ ñồng âm và ý nghĩa của các từ có thể thay ñổi theo ngữ cảnh;

Những hạn chế nêu trên có thể ñẫn ñến tình trạng vừa thừa vừa thiếu khi sử dụng ngôn ngữ tự nhiên ñể xử lý và tìm thông tin ðể khắc phục các hạn chế trên, ngôn ngữ tìm tin phải ñáp ứng các yêu cầu sau:

- Quan hệ ngữ nghĩa một-một: mỗi khái niệm phải ñược biểu ñạt bằng một thuật ngữ và ngược lại, một thuật ngữ phải biểu ñạt một và chỉ một khái niệm

- Cú pháp ñược xây dựng chặt chẽ và nhất quán: chỉ có một cách biểu ñạt các khái niệm

- Có lực ngữ nghĩa mạnh: Lực ngữ nghĩa của ngôn ngữ tìm tin là khả năng phản ánh chính xác và ñầy ñủ nội dung của tài liệu và yêu cầu tin

- Bảo ñảm tính khách quan của người sử dụng: Chỉ diễn ñạt ñặc trưng khách quan của các sự vật, hiện tượng và các mối tương quan giữa chúng

- Tính mở: bảo ñảm khả năng chỉnh sửa và bổ sung ngôn ngữ

Ngôn ngữ tìm tin ñược xây dựng dựa trên hai thành phần cơ bản là từ vựng và cú

pháp

Từ vựng của ngôn ngữ tìm tin là tập hợp các ñơn vị từ vựng (hay còn gọi là yếu tố

từ vựng) ñược sử dụng ñể mô tả nội dung tài liệu và/hoặc yêu cầu tin

ðơn vị từ vựng là các từ hoặc ký hiệu ñược sử dụng ñể diễn ñạt các khái niệm Mỗi ñơn vị từ vựng diễn ñạt một khái niệm

Từ vựng là thành phần chính của các ngôn ngữ tìm tin và ñóng vai trò rất quan trọng ñối với các chuyên gia thông tin - thư viện và người dùng tin trong việc xử lý tài liệu và tìm thông tin

Cú pháp của ngôn ngữ tìm tin là tập hợp các mối quan hệ giữa các ñơn vị từ vựng, các qui tắc biểu thị các mối quan hệ ñó và các qui tắc sử dụng các ñơn vị từ vựng ñể

mô tả thông tin

2.2.2 Các loại ngôn ngữ tìm tin (NNTT)

Dựa vào cấu trúc từ vựng và qui tắc sử dụng, có thể chia NNTT thành hai loại là NNTT tiền kết hợp và NNTT hậu kết hợp

Ngôn ngữ tìm tin tiền kết hợp là ngôn ngữ có cấu trúc từ vựng và qui tắc sử dụng cho phép ñánh chỉ số tài liệu bằng cách sử dụng các ñơn vị từ vựng có sẵn hoặc kết hợp các ñơn vị từ vựng ñơn giản với nhau theo một trật tự nhất ñịnh ñể diễn tả các khái niệm phức tạp Với NNTT tiền kết hợp, việc kết hợp các ñơn vị từ vựng ñược thực hiện trong quá trình ñánh chỉ số tài liệu

Trang 17

Có hai loại NNTT tiền kết hợp là ngôn ngữ phân loại và ngôn ngữ ñề mục chủ ñề ðặc trưng chính của các NNTT tiền kết hợp là từ vựng có cấu trúc phân cấp một cách

hệ thống và thường ở dạng một danh mục ñược ñịnh sẵn với các ñơn vị từ vựng là các

từ, cụm từ hoặc mã số Khi ñánh chỉ số tài liệu, người xử lý tài liệu có thể sử dụng các ñơn vị từ vựng có sẵn hoặc kết hợp các ñơn vị từ vựng với nhau theo những qui tắc nhất ñịnh ñể diễn tả các khái niệm phức tạp Với cấu trúc này, NNTT tiền kết hợp có

ưu ñiểm là từ vựng có tính hệ thống và tính chính xác cao vì các ñơn vị từ vựng ñã ñược ấn ñịnh một cách rõ ràng Nhược ñiểm của NNTT tiền hợp là khó cập nhật, bổ sung các khái niệm mới cho từ vựng do phải phụ thuộc vào cấu trúc của hệ thống có sẵn Một nhược ñiểm khác của NNTT tiền kết hợp là khó sử dụng ñối với người dùng tin nói chung vì khi tìm tin người dùng tin không thể tự kết hợp các ñơn vị từ vựng ñể diễn tả các khái niệm theo ý mình mà phải hoàn toàn phụ thuộc vào kết quả ñánh chỉ

số có sẵn Vì vậy, hiệu quả tìm tin có thể bị hạn chế nếu chất lượng ñánh chỉ số không ñảm bảo và/hoặc người dùng tin không nắm vững cấu trúc từ vựng của NNTT ñược

sử dụng ñể ñánh chỉ số tài liệu

Ngôn ngữ tìm tin hậu kết hợp là ngôn ngữ có cấu trúc từ vựng và qui tắc sử dụng cho phép ñánh chỉ số tài liệu bằng cách sử dụng các ñơn vị từ vựng có sẵn ñể diễn tả các khái niệm ñơn giản và chỉ có thể kết hợp các ñơn vị từ vựng này với nhau khi tìm tin Như vậy, với NNTT hậu kết hợp, việc kết hợp các ñơn vị từ vựng chỉ ñược thực hiện trong quá trình tìm tin, sau khi tài liệu ñã ñược ñánh chỉ số

NNTT hậu kết hợp có ưu ñiểm là từ vựng có cấu trúc mềm dẻo, dễ bổ sung các ñơn

vị từ vựng ñể mô tả các khái niệm mới Mặt khác, NNTT hậu kết hợp dễ sử dụng ñối với người dùng tin nói chung vì cú pháp cho phép người dùng tin tự kết hợp các ñơn

vị từ vựng một cách linh hoạt khi tìm tin Nhược ñiểm của NNTT hậu kết hợp là hiệu quả tìm tin có thể bị hạn chế nếu người tìm tin không nắm vững chiến lược hoặc kỹ thuật tìm tin

2.2.3 Ngôn ngữ phân loại

2.2.3.1 Các khái niệm cơ bản

Ngôn ngữ phân loại là ngôn ngữ tìm tin chuyên dụng cho phép người sử dụng tiếp cận tài liệu theo lĩnh vực tri thức ñược thể hiện trong nội dung tài liệu

Ngôn ngữ phân loại ñược sử dụng ñể phân loại tài liệu Phân loại tài liệu là sự phân chia các tài liệu thành nhóm theo các dấu hiệu nhất ñịnh như lĩnh vực tri thức, vấn ñề, ñối tượng hoặc theo các dấu hiệu hình thức

Việc phân loại ñược thực hiện dựa trên sự phân chia các khái niệm Dấu hiệu ñược

sử dụng ñể thực hiện việc phân chia các khái niệm ñược gọi là cơ sở phân loại Các dấu hiệu này có thể khác nhau trong các khung phân loại khác nhau

Khung phân loại, còn gọi là hệ thống phân loại, là danh mục các ñề mục và các mã

số hay kí hiệu tương ứng phản ánh cấu trúc cấp bậc của một hệ thống phân loại khoa học Mỗi ñề mục trong khung phân loại có một vị trí xác ñịnh và ñược biểu diễn bằng một mã số Mã số có thể là số, chữ cái hoặc kết hợp giữa số và chữ cái Mã số ñược

sử dụng thay thế cho ñề mục trong xử lý tài liệu và trong những công ñoạn khác Ngoài ra, mỗi khung phân loại còn sử dụng một hệ thống các ký hiệu ñể làm rõ thêm

Trang 18

ý nghĩa của các mã số hoặc ñể kết hợp các mã số nhằm mở rộng khả năng diễn tả thông tin

Khung phân loại phải tuân theo các nguyên tắc hình thức như sau:

- Cơ sở phân loại phải ñồng nhất trong một khung phân loại;

- Các lớp con phải loại trừ lẫn nhau;

- Các lớp con phải cân ñối;

- Các lớp con phải liên tục, không ñược gián ñoạn

Ngôn ngữ phân loại là ngôn ngữ tiền kết hợp vì cấu trúc khung phân loại và qui tắc

sử dụng cho phép người ñánh chỉ số sử dụng các ñơn vị từ vựng có sẵn hoặc kết hợp các ñơn vị từ vựng với nhau ñể mô tả nội dung tài liệu

2.2.3.2 Khung phân loại phân cấp

Quan hệ cơ bản giữa các lớp phân loại là quan hệ phân cấp và cùng trực thuộc Quan hệ phân cấp là quan hệ trong ñó một lớp là lớp con của một một lớp khác rộng hơn Cùng trực thuộc là quan hệ giữa các lớp con của một lớp rộng hơn

Giả sử K là một lớp và ñược chia thành các lớp con k 1 , k 2 , k 3 ,… k n dựa trên một cơ

sở phân loại nào ñó Quan hệ giữa lớp K và lớp con k i là quan hệ phân cấp, còn quan

hệ giữa các lớp con k 1 , k 2 , k 3 , …k n là quan hệ cùng trực thuộc

Có thể phân biệt hai loại quan hệ phân cấp là quan hệ phân cấp mạnh và quan hệ phân cấp yếu Trong quan hệ phân cấp mạnh mỗi lớp chỉ trực thuộc môt một lớp rộng hơn Trong quan hệ phân cấp yếu mỗi lớp trực thuộc nhiều lớp rộng hơn

Khung phân loại chỉ chứa quan hệ phân cấp mạnh và quan hệ cùng trực thuộc ñược gọi là khung phân loại phân cấp

Hình thức thể hiện ñơn giản nhất của các khung phân loại phân cấp là các sơ ñồ hình cây, bao gồm các ñiểm (ñược gọi là ñỉnh) và các ñoạn nối một số ñỉnh với nhau Trong hình 2.1 là sơ ñồ hình cây thể hiện cấu trúc của khung phân loại phân cấp

Hình 2.1 Sơ ñồ cấu trúc khung phân loại phân cấp

Khung phân loại phân cấp có các ưu ñiểm như sau:

- Thích hợp với các hệ thống mục lục thủ công Không cần các phương tiện, thiết bị ñặc biệt ñể xây dựng và sử dụng các mục lục;

Trang 19

- Cho phép tìm tin theo chủ ñề trong các hệ thống mục lục thủ công một cách nhanh chóng và rẻ;

- Tốn ít chi phí lao ñộng cho việc ñánh chỉ số hơn so với ñánh chỉ số bằng khung phân loại theo diện và ñịnh chủ ñề;

- Các lớp trong khung phân loại phân cấp ñược ñánh số bằng chữ số Ả rập và chữ cái La tinh nên dễ hiểu ñối với các chuyên gia ở nhiều nước khác nhau ðiều này làm cho khung phân loại phân cấp trở nên phổ biến trên toàn thế giới Bên cạnh ñó, khung phân loại phân cấp cũng có các nhược ñiểm như sau:

- Không có khả năng ñánh chỉ số ña phương diện;

- Không thích hợp cho việc tìm tin theo chủ ñề hẹp;

- Do mức ñộ phân chia các khái niệm không ñủ sâu nên trong khung phân loại

có thể thiếu các lớp cho những nội dung chuyên sâu;

- Cơ chế cập nhật không thuận tiện nên khung phân loại phân cấp không phản ánh kịp thời sự phát triển khoa học và kỹ thuật

2.2.3.3.Khung phân loại theo diện

Cơ sở của khung phân loại theo diện là nguyên tắc phân loại cùng một tập hợp các

sự vật và hiện tượng theo nhiều dấu hiệu khác nhau Cụ thể là thay vì xây dựng một cây tri thức tổng hợp, có thể xây dựng một số cây nhỏ hơn cho cùng một tập hợp các ñối tượng Cơ sở phân loại là diện của các vấn ñề (facet) Mỗi diện bao hàm toàn bộ các ý nghĩa tương ñương của dấu hiệu phân loại nhất ñịnh Chẳng hạn, các thuật ngữ chỉ các loại vật liệu khác nhau ñược tập hợp trong diện “Vật chất”, còn tập hợp các thuật ngữ chỉ thời gian của các sự kiện, hiện tượng sẽ tạo thành diện “Thời gian” Mỗi

thuật ngữ của diện ñược gọi là tiêu ñiểm (focus) và ñược biểu thị bằng một mã số ñể

thuận tiện cho việc phân loại

Các ưu ñiểm chính của khung phân loại theo diện bao gồm:

- Có khả năng ñánh chỉ số ña phương diện;

- Có khả năng tập hợp vào một chỗ tất cả các phương diện của một ñề tài hoặc một ñối tượng

- Phân chia các khái niệm ở mức ñộ sâu;

- Dễ cập nhật các thuật ngữ mới hơn so với khung phân loại phân cấp;

- Ký hiệu phân loại ngắn gọn hơn so với ký hiệu trong các khung phân loại phân cấp

Nhược ñiểm chính của khung phân loại theo diện là khó xây dựng và khó bổ sung vào khung phân loại theo chuyên ngành hẹp các thuật ngữ liên ngành mới

2.2.3.4 Các khung phân loại tiêu biểu

Khung phân loại thập phân Dewey (Dewey Decimal Classification – DDC)

Khung phân loại DDC do nhà thư viện học người Mỹ là Melvin Dewey 1931) xây dựng và ñược xuất bản lần ñầu vào năm 1876

(1851-Khung phân loại DDC là khung phân loại phân cấp với 10 lớp chính, kí hiệu bằng

3 chữ số Ả rập từ 000-900 và xếp theo thứ tự như sau:

Trang 20

Khung phân loại DDC ñược cập nhật tương ñối thường xuyên và ñược sử dụng phổ biến trong các thư viện tại nhiều nước trên thế giới

Khung phân loại thập phân bách khoa (Universal Decimal Classification -UDC)

Khung phân loại UDC ñược xây dựng dựa trên cơ sở khung phân loại DDC và ñược xuất bản lần ñầu vào năm 1905 Khung phân loại UDC giữ lại hầu hết các lớp của khung DDC, riêng nội dung lớp 4-Ngôn ngữ ñược ñưa vào lớp 8, còn lớp 4 vẫn

bỏ trống Các lớp cơ bản ñược thể hiện bằng kí hiệu số từ 0 ñến 9 Các bảng phụ ñược

mở rộng và phát triển ñể bổ sung cho bảng chính Các dấu ñược sử dụng làm ký hiệu cũng ñược mở rộng nhằm hỗ trợ cho việc phân loại các tài liệu có nội dung phức tạp Các lớp trong bảng chính của UDC bao gồm:

0 Những vấn ñề chung

1 Triết học

2 Tôn giáo

Trang 21

9 ðịa lý Lịch sử Tiểu sử nhân vật

UDC có hai loại bảng phụ là các bảng trợ ký hiệu chung và các bảng trợ ký hiệu chuyên ngành Mỗi bảng trợ ký hiệu có dấu hiệu nhận dạng riêng và ñược sử dụng ñể ghép nối với ký hiệu của bảng chính

UDC sử dụng các dấu ký hiệu tương ñối phức tạp ñể kết hợp các ký hiệu với nhau, tạo thành các ký hiệu phức hợp ñể phản ánh những khái niệm phức tạp

UDC ñược cập nhật thường xuyên Tuy nhiên, UDC có ảnh hưởng không lớn bằng DDC ñối với các nước châu Âu và Mỹ

Khung phân loại Thư viện Quốc hội Mỹ (Library of Congress Classification – LCC)

Khung phân loại thư viện Quốc hội Mỹ ñược xây dựng ñầu thế kỷ 20, dựa trên khung phân loại mở rộng của Cutter (Cutter’s Expansive Classification)

Khung phân loại LCC có 21 lớp cơ bản Khung phân loại này không có các bảng phụ ñộc lập Mỗi lớp cơ bản có kèm theo bảng phụ và bảng tra cứu

Các lớp cơ bản của khung phân loại LCC bao gồm:

Z Thư mục Thư viện học

Khung LCC sử dụng chữ cái La tinh cho các ký hiệu cơ bản ở bậc phân chia thứ nhất, thứ hai và sử dụng chữ số Ả rập ở bậc thứ ba hoặc thứ tư trở ñi

Ví dụ:

Trang 22

Khung phân loại hai chấm (Colon Classification – CC)

Năm 1933, nhà thư viện học người Ấn ñộ S.R Ranganathan ñưa ra khung phân loại

hai chấm (CC) dựa trên nguyên tắc “kết hợp” và sử dụng từ diện (Facet) như một thuật

ngữ chỉ các thành phần khác nhau của một ký hiệu phân loại

Raganathan ñưa ra 5 diện cơ bản có thể sử dụng ñể thể hiện các khía cạnh của một ñối tượng: ñặc tính (Personality, nghĩa là vấn ñề trọng tâm hoặc ñặc trưng nhất); vật chất (Matter); năng lượng (Energy, nghĩa là một hoạt ñộng, thao tác hoặc quá trình); không gian (Space) và thời gian (Time) Bốn khái niệm cuối cùng là những khái niệm cơ bản ñối với tất cả các ngành khoa học và lĩnh vực tri thức, còn khái niệm ñầu tiên - ñặc tính là tính chất vốn có của từng ñối tượng và là tính chất tạo nên sự khác biệt giữa các hiện

Trang 23

∆ Thuyết duy linh và khoa học thần bí

Trong khung phân loại hai chấm có chứa các bảng ñề mục chia theo diện và tiêu ñiểm Bảng ñề mục theo diện là tập hợp nhiều tiêu ñiểm Các bảng ñề mục này ñược in cùng với các lớp của bảng chính và ñược dùng ñể mở rộng hoặc chi tiết hóa các ñề mục trong bảng chính Các bảng ñề mục theo diện ñược chia theo năm diện cơ bản là ñặc tính, vật chất, năng lượng, không gian, thời gian Ranganathan ñưa ra công thức diện ñể xây dựng

ký hiệu phân loại PMETS – là 5 chữ cái ñầu tiên của các từ tiếng Anh chỉ 5 diện (P- Personality, M- Matter, E- Energy, S- Space, T-Time) Các dấu qui ñịnh trong công thức PMETS là dấu chấm phẩy (;) trước M, dấu hai chấm (:) trước E, dấu chấm (.) trước S, dấu lược (‘) trước T

Mặc dù không ñược áp dụng phổ biến nhưng khung phân loại hai chấm có ý nghĩa rất lớn Nguyên tắc phân loại theo diện mà khung phân loại hai chấm sử dụng ñược xem như một bước tiến lớn trong lý thuyết phân loại và ñược áp dụng trong việc xây dựng các ngôn ngữ tìm tin dạng từ khóa

Tất cả các khung phân loại ñược ñề cập trên ñây có các nhược ñiểm chính như sau:

- Không có khả năng ñảm bảo ñánh chỉ số ña diện một cách tự do;

- Không có khả năng xây dựng các lớp khái niệm mới và hẹp một cách dễ dàng bằng phương pháp kết hợp;

- Phân chia các lớp không ñủ sâu;

- Từ vựng thường lạc hậu so với thực tế

2.2.4 Ngôn ngữ tìm tin từ khóa

Ngôn ngữ từ khóa có các ưu ñiểm chính như sau:

- Cho phép kết hợp các ñơn vị từ vựng một cách linh hoạt

- Dễ sử dụng

- Cấu trúc từ vựng mềm dẻo, dễ cập nhật, bổ sung từ vựng ñể mô tả các khái niệm mới hơn so với các khung phân loại

Các nhược ñiểm chính của ngôn ngữ từ khóa bao gồm:

- Phạm vi áp dụng hẹp: Có khả năng áp dụng chỉ trong các hệ thống tìm tin tự ñộng hóa hoặc bán tự ñộng;

- Hiệu quả tìm tin có thể bị hạn chế do ñộ nhiễu tin hoặc mất tin nếu người sử dụng không nắm vững cách kết hợp các ñơn vịtừ vựng

Có hai loại từ khóa là từ khóa tự do và từ khóa kiểm soát

Từ khóa tự do là từ khóa ñược lựa chọn từ ngôn ngữ tự nhiên theo quan ñiểm của người xử lý thông tin

Từ khóa kiểm soát là từ khóa ñược kiểm tra bằng một phương tiện kiểm soát từ vựng, ñược dùng ñể qui ước thống nhất cách dùng từ trong quá trình ñịnh từ khóa

Trang 24

Từ chuẩn là các từ khóa qui ước ñược chọn lọc từ từ vựng của một ngôn ngữ tự nhiên nào ñó theo những qui tắc nhất ñịnh, ñược sử dụng ñể xử lý nội dung tài liệu và yêu cầu tin

2.2.4.2 Các phương tiện kiểm soát từ khóa

Bộ từ khó a

Bộ từ khóa là tập hợp các từ khóa ñược qui ước ñể mô tả nội dung tài liệu

Dựa vào các lĩnh vực bao quát, có thể chia thành hai loại bộ từ khóa là ña ngành và chuyên ngành

Bộ từ khóa qui ước có các ưu ñiểm chính như sau:

- Có tính thống nhất cao trong cách dùng từ, tránh ñược hiện tượng ñồng nghĩa, ña nghĩa

TðTC có các ñặc trưng cơ bản sau:

- TðTC ñược xây dựng theo nguyên tắc tổ hợp, trong ñó tập hợp tri thức thuộc một lĩnh vực ñược phân tích thành các khái niệm Mỗi khái niệm ñược thể hiện bằng các thuật ngữ và việc kết hợp các thuật ngữ này theo những cách khác nhau cho phép diễn tả các khía cạnh của nội dung tài liệu

- TðTC có tính chất chuyên ngành và thường ñược xây dựng cho một lĩnh vực tri thức nhất ñịnh;

- TðTC có cấu trúc linh hoạt TðTC liệt kê các từ chuẩn, các từ không phải từ chuẩn và thể hiện rõ ràng các quan hệ ngữ nghĩa giữa các thuật ngữ

Các quan hệ ngữ nghĩa trong TðTC

Trong TðTC các khái niệm ñược thể hiện bằng các thuật ngữ ưu tiên hoặc không ưu tiên Các thuật ngữ ưu tiên ñược sử dụng ñể ñánh chỉ số và tìm tin, còn các thuật ngữ không

ưu tiên thực hiện chức năng như những dẫn nhập ñến các thuật ngữ ưu tiên

Việc xác ñịnh và thể hiện các quan hệ ngữ nghĩa chính giữa các thuật ngữ có ý nghĩa ñặc biệt quan trọng ñối với việc xây dựng TðTC Các quan hệ ngữ nghĩa chính trong TðTC

là quan hệ tương ñương, phân cấp và liên ñới Các quan hệ này ñược thể hiện bằng hệ thống các chỉ dẫn như BT (Broader Term), NT (Narrower Term), RT (Related Term),

SN (Scope Note), UF (Use For), USE (Use)

Ví dụ:

Trang 25

MAINTENANCE

BT Maintainability (Engineering)

RT Repairing

NT Grounds maintenance

Quan hệ tương ñương

Quan hệ tương ñương là quan hệ giữa các thuật ngữ ưu tiên và không ưu tiên trong TðTC Quan hệ này ñược thể hiện bằng chỉ dẫn USE (chỉ dẫn sử dụng cho các thuật ngữ

ưu tiên) và UF (Use For, chỉ dẫn sử dụng cho thuật ngữ không ưu tiên)

Ví dụ:

Preventive maintenance USE MAINTENANCE

Upkeep USE MAINTENANCE

Quan hệ liên ñới

Quan hệ liên ñới giữa các thuật ngữ là quan hệ tương hỗ và ñược thể hiện bằng chỉ dẫn

Ví dụ:

CULTURAL BACKGROUND

Trang 26

SN: The total social heritage and experience of an individual or group including institutions, folkways, literature, mores, and communal experience

Trình bày các thuật ngữ trong TðTC

Các thuật ngữ và các quan hệ ngữ nghĩa giữa chúng trong TðTC có thể ñược trình bày theo nhiều cách khác nhau, trong ñó có ba cách trình bày cơ bản như sau:

- Trình bày theo vần chữ cái, với các chú giải (SN-Scope Notes) và các quan hệ ñược xác ñịnh cho từng thuật ngữ

- Trình bày một cách hệ thống với một bảng tra theo vần chữ cái

- Trình bày bằng ñồ thị với một bảng tra theo vần chữ cái

Trình bày theo vần chữ cái

Tất cả các thuật ngữ, bao gồm thuậtt ngữ ưu tiên và không ưu tiên, ñược sắp xếp theo thứ tự chữ cái Các thông tin khác, như các chú giải và chỉ dẫn ñến các thuật ngữ liên quan, phải ñược liệt kê dưới từng thuật ngữ ưu tiên theo thứ tự sau:

1 SN: chú giải hoặc ñịnh nghĩa

2 UF chỉ dẫn ñến các thuật ngữ không ưu tiên tương ñương

3 TT (Top Term) chỉ dẫn ñến thuật ngữ cao nhất

Non-preferred term (Thuật ngữ không ưu tiên)

Use PREFERRED TERM

Ngoài ra, cũng có thể sử dụng cách trình bày ña cấp như sau:

Trang 27

Một TðTC ñược tổ chức một cách hệ thống phải bao gồm hai phần:

1.Các loại hoặc cấp bậc của các thuật ngữ ñược sắp xếp theo nghĩa của chúng và các quan hệ ngữ nghĩa Phần này ñược xem là phần chính của TðTC

Trang 28

2.Một bảng tra theo vần chữ cái chỉ dẫn người sử dụng ñến phần thích hợp của hệ thống

Ngôn ngữ ðMCð có các ưu ñiểm chính như sau:

- Cấu trúc từ vựng ñơn giản, dễ sử dụng;

- Có khả năng áp dụng cho các hệ thống tìm tin thủ công và tự ñộng hóa;

- Dễ cập nhật, bổ sung từ vựng hơn so với các khung phân loại phân cấp;

- Cho phép tìm tin theo vấn ñề

Các nhược ñiểm chính của ngôn ngữ ðMCð bao gồm:

- Không có khả năng tập hợp và phản ánh tài liệu theo các lĩnh vực tri thức một cách hệ thống;

- Mỗi bảng ðMCð sử dụng một ngôn ngữ tự nhiên nhất ñịnh nên khó sử dụng ñối với những người không biết ngôn ngữ ñó;

- Bảng ðMCð có nhiều từ ñồng nghĩa nên phải sử dụng nhiều chỉ dẫn và làm cho cấu trúc của các mục lục hoặc bảng tra trở nên phức tạp hơn;

- Việc xây dựng các mục lục và bảng tra chủ ñề ñòi hỏi nhiều thời gian và công sức

Hiện nay, ngôn ngữ ðMCð ñược sử dụng trong nhiều cơ quan thông tin và thư viện trên thế giới Dưới ñây là mô tả tóm lược các bảng ñề mục chủ ñề ñược sử dụng phổ biến trên thế giới

Bảng ñề mục chủ ñề của Thư viện quốc hội Mỹ (Library of Congress Subject

Headings: LCSH)

Bảng ñề mục chủ ñề của Thư viện Quốc hội Mỹ ñược Thư viện Quốc hội Mỹ biên soạn và ñược xuất bản lần ñầu vào năm 1914 Hiện nay, các phiên bản mới dạng in của

Trang 29

Bảng ðMCð của Thư viện quốc hội Mỹ ñược xuất bản hàng năm Bảng ðMCð của thư viện Quốc hội Mỹ ñược cập nhật liên tục và phiên bản ñiện tử cập nhật ñầy ñủ ñược cung

cấp theo ñăng ký qua Classification Web (http://classweb.loc.gov) và qua các trung tâm thư mục như OCLC và RLIN

ðể hỗ trợ cho việc sử dụng LCSH, thư viện Quốc hội Mỹ xuất bản các hướng dẫn như

sách hướng dẫn Subject Cataloging Manual: Subject Headings, Cataloging Service Bulletin (hàng quí)

Bảng ðMCð Thư viện Quốc hội Mỹ ñược sử dụng phổ biến trong các thư viện nhiều loại hình khác nhau ở Mỹ và ở nhiều nước khác, ñặc biệt là các nước nói tiếng Anh Bảng ðMCð thư viện quốc hội Mỹ có các ưu ñiểm như:

- Có sự thay ñổi ñể ñáp ứng các yêu cầu sử dụng trực tuyến;

- Sẵn có trên các biểu ghi biên mục tập trung;

- Tương ñối ổn ñịnh do sự thay ñổi diễn ra chậm và dần dần

Bên cạnh ñó, Bảng ðMCð Thư viện Quốc hội Mỹ có các hạn chế như:

- Có tính vị chủng;

- Các nguyên tắc và hướng dẫn sử dụng phức tạp;

Bảng ñề mục chủ ñề Sears (Sears List of Subject Headings)

Bảng ðMCð Sears ñược xuất bản lần ñầu vào năm 1923 và chủ yếu dành cho các thư viện tổng hợp qui mô vừa và nhỏ Bảng ðMCð Sears không phải là bản rút gọn của bảng ðMCð của Thư viện quốc hội Mỹ mặc dù chúng có các nguyên tắc chung, cấu trúc, hình thức và hệ thống các chỉ dẫn, chỉ chỗ rất giống nhau

Bảng ðMCð Sears ñược xuất bản ở dạng in và sau vài năm lại có một ấn bản mới Bảng ðMCð này cũng ñược cập nhật liên tục và các bản cập nhật ñược cung cấp ñịnh kỳ

ở dạng ñiện tử

Hiện nay, bảng ðMCð Sears ñược sử dụng rộng rãi trong các thư viện trường học và thư viện công cộng ở Mỹ và cũng ñược sử dụng trong các thư viện nhỏ ở nhiều nước trên thế giới

Bảng ðMCð Sears có các ưu ñiểm và hạn chế tương tự bảng ðMCð của thư viện Quốc hội Mỹ Ví dụ, bảng ðMCð Sears cũng có ưu ñiểm là tương ñối ổn ñịnh và hạn chế

là tính vị chủng

2.3 Các qui tắc và khổ mẫu mô tả thư mục

2.3.1 Qui tắc mô tả thư mục quốc tế ISBD

Qui tắc mô tả thư mục quốc tế ISBD (International Standard Bibliographic Description) ñược biên soạn vào ñầu những năm 1970 Mục ñích và chức năng của ISBD

là cung cấp một chuẩn mô tả các loại hình tài liệu nhằm tạo ñiều kiện thuận lợi cho việc trao ñổi quốc tế về thông tin thư mục ISBD chuẩn hoá các yếu tố có thể sử dụng trong

mô tả thư mục, xác ñịnh trật tự của các yếu tố này cũng như hệ thống các dấu phân cách chúng

Có nhiều loại ISBD dùng ñể mô tả các loại tài liệu khác nhau như sau:

- ISBD (M) dùng cho sách chuyên khảo

Trang 30

- ISBD (S) dùng cho các ấn phẩm ñịnh kỳ và tiếp tục

- ISBD (G) mô tả tài liệu nói chung

- ISBD (NBM) mô tả tài liệu không phải dạng sách (Non-book Material)

- ISBD (A) mô tả sách cổ (Antiquarian)

- ISBD (PM) mô tả ấn phẩm âm nhạc (Printed Music)

- ISBD (CP) mô tả các bài trích (Component Parts)

- ISBD (CF) mô tả các tập tin hoặc CSDL (Computer Files) Hiện nay, ISBD (CF) ñược chuyển ñổi thành ISBD (ER) ñể mô tả các nguồn tài liệu ñiện tử (Electronic Resources)

ISBD bao gồm các vùng mô tả như sau:

- Vùng nhan ñề và thông tin về trách nhiệm

- Vùng thông tin về lần xuất bản

2.3.2 Qui tắc biên mục Anh -Mỹ

Qui tắc biên mục Anh-Mỹ (Anglo-American Cataloguing Rules –AACR) ñược biên soạn và xuất bản lần ñầu tiên vào năm 1967 (AACR1) Khác với các qui tắc truớc ñây, ngoài các qui ñịnh về hình thức mô tả và tiêu ñề, AACR1còn ñưa ra các qui tắc mô tả các tài liệu không phải dạng sách, báo Qui tắc này phân biệt mô tả chính và mô tả bổ sung và phân biệt hai hình thức trình bày mô tả là theo tác giả và theo nhan ñề

Qui tắc AACR2 ñược xuất bản năm 1978, cung cấp các qui tắc mô tả chung cho tất cả các loại hình tài liệu Khác với cách bố cục của các qui tắc biên mục trước ñó, AACR2 trình bày các qui tắc mô tả trước các qui tắc lựa chọn tiêu ñề

Qui tắc AACR2R ñược chỉnh sửa năm 2002 (Anglo-American Cataloguing Rules, Second Edition, 2002 Revision) có phần qui tắc mô tả tài liệu ñược dựa trên ISBD và phần qui tắc lựa chọn tiêu ñề dựa trên các nguyên tắc biên mục Paris Sau chương mô tả chung là các chương riêng phản ánh ñặc ñiểm mô tả của từng loại hình tài liệu riêng biệt

Ví dụ, Chương 8:Các tài liệu dạng ñồ họa, Chương 9: Các nguồn tài liệu ñiện tử, Chương 12: Xuất bản phẩm tiếp tục…

AACR2R ñưa vào vùng mô tả thứ nhất một “chỉ ñịnh chung về tài liệu” (GMD- General Material Designation) ñược ñặt trong dấu ngoặc vuông, ngay sau nhan ñề chính

ñể chỉ loại tài liệu ñược mô tả như nguồn tài liệu ñiện tử, văn bản, phim ñiện ảnh…Trong

ví dụ: American women artists [[[[slide]]]]: the twentieth century, “[slide]” là chỉ ñịnh

chung về tài liệu

Trong AACR2R, vùng thứ ba (vùng thông tin ñặc thù) chỉ ñược sử dụng cho bản ñồ,

ấn phẩm âm nhạc, các tập tin và các xuất bản phẩm nhiều kỳ

Trang 31

AACR2R qui ñịnh ba mức ñộ mô tả chi tiết tùy theo nhu cầu hoặc qui mô của thư viện

sử dụng nhưng vẫn bảo ñảm ñúng chuẩn mực quốc tế

2.3.3 Khổ mẫu MARC

Khổ mẫu (format) là hình thức trình bày dữ liệu trên một biểu ghi ñược cấu trúc hóa Khổ mẫu MARC (MAchine-Readable Cataloging) là một cấu trúc dành riêng cho các dữ liệu thư mục ñược ñưa vào máy tính ñiện tử

Khổ mẫu MARC ñầu tiên ñược Thư viện Quốc hội Mỹ xây dựng vào năm 1968 Vào những năm 1970 MARC ñược gọi là USMARC ñể phân biệt với hơn 20 khổ mẫu của các quốc gia khác như CAN / MARC, UKMARC, RUSMARC, DenMARC…

Năm 2000, USMARC ñược kết hợp với CAN/MARC tạo ra MARC21 MARC21 ñược xây dựng dựa trên tiêu chuẩn ANSI Z39.2 (tiêu chuẩn quốc tế là ISO 2909:1996,

Information and Documentation – Format for Information Exchange)

Cấu trúc của khổ mẫu MARC là cấu trúc biểu ghi, trong ñó các dữ liệu thư mục ñược sắp xếp trong các trường Mỗi biểu ghi của khổ mẫu MARC bao gồm nhiều trường, mỗi trường có thể ñược chia thành nhiều trường con

Mỗi biểu ghi MARC bao gồm các thành phần cơ bản là ñầu biểu, danh mục và các trường dữ liệu

ðầu biểu chứa thông tin cần thiết cho máy tính ñể xử lý dữ liệu trong biểu ghi, ví dụ

ñộ dài của biểu ghi, trạng thái của biểu ghi (là một biểu ghi mới hay một biểu ghi ñược chỉnh sửa), loại hình tài liệu ñược mô tả,…

Danh mục chứa các mục có ñộ dài cố ñịnh (12 ký tự) xác ñịnh nhãn trường, ñộ dài và

vị trí bắt ñầu của từng trường trong biểu ghi

Các trường dữ liệu chứa dữ liệu cụ thể liên quan ñến tài liệu ñược biên mục Một số trong các trường này là trường kiểm tra có ñộ dài cố ñịnh với thông tin ñược mã hóa, còn phần lớn là các trường có ñộ dài thay ñổi Các trường này thường chứa các dữ liệu biên mục truyền thống và cũng có thể chứa thông tin bổ sung như mã số của một vùng ñịa lý,

mã số thời gian và ñịa ñiểm của một sự kiện…Mỗi trường có một nhãn trường bằng số ñể nhận dạng dữ liệu thư mục (ví dụ, 245 là trường mô tả nhan ñề, 260 là trường mô tả thông tin về xuất bản, phát hành…)

2.4 Ngôn ngữ mô tả tài liệu ñiện tử

- Liên kết các tệp với nhau ñể tạo ra một tài liệu tổng hợp;

- Tạo các phiên bản khác nhau của một tài liệu trong một tệp ñơn;

Trang 32

- Thêm các chú giải vào một tệp;

- Cung cấp thông tin về các chương trình hỗ trợ;

SGML yêu cầu người sử dụng phải cung cấp một phần tử xác ñịnh cấu trúc của tài liệu ñược xử lý (DTD- Document Type Definition) DTD mô tả từng yếu tố của tài liệu và nhận dạng các mối liên quan giữa các yếu tố khác nhau trong tài liệu DTD giúp cho các chương trình xử lý tự ñộng nhận biết các yếu tố của văn bản, cách thức trình bày…

SGML xác ñịnh dữ liệu theo các yếu tố và thuộc tính Một thành phần cụ thể của một tài liệu như nhan ñề, tóm tắt, tên nhà xuất bản…ñược xem như một yếu tố Một thuộc tính cung cấp thông tin cụ thể về một yếu tố SGML qui ñịnh các nhãn và dấu phân cách

ñể ñánh dấu các yếu tố Các dấu phân cách là các ký hiệu ñược xác ñịnh (ví dụ <,> </ “)

và ñược sử dụng ñể tạo các nhãn (ví dụ, <author> là một nhãn) Các nhãn thường xuất hiện trước hoặc sau một yếu tố ở dạng: <tag>element</tag> (ví dụ, <author>Jill Smith</author>) Các giá trị của thuộc tính ñược phân cách bằng “…” hoặc `…` (ví dụ,

<quote lang= `spa`> Que pasa?< /quote> Các nhãn có thể lồng vào nhau, tương tự các trường con của MARC

Một tài liệu SGML bao gồm ba phần như sau:

- Khai báo SGML xác ñịnh bộ mã của tài liệu, ñộ dài tên gọi của các yếu

Ban ñầu HTML ñược thiết kế như một ngôn ngữ ñể trao ñổi các tài liệu khoa học và

kỹ thuật và thích hợp với người sử dụng không phải là chuyên gia tư liệu Vì vậy, HTML khắc phục tính phức tạp của SGML bằng cách xác ñịnh một tập nhỏ các nhãn cấu trúc và ngữ nghĩa thích hợp với việc tạo các tài liệu tương ñối ñơn giản Bên cạnh việc ñơn giản hóa cấu trúc tài liệu, HTML cũng hỗ trợ các chức năng siêu văn bản và ña phương tiện Nhờ tính ñơn giản nên chỉ trong một thời gian ngắn HTML trở nên phổ biến Nhiều

chương trình ñược thiết kế ñể xử lý thông tin trên web với HTML

2.4.3 Ngôn ngữ XML

XML (eXtensible Markup Language) là một ngôn ngữ ñánh dấu mở rộng ñược xây dựng ñể hỗ trợ sử dụng SGML mạnh hơn trên mạng toàn cầu Khi mạng toàn cầu phát triển, HTML khó ñáp ứng yêu cầu của nhiều ứng dụng cần thiết trên web do nó quá ñơn giản Nhiều giải pháp ñược ñưa ra ñể khắc phục các hạn chế của HTML và XML là một trong những giải pháp ñó

Trang 33

XML bao gồm các qui tắc thiết kế các khổ mẫu văn bản cho phép người sử dụng tự tổ chức cấu trúc dữ liệu của mình Các thành phần của XML tương tự của SGML, tuy nhiên, XML không yêu cầu người sử dụng cung cấp một DTD như SGML

So với HTML, XML có những khác biệt như: người sử dụng có thể tự ñịnh nghĩa các nhãn (tag) trong XML, còn trong HTML thì không thể; XML nhằm xây dựng cấu trúc dữ liệu trong khi các lệnh của HTML nhằm trình bày dữ liệu XML thường ñược sử dụng thay thế cho HTML ñể triển khai các ứng dụng web chuyên nghiệp

Họ XML là một tập các moñun ngày càng phát triển và cung cấp nhiều dịch vụ hữu ích ñể thực hiện các thao tác quan trọng và thường xuyên ñược yêu cầu Ví dụ:

của các khổ mẫu dựa trên XML của mình

2.5.Siêu dữ liệu (metadata)

2.5.1 Khái niệm

Có nhiều ñịnh nghĩa về siêu dữ liệu, từ ñịnh nghĩa ñơn giản như “ Siêu dữ liệu là

dữ liệu về dữ liệu” hay “Siêu dữ liệu là dữ liệu mô tả các ñặc trưng của nguồn tài nguyên thông tin” [13] ñến những ñịnh nghĩa phức tạp hơn và dài hơn như ñịnh nghĩa của FOLDOC: Free On-Line Dictionary of Computing (http://foldoc.org): “Siêu dữ liệu là dữ liệu mang tính ñịnh nghĩa và nó cung cấp thông tin hoặc tài liệu về dữ liệu khác ñược quản lý trong một ứng dụng hoặc môi trường Siêu dữ liệu có thể bao gồm thông tin mô

tả về ngữ cảnh, chất lượng và ñiều kiện hoặc các ñặc trưng của dữ liệu” Theo ñịnh nghĩa này, siêu dữ liệu không chỉ bao gồm thông tin mô tả thường có trong các hệ thống tìm tin truyền thống, mà còn bao gồm thông tin cần thiết cho việc quản lý, sử dụng và bảo quản tài nguyên thông tin ( nghĩa là thông tin về nơi lưu trữ tài liệu, cách trình bày tài liệu, quyền sở hữu, chất lượng và ñiều kiện …)

Tóm lại, siêu dữ liệu là thuật ngữ ñược dùng ñể chỉ thông tin có cấu trúc mô tả các ñặc trưng của tài nguyên thông tin nhằm mục ñích xác ñịnh, khai thác và quản lý tài nguyên thông tin

Các chức năng chính của siêu dữ liệu là hỗ trợ cho việc nhận dạng, ñịnh vị, tìm kiếm,

xử lý và sử dụng các ñối tượng số trong môi trường mạng

Mặc dù thuật ngữ “siêu dữ liệu” mới xuất hiện gần ñây cùng với sự phát triển của Internet và các loại hình tài liệu ñiện tử nhưng trên thực tế, siêu dữ liệu ñã ñược sử dụng

từ lâu trong hoạt ñộng của các CQTT-TV Các phiếu mô tả thư mục chứa các dữ liệu mô

tả ñối tượng nên có thể ñược xem như một dạng siêu dữ liệu Biểu ghi thư mục có thể ñược xem như biểu ghi siêu dữ liệu (metadata record) của các ñối tượng ñược quản lý trong CSDL

Có thể phân ñộ phức tạp của các hệ thống siêu dữ liệu thành ba mức Mức thứ nhất là khổ mẫu ñơn giản, trong ñó siêu dữ liệu chỉ ñơn giản là một số dữ liệu không cấu trúc có

ở ngay trong chính nguồn tài nguyên thông tin Các công cụ tìm kiếm trên Web sử dụng các kỹ thuật ñánh chỉ số tự ñộng thường sử dụng siêu dữ liệu ở mức ñộ này Mức thứ hai

Trang 34

là khổ mẫu có cấu trúc, bao gồm các bộ yếu tố siêu dữ liệu chắnh thức ựược xây dựng cho người sử dụng ựại chúng Mức ựộ này của siêu dữ liệu có thể có một mẫu cơ bản ựể tạo siêu dữ liệu và không yêu cầu mô tả ở mức chuyên nghiệp Các biểu ghi siêu dữ liệu có thể ựược tạo lập bằng tay hoặc tự ựộng hóa Yếu tố siêu dữ liệu cốt lõi Dublin Core là một vắ dụ về siêu dữ liệu ở mức ựộ này Mức ựộ thứ ba là các khổ mẫu ựược sử dụng ựể ựịnh vị, phân tắch, ựánh giáẦ Các khổ mẫu này phức tạp và chi tiết hơn và ựòi hỏi kiến thức chuyên sâu ựể tạo lập và duy trì các biểu ghi siêu dữ liệu Các thư viện, cơ quan lưu trữ, bảo tàng thường sử dụng các hệ thống siêu dữ liệu loại này Các chuyên gia thông tin

sử dụng các khổ mẫu này ựể tạo các mô tả ựầy ựủ và chi tiết hơn MARC, TEI, EAD là những vắ dụ về siêu dữ liệu ở mức ựộ này

Các yếu tố siêu dữ liệu có thể ựược lưu trữ tách biệt với ựối tượng ựược mô tả hoặc có thể ựược lưu trữ ngay bên trong tài nguyên thông tin ựược mô tả Siêu dữ liệu có thể là một tiêu ựề của tài liệu ựiện tử, có thể ựược ỘnhúngỢ trong một tài liệu ựiện tử hoặc có thể là một biểu ghi tách biệt với tài nguyên thông tin ựược nó mô tả Các biểu ghi siêu dữ liệu tách biệt có thể ựược tập hợp trong một CSDL hoặc trong một tệp như một tệp XML hoặc có thể ựược phân bố ở nhiều vị trắ khác nhau Các biểu ghi siêu dữ liệu thường ở dạng các biểu ghi tách biệt, ựược mã hóa, ựược sử dụng ựể mô tả và thay thế cho tài nguyên thông tin ựược mô tả Các biểu ghi này ựược lưu trữ trong các công cụ tìm tin ựể

hỗ trợ người sử dụng xem hoặc tìm các biểu ghi thay vì tìm kiếm từng tài nguyên thông tin trong bộ sưu tập Vì siêu dữ liệu thường bao gồm dạng mã hóa nên thuật ngữ này ắt ựược áp dụng với các biểu ghi trong các công cụ tìm tin trên giấy như mục lục, thư

mụcẦ

2.5.2 Sơ ựồ siêu dữ liệu

để có thể sử dụng một cách hiệu quả, siêu dữ liệu phải ựược chuẩn hóa và kiểm soát Các thành phần cơ bản của siêu dữ liệu là sơ ựồ và yếu tố siêu dữ liệu Các yếu tố siêu dữ liệu là các lĩnh vực hoặc trường riêng biệt chứa các phần riêng biệt của mô tả một tài nguyên thông tin Các yếu tố dữ liệu thông thường bao gồm nhan ựề, người tạo lập, thời gian tạo lập, chủ ựềẦSơ ựồ siêu dữ liệu là tập hợp các yếu tố siêu dữ liệu ựược thiết kế

ựể ựáp ứng nhu cầu của các cộng ựồng cụ thể Chỉ có một số sơ ựồ tổng hợp, còn phần lớn các sơ ựồ ựược thiết kế ựể mô tả các dạng tài nguyên thông tin cụ thể Vì vậy, có nhiều loại sơ ựồ siêu dữ liệu và chúng khác nhau về số lượng các yếu tố dữ liệu, về cách

sử dụng các yếu tố bắt buộc và lặp lại, về cách mã hóa và về cách sử dụng các từ vựng ựược kiểm soát Phần lớn các sơ ựồ tập trung vào các yếu tố mô tả ựể hỗ trợ việc khai thác tài nguyên thông tin và một số sơ ựồ chứa các yếu tố hỗ trợ mục ựắch quản lý hành chắnh và cấu trúc Không thể xây dựng một sơ ựồ dữ liệu hoàn hảo, phù hợp với tất cả ựể ựáp ứng ựược nhu cầu ựa dạng của các cộng ựồng khác nhau

Sơ ựồ dữ liệu có ba ựặc trưng là (1) cấu trúc, (2) cú pháp, và (3) ngữ nghĩa Cấu trúc

liên quan ựến mô hình hoặc cấu trúc dữ liệu (vắ dụ như RDF- Resource Description Framework và METS- Metadata Encoding and Transmission Standard) ựược sử dụng ựể chứa siêu dữ liệu và cách trình bày siêu dữ liệu Cấu trúc ở ựây liên quan ựến cấu trúc của siêu dữ liệu Không nên nhầm lẫn với Ộsiêu dữ liệu cấu trúcỢ liên quan ựến cấu trúc của

nguồn tài nguyên ựược mô tả (sẽ ựược ựề cập ở phần sau trong chương này) Cú pháp

liên quan ựến việc mã hóa siêu dữ liệu đó có thể là khổ mẫu MARC cho các biểu ghi thư

Trang 35

mục hoặc XML, SGML, DTD cho các loại khác của siêu dữ liệu Ngữ nghĩa chỉ ý nghĩa

của các yếu tố dữ liệu khác nhau Vắ dụ, ngữ nghĩa giúp những người tạo lập siêu dữ liệu hiểu ý nghĩa của Ộphạm vi bao quátỢ hay Ộthời gian chỉnh sửaỢ trong một sơ ựồ nhất ựịnh Nội dung ựược ựưa vào các yếu tố dữ liệu không ựược xác ựịnh bởi ngữ nghĩa của một

sơ ựồ siêu dữ liệu mà ựược xác ựịnh bởi các chuẩn nội dung và các từ vựng ựược kiểm soát

Các chuẩn nội dung xác ựịnh các vấn ựề như cách nhập ngày tháng trong các yếu tố siêu dữ liệu

Từ vựng ựược kiểm soát là danh mục các từ trong ựó một số thuật ngữ nào ựó ựược chọn như những thuật ngữ ưu tiên và các từ ựồng nghĩa của chúng ựóng vai trò như những chỉ dẫn ựến các thuật ngữ ưu tiên, do ựó giới hạn bớt các giá trị có thể phải nhập vào một trường Các từ vựng ựược kiểm soát thường ựược sử dụng trong các yếu tố siêu

dữ liệu loại ựối tượng và yếu tố siêu dữ liệu liên quan ựến chủ ựề

2.5.3 Các loại siêu dữ liệu

Có thể phân loại siêu dữ liệu thành ba nhóm chắnh là siêu dữ liệu hành chắnh (Administrative metadata), siêu dữ liệu cấu trúc (Structural metadata) và siêu dữ liệu mô

tả (Descriptive metadata)

Siêu dữ liệu hành chắnh

Siêu dữ liệu hành chắnh ựược tạo lập với mục ựắch quản trị và bảo quản biểu ghi Nó cung cấp thông tin về các yêu cầu lưu trữ và các quá trình chuyển ựổi các ựối tượng số Siêu dữ liệu hành chắnh hỗ trợ việc quản lý, xử lý và sao lưu các tài liệu số Siêu dữ liệu hành chắnh bao gồm các thông tin như:

- Thông tin bổ sung (nghĩa là thời gian và cách tạo lập, chỉnh sửa và/hoặc

bổ sung tài nguyên thông tin)

- Thông tin về chủ sở hữu, bản quyền, giấy phép, các bản sao chép (quyền

sử dụng tài nguyên thông tin của tổ chức, các bản sao hiện có và hiện trạng của chúng)

- Các yêu cầu ựối với việc truy cập (ai có thể sử dụng tài nguyên và với những mục ựắch gì)

- Thông tin về nơi lưu trữ (URL, ký hiệu xếp giá)

- Thông tin sử dụng (theo dõi việc sử dụng và người sử dụng)

- Thông tin quản lý (những tài nguyên ựược sử dụng, thời gian sử dụng, hình thức sử dụng và người sử dụng)

- Thông tin bảo quản: thông tin tổng hợp; tư liệu về ựiều kiện vật lý; tư liệu về các hoạt ựộng cần thực hiện ựể bảo quản

Có thể phân siêu dữ liệu hành chắnh thành ba loại nhỏ hơn là bảo quản, truy cập và bản quyền và dữ liệu về siêu dữ liệu (meta-metadata.)

Siêu dữ liệu cấu trúc

Siêu dữ liệu cấu trúc cung cấp thông tin về thành phần hoặc cấu trúc của tài nguyên thông tin ựược mô tả như tệp tin hoặc các tài nguyên thông tin khác Siêu dữ liệu cấu trúc là thông tin kỹ thuật cần thiết hỗ trợ cho việc tìm và trình bày tài nguyên ựiện tử Nó mô tả cách các tệp quan hệ liên kết với nhau và cách ựối tượng ựược hiển thị và phân phối trong các hệ thống khác nhau đôi lúc, siêu dữ liệu cấu trúc ựược xem như siêu dữ liệu kỹ

Trang 36

thuật, siêu dữ liệu hiển thị hoặc siêu dữ liệu sử dụng Siêu dữ liệu cấu trúc bao gồm các loại thông tin sau:

- Thông tin về việc số hóa (tỉ lệ nén)

- Dữ liệu liên quan việc tạo lập hình ảnh số (thời gian scan, ñộ phân giải)

- Dữ liệu bảo mật và thẩm ñịnh quyền (các khóa mã hóa, mật khẩu)

- Các giao thức tìm kết hợp (Z39.50, qui tắc ñánh chỉ số chung…) Một số yếu tố siêu dữ liệu cấu trúc có thể có trong các tiêu ñề của một số dạng tệp nhưng trong nhiều trường hợp phải thu thập một cách thủ công hoặc phải triển khai các qui trình mới ñể thu thập siêu dữ liệu này với chi phí thấp

Siêu dữ liệu mô tả

Siêu dữ liệu mô tả là siêu dữ liệu mô tả các ñặc trưng nhận dạng của một tài nguyên thông tin Siêu dữ liệu mô tả bao gồm các loại thông tin sau:

- Dữ liệu xác ñịnh một tài nguyên thông tin (nhan ñề; tác giả; thời gian tạo lập hoặc xuất bản…)

- Dữ liệu về ñiểm truy cập (ñề mục chủ ñề; phân loại)

- Dữ liệu về tổ chức (kiểm soát tiêu ñề chuẩn; sự sắp xếp cùng với các tài liệu liên quan, các chủ ñề, …; nhận dạng các mối liên hệ giữa các thực thể)

2.5.4 Một số sơ ñồ siêu dữ liệu phổ biến

2.5.4.1 Dublin Core

Dublin Core (viết tắt của Dublin Core Metadata Element Set - yếu tố siêu dữ liệu cốt lõi Dublin) ñược thiết kế nhằm tạo ra một bộ yếu tố siêu dữ liệu thống nhất mà người tạo lập một tài liệu ñiện tử bất kỳ có thể sử dụng Những người tham gia xây dựng và phát triển Dublin Core (DC) là các chuyên gia từ nhiều lĩnh vực khác nhau như các nhà xuất bản, các chuyên gia máy tính, chuyên gia thư viện, các nhà sản xuất phần mềm… Vì vậy, ñó là một chuẩn liên quan ñến nhiều lĩnh vực và có thể là cơ sở cho siêu dữ liệu của một loại tài nguyên thông tin bất kỳ trong một lĩnh vực bất kỳ

Bộ yếu tố siêu dữ liệu Dublin Core ñược ban hành thành tiêu chuẩn NISO

Z39.85-2001

Bộ yếu tố siêu dữ liệu Dublin Core bao gồm 15 yếu tố (http://www.dublincore.org) Mỗi yếu tố ñược ñặt tên và qui ñịnh nhãn ñể ghi vào trong thẻ meta Mỗi yếu tố ñược ñịnh nghĩa rõ ràng ñể mô tả ñối tượng Tên và nhãn của các yếu tố ñược trình bày trong bảng 2.1

Trang 37

CREATOR Tên của cá nhân hoặc tổ chức chịu trách nhiệm

chính về nội dung của tài nguyên (ví dụ tác giả, nghệ sĩ, nhạc sĩ…)

3 Subject

(Chủ ñề)

SUBJECT Chủ ñề mô tả nội dung tài nguyên; nên sử dụng

các từ vựng có kiểm soát và các khung phân loại chính thức

4

Description

(Mô tả)

DESCRIPTION Mô tả nội dung tài nguyên Có thể là tóm tắt,

mục lục nội dung hoặc một ñoạn văn bản

5 Publisher

(Nhà xuất bản)

PUBLISHER Tên của tổ chức hoặc cá nhân chịu trách nhiệm

duy trì tài nguyên trên mạng (Ví dụ như nhà xuất bản, trường ñại học hoặc các khoa thuộc trường,…)

6

Contributor

(Người ñóng

góp)

CONTRIBUTOR Tên của cá nhân hoặc tổ chức có ñóng góp quan

trọng vào nội dung tài nguyên

7.Date

(Thời gian)

DATE Thời gian của sự kiện trong vòng ñời của tài

nguyên như ngày tạo lập, ngày chỉnh sửa…Khuyến nghị dùng ISO 8601 (các mẫu ngày tháng và thời gian), ñặc biệt là mẫu YYY-MM-DD (năm-tháng-ngày)

8.Type

(Kiểu)

TYPE Mô tả bản chất hoặc loại nội dung tài nguyên

(ví dụ như trang chủ, báo cáo kỹ thuật, từ ñiển…) Khuyến nghị sử dụng thuật ngữ của các từ vựng

có kiểm soát

9 Format

(Khổ mẫu)

FORMAT Mô tả cách trình bày vật lý hoặc số hóa của tài

nguyên, ví dụ như kiểu dữ liệu, phần mềm, phần cứng…, cần thiết ñể sử dụng tài nguyên; Khuyến nghị sử dụng thuật ngữ của từ vựng có kiểm soát

10

Identifier

(ðịnh danh)

IDENTIFIER Là chuỗi ký tự hoặc số ñể nhận dạng tài nguyên

(ví dụ như URL hoặc ISBN)

11 Source

(Nguồn)

SOURCE Thông tin về nguồn ban ñầu, từ ñó tài nguyên

hiện ñang mô tả ñược tạo ra

RELATION Mô tả tài nguyên liên quan và các mối quan hệ

của nó với tài nguyên ñang ñược mô tả, ví dụ như một tài liệu là cơ sở của tài nguyên ñang ñược mô

tả

14

Coverage (Bao

COVERAGE Mô tả phạm vi hoặc mức bao quát của tài

nguyên (ví dụ như thời gian, vị trí ñịa lý…)

Trang 38

quát)

15 Rights

(Quyền)

RIGHT Là một ñoạn văn bản, một liên kết hoặc một từ

ñịnh danh cung cấp thông tin liên quan ñến quyền ñối với tài nguyên (ví dụ như việc sử dụng có hạn chế ñến một thời ñiểm nhất ñịnh, thời ñiểm khi tài nguyên sẽ không ñược hiển thị nữa…)

Bảng 2.1 Các yếu tố siêu dữ liệu Dublin Core

Có nhiều nhóm ứng dụng Dublin Core, ví dụ như OCLC với ứng dụng trong CSDL WorldCat Các chuyên gia biên mục sử dụng hệ thống này có thể xem và tải về các biểu ghi dạng MARC hoặc HTML hoặc các ứng dụng XML/RDF của Dublin Core

2.5.4.2 Các tiêu ñề TEI (Text Encoding Initiative – Sáng kiến mã hóa văn bản)

Sáng kiến mã hóa văn bản là một dự án quốc tế ứng dụng SGML (và hiện nay là XML) ñể biên soạn tài liệu ñiện tử

Ban ñầu TEI là một phần tử xác ñịnh cấu trúc tài liệu của SGML (SGML.DTD) ñược tạo lập nhằm cung cấp một phương thức mã hóa các văn bản cũ, tài liệu văn học và/hoặc tài liệu khoa học ñể có thể trao ñổi dễ dàng các phiên bản ñược mã hóa Có thể sử dụng TEI ñể tạo ra các tài liệu mới Ban ñầu TEI ñược tạo lập cho các văn bản thuộc lĩnh vực khoa học nhân văn nhưng sau ñó lĩnh vực sử dụng ñược mở rộng Các hướng dẫn của TEI cung cấp một khung có thể sử dụng ñể mô tả nhiều loại văn bản Tiêu ñề TEI (TEI Header) là một bộ phận của TEI Tiêu ñề TEI có 4 phần, bao gồm:

mô tả tệp, mô tả mã hóa, mô tả profile, và mô tả về sự chỉnh sửa Mô tả tệp là phần bắt buộc và chứa một mô tả thư mục của văn bản Mô tả mã hóa nêu rõ các qui tắc hoặc qui ñịnh biên tập ñược sử dụng trong việc xử lý văn bản (ví dụ như cách xử lý các trích dẫn và các cách viết khác nhau) Mô tả profile chứa thông tin mô tả các phương diện mô tả khác nhau của một văn bản và chứa các ñiểm truy cập bổ sung Nó cũng chứa thông tin về ngôn ngữ, ñề mục chủ ñề và ký hiệu phân loại Mô tả về sự chỉnh sửa chứa hồ sơ về tất cả mọi chỉnh sửa văn bản, bao gồm thời gian chỉnh sửa và người chỉnh sửa

Mẫu nội dung ñưa vào các trường của tiêu ñề không ñược qui ñịnh trong các hướng dẫn về tiêu ñề TEI Tuy nhiên, các hướng dẫn về tiêu ñề TEI ñộc lập có các yếu tố bắt buộc và tùy chọn và khuyến nghị sử dụng thông tin có cấu trúc hơn là thông tin không

có cấu trúc

2.5.4.3 Sơ ñồ mô tả lưu trữ mã hóa EAD (Encoded Archival Description)

EAD là sơ ñồ mã hóa ñược Thư viện Quốc hội Mỹ và Hội lưu trữ Mỹ phát triển với mục ñích hỗ trợ tạo lập các công cụ tìm kiếm và mô tả tài liệu lưu trữ

EAD là chuẩn ñược sử dụng ngày càng nhiều trong các cơ quan lưu trữ và thư viện trên thế giới ñể mã hóa dữ liệu mô tả các hồ sơ của tổ chức và hồ sơ cá nhân Ban ñầu, EAD ñược xây dựng dựa trên SGML và với phiên bản EAD 1.0 ñược ñưa ra vào năm

1998, EAD cũng dựa trên XML EAD có cấu trúc tương tự tiêu ñề TEI, bao gồm 145 yếu tố EAD thường ñược sử dụng kết hợp với tiêu chuẩn mô tả tài liệu lưu trữ mới ISAD(G) (General International Standard Archival Description)

Trang 39

CHƯƠNG 3

TỔ CHỨC THÔNG TIN TRONG HỆ THỐNG TÌM TIN

Hệ thống tìm tin tư liệu là hệ thống tìm tin ñược phổ biến rộng rãi nhất trong các CQTT-TV Vì vậy, chương này chủ yếu ñề cập ñến cách tổ chức thông tin trong các

hệ thống tìm tin tư liệu

Thành phần chính của một hệ thống tìm tin bất kỳ là các tập tin chứa thông tin về các thực thể ñược phản ánh trong hệ thống Thực thể có thể là các ñối tượng (như con người, tổ chức, tài liệu, vật liệu…) hoặc quá trình, hiện tượng trong thế giới khách quan mà con người có thể nhận dạng và mô tả ñược Mỗi một thực thể ñược mô tả bằng một tập hợp các thuộc tính khác nhau (bộ thuộc tính)

Thuộc tính là những ñặc trưng, tính chất phản ánh nội dung hoặc hình thức của thực thể mà con người có thể nhận dạng và trình bày ñược Mỗi thuộc tính có một tên

và một/nhiều giá trị hoặc nội dung Nội dung có thể tương ñương với giá trị của một thuộc tính hoặc chỉ ñề cập một phần của giá trị

Giá trị là các ký tự hoặc bộ ký tự có ý nghĩa, ñược sử dụng ñể thể hiện nội dung các thuộc tính Ví dụ, “ðHQG Tp.HCM” là một giá trị của thuộc tính “Nhà xuất bản” của tài liệu Trong trường hợp một thuộc tính có nhiều giá trị thì giá trị ñó ñược gọi là giá trị lặp Trường hợp một thuộc tính có thể nhận một trong hai giá trị (có hai giá trị khả dĩ ) thì gọi là giá trị nhị phân

Thực thể ñược phản ánh trong hệ thống tìm tin tư liệu là tài liệu Các tập tin trong

hệ thống tìm tin tư liệu chứa thông tin về tài liệu – là tập hợp các giá trị của các thuộc tính hình thức và nội dung của tài liệu Thuộc tính hình thức của tài liệu ñược thể hiện bằng các yếu tố như tên tác giả, nhan ñề, các yếu tố xuất bản, dạng tài liệu, số ký hiệu…Thuộc tính nội dung của tài liệu ñược thể hiện bằng các thuật ngữ của ngôn ngữ tìm tin ñược sử dụng trong hệ thống tìm tin Tập hợp các giá trị của các thuộc tính nội dung chính là mẫu tìm Quá trình tìm tin trong hệ thống tìm tin tư liệu là quá trình so sánh lệnh tìm với mẫu tìm của tài liệu Vì vậy, các mẫu tìm của tài liệu trong các tập tin phải ñược tổ chức sao cho việc so sánh giữa mẫu tìm và lệnh tìm có thể thực hiện một cách dễ dàng Một tài liệu ñược xem là “tìm ñược” khi mẫu tìm của nó tương thích với lệnh tìm ñược nhập vào hệ thống

Sau khi tài liệu ñược xử lý, thông tin về tài liệu ñược tổ chức trong các tập tin và ñược lưu trữ trong bộ nhớ của hệ thống tìm tin

Bộ nhớ là một hệ thống vật mang tin ñược sử dụng ñể ghi lại và lưu trữ thông tin theo thời gian nhằm mục ñích tìm kiếm và cung cấp thông tin theo yêu cầu Hệ thống này có thể là hệ thống mục lục truyền thống, các bộ phiếu lỗ mép, phiếu lỗ soi, các thiết bị nhớ như băng từ, ñĩa từ, ñĩa quang …

Thành phần của bộ nhớ bao gồm các biểu ghi Biểu ghi của bộ nhớ trong hệ thống tìm tin là vật mang tin ñược sử dụng ñể lưu trữ các yếu tố thông tin về tài liệu Biểu ghi của bộ nhớ trong hệ thống tìm tin có thể là phiếu mô tả trong hệ thống mục lục thủ công, biểu ghi trong các tập dữ liệu…

Có hai nguyên tắc lưu trữ thông tin trong hệ thống tìm tin tư liệu, bao gồm:

Trang 40

1) Lưu trữ theo tài liệu: mỗi tài liệu tương ứng với một biểu ghi chứa mẫu tìm của tài liệu ñó

2) Lưu trữ theo nội dung của tài liệu: mỗi thuật ngữ của NNTT thể hiện chủ ñề của tài liệu (ví dụ một từ khóa/một ðMCð) tương ứng với một biểu ghi trên ñó liệt kê số ký hiệu của tất cả các tài liệu có nội dung ñề cập ñến chủ ñề ñó

Nhìn chung, có thể có ba cách tổ chức các biểu ghi trong bộ nhớ của hệ thống tìm tin tư liệu, tương ứng với hai nguyên tắc lưu trữ thông tin nói trên như sau:

Pi > Di,

Pi - -> ai,

di - -> ai1, ai2, ai3, , ain

Trong ñó Pi - mẫu tìm của tài liệu; Di – tài liệu hoặc bản sao tài liệu; ai - số ký

hiệu/ñịa chỉ lưu trữ tài liệu hoặc bản sao tài liệu; di - thuật ngữ của NNTT; ai1, ai2, ai3,

, ain - các số ký hiệu/ñịa chỉ lưu trữ các tài liệu có chứa di trong mẫu tìm

Về bản chất, hai cách ñầu tiên là hai trường hợp của cùng một sơ ñồ tổ chức Vì vậy, có thể có hai sơ ñồ tổ chức thông tin trong bộ nhớ của hệ thống tìm tin tư liệu là

sơ ñồ tổ chức tuyến tính và sơ ñồ ñảo

3.1.Ma trận tài liệu/thuật ngữ

Có thể biểu diễn quan hệ giữa các tài liệu và thuật ngữ trong mẫu tìm của tài liệu

bằng ma trận tài liệu/thuật ngữ (ñược gọi là ma trận tư liệu)

Gọi A là tập hợp các tài liệu D là tập hợp các từ khóa thể hiện các chủ ñề của nội dung các tài liệu

A = a1, a2, a3, …, ai,…, an , trong ñó ai là số ký hiệu của tài liệu

D= d1, d2, d3, …, dj, …,dm , trong ñó dj là từ khóa

Mỗi dòng trong ma trận tương ứng với một số ký hiệu của tài liệu ai, mỗi cột tương ứng với một từ khóa dj – là một thuật ngữ của ngôn ngữ tìm tin ñược sử dụng trong hệ thống tìm tin

Ta có : 0 nếu trong mẫu tìm của tài liệu ai không chứa dj

dij =

1 nếu trong mẫu tìm của tài liệu ai chứa dj

Nếu trong mẫu tìm của tài liệu ai có chứa từ khóa dj thì tại ô giao nhau giữa dòng ai

và cột dj trong ma trận sẽ ñược ñánh dấu X

Ngày đăng: 02/01/2015, 16:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
6. Phan Huy Quế. Mô tả nội dung tài liệu bằng từ khóa: tài liệu hướng dẫn.- H., 2001 7. Tạ Thị Thịnh. Phân loại tài liệu.- H., 1998.- 221 tr Sách, tạp chí
Tiêu đề: Mô tả nội dung tài liệu bằng từ khóa: tài liệu hướng dẫn
Tác giả: Phan Huy Quế
Nhà XB: H.
Năm: 2001
26. Online Dictionary of Library and Information Science – ODILIS: http://lu.com/odilis 27. Taylor A.G. The organization of information.- 2nd ed.- Westport:Libraries Unlimited, 2004.- 417p Sách, tạp chí
Tiêu đề: The organization of information
Tác giả: Taylor A.G
Nhà XB: Libraries Unlimited
Năm: 2004
1. Cao Minh Kiểm. Siêu dữ liệu – khái niệm và phân loại .- Tạp chí Thông tin tư liệu, No 3, 2003.- tr.1-8 Khác
3. ðoàn Phan Tõn. Tin học trong hoạt ủộng thụng tin-thư viện.-H., 2001.- 297tr Khác
4. Lê văn Viết. Cẩm nang nghề thư viện.-H.:Văn hóa-Thông tin, 2001.-630tr Khác
5. Nguyễn Hữu Hựng. Thụng tin: Từ lý luận ủến thực tiễn.- H.: Văn húa thụng tin, 2005.- 834 tr Khác
8. TCVN 5453-1991: Hoạt ủộng thụng tin và tư liệu - Thuật ngữ và khỏi niệm cơ bản.- H., 1991 Khác
9. Trần Mạnh Tuấn. Sản phẩm và dịch vụ thông tin, thư viện.- H., 1998.- 324 tr Khác
10. Trần Thị Bớch Hồng, Cao Minh Kiểm. Tra cứu thụng tin trong hoạt ủộng thư viện thông tin.- H., 2004.- 311 tr Khác
11. Bộ từ khóa/Thư viện Quốc gia Việt Nam.- H., 2005 Khác
12. Vũ Văn Sơn. Giáo trình biên mục mô tả.- H., 2000.- 284 tr. II. Tài liệu nước ngoài Khác
13. Chowdhury G. Introduction to modern information retrieval.- London: Facet Publishing, 2004.- 474p Khác
14. Cleverland D. Introduction to Indexing and Abstracting.- 3 rd edition.- Englewood: Libraries Unlimited, Inc., 2001.- 283p Khác
15. Giliarevski R.S. Sovremennaia informatika: nauka, texnologia, deiatelnosch.- Matskva, 1997.- 212 tr (Tiếng Nga) Khác
16. Gates J.K. Guide to the use of libraries and information sources.- 7th ed. .- New York, McGraw-Hill, Inc., 1994.- 304p Khác
17. Harvey D.R. Organising Knowledge in a global society: principles and practice in libraries and information centres.- NewSouth Wales: Charles Sturt Univ.,1999.- 375p Khác
18. Kochtanek T. Library Information Systems: From Library Automation to Distributed Information Access Solutions.- Westport: Libraries Unlimited, 2002.- 287p Khác
19. Kowalski G. Information Retrielval Systems: Theory and Implementation.- Boston: Kluwer Academic Publisher, 1997.- 280p Khác
20. Lancaster F.W. Information Retrieval Systems: characteristics, testing and evaluation.- 2nd ed.- NewYork: John Wiley, 1979 Khác
21. Libraries in the Age of Automation: A Reader for the Professional Librarian.- NewYork: Knowledge Industry Publications, Inc., 1986.- 159p Khác

HÌNH ẢNH LIÊN QUAN

Hỡnh  thức  thể  hiện  ủơn  giản  nhất  của  cỏc  khung  phõn  loại  phõn  cấp  là  cỏc  sơ ủồ  hỡnh cõy, bao gồm cỏc ủiểm (ủược gọi là ủỉnh) và cỏc ủoạn nối một số ủỉnh với nhau - Hệ thống tìm tin Ngô Thanh Thảo
nh thức thể hiện ủơn giản nhất của cỏc khung phõn loại phõn cấp là cỏc sơ ủồ hỡnh cõy, bao gồm cỏc ủiểm (ủược gọi là ủỉnh) và cỏc ủoạn nối một số ủỉnh với nhau (Trang 18)
Hình 2.2. Ví dụ TðTC trình bày theo vần chữ cái - Hệ thống tìm tin Ngô Thanh Thảo
Hình 2.2. Ví dụ TðTC trình bày theo vần chữ cái (Trang 27)
Bảng 2.1. Các yếu tố siêu dữ liệu Dublin Core - Hệ thống tìm tin Ngô Thanh Thảo
Bảng 2.1. Các yếu tố siêu dữ liệu Dublin Core (Trang 38)
Hình 3.1 Ma trận tư liệu - Hệ thống tìm tin Ngô Thanh Thảo
Hình 3.1 Ma trận tư liệu (Trang 41)
Hỡnh 3.2. thể hiện sơ ủồ tổ chức tuyến tớnh hay cũn gọi là sơ ủồ tổ chức thuận. ðõy - Hệ thống tìm tin Ngô Thanh Thảo
nh 3.2. thể hiện sơ ủồ tổ chức tuyến tớnh hay cũn gọi là sơ ủồ tổ chức thuận. ðõy (Trang 42)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w