1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu các phần tử siêu dữ liệu Dublin core như một phương thức xác định tài liệu điện tử trên World Wide Web

16 311 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 7,05 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xuất phát từ xu thế xây dựng thư viện điện tử và cho rằng sự hiểu biết về Dublin Core ở Việt Nam còn chưa nhiều chúng tôi mạnh dạn chọn đề tài “Từm hiểu các phần tử siêu dữ liệu Dublin C

Trang 1

TIM HIEU CAC PHAN TU SIEU DU LIEU

DUBLIN CORE NHU MOT PHUONG THUC

XAC DINH TAI LIEU DIEN TU TREN WORLD

WIDE WEB (WWW)

Tran Thi Hoang Hanh

K43 - B6 m6én Thong tin - Thu vién GVHD: ThS Cao Minh Kiém

I- PHAN MO DAU

1 Tính cấp thiết của đề tài

Cuộc cách mạng công nghệ thông tin trong vài

chục năm cuối thế kỷ XX đã tác động vô cùng mạnh mẽ

đến nhiều lĩnh vực đời sống xã hội, đồng thời tạo cơ sở

cho việc hình thành một số yếu tố của xã hội thông tin

và nền kinh tế tri thức Đặc biệt sự phát triển của

Internet, trong đó mạnh hơn cả là sự bùng nổ dịch vụ

WWVW trong thời gian gần đây đã tác động to lớn đến

hoạt động của các cơ quan thông tin - thư viện Nhiều cơ

quan thông tin - thư viện đã và đang từng bước xây

dựng và hoàn thiện thư viện hiện: đại, trong vốn tài liệu

không thể thiếu nguồn tài liệu điện tử đang ngày một

Trang 2

gia tăng và đóng vai trò quan trọng Tài liệu điện tử

ngày càng phổ biến và phát triển mạnh đã được người dùng tin hưởng ứng và đón nhận Tuy nhiên vấn đề đặt

ra là cần phải mô tả, biên mục để quản lý chúng như thế nào nhằm phát huy hết ưu điểm của chúng, đảm bảo việc truy cập tìm kiếm có hiệu quả, góp phần nâng

cao chất lượng phục vụ người dùng tin

Xuất phát từ xu thế xây dựng thư viện điện tử và cho rằng sự hiểu biết về Dublin Core ở Việt Nam còn chưa nhiều chúng tôi mạnh dạn chọn đề tài “Từm hiểu

các phần tử siêu dữ liệu Dublin Core như một phương

thức xác định tài liệu điện tử trên Worid Wide Web” làm báo cáo khoa học

2 Mục tiêu nghiên cứu

Khổ mẫu tiêu chuẩn siêu dữ liệu cho tài liệu điện

tử, trong đó có khổ mẫu Dublin Core được ra đời gần

đây, và vẫn là một vấn đề mới đối với Việt Nam Bản

báo cáo này nhằm tìm hiểu những vấn để cơ bản về

Dublin Core, và đề xuất suy nghĩ về ứng dụng Dublin

Core trong mô tả siêu dữ liệu

3 Đối tượng, phạm vi

Do phạm vi của đề tài báo cáo, nên tài liệu điện tử

trên WWW chỉ giới hạn ở dạng HTML, và chúng tôi chỉ xin tập trung tìm hiểu, giới thiệu những nét cơ bản của

Dublin Core như:

Trang 3

- Cấu trúc và thành phần của Dublin Core

- Đối tượng ứng dụng Dublin Core

- Vấn đề đặt ra với Việt Nam

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu chủ yếu được sử dụng

trong bản báo cáo là phương pháp phân tích và tổng hợp

tài liệu, kết hợp hỏi ý kiến chuyên gia

5 Kết cấu của báo cáo

Ngoài bảng giải thích từ viết tắt, mục lục, tài liệu tham khảo, phụ lục, báo cáo có 3 phần sau:

e Phần mở đều: nội dung chính của phần này được

trình bày ở trên

e Phần nội dung: phần này có 3 chương:

+ Chương 1: Nêu những đặc điểm của tài liệu điện tử, từ đó nảy sinh những uấn đề xử lý thông tin tài

liệu điện tử uò tạo siêu dữ liệu

+ Chương 2: Chương này có 3 mục lần lượt trình bày khói niệm, các đặc điểm, uà cấu trúc của Dublin Core

+ Chương 8: Nêu những đối tượng sử dụng Dublin

Core, uà cách thức ứng dụng DublÌin Core

e Phần kết luận: Đề xuất suy nghĩ của tác giả uề uiệc ứng dụng Dublin Core ở Việt Nam

II- PHẦN TÓM TẮT NỘI DUNG BÁO CÁO

Cùng với sự phát triển vô cùng mạnh mẽ của

WWVW, các nguồn tin điện tử trên Internet gia tăng một

Trang 4

cách nhanh chóng, và được người dùng tin hưởng ứng

bởi những ưu điểm như nhanh chóng, thuận tiện, vô

biên giới Tuy nhiên, khác với những tài liệu trên giấy được các nhà xuất bản phát hành, tài liệu điện tử có những đặc điểm khác biệt làm cho việc xử lý thông tin

về chúng gặp nhiều khó khăn Có thể nêu ra một số đặc điểm sau:

e Sự không tuân thủ những chuẩn mực xuất bản:

Tài liệu điện tử được nhiều người tham gia biên soạn và

tự phát hành trên WWW nên thường không tuân thủ những chuẩn mực xuất bản đã được xác lập cho các tài liệu trên giấy như khổ mẫu, cách thức trình bày,

e Chất lượng thông tin có thể không được đảm bảo:

Việc kiểm soát chất lượng nội dung tài liệu điện tử trên

WWW thường không được thực hiện, một phần là do các

cá nhân có thể tự mình xuất bản các tài liệu Web và

đưa chúng lên Internet, nên chất lượng thông tin có thể phải được đặt ra để xem xét

e Tính không ổn định: Tài liệu trên giấy một khi

đã được xử lý và nhập vào thư viện thì có thể tổn tại lâu

dài, trong khi tài liệu điện tử được tạo ra nhanh chóng,

dễ dàng bị sửa đổi và có thể biến mất bất cứ lúc nào

e Tính phân tán, khó xử lý bằng chuyên gia: Tài

liệu điện tử bị phân tán trên toàn mạng Internet, không

tập trung, khó có thể sử dụng chuyên gia để tìm kiếm

và xử lý thông tin đưa vào CSDL mà phải dùng các

chương trình tự động

Trang 5

+ Những đặc điểm trên cũng làm cho việc

quản lý thông tin về tài liệu điện tử trở nên khó

khăn và phải được quan tâm

Đối uới các tài liệu truyền thống như ấn phẩm,

băng đĩa, để xây dựng các hệ tuống thông tin về chúng

đòi hỏi phải có sự tham gia của các chuyên gia thông tin, xử lý tin qua các quá trình: biên mục mô tả, định từ

khoá, làm tóm tắt chú giải, lập phiếu thư mục, hoặc lập các biểu ghi CSDL thư mục Trong đó, quá trình biên

mục mô tả tài liệu truyền thống được tiến hành dựa

trên một số tiêu chuẩn phổ biến như: AACRI, AACR2,

ISBD, TCVN 4743-89, và gần đây là việc ứng dụng các

chuẩn MARC trong quá trình tin học hoá thư viện Tuy

các tiêu chuẩn này có đặc điểm khác nhau, song chúng

đều dựa trên các yếu tố thông thường của tài liệu

truyền thống, ví dụ như tiêu đề, tác giả, nhà xuất bản

Các thông tin mô tả này rất gần với khái niệm

"siêu dữ liệu" (metadata) và có thể coi đó là một dạng siêu dữ liệu ở nghĩa rộng Siêu dữ liệu (metadata), hiểu một cách đơn giản nhất, là "Dữ liệu có cấu trúc uê dữ liệu" Nó là dữ liệu mô tả nội dung và các đặc trưng của

tài liệu điện tử Vì vậy dữ liệu về tài liệu điện tử được

coi là siêu dữ liệu, hay dữ liệu về dữ liệu Ở một chừng

mực nào đó, có thể coi siêu dữ liệu của tài liệu điện tử

tương tự như biểu ghi thư mục mô tả thư mục cho tài

Trang 6

liệu thông thường Nó có ý nghĩa quan trọng trong việc định vị nguồn tài nguyên điện tử nhằm quản lý và khai

thác chúng dễ dàng hơn

Đối với các ấn phẩm, biểu ghi thư mục hoặc phiếu mục lục thư viện là tách hoàn toàn Phiếu mục lục thư

viện sẽ ở trên hộp phiếu mục lục, biểu ghi thư mục nằm trong cơ sở dữ liệu, còn tài liệu ở trong kho Với tài liệu điện tử, siêu dữ liệu và tài nguyên được nó mô tả có một

trong hai dạng liên hệ:

e Các phần tử này được thể hiện trong các biểu ghi riêng biệt hẳn với tài liệu, chẳng hạn trong trường hợp

này là các biểu ghi thư mục

e Siêu dữ liệu được nhúng trực tiếp ngay trong bản thân tài nguyên

Việc tra cứu thông tin trên WWW không đơn giản

như tra cứu thông tin trong một thư viện/ kho tư liệu truyền thống, bởi vì hiện nay hầu hết các tài liệu trực

tuyến không có siêu dữ liệu mô tả (metadata) một cách

đây đủ và chuẩn Các tài liệu trực tuyến trên WWW tồn

tại phổ biến dưới dạng thức HTML (kể cả các cơ sở dữ

liệu hoặc các website tương tác cũng có hình thức thể hiện là các trang HTML)

Một trang tài liệu HTML điển hình bao gồm một

tập những thẻ (tag) nhằm hỗ trợ trình duyệt trên máy

client hiển thị đầy đủ nội dung của nó Có nhiều loại thẻ

Trang 7

khác nhau phục vụ các mục đích khác nhau, song mọi

tài liệu HTML thường bắt đầu bang mét thé mo <html>

và kết thúc bởi một thẻ đóng </htm> Bên trong cặp thẻ

<htm]> </htmÌl>, tài liệu HTML được chia thành hai

đoạn, đoạn đầu dược bao trong cặp thẻ

<head> </head> và đoạn thân tài liệu trong cặp thẻ

<body> </body> Đoạn đầu gồm những thẻ phản ánh

thông tin cơ bản như tiêu đề tài liệu (title), phiên bản ngôn ngữ HTML sử dụng, công cụ xuất bản tài liệu Trong đó, các thẻ <meta>, một loại thẻ không có thẻ đóng, thường được dùng để phản ánh các thuộc tính của tài liệu Đây chính là siêu dữ liệu cho tài liệu điện tử

Tuy nhiên, không phải tất cả những người tạo ra nguồn

tin điện tử trên Internet đều thiết kế loại thẻ này, mặt khác nếu loại thẻ này được sinh ra cũng không đầy đủ, hoặc tuân theo một chuẩn nhất định Điều này càng gây

ra những khó khăn trong việc thu thập, quản lý, và

khai thác nguồn tài liệu điện tử phong phú trên [nternet

Hiện nay, để tra cứu thông tin trên Internet chúng

ta vẫn thường dùng các máy tìm kiếm (hay còn gọi là Search Engine) như: Google, Altavista, Yahoo và máy

tìm kiếm Việt Nam như Vinaseek, PanVietnam Việc thực hiện tìm kiếm thông tin trên Internet của các công

cụ này hoàn toàn dựa trên các cơ sở dữ liệu về trang

Trang 8

Web được các chương trình đặc biệt của các máy tìm tin này tạo ra các siêu dữ liệu của tài liệu điện tử (trang Web) và văn bản trong trang Web Công việc này được thực hiện hoàn toàn tự động nhờ các phần mềm dùng để

đánh chỉ mục các tài liệu bằng các kỹ thuật thường được

gọi là spider hoặc các robo¿s Nếu không có các quy định thống nhất cho các khổ mẫu siêu dữ liệu thì việc tạo ra các thông tin chính xác để đưa vào CSDL máy tìm tin sẽ không đảm bảo chất lượng, ảnh hưởng đến chất lượng tìm tin

Chính vì lý do này, với mong muốn các tài liệu

xuất bản trên WWW có thể được biên mục tự động một cách nhanh chóng thuận tiện người ta đã kiến nghị đưa ra các chuẩn khổ mẫu về siêu dữ liệu Tháng

3/1995 tại thành phố Dublin, bang Ohio của Mỹ, một

cuộc hội thảo nhằm thiết lập được một bộ khung cốt lõi

ngữ nghĩa, giúp ích cho việc biên mục các nguồn tài

nguyên trên WWW Đó chính là các yếu tố siêu dữ liệu

Dublin Core Khổ mẫu tiêu chuẩn Dublin Core là một

tập hợp các phần tử siêu dữ liệu uới mục đích mô tả nội

dung các nguồn tài nguyên điện tử (trên mạng) Những

sáng kiến ban đầu về mô tả tài nguyên điện tử thu hút

sự quan tâm của nhiều nhóm chuyên gia mô tả tài

nguyên của các lĩnh vực khác nhau như bảo tàng, thư viện, cơ quan chính phủ và tổ chức thương mại

Trang 9

Các đặc điểm của Dublin Core

+ Tạo lập và duy trì dế dàng

Tập hợp các yếu tố Dublin Core chỉ giữ lại những

gì ahỏ nhất và đơn giản nhất có thể được, cho phép

những người không có chuyên môn cũng dễ dàng tạo lập các bản ghi mô tả nguồn tài nguyên thông tin, khi được curg cấp đầy đủ thông tin thu thập từ những nguồn tài

nguyên này trên môi trường mạng Dublin Core chỉ có

15 yếu tố Ứng dụng chuẩn mô tả siêu dữ liệu Dublin

Co*e cho phép tiết kiệm những khoảng thời gian cần có

kh sử dụng kỹ thuật mô td thư mục truyền thống như

đọc, nghe hay xem toàn bộ tài hiệu

+ Ngữ nghĩa dễ hiểu

Việc khai thác thông tin trong tài nguyên điện tử

gặ› nhiều khó khăn bởi sự khác biệt về thuật ngữ và kỹ năag mô tả từng lĩnh vực tri thức cụ thể Dublin Core có

th hỗ trợ một "người du lịch số " ('digital tourist') - một

ngiời tìm kiếm không có chuyên môn, tìm được "đường" bằ›g cách cung cấp một tập hợp các yếu tố phổ biến ma ngi nghĩa của chúng rất dễ hiểu và được hỗ trợ ở mọi

nơ Ví dụ, các nhà khoa học quan tâm đến lĩnh vực của

họ theo từng tác giả cụ thể, còn các nhà nghiên cứu ngié thuật lại quan tâm đến công việc của mình theo mét nghệ sĩ cụ thể, họ có thể cùng đồng thuận với nhau

ý rghĩa quan trọng của yếu tố "creator"

Trang 10

+ Phạm vi sử dụng quốc tế rộng lớn

Tập hợp yếu tố Dublin Core khởi đầu được phát triển trên tiếng Anh, nhưng các phiên bản được tạo lập

trên nhiều ngôn ngữ: Phần Lan, Na Uy, Thái, Nhật

Bản, Pháp, Bồ Đào Nha, Đức, Huy Lạp, Indonesia, Tây

Ban Nha Mặc dù những thách thức về mặt kỹ thuật của việc quốc tế hoá trên World Wide Web không trực tiếp liên quan đến sự phát triển của Dublin Core, song

sự phát triển và áp dụng tiêu chuẩn này có ý nghĩa đến

bản chất đa dạng ngôn ngữ và đa dạng văn hoá của thông tin điện tử toàn nhân loại

+ Khả năng mở rộng thuận lợi

Khi cân bằng giữa nhu cầu đơn giản hoá việc mô tả

tài nguyên điện tử với nhu cầu thu thập chính xác

thông tin, những người phát triển Dublin Core đã ghi

nhận tầm quan trọng của việc cung cấp một cơ chế mở

rộng tập hợp các yếu tố Dublin Core đế bổ sung thêm

những yêu cầu khai phá dữ liệu Điều này được trông đợi vào việc một nhóm chuyên gia siêu dữ liệu sẽ tạo lập

và quản lý các tập siêu dữ liệu bổ sung Các yếu tố siêu

dữ liệu từ những tập này sẽ được liên kết với siêu dữ

liệu Dublin Core, để thoả mãn khả năng mở rộng

III- CẤU TRÚC VÀ CÁC YẾU TỐ

CỦA DUBLIN CORE

Dublin Core bao gồm 15 yếu tố (được liệt kê trong

Trang 11

bang 1), trong từng trường hợp cụ thể, các yếu này không nhất thiết bắt buộc phải có đầy đủ và có thể lặp

Bảng 1 So sánh sự tương ứng các yếu tố thư mục giữa Dublin Core và một số trường của MARC 21

Chu dé 600, 610, 650, 651, 653 | Subject

Thời gian xuất bản | 260 Date

Định danh 024 Identifier

Ngôn ngữ 546

| Liên quan 787 Relation

* DUBLIN CORE VÀ MARC 21

Khổ mẫu MARC 21 - khổ mẫu thư mục của thế

kỷ XXI có nhiều ưu điểm và được dùng phổ biến (tại Hội

255

Ngày đăng: 17/03/2015, 09:39

HÌNH ẢNH LIÊN QUAN

Bảng  1.  So  sánh  sự  tương  ứng  các  yếu  tố  thư  mục  giữa  Dublin  Core  và  một  số  trường  của  MARC  21 - Tìm hiểu các phần tử siêu dữ liệu Dublin core như một phương thức xác định tài liệu điện tử trên World Wide Web
ng 1. So sánh sự tương ứng các yếu tố thư mục giữa Dublin Core và một số trường của MARC 21 (Trang 11)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w