Nguồn tài liệu số hiện đang đóng một vai trò quan trọng trong hoạt động thông tin – thư viện nhờ có nhiều ưu điểm nổi trội như mật độ thông tin cao; thông tin được lưu giữ dưới nhiều dạn
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ VĂN HOÁ THỂ THAO VÀ DU LỊCH
TRƯỜNG ĐẠI HỌC VĂN HOÁ HÀ NỘI
LÊ THỊ QUYÊN
THỰC TRẠNG ÁP DỤNG CHUẨN DUBLIN CORE TRONG BIÊN MỤC TÀI LIỆU SỐ TẠI THƯ VIỆN TẠ QUANG BỬU,
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Chuyên ngành: Khoa học Thông tin - Thư viện
Mã số: 60320203
LUẬN VĂN THẠC SĨ KHOA HỌC THÔNG TIN - THƯ VIỆN
Người hướng dẫn khoa học: TS NGUYỄN VIẾT NGHĨA
Hà Nội - 2013
Trang 2trường Đại học Bách Khoa Hà Nội
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc nhất đối với Tiến sỹ Nguyễn Viết Nghĩa, người đã định hướng nghiên cứu và trực tiếp hướng dẫn tôi hoàn thành luận văn này
Tôi xin trân trọng cảm ơn khoa Sau đại học, Trường Đại học Văn hóa hà Nội, Ban giám đốc Thư viện Tạ Quang Bửu đã tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập, nghiên cứu và hoàn thành luận văn
Tôi cũng xin cảm ơn các bạn đồng nghiệp tại Thư viện Tạ Quang Bửu đã cung cấp số liệu và nhiệt tình giúp đỡ tôi trong quá trình thực hiện luận văn
Cuối cùng, cho phép tôi được cảm ơn những người thân, bạn bè, đồng nghiệp
- những người đã khuyến khích và là nguồn động viên rất lớn đối với tôi trong suốt quá trình học tập và nghiên cứu
Hà Nội, ngày 20 tháng 6 năm 2013
Lê Thị Quyên
Trang 3MỤC LỤC
MỞ ĐẦU 6
CHƯƠNG 1 TỔNG QUAN VỀ TÀI LIỆU SỐ, SIÊU DỮ LIỆU VÀ MỘT SỐ CHUẨN SIÊU DỮ LIỆU 11
1.1 Tài liệu số 11
1.1.1 Khái niệm tài liệu số 11
1.1.2 Đặc trưng tài liệu số 13
1.1.3 Vai trò của tài liệu số trong hoạt động của các thư viện 13
1.2 Dữ liệu và siêu dữ liệu 14
1.2.1 Dữ liệu 14
1.2.2 Siêu dữ liệu (metadata) 15
1.3 Dublin Core và một số chuẩn siêu dữ liệu khác 19
1.3.1 Dublin Core 19
1.3.2 Một số chuẩn siêu dữ liệu khác dành cho biên mục tài liệu 40
CHƯƠNG 2 THỰC TRẠNG BIÊN MỤC TÀI LIỆU SỐ THEO DUBLIN CORE TẠI THƯ VIỆN TẠ QUANG BỬU, TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI 57
2.1 Giới thiệu khái quát về Thư viện Tạ Quang Bửu 57
2.1.1 Quá trình hình thành và phát triển 57
2.1.2 Chức năng, nhiệm vụ và cơ cấu tổ chức 58
2.1.3 Cơ sở vật chất và hạ tầng công nghệ 62
2.1.4 Nguồn lực thông tin 64
2.2 Đặc điểm nhu cầu tin và người dùng tin tại Thư viện Tạ Quang Bửu 67
2.2.1 Đặc điểm người dùng tin 67
2.2.2 Đặc điểm nhu cầu tin 69
2.3.Hoạt động biên mục tài liệu số khi triển khai áp dụng chuẩn Dublin Core71 2.3.1 Giai đoạn chuẩn bị 71
2.3.2 Xây dựng biểu mẫu 75
2.3.3 Quy trình biên mục 81
Trang 42.3.4 Đánh giá chất lượng ứng dụng Dublin Core trong biên mục tài liệu số tại
Thư viện Tạ Quang Bửu 89
CHƯƠNG 3 GIẢI PHÁP PHÁT TRIỂN ỨNG DỤNG DUBLIN CORE TRONG BIÊN MỤC TÀI LIỆU SỐ TẠI THƯ VIỆN TẠ QUANG BỬU 96
3.1 Nâng cao chất lượng đội ngũ cán bộ 96
3.1.1 Đào tạo kỹ năng áp dụng chuẩn Dublin Core 97
3.1.2 Đào tạo các kỹ năng khác 97
3.2 Nghiên cứu phát triển công cụ chuyển đổi dữ liệu từ MARC 21 sang Dublin Core 98
3.2.1 Chuyển đổi dữ liệu từ phần mềm VTLS sang Dspace 98
3.2.2 Nghiên cứu sử dụng phần mềm tự do MacrEdit 99
3.3 Tăng cường đầu tư trang thiết bị, công cụ làm việc 100
3.4 Đầu tư kinh phí xây dựng, phát triển nguồn tài liệu số 104
KẾT LUẬN 107
TÀI LIỆU THAM KHẢO 109 PHỤ LỤC
Trang 5DANH MỤC CHỮ VIẾT TẮT Các từ viết tắt tiếng Việt
Thông tin – thư viện
Sở hữu trí tuệ Sưu tập số Các từ viết tắt tiếng Anh
Unified MAchine Readable Catalog eXtensible Markup Language HyperText Markup Language American National Standards Institute /National Information Standards Organization
Compact Disc Read Only Memory Compact Disc ReWriteable
Digital Video Disc Visionary Technology in Library Solutions Data Type Definition
Resource Description Framework
Trang 6DANH MỤC BẢNG BIỂU
Bảng 1 Các yếu tố cơ bản của DUBLIN CORE 30
Bảng 2 Các thành phần chính của METS 44
Bảng 3 So sánh DUBLIN CORE, METS và MODS……… 53
Bảng 4 Bảng tham chiếu Dublin Core và Marc 21 54
Bảng 5: Thống kê tài liệu truyền thống theo năm xuất bản 65
Bảng 6: Thống kê nguồn tài liệu điện tử tính đến năm 2012 66
Bảng 7 Đánh giá của người dùng về mức độ thuận lợi trong việc tìm kiếm tài liệu 94
Trang 7DANH MỤC HÌNH VẼ
Hình 1: Sơ đồ cơ cấu tổ chức của TV Tạ Quang Bửu 61
Hình 2: Biểu đồ nguồn nhân lực của TV Tạ Quang Bửu 62
Hình 3: Thống kê tài liệu truyền thống theo chuyên ngành 65
Hình 4: Biểu đồ thành phần các đối tượng người dùng tin tại TV Tạ Quang Bửu 67
Hình 5: Cửa sổ đăng nhập Dspace 83
Hình 6: Lựa chọn bộ sưu tập cần biên mục 83
Hình 7: Giao diện lựa chọn mục mô tả (Describe this Item) 84
Hình 8: Giao diện Mô tả tài liệu 84
Hình 9 Giao diện tải tệp 85
Hình 10 Tải tệp thành công (Upload Successfully) 86
Hình 11 Kiểm tra lại dữ liệu tải lên (Verify Submission) 86
Hình 12 Kiểm tra quyền xuất bản tài liệu (Licence) 87
Hình 13 Chỉnh sửa dữ liệu (Edit Item) 88
Hình 14.Thêm hoặc bớt tệp (Bitstreams) 88
Hình 15 Xoá biểu ghi với Delete Expunge hoặc Withdraw 89
Hình 16 Danh sách các bộ sưu tập số 90
Hình 17 Giao diện tìm kiếm theo Bộ sưu tập 90
Hình 18 Kết quả tìm lướt theo Tiêu đề 91
Hình 19 Hiển thị bản ghi đầu mục ngắn gọn 92
Hình 20 Hiển thị bản ghi đầu mục đầy đủ 93
Hình 21 Hệ thống Import/Export cho Dspace 98
Hình 22 Giao diện chính của phần mềm MarcEdit 99
Trang 8MỞ ĐẦU
1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Từ nửa sau thế kỷ XX, cùng với sự đột phá vượt bậc của khoa học - công nghệ, các nước trên thế giới đã dần chuyển mình từ “xã hội công nghiệp” sang “xã hội hậu công nghiệp” hay còn gọi là “xã hội thông tin” Sự phát triển mạnh mẽ của khoa học công nghệ, sự ra đời của nhiều môn loại khoa học mới,… đã làm cho khối lượng thông tin, tài liệu gia tăng nhanh chóng dẫn tới hiện tượng “bùng nổ thông tin” Một trong những hệ quả không mong đợi của sự bùng nổ thông tin chính là sự
“nhiễu tin” trong tra cứu và tìm kiếm thông tin
Trong khi đó, sự xuất hiện của máy tính điện tử với dung lượng bộ nhớ tưởng chừng như không có giới hạn, khả năng tính toán cực nhanh và hầu như không bao giờ nhầm lẫn đã mở ra hướng đi mới, đầy triển vọng cho việc lưu trữ, xử lý thông tin Việc sử dụng kỹ thuật số để biểu diễn thông tin đã dẫn đến sự xuất hiện của một loại hình tài liệu mới, đó là tài liệu số Tài liệu số được hiểu là tất cả những thông tin được lưu trữ dưới dạng số, được xử lý, lưu trữ và truy cập trên máy tính, hay trên mạng máy tính Nguồn tài liệu số hiện đang đóng một vai trò quan trọng trong hoạt động thông tin – thư viện nhờ có nhiều ưu điểm nổi trội như mật độ thông tin cao; thông tin được lưu giữ dưới nhiều dạng khác nhau (âm thanh, hình ảnh…); thông tin có thể được truy cập từ xa, theo nhiều dấu hiệu khác nhau và được nhiều người truy cập cùng một thời điểm…Có thể nói, nguồn tài liệu số đang góp phần làm thay đổi về chất của hoạt động giao lưu thông tin, trong đó có hoạt động thông tin - thư viện trên toàn thế giới
Tuy nhiên, để xây dựng một bộ sưu tập số hay xa hơn là thư viện số là công việc không hề đơn giản Để làm được điều đó cần có cơ sở vật chất hoàn chỉnh, trong đó có hệ thống mạng máy tính đủ mạnh, đội ngũ vận hành thư viện số có tri thức, có khả năng xây dựng, duy trì, bổ sung các bộ sưu tập số; sử dụng vận hành sáng tạo trên các công nghệ tiên tiến Và đặc biệt, trong bối cảnh hội nhập quốc tế đang diễn ra sôi động như hiện nay, việc nghiên cứu, áp dụng các chuẩn nghiệp vụ
Trang 9tiên tiến phù hợp với điều kiện thực tế của thư viện nhằm nâng cao khả năng chia
sẻ, khai thác thông tin giữa các thư viện trong nước cũng như trên thế giới là việc làm rất cần thiết và cần được quan tâm thích đáng
Thư viện Tạ Quang Bửu, trường Đại học Bách khoa Hà Nội, là một trong những thư viện lớn và hiện đại ở nước ta hiện nay Thư viện đang hướng tới xây dựng mô hình thư viện số để đáp ứng nhu cầu thông tin ngày càng cao của cán bộ, sinh viên trong trường Trong quá trình xây dựng thư viện số, rất nhiều vấn đề được đặt ra cần phải giải quyết, trong đó có vấn đề áp dụng các chuẩn liên kết cho tài liệu
số Giải quyết được vấn đề chuẩn hóa dữ liệu, chuẩn hóa việc mô tả dữ liệu hay nói khác đi là việc lựa chọn đúng phương tiện miêu tả siêu dữ liệu sẽ góp phần nâng cao chất lượng phục vụ của Thư viện Từ những lý do trên, tôi đã chọn vấn đề
“Thực trạng áp dụng chuẩn Dublin Core trong biên mục tài liệu số tại Thư viện
Tạ Quang Bửu, Trường Đại học Bách khoa Hà Nội” làm đề tài luận văn của mình
với mong muốn góp phần làm sáng tỏ một số vấn đề lý luận và thực tiễn khi xây dựng thư viện số
2 TÌNH HÌNH NGHIÊN CỨU THEO HƯỚNG ĐỀ TÀI
Trước hết, phải khẳng định rằng đề tài “Thực trạng áp dụng chuẩn Dublin Core trong biên mục tài liệu số tại Thư viện Tạ Quang Bửu, Trường Đại học Bách khoa Hà Nội” là đề tài hoàn toàn mới, không trùng lặp với đề tài nghiên cứu
nào ở cả trong nước và nước ngoài
Tuy nhiên, liên quan tới hướng nghiên cứu của đề tài ở trong và ngoài nước đã
có một số công trình nghiên cứu, cụ thể như sau:
Liên quan tới chuẩn Dublin Core đã có các bài viết sau đây trên các trang web
và trên các tạp chí trong và ngoài nước:
− Anne J Gilliland, Yashmin B Kaifai, William E Landis (2000), Application
of Dublin Core metadata in the Description of Digital primary sources in Elementary school classrooms, Journal of the American society for Information
Science – January 15, 2000, page 193-201, bài này đề cập đến việc ứng dụng siêu
dữ liệu Dublin Core trong việc mô tả các nguồn kỹ thuật số
Trang 10− Dublin Core Metadata Guide, Indiana Memory Project, February 8, 2007
Trong bài này, tác giả cung cấp những thông tin về việc ứng dụng các tiêu chuẩn
đã được công bố và công tác mô tả siêu dữ liệu bằng Dublin Core
− Tác giả Biswanath Dutta, (2003) trong công trình Cataloguing Web Ducuments using Dublin Core, Marc 21, Documentary Research and Training
Centre Indian Statistical Istitute, Bangalore-59 đã nghiên cứu biên mục dữ liệu web bằng việc sử dụng Dublin core và Marc 21
− K S Chudamani, H C Nagarathna, Introperability between Dublin Core, UNIMarc, Marc21, with AACR2 2R as the standard framewords for cataloguing in digital environment 4th Convention PLANNER-2006,
Mizoram Univ., Aizawl, 09-10 November, 2006, page 185-195
Ở trong nước cũng có một số công trình viết về Dublin Core của các tác giả:
− Phạm Minh Quân, (2003), Hiểu và sử dụng Dublin Core, Bản tin liên hiệp thư
viên, tháng 3/2003, trang 28-36
− Nguyễn Minh Hiệp, Marc hay Dublin Core?: Việc chuyển đổi Marc-Dublin Core và Dublin Core-Marc Bản tin thư viện – công nghệ thông tin, tháng
3/2005, trang 2-7
− Karen Coyle, Hiểu siêu dữ liệu và mục đích sử dụng của nó, Bản tin thư viện
– công nghệ thông tin, tháng 10/2007, trang 29-28
Về các khía cạnh tiếp cận nghiên cứu liên quan đến Thư viện Tạ Quang Bửu Trường ĐHBKHN, thì ngoài các đề tài nghiên cứu đề cập đến các khía cạnh như tổ chức và quản lý, bộ máy tra cứu, công tác phục vụ, nguồn lực thông tin, sản phẩm
và dịch vụ thông tin của Thư viện, còn có một số công trình nghiên cứu khoa học về các chuẩn nghiệp vụ mới: AACR2, MARC21, khung phân loại LC Tuy nhiên, cho đến nay, vẫn chưa có một đề tài nào nghiên cứu ứng dụng chuẩn Dublin Core tại
TV Tạ Quang Bửu, Trường ĐHBKHN
3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
3.1 Đối tượng nghiên cứu:
Trang 11công tác xử lý tài liệu số tại TV Tạ Quang Bửu
3.2 Phạm vi nghiên cứu:
- Phạm vi nghiên cứu: đề tài giới hạn nghiên cứu tại TV Tạ Quang Bửu, Đại
học Bách khoa Hà Nội từ năm 2009 đến nay, tức là từ khi Thư viện bắt đầu thu thập
4.2 Nhiệm vụ nghiên cứu:
− Tìm hiểu và giới thiệu về chuẩn Dublin Core
− Khảo sát thực trạng biên mục tài liệu số tại Thư viện Tạ Quang Bửu
− So sánh, đánh giá vai trò cùa chuẩn Dublin Core trong biên mục tài liệu số
− Đề xuất những giải pháp nhằm áp dụng hiệu quả chuẩn Dublin Core vào Thư viện
5 PHƯƠNG PHÁP NGHIÊN CỨU
5.1 Phương pháp luận:
Luận văn dựa trên cơ sở các quan điểm, đường lối của Đảng, chính sách của Nhà nước về phát triển khoa học công nghệ, giáo dục và đào tạo và xu hướng chung của Thế giới về xây dựng thư viện điện tử để lý giải tầm quan trọng của tài liệu số trong hoạt động TT-TV nói chung và việc sử dụng các chuẩn nhằm biên mục, tổ chức, chia sẻ các tài nguyên số nói riêng
5.2 Phương pháp nghiên cứu cụ thể:
Trong quá trình nghiên cứu và giải quyết các vấn đề của luận văn, tác giả đã
sử dụng các phương pháp nghiên cứu sau:
- Phương pháp thu thập, tổng hợp, phân tích tài liệu
- Phương pháp thông kê - so sánh
- Phương pháp quan sát - thực nghiệm
Trang 12- Phương pháp điều tra xã hội học
6 NHỮNG ĐÓNG GÓP CỦA LUẬN VĂN
− Luận văn góp phần làm sáng tỏ những nét cơ bản về chuẩn Dublin Core
− Làm rõ vai trò của chuẩn Dublin Core đối với công tác biên mục tài liệu
số tại Thư viện Tạ Quang Bửu
− Phân tích thực trạng biên mục tài liệu số, so sánh các chuẩn biên mục nhằm lựa chọn một chuẩn tối ưu cho việc tổ chức các bộ sưu tập số tại Thư viện Tạ Quang Bửu đó là Dublin Core Từ đó xây dựng biểu mẫu và quy trình biên mục tài liệu số tại Thư viện Tạ Quang Bửu, Đại học Bách khoa Hà Nội
− Đóng góp kinh nghiệm giúp các thư viện trường đại học khác trong việc ứng dụng Dublin Core trong công tác biên mục tài liệu số
7 BỐ CỤC CỦA LUẬN VĂN
Ngoài phần mở đầu và kết luận, mục lục, danh mục các tài liệu tham khảo, phụ lục, Luận văn gồm 3 chương:
CHƯƠNG 1 TỔNG QUAN VỀ TÀI LIỆU SỐ, SIÊU DỮ LIỆU VÀ MỘT
SỐ CHUẨN SIÊU DỮ LIỆU
CHƯƠNG 2 THỰC TRẠNG BIÊN MỤC TÀI LIỆU SỐ THEO DUBLIN CORE TẠI THƯ VIỆN TẠ QUANG BỬU, ĐẠI HỌC BÁCH KHOA HÀ NỘI CHƯƠNG 3 GIẢI PHÁP PHÁT TRIỂN ỨNG DỤNG DUBLIN CORE TRONG BIÊN MỤC TÀI LIỆU SỐ TẠI THƯ VIỆN TẠ QUANG BỬU, ĐẠI HỌC BÁCH KHOA HÀ NỘI
Trang 13CHƯƠNG 1 TỔNG QUAN VỀ TÀI LIỆU SỐ, SIÊU DỮ LIỆU VÀ
MỘT SỐ CHUẨN SIÊU DỮ LIỆU 1.1 Tài liệu số
1.1.1 Khái niệm tài liệu số
a/ Định nghĩa tài liệu số
Tài liệu số (TLS) được hiểu là tất cả các tài liệu được mã hoá dưới dạng tín hiệu số hay còn gọi là tín hiệu rời rạc dưới dạng mã nhị phân 0,1 và có thể được lưu trữ, truy cập qua máy tính, mạng máy tính
b/ Phân loại tài liệu số
Về mặt nguồn gốc, TLS có thể được chia thành 2 loại:
- Tài liệu mang đặc trưng số ngay từ khi được tạo ra qua các phương tiện tạo tài liệu số như đánh máy trên máy tính điện tử, chụp ảnh, quay phim từ máy ảnh số, máy quay video số,…
- Tài liệu số được số hóa từ tài liệu in trên giấy thông qua các phương tiện số hóa hay chuyển đổi dữ liệu như máy quét (scanner), chuyển đổi tài liệu từ dạng tương tự sang dạng số
Về mặt lưu trữ có thể chia tài liệu số thành hai dạng chính:
1/ TLS được lưu trên CD-ROM, DVD và
2/ TLS tài số truy cập trực tuyến trên mạng internet hay intranet như các cơ
sở dữ liệu (CSDL) trực tuyến
1.1.2 Đặc trưng tài liệu số
Tài liệu số là một loại hình tài liệu đặc biệt, chúng có một số đặc trưng cơ bản sau đây:
- Mật độ thông tin rất cao
TLS được lưu trữ dưới nhiều vật mang tin khác nhau, có dung lượng lưu trữ thông tin rất lớn Một số thiết bị lưu trữ thông tin dưới dạng số phổ biến hiện nay như: ổ đĩa cứng, đĩa DVD, CD-ROM, đĩa CD-RW
- Tính đa truy cập
Trang 14TLS tạo khả năng truy cập theo nhiều dấu hiệu khác nhau, cho phép nhiều người dùng truy cập tại cùng một thời điểm mà không bị giới hạn bởi không gian, thời gian, vị trí địa lý Người dùng tin có thể tra cứu tài liệu từ xa, ở bất cứ đâu chỉ cần máy tính hoặc điện thoại di động có nối mạng internet
- Tra cứu nhanh chóng, thuận tiện và chính xác
Người dùng tin có thể tra tìm tài liệu theo nhiều dấu hiệu khác nhau khi truy cập mạng để tìm kiếm tài liệu Một số yếu tố cơ bản giúp người dùng tin tìm kiếm tài liệu dễ dàng như: tên tài liệu, tên tác giả, từ khoá, năm xuất bản, Với các quy tắc biên mục tài liệu được sử dụng trong nhiều thư viện hiện nay như: AACR2, ISBD, cùng với các trường của MARC21 đã giúp cho người dùng tin có thể tìm kiếm tài liệu theo một hoặc nhiều dấu hiệu liên quan tới tài liệu Ngoài ra, để biên mục tài liệu điện tử cũng như tạo mọi điều kiện thuận lợi cho người dùng tin có thể tra cứu tài liệu nhanh chóng và chính xác 15 yếu tố của Dublin Core được sử dụng trong mô tả tài nguyên điện tử
- Tính cập nhật
Thông tin chứa trong TLS luôn mới vì chúng có thể được cập nhật nhanh chóng, kịp thời chỉ bằng vài thao tác, không mất nhiều thời gian, công sức Ngày nay, thông tin luôn luôn biến đổi không ngừng do đó việc cập nhật, đổi mới nội dung thông tin hàng ngày, hàng giờ, thậm chí là từng phút, từng giây là hết sức quan trọng Các CSDL online hiện nay cũng không ngừng cập nhật các bài viết, các tài liệu mới về các ngành khoa học đang phát triển mạnh
- Tính sinh động, hấp dẫn của thông tin
TLS có thể lưu trữ thông tin theo nhiều định dạng khác nhau như: dạng văn bản, hình ảnh, âm thanh, video, Do đó thông tin trở nên hấp dẫn, sinh động, lôi cuốn người sử dụng hơn Nó giúp cho người dùng tin yêu thích sử dụng loại hình tài liệu này, dễ tiếp thu nội dung thông tin chứa đựng trong tài liệu đó hơn
- Thông tin phản hồi đa chiều
TLS tạo kênh thông tin phản hồi đa chiều có nghĩa là người dùng tin có thể liên hệ trực tiếp, nhanh chóng với tác giả hay người tạo lập, quản lý nguồn tin (quản
Trang 15trị viên hay Admin) Điều này đối với tài liệu truyền thống khó có thể thực hiện được
a/ Các ưu điểm của tài liệu số
- Khả năng kiểm soát tài nguyên thông tin ở TLS là rất mạnh, thông tin được kiểm soát ở nhiều cấp độ khác nhau trong hệ thống thông tin
- Tiết kiệm diện tích không gian kho lưu trữ
- TLS giúp bảo vệ an toàn và kéo dài tuổi thọ của tài liệu gốc, đặc biệt là các tài liệu quý hiếm, đơn bản, tài liệu in ấn có giá trị, giá thành cao Khi được số hoá thành TLS các tài liệu này được bảo quản cẩn thận, có thể chỉ đưa ra phục vụ cho những đối tượng người dùng tin cụ thể Nếu không tiến hành số hoá các tài liệu có giá trị, quý hiếm sẽ bị hạn chế đối tượng người sử dụng hoặc không được đưa ra sử dụng do lo sợ nguy cơ bị cắt xén, huỷ hoại, mất mát
b/ Các hạn chế của tài liệu số
- Tính ổn định không cao TLS trên các vật mang tin như CD-ROM được bảo quản cẩn thận có tính ổn định, tồn tại lâu dài Tuy nhiên, các TLS trên mạng, duy trì CSDL online phụ thuộc vào rất nhiều yếu tố do đó cho tới hiện nay nhiều chuyên gia TT-TV cũng chưa dám khẳng định về tuổi thọ TLS cũng như phương thức số hoá có là giải pháp quản trị thông tin tốt nhất không
- Tính an toàn thông tin của TLS rất kém do việc sao chép thông tin rất dễ dàng, nhanh chóng Đặc biệt là các thông tin trên mạng Internet dễ bị vi phạm bản quyền, thậm chí còn bị làm sai lệch nội dung thông tin, tung tin xấu gây nên nhiễu tin, tạp tin Trong quá trình sử dụng người dùng tin có thể vô tình hoặc cố ý nhưng
đã gây nên hiện tượng mất tin, huỷ hoại hoàn toàn thông tin như thông tin do hacker phá hoại bằng đột nhập, xoá bỏ, huỷ hoại thông tin, phán tán thông tin sai lệch, virut, Hiện nay chưa có biện pháp nào để ngăn chặn hiệu quả việc xâm nhập, vi phạm thông tin trên
1.1.3 Vai trò của tài liệu số trong hoạt động của các thư viện
Ngày nay, nguồn tài liệu số đang giữ vai trò quan trọng, làm thay đổi về chất hoạt động giao lưu thông tin nói chung và hoạt động TT-TV nói riêng
Trang 16- Tài liệu số là “hạt nhân” của thư viện số
Thư viện số là một kho thông tin số hoá, được cấu trúc để dễ dàng truy cập thông qua các mạng máy tính hay các mạng viễn thông
Số hoá toàn văn tài liệu và xây dựng bộ sưu tập số là lựa chọn tối ưu để bảo tồn lâu dài các tài liệu gốc quý hiếm, ngăn chặn những rủi ro, huỷ hoại do thời gian, thiên tai… Đối với hoạt động đào tạo và học tập trong trường đại học, bộ sưu tập số cũng góp phần phục vụ hiệu quả cho công cuộc đổi mới và nâng cao chất lượng đào tạo, đặc biệt là đào tạo theo tín chỉ, đào tạo trực tuyến… Ngoài ra, nhờ đó, việc “học tập suốt đời” được khuyến khích vì người học có thể tham khảo tài liệu ở bất kỳ đâu, bất kỳ thời gian nào thuận tiện với họ
Phần cốt lõi của thư viện số là kho tài liệu số hay tập hợp của các bộ sưu tập
số Vì vậy, việc phát triển kho tài liệu số là công việc quan trọng hàng đầu trong xây dựng Thư viện số
- Tài liệu số là tiền đề hình thành và phát triển ngành xuất bản điện tử
Tài liệu số ra đời đã góp phần làm thay đổi diện mạo ngành xuất bản với hàng loạt sản phẩm mới được tung ra thị trường với tên gọi loại hình là” ấn phẩm điện tử” hay “xuất bản phẩm điện tử” Các loại hình xuất bản phẩm điện tử có trên thị trường hiện nay là sách điện tử (E-Book) và các báo, tạp chí điện tử (E-Journal)
- Tài liệu số là cơ sở của sự hình thành và phát triển ngành công nghiệp nội dung số
Sự phát triển có tính chất bùng nổ của các nguồn tài liệu số trong những năm
gần đây đã dẫn đến hình thành khái niệm “nội dung số” và kéo theo đó là sự ra đời
của ngành công nghiệp nội dung số
1.2 Dữ liệu và siêu dữ liệu
1.2.1 Dữ liệu
Dữ liệu (data) là hình thức thể hiện của thông tin trong mục đích lưu trữ và xử
lý nhất định Thuật ngữ “dữ liệu” có nguồn gốc từ chữ Hán – Việt với ý nghĩa là
“cái đã cho” hay “cái đã biết” Từ tương ứng trong tiếng anh (data) là số nhiều của
Trang 17cho” Về mặt lịch sử, khái niệm dữ liệu xuất hiện cùng với việc xử lý thông tin bằng máy tính Vì thế trong nhiều tài liệu, người ta còn định nghĩa dữ liệu là đối tượng xử
lý của máy tính Thông tin luôn mang một ý nghĩa xác định nhưng hình thức thể hiện của thông tin rõ ràng mang tính quy ước Chẳng hạn ký hiệu “V” trong hệ đếm
La mã mang ý nghĩa là 5 đơn vị nhưng trong hệ thống chữ La tinh nó mang ý nghĩa
là chữ cái V Trong máy tính điện tử, nhóm 8 chữ số 01000001, nếu là số sẽ thể hiện số 65, còn nếu là chữ sẽ là chữ “A”
Trong từ điển Oxford Dictionary, dữ liệu xem như là các sự kiện, thông tin được sử dụng để nghiên cứu, tìm hiểu nhằm đưa ra các quyết định, mặt khác, dữ liệu cũng là những thông tin được lưu giữ trong máy tính
Người đồng sáng lập ra World Wide Web là Tim Berners – Lee lại cho rằng
“dữ liệu không phải là thông tin, thông tin không phải là kiến thức, kiến thức không phải là sự hiểu biết, sự hiểu biết không phải là trí khôn”; ông khẳng định, nếu sắp xếp theo mô hình tam giác, trong đó trí khôn của con người là đỉnh tam giác, rồi lần lượt đến sự hiểu biết, kiến thức, thông tin thì dữ liệu chính là đáy tam giác và nó chính là nền tảng cho các thông tin, sự hiểu biết, kiến thức…[14, tr.9]
Tuy nhiên, trong giới hạn nghiên cứu của luận văn này, dữ liệu sẽ được hiểu
là các thông tin, các kiến thức chứa trong các tài liệu dạng số hay điện tử
1.2.2 Siêu dữ liệu (metadata)
1.2.2.1 Định nghĩa
Thuật ngữ “Meta”, có xuất xứ là một từ Hy Lạp dùng để chỉ một cái gì đó có bản chất cơ bản hơn hoặc cao hơn, “siêu” hơn Metadata (hay còn gọi là siêu dữ liệu) là một loại dữ liệu đặc biệt, bao chùm lên dữ liệu hay chỉ dẫn cho dữ liệu (data) Vì vậy, một định nghĩa ngắn nhất, chung nhất và tổng quát nhất cho siêu dữ liệu là “dữ liệu về dữ liệu”
Theo tiến sỹ Warwick Cathro (Thư viện Quốc gia Úc), "siêu dữ liệu là những thành phần mô tả tài nguyên thông tin hoặc hỗ trợ thông tin truy cập đến tài nguyên thông tin" Cụ thể trong tài liệu thì siêu dữ liệu được xác định là “dữ liệu mô tả các thuộc tính của đối tượng thông tin và trao cho các thuộc tính này ý nghĩa, khung
Trang 18cảnh và tổ chức Siêu dữ liệu còn có thể được định nghĩa là dữ liệu có cấu trúc về
dữ liệu” [20]
Trong một số tài liệu khác [17], siêu dữ liệu được xác định là "dữ liệu mô tả các thuộc tính của đối tượng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh và tổ chức Siêu dữ liệu còn có thể được định nghĩa là dữ liệu có cấu trúc về
dữ liệu" Theo Gail Hodge định nghĩa siêu dữ liệu là "thông tin có cấu trúc mà nó
mô tả, giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiếm, sử dụng và quản lý hơn [16], Siêu dữ liệu được hiểu là dữ liệu về dữ liệu hoặc thông tin về thông tin" Cụ thể hơn, siêu dữ liệu là cái mô tả tài nguyên thông tin
Mục đích đầu tiên và cốt yếu nhất của siêu dữ liệu là góp phần mô tả và tìm lại các tài liệu điện tử trên mạng Internet Sự phát triển mạnh mẽ của Internet đã tạo
ra sự bùng nổ của các loại dữ liệu đa dạng ở dạng số, văn bản, hình ảnh, âm thanh, hình ảnh động, tài liệu đa phương tiện Những tài liệu số này có thể truy cập được trên Internet song việc tìm kiếm chúng một cách hiệu quả và khoa học như với các
hệ thống thông tin trực tuyến là hết sức khó khăn Để góp phần tăng cường chất lượng tìm kiếm các tài liệu số trên mạng Internet, người ta đã đưa ra giải pháp sử dụng siêu dữ liệu
Thực ra trong hoạt động thông tin - thư viện truyền thống, từ lâu đã có những khái niệm liên quan đến siêu dữ liệu Các bản mô tả thư mục chứa các dữ liệu mô tả đối tượng (như sách, tạp chí), do đó, chúng có thể được xem như một dạng siêu dữ liệu Với việc tự động hoá công tác biên mục, phiếu thư mục được thay thế bằng biểu ghi thư mục Như vậy, thành phần "siêu dữ liệu" còn có thể được trình bày trong biểu ghi, vì vậy, biểu ghi này được coi là biểu ghi siêu dữ liệu (metadata record) của các đối tượng được CSDL quản lý Với tài liệu truyền thống trên giấy, thông tin mô tả được bố trí nằm ngoài đối tượng mà nó mô tả (ví dụ, trên phiếu thư mục của mục lục thư viện, trong biểu ghi của CSDL) Nhờ những yếu tố mô tả như vậy, người ta có thể xác định và tìm kiếm lại được tài liệu một các chính xác theo một vài yếu tố
Trang 19Ngày nay, nguồn tài liệu điện tử phân tán trên mạng nhiều đến mức không thể
xử lý hết được bằng cách thủ công như đã và đang áp dụng với tài liệu xuất bản trên giấy Để xử lý được hết tài liệu điện tử phân tán, người ta phải áp dụng các phương pháp tự động - sử dụng các chương trình đặc biệt (được gọi theo nhiều cách khác nhau như người máy (robots), sâu máy (crawlers), nhện máy (spiders), Do tài liệu
số (điện tử) được tạo ra, thông thường không tuân thủ những quy định xuất bản truyền thống, không có những quy tắc nhất định giúp cho phép nhận dạng tự động được các yếu tố mô tả thông thường như tác giả, địa chỉ xuất bản, thông tin về khối lượng, nên cần thiết phải có những quy định thống nhất để các chương trình tự động nhận dạng và xử lý chúng đúng theo các yêu cầu nghiệp vụ Những quy định như vậy được gọi là các quy định về siêu dữ liệu Có thể thấy hiện nay, do nhiều chương trình máy tính chỉ định chỉ số dựa vào một số thành phần hạn chế như nhan
đề hoặc tranh ảnh, từ ngữ trong văn bản nên không hỗ trợ những tìm kiếm đặc thù (thí dụ theo tác giả, theo chủ đề, theo lĩnh vực, ) Vì thế, để tạo điều kiện cho các chương trình có thể định chỉ số tự động theo một số yếu tố xác định, người ta cần thiết phải đưa thêm vào tài liệu điện tử những thuộc tính bổ sung để tăng cường việc
mô tả tài nguyên thông tin Các công cụ định chỉ số tự động sẽ được lập trình để nhận dạng các thuộc tính này và định chỉ số chúng, từ đó hỗ trợ tìm kiếm theo những thuộc tính đặc thù
1.2.2.2 Phân loại siêu dữ liệu
Sự liên hệ giữa siêu dữ liệu và tài nguyên mà nó mô tả có thể được thể hiện theo một trong hai cách:
Các yếu tố siêu dữ liệu được chứa trong một biểu ghi riêng biệt bên ngoài đối tượng mô tả:
Siêu dữ liệu được nhúng bên trong bản thân tài nguyên mà nó mô tả
Trước đây, với tài liệu truyền thống, các mô tả tài liệu nằm ngoài đối tượng
mô tả (thí dụ được đưa vào phiếu thư viện hoặc biểu ghi CSDL), như vậy, siêu dữ liệu được lưu giữ tách biệt bên ngoài đối tượng mô tả Với tài liệu điện tử, siêu dữ liệu của chúng được nhúng trong bản thân tài nguyên hoặc liên kết với tài nguyên
Trang 20mà nó mô tả như trong trường hợp các thẻ meta của tài liệu HTML hoặc các tiêu đề TEI (Text Encoding Initiative - TEI header) trong tài liệu điện tử Dưới đây là một thí dụ về thẻ:
<html>
<Tittle> Dublin core <Tittle>
<meta name="Creator" Content="Smith,J">
Để thống nhất phương thức mô tả tài liệu điện tử theo một khuôn mẫu thống nhất, người ta đưa ra những sơ đồ siêu dữ liệu Việc này tương tự như cộng đồng thư viện thống nhất sử dụng khổ mẫu MARC21 hoặc UNIMARC cho biên mục đọc máy để đảm bảo tính thống nhất trong tạo lập CSDL Vì thế, hiện nay đã xuất hiện nhiều sơ đồ siêu dữ liệu khác nhau với quy định ngữ nghĩa riêng
Sơ đồ siêu dữ liệu (metadata scheme)
Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu được thiết kế cho mô
tả một dạng tài nguyên thông tin cụ thể Nói khác đi, siêu dữ liệu là sơ đồ hình thức được xác định để mô tả tài nguyên thông tin, tài nguyên thông tin ở đây có thể là đối tượng số, hoặc cũng có thể không phải là đối tượng số
Nói tóm lại, siêu dữ liệu là dữ liệu để mô tả dữ liệu Khi dữ liệu được cung cấp cho người dùng cuối, thông tin do siêu dữ liệu mang lại sẽ cung cấp những thông tin cho phép họ hiểu rõ hơn về bản chất dữ liệu họ đang có Những thông tin này sẽ cung cấp cho người dùng có được những quyết định sử dụng đúng đắn phù hợp về dữ liệu mà họ có
Trang 21Tùy thuộc vào từng mục đích sử dụng khác nhau, từng loại dữ liệu khác nhau
mà cấu trúc và nội dung siêu dữ liệu có thể có những khác biệt Song, nhìn chung sẽ bao gồm một số loại thông tin cơ bản sau:
Thông tin mô tả về bản thân siêu dữ liệu
Thông tin về dữ liệu mà siêu dữ liệu mô tả
Thông tin về cá nhân, tổ chức liên quan đến siêu dữ liệu và dữ liệu
1.3 Dublin Core và một số chuẩn siêu dữ liệu khác
1.3.1 Dublin Core
1.3.1.1 Sự ra đời của Dublin Core
Dublin Core Metadata hay nói gọn là Dublin Core là một trong những lược đồ yếu tố siêu dữ liệu phổ biến và được nhiều người biết đến Bộ yếu tố này được hình thành lần đầu tiên vào năm 1995 bởi “Sáng kiến Yếu tố Siêu dữ liệu Dublin Core” (Dublin Core Metadata Element Initiative) Tập hợp yếu tố siêu dữ liệu này được gọi là “cốt lõi” (core) vì nó được thiết kế đơn giản và chỉ bao gồm 15 yếu tố mô tả cốt lõi nhất (trong khi Marc21 có hơn 200 trường và rất nhiều trường con) Năm
2009 Tổ chức Tiêu chuấn Quốc tế ISO đã ban hành tiêu chuẩn ISO 15836, Information and documentation - The Dublin Core metadata element set, quy định chi tiết các yếu tố của Dublin core Tháng 9/2001 bộ yếu tố siêu dữ liệu Dublin Core được Tổ chức Tiêu chuẩn Hoa Kỳ ban hành thành tiêu chuẩn quốc gia, gọi là tiêu chuẩn “The Dublin Core Metadata Element Set” ANSI/NISO Z39.85-2001
Bộ yếu tố siêu dữ liệu Dublin Core lúc đầu được thiết kế chủ yếu cho mục đích mô tả Các yếu tố siêu dữ liệu Dublin Core có những ưu điểm sau:
- Đơn giản trong tạo lập và bảo trì: được thiết kế nhằm phục vụ những người không chuyên; dễ sử dụng và rẻ nhưng mang lại hiệu quả lớn
- Ngữ nghĩa thông dụng: khắc phục những khó khăn trong việc hiển thị các thuật ngữ Ví dụ: yếu tố <tác giả> (Creator) được gán cho người tạo lập, nhà soạn nhạc, đạo diễn, trong vai trò là tác giả chính
- Phạm vi sử dụng quốc tế: Tới tháng 11 - 1999, đã có phiên bản của hơn 20 thứ tiếng: Anh, Pháp, Phần Lan, Na Uy, Thái Lan, Nhật, Pháp, Đức, Hy Lạp,
Trang 22Indonesia, Tây Ban Nha, Tổ chức WWW phát triển Chuẩn Dublin core trên nền tảng kết hợp đa ngôn ngữ, phục vụ cho môi trường tài nguyên thông tin số, mang tính chất đa văn hoá và đa ngôn ngữ.[19]
- Khả năng mở rộng: với cơ chế mở, Dublin Core có thể được mở rộng bởi các chuyên gia bằng việc gắn kết thêm các yếu tố mở rộng Khả năng này còn được thực hiện một cách đơn giản thông qua việc kết nối nhiều CSDL khác nhau thông qua mạng Internet
Như vậy, hiểu một cách đơn giản nhất, Dublin Core là một tiêu chuẩn dùng để
mô tả tài nguyên thông tin, mà tài nguyên thông tin đó chính là các tài liệu số như video, âm thanh, hình ảnh, văn bản và các phương tiện truyền thông hỗn hợp như các trang Web
1.3.1.2 Các yếu tố của Dublin Core
a/ Các yếu tố cơ bản
Các yếu tố cơ bản của Dublin Core đều mang thuộc tính lựa chọn và có thể lặp lại Mỗi yếu tố cũng có những hạn định, thuộc tính nhằm diễn giải chính xác ý nghĩa của các yếu tố
1 Nhan
đề
- Nhãn (Label): Tiêu đề (Title)
- Định nghĩa: Tên gán cho nguồn tài nguyên
- Thảo luận: Thông thường, tiêu đề được chọn là tiêu đề chính thức được biết đến
- Hướng dẫn: Trong trường hợp nhan đề không rõ ràng, thì sẽ lặp lại toàn bộ tiêu đề cùng với những thay đổi trong lặp đề thứ 2 và tiếp theo Nếu tài liệu ở dạng HTML, cần xem tài liệu nguồn và đảm bảo rằng các tiêu đề được xác định đúng là tiêu đề của tài liệu
Ví dụ:
Title="A Pilot's Guide to Aircraft Insurance"
Title="The Sound of Music"
Title="Green on Greens"
Trang 23Title="AOPA's Tips on Buying Used Aircraft"
2 Tác giả
- Nhãn (Label): Người sang tạo/tác giả (Creator)
- Định nghĩa: Một cá nhân/tổ chức chịu trách nhiệm về thực hiện nội dung của tài nguyên
- Thảo luận: Ví dụ về một Creator bao gồm một người, một tổ chức hoặc một dịch vụ Thông thường, tên của một người tạo nên được sử dụng để chỉ ra các thực thể
- Hướng dẫn:
+ Đối với tài liệu nhiều tác giả: tên các tác giả được liệt kê riêng rẽ, theo thứ tự xuất hiện trong ấn phẩm Tên tác giả được trình bày theo trật tự Họ - Đệm – Tên Trong trường hợp không xác định được thì phần họ tên tác giả sẽ ghi đúng như trên tài liệu
+ Trong trường hợp tác giả là các tổ chức, thì tên tác giả sẽ được trình bày theo thứ tự phân cấp từ lớn đến nhở, cách nhau bằng dấu chấm và 1 khoảng trống Nếu không xác định được phân cấp thì
sẽ trình bày như trên tài liệu + Nếu tác giả và Nhà xuất bản trùng nhau thì sẽ không lặp trong khu vực Nhà xuất bản
+ Trong trường hợp tác giả có trách nhiệm ít hơn hoặc chưa rõ trách nhiệm, thì sẽ không để ở khu vực Creator mà sẽ sử dụng Contributor
- Ví dụ:
Creator = "Shakespeare, William"
Creator = "Wen Lee"
Creator = "Kính viễn vọng Hubble"
Creator = "Internal Revenue Service, khách hàng khiếu nại Đơn vị"
3 Chủ đề - Nhãn (Label) Chủ đề (Subject)
- Định nghĩa: Chủ đề về nội dung của các nguồn tài nguyên
Trang 24- Thảo luận: Thông thường, một chủ đề sẽ được diễn tả như từ khóa, các cụm từ khóa hoặc mã số phân loại mô tả một chủ đề của tài nguyên
- Hướng dẫn:
Chọn chủ đề từ khoá từ tiêu đề hoặc các thông tin mô tả, hoặc
từ bên trong một nguồn tài nguyên văn bản Nếu là chủ đề của tài liệu đó là một người hoặc một tổ chức, sử dụng giống như hình thức tên như bạn muốn nếu người hoặc tổ chức được một Creator hoặc Contributor
Nói chung, chọn những từ quan trọng nhất và duy nhất cho các
từ khóa, tránh sử dụng các chủ đề chung chung để mô tả một tài liệu
cụ thể Tiêu đề có thể bao gồm dữ liệu phân loại nếu có (ví dụ, Phân loại Thư viện Quốc hội Phân số hoặc Phân loại thập phân Dewey) hoặc từ vựng được kiểm soát (như Y tế, Nghệ thuật và Kiến trúc) như từ khóa
Ví dụ:
Tiêu đề = "máy bay cho thuê và cho thuê"
Tiêu đề = "Olympic trượt tuyết"
Tiêu đề = "Street, Picabo"
4 Mô tả
- Nhãn (Label): Mô tả (Description)
- Định nghĩa: Một tài khoản của các nội dung của các nguồn tài nguyên
- Thảo luận: mô tả có thể bao gồm nhưng không giới hạn: một trừu tượng, bảng nội dung, tài liệu tham khảo cho một đại diện đồ họa nội dung hay một tài khoản văn bản miễn phí của nội dung
- Hướng dẫn:
Khu vực mô tả là khu vực cung cấp nhiều các chỉ dẫn để tìm tài liệu do vậy cần phải được quan tâm đặc biệt Câu văn được sử dụng phải đủ ý Thông tin phải đầy đủ để giúp người dùng tin có thể tìm
Trang 25được toàn bộ các tài liệu mình cần với một tập hợp các thuật ngữ tìm kiếm
Nếu không có phần tóm tắt hoặc các mô tả cấu trúc khác có sẵn, thì thông tin mô tả có thể được sao chép hoặc chiết xuất tự động
từ tài liệu Mặc dù, nguồn của các mô tả này có thể là một trang web hoặc văn bản cấu trúc với các nhãn trường giới thiệu Các ứng dụng này thay đổi đáng kể trong khả năng của chúng để giải thích các nhãn trường như vậy và sự hòa nhập của chúng có thể ảnh hưởng tiêu cực tới khả năng tương tác của siêu dữ liệu
- Ví dụ:
1- Description="Illustrated guide to airport markings and lighting signals, with particular reference to SMGCS (Surface Movement Guidance and Control System) for airports with low visibility conditions."
2- Description="Teachers Domain is a multimedia library for K-12 science educators, developed by WGBH through funding from the National Science Foundation as part of its National Science Digital Library initiative The site offers a wealth of classroom-ready instructional resources, as well as online professional development materials and a set of tools which allows teachers to manage, annotate, and share the materials they use in classroom teaching."
5 Xuất
bản
- Nhãn (Label): Nhà xuất bản (Publisher)
- Định nghĩa: Một thực thể chịu trách nhiệm làm cho các nguồn lực sẵn có
- Thảo luận: Ví dụ về một Nhà xuất bản bao gồm một người, một tổ chức hoặc một dịch vụ
Điển hình, tên của Nhà xuất bản phải được sử dụng để chỉ ra các thực thể
- Hướng dẫn:
Trang 26Nội dung cụ thể của trường này là xác định các thực thể cung cấp quyền truy cập vào tài nguyên này Nếu Creator và Publisher là như nhau, không lặp lại trong khu vực Nhà xuất bản If the nature of the responsibility is ambiguous, the recommended practice is to use Publisher for organizations, and Creator for individuals Nếu bản chất của trách nhiệm là mơ hồ thì sử dụng Nhà xuất bản cho các tổ chức, và Người tạo cho các cá nhân Trong trường hợp có trách nhiệm rõ ràng, sử dụng Contributor
Ví dụ:
Nhà xuất bản = "Funky website inc”
Nhà xuất bản = "Carmen Miranda"
6 Tác giả
phụ
- Nhãn (Label): Tác giả phụ/người đóng góp (Contributor) Định nghĩa: Một thực thể chịu trách nhiệm đóng góp vào nội dung của các nguồn tài nguyên
- Thảo luận: Ví dụ về một Contributor bao gồm một người, một
tổ chức hoặc một dịch vụ
Thông thường, tên của một Contributor nên được sử dụng để chỉ ra các thực thể
Hướng dẫn đối với việc tạo nội dung
Cách trình bày tên các cá nhân, tổ chức được sử dụng trong khu vực này cũng giống ở phần Creator Contributor là các yếu tố chung nhất được sử dụng cho các "đại lý" chịu trách nhiệm về các nguồn lực, vì vậy nên được sử dụng khi trách nhiệm chính không rõ ràng hoặc không liên quan
7 Ngày
tháng
- Nhãn (Label): Ngày tháng (Date)
- Định nghĩa: Một ngày liên kết với một sự kiện trong chu kỳ của cuộc sống tài nguyên
- Thảo luận: Thông thường, ngày sẽ được liên kết với việc tạo
ra hoặc sẵn có của các nguồn tài nguyên
Trang 27Khuyến khích thực hành tốt nhất cho mã hoá giá trị ngày tháng được định nghĩa trong một hồ sơ của ISO 8601 và sau các YYYY-MM-DD format
- Hướng dẫn:
Nếu thông tin về ngày tháng năm không đầy đủ, có thể sử dụng tháng – năm (YYYY-MM) hoặc năm (YYYY) Nhiều chương trình khác có thể được, nhưng nếu sử dụng như vậy, đôi khi người dùng tin hoặc phần mềm khó khăn trong việc nhận biết
- Tên (Label): Loại hình (Type)
- Định nghĩa: Bản chất hay thể loại của nội dung các nguồn tài nguyên
-Thảo luận: Loại bao gồm các thuật ngữ mô tả các loại chung, chức năng, thể loại, hoặc các cấp tập hợp cho nội dung
Khuyến khích thực hành tốt nhất là chọn một giá trị từ một từ vựng được kiểm soát
- Hướng dẫn:
Nếu các nguồn tài nguyên bao gồm hỗn hợp nhiều loại hoặc sau đó lặp đi lặp lại thì yếu tố Loại hình nên được sử dụng để mô tả các thành phần chính
Trang 28dạng - Định nghĩa: Các thể chất hoặc kỹ thuật số biểu hiện của tài
nguyên này
- Thảo luận: Thông thường, Định dạng có thể bao gồm các phương tiện truyền thông-loại hoặc kích thước của tài nguyên Định dạng có thể được dùng để xác định phần mềm, phần cứng hoặc các thiết bị khác cần thiết để hiển thị hoặc vận hành tài nguyên Ví dụ về các kích thước bao gồm kích thước và thời gian
Khuyến khích thực hành tốt nhất là chọn một giá trị từ một kiểm soát vốn từ vựng
- Hướng dẫn:
Ngoài các định dạng cụ thể về thể chất hoặc phương tiện truyền thông điện tử, thông tin liên quan đến kích thước của một tài nguyên có thể có trong nội dung của các yếu tố Định dạng nếu có
- Ví dụ:
1- Title = "Dublin Core biểu tượng"
Identifier = "http://purl.org/metadata/dublin_core/images/dc2.gif & quot;
3- Title = "The Bronco Buster"
Creator = "Frederic Remington"
Type = "vật lý đối tượng"
Trang 29- Nhãn (Label): Định danh nguồn (Resource Identifier)
- Định nghĩa: Một tham chiếu rõ ràng để các nguồn lực bên trong một ngữ cảnh nhất định
- Thảo luận: Được giới thiệu thực hành tốt nhất là xác định các nguồn lực bằng phương tiện của một chuỗi hoặc phù hợp với một số nhận dạng chính thức hệ thống
Ví dụ hệ thống nhận diện chính thức bao gồm Uniform Resource Identifier (URI) (bao gồm cả các tài nguyên đồng phục Locator (URL)), các kỹ Object Identifier (DOI) và Số sách tiêu chuẩn quốc tế (ISBN)
11 Nguồn
- Nhãn (Label): Nguồn (Resource)
- Định nghĩa: Một tham chiếu đến một tài nguyên mà từ đó các nguồn lực hiện nay có nguồn gốc
- Thảo luận: Các nguồn lực hiện nay có thể được bắt nguồn từ các nguồn tài nguyên toàn bộ hoặc một phần
Khuyến khích thực hành tốt nhất là để tham khảo các nguồn lực bằng phương tiện của một chuỗi hoặc số phù hợp với một chính thức nhận dạng hệ thống
Trang 30- Hướng dẫn:
Nói chung, bao gồm các thông tin trong khu vực về một nguồn tài nguyên đó là trí tuệ liên quan đến tài nguyên được mô tả nhưng không vừa dễ dàng vào một yếu tố Quan hệ
- Ví dụ:
1-Source="RC607.A26W574 1996" [where "RC607.A26W574 1996" is the call number of the print version of the resource, from which the present version was scanned] Nguồn = "RC607.A26W574 1996" [nơi "RC607.A26W574 1996" là số cuộc gọi của các bản in của các nguồn lực, từ đó phiên bản hiện nay được quét] 2- Source="Image from page 54 of the 1922 edition of Romeo and Juliet" Nguồn = "Hình ảnh từ trang 54 của ấn bản 1922 của Romeo
và Juliet"
12 Ngôn
ngữ
-Nhãn (Label): Ngôn ngữ (language)
- Định nghĩa: Một ngôn ngữ của nội dung trí tuệ của nguồn lực này
- Thảo luận: Được giới thiệu thực hành tốt nhất cho các giá trị của các ngôn ngữ nguyên tố được xác định bởi RFC 1766 bao gồm hai chữ Mã Ngôn ngữ (lấy từ ISO 639) sau đó là tùy chọn, do hai chữ cái Mã quốc gia (lấy từ tiêu chuẩn ISO 3.166)
Ví dụ, 'vi' cho Tiếng Anh, 'fr' cho Pháp, hoặc 'en-uk' cho tiếng Anh được sử dụng ở Vương quốc Anh
Trang 31Pháp.”
Language = "en-US"
13 Mối
quan hệ
- Nhãn (Label): Quan hệ (Relation)
- Định nghĩa: Một tham chiếu đến một nguồn tài nguyên liên quan
- Thảo luận: Được giới thiệu thực hành tốt nhất là tham khảo các tài nguyên bằng phương tiện của một chuỗi hoặc phù hợp với một số nhận dạng chính thức hệ thống
- Hướng dẫn:
Gồm các thông tin trong khu vực về một nguồn tài nguyên liên quan đến tài nguyên được mô tả
- Ví dụ:
1- Title = “Reading Turgenev”
Quan hệ = “Hai Lives” [nguyên là một bộ sưu tập của hai novellas, một trong số đó là “Đọc Turgenev”]
[Mối quan hệ được mô tả là IsPartOf
2- Title = ” Nymphet Mania”
Quan hệ = “Tham khảo Adrian Lyne’s ‘Lolita’”
[Mối quan hệ được mô tả là khảo]
3- Title = “Bộ phim My Fair Lady”
Quan hệ = “Shaw’s Pygmalion chơi”
[Mối quan hệ được mô tả là IsBasedOn]
- Hướng dẫn:
Trang 32- Nhãn (Label): Quyền (Rights Management)
- Định nghĩa: Thông tin về các quyền được tổ chức trong và trên các tài nguyên
- Thảo luận: Thông thường, một yếu tố quyền sẽ chứa một tuyên bố cho các nguồn tài nguyên, hoặc tham khảo một dịch vụ cung cấp thông tin như vậy Quyền thông tin thường bao gồm sở hữu trí tuệ (SHTT), Bản quyền, và quyền sở hữu khác nhau Nếu các yếu tố quyền vắng mặt, không có giả định có thể được thực hiện
về tình trạng này và các quyền khác đối với tài nguyên
- Hướng dẫn:
Các yếu tố quyền có thể được sử dụng cho một tuyên bố hoặc văn bản hoặc một URL chỉ tới một tuyên bố quyền hoặc kết hợp đã
có sẵn -Ví dụ:
Quyền = "Truy cập bị hạn chế cho các thành viên"
Quyền = "http://cstr.cs.cornell.edu/Dienst/Repository/2.0/ Terms & quot;
Bảng 1 Các yếu tố cơ bản của DUBLIN CORE
b/ Các yếu tố mở rộng
Thực tế sử dụng Dublin Core cho thấy mỗi yếu tố cơ bản còn gộp chứa trong
nó một vài thành tố phụ nhằm diễn đạt chi tiết hơn nội dung chính yếu tố đó Các thành tố phụ được coi là các yếu tố mở rộng và được thể hiện thông qua những khung mã hoá cụ thể Ví dụ khi thể hiện nội dung của một tài liệu, người ta cung
Trang 33cấp một vài cách tiếp cận khác nhau như qua ký hiệu phân loại, tiêu đề đề mục, từ khoá
Loại tài liệu
Thuật ngữ về loại hình của Dublin core
Mô tả vật lý
Kích thước và thời lượng (Extent)
Vật mang tin (Medium)
IMT loại tư liệu
Định danh
URI
Uniform
Resource Identifier
Trang 341.3.1.3 Cú pháp của Dublin Core
Các phần tử Dublin Core được chèn vào phần giữa các thẻ (tags) <HEAD> và
</HEAD> Cú pháp chung nhất cho Dublin Core như sau:
<meta name= “nhãn trường”> content= “giá trị trường”>
Chú ý: Mỗi phần tử có thể tùy chọn và có thể lặp, trong một thẻ meta có thể
chứa nhiều thuộc tính , mỗi thuộc tính được cách nhau bằng dấu “;”
Ví dụ: Một biểu ghi Dublin Core hoàn chỉnh được gắn vào ngôn ngữ HTML
có dạng như sau:
<HTML>
<HEAD>
<TITLE>Tài liệu điện tử</TITLE>
<META NAME="DC.TITLE" CONTENT = "Kinh nghiệm thu hút vốn đầu
tư nước ngoài ở các nước ASEAN và vận dụng vào Việt Nam">
<META NAME="DC.CREATOR" CONTENT = "Nguyễn Duy Thái">
<META NAME="DC.SUBJECT" CONTENT="Vốn đầu tư">
<META NAME="DC.SUBJECT" CONTENT="FDI">
<META NAME="DC.SUBJECT" CONTENT="Đầu tư nước ngoài">
<META NAME="DC.SUBJECT" CONTENT="ASEAN">
<META NAME="DC.SUBJECT" CONTENT="Q9(5)-56">
Trang 35<META NAME="DC.DESCRIPTION" CONTENT="Luận án tiến sĩ Kinh tế Chuyên ngành Kinh tế chính trị TBCN Mã số: 5.02.02: Đầu tư trực tiếp nước ngoài
và vai trò của nó đối với nền kinh tế các nước ASEAN và những kinh nghiệm thu hút đầu tư trực tiếp nước ngoài của ASEAN Vận dụng kinh nghiệm của các nước ASEAN vào Việt Nam">
<META NAME= “DC.PUBLISHER” CONTENT = “Học viện Chính trị quốc gia Hồ Chí Minh”>
<META NAME="DC.DATA" CONTENT = "1999">
<META NAME="DC.TYPE" CONTENT = "Luận án tiến sĩ">
<META NAME="DC.FORMAT" CONTENT = "Văn bản/pdf(.pdf)">
"http://www.nlv.gov.vn/dlib/L6746.pdf">
<META NAME="DC.RESOURCE" CONTENT = "Luận án tiến sĩ toàn văn"> <META NAME="DC.RESOURCE" CONTENT =
"http://www.nlv.gov.vn/dlib/">
<META NAME="LANGUAGE" CONTENT = "vie">
<BODY> Nội dung toàn văn (thẻ này dùng cho các dữ liệu metadata được nhúng sẵn vào tài nguyên) Nội dung này sẽ được hiển thị trên trình duyệt, còn các thẻ metadata đã được biên mục ở trên sẽ không xuất hiện trong suốt phần định dạng hay hiển thị thông tin cũng như in ấn, nó chỉ có tác dụng đối với các máy chủ tìm kiếm Các máy chủ đó sẽ đọc được các thông tin bên trong thẻ meta đó là lấy ra nội dung theo yêu cầu tìm kiếm
</BODY>
</HEAD>
</HTML>
1.3.1.4 Quy tắc sử dụng Dublin Core
+ Kiểm soát từ vựng: Từ vựng được sử dụng khi mô tả biểu ghi Dublin core phải là từ vựng có kiểm soát, được lựa chọn từ trong các hệ thống tiêu đề đề mục
Trang 36như LCSH, MeSH nhằm mục đích kiểm soát tính nhất quán trong các hệ CSDL và
hỗ trợ việc tìm kiếm, biên mục tự động
+ Sử dụng Khung mô tả nguồn (RDF - Resource Description Framework): RDF là một khuôn mẫu trao đổi và thể hiện thông tin trong môi trường Web Ngoài
ra, RDF còn được coi là khung chuyển đổi giúp nhận biết nội dung các yếu tố cho
dù chúng ở trong nhiều loại CSDL khác nhau
RDF là một ngôn ngữ được dùng để mô tả thông tin về những tài nguyên trên Web và mô tả ngữ nghĩa của những thông tin ấy theo cách mà máy có thể hiểu được RDF thích hợp trong những ứng dụng mà ở đó thông tin cần được xử lý bởi máy tính chứ không phải con người RDF cung cấp một khuôn khổ chung cho việc biểu diễn thông tin này vì thế nó có thể được trao đổi giữa các ứng dụng mà không làm mất đi ý nghĩa của thông tin Trong RDF, thông tin được thể hiện bởi bộ ba chủ thể - thuộc tính - đối tượng (subject - predicate – object)
+ Sơ đồ áp dụng: Trên lý thuyết, tất cả 15 trường đều mang thuộc tính lựa chọn và lặp lại Tuy nhiên, mức độ tối thiểu theo khuyến cáo của các tổ chức có liên quan bao gồm các yếu tố như: Nhan đề, Tác giả, Ngày tháng, Mô tả, Ngôn ngữ Tùy theo mức độ chi tiết được đòi hỏi trong việc mô tả dữ liệu, người ta cũng có thể nhập thêm một số yếu tố bổ trợ từ các Metadata khác Trong trường hợp đó, thuật ngữ sử dụng để mô tả cần được định nghĩa một cách chặt chẽ
a/ Sử dụng với ngôn ngữ HTML
HTML (HyperText Markup Language - Ngôn ngữ Đánh dấu Siêu văn bản)
là một ngôn ngữ đánh dấu được thiết kế ra để tạo nên các trang web, nghĩa là các mẩu thông tin được trình bày trên World Wide Web Được định nghĩa như là một ứng dụng đơn giản của SGML, vốn được sử dụng trong các tổ chức cần đến các yêu cầu xuất bản phức tạp, HTML giờ đây đã trở thành một chuẩn Internet do tổ chức World Wide Web Consortium (W3C) duy trì Phiên bản mới nhất của nó hiện là HTML 4.01
HTML có 2 thẻ (tag) để trình bày dữ liệu là <META> và <LINK> Do đó, nếu siêu dữ liệu được nhúng trong văn bản thì chúng phải được đặt trong vùng giữa
Trang 372 thẻ <HEAD> của văn bản đó nhằm giúp cho các hệ thống tìm kiếm và chỉ mục tự động có thể nhận biết và tìm ra giá trị của phần mô tả của tài liệu
* Ví dụ:
?<HTML>
<HEAD>
<TITLE>Mating Habits of the Northern Hairy Nosed Wombat</TITLE>
<META NAME= "DC.Creator" CONTENT="Smythe, Pearl">
</HEAD>
<BODY>
<H1>Northern Hairy Nosed Wombats</H1>
<P>The Northern Hairy Nosed Wombat is an animal native to
Ngữ pháp được bao gồm 2 thành tố: TÊN (NAME) và NỘI DUNG (CONTENT)
Sử dụng cú pháp HTML:
Mỗi yếu tố đều bao gồm 2 phần: NAME và CONTENT,
* Ví dụ: <META NAME="DC.Creator" CONTENT="Hồ Chí Minh">
<META NAME="DC.Title" CONTENT="Nhật Ký Trong Tù">
Bất kỳ yếu tố nào cũng có thể được lặp lại hoặc bỏ qua Trong trường hợp lặp lại, các giá trị lặp có thể được thể hiện thành từng dòng riêng biệt hoặc bao gồm chung nhưng được phân cách bằng dấu chấm phẩy (;),
* Ví dụ 1:
<META NAME="DC.Creator" CONTENT="Viện Ngôn ngữ học">
<META NAME="DC.Creator" CONTENT=" Cao Xuân Phổ">
Trang 38<META NAME="DC.Creator" CONTENT="Chu Khắc Thuật">
để khai báo và được thể hiện như sau:
META NAME="DC.Creator"
META NAME="DC.Title"
Không sử dụng:
"DC.CREATOR" hoặc "DC.creator" hoặc "dc.Title"
Trong trường hợp không sử dụng bộ mã ASCII (các chương trình nhập liệu, các file nguồn sử dụng các ngôn ngữ không thuộc hệ Latin như Trung Quốc, Nhật, Nga, Ả Rập,.) thì cũng vẫn sử dụng cùng những quy ước này như trong phần thân của văn bản
b/ Sử dụng với ngôn ngữ XML
XML hay còn gọi là ngôn ngữ đánh dấu mở rộng (eXtensible Markup Language) XML được thiết kế để truyền dữ liệu chứ không phải hiển thị dữ liệu Các thẻ trong XML không được xác định trước, chúng ta tự xác định thẻ XML được thiết kế để mô tả chính bản thân nó Dữ liệu được viết bằng XML có thể hướng tới bất kì thiết bị nào, chẳng hạn máy chủ, các thiết bị di động…
Việc sử dụng Dublin Core trong XML là kết quả của sự phát triển ứng dụng CNTT trong công tác thư viện XML cho phép người sử dụng tự thiết kế khuôn dạng trình bày theo yêu cầu của mình Tất cả những gì cần thiết chính là việc khai báo các yếu tố trong file định nghĩa loại hình dữ liệu (DTD - Data Type Definition)
và file thể hiện dữ liệu File định nghĩa loại hình dữ liệu DTD chứa các giá trị khai báo hay nói cách khác, là nơi khai báo và định nghĩa loại hình dữ liệu của các yếu tố
Trang 39Dublin Core cần thể hiện Định nghĩa các yếu tố được bắt đầu bằng dấu ! đặt trong dấu ngoặc nhọn < và kết thúc bằng dấu ngoặc nhọn >
* Ví dụ:
<?xml version="1.0" ?>
<Book (Title, Creator, Date, Publisher, Format, Subject, Description)>
<!Element title (# PC Data)>
<!Element creator (# PC Data)>
<!Element date (# PC Data)>
<!Element publisher (# PC Data)>
<!Element format (# PC Data)>
<!Element subject (# PC Data)>
<!Element description (# PC Data)>
File thể hiện dữ liệu trình bày nội dung các yếu tố trong phần mô tả của file XML nằm trong vùng <rdf:Description> </rdf:Description> Trong trường hợp
có giá trị lặp, giá trị của yếu tố có thể được trình bày lặp lại cũng giống như trong phần trình bày với HTML Các yếu tố Dublin Core được trình bày đúng như đă khai báo trong file DTD và được thể hiện như sau:
<dc:tên yếu tố>giá trị</ dc:tên yếu tố>
<dc:creator>Richard, John E.<dc:creator />
<dc:title>Resource and environmental
Trang 40- XML không phải là sự thay thế của HTML
- XML và HTML được thiết kế cho những mục đích khác nhau :
- XML được thiết kế để truyền tải và lưu dữ liệu, tập trung vào nội dung
- HTML được thiết kế để hiển thị dữ liệu, tập trung vào việc dữ liệu trông như thế nào
- Các tags trong HTML được xác định trước, còn trong XML người dùng sẽ
tự xác định các tags của họ
- XML là sự bổ sung cho HTML
1.3.1.5 Vai trò và ý nghĩa của Dublin Core trong biên mục tài liệu số
Dublin Core là một trong những sơ đồ yếu tố siêu dữ liệu phổ biến và được nhiều người biết đến Bộ yếu tố này được hình thành lần đầu tiên vào năm 1995 bởi Sáng kiến Yếu tố Siêu dữ liệu Dublin Core (Dublin Core Metadata Element Initiative) Tập hợp yếu tố siêu dữ liệu này được gọi là “cốt lõi” (core) vì nó được thiết kế đơn giản và chỉ bao gồm 15 yếu tố mô tả cốt lõi nhất (trong khi Marc21 có hơn 200 trường và rất nhiều trường con)