Để tổ chức, xây dựng, quản lý và phân phối tốt nguồn thông tin của thư viện, đặc biệt khai thác và quản lý nguồn thông tin số hóa, đáp ứng cao nhất nhu cầu thông tin của người sử dụng, t
Trang 1MỤC LỤC
LỜI CẢM ƠN……… 3
DANH MỤC VIẾT TẮT……….4
MỞ ĐẦU 1 Tính cấp thiết của đề tài………5
2 Mục đích nghiên cứu……….6
3 Đối tượng và phạm vi nghiên cứu……….7
4 Phương pháp nghiên cứu ……… 7
5 Bố cục khoá luận ……… 7
CHƯƠNG 1 TỔNG QUAN VỀ MÃ NGUỒN MỞ GREENSTONE 8
1.1 Một số khái niệm liên quan đến nguồn mở Greenstone … 8
1.1.1 Thư viện số ……… 8
1.1.2 Phần mềm mã nguồn mở (open source/open code)…9 1.1.3 Bộ sưu tập (collection)……… ……… 10
1.1.4 Siêu dữ liệu (Medata) ……… 10
1.1.5 Plugin ……… 15
1.1.6 Classifier ( Phân Loại) ……… 16
1.1.7 Duyệt tài liệu (Browser) ………20
1.1.8 Tìm kiếm (Search) ……….21
1.2 Bối cảnh đời của phần mềm mã nguồn mở Greenstone…….22
1.3.Tình hình ứng dụng mã nguồn mở Greenstone trên thế giới hiện nay……….24
1.4.Sơ lược về mã nguồn mở GREENSTONE……….30
1.4.1 Greenstone là phần mềm nguồn mở và tự do…… 31
1.4.2 Greenstone là phần mềm đa ngôn ngữ……… 31
1.5 Đặc điểm của Greenstone……… 32
1.6 Yêu cầu phần mềm……….33
1.7 Tính năng của nguồn mở Greenstone ……… 35
1.8 Ưu điểm của nguồn mở Greenstone……… .36
1.9 Một số hạn chế của nguồn mở Greenstone ……… 38
Trang 2CHƯƠNG 2 THỰC TRẠNG NGHIÊN CỨU, GIẢNG DẠY VÀ ỨNG DỤNG
PHẦN MỀM MÃ NGUỒN MỞ GREENSTONE Ở VIỆT NAM …….40
2.1 Thực trạng nghiên cứu và giảng dạy mã nguồn mở Greenstone ở Việt Nam ……… 40
2.2 Thực trạng triển khai ứng dụng nguồn mở Greenstone ở Việt Nam……… 42
2.2.1 Thư viện trường Đại Học Khoa Học Tự Nhiên Thành Phố Hồ Chí Minh……….43
2.2.2 Thư viện Đại học Ngân Hàng Thành phố Hồ Chí Minh (ĐHNH TP.HCM) ……… 53
2.2.3.Thư viện ĐHBK TP HCM……….57
2.2.4.Thư viện Hải Phú (Tỉnh Phú Yên)………… 59
2.2.5.Thư viện Trường CBQLGD TP HCM…… 63
2.2.6 Trung tâm học liệu – Đại học Thái Nguyên 66
Chương 3 : NHẬN XÉT VÀ KIẾN NGHỊ……… 72
3.1.Nhận xét: ……… 72
3.1.1 Nhận xét về tính năng và đặc điểm của phần mềm ……… 72
3.1.2 Nhận xét về việc triển khai ứng dụng Greenstone ở Việt Nam……… 73
3.1.3 Nhận xét về kết quả của việc nghiên cứu và giảng dạy nguồn mở Greenstone ở Việt Nam………… 75
3.2 Kiến nghị……… 76
KẾT LUẬN ……… 78
DANH MỤC TÀI LIỆU THAM KHẢO……… 80
Trang 3LỜI CẢM ƠN
Để hoàn thành được khóa luận tốt nghiệp này, tôi xin chân thành cảm ơn
Cô giáo hướng dẫn, Th.S Nguyễn Thị Trang Nhung đã trực tiếp hướn3g dẫn tôi trong suốt thời gian thực hiện đề tài
Tôi cũng xin chân thành cảm ơn các Thầy, Cô giáo trong khoa Thư viện – Thông tin đã tận tình giảng dạy và trang bị cho chúng tôi những kiến thức cần thiết, quý báu trong suốt những năm học tại trường
Xin cảm ơn chân thành tới gia đình, bạn bè đã động viên, giúp đỡ tôi hoàn thành Khóa luận này
Mặc dù tôi đã hoàn thành khóa luận với tất cả nỗ lực của bản thân, nhưng
do chưa có kinh nghiệm trong việc nghiên cứu khoa học cũng như hạn chế về trình độ hiểu biết nên khóa luận không thể tránh khỏi thiếu sót nhất định về mặt nội dung và hình thức trình bày Kính mong nhận được sự cảm thông và chỉ bảo của quý thầy cô và các bạn !
Hà Nội, ngày 20 tháng 05 năm 2011
Sinh viên thực hiện
Trần Thị Thanh
Trang 4DANH MỤC TỪ VIẾT TẮT CBQLGD: Cán bộ Quản lý Giáo dục Thành Phố Hồ Chí Minh
ĐHKHTN TP HCM: Đại học Khoa học Tự nhiên Thành Phố Hồ Chí Minh ĐHNH TP HCM: Đại học Ngân Hàng Thành Phố Hồ Chí Minh
ĐHBK TP HCM: Đại học Bách Khoa Thành Phố Hồ Chí Minh
ĐHQG TP.HCM: Đại học Quốc Gia Thành Phố Hồ Chí Minh
TP HCM: Thành Phố Hồ CHí Minh
UNESCO: United Nations Educational, Scientific, and Cultural
Organization GLI: Greenstone Librarian Interface
DLF: Digital Libraries Federation (Liên doàn thƣ viện số thế
giới) GNU General Public License
FOSS Free/Open Source Software
PMMN phần mềm nguồn mở
Trang 5MỞ ĐẦU
1 Tính cấp thiết của đề tài
Sự phát triển như vũ bão của công nghệ thông tin mang đến nhiều cơ hội
và thách thức cho các ngành nghề trong xã hội, trong đó có ngành thư viện – thông tin Chính sự thay đổi nhanh chóng này đã và đang dẫn đến sự bùng nổ thông tin làm thay đổi các hình thức xuất bản, đa dạng và phong phú hơn cả về hình thức và nội dung, cả truyền thống và hiện đại Một trong những thành tựu
mà công nghệ thông tin mang lại là nguồn tài nguyên thông tin đã được phát hành dưới dạng số hóa Việc xây dựng các bộ sưu tập số giúp cho việc trao đổi nguồn lực thông tin giữa các thư viện được dễ dàng không chỉ trong một quốc gia, các nước trong khu vực mà còn các nước trên thế giới Số lượng tài liệu tăng theo cấp số nhân và việc số hoá tài liệu tạo điều kiện thuận lợi cho con người tiếp cận với nguồn tri thức của nhân loại nhưng nó lại gây ra khó khăn cho việc lưu trữ và bảo quản tài liệu tại các trung tâm thông tin thư viện
Với bước phát triển này, hình ảnh, vai trò và chức năng của thư viện cũng
đã thay đổi theo Có thể thấy từ thư viện truyền thống chuyển giao sang thư viện điện tử và giờ đây là thư viện số Từ việc người dùng tin phải trực tiếp tới thư viện để khai thác và sử dụng các sản phẩm và dịch vụ của thư viện, giờ chỉ cần
có máy tính kết nối mạng Internet và tài khoản truy cập họ có thể sử dụng và khai thác thư viện ở bất cứ nơi đâu, bất cứ lúc nào
Phát triển thư viện số đã và đang là mục tiêu phát triển của nhiều thư viện trên thế giới nói chung và Việt Nam nói riêng Để tổ chức, xây dựng, quản lý và phân phối tốt nguồn thông tin của thư viện, đặc biệt khai thác và quản lý nguồn thông tin số hóa, đáp ứng cao nhất nhu cầu thông tin của người sử dụng, tiết kiệm chi phí và hiệu quả các thư viện phải tìm ra các giải pháp hữu ích Một trong những yêu cầu đặt ra đối với các thư viện là lựa chọn phần mềm phù hợp
để đáp ứng các vấn đề trên Hiện nay trên thế giới có rất nhiều phần mềm quản
Trang 6lý thư viện, ở Việt Nam một số phần mềm do các công ty Việt Nam sản xuât như Ilip, Libol, Lacviet…cũng đã được sử dụng phổ biến trong các thư viện Tuy nhiên các phần mềm ở Việt Nam đã ít nhiều cho thấy những hạn chế trong quá trình sử dụng Gần đây các phần mềm nguồn mở được sử dụng khá phổ biến trên thế giới đã và đang được sử dụng ở Việt Nam như Greenstone, D-space,…nhưng ở mức độ hạn chế Với điều kiện kinh tế còn hạn hẹp, ứng dụng công nghệ thông tin vào thư viện chưa cao và đầu tư cho các thư viện chưa lớn thì việc lựa chọn phần mềm nguồn mở để xây dựng các bộ sưu tập số hóa làm
cơ sở cho xây dựng thư viện số là một lựa chọn hợp lý Greenstone là một trong những phần mềm mã nguồn mở miễn phí có thể tích hợp vào các phần mềm thư viện có sẵn và cho phép các thư viện có thể chỉnh sửa để phù hợp với yêu cầu
và mục đích của thư viện Thư viện Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh (ĐHKHTN TP HCM) là cơ quan đi đầu sử dụng phần mềm Greenstone và hợp tác với một nhóm chuyên gia công nghệ thông tin để chuyển đổi phần mềm này sang tiếng Việt có tên gọi là HÒN ĐÁ XANH (2004) Tiếp
đó thư viện Đại học Ngân hàng Thành phố Hồ Chí Minh (ĐHNH TP HCM) và một số thư viện khác cũng đã ứng dụng phần mềm này để xây dựng các bộ sưu tập số cho thư viện mình Để tìm hiểu kỹ hơn về các tính năng của phần mềm nguồn mở Greenstone trong việc xây dựng và phát triển thư viện số tôi đã chọn
đề tài “Phần mềm nguồn mở Greenstone và tình hình ứng dụng tại Việt Nam” làm đề tài khóa luận
2 Mục đích nghiên cứu
Mục đích nghiên cứu của đề tài là tìm hiểu về phần mềm nguồn mở thư viện số - Greenstone, phân tích những đặc điểm nổi bật của phần mềm này trong việc ứng dựng vào hoạt động thư viện Khảo sát về cách tổ chức, quản lý
và khai thác bộ sưu tập số của một số thư viện đã ứng dụng Greenstone tại Việt Nam để làm rõ những tính năng và ứng dụng của phần mềm này Tác giả sẽ đưa
ra những đề xuất, kiến nghị với mong muốn giới thiệu phần mềm này rộng rãi
Trang 7hơn đến các thư viện nhằm nâng cao hiệu quả hoạt động, đặc biệt là xây dựng
và phát triển bộ sưu tập số của hệ thống thư viện trong cả nước
3 Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu của khóa luận là phần mềm nguồn mở thư viện số- Greenstone và thực trạng ứng dụng phần mềm này tại Việt Nam
Phạm vi nghiên cứu là thực trạng nghiên cứu và giảng dạy và ứng dụng phần mềm mã nguồn mở Greenstone tại Việt Nam Nghiên cứu về vấn đề này
để đưa ra thực trạng triển khai và ứng dụng phần mềm Greenstone và cách thức
tổ chức và khai thác tài liệu số hoá của các thư viện Việt Nam đang áp dụng phần mềm này
4 Phương pháp nghiên cứu
Trong quá trình thực hiện đề tài, tôi đã tiến hành phương pháp sau:
- Phương pháp trực quan
- Tham khảo ý kiến chuyên gia
- Phân tích, tổng hợp tài liệu
5 Bố cục khoá luận
Ngoài các phần mở đầu, kết luận và danh mục tài liệu tham khảo Khoá luận gồm 3 chương:
Chương 1: Tổng quan về nguồn mở Greenstone
Chương 2 : Thưc trạng nghiên cứu, giảng dạy và ứng dụng phần mềm Greenstone tại Việt Nam
Chương 3 : Nhận xét và kiến nghị
Trang 8CHƯƠNG 1 TỔNG QUAN VỀ MÃ NGUỒN MỞ GREENSTONE 1.1.Một số khái niệm liên quan đến nguồn mở Greenstone
1.1.1 Thư viện số
Hiện nay có nhiều định nghĩa khác nhau về thư viện số Dưới đây là một
số định nghĩa tiêu biểu:
Khái niệm thư viện số của Fox (1993): “thư viện số là tập hợp của các máy tính số, các thiết bị máy móc lưu trữ và trao đổi thông tin cùng với bối cảnh và phần mềm cần thiết để sản xuất và cung cấp các dịch vụ thông tin thư viện tương tự như các thư viện truyền thống vẫn làm đối với tài liệu giấy và các loại hình tài liệu truyền thống khác trong qua trình thu thập, biên mục, tìm kiếm
và phố biến thông tin… Một thư viện số đúng nghĩa và hoàn chỉnh phải bao gồm tất cả các dịch vụ cơ bản của các thư viện truyền thống đồng thời tận dụng được các lợi thế của việc lưu trữ, tìm kiếm và cung cấp thông tin số hoá”
Theo định nghĩa của Liên đoàn Thư viện số (1993): “ thư viện số là các tổ chức cung cấp các nguồn lực tài nguyên, bao gồm cả các chuyên gia để lựa chọn, cấu trúc, cung cấp khả năng truy cập tới các nguồn tri thức, phân phối, bảo đảm tính vẹn toàn và tính lâu dài của các bộ sưu tập số để cho một cộng đồng hoặc một tập hợp cộng đồng người dùng tin xác nhận luôn có thể sử dụng một cách nhanh chóng kịp thời và kinh tế
Theo Micheal Lest (1997): “ thư viện số là các bộ sưu tập thông tin số hóa được tổ chức Chúng bao gồm việc cấu trúc và thu thập thông tin là các công việc mà các thư viện truyền thống vẫn luôn phải làm và các máy tính có nhiệm vụ trình bày các thông tin số đó Một thư viện số thực sự cũng tạo ra các nguyên tắc quản lý những yếu tố đó cấu thành thư viện và các phương thức tổ chức thư viện”
Trang 9Theo Liên đoàn Thư viện số Hoa kỳ (1999): “thư viện số là cơ quan, tổ chức có các nguồn nhân lực chuyên hóa, để lựa chọn cấu trúc việc truy cập đến diễn giải, phổ biến, bảo quản sự toàn vẹn, đảm bảo sự ổn định trong thời gian dài của sưu tập các công trình số hóa mà chúng ở dạng sẵn sàng để sử dụng một cách kinh tế cho một hoặc một số cộng đông nhất định
Theo Witten và Bainbridge (2003): “thư viện số là bộ sưu tập thông tin một cách có tổ chức, là tập hợp các đối tượng dữ liệu số mang tính tập trung, gồm có văn bản, video, âm thanh, cùng với những phương thức để truy cập, khai thác, chọn lọc, tổ chức và bảo trì bộ sưu tập này”
1.1.2 Phần mềm mã nguồn mở (open source/open code)
Phần mềm mã nguồn mở là phần mềm với mã nguồn được công bố và sử dụng một giấy phép nguồn mở Giấy phép này cho phép bất cứ ai cũng có thể nghiên cứu, thay đổi và cải tiến phần mềm, và phân phối phần mềm ở dạng chưa thay đổi hoặc đã thay đổi (Wikipedia)
Theo David Wheeler : “PMNM là những chương trình mà quy trình cấp phép sẽ cho người dùng quyền tự do chạy chương trình theo bất kỳ mục đích nào, quyền nghiên cứu và sửa đổi chương trình, quyền sao chép và tái phát hành phần mềm gốc hoặc phần mềm đã sửa đổi (mà không phải trả tiền cho những người lập trình trước)”
PMNM là những phần mềm đã được cung cấp dưới cả dạng mã và nguồn Người dùng có quyền sửa đổi, cải tiến, phát triển, nâng cấp theo một số nguyên tắc chung nhất định theo điều khoản quy định trong giấy phép PMNM (General Public Licence – GPL) mà không cần xin phép ai - điều mà họ không được phép làm với Phần mềm nguồn đóng (PMNĐ) hay còn gọi là Phần mềm thương mại
Trang 101.1.3 Bộ sưu tập (collection)
Bộ sưu tập số là một tập hợp các tài liệu hay là các đối tượng số được lựa
chọn và được tổ chức cùng với các siêu dữ liệu mô tả và có ít nhất một giao diện để người sử dụng truy cập.[20, tr 11]
Theo Ian H Witten, chuyên gia Thư viện số ĐH Waikato, New Zealand
“Thư viện số là tập hợp những bộ sưu tập thông tin của các đối tượng số hoặc
đã được số hóa có tổ chức và tập trung” Phần mềm nguồn mở Greenstone cho phép tạo lập nhanh chóng những bộ sưu tập thông tin như thế, có tổ chức và làm tăng năng lực truy tìm và lướt tìm của người sử dụng để hình thành thư viện số
Một bộ sưu tập thông tin bao gồm nhiều tài liệu dưới nhiều dạng thức khác nhau: văn bản, âm thanh, hình ảnh, tuy nhiên cung cấp một giao diện đồng nhất qua đó tất cả các tài liệu có thể được truy cập, mặc dù cách mà tài liệu đó hiển thị sẽ tùy thuộc vào phương tiện và dạng thức của tài liệu đó
Một thư viện bao gồm nhiều bộ sưu tập Mỗi sưu tập được tổ chức theo hình thức khác nhau tùy nội dung tài liệu được sưu tầm và tùy theo chủ đề được quan tâm Tuy nhiên cách thức xây dựng và hiển thị các bộ sưu tập là hoàn toàn giống nhau Bộ sưu tập có thể xem là đơn vị của một thư viện số Greenstone
1.1.4 Siêu dữ liệu (Medata)
Siêu dữ liệu là dữ liệu đi kèm với đối tượng thông tin và nó cho phép những người sử dụng tiềm năng có thể biết trước sự tồn tại cũng như đặc điểm của đối tượng thông tin này [20, tr 1]
Gail Hodge (1997) định nghĩa: siêu dữ liệu là "thông tin có cấu trúc mà
nó mô tả, giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiếm, sử dụng và quản lý hơn Siêu dữ liệu được hiểu là dữ liệu về dữ liệu hoặc thông tin
về thông tin"
Trang 11Trong thư viện truyền thống, người ta biên mục để tạo nên những biểu ghi thư mục nhằm xây dựng hệ thống tra cứu qua mục lục phiếu Biểu ghi thư mục hay mục lục phiếu miêu tả lý lịch của tài liệu: nhan đề, đề mục, tác giả, xuất bản,vv…Khi sử dụng máy tính, biểu ghi thư mục này được biểu thị bằng một dạng thức máy đọc được (MARC) Cách biên mục này chỉ thể hiện được dạng thư mục tức lý lịch chứ không có toàn văn và đa phương tiện, được gọi là biên mục theo dạng liên tuyến (analog) Trong môi trường số, dữ liệu được đóng gói bằng ngôn ngữ XML Cách biên mục phải thay đổi qua môi trường Web, nghĩa là các dữ liệu thư mục phải được đóng gói, người ta gọi là biên mục theo dạng kỹ thuật số (digital) Các biểu ghi thư mục trở thành siêu dữ liệu thư tịch – metadata Vậy metadata chính là phiếu mục lục miêu tả lý lịch tài liệu được phát sinh tự động trong môi trường số Cụ thể metadata là thông tin mô tả cho một tài liệu trong bộ sưu tập, ví dụ tựa đề tài liệu, tên tác giả, ngày xuất bản,…Nói một cách khác metadata tức là dữ liệu về dữ liệu, phục vụ hai mục đích chính là nhận dạng và mô tả dữ liệu Nó sẽ được dùng để di chuyển tới hoặc xác định vị trí dữ liệu khi duyệt hoặc tìm kiếm trên một kho dữ liệu cũng như thu thập thông tin nhiều hơn về chính dữ liệu đã được tìm thấy
Phần mềm nguồn mở Greenstone đã sử dụng Chuẩn Dublin Core, nội dung chủ yếu của chuẩn mô tả dữ liệu này gồm 15 trường dữ liệu dùng để mô tả chi tiết các nguồn tài liệu kể cả tóm tắt nội dung với đầy đủ những tiêu đề (nhan
đề, tác giả, đề mục) và những điểm truy cập khác
Các yếu tố cơ bản của Dublin Core đều mang thuộc tính lựa chọn và có thể lặp lại Mỗi yếu tố cũng có một giới hạn những hạn định, thuộc tính nhằm diễn giải chính xác ý nghĩa của các yếu tố
1) Nhan đề (Title): Nhan đề tài liệu
2) Tác giả (Creator): Người hoặc cơ quan chịu tránh nhiệm chính về nội
dung trí tuệ của tài liệu
Trang 123) Đề mục (Subject): Chủ đề của nguồn thông tin và được thể hiện bằng từ
vựng có kiểm soát gồm tiêu đề đề mục, số phân loại,
4) Mô tả (Description): Phần thể hiện nội dung của nguồn thông tin bao
gồm cả phần tóm tắt của tư liệu văn bản hoặc nội dung của tư liệu nghe nhìn
5) Xuất bản (Publisher): Cơ quan, tổ chức chịu trách nhiệm tạo lập, xuất
bản nguồn thông tin trong định dạng thực
6) Tác giả phụ (Contributor): Cá nhân hay tổ chức có những đóng góp về
mặt trí tuệ cho tư liệu nhưng không phải là tác giả chính
7) Ngày tháng (Date): ngày tháng có liên quan đến việc tạo lập, xuất bản
hay công bố tư liệu
8) Loại hình (Type): hình thức vật chứa nội dung tư liệu
9) Mô tả vật lý (Format): Định dạng vật lý và kích thước của tư liệu như
kích cỡ, thời lượng, Định dạng cũng còn được dùng để chỉ rõ phần mềm và phần cứng cần thiết để sử dụng tư liệu
10) Định danh tư liệu (Identifier): Là một dãy ký tự hoặc số nhằm thể
hiện tính đơn nhất của tư liệu như: URLs và URNs, ISBN, ISSN,
11) Nguồn gốc (Source): Nguồn gốc mà tư liệu được tạo thành, yếu tố này
có thể bao gồm siêu dữ liệu về nguồn thông tin thứ hai nhằm khai thác
tư liệu hiện hành
12) Ngôn ngữ (Language): Ngôn ngữ của nội dung tư liệu
13) Liên kết (Relation): Yếu tố này thể hiện những kết nối giữa những
nguồn tư liệu có liên quan
14) Nơi chứa (Coverage): Những đặc tính về không gian và/hoặc thời gian
của tư liệu Không gian nơi chứa chỉ ra một vùng sử dụng địa danh hoặc
Trang 13toạ độ Đặc tính thời gian trong yếu tố này chỉ ra khoảng thời gian mà tư liệu đề cập tới
15) Bản quyền (Rights): là thông tin về tình trạng bản quyền Nếu muốn
xem phần toàn văn thì click chuột vào đường liên kết ở thành phần
Indentifier đến server – nơi cung cấp bộ sưu tập
Dưới đây là hình minh họa các yếu tố của Dublin Core được sử dụng trong phần Enrich của Greenstone
Hình 1: Giao diện các yếu tố của Dublin Core được sử dụng trong phần Enrich của Greenstone
Tiếp theo là hình mô tả siêu dữ liệu thư mục với liên kết đến phần toàn văn tài liệu
Trang 14Hình 2: Mô tả siêu dữ liệu thư mục với liên kết đến phần toàn văn tài liệu
Nếu muốn xem phần toàn văn thì click chuột vào đường liên kết ở thành
phần Indentifier đến server – nơi cung cấp bộ sưu tập
Greenstone dùng các thẻ XML để mô tả thông tin cho tài liệu, ví dụ:
<Metadata name =“Title”> Tìm hiểu nguồn mở Greenstone </Metadata>
<Metadata name =“Author”>Quy,Quỳnh </Metadata>
Các thẻ này có thể:
- Được nhúng trong tài liệu của bộ sưu tập, ví dụ các thẻ HTML trong tài liệu HTML
- Được lưu thành tập tin metadata kèm theo tài liệu
- Được trích một cách tự động từ một tài liệu nào đó, ví dụ thông tin về tên, kích thước, ngày tạo, ngày hiệu chỉnh,…tập tin tài liệu [19, tr 10]
Trang 151.1.5 Plugin
Do nguồn vào có nhiều dạng file tài liệu khác nhau như pdf word, text,… nên cần phải có một chương trình để chuyển chúng về một dạng thống nhất của Greenstone Plugin là chương trình con được xây dựng để sử dụng trong quá trình xây dựng bộ sưu tập Plugin có thể chuyển được phần lớn các file tài liệu ở các dạng khác nhau thành một dạng thống nhất của Greenstone là XML
Hình 3: Giao diện các Plugin
Dưới đây là một số các plugin sử dụng thường xuyên để xử lý các dạng tài liệu tương ứng như:
- TEXTPlug (*.txt, *.text): Xử lý tệp tin text thuần túy
- HTMLPlug (*.htm, *.html; also, shtml, shm, asp, php, cgi): Xử lý các file HTML
- WORDPlug (*.doc): Xử lý các tài liệu Word
- PDFPlug (*.pdf): Xử lý tập tin pdf
Trang 16- PSPlug (*.ps): Xử lý tài liệu PotScript, trích thông tin metadata ngày, tựa đề, số trang
- EMAILPlug (*.email): Xử lý các tập tin chứa E-mail, và xử lý những định dạng email thông thường được dùng trên Netscape, Eudora, and Unix Tuy nhiên, Plugin này chưa xử lý được các email mã hóa dưới dạng MINE
- ZIPPlug (.gz, z, tgz, taz, zip, tar): Xử lý các file dưới dạng nén hoặc lưu trữ như gzip (.gz, z, tgz, taz), bzip (.bz), zip (.zip, jar) và tar (.tar)
- IMAGEPlug (.gzip, bzip, zip, tar,…): Xử lý các tập tin ảnh Plugin này chỉ dùng trên UNIX
Các plugin xử lý tài liệu độc quyền: Đối với tài liệu độc quyền như word, pdf, ta dùng các plugin tương ứng là WordPlug, PDFPlug, Các plugin này thực hiện hai thao tác:
1 Chuyển tài liệu nguồn sang dạng html hay plain text
2 Xử lý plugin HTMLPlug hay TEXTPlug chuyển kết quả ở bước 1 sang dạng XML của Greenstone [19, tr 11]
1.1.6 Classifier ( Phân Loại)
Classifier dùng để xây dựng cấu trúc duyệt tài liệu trên web của một bộ sưu tập Tương tự các plugin, các classifier được đặc tả trong tập tin cấu hình collect.cfg của mỗi bộ sưu tập
Trang 17Hình 4: Giao diện minh họa về một số classifier
Trong phần cuối cùng của quá trình xây dựng bộ sưu tập (nén và tạo chỉ mục trên tài liệu), các classifier được script buidcol.pl gọi sẽ lưu cấu trúc duyệt tài liệu vào cơ sở dữ liệu bộ sưu tập
Cú pháp: classifier <Tên classifier> <Các tham số>
Ví dụ: classifier AZList – metadata Title – buttonnam TitleA-Z
Trong dòng đặc tả có một tham số quan trọng là metadata xác định rằng các tài liệu của bộ sưu tập sẽ được sắp xếp theo metadata đã được chỉ ra Với ví
dụ trên, các tài liệu được sắp xếp theo tựa đề của tài liệu (Title)
Tham số buttonname xác định tên nút xuất hiện trên thanh duyệt Với dòng đặc tả trên, khi ta click vào nút TitleA-Z trên thanh duyệt, các tài liệu của
bộ sưu tập được liệt kê theo thứ tự từng vùng alphabet
Trang 18Hình 5: Giao diện minh họa về classifier khi duyệt tài liệu theo trường tác giả
Những nút trên thanh duyệt, ngoại trừ nút Search, được quản lý bởi các classifier Khi định nghĩa một classifier trong tập tin collect.cfg, những nút liên quan sẽ xuất hiện trên thanh duyệt
Các nhóm classifier:
- Nhóm classifier liệt kê tài liệu dưới dạng danh sách (list):
+ Classifier AZList: liệt kê tài liệu theo từng vùng alphabet
Trang 19Hình 6 Giao diện liệt kê tài liệu theo dạng AZList
+ Classifier List: liệt kê tài liệu thành một danh sách sắp thứ tự alphabet
+ Classifier DateList: liệt kê tài liệu theo từng vùng thời gian
Hình 7: Liệt kê tài liệu theo dạng DateList
Trang 20- Nhóm classifier liệt kê tài liệu dưới dạng phân cấp:
+ Classifier Hierarchy: liệt kê các tài liệu dưới dạng phân cấp [19, tr 22-28]
Hình 8: Liệt kê tài liệu dưới dạng phân cấp
1.1.7 Duyệt tài liệu (Browser)
Greenstone cho phép định nghĩa trước các cấu trúc để duyệt tài liệu trong mỗi bộ sưu tập dựa trên những metadata tìm thấy trong bộ sưu tập đó
Ví dụ, bộ sưu tập Greenstone Demo cho phép ta duyệt các tài liệu theo metadata “đề mục”
Trang 21Hình 9 Minh họa duyệt tài liệu
Với những tài liệu phân cấp theo bảng mục lục, ta có thể duyệt theo chính mục lục đó, rất tiện lợi, như hình dưới đây
Hình 10: Tài liệu phân cấp theo bảng mục lục 1.1.8 Tìm kiếm (Search)
Chức năng tìm kiếm cho phép người dùng tin tìm kiếm toàn bộ nội dung văn bản, hoặc có thể tìm trên từng vùng hay đoạn Cũng có thể tìm kiếm theo các từ khóa, hay các cụm từ, và kết quả sẽ được sắp xếp thứ tự theo yêu cầu của câu truy vấn Với cách tìm kiếm linh hoạt này, việc truy cập đến các bộ sưu tập
Trang 22sẽ trở nên dễ dàng và thuận tiện, tiết kiệm được thời gian tìm kiếm cho người sử dụng
Tuy nhiên người xây dựng bộ sưu tập có thể tự lựa chọn chế độ tìm kiếm cho mỗi bộ sưu tập cũng như thiết kế các tiêu chí tìm kiếm riêng cho từng bộ sưu tập đó Greenstone không hạn chế số lượng các trường tìm kiếm, điều này phụ thuộc vào bộ metadata mà người xây dựng thư viện sử dụng và thiết kế
Hình 11: Giao diện chế độ tìm theo toàn văn, nhan đề, tác giả, nhà xuất bản,
chủ đề
1.2 Bối cảnh đời của phần mềm mã nguồn mở Greenstone
Trong những thập niên cuối của thế kỷ 20, sự phát triển mạnh mẽ của công nghệ thông tin đã tạo ra những thay đổi sâu sắc trong đời sống xã hội không chỉ trong phạm vi một quốc gia mà trên phạm vi toàn cầu Cùng với sự phát triển của công nghệ thông tin, xã hội loài người đã phát triển lên một bước cao hơn, tiếp cận với loại hình kinh tế mới – “Kinh tế tri thức”
Trang 23Cùng với tầm quan trọng của nguồn lực tri thức ngày càng được nâng cao, vai trò của ngành quản lý thông tin và tri thức càng trở nên quan trọng Khi thông tin và tri thức ngày càng trở nên phong phú, đa dạng, và phát triển mạnh
mẽ theo thời gian thì nhu cầu sử dụng và khai thác về thông tin của xã hội ngày càng trở nên cao cấp hơn Việc lưu trữ, khai thác, tổ chức, và phân phối thông tin đòi hỏi nhiều cách thức mới Cùng lúc đó, với cách mạng công nghệ thông tin, đặc biệt là sự bùng nổ của công nghệ thông tin, kỹ thuật số hóa làm cho khả năng đáp ứng nhu cầu đang tăng lên chưa từng có về lưu trữ, tổ chức và phân phối thông tin trở thành hiện thực Thư viện số ra đời trong bối cảnh trên, thật
sự bắt đầu cho một cuộc cách mạng trong lĩnh vực thư viện, đã và đang thay đổi hẳn cách nhìn về nghề thư viện Các thư viện số đã làm thay đổi nhanh chóng cách thức thu thập và phổ biến thông tin ở nhiều quốc gia Đứng trước yêu cầu thực tế, năm 1995 một nhóm nhỏ các giảng viên và sinh viên Đại học Waikato, New Zealand đã xây dựng phần mềm thư viện số Greenstone, giúp người dùng
dễ dàng xây dựng và phân phối các bộ sưu tập thư viện số Phần mềm Greenstone cung cấp một phương pháp mới để tổ chức và xuất bản thông tin trên Internet và qua CD-ROM Greenstone ban đầu là sản phẩm của dự án New Zealand Digital Library của trường Đại học Waikato Sau đó, thấy được ý nghĩa
và tác dụng của phần mềm, từ tháng 8/2000, UNESCO và tổ chức Human Info NGO đã tham gia phát triển, hỗ trợ, xuất bản và phân phối cho các quốc gia đang phát triển Đây là phần mềm mã nguồn mở được cung cấp trên http://www.greenstone.org theo thỏa thuận đăng kí GNU General Public License
Đầu năm 2004, Thư viện Đại học Khoa học Tự nhiên TP Hồ Chí Minh (ĐHKHTN)– đơn vị đầu tiên ở Việt Nam sử dụng Greenstone cho việc xây dựng thư vịện số với sự hỗ trợ phát triển phiên bản tiếng Việt của Integrated e Solution, ltd Việt Nam (IeS), giữa năm 2004 Thư viện trường Đại học Ngân hàng Thành phố Hồ Chí Minh (ĐHNH) là đơn vị thứ hai sử dụng Greenstone
Trang 24ây dựng thư viện số, tháng 10/2004 Trung tâm Thông tin Tư liệu Đại học Đà Nẵng cũng đã sử dụng để tạo lập các bộ sưu tập số hóa kết hợp với phần mềm cósẵn để phát triển thư viện số Một số bộ sưu tập ban đầu đã được hình thành như bộ sưu tập hình ảnh trang thiết bị thư viện của thư viện ĐHKHTN cũng đã rất bổ ích cho các thư viện đang sửa chữa hoặc xây dựng mới Hiện nay ở phía Nam thư viện của nhiều trường đại học cũng đã bắt đầu nghiên cứu đưa
Trang The New Zealand Digital Library, The University of Waikato hiện
nay giới thiệu 64 sưu tập về các chủ đề khác nhau từ Khoa học Xã hội Nhân văn
đến các sách điện tử
Trang 25Hình ảnh 12: Giao diện giới thiệu sưu tập của The New Zealand Digital
Library, The University of Waikato
Các sưu tập không chỉ bằng tiếng Anh mà còn cả ngôn ngữ của Ả rập, Ấn
Độ (Arabic Colelection) Trung Quốc (Chinese Demo Collection), Việt Nam (Information and Library Sciences) cho thấy khả năng hỗ trợ đa ngôn ngữ của Greenstone trong việc sử dụng bất kỳ loại ngôn ngữ nào Trong các bộ sưu tập này không phải đơn thuần như các ngôn ngữ theo hệ La tinh nên việc sưu tập và sắp xếp tài liệu đòi hỏi kỹ thuật khác hơn là sắp xếp theo A-Z, phải dùng xắp xếp theo trật tự riêng của từng ngôn ngữ như xếp theo Bộ của ngôn ngữ tượng hình
Ngoài ra các bộ sưu tập đa dạng về ngôn ngữ này còn có sưu tập của Trường Đại học Bắc Kinh về các tài liệu cổ khắc trên tre gỗ và đá, sưu tập tiếng Nga có Internet Mediacom của Cộng hòa Liên bang Nga
Trang 26Hình 13: Giao diện Trang ngôn ngữ Ả Rập (Arabic Collectons) và một trang tài liệu về Chủ Tịch Mao Trạch Đông trong sưu tập của Trung Quốc (Chinese Demo Collection)
Greensstone còn có thể cho phép các thư viện trường đại học trên thế giới
như Viện Khoa học Ấn Độ (Indian Institute of Science) và Đại học Waikado,
New Zealand tạo các sưu tập số theo từng loại hình xuất bản
Hình ảnh 14: Giao diện Giao diện Danh mục tạp chí của IISc Publications (Indian Institute of Science, India) Tạp chí toàn văn Journal of Artifical
Intelligence Research (The New Zealand Digital Library, The University of Waikado)
Bên cạnh đó, Greenstone ta có thể cho phép các thư viện tạo ra các sưu tập
Trang 27nguyên gốc của tạp chí điện tử đó Điều này giúp cho người sử dụng không thấy
có sự khác biệt của tạp chí khi đưa vào quản lý bởi phần mềm Greenstone và tạp chí điện tử nguyên gốc xuất bản trên mạng của nhà xuất bản như: Tidbits, Journal of Artificial Intelligencw Reasearch (The New Zealand Digital Library) Ngoài ra cũng có thể sưu tập danh mục tạp chí (chỉ biên mục quản lý nguồn mà không quản lý dữ liệu toàn văn của từng bài tạp chí) mà người sử dụng khi kết nối nội dung sẽ kết nối trực tiếp đến tạp chí gốc của nhà xuất bản : IISc
Publication (Indian Institute of Science, India)
Đại học Illinois Wesleyan, Mỹ cũng đã ứng dụng Greenstone để số hoá và quản lý các bộ sưu tập báo Có hai sưu tập nổi bật là The Rrgus Collections (Illinois Wesleyan University USA) từ 1894 -2003, và The Silent Worker (Washington Research Library Consortium (WRLC), USA Hai sưu tập này sử dụng dạng tài liệu toàn văn File format PDF của nguyên dạng hình ảnh scan báo không dùng File chuyển đổi sang HTML
Hình 15: Giao diện The Argus Collections (Illinois Wesleyan University USA )
Hội đồng Cymru and the Welsh Books Council sưu tập sách toàn văn xuất bản
từ đầu thế kỷ 19 đến giữa thế kỷ 20, của 2 ngôn ngữ English và Welsh Người
sử dụng có thể tra cứu nhan đề, tác giả và thời gian xuất bản
Trang 28Hình ảnh 16: Giao diện Trang chủ với danh mục sách và trang bìa sách nguyên bản Trong sưu tập Books From the Past
Nhờ Greenstone, Thư viện số NewZealand (The New Zealand Digital Library) đã tập hợp gần 10.000 giai điệu nhạc người sử dụng có thể nghe nhạc trực tiếp từ sưu tập này với sự hỗ trợ của các phần mềm Media: Media Player, Windows, MPEC… kích hoạt tự động từ máy tính hay có thể sao lưu vào máy tính cá nhân
Ngoài ra, các thư viện còn áp dụng Greenstone trong việc sưu tập
Music Video (The New Zealand Digital Library) Đây là bộ sưu tập Video
ca nhạc từ MTV mà người sử dụng tìm kiếm theo tên bài, thể loại nhạc hay tên các ca sĩ trình diễn : Eric Clapton, George Michael và Elton John…
Hình 16: Giao diện Music Library & Music Video (The New Zealand Digital Library)
Trang 29Việc sử dụng Greenstone để xây dựng các sưu tập hình ảnh của các thư viện được giới thiệu rất nhiều trên Internet rất đa dạng cách thể hiện cấu trúc và hiển thị Có 2 sưu tập ảnh được đánh giá là sưu tập lớn và chất lượng Trong hai sưu tập này thể hiện sự kết hợp chặt chẽ của biên mục truyền thống với dữ liệu Metadata và hiển thị biểu ghi này cùng với chế độ Thumbnail hình ảnh, và khi người sử dụng Click chọn vào đó mới hiển thị chế độ View hình ảnh ở cỡ lớn Trong đó, bộ sưu tập The Virginia Civil War Archive của Hội Thư viện nghiên cứu Washington, Mỹ (Washington Research Library Consortium
(WRLC), USA) có hơn 400 hình minh họa từ tạp chí Harper's Weekly từ
1861-1865 Bên cạnh đó, bộ sưu tập The Virginia Civil War Archive và American University Photograph and Print Collection của Hội Thư viện nghiên cứu
Washington, Mỹ (Washington Research Library Consortium (WRLC), USA) bao gồm các ảnh chụp về lịch sử, sinh hoạt, những sự kiện liên quan trong lịch
sử của nước Mỹ
Hình ảnh 16: Giao diện Bộ sưu tập The Virginia Civil War Archive và
American University Photograph and Print Collection Washington Research Library Consortium (WRLC), USA
Thư viện Đại học Chicago, Mỹ cũng áp dụng Greenstone để số hoá bộ sưu tập tài liệu âm nhạc Chopin Early Editions Đây sưu tập hơn 400 tác phẩm
âm nhạc của Frédéríc Chopin Sưu tập giữ nguyên gốc hình ảnh scan từ các bản
Trang 30nhạc để bảo đảm tính nguyên gốc, chúng ta có thể sao lưu và in ấn để sử dụng Sưu tập sử dụng dạng hiển thị tài liệu nguyên bản của những trang nhạc được in hay chép tay theo từng trang, từng chương theo cấu trúc mục lục của tài liệu gốc Các tác phẩm của Frédéríc Chopin thường được xuất bản trùng lắp nhau trên thể giới với các kiểu bản in khác nhau, Greenstone cho phép người sử dụng
có thể kết nối đến các tài liệu giống nhau để so sánh và đối chiếu Trong Chopin Early Edittions có thể tìm kiếm hay liệt kê theo nhan đề, thể loại và số bản nhạc
Hình ảnh 17: Giao diện Biểu ghi thư tịch và trang tựa của bản Sonate Grande sonate pour le pianoforte, oeuvre 4, Xuất bản 1851 tại Vienne trong sưu tập Chopin Early Editions
Trên đây, giới thiệu một số mẫu mô hình các sưu tập được tổ chức bởi các thư trên thế giới cho chúng ta cái nhìn tổng quát về tình hình sử dụng phần mềm thư viện số Greenstone trên toàn cầu với nhiều cách thể hiện, thay đổi giao diện bên ngoài và giao diện tìm kiếm cũng như tổ chức dữ liệu khác nhau Mục đích chính của các cơ quan thông tin – thư viện là làm sao đưa được sưu tập của mình đến người sử dụng với các khả năng tìm kiếm đa dạng và tiếp cận tài liệu toàn văn một cách hiệu quả nhất [17, tr 22-28]
1 4 Sơ lược về mã nguồn mở GREENSTONE
Trang 311.4.1 Greenstone là phần mềm nguồn mở và tự do:
Theo Richard Stallman, chủ tịch FSF (Free Software Foundation), Phần mềm tự do và Phần mềm nguồn mở là:
Chương trình ta có thể chạy với bất cứ mục đích nào
Có thể chỉnh sửa cho phù hợp với yêu cầu của mình
Có thể chỉnh sửa và tái phân phối bản sao, có hoặc không có thu phí trên phần chỉnh sửa của mình
Theo David Wheeler : “PMNM là những chương trình mà quy trình cấp phép sẽ cho người dùng quyền tự do chạy chương trình theo bất kỳ mục đích nào, quyền nghiên cứu và sửa đổi chương trình, quyền sao chép và tái phát hành phần mềm gốc hoặc phần mềm đã sửa đổi (mà không phải trả tiền cho những người lập trình trước)”
PMNM là những phần mềm đã được cung cấp dưới cả dạng mã và nguồn Người dùng có quyền sửa đổi, cải tiến, phát triển, nâng cấp theo một số nguyên tắc chung nhất định theo điều khoản quy định trong giấy phép PMNM (General Public Licence – GPL) mà không cần xin phép ai - điều mà họ không được phép làm với Phần mềm nguồn đóng (PMNĐ) hay còn gọi là Phần mềm thương mại
Phần mềm nguồn mở Greenstone có thể download để sử dụng miễn phí tại http://greenstone.org Nếu dùng phiên bản Tiếng Việt thì phải trả phí dịch sang Tiếng Việt cho Công ty Integrated e-Solutions Việt Nam Lệ phí này cộng với chi phí cài đặt và huấn luyện sử dụng là 10.000.000 đồng Đây là một lệ phí tượng trưng so với một phần mềm tương đối lớn với nhiều tính năng hiện đại ứng dụng công nghệ mới, đã được UNESCO mua bản quyền sử dụng trở thành phần mềm nguồn mở và tự do, được phổ biến khắp nơi trên thế giới.[17, tr 1]
1.4.2 Greenstone là phần mềm đa ngôn ngữ
Hiện nay, Greenstone được dùng rộng rãi trong thư viện của các trường đại học trên thế giới Phần mềm Greenstone trên CD-ROM được Liên Hiệp
Trang 32Quốc và những cơ quan nhân đạo khác xuất bản và phân phối cho các quốc gia đang phát triển Greenstone được dịch sang hơn 50 ngôn ngữ bao gồm:
Bốn ngôn ngữ nòng cốt: Anh, Pháp, Tây Ban Nha, và Nga Ấn bản Greenstone Tiếng Pháp, Tây Ban Nha, và Nga được UNESCO bảo trì; ấn bản Tiếng Anh do Chương trình Dự án thư viện số New Zealand bảo trì Khi chúng ta download Greenstone thì giao diện của bốn ngôn ngữ nòng cốt tự động được cài đặt; còn các ngôn ngữ khác cần có sự tham gia của người bảo trì hệ thống Greenstone
Các ấn bản của các ngôn ngữ đã hoàn chỉnh bao gồm: Arabic, Armenian, Ba Lan, Bengali, Bồ Đào Nha (Brazil), Bồ Đào Nha (Portugal), Catalan, Croatian, Czech, Đức, Farsi, Galician, Georgian, Hà Lan, Hebrew, Hindi, Hy Lạp, Indonesian, Italian, Kannada, Kazakh, Kirghiz, Latvian, Maori, Mông Cổ, Nhật, Phần Lan, Serbian, Thái Lan, Thổ Nhỉ Kỳ, Trung Hoa (phổ thông), Trung Hoa (truyền thống), Ukrainian, Việt Nam
Các ấn bản của các ngôn ngữ đang tiến hành phiên dịch bao gồm: Bislama, Blackfoot/Siksika, Bosnian, Esperanto (Quốc tế ngữ), Hungarian, Korean, Macedonian, Marathi, Nepali, Romanian, Shona, Tamil [17, tr 1-3]
1.5 Đặc điểm của Greenstone
- Truy cập rộng rãi: Bộ sưu tập được truy cập qua một trình duyệt web
chuẩn
- Đa hệ: Bộ sưu tập có thể chạy trên Window và Unix
- Hướng metadata: Chỉ mục lướt tìm được tạo nên từ metadata
Metadata có thể kết hợp với mỗi tài liệu hoặc một phần của tài liệu
- Thang độ (scale) lớn
- Những bộ sưu tập chứa hàng triệu tài liệu, nhiều gigabytes có thể
được tạo ra
Trang 33- Truy tìm toàn văn nhanh chóng: Có thể nén để giảm kích thước văn
bản và chỉ mục
- Greenstone tương thích Z39.50: Giao thức Z39.50 hỗ trợ việc truy
cập máy chủ bên ngoài cũng như giới thiệu bộ sưu tập Greenstone cho người sử dụng bên ngoài
- Truy tìm linh hoạt: Người sử dụng có thể truy tìm toàn văn tài liệu
với những dẫn mục thích hợp Người sử dụng có thể lướt tìm danh mục tác giả, danh mục nhan đề, danh mục đề mục, danh mục từ khoá, danh mục ngày tháng, những cấu trúc phân cấp, vv…
- Đa phương tiện: Bộ sưu tập có thể chứa hình ảnh, âm nhạc, đoạn băng
ghi âm và hình
- Có thể xuất ra CD-ROM: Bộ sưu tập có thể xuất ra một CD-ROM tự
khởi động
- Greenstone là phần mềm nguồn mở: Đặc điểm này cho phép các thư
viện dễ dàng chỉnh sửa tuỳ theo yêu cầu và mục đích của từng thư viện [14, tr 4]
1.6 Yêu cầu phần mềm:
Phần mềm Greenstone yêu cầu
OS Windows / Linux
Apache Web server / IIS
Trình duyệt Web Netscape Navigator hay Internet Explorer
Để tổ chức và xây dựng một bộ sưu tập mới với phần mềm Greenstone, thông thường có hai loại tài liệu: tài liệu đã ở dạng điện tử và tài liệu in ấn cần phải số hóa Đối với tài liệu ở dạng điện tử thì công việc hết sức dễ dàng, ngay
cả việc sưu tầm, tổ chức tập tin và chuyển đổi dạng thức Đối với tài liệu in ấn thì ta phải tiến hành số hoá bằng cách quét tài liệu và chuyển qua dạng PDF; khi
sử dụng Greenstone để lưu trữ tài liệu đó trong CSDL thì tự động mang hai dạng HTML và PDF
Trang 34Có 3 cách để xây dựng bộ sưu tập với Greenstone:
Xây dựng tự động bằng công cụ GREENSTONE COLLECTOR
Xây dựng thủ công bằng công cụ ORGANIZER
Xây dựng bán tự động bằng công cụ LIBRARIAN INTERFACE Công cụ LIBRARIAN INTERFACE dùng để tổ chức một tài liệu, công
việc này trong nghiệp vụ thư viện gọi là biên mục (cataloging), còn trong công
nghệ kỹ thuật số thì gọi là xác định metadata Một tài liệu sau khi được tổ chức
biên mục theo chuẩn Dublin Core (thủ công) và xác định metadata (tự động) sẽ
trở thành một thư mục chứa ít nhất là 2 biểu ghi: một biểu ghi nội dung dạng
HTML và biểu ghi metadata Nếu nội dung mang nhiều dạng thức khác nhau thì
thư mục tài liệu có nhiều biểu ghi hơn Giao diện LIBRARIAN INTERFACE
trình bày 15 yếu tố của Dublin Core cho ta biên mục tài liệu Quá trình này
khiến ta chọn những dẫn mục hay điểm truy cập của mỗi tài liệu để phục vụ
việc truy tìm và lướt tìm sau này Cũng bằng giao diện này, Greenstone sẽ cho
ta xác định những dẫn mục và hình thức truy tìm hay lướt tìm được trình bày
trên giao diện của bộ sưu tập Chẳng hạn như: Nhan đề (Title), Tác giả
(Author), Từ khoá (Keywork), Đề mục (Subject), vv… hoặc Tìm kiếm (Search)
thì tìm kiếm trên những điểm truy cập nào Trong quá trình tổ chức tài liệu, việc
thêm, bớt hay thay thế những yếu tố của Dublin Core là rất dễ dàng Công việc
sưu tầm và tổ chức tài liệu cứ tiếp diễn liên tục, tài liệu được lưu vào máy tính
cá nhân Greenstone hoàn toàn xử lý một cách tự động và nhanh chóng một khi
chúng ta muốn xuất bản tài liệu như một bộ sưu tập lên Internet hay CD-ROM
Dĩ nhiên chúng ta vẫn có thể cập nhật tài liệu vào bộ sưu tập của chúng ta mỗi
khi cần thiết; khi đó thì ta phải xuất bản lại bộ sưu tập
Mỗi bộ sưu tập được xuất bản lên Internet hay CD-ROM đều có một giao
diện Greenstone kèm theo Nếu trên CD-ROM thì giao diện Greenstone có chứa
sẵn một phần trình duyệt (web browser) Netscape để tải xuống (download) cho
Trang 35sưu tập được xuất ra CD-ROM thì người sử dụng có thể dùng bất kỳ một máy tính với bất kỳ một hệ điều hành nào đều có thể đọc, truy tìm, lướt tìm, in ra những thông tin trên bộ sưu tập với giao diện thân thiện của Greenstone Nếu chúng ta sử dụng và truy cập vào các bộ sưu tập của các quốc gia khác nhau khắp nơi trên thế giới thì chúng ta có thể sử dụng giao diện của nhiều ngôn ngữ, trong đó có cả giao diện Tiếng Việt [14, tr 7 -8]
1.7 Tính năng của nguồn mở Greenstone
Sau đây là những đặc trưng nổi bật, và cũng là ưu thế của Greenstone
Truy cập qua trình duyệt web, cả ở chế độ cục bộ và từ xa
Tương thích Z39.50 Giao thức Z39.50 hỗ trợ việc truy cập máy chủ bên ngoài cũng như giới thiệu bộ sưu tập Greenstone cho người sử dụng bên ngoài
Chạy được trên nhiều hệ điều hành: Windows, Unix, Mac OS X Nhờ vậy, Greenstone dễ dàng được sử dụng ở nhiều nơi
Tìm kiếm toàn văn và tìm kiếm theo từng trường riêng biệt
Khả năng trình duyệt linh động, đa dạng
Cấu trúc duyệt tài liệu được xây dựng hoàn toàn tự động
Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo bộ sưu tập không phải làm bằng tay
Khả năng linh động, dễ mở rộng và chỉnh sửa hệ thống nhờ các thành phần như plugin, classifier
Hỗ trợ xử lý tài liệu với nhiều loại ngôn ngữ Unicode được dùng
để hỗ trợ việc chuyển đổi ngôn ngữ
Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, Greenstone còn cho phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện (multimedia) Nhờ vậy, các thư viện và trung tâm thông tin có thể lưu trữ, quản lý, bổ sung được nhiều loại hình tài liệu phục vụ cho nhu cầu đa dạng của người sử dụng
Trang 36 Khả năng lưu trữ rất lớn, tới hàng Gigabyte dữ liệu
Thêm mới bộ sưu tập đơn giản, có hiệu quả tức thì Khi sưu tầm thêm được những tài liệu mới, ta có thể dễ dàng bổ sung vào bộ sưu tập bằng cách tái xây dựng
Khả năng xuất bản các bộ sưu tập ra CD - ROM hoặc DVD - ROM, với đầy đủ tính năng để có thể tự cài đặt và chạy độc lập Mỗi bộ sưu tập được xuất bản lên Internet hay CD-ROM đều có một giao diện Greenstone kèm theo Nếu trên CD-ROM thì giao diện Greenstone có chứa sẵn một phần trình duyệt Netscape để tải xuống cho những máy cá nhân nào không sử dụng web Như vây, mỗi khi một bộ sưu tập được xuất ra CD-ROM thì cho phép người
sử dụng có thể dùng bất kỳ một máy tính với bất kỳ một hệ điều hành nào đều có thể đọc, truy tìm, lướt tìm, in ra những thông tin trên bộ sưu tập với giao điện thân thiện của Greenstone
Các bộ sưu tập dễ dàng được mang chuyển, phân phối, chia sẻ Việc phân phối bao gồm các bản cài đặt cho tất cả các phiên bản của Windows, Linux và Mac OS X Nó cũng cung cấp toàn bộ mã nguồn của hệ thống để người sử dụng có thể biên dịch lại bằng Microsoft C++ hoặc gcc Phần mềm đi kèm với Greenstone cũng hoàn toàn miễn phí, ví dụ Apache Webserver và PERL Giao diện người sử dụng dùng một trình duyệt Web điển hình là Netscape Navigator hoặc Internet Explorer [17, tr 5]
1.8 Ưu điểm của nguồn mở Greenstone
Greenstone là phần mềm đa ngôn ngữ, với các giao diện sẵn có bằng tiếng Anh, tiếng Pháp, tiếng Nga và được dịch ra hơn 50 ngôn ngữ khác tạo điều kiện thuận lợi cho người sử dụng khi ứng dụng phần mềm vào hoạt động thư viện
Trang 37Phần mềm này có sẵn một số lượng lớn sự giúp đỡ trực tuyến và từ những nguồn khác Website của Greenstone có một trang Wiki hướng dẫn trực tuyến, hai địa chỉ thư điện tử, và chương trình đào tạo toàn cầu Những phần khác giải thích cụ thể cho sự hỗ trợ rộng rãi là một trong những điểm mạnh nhất của Greenstone Greenstone có nhiều tài liệu hướng dẫn sử dụng, hướng dẫn cài đặt Trong quá trình xây dựng các thư viện có thể trao đổi kinh nghiệm với nhau và
có thể tham khảo từ các thư viện nước ngoài thông qua thư điện tử Hiện nay các tài liệu hướng dẫn sử dụng đã được dịch sang tiếng Việt rất thuận lợi cho các thư viện Việt Nam khi muốn sử dụng phần mềm này
Greenstone được phân phối với sự hỗ trợ của UNESCO và Human Info NGO làm cho phần mềm này được sử dụng miễn phí Ngoài các cơ quan thông tin - thư viện, các cá nhân đều có thể sử dụng Greenstone bằng cách download phần mềm này từ trang web http://www.greenstone.org/ rồi chuyển chúng về giao diện ngôn ngữ mình sử dụng Giấy phép cho phần mềm Greenstone là chuẩn của GNU General Public Licence Chẳng hạn như ta có thể kiểm tra Greenstone trong máy tính cá nhân trước khi đưa chúng vào sử dụng miễn phí trong thư viện Greenstone sẽ dễ dàng chạy trên nhiều hệ điều hành vì nó được
hỗ trợ chạy trên tất cả các hệ điều hành từ Windows95 đến WindowsXP, các phiên bản của Unix và Max OS X Đặc biệt, khi Greenstone không chạy được trên máy tính cá nhân chúng ta vẫn có thể truy cập thư viện số qua trang web của Greenstone
Bên cạnh đó Greenstone là một chương trình rất dễ chỉnh sửa mà không cần trình độ cao về máy tính Có bốn cấp độ quản lý việc truy cập (cán bộ thủ thư trợ giúp, thủ thư, hệ thống chuyên gia, và các nhà chuyên môn) cùng với việc truy cập của độc giả Mức độ truy cập của thủ thư cho phép họ có thể tùy biến Greenstone để đáp ứng nhu cầu cụ thể của từng thư viện riêng, trong khi đó cấp độ hệ thống chuyên gia và nhà chuyên môn truy cập cho phép họ xây dựng
và kết hợp chúng với các chương trình đã có trước đó [2] Nhờ đặc điểm linh
Trang 38hoạt này mà Greenstone sẽ phù hợp với mọi thư viện Hơn nữa, nhờ cơ chế này
mà thư viện số sẽ có ý nghĩa và hữu ích hơn vì độc giả và nhân viên thư viện cùng hợp tác xây dựng các bộ sưu tập, đặc biệt là các bộ sưu tập chuyên ngành cũng như nhiều thư viện cùng hợp tác chia sẻ với nhau những bộ sưu tập đó Ví
dụ, thư viện trường ĐH KHTN TP HCM đã quảng bá việc sử dụng Greenstone đến nhiều đồng nghiệp, đồng thời tổ chức và triển khai các lớp tập huấn giới thiệu và sử dụng Greenstone đến cán bộ giảng dạy, các nhà nghiên cứu nhằm xây dựng những bộ sưu tập theo chuyên ngành của mình để sử dụng và đóng góp cho thư viện, tạo thành kho tài nguyên học tập dùng chung cho tất cả mọi người
Greenstone còn có khả năng vượt trội hơn nữa đó là khả năng xây dựng các bộ sưu tập ảo bằng cách nhúng Greenstone vào cổng thông tin tích hợp, kế thừa các tính năng tổ chức và tìm kiếm tài liệu sẵn có ở thư viện để gặt hái siêu
dữ liệu từ các nguồn trên internet dựa vào giao thức OAI-PMH nổi tiếng Mỗi
bộ sưu tập được xây dựng là tập hợp các biểu ghi OAI từ một hoặc nhiều địa chỉ liên kết URL Thư viện trường ĐH KHTN TP HCM đã xây dựng được bộ sưu tập ảo nhờ phương thức này bạn đọc có thể truy cập vào bộ sưu tập tương tự như truy cập các bộ sưu tập số
1.9 Một số hạn chế của nguồn mở Greenstone
Greenstone cho phép quản lý các nguồn tài nguyên số hóa nhưng việc truy cập đến những nguồn tài nguyên này lại không được quản lý Bạn đọc có thể truy cập một cách rộng rãi mà không cần có tài khoản và mật khẩu Điều này sẽ gây ra những khó khăn cho việc quản lý các tài liệu số hóa trong trường hợp đó là những tài liệu dành riêng cho một nhóm độc giả nhất định, ví dụ như tài liệu dành riêng cho các nhà nghiên cứu hay dành riêng cho giảng viên Đối với những nguồn tài liệu quý hiếm thì quản lý việc truy cập đến nguồn tài liệu này càng trở nên quan trọng Để bảo quản tốt các nguồn tài nguyên số các thư viện sử dụng phần mềm Greenstone phải có thêm chương trình quản lý tài
Trang 39nguyên số Nếu trong thư viện chưa có một chương trình riêng để bảo quản các nguồn tài nguyên số thì nó sẽ cần phải có một chương trình như vậy
Với phiên bản tiếng Việt, phần mềm này chưa phân biệt được D và Đ Nếu chúng ta duyệt tài liệu theo trật tự alphabel, vần Đ sẽ bị lẫn sau các vần khác
Tài liệu tiếng Việt được trình bày ở dạng font Tiêu chuẩn Việt Nam 3 - TCVN3 (ABC) sẽ bị lỗi font chữ khi tự động chuyển sang định dạng XML của Greenstone
Có quá ít các tài liệu nói về điểm yếu của phần mềm Greenstone Vì vậy
mà hầu hết các trung tâm thông tin thư viện sẽ khó khăn trong việc xác định và giải quyết vấn đề khi có sự cố xảy ra trong quá trình ứng dụng phần mềm này
Trang 40CHƯƠNG 2 THỰC TRẠNG NGHIÊN CỨU, GIẢNG DẠY VÀ ỨNG DỤNG PHẦN MỀM MÃ NGUỒN MỞ GREENSTONE Ở VIỆT NAM
2.1 Thực trạng nghiên cứu và giảng dạy mã nguồn mở Greenstone ở Việt Nam
Hiện nay việc ứng dụng công nghệ thông tin vào hoạt động thư viện ở Việt Nam đã được quan tâm song thực tế do nguồn kinh phí còn ở mức độ hạn chế nên việc đầu tư hiện đại hóa cho thư viện còn gặp nhiều khó khăn Bên cạnh việc đầu tư trang thiết bị và công nghệ hiện đại, chúng ta còn phải đầu tư cho việc đào tạo cán bộ có đủ khả năng sử dụng công nghệ hiện đại đó Một nguyên nhân nữa dẫn đến tình trạng này là ở nước ta việc nghiên cứu những công nghệ hiện đại vẫn bị bỏ ngỏ, trong khi đây cũng là một công việc quan trọng không kém so với việc cần có nhiều kinh phí Một trong những biện pháp khắc phục được hạn chế về kinh phí và đang được nhiều thư viện trên thế giới hướng tới
đó là sử dụng những phần mềm nguồn mở để xây dựng nguồn tài nguyên số cho thư viện Phần mềm nguồn mở được sử dụng miễn phí cho các thư viện, nó lại
có nhiều tính năng phù hợp cho hệ thống thư viện ở Việt Nam cũng như những nước có trình độ công nghệ chưa cao và nguồn kinh phí hạn hẹp
Ở nước ta, có một số trường học đã đưa nội dung phần mềm Greenstone vào giảng dạy và một số tác giả đã nghiên cứu về phần mềm song ở mức độ hạn chế Có thể thấy rõ việc nghiên cứu Greenstone chủ yếu được tiến hành ở miền Nam với một số tác giả tiêu biểu và các bài báo của họ như: ThS Nguyễn Thanh Minh đã đề cập đến việc “Ứng dụng phần mềm nguồn mở thư viện số Greenstone trong việc xây dựng bảo tàng tiền số hóa” (2006), “Ứng dụng phần mềm nguồn mở thư viện số Greenstone trong việc tạo lập và phân phối kho tài nguyên số hóa phục vụ giảng dạy và nghiên cứu trong trường đại học” (2005), Ths Nguyễn Minh Hiệp nghiên cứu “Sử dụng phần mềm nguồn mở Greestone
để xây dựng thư viện số - cơ hội cho tất cả các thư viện Việt Nam” (2004),
“Thư viện số với hệ thống nguồn mở” (2006), “Sử dụng Phần mềm nguồn mở