Để cụ thể hóa những chương trình nói trên và bắt kịp xu hướng pháttriển xây dựng các thư viện hiện đại, điện tử thì việc sử dụng các phần mềm mã nguồn mở là một trong những giải pháp ưu
Trang 1TRƯỜNG CAO ĐẲNG NỘI VỤ HÀ NỘI
• • •
Chủ nhiệm đề tài: Ths LÊ NGỌC DIỆP
Các thành viên đề tài: Ths Lê Thanh Huyền
CN Phạm Quang Quyền
CN Nguyễn Bích Hạnh
Hà Nội, 2009
Trang 2TRƯỜNG CAO ĐẲNG NỘI VỤ HÀ NỘI
• • •
Chủ nhiệm đề tài: Ths Lê Ngọc Diệp
Trang 3Hà Nội, 2009
Trang 4ThS Lê Ngọc Diệp Báo cáo tổ ng kế t công trình nghiên cứ u khoa học
MỤC LỤC
PHẦN MỞ ĐẦU 3
1 Tính cấp thiết của đề tài 3
2 Mục tiêu, nhiệm vụ nghiên cứu 3
3 Đối tượng, phạm vi nghiên cứu 4
4 Phương pháp nghiên cứu 4
5 Kết cấu của đề tài 4
Chương 1 THƯ VIỆN SỐ 5
1 Khái niệm 5
2 Vị trí, vai trò của thư viện số trong thư viện và thư viện nhà trường
6 3 Tình hình phát triển thư viện số trên thế giới và Việt Nam 9
3.1 Tình hình phát triển thư viện số trên thế giới 9
3.2 Tìn h hình phát triển thư viện số ở Việt Nam 10
Chương 2 PHẦN MỀM NGUỒN MỞ GREENSTONE VÀ THỰC TRẠNG ỨNG DỤNG CNTT TẠI THƯ VIỆN TRƯỜNG CĐ NVHN THỜI GIAN QUA 12
1 Ph ần mềm nguồn mở Greenstone 12
1.1 Vài nét về phần mềm nguồn mở (Open Source Software) 12
1.2 Khái quát về phần mềm nguồn mở Greenstone 16
1.2.1 Giới thiệu 16
1.2.2 Tính năng 17
1.3 Một số khái niệm cơ bản trong Greenstone 18
1.3.1 Tài liệu 18
1.3.2 Bộ sưu tập 18
1.3.3 Tìm kiếm 18
1.3.4 Duyệt tài liệu 18
1.3.5 Metadata 19
1.3.6 Biên mục 19
1.3.7 Plugin 19
1.3.8 Classifier 21
1.3.9 Định dạng cách hiển thị tài liệu 23
2 Thực trạng ứng dụng CNTT tại thư viện Trường CĐ NVHN thời gian qua 26
Chương 3 ỨNG DỤNG GREENSTONE ĐỂ XÂY DỰNG VÀ PHÂN PHỐI CÁC BỘ SƯU TẬP SỐ TẠI THƯ VIỆN TRƯỜNG CĐ NVHN 30
1 Yêu cầu về hệ thống
30 2 Cấu trúc chương trình xây dựng bộ sưu tập bằng GREENSTONE 30
2.1 Giới thiệu 30
2.2 Chương trình mkcol.pl 31
2.2.1 Công dụng: 31
Trang 5ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
2.2.2 Cú pháp: 31
2.2.3 Các tùy chọn: 31
2.3 Chương trình import.pl 32
2.3.1 Công dụng: 32
2.3.2 Cú pháp: 32
2.3.3 Các tùy chọn: 32
2.4 Chương trình buildcol.pl 33
2.4.1 Công dụng 33
2.4.2 Cú pháp 33
2.4.3 Các tùy chọn 33
2.5 Cấu trúc thư mục của Greenstone 35
2.6 Cấu trúc thư mục của một bộ sưu tập 36
2.7 Cấu trúc tài liệu theo định dạng XML 37
2.8 Tập tin cấu hình bộ sưu tập 39
3 Công tác chuẩn bị xây dựng bộ sưu tập số 42
3.1.Số hóa tài liệu in ấn 42
3.2 Siêu dữ liệu Dublin Core Metadata 44
4 Cài đặt GREENSTONE trên hệ điều hành Windows 47
4.1 Cài đặt phần mềm yêu cầu 47
4.1.1 Cài đặt ImageMagick 47
4.1.2 Cài đặt Java 50
4.2 Cài đặt Greenstone 51
5 Xây dựng bộ sưu tập số với GREENSTONE LIBRARIAN INTERFACE 55
5.1 Khởi động giao diện Librarian Interface 55
5.2 Th ao tác với Gather để lựa chọn tài liệu 55
5.3 Thao tác với tab ENRICH & DESIGN để biên mục tài liệu 57 5.4 Th ao tác với CREATE để xuất bản bộ sưu tập 61
5.5 Là m việc với Tab Format 61
5.6 Xuất bản bộ sưu tập ra CD-ROM 61
5.7 Xây dựng các bộ sưu tập chạy trên máy và xuất ra CD-ROM 62 KẾT LUẬN 63
DANH MỤC TÀI LIỆU THAM KHẢO 65
Trang 6ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
PHẦN MỞ ĐẦU
1 Tính cấp thiết của đề tài
Việt Nam đang hội nhập một cách tích cực và mạnh mẽ, thực hiệncông cuộc đổi mới, CNH, HĐH, phấn đấu đến năm 2020 cơ bản trở thànhmột nước công nghiệp theo hướng hiện đại Với mục tiêu tổng quát đó, Nhànước đã có nhiều chương trình, kế hoạch ứng dụng các giải pháp khoa họccông nghệ tiên tiến hiện đại vào trong quản lý, sản xuất và đời sống Chươngtrình phát triển công nghiệp nội dung số Việt Nam đến năm 2010 của Chính
phủ (Quyết định số: 56/2007/QĐ-TTg, ngày 03 tháng 5 năm 2007) và Dự án
tổng thể “ứng dụng và phát triển phần mềm nguồn mở ở Việt Nam giai đoạn2004-2008” được Thủ tướng Chính phủ phê duyệt theo Quyết định số235/QĐ-TTg ngày 2/3/2004 là một trong những chương trình như vậy
Để cụ thể hóa những chương trình nói trên và bắt kịp xu hướng pháttriển xây dựng các thư viện hiện đại, điện tử thì việc sử dụng các phần mềm
mã nguồn mở là một trong những giải pháp ưu tiên
Với mục tiêu phát triển thư viện theo hướng hiện đại hội nhập chuẩn hóa, qua đó góp phần nâng cao chất lượng đào tạo, mở rộng quy môđào tạo của Trường Cao đẳng Nội vụ Hà Nội trong thời gian tới, chúng tôi
-mạnh dạn chọn đề tài nghiên cứu “Ứng dụng phần mềm nguồn mở
Greenstone để xây dựng các bộ sưu tập số tại thư viện trường Cao đẳng Nội vụ Hà Nội” Đây là nội dung mà cho đến nay chưa có công trình nghiên
cứu nào thực hiện
2 Mục tiêu, nhiệm vụ nghiên cứu
Trên cơ sở nghiên cứu lịch sử ra đời, cấu trúc hệ thống, tính năng,quy trình thao tác vận hành và thực trạng ứng dụng GREENSTONE; thựctrạng ứng dụng CNTT tại thư viện Trường CĐ NVHN thời gian qua, trên cơ
sở đó ứng dụng GREENSTONE để xây dựng và phân phối các bộ sưu
tập số Qua đó góp phần thúc đẩy mạnh mẽ quá trình phát triển của thư viện
Trang 7Trường CĐ NVHN thành thư viện số trong thời gian tới.
- Tìm hiểu về Thư viện số
- Nghiên cứu lị ch sử ra đời và phát triển của GREENSTONE
- Nghiên cứ u cấ u trúc, tính nă ng, ứ ng dụ ng củ a GREENSTONE
- Tìm hiể u thực trạng ứng dụng CNTT tại thư viện Trường CĐNVHN thời gian qua
- Ứng dụng GREENSTONE để xây dựng và phân phối các bộ sưu tập
số tại thư viện Trường CĐ NVHN
3 Đối tượng, phạm vi nghiên cứu
Các vấn đề về cấu trúc, tính năng của phần mềm nguồn mởGREENSTONE và ứng dụng GRENSTONE để xây dựng các bộ sưu tập sốtại thư viện Trường CĐ NVHN
4 Phương pháp nghiên cứu
- Khả o sát thự c tế
- Phân tích và tổng hợp tài liệu
- Phương pháp chuyên gia
- Phương pháp thực nghiệm
5 Kết cấu của đề tài
Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo, bố cục của đề tài bao gồm ba chương :
Chương 1 Thư viện số
Chương 2 Phần mềm nguồn mở Greenstone và thực trạng ứng dụng CNTT tại thư viện Trường CĐ NVHN thời gian qua
Chương 3 Ứng dụng GREENSTONE để xây dựng và phân phối các
bộ sưu tập số tại thư viện Trường CĐ NVHN
Trang 8ThS Lê Ngọc Diệp Báo cáo tổ ng kế t công trình nghiên cứ u khoa học
Chương 1 THƯ VIỆN SỐ
Hiện nay, với sự phát triển mạnh mẽ của khoa học và công nghệ, thưviện có xu hướng toàn cầu hóa, sử dụng “tài nguyên” chung, trên thế giới đãxuất hiện nhiều loại thư viện hiện đại khác nhau: Thư viện đa phương tiện(Multimedia library), thư viện điện tử ( Electronic library), thư viện số(Digital library), thư viện ảo (Virtual library)
Các thuật ngữ thư viện điện tử, thư viện số, thư viện ảo được sử dụngcùng một nội dung mà thuật ngữ chung nhất là thư viện điện tử có ý nghĩacho mọi loại hình thư viện đã được tin học hoá Như vậy thư viện số và thưviện ảo cũng là thư viện điện tử nhưng ở trình độ cao hơn Tuy nhiên, thuậtngữ thư viện số được cộng đồng thư viện thế giới sử dụng rộng rãi
- Thư viện đi ện tử: Nét đặc trưng của thư viện điện tử sử dụng cácphương tiện điện tử trong việc lưu trữ, bảo quản, tìm tin và phổ biến thôngtin Loại hình thư viện này cho phép người đọc tiếp cận đến các cơ sở dữliệu quốc tế, dịch vụ thư viện tại nhà, truyền hình cáp, mục lục tiếp cận côngcộng trực tuyến (Online Public access catalog) và hệ thống cho mượn tựđộng Tuy nhiên trong thư viện điện tử, ấn phẩm truyền thống vẫn tồn tạinên yếu tố con người vẫn vô cùng quan trọng trong việc lựa chọn các phầnmềm sử dụng trong các khâu công tác cụ thể
- Thư viện sốI: Thư viện số là nơi cung cấp cho nguời dùng tin nguồnlực, tài nguyên, trong đó bao gồm cả các chuyên gia làm công việc lựa chọn,xây dựng CSDL giúp người dùng tin đến với tri thức; phân phối và bảo quảntoàn vẹn tài liệu dưới dạng số Một thư viện số cũng đảm bảo việc sử dụngtài liệu điện tử một cách dễ dàng hiệu quả với giá rẻ Thư viện số cho phépngười dùng tin có thể truy cập từ xa thông qua modem hoặc các mạng lướitruyền thông tự động
Thư viện số là hình thức kết hợp giữa thiết bị tính toán, lưu trữ và
I Digital libraries: definition, issues and challenges IFLANET UDT occasional paper N 0 8 Mars
Trang 9ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
truyền thông số với nội dung và phần mềm cần thiết để tái tạo, thúc đẩy và
mở rộng các dịch vụ của các thư viện truyền thống vốn dựa trên các biệnpháp thu thập, biên mục và phổ biến thông tin trên giấy và các vật liệu khác.Một thư viện số hoàn chỉnh phải thực hiện tất cả các dịch vụ cơ bản của thưviện truyền thống kết hợp với việc khai thác các lợi thế của công nghệ lưutrữ, tìm kiếm và truyền thông số
Nghiên cứu về thư viện số bao gồm một loạt các vấn đề kỹ thuật, xãhội và chính trị kết hợp với nhau Khái niệm thư viện số không chỉ tươngđương với một sưu tập số hoá và các công cụ quản trị thông tin Đúng ra đó
là một môi trường tập hợp các sưu tập, dịch vụ và con người để hỗ trợ chomột chu trình hoàn chỉnh của việc sáng tạo, phổ biến, sử dụng và bảo quản
dữ liệu, thông tin và tri thức (Hội thảo Santa Fe về môi trường làm việc phổbiến tri thức) và có hàm ý về một môi trường mạng cung cấp nội dung
2 Vị trí, vai trò của thư viện số trong thư viện và thư viện nhà trường
Ngày nay vẫn còn nhiều người cho rằng thư viện là một nơi yên tĩnhtrong đó sách được cất giữ và người ta đánh giá thư viện theo tiêu chí sốlượng sách được cất giữ nhiều hay ít Đối với những người làm công tác thưviện có chuyên môn thì thư viện là một cơ sở có tổ chức để bảo quản tàiliệu, sưu tập và để truy cập đến những thư viện khác; không chỉ có sách màcòn có phim ảnh, băng đĩa âm thanh, sản phẩm văn hoá, v.v Đối với nhànghiên cứu, thư viện là một mạng lưới cung cấp việc truy cập đến tri thứcnhân loại được lưu giữ ở khắp mọi nơi Nhiều sinh viên khoa học và côngnghệ ngày nay trên thế giới thì cho rằng thư viện chính là World Wide Web.Đây là một quan niệm không đúng mặc dầu ngày nay Web là công nghệquan trọng của thư viện Sự khác nhau giữa thư viện số với World WideWeb thể hiện ở chổ Web thiếu hẳn những đặc điểm quan trọng của việc sưutầm và tổ chức thông tin; trong khi thư viện số ngày càng hoàn thiện việc tổchức để người sử dụng tự hình thành tri thức với phương châm
Trang 10ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
"Thư viện số là nơi sử dụng công nghệ để chuyển câu hỏi thành câu trả lời"
Xây dựng thư viện số là xây dựng phương thức mới,công nghệ mớitrong việc xử lý thông tin - tri thức Đó là bảo quản, sưu tầm, tổ chức, quảng
bá, và truy cập thông tin hay nói chính xác hơn là tri thức, tức là thông tin có
ý nghĩa và hữu ích Do đó, một thư viện số được xem như là nơi trình bàynhững bộ sưu tập thông tin có tổ chức
Bộ sưu tập tập trung vào đối tượng số hóa, bao gồm văn bản, hình ảnh
và âm thanh cùng với phương thức truy cập, truy hồi, chọn lọc, tổ chức, bảotrì sưu tập đó Sưu tập do chuyên gia thư viện tạo nên Phần mềm thư viện
số, chẳng hạn như Greenstone hỗ trợ người sử dụng tìm kiếm sưu tập, cũngnhư hỗ trợ cho chuyên gia thư viện xây dựng và bảo trì sưu tập có hiệu quả
Đối với một thư viện truyền thống, điều quan trọng là việc bổ sungnguồn tài nguyên ngày càng nhiều trên giá kệ trong kho thư viện; nhưngngày nay thông tin về những nguồn tài nguyên đó chứa trong mục lục thưviện là quan trọng hơn (xét trên góc độ là những thông tin chỉ dẫn, đưađường cho người dùng tin đến với tri thức đã được chứa đựng trong tàinguyên của thư viện) Chúng ta gọi những thông tin đó là metadata hay siêu
dữ liệu - dữ liệu về dữ liệu - và đây là khái niệm nổi bật nhất trong thư việnsố
Sự thay đổi bộ mặt thư viện
Thư viện là kho tri thức của xã hội; có người còn cho rằng thư viện làđền đài của văn hoá và sự uyên thâm Được hình thành trong thời kỳ nôngnghiệp thống trị trong tư duy của nhân loại, thư viện đã trải nghiệm qua mộtcuộc hồi sinh với việc phát minh ngành in trong thời kỳ Phục hưng, và thực
sự bắt đầu khởi sắc khi cuộc cách mạng công nghiệp bùng phát với hàng loạtnhững phát minh cơ giới hoá quy trình in ấn
Hình ảnh thư viện của thời xa xưa được hình dung như là một cơ sởvững chắc trong đó chứa hàng ngàn phiến đá khổng lồ được khắc chữ -
Trang 11ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
thường được gọi là "rừng bia" Qua nhiều năm cùng với sự tiến hoá củanhân loại, con người càng tiến bộ trong nhận thức và thư viện ngày càngđược phát triển Giai đoạn Quản lý tư liệu đã trải qua một thời gian dài theo
sự phát triển đó Cho đến một lúc, cũng xuất phát từ ý định ban đầu là làmtốt công việc lưu trữ và bảo quản, thư viện đã chú trọng đến việc xem người
sử dụng là trung tâm, với sự nhấn mạnh đến việc trao đổi thông tin
Điều này cũng đồng thời để đáp ứng yêu cầu thông tin ngày càng giatăng Giai đoạn Quản lý thông tin được xem như bắt đầu Và chúng ta sẽnhận thức được rằng để xây dựng thư viện số là ta đã bắt đầu bước qua mộtgiai đoạn phát triển mới của thư viện: Giai đoạn Quản lý tri thức
Thư viện cổ đại chỉ hữu ích đối với một thiểu số những người biếtchữ và bị giới hạn trong một tầng lớp, giai cấp theo điều kiện xã hội Hoạtđộng Thư viện công cộng được bắt đầu phát triển trong thế kỷ 19 Nhưngvẫn là những thư viện đóng: sách được xếp theo kích cỡ trong những khokín trong thư viện, độc giả chỉ tiếp cận với thủ thư ở quầy để yêu cầu mượnsách
Đến thế kỷ 20 một số cán bộ thư viện nhận thức được tiện ích củaviệc cho độc giả tiếp cận với kho sách đã đề xuất phương thức phục vụ kho
mở với tài liệu được xếp theo môn loại Phương thức này được bắt đầu ápdụng và nhanh chóng phát triển trong những quốc gia nói tiếng Anh hồi đó
Ngày nay chúng ta đang đứng trước ngưỡng cửa của thư viện số.Cuộc cách mạng thông tin không những cung cấp năng lực công nghệ hướngđến thư viện số, mà còn đáp ứng một nhu cầu chưa từng có về lưu trữ, tổchức, và truy cập thông tin Nếu thông tin là tiền tệ trong nền kinh tế trithức, thư viện số sẽ là ngân hàng, nơi được đầu tư Quả vậy, Goethe - Đại thihào Đức đã từng nói “đến thư viện giống như đi vào một nơi phô hiện sựgiàu sang tột đỉnh, ở đó lãi suất hậu hĩnh đang được thanh toán một cáchthầm lặng”
Như chúng ta đã thấy, xây dựng thư viện số không phải là xây dựngmột cơ sở thư viện mà là xây dựng một nền tảng công nghệ để tiến đến giai
Trang 12ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
đoạn quản lý tri thức Nền tảng công nghệ này được xây dựng trên một cơ sởthư viện mà cơ sở thư viện này được xây dựng trên một nền tảng thư việntruyền thống Vì thế muốn xây dựng thư viện số, trước hết phải củng cố nềntảng thư viện truyền thống: tuân thủ những tiêu chuẩn nghiệp vụ căn bản vàthay đổi một số giá trị cũ cho phù hợp với việc ứng dụng công nghệ mới
Chuyển một thư viện thường sang dạng số là một cách làm đầy thamvọng và đắt tiền Số hóa nội dung của một sưu tập in ấn thường là một côngviệc đồ sộ và chán nản Thế nhưng có người cho rằng muốn xây dựng thưviện số thì phải số hoá toàn bộ tài liệu có trong thư viện Đây là một quanniệm hết sức sai lầm, thực ra đây là một ảo tưởng vì thực tế không có mộtthư viện nào trên thế giới có đủ nhân lực tài lực để thực hiện công việc này
Mặc dù thư viện số có ba thuận lợi chính hơn hẳn thư viện truyềnthống là: Dễ dàng truy cập từ xa, nâng cao hơn năng lực tra tìm, và phục vụvới tính cách là một dịch vụ mang đến giá trị gia tăng cho người sử dụng,tuy nhiên trước khi bắt tay vào việc số hóa một sưu tập chúng ta cần phảicân nhắc thật kỹ lưỡng liệu có thật cần thiết để thực hiện không
3 Tình hình phát triể n thư việ n số trên thế giớ i và Việ t Nam 3.1 Tình hình phát triển thư viện số trên thế giới
Cùng với sự phát triển và ứng dụng rộng rãi của mạng lưới truyềnthông và công nghệ thông tin, nhiều thư viện số đang có sự phát triển mạnh
mẽ trên thế giới hiện nay Những thư viện số này sẽ trở thành trung tâm thuthập và sản sinh ra nhiều tài nguyên thông tin khác nhau, là cầu nối cho sựtrao đổi giữa các chuyên gia, cán bộ thư viện thông tin và bạn đọc, là công
cụ khám phá, tìm kiếm và truy xuất thông tin và là mô hình hiện đại nhằmcung cấp những dịch vụ thông tin chuyên biệt ở mức độ cao Sự xuất hiệncủa thư viện số không chỉ tạo ra một cơ hội mới cho sự phát triển thư viện,
mà còn đặt ra những yêu cầu cao hơn trong việc cải tổ những thư việntruyền thống
Nhiều thư viện điện tử và thư viện số đã được xây dựng ở các nước
Trang 13ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
phát triển Thư viện Quốc hội Hoa kỳ đã tiến hành một chương trình thưviện số khổng lồ nhằm chuyển đổi vốn tư liệu in truyền thống sang cácnguồn tin điện tử linh hoạt và nếu công việc thực hiện đúng tiến độ kế hoạchthì độc giả và những người dùng tin ở khắp nơi trên thế giới trong thế kỷ 21
sẽ có thể bật máy tính, tìm đến CSDL và truy nhập tới kho tư liệu số hoá củaThư viện Quốc hội Hoa Kỳ, ngoài ra nhiều thư viện đại học Mỹ cũng đangtìm cách để đưa các sưu tập thư viện vào máy tính và đưa lên mạng để bạnđọc truy nhập sử dụng rộng rãi; các chuyên gia cũng có tham vọng tập hợp
tư liệu số từ nhiều nơi và thậm chí trên phạm vi toàn cầu, xây dựng thư việntoàn cầu (universal library) để thông qua Internet, mọi người ở bấ t cứ nơ inào cũ ng có thể truy nhậ p
3.2 Tình hình phát triển thư viện số ở Việt Nam
Khái niệm " Thư viện điện tử" và "Thư viện số" còn tương đối mớiđối với cộng đồng thư viện Việt Nam Có lẽ nhu cầu chung nghiên cứu vấn
đề này bắt đầu từ khi vạch định chiến lược phát triển thông tin - thư viện chođến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hộithông tin và sự xuất hiện của thời đại công nghệ thông tin Ngoài ra, vấn đềkhông gian lưu trữ các tư liệu truyền thống dưới dạng ấn phẩm trong phầnlớn các thư viện Việt Nam đã trở nên cấp bách khiến cho nhiều người đã mơước thực hiện giải pháp cứu cánh: số hoá kho tư liệu, ngoài xu hướng vihình hoá nay đã lỗi thời, hi vọng rằng bằng cách phát triển các thư viện điện
tử và thư viện số, sẽ không phải xây thêm kho tàng, nhà cửa, mặc dầu động
cơ chính của việc thành lập các thư viện số là nhằm để chia sẻ nguồn lực vớitác dụng chẳng những tăng khả năng truy nhập thông tin, sử dụng hợp lý vàtiết kiệm nguồn kinh phí mua sách báo trước tình hình giá xuất bản phẩmtrên thị trường sách thế giới tăng vọt, mà còn khắc phục tình trạng trùng lặp,
dư thừa trong các kho tư liệu
Hiện nay trên thế giới có rất nhiều hệ thống phần mềm thư viện sốnhư Project Gutenberg, Ibiblio và Internet Archieve Tuy nhiên, chúng hầu
Trang 14ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
hết là những sản phẩm thương mại Chỉ tính riêng ở Việt Nam đã có ít nhất
ba nhà cung cấp hệ thống phần mềm dạng này Đó là Công ty trách nhiệmhữu hạn CMC (CMC Co., Ltd) với hệ thống iLib; Công ty Tin học Lạc Việt(LAC VIET Computing Corp) với phần mềm VeBrary; và phần mềm Libolcủa Công ty Tin học Tinh Vân (TINH VAN Informatic Technology Co.).Theo các chuyên gia đánh giá, “Các phần mềm hiện nay đang sử dụng tạicác thư viện Việt Nam do các nhà sản xuất Việt Nam cung cấp đang còn cómột số hạn chế về độ tin cậy Do thời gian dùng thử nghiệm chưa nhiều, qui
mô khai thác chưa lớn nên chưa thể có kết luận một cách rõ ràng chất lượngcủa các sản phẩm này” Do đó, việc sử dụng một hệ thống thư viện số thoảmãn những tiêu chuẩn quốc tế, tạo mặt bằng chung trong quá trình liên kết
hệ thống các thư viện hiện nay là rất cần thiết
Cũng như các quốc gia đang phát triển và kém phát triển khác, ViệtNam cũng gặp phải rất nhiều khó khăn, đặc biệt là về tài chính để thực hiệnmục tiêu phát triển các thư viện Việt Nam thành TVĐT/TVS Đúng như ArtPasquirelli, Giám đốc của tổ chức Nghiên cứu và Giáo dục toàn cầu của Mỹ
trong bài “Các xu hướng phát triển công nghệ thư viện số” đã nhận định:
“Nguồn tài chính đầu tư luôn là rào cản lớn nhất đối với phát triển TVS,
đây là lý do tại sao mà phần lớn việc phát triển các kho tư liệu số hiện nay đều ở dạng dự án thử nghiệm hoặc ở dạng nghiên cứu triển khai Những thách thức về công việc số hoá nguồn tin trên quy mô lớn, xây dựng siêu dữ liệu để đảm bảo khai thác và sử dụng, cam kết, lưu trữ và bảo quản nguồn tin số hoá lâu dài sẽ tiêu tốn rất nhiều ngân quỹ của thư viện”.
Trang 15ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
Chương 2 PHẦN MỀM NGUỒN MỞ GREENSTONE VÀ THỰC TRẠNG ỨNG DỤNG CNTT TẠI THƯ VIỆN TRƯỜNG CĐ NVHN THỜI GIAN QUA
1 Phần mềm nguồn mở Greenstone
1.1 Vài nét về phần mềm nguồn mở (Open Source Software)
Tuy khái niệm về mã nguồn mở được Richard Stallman nêu ra từnhững năm 1970, nhưng thực sự thành một khuynh hướng rõ rệt trong lĩnhvực phần mềm khoảng từ năm 1991, sau khi hệ điều hành nguồn mở Linux
ra đời
Richard Stallman, làm việc ở phòng thí nghiệm Trí tuệ nhân tạo củaMIT, là người đầu tiên thấy được sức mạnh của các phần mềm “tự do”, tự
do ở đây hiểu theo nghĩa tự do “thay đổi mã nguồn” không hẳn theo nghĩa tự
do về giá cả (hay miễn phí) Công lao chính của ông là tạo ra giấy phépnguồn mở GNU (GNU's Not Unix, một Dự án được Richard Stallman viếtnăm 1984) General Public Licence (viết tắt là GPL), chủ yếu nhằm bảo vệquyền cho phép bất kỳ ai cũng có thể sử dụng, sửa đổi và phân phối lại mãnguồn của chương trình gốc và các chương trình dẫn xuất Từ 1984, dự ánGNU và Tổ chức Phần mểm Tự do (FSF - Free Software Foundation) đãthực hiện một loạt chương trình phần mềm nguồn mở (PMNM) Thông qua
dự án GNU của FSF, những công cụ lập trình như Emacs, GCC, GNU C++,GNU Ada, GNU Pascal, G77, F2C v.v và nhiều phần mềm khác đã gặt háithành công Cũng tại MIT, tập đoàn X Consortium đã được thành lập vớinhiệm vụ phát triển và bảo trì phần mềm giao diện đồ họa đa cửa sổ X-Window
Những PMNM nói trên không những phổ biến trong giới khoa học vàgiáo dục mà còn được các công ty công nghệ cao như DEC, NCD, Netscape,Novell, SGI, Sun, Wyse v.v sử dụng trong rất nhiều thiết bị và phần mềmthương phẩm (PMTP) của họ, đặc biệt khi làm việc với các server mạngmáy tính
Trang 16ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
Năm 1991, Linus Torwalds xây dựng một hệ điều hành (HĐH) nguồn
mở tựa Unix, trong đó có nhiều thành phần là kết quả của dự án GNU theogiấy phép GPL Hệ điều hành này là một HĐH đầy đủ, nguồn mở, thườngquen gọi là Linux hay chính xác hơn GNU/Linux và đã được nhiều nhàthương mại tổ chức phân phối, cung cấp các dịch vụ hỗ trợ và sản phẩmđóng gói dạng CD giá thấp
Một đóng góp lớn khác cho PMNM là của Eric S.Raymond, đồngsáng lập và giám đốc kỹ thuật của Chester County InterLink ở Pensylvania,
Mỹ Trong bài “Nhà thờ và cửa hàng tạp hóa”, ông đã giải thích chi tiết tạisao một đội ngũ lỏng lẻo hàng ngàn người tình nguyện làm việc miễn phí(như một “cửa hàng tạp hóa”) lại có thể làm ra những phần mềm tốt hơnnhững tài năng chuyên nghiệp đắt tiền của các hãng phần mềm khổng lồ(“Nhà Thờ”) Quan điểm của Raymond cuối cùng đã giúp một số hãngCNTT khổng lồ (IBM, Intel Netscape, Sun, ) soát lại quan điểm của mình
về PMNM và cung cấp cho cộng đồng PMNM một số đóng góp có ích
Bước tiến bộ tiếp sau giúp PMNM cạnh tranh bình đẳng về công nghệvới chuẩn sở hữu thương mại là sự ra đời và đưa vào ứng dụng năm 1998của các giao diện đồ họa nguồn mở KDE, GNOME
Những thành công của PMNM (với các sản phẩm như Gnu/Linux,Apache, Bind, Perl, ) đã tạo điều kiện để chống lại hoặc giảm bớt áp lựcđộc quyền của các nhà sản xuất phần mềm “nguồn đóng” Trong khoảng từ
1995 đến nay, nhiều tổ chức và quốc gia đã sử dụng ngày càng rộng rãi cácPMNM và đã có những kết quả nhất định
- 90% máy chủ tên miền ở Hoa kỳ , 70% máy chủ thư tín điện tử và60% máy chủ web trên thế giới đã dùng PMNM
- Thị trường Linux đã phát triển nhanh hơn dự báo, đã lên hàng thứnhì vào năm 1999, trước đó người ta cho rằng đến 2002 hoặc 2003 mới đạtđược vị trí này
- Đến giữa nă m 2001, đã có 56% số doanh nghiệp toàn cầu sử dụngPMNM
Trang 17ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
Trong các cơ quan nhà nước: đến tháng 6-2001, ở Pháp bộ Văn hóa
đã chuyển 400 máy chủ sang GNU/Linux, Tổng Cục Thuế quốc gia, một cơquan mà vấn đề an toàn và bảo mật dữ liệu được coi là quan trọng hàng đầu,cũng đã chuyển 950 máy chủ sang hệ điều hành NM Trung quốc và Mê-hi-
cô đã chuẩn y các biện pháp để chuyển hệ thống máy tính của tất cả các cơquan hành chính sang Linux Hồng Kỳ
Chính phủ Đức đã cấm dùng các sản phẩm Microsoft trong các hệthống máy tính “nhạy cảm” Nhằm giám sát và bảo vệ các mạng máy tínhcủa các quốc gia thành viên, Cộng đồng châu Âu đã khuyến cáo các tổ chứccủa Cộng đồng và các cơ quan công quyền của các quốc gia thành viên
“khuyến khích các dự án dùng phần mềm có mã nguồn công khai, vì đó làcách duy nhất bảo đảm trong phần mềm không có các “cửa sau” (backdoors)”
PMNM là những phần mềm được cung cấp dưới cả dạng mã vànguồn, không chỉ là miễn phí về giá mua mà chủ yếu là miễn phí về bảnquyền: người dùng có quyền sửa đổi, cải tiến, phát triển, nâng cấp theo một
số nguyên tắc chung qui định trong giấy phép PMNM (ví dụ General PublicLicence - GPL) mà không cần xin phép ai, điều mà họ không được phép làmđối với các phần mềm nguồn đóng (tức là phần mềm thương mại)
Nhà cung cấp phần mềm nguồn mở có quyền yêu cầu người dùng trảmột số chi phí về các dịch vụ bảo hành, huấn luyện, nâng cấp, tư vấn, vv tức là những dịch vụ thực sự đã thực hiện để phục vụ người dùng, nhưngkhông được bán các sản phẩm nguồn mở vì nó là tài sản của trí tuệ chung,không phải là tài sản riêng của một nhà cung cấp nào
Trên thị trường phần mềm, có nhiều loại giấy phép Có thể chia cácgiấy phép này như sau:
■ Phần mềm thương mại (Commercial Software) Là phần mềm
thuộc bản quyền của tác giả hoặc nhà sản xuất, chỉ được cung cấp ở dạng mãnhị phân, người dùng phải mua và không có quyền phân phối lại
Trang 18ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
■ Phần mềm thử nghiệm giới hạn (Limited Trial Software)
Là những phiên bản giới hạn của các phần mềm thương mại được cung cấpmiễn phí nhằm mục đích thử nghiệm, giới thiệu sản phẩm và kích thíchngười dùng quyết định mua Loại sản phấm này không chỉ giới hạn về tínhnăng mà còn giới hạn về thời gian dùng thử (thường là 60 ngày)
■ Phần mềm “chia sẻ” (Shareware)
Loại phần mềm này có đủ các tính năng và được phân phối tự do, nhưng cómột giấy phép khuyến cáo các cá nhân hoặc tổ chức mua, tùy tình hình cụthể Nhiều tiện ích Internet (như “WinZip” dùng các thuận lợi củaShareware như một hệ thống phân phối)
■ Phần mềm sử dụng phi thương mại (Non-commercial Use)
Loại phần mềm này được sử dụng tự do và có thể phân phối lại bởi các tổchức phi lợi nhuận Nhưng các tổ chức kinh tế, thí dụ các doanh nghiệp, muốn dùng phải mua Netscape Navigator là một thí dụ của loại phần mềmnày
■ Phần mềm không phải trả phần trăm cho nhà sản xuất
(Royalties Free Binaries Software)
Phần mềm được cung cấp dưới dạng nhị phân và được dùng tự do Thí dụ:bản nhị phân của các phần mềm Internet Explorer và NetMeeting
■ Thư viện phần mềm không phải trả phần trăm (Royalties Free
Software Libraries)
Là những phần mềm mà mã nhị phân cũng như mã nguồn được dùng vàphân phối tự do, nhưng người dùng không được phép sửa đổi Thí dụ: cácthư viện lớp học, các tệp “header”, vv
■ Phần mềm mã nguồn mở kiểu BSD - (Open Source BSD-style)
Một nhóm nhỏ khép kín (closed team) đã phát triển các PMNM theo giấyphép phân phối Berkely (BSD - Berkely Software Distribution) cho phép sửdụng và phân phối lại các phần mềm này dưới dạng mã nhị phân và mãnguồn Tuy người dùng có quyền sửa đổi mã, nhưng về nguyên tắc nhómphát triển không cho phép người dùng tự do lấy mã nguồn từ kho mã ra sửa
Trang 19ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
(gọi là check-out) và đưa mã đã sửa vào lại kho mã mà không được họ kiểmtra trước (gọi là các “check-in”)
■ PMNM kiểu Apache (Open Source Apache-style)
Chấp nhận nguồn mở kiểu BSD nhưng cho phép những người ngoài nhómphát triển xâm nhập vào lõi của mã nền (core codebase), tức là được phépthực hiện các “check-in”
■ PMNM kiểu CopyLeft hay kiểu Linux (Open Source CopyLeft,
Linux-style)
PMNM kiểu CopyLeft (trò chơi chữ của Free Software Foundation FSF
-và GNU - Gnu's Not Unix, để đối nghịch hoàn toàn với CopyRight !) haycòn gọi là giấy phép GPL (General Public Licence) là một bước tiến quantrọng theo hướng tự do hóa của các giấy phép phần mềm Giấy phép GPLyêu cầu không những mã nguồn gốc phải được phân phối theo các qui địnhcủa GPL mà mọi sản phẩm dẫn xuất cũng phải tuân thủ GPL
GPL cho người dùng tối đa quyền hạn và tự do đối với các PMNMtheo GPL, cụ thể người dùng có quyền không những sao chép, sửa đổi, muabán các PMNM dưới CopyLeft mà còn được quyền tự do như vậy đối vớicác phần mềm dẫn xuất Tóm lại nếu PMNM gốc đã theo CopyLeft thì mọiPMNM dẫn xuất của nó cũng đương nhiên theo CopyLeft
1.2 Khái quát về phần mềm nguồn mở Greenstone
1.2.1 Giới thiệu
Các thư viện số làm thay đổi nhanh chóng cách thức thu thập và phổbiến thông tin ở nhiều quốc gia, nhất là các quốc gia còn kém và đang pháttriển Đứng trước yêu cầu thực tế, năm 1995 một nhóm nhỏ các giảng viên
và sinh viên Đại họcWaikato, New Zealand đã xây dựng phần mềm thư viện
số Greenstone, giúp người dùng dễ dàng xây dựng và phân phối các bộ sưutập thư viện số Phần mềm Greenstone cung cấp một phương pháp mới để tổchức và xuất bản thông tin trên Internet và qua CD-ROM Greenstone ban
đầu là sản phẩm của dự án New Zealand Digital Library của trường đại học Waikato Sau đó, thấy được ý nghĩa và tác dụng của
Trang 20phần mềm, từ tháng 8/2000, UNESCO2 và Human Info NGO3 đã tham
gia phát triển và hỗ trợ Đây là phần mềm mã nguồn mở được cung cấp trên
http://www.greenstone.org theo thoả thuận đăng kí GNU General Public
License
Greenstone mang tính quốc tế Hiện nay Greenstone đã được sử dụng
ở rất nhiều quốc gia, có giao diện và các bộ sưu tập với nhiều ngôn ngữ.Nhóm nghiên cứu nghĩ rằng, việc mở rộng, hỗ trợ cho mọi sinh ngữ là điều
có thể thực hiện được UNESCO đã và đang phát triển Greenstone như làmột phần trong chương trình “Thông tin cho tất cả - Information for All”.Greenstone cũng là phần mềm đa môi trường : có thể chạy được trên hệ điềuhành Windows, Unix, Macintosh OS/X
Người dùng sử dụng các bộ sưu tập của Greenstone qua web, hoặcqua đĩa CD, mà không có sự khác biệt gì nhiều Hệ thống Greenstone gồm
hai phần : Phần xử lý offline, thực hiện việc tạo dựng các bộ sưu tập, tạo các cấu trúc dữ liệu để tìm kiếm và trình duyệt; và phần xử lý online, cho phép
người dùng truy xuất, sử dụng các bộ sưu tập
- Ch ạy được trên nhiều hệ đ iều hành : Windows, Unix, Macintosh
- Tìm kiế m toàn vă n bản và tìm kiếm theo từng trường riêng biệt
- Khả năng trình duyệt linh động, đ a dạng
- Cấu trúc duyệt tài liệu được xây dựng hoàn toàn tự động
- Tận dụ ng các metadata sẵn có trong tài liệu, giúp người tạo lập bộsưu tập không phải làm bằng tay
- Khả nă ng linh động, dễ mở rộ ng hệ thố ng nhờ các thành phần nhưplugin, classifier
- Hỗ trợ xử lý tài liệu với nhiều loại ngôn ngữ
Báo cáo tổ ng kế t công trình nghiên cứ u khoa học
- Cung cấp giao diện đa ngôn ngữ
ThS Lê Ngọc Diệp
Trang 21- Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, Greenstonecòn cho phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện(multimedia)
- Khả nă ng lư u trữ rấ t lớ n, t ớ i hàng Gigabyte dữ liệ u
- Thêm mới bộ sưu tập đơn giản, có hiệu quả tức thì
- Khả năng xuất bản các bộ sưu tập ra CD, với đầy đủ tính năng để cóthể tự cài đặt và chạy độc lập
- Các bộ sưu tập dễ dàng được mang chuyển, phân phối, chia sẻ
1.3 Một số khái niệm cơ bản trong Greenstone
1.3.1 Tài liệu
Greenstone hỗ trợ các loại tài liệu dạng HTML, và XML, TXT, các dạngphức tạp như Word, RTF hoặc dạng được sử dụng phổ biến trên nhiều môitrường như PDF, PostScript, dạng multi-media như âm thanh (ví dụ mp3),hình ảnh, phim
1.3.2 Bộ sưu tập
Một thư viện số do Greenstone tạo ra chứa được nhiều bộ sưu tập Mỗi bộsưu tập tập trung vào một chủ đề nào đó Ví dụ, bộ sưu tập Luận văn, bộ sưutập Sách Các bộ sưu tập có thể được bổ sung cập nhật Kích thước bộ sưutập có thể lên đến hàng gigabyte dữ liệu Bộ sưu tập có thể xem là đơn vịcủa một thư viện số Greenstone
1.3.3 Tìm kiếm
Mặc định, các bộ sưu tập cho phép tìm kiếm trên toàn bộ nội dung văn bản,hoặc có thể tìm trên từng vùng (section) hay đoạn (paragraph) Cũng có thểtìm kiếm theo các từ khoá, hay các cụm từ, và kết quả sẽ được sắp xếp thứ
tự theo yêu cầu của câu truy vấn
1.3.4 Duyệt tài liệu
Greenstone cho phép định nghĩa trước các cấu trúc để duyệt tài liệu trongmỗi bộ sưu tập dựa trên những metadata tìm thấy trong bộ sưu tập đó Với
những tài liệu phân cấp theo bảng mục lục, ta có thể duyệt theo chính mụclục đó, rất tiện lợi
1.3.5 Metadata
Trang 22Là thông tin mô tả cho một tài liệu trong bộ sưu tập, ví dụ nhan đề tài liệu,tên tác giả, ngày xuất bản Greenstone dùng các thẻ XML để mô tả thôngtin cho tài liệu, ví dụ:
<Metadata name =”Title”> Tìm hiểu nguồn mở Greenstone </Metadata>
<Metadata name =”Author”> Quy,Quỳnh </Metadata>
Các thẻ này có thể:
- Được nhúng trong tài liệu của bộ sưu tập, ví dụ các thẻ HTMLtrong tài liệu HTML
- Được lưu thành tập tin metadata kèm theo tài liệu
- Được trích một cách tự động từ một tài liệu nào đó, ví dụ thông tin
về tên, kích thước, ngày tạo, ngày hiệu chỉnh tập tin tài liệu
1.3.6 Biên mục
Biên mục là khái niệm của nghiệp vụ thư viện để chỉ hành động cung cấpthông tin mô tả cho các tài liệu trong thư viện Hiện nay người ta thườngbiên mục tài liệu theo chuẩn quốc tế Dublin Core
1.3.7 Plugin
1.3.7.1 Giới thiệu
Plugin là một chương trình con (script) được dùng trong quá trình xây dựng
bộ sưu tập Do nguồn vào có nhiều dạng tài liệu khác nhau (pdf, word, text.)nên cần plugin chuyển chúng về một dạng thống nhất là XML củaGreenstone và trích thông tin từ những tài liệu nguồn đưa vào tập tin XMLnày Ví dụ một plugin là HTMLPlug chuyển những trang HTML nguồnsang định dạng XML của Greenstone và trích thông tin metadata của tài liệunguồn, ví dụ phần tiêu đề của trang HTML được bao trong cặp tag
<title></title> được trích ra và đưa vào tập tin XML của Greenstone
Mỗi bộ sưu tập có một tập tin cấu hình collect.cfg Tập tin này liệt kêcác plugin được dùng trong quá trình xây dựng bộ sưu tập Tùy theo tài liệu
nguồn có định dạng thế nào, ta sẽ chọn các plugin tương ứng Ví dụ nếu tàiliệu nguồn là tập tin word thì ta dùng plugin WordPlug
Các plugin được viết bằng ngôn ngữ lập trình Perl Mọi plugin đều kếthừa từ plugin cơ sở BasPlug Plugin cơ sở BasPlug thực hiện những thao
Trang 23tác cơ bản như tạo tài liệu mới XML theo định dạng của Greenstone, gán
định danh cho tài liệu Các plugin được đặt trong thư mục “greenstone\
perllib\plugins” Để tìm hiểu thông tin của một plugin, ta dùng lệnh sau ở
chế độ command prompt: pluginfo.pl plugin-name Ta cũng có thể viết các
plugin mới
1.3.7.2 Danh sách các plugin
-BasPlug là lớp cơ sở cho tất cả các plugin
-ConvertToPlug Gọi các chương trình bên ngoài để chuyển các tàiliệu độc quyền (word hay pdf) sang html hay plain text
-ArcPlug Xử lý những tập tin được chỉ ra trong tập tin archives.inf,tập tin archive.inf là cầu nối giữa tiến trình import và tiến trình build Pluginnày bắt buộc phải khai báo trong tập tin cấu hình
-RecPlug Duyệt qua thư mục để xử lý các tập tin mà plugin này tìmthấy
-GAPlug Xử lý những tập tin của Greenstone được phát sinh từchương trình import.pl (.xml)
-TEXTPlug Xử lý tập tin text thuần túy txt, text
-BibTexPlug Xử lý các tập tin bibliography theo chuẩn BibTex (.bib)
-ReferPlug Xử lý các tập tin bibliography theo chuẩn Refer (.bib)
Trang 241.3.8.1 Giới thiệu
Classifier dùng để xây dựng cấu trúc duyệt tài liệu trên web của một
bộ sưu tập Tương tự các plugin, các classifier được đặc tả trong tập tin cấuhình collect.cfg của mỗi bộ sưu tập Trong pha cuối cùng của quá trình xâydựng bộ sưu tập (nén và tạo chỉ mục trên tài liệu), các classifier được script
buildcol.pl gọi sẽ lưu cấu trúc duyệt tài liệu vào cơ sở dữ liệu bộ sưu tập.
Cú pháp: classify <Tên classifier> <Các tham số>
Ví dụ: classify AZList -metadata Title -buttonname TitleA-Z
Trong dòng đặc tả có một tham số quan trọng là metadata xác địnhrằng các tài liệu của bộ sưu tập sẽ được sắp xếp theo metadata đã được chỉ
ra Với ví dụ trên, các tài liệu được sắp xếp theo tựa đề của tài liệu (Title)
Tham số buttonname xác định tên nút xuất hiện trên thanh duyệt Vớidòng đặc tả trên, khi ta click vào nút TitleA-Z trên thanh duyệt, các tài liệucủa bộ sưu tập được liệt kê theo thứ tự từng vùng alphabet
Các classifier được đặt trong thư mục greenstone\perllib\classify Để biết thông tin của classifier, dùng lệnh: classinfo.pl <Tên classifier> Ta có
thể viết các classifier mới Những nút trên thanh duyệt, ngoại trừ nút Search,được quản lý bởi các classifier Khi định nghĩa một classifier trong tập tincollect.cfg, những nút liên quan sẽ xuất hiện trên thanh duyệt
1.3.8.2 Phân loại
Nhóm classifier liệt kê tài liệu dưới dạng danh sách (list) Classifier
AZList: liệt kê tài liệu theo từng vùng alphabet
Trang 25Báo cáo tổ ng kế t công trình nghiên cứ u khoa học
kr
Psflplfril the HZDL ProjBBl
HOME t-FiP PttfiFRENCFS
titles a—z
-11 C Ị Jit £■ 'J £JÍ il'Xurrat Ari-lrícru.;
j p] Siti-ff iýhỊÍ
Hình 2.1: Minh họa Classifier AZList
Classifier List: liệt kê tài liệu thành một danh sách sắp thứ tự alphabet
Hình 2.2: Minh họa Classifier List
Classifier DateList: liệt kê tài liệu theo từng vùng thời gian
Nhóm classifier liệt kê tài liệu dưới dạng phân cấp (hierarchy)
Classifier Hierarchy: liệt kê các tài liệu dưới dạng phân cấp
11 lira IV
search subjects tales a-z organisations hOMV to
Ểtí 03.00 E4uc rírôtt Ttatw
11 J Vocufcmd Ti Airiiiij ami T!farMllM
Uídỹ-ííữy t«r W-ocartKHtal ScbMiỉi A Teachers E&odtadt
nri -j-.■□££.: • ỈJỤ?
MUPiX jfcilMfcJifra
Course Miaual Wooi§jFírfc!E^Tethrâ£Ị-:es EnitHMSMaEreniplexfa'
Fra; kcal V-GGaii jr.al IcMiuu; 3-A1UU.
Hình 2.4: Minh họa Classifier Hierarchy
1.3.9 Định dạng cách hiển thị tài liệu
1.3.9.1 Giới thiệu
Những trang web trong Greenstone không được thiết kế trước màđược phát sinh và hiển thị ra web browser Một phần giao diện của các trangweb này được quản lý bởi các chuỗi định dạng Chuỗi định dạng được đặc tả
ThS Lê Ngọc Diệp
I 1
I IJ
Trang 26trong tập tin cấu hình của bộ sưu tập collect.cfg Để đặc tả chuỗi định dạng
ta dùng từ khóa format, theo sau là tên của những thành phần mà chuỗi định
1.3.9.2 Định dạng danh sách tài liệu
Cú pháp: format <kiểu danh sách> <chuỗi html định dạng>
Từ khóa chỉ kiểu danh sách gồm 2 phần:
Phần thứ nhất gồm các loại:
- Search: danh sách kết quả tìm kiếm tài liệu
- CLi: vớ i i là số nguyên > 0
Đây là danh sách được phát sinh bởi các classifier CL1, CL2, CL3 tương
ứng với classifier thứ nhất, thứ hai, thứ ba được đặc tả trong tập tin cấu
hình collect.cfg
Phần thứ hai gồm các loại:
- VList: danh sách theo chiều dọc
- HList: danh sách theo chiều ngang
- DateList: danh sách phân loại theo thời gian
Ví dụ :
* format SearchVList : định dạng kết quả tìm kiếm tài liệu, áp dụng cho
các danh sách hiển thị theo chiều dọc
* format CL1HI ũst : định dạng danh sách tài liệu phát sinh từ classifier
thứ nhất, áp dụng cho các danh sách hiển thị theo chiều ngang
Ví dụ một đoạn trong tập tin cấu hình collect.cfg :
1 classify Hierarchy - metadata Subject - buttonname Subjects
2 classify AZList -metadata Title -buttonname Title
3 classify List -metadata Howto -buttonname HowTo
4 format CL3Vlist "<br>[link][Howto][/link]"
Trang 275 format DocumentImages true
6 format DocumentText "<h3>[Title]</h3>\\n\\n<p>[Text]"
7formatDocumentButtons"Expand Text|Expand contents|Detach|Highlight"
Hình 2.5: Kết quả hiển thị tài liệu trên trình duyệt
Ta thấy ở dòng 4 trong tập tin cấu hình có nội dung: format CL3VList
“<br>[link][Howto][/link]” dùng để định dạng danh sách tài liệu được phát sinh từ classifier thứ ba trong tập tin cấu hình (classifier List), áp dụng cho
các danh sách được bố trí theo chiều dọc Chuỗi "<br>[link][Iowto][/link]"
là chuỗi html định dạng cách hiển thị của danh sách Với chuỗi định dạng này thì mỗi phần tử trong danh sách sẽ xuất hiện trên một dòng (“<br>”), được đại diện bằng
Trang 28ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
dòng chữ (giá trị của metadata Howto) và liên kết đến tài liệu gốc (“[link] [/link]”) Trong chuỗi định dạng ta có thể sử dụng các thẻ html và một số từ khóa khác mà Greenstone hỗ trợ, ví dụ [link] [/link] đại diện cho 1 liên kết, [tênmetadata] đại diện cho giá trị của metadata, [Text] đại diện cho nội dung của văn bản
1.3.9.3 Định dạng các thành phần của trang web hiển thị tài liệu
Cú pháp: format <tên thành phần> <giá trị>
tài liệunếu DocumentImages có giá trị false Giá trị mặc định: [Title]
DocumentContents true/false Hiển thị bảng nội dung nếu tài liệu được phân
cấp hoặc các nút next/previous và đoạn chữ
“page k of n” nếu tài liệu không phân cấp DocumentButtons
Chuỗ i Qu ả n lý các nút hiển thị trên trang tài liệu.
Giá trị mặc định: Detach|Highlight
Định dạng nội dung hiển thị trên trang tài liệu.
Gíá trị mặc định: <center><table width=537>
<tr><td>[Text]</td></tr> </table></center> DocumentArrowsBottom true/false
Hiển thị nút next/previous trên trang tài liệu Giá trị mặc định: true
DocumentUseHTML true/false
true: mỗ i tài liệ u được hiể n thị trong mộ t frame
false: không hiển thị tài liệu dưới dạng frame
Bảng các thành phần trên trang web
Dòng 6 trong tập tin cấu hình trên định dạng cách hiển thị nội dung tài liệu:
format DocumentText “<h3>[Title]</h3>\\n\\n<p>[Text]”
Dòng 7 ta xác định các nút dùng trong trang tài liệu:
Trang 29ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
format DocumentButtons "Expand Text|Expand contents|Detach|Highlight" Ta
có thể xem hình 2.5 ở trên để thấy rõ hơn kết quả mà chuỗi định dạng mang lại
2 Thực trạng ứng dụng CNTT tại thư viện Trường CĐ NVHN thời gian qua
Tin học hoá hoạt động thông tin thư viện là xu thế phát triển tất yếu củacác cơ quan thông tin - thư viện hiện nay và đang diễn ra với tốc độ ngày càngnhanh chóng Theo số liệu của Tạp chí Thư viện (Library Journal) tính đếnnăm 1981, toàn thế giới chỉ có 301 thư viện tự động hoá Đến năm 1992 thếgiới đã có 8789 thư viện thự động hoá, nghĩa là tăng 29 lần sau 10 năm
Ngày nay, các thư viện được sự chỉ đạo của Đảng và Nhà nước trong bốicảnh tòan cầu hóa và dưới sự tác động trực tiếp của hiện tượng bùng nổ thôngtin, đã và đang phát triển mạnh mẽ đặc biệt là theo hướng ứng dụng cácphương tiện của kỹ thuật hiện đại, cụ thể là ứng dụng công nghệ thông tin vàviễn thông Các thư viện thuộc hệ thống đào tạo là những nơi đã và đang pháttriển và được sự quan tâm đầu tư mạnh nhất bởi nét đặc thù của hoạt động đàotạo là chuyển giao tri thức chất lượng cao với khối lượng khổng lồ Nằm trong
hệ thống thư viện của các cơ sở đào tạo, thư viện trường Cao đẳng Nội vụ HàNội cũng không nằm ngoài quĩ đạo hoạt động phát triển đó
Trong thời gian qua cũng như thời gian sắp tới, thư viện Nhà trường sẽ
là nơi tập trung sự quan tâm thúc đẩy hoạt động để phục vụ nhiệm vụ của Nhàtrường trong giai đoạn mới, do quá trình hình thành và phát triển của Nhàtrường đã trải qua những khó khăn, thử thách trong suốt một thời gian dài, năm
2005, Nhà trường mới chính thức đủ điều kiện để nâng cấp thành trường Caođẳng từ một trường trung cấp cho nên Thư viện trường cũng còn tồn tại một sốhạn chế nhất định, trong đó có thể nói hạn chế lớn nhất là ứng dụng công nghệthông tin trong công tác thư viện Trong bối
Trang 30cảnh Nhà trường còn nhiều khó khăn, rất nhiều bộ phận cần phải đầu tư đồng
bộ thì các cấp lãnh đạo đã quan tâm đến Thư viện như là một điểm nóng cần ưutiên trong một chừng mực nào đó, đến nay về cơ sở hạ tầng công nghệ thôngtin thì Thư viện đã được trang bị 07 chiếc máy tính cá nhân (PCs), trong đó 02chiếc để cán bộ thư viện làm việc và 05 chiếc để phục vụ bạn đọc của thư viện
và các máy tính tại Thư viện cũng đã được kết nối mạng Internet băng thôngrộng (ADSL) chung với hệ thống mạng của Nhà trường
Tuy nhiên, vớ i góc độ ứ ng dụ ng công nghệ thông tin thì yế u tố cơ sở
hạ tầng - kỹ thuật là yếu tố mang tính “tiên quyết” nhưng bên cạnh đó còn cầnđến các yếu tố cũng không kém phần quan trọng đó là phần mềm quản lý họatđộng chuyên môn và trình độ của cán bộ thư viện Trong khuôn khổ của đề tài,nhóm tác giả chúng tôi xin được đưa ra một số các thông tin khảo sát thực tế vềhiện trạng ứng dụng này tại Thư viện trường để trên cơ sở đó sẽ có những ýkiến đề xuất trên bình diện nghiên cứu về lý luận để áp dụng vào điều kiện hoạtđộng thực tiễn hiện tại của Thư viện để nâng cấp hoạt động ứng dụng côngnghệ thông tin đối với Thư viện trường trong thời gian tới đây
Được sự quan tâm của lãnh đạo nhà trường, thư viện trong thời giantrước đây cũng đã được đầu tư một phần mềm quản lí thư viện của Công typhần mềm hỗ trợ doanh nghiệp BSC mang tên: BSC EMIS LIBRARY, tuynhiên, đây là một phần mềm quản lí chưa đáp ứng được những yêu cầu tốithiểu của hoạt động thư viện đặt ra, đặc biệt trong bối cảnh hoạt động thông tin
- thư viện đang ngày càng phức tạp cùng với sự bùng nổ thông tin như hiệnnay Vì vậy, vào thời điểm tháng 6 năm 2008, Thư viện trường đã triển khai vàxây dựng một số các cơ sở dữ liệu (CSDL) dựa trên phần mềm đang được sửdụng rất phổ biến trong thư viện các nước đang phát triển của Tổ chức Văn hóaKhoa học Giáo dục Liên Hiệp Quốc (UNESCO), phần mềm có tên gọiCDS/ISIS for Windows (gọi tắt là
Trang 31ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
WinISIS), với khả năng dễ sử dụng và đã được kiểm nghiệm trong thực tế, Thư
viện trường đã xây dựng 02 CSDL: CSDL SACH, CSDL LUAN
Với việc tạo lập và đưa vào khai thác sử dụng 2 CSDL nói trên đã gópphần từng bước tăng tốc độ tìm kiềm tài liệu, in ra các phiếu mục lục, bản thưmục Qua đó góp phần nâng cao chất lượng và sự thoả mãn nhu cầu của bạnđọc trong việc tìm kiếm, khai thác tài liệu
Trong thời gian tới ngoài việc tiếp tục cập nhật 02 CSDL trên thì thư việncần xây dựng và đưa vào sử dụng, khai thác CSDL toàn văn cho tài liệu là cácsách như: tập bài giảng môn học, giáo trình do giáo viên của trường biên soạn.Tuy nhiên trước khi đưa vào sử dụng chúng ta cần quan tâm đến: công cụ đểquản lý, vấn đề bản quyền tác giả, chính sách đối với từng nhóm người dùngtin và từng tên sách cụ thể.v.v
Xây dựng trang Web của thư viện, cung cấp cổng giao tiếp thông tin giữangười dùng tin và kho tài liệu điện tử của thư viện Trang Web của thư việnđược coi là công cụ hỗ trợ cho việc thực hiện các nhiệm vụ của thư viện mộtcách có hiệu qủa nhất Mục đích của việc xây dựng trang Web thư viện trongcác trường đại học nhằm bổ trợ cho các chương trình giáo dục và đào tạo,nghiên cứu khoa học thông qua việc tổ chức các nguồn tin nội sinh và nguồntin từ bên ngoài Bên cạnh đó, trang Web thư viện còn cung cấp những thôngtin hướng dẫn, đào tạo người dùng tin để qua đó họ có thể tự tìm kiếm, đánhgiá được các nguồn tin có trên Web Hơn nữa, các đối tượng sử dụng trangWeb thư viện còn được mở rộng trong phạm vi cả cộng đồng kể cả những đốitượng không phải là đối tượng phục vụ của thư viện
Việc xây dựng trang Web cho thư viện CĐ NVHN là hoàn toàn khả thi.Bởi hiện nay, trang Web của trường đã được xây dựng và đưa vào hoạt động từnăm 2005, hệ thống mạng của trường hoạt động tương đối ổn định Vì vậy cóthể rất dễ dàng tích hợp trang Web của thư viện với trang Web của trường đểcập nhật lên mạng Internet
Trang 32Ứng dụng công nghệ thông tin vào các hoạt động thông tin thư viện là một công việc cần được tiến hành từng bước trên cơ sở nghiên cứu kỹ lưỡng các phần mềm, giải pháp công nghệ, thực tế áp dụng ở các cơ quan thông tin thư viện trong nước nhằm tìm ra một giải pháp tổng thể, tối ưu nhất cho đặc thù của đơn vị mình.
Việc ứng dụng cộng nghệ thông tin với mục đích nhằm hoàn thiện công nghệ cho các quá trình xử lý, lưu trữ, tìm kiếm thông tin và khai thác sử dụng hiệu quả các xuất bản phẩm điện tử cũng như nghiên cứu hoàn thiện các sản phẩm và dịch vụ thông tin thư viện theo hướng hiện đại hoá, đa dạng hoá
Bên cạnh đó chúng ta cũng cần mạnh dạn tiếp cận đến các phương pháp quản trị thông tin, mạng hoá để đạt được không gian thông tin thống nhất,đảm bảo ngôn ngữ tìm tin với các chuẩn, khổ mẫu trao đổi thông tin và các giao dịch liên quan thống nhất, bảo đảm cho việc truy cập thông tin một cách chính xác, kịp thời, đầy đủ và đơn giản nhất cho người dùng tin trong và ngoài trường CĐ NVHN mà việc sử dụng phần mềm nguồn mở Greenstone là cách làm cần thiết, khả thi và hiệu quả
Trang 33ThS Lê Ngọc Diệp Báo cáo tổ ng kế t công trình nghiên cứ u khoa học
Chương 3 ỨNG DỤNG GREENSTONE ĐỂ XÂY DỰNG VÀ PHÂN PHỐI CÁC BỘ SƯU TẬP SỐ TẠI THƯ VIỆN TRƯỜNG CĐ NVHN
Quá trình xây dựng một bộ sưu tập trải qua 3 pha chính
Pha 1 : Tạo cấu trúc chung cho bộ sưu tập
Pha 2 : Chuyển định dạng tài liệu nguồn sang định dạng XML
Pha 3 : Nén và tạo chỉ mục trên các tài liệu của bộ sưu tập
Ở mỗ i pha ta dùng chương trình do Greenstone hỗ trợ để xây dựng bộ sưu tập
Pha 1 : dùng chương trình mkcol.pl
Pha 2 : dùng chương trình import.pl
Pha 3 : dùng chương trình buildcol.pl
Các chương trình trên được đặt trong thư mục “greenstone\bin\script”.
Trang 34ThS Lê Ngọc Diệp Báo cáo tổ ng kế t công trình nghiên cứ u khoa học
2.2 Chương trình mkcol.pl
2.2.1 Công dụng:
Chương trình mkcol.pl dùng để tạo cấu trúc chung cho một bộ sưu tập, tạo tập tin cấu hình mặc định cho bộ sưu tập collect.cfg đặt trong thư mục con “etc” của bộ sưu tập
Trang 35ThS Lê Ngọc Diệp Báo cáo tổng kết công trình nghiên cứu khoa học
-collectdir <string>: thư mục chứa bộ sưu tập Giá trị mặc định là “greenstone\collect”
-public <string>: cho phép bộ sưu tập được truy cập rộng rãi hay không Giá trịmặc định là “true”
-title <string>: tựa đề của bộ sưu tập
-about <string>: thông tin mô tả bộ sưu tập
-plugin <string>: tên plugin được dùng
-quiet : không hiển thị các thông báo của chương trình
-win31compat <string> : cho biết tên thư mục của bộ sưu tập có tuân theo quy ước của Windows 3.1 hay không (tên thư mục có độ dài tối đa 8 kí tự) Giá trị mặc định là “true”
-archivedir <string>: đường dẫn đến các tập tin sau khi import, mặc định là
“greenstone\collect\<tên thư mục chứa bộ sưu tập>\archives” -collectdir
<string>: thư mục chứa các bộ sưu tập, mặc định là “greenstone\collect”
-debug: chạy chương trình ở chế độ debug, chỉ xuất kết quả ra màn hình, khôngtạo các tập tin kết quả sau khi import
-faillog <string>: đường dẫn đến tập tin log lưu tên của những tập tin không
import được Mặc định là “greenstone\collect\<tên thư mục chứa bộ sưu
tập>\etc\fail.log”
-groupsize <int>: số tài liệu được nhóm thành một tập tin XML, mặc định là 1
-gzip: dùng gzip để nén những tài liệu XML kết quả Chú ý phải thêm plugin
ZIPPlug vào danh sách các plugin trong tập tin cấu hình -importdir <string>:
đường dẫn đến các tập tin ngưồn -keepold : không xóa nội dung của thư mục
Trang 36archive (mặc định) -maxdocs <int>: số tài liệu tối đa được import
-OIDtype <enum>: phương thức dùng để phát sinh ra ID duy nhất cho mỗi tài
liệu Giá trị mặc định là hash.Các giá trị có thể là hash, incremental, assigned,
dirname
-out <string>: tên tập tin hoặc handle để in ra các dòng thông báo Giá trị mặc định là STDERR
-removeold: xóa những nội dung cũ của thư mục archives
-saveas <enum> : định dạng của tập tin sau khi import Mặc định là GA GA: định dạng theo Greenstone
METS: định dạng theo METS
-sortmeta <metadatum>: sắp xếp những tài liệu theo thứ tự alphabet của
metadata Tùy chọn này sẽ bị bỏ qua nếu groupsize >1
-statsfile <string>: tên tập tin hay handle để in ra các dòng thống kê của quá trình import Mặc định là STDERR
-verbosity <int>: quản lý mật độ xuất các thông báo ra màn hình
Các giá trị : 0: không xuất; 3: nhiều; Giá trị mặc định là 2
-archivedir <string>: đường dẫn đến thư mục archives
-builddir <string>: đường dẫn đến thư mục building chứa các chỉ mục đã được tạo
-collectdir <string> : đường dẫn thư mục chứa các bộ sưu tập, mặc định là
“greenstone\collect”
-debug: chạy chương trình ở chế độ debug, chỉ xuất các kết quả ra màn hình,