1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf

128 627 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng một số công cụ hỗ trợ tra cứu và tổng hợp thông tin trong thư viện số
Thể loại Đề tài
Định dạng
Số trang 128
Dung lượng 3,65 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đây là hệ thống quản lý thư viện điện tử, được dùng đầu tiên tại Trung Tâm Thông Tin Tư Liệu Đại Học Đà Nẵng Hệ điều hành WinNT, Unix, Linux Cơ sở dữ liệu NA Oracle 8i đối với phiên

Trang 1

Đề tài: Xây dựng một số công cụ hổ trợ

tra cứu và tổng hợp thông tin

trong thư viện số

Trang 6

• CD-ROM và băng từ - CD-ROM thường chứa những CSDL chuyên ngành,

được phục vụ riêng lẻ hay trên mạng máy tính

• Tạp chí điện tử - ấn hành trên mạng Internet Thư viện có thể đặt mua như

tạp chí in và sẽ được cấp quyền login vào để truy cập

• Cơ sở dữ liệu trực tuyến - có rất nhiều trên mạng Internet do những trường

đại học, những cơ sở thông tin, và những công ty tư nhân như NEXIX, DIALOG, vv - Cũng như tạp chí điện tử, thư viện có thể đặt mua quyền sử dụng

LEXIX-• Tài liệu khác trên Internet - tài liệu trong những web site của những cơ sở

chính quyền, trường đại học, công ty, hội đoàn, vv Việc truy cập thường là miễn phí

Thông tin điện tử đôi khi còn bao gồm tư liệu được số hóa, tập hợp dưới hình thức Thư viện số Tư liệu được số hóa trước tiên là tranh ảnh, tài liệu quý hiếm, vv Ngày nay nhiều thư viện có khuynh hướng số hóa đại bộ phận tư liệu trong thư viện để phục vụ dưới dạng điện tử

1.2 Nghiên cứu về thư viện số tại Mỹ

Vấn đề nghiên cứu về thư viện số là một trong 5 hướng nghiên cứu chủ yếu về CNTT của Mỹ hiện nay Những tiến bộ cực kỳ nhanh chóng của kỹ thuật tính toán

và mạng máy tính làm cho một tư liệu chỉ trong nháy mắt đã có thể “nhân bản” và chuyển tới hành trăm triệu người trên khắp thế giới

Năm 1994, người ta đưa ra một vấn đề gọi là SÁNG KIẾN THƯ VIỆN SỐ (SKTVS) mà ngày nay gọi là DLI pha 1 SKTVS pha 1 tập trung làm sáng tỏ từng

Trang 7

bước các vấn đề về mô hình quan niệm, cấu trúc, những thách thức về tính toán nhằm tạo ra các các kho tri thức nhân loại dạng điện tử Trong 5 năm, SKTVS pha 1

đã có những thành công bước đầu mà chúng ta đang chứng kiến, chẳng hạn đó là

các công cụ tìm kiếm nổi tiếng trên Internet

SKTVS pha 2 – DLI pha 2 bắt đầu từ 1999 và đã thu hút rất nhiều nhà khoa học và kỹ sư CNTT, các nhà nghiên cứu của nhiều ngành KHXH, nghệ thuật, sinh học…Mục tiêu là phát triển các nguồn tư liệu số, thử nghiệm liên kết giữa các nguồn tư liệu phân tán, thiết lập nguyên tắc, phần mềm và cấu trúc mạng có khả năng liên hợp các tư liệu đa phương tiện thành các bản ghi nhất thể, giải quyết vấn

đề ngữ nghĩa hiện đang cản trở việc tích hợp tư liệu số từ các tư liệu từ các sưu tập phân tán và rất khác nhau về cấu trúc Pha 2 của SKTVS tập trung vào 3 hướng nghiên cứu lớn sau:

• Human-centered research-nghiên cứu hỗ trợ việc tạo ra thông tin và sử dụng thông tin

• Content and collections-tạo lập thư viện số chứa đựng các dạng tri thức

• System-centered research-các vấn đề kỹ thuật, phần mềm, phân loại khi tổ chức và liên kết các bộ dữ liệu số dạng thức khác nhau thông qua Internet

Để hình dung rõ hơn về 3 hướng nghiên cứu trên, chúng ta sẽ lược qua các dự

án chính, các vấn đề quan trọng nhất của 3 hướng nghiên cứu và triển khai này

1.2.1.Human-centered research (nghiên cứu hướng nguời dùng)

Trong hướng này, có các dự án và chương trình lớn:

Personalized Retrieval and Summarization of Image, Video, and Language Resources (PERSIVAL) Trong dự án PERSIVAL, các nhà nghiên cứu

ở Đại học Columbia đang thử nghiệm thiết kế hệ thống giúp cho các bệnh nhân truy cập dễ dàng và nhanh chóng đến các nguồn thông tin y học trực tuyến thích hợp cho từng người bệnh http://www.cs.columbia.edu/diglib/PERSIVAL/

Digital resource designed for children Các nhà nghiên cứu ở Đại học

Trang 8

và tổ chức thông tin nghe, nhìn, văn bản…cho trẻ em

http://www.cs.umd.edu/hcil/kiddiglib/

Technologies and tools for students Nhiều đại học và cơ quan nghiên cứu

như Đại Học Quốc Gia Georgia, Hiệp Hội Máy Tính (Association for Computing Machinery-ACM), Ủỵ Ban Giáo Dục của SIGGRAPH (SIGGRAPH Education Committee) đang phát triển các kỹ thuật và công cụ cho sinh viên để việc truy cập thông tin trực tuyến phục vụ học tập ở đại học được hiệu quả

http://econ.badm.sc.edu/beam/

Video information college Dự án được triển khai tại Đại Học Carnegie

Mellon nhằm thiết lập môi trường làm việc với các tư liệu video, văn bản, ảnh và

âm thanh http://www.informedia.cs.cmu.edu/

Alexandria Digital Earth prototype (ADEPT) Đây là một bộ phận của

chương trình hợp tác về thư viện số giữa Đại học Berkeley, Đại học Santa Barbara (UCSB), Đại học Stanford, Trung tâm Siêu Máy Tính San Diego và Thư Viện Số California, liên quan chủ yếu đến việc sử dụng các loại thông tin không gian, thư

http:/www.alexandria.ucsb.edu/adept/

1.2.2 Content and collections (Nội dung và các bộ sưu tập)

Hướng này tập trung nghiên cứu việc tổ chức các kho thông tin về mọi lĩnh vực tri thức Một số dự án lớn có thể kể đến như:

Digital Library for the humanity Đại Học Tuffs hợp tác với viện Max

Planck ở Berlin, Hội Ngôn Ngữ Hiện Đại (the Modern Language Association), Bảo Tàng Nghệ Thuật Boston (the Boston Museum of Fine Arts) và Tổ Hợp Xuất Bản Điện Tử Stoa (the Stoa electronic pubishing consortium) phát triển một thư viện điện tử chứa các tư liệu từ thời Ai Cập cổ đại đến thế kỷ 19

http://www.perseus.tuffs.edu

National Gallery of Spoken Word (NGSW) Đại Học Quốc Gia Michigan

đang thực hiện một thư viện các bài nói lịch sử suốt thế kỷ 20 với các công cụ xử lý hiệu quả http://www.ngsw.org/app.html

Trang 9

National digital library for science, mathematics, engineering, ang technology education (SMETE) Đại Học Berkeley California phát triển một thư

viện số tập hợp các ngành khoa học, toán học và công nghệ hỗ trợ việc học tập ở bậc phổ thông trung học http://www.needs.org

Digital Atheneum Đại Học Kentucky được Quỹ Khoa Học Quốc Gia tài trợ

phối hợp với Thư Viện Anh và Chương Trình Shared University Research của IBM đang làm việc với kho tư liệu của Thư Viện Anh chứa đựng các tư liệu cổ của Hi Lạp, Do Thái từ thế kỷ 17 http://www.digitalatheneum.org

Digital workflow management Hơn 29.000 ngàn bản nhạc Mỹ từ 1790 đến

1960 đang được Đại Học Hopkins chuyển thành một thư viện số

http://levysheetmusic.mse.jhu.edu

Data provenance Các nghiên cứu tại Đại Học Pennsylvania hướng tới vấn đề

nan giải bậc nhất của các tập hợp dữ liệu trực tuyến Đó là độ trung thực của một bản tin số và những vấn đề liên quan, có thể xếp vào nhóm các vấn đề hệ thống được trình bày dưói đây http://db.cis.upenn.edu/Research/ptovenance.html

1.2.3.System-centered research (nghiên cứu hướng hệ thống )

Phát triển các thư viện số đòi hỏi phải giải quyết rất nhiều vấn đề về hệ thống

Có thể nêu vài cái trong số các vấn đề quan trọng mà các nhà khoa học Mỹ đang tập trung giải quyết:

New model for scholarly publishing Bản chất vấn đề là việc xuất bản bây

giờ khác xa cách in ấn truyền thống Xuất bản tức thời, phân tán, liên tục… Mọi quy trình đều phải thay đổi thích hợp để thực hiện việc “xuất bản” trên các hệ thống tính toán phân tán Vấn đề đang được Đại Học Berkeley California nghiên cứu

http://elib.cs.berkeley.edu

Classification systems Một trong những vấn đề kỹ thuật phức tạp nhất của

thư viện là phân loại tư liệu Mọi công cụ lưu trữ, tìm kiếm đều rất phụ thuộc vào

kỹ thuật phân loại Với các thư viện số chứa đựng, tích hợp mọi dạng thức thông

Trang 10

tập trung cho vấn đề này Có thể xem trong Web site:

http://ai.bpa.arizona.edu/go/dl/

Security, quality, access, and reliability Với thư viện số thì an toàn, bảo

mật, chống sao chép bất hợp pháp, kỹ thuật tìm kiếm… còn chứa đựng rất nhiều vấn đề mở Chẳng hạn ở Đại Học Cornell, các nhà nghiên cứu đang tập trung cho tính toàn vẹn của một thư viện số http://www.prism.cornell.edu

1.3 Nghiên cứu về thư viện số tại Việt nam

Ở Việt nam, các nghiên cứu về thư viện số mới chỉ ở các buớc khởi đầu Trong những năm qua nhiêề phần mền quản lý thư viện và hỗ trợ đọc sách trên Internet đã được đầu tư phát triển Bảng 1.1 là đặc tính của một số phần mềm quản lý thư viện

do các nhà sản xuất phần mềm trong nước phát triển

Bảng 1.1 Danh sách một số phần mền quản lý thư viện do các nhà sản xuất phần mềm

Việt nam phát triển

Tên thuộc

tính LIBOL (Tinh Vân) ILIB (CMC Soft) VEBRARY (Lạc Việt)

Mô tả Phát triển vì nhu cầu trong nước

(1997) và sau đó được thay đổi

theo các chuẩn quốc tế

Có giao diện dạng Web và được thiết kế theo mô hình mở 3 lớp

Đây là hệ thống quản lý thư viện điện

tử, được dùng đầu tiên tại Trung Tâm Thông Tin Tư Liệu Đại Học Đà Nẵng

Hệ điều hành WinNT, Unix, Linux

Cơ sở dữ

liệu

NA Oracle 8i đối với phiên bản lớn

SQL-Server đối với phiên bản nhỏ SmiLib

Tìm kiếm tra cứu mạnh, hỗ trợ

tất cả các khung phân loại

Hỗ trợ tìm kiếm tra cứu theo nhiều tiêu chí khác nhau

Các chức

năng chuyên

môn

Môi trường hiển thị: Web

Chuẩn giao tiếp dữ liệu ISO2709

Hỗ trợ tra cứu liên thư viện qua

chuẩn Z39.50

Có khả năng tùy biến giao diện

Có 8 phân hệ nhgiệp vụ chuyên

môn: tra cứu (Z39.50), , biên

Có chức năng hỗ trợ mã vạch Cho phép thay đổi các module khác nhau qua các thông số

Mọi thao tác trên thư viện đều qua trình duyệt Web

Lưu trữ và lập chỉ mục với số lượng lớn các dạng tài liệu SGML, XML, MARC, RTF, các dạng tài liệu đa phương tiện theo chuẩn open-ebook của W3C

Hỗ trợ các tiêu chuẩn về sách điện tử

và thư viện như Z39.50, Unicode…

Biên mục theo chuẩn MARC, ÚMARC (ngầm định là MARC21)

Có nhiều tính năng khác như bổ sung tài liệu, lưu thông tài liệu, quản lý xuất bản phẩm nhiều kỳ, mượn liên thư viện, báo cáo thống kê Tính năng bảo mật đáng lưu ý

Nhận xét Có khả năng đáp ứng hầu hết

các nhu cầu chuẩn hóa về nghiệp

vụ

Thân thiện với người dùng, chức

năng tìm kiếm nhanh chóng,

chính xác trên nhiều ngôn ngữ

và nhiều tiêu chí

Có tính mở và linh hoạt

Đã được ứng dụng tại một số nơi như Học Viện Quan hệ Quốc tế…

Tuân thủ những tiêu chuẩn mở về hệ thống thư viện và được xây dựng trên nền công nghệ hiện đại, quản lý thư viện hiệu quả, có khả năng liên thông với các thư viện khác trên thế giới

Trang 11

777 GiảI Phóng, Hà NộI ĐT: (4) 664 1595

vebrary@lacviet.com.vn Cty Cổ phần Tin học Lạc VIệt 191A Hoàng Văn THụ, q Phú Nhuận,

tp Hồ Chí Minh ĐT: (8) 842 3333 Fax: (8) 842 2370

1.4 Mục tiêu nghiên cứu của đề tài

Các nghiên cứu-ứng dụng CNTT vào quản lý và khai thác thông tin trong các thư viện đã và đang được quan tâm Sự phát triển nhanh chóng của CNTT và Internet vào những thập niên sau của thế kỷ 20 đã tạo ra lượng thông tin khổng lồ Các thư viện số hóa đã được hình thành và hiện đang lưu trữ một lượng lớn thông tin, dễ dàng truy cập qua Internet Do đó cần phải xây dựng các công cụ hỗ trợ tổ chức, tìm, đọc, tổng hợp thông tin

Những năm qua, nhiều thư viện và các trung tâm lưu trữ trong nước đã có những bước phát triển đáng kể trong việc sử dụng các công cụ CNTT để quản lý tư liệu, độc giả và hỗ trợ công tác tra cứu thông tin Tuy nhiên hướng nghiên cứu phát triển các công cụ hỗ trợ tìm kiến, phân tích, tổng hợp thông tin vẫn đang còn chưa được đầu tư phát triển

Trang 12

nghiên cứu nhằm phát triển các kỹ thuật phân loại tư liệu hỗ trợ tìm đọc và tổng hợp

thông tin Đề tài “Xây dựng một số công cụ hỗ trợ tra cứu và tổng hợp thông

tin trong thư viên số “ tập trung vào các nội dung sau:

• Nghiên cứu nhu cầu khai thác thông tin của độc giả trong một số thư viện số hóa tiêu biểu như thư viện cao học trường ĐHKHTN; thư viện sách điện tử thuộc chương trình đào tạo từ xa ĐHQG-HCM làm cơ sở cho việc áp dụng trong các thư viện khác

• Nghiên cứu đề xuất qui trình tổ chức thông tin hỗ trợ tiến trình sưu tầm, tổ chức và khai thác thông tin trong các thư viện số hóa và xây dựng hệ thống phần mềm hỗ trợ qui trình

• Nghiên cứu và xây dựng các công cụ phần mềm hỗ trợ tìm kiếm, phân tích tổng hợp thông tin trong các thư viện số hóa

Giai đoạn 1: từ tháng 12/2001 đến 7/2002

• Nghiên cứu các nhu cầu khai thác thông tin trong thư viện số

• Nghiên cứu đặc trưng của thông tin tư liệu

• Nghiên cứu các công nghệ sưu tầm, tổ chức thông tin theo tiếp cận tác nhân thông minh, phân lớp gom cụm

• Thiết kế hệ thống và cài đặt một số phần mềm phân lớp gom cụm

Giai đoạn 2: Từ 08/2002 đến 3/2003

• Nghiên cứu công nghệ tìm kiếm thông tin theo tiếp cận tác nhân thông minh

• Cài đặt một số phần mềm phân lớp, gom cụm, hỗ trợ tra cứu thông tin

1.5 Các kết quả đạt được của đề tài

• Xây dựng khung tiêu đề đề mục Việt, Anh , từ điển từ đồng hiện CNTT

• Xây dựng công cụ Search và Download

• Xây dựng công cụ tìm các dãy từ phổ biến để đặc trưng văn bản

• Xây dựng công cụ tổng hợp văn qua gom cụm bằng mạng Kohonen

• Xây dựng thư viện số trên Web với hàng ngàn bài báo khoa học Phát triển truy vấn thư viện qua từ khóa, qua tiêu đề đề mục, qua từ đồng hiện, qua lớp

ra Kohonen trên giao diện Web

Trang 13

CHƯƠNG 2

TỔ CHỨC KHAI THÁC THÔNG TIN THƯ VIỆN

2.1 Tổ chức phục vụ khai thác thông tin

Bước qua giai đoạn quản lý tư liệu đã tồn tại nhiều thế hệ, đến giai đoạn quản

lý thông tin đã đặt ra cho nghề thư viện vấn đề trao đổi và chia sẻ thông tin Đây là

bước ngoặt quan trọng trong nghề thư viện, đồng thời việc ứng dụng triệt để thành tựu CNTT đã đặt ra một thách thức cho nghề thư viện là phải nhanh chóng thay đổi quan niệm ngành nghề đề đối phó với với sự phát triển như vũ bảo của CNTT Ngày nay lượng thông tin dồi dào trở nên quá tải, CNTT lại giúp người ta chọn lọc thông tin có ích và có ý nghĩa được gọi là tri thức và CNTT đồng thời cũng giúp

người ta tự hình thành tri thức – Đây là giai đoạn quản lý tri thức

Ngày nay để đánh giá một thư viện, người ta cho rằng: “Giá trị thư viện không

phải ở chỗ thư viện có bao nhiêu nguồn thông tin mà là thư viện đáp ứng nhu cầu thông tin một cách có hiệu quả như thế nào từ rất nhiều nguồn thông qua công nghệ mới”; Trong một quan niệm mới khác về thư viện, người ta cho rằng “Chuyên môn cốt lõi của nghề thư viện là điểm giao nhau của ba mặt: thông tin, công nghệ thông tin và người sử dụng”

Hiểu biết về nguồn thông tin và cách tổ chức thông tin là năng lực quan trọng

của cán bộ thư viện Nghiệp vụ thư viện cho chúng ta biết cách thu thập thông tin – biểu thị qua công tác quản lý và phương thức truy hồi thông tin; biết cách tổ chức

thông tin – biểu thị qua công tác phân loại, biên mục, chỉ mục và thiết lập cơ sở dữ

liệu; biết cách lưu trữ thông tin – biểu thị qua công tác quản lý vật lý nguồn thông

tin và các hoạt động tìm kiếm Nói chung, người cán bộ thư viện phải biết cách tạo điều kiện để người sử dụng truy cập được thông tin

Công nghệ thông tin và truyền thông đã có ảnh hưởng trong 20 năm qua và ngày nay đang có khả năng thay đổi cuộc sống của chúng ta về mọi mặt Động lực thay đổi quan trọng nhất chính là thông tin Công nghệ thông tin mở rộng bốn bức tường của thư viện nhằm cung cấp nguồn thông tin trong thư viện ra ngoài, đồng thời cung

Trang 14

cấp nguồn tư liệu ngoài phạm vi thư viện cho người sử dụng trong thư viện CNTT

đã đưa ngành thông tin thư viện đạt đến đỉnh cao của quản lý thông tin

Trong giai đoạn này – người cán bộ thư viện đã thay đổi vai trò của mình từ người giữ sách thụ động sang vai trò chủ động của người cung cấp thông tin – là đã bắt đầu quan tâm đến người sử dụng Ngày nay trong công tác phục vụ thông tin, áp lực thường trực đối với người cán bộ thư viện là phải thực hiện:

- Cung cấp lượng thông tin đúng,

- Hiểu nhu cầu người sử dụng,

- Phương thức sử dụng thông tin,

- Khả năng đáp ứng nhu cầu

Giá trị chuyên nghiệp của nghề thư viện sẽ được nâng cao một khi chúng ta không phải chỉ tập trung vào việc mua và cho mượn sách và những tài liệu khác mà

là phải biết nhận định nhu cầu và tìm ra giải pháp thông tin cho người sử dụng, đồng thời bằng cách sử dụng CNTT để quản lý thông tin một cách hợp lý nhằm đưa thông tin đến với người sử dụng một cách nhanh nhất

Bước qua giai đoạn quản lý tri thức, yêu cầu đặt ra cho người cán bộ thư viện

là phải quản lý lượng thông tin điện tử khổng lồ nhằm đáp ứng nhu cầu tìm kiếm của người sử dụng ngày càng gia tăng

Biên mục tự động là một trong những vấn đề then chốt trong giai đoạn này để quản lý thư viện kỹ thuật số Sử dụng hệ thống ngôn ngữ tiêu đề đề mục để giúp người sử dụng tìm kiếm và tập trung thông tin theo chủ đề là một công việc biên mục mang tính nghiệp vụ cao nhất - đòi hỏi cả hai tính chất đặc thù là kỹ thuật và nghệ thuật Việc biên mục tự động do đó đòi hỏi chuyên gia tin học và cán bộ thư viện phải có một sự phối hợp đồng bộ để tạo nên một hệ thống tiêu đề đề mục phản

Trang 15

ánh đúng nội dung của kho tin Đồng thời hỗ trợ việc tìm kiếm thông tin cho người

sử dụng thông qua hệ thống tiêu đề đề mục hoàn chỉnh đó

Tiêu đề đề mục hay đề mục là một danh từ hay cụm từ được hình thành theo những nguyên tắc định sẳn với một cấu trúc nhất định hay ngữ pháp ngôn ngữ tiêu

đề đề mục Một tiêu đề đề mục phản ánh một nội dung của tài liệu Một danh sách tiêu đề đề mục được biên soạn trước và đưa vào trong CSDL được xem như là một tập tin có thẩm quyền (authority file) dùng để kiểm soát tính nhất quán (authority control) của tiêu đề đề mục Đồng thời được dùng để ấn định tiêu đề đề mục cho từng tài liệu điện tử một cách tự động

Ngôn ngữ tiêu đề đề mục không quá máy móc và đơn giản như từ khóa, và cũng không dài dòng như ngôn ngữ thường Tiêu đề đề mục có một cấu trúc nhất định gồm đề mục mục chính với những phân mục phản ánh tính khoa học và đại chúng sẽ trở nên gần gũi với những tìm tin phục vụ công tác nghiên cứu; bản thân danh sách tiêu đề đề mục cũng đã đóng góp một phần trong công tác nghiên cứu cho những ai theo đuổi một đề tài theo một chủ đề nào đó

Để ấn định một tiêu đề đề mục cho một cuốn sách hay một tài liệu, người cán

bộ biên mục phải mất nhiều thời gian trước khi đưa vào CSDL một biểu ghi có chứa tiêu đề đề mục đó, đây là công việc tiền kết hợp (pre-coordinating) Tiền kết hợp theo cách này sẽ không thực hiện được khi khối lượng thông tin cần xử lý trở nên quá lớn Tuy nhiên với giải pháp hỗ trợ của CNTT được trình bày trong đề tài nghiên cứu khoa học này, công việc biên mục trở nên tự động Ngoài ra với các nghiên cứu gom cụm thông tin sẽ cung cấp giải pháp đề xuất tập các từ khóa đặc trưng cho nhóm thông tin cần khảo sát tạo điều kiện cho việc xây dựng các khung tiêu đề đề mục

Trang 16

2.2 Một ví dụ điển hình về thư viện điện tử trực tuyến

(www.webcrawler.com)

Webcrawler là một trong những thí dụ điển hình về thư viện điện tử online

Trên trang chủ của Webcrawler, ở trên cùng bên góc trái là Ô hội thoại để tìm theo

Từ khóa Phía dưới là 18 chanels cho các chủ đề khác nhau (Giải trí, Giáo dục, Máy tính và Internet, Tin tức, Sức khỏe, Mua sắm,vv…)

Trang 17

Ví dụ khi nhấp chuột vào chanel Giáo dục (Education), ta sẽ đi đến một trang web

mà trên đó, trong phần Thư mục (Directory) sẽ bao gồm 14 lãnh vực thuộc Giáo dục (Ái hữu, Nghệ thuật và Nhân văn, Hỗ trợ tài chánh, Luật học, Thư viện, Tham khảo, Khoa học & Tự nhiên, Khoa học Xã hội, Các Viện và Trường đại học, )

Nếu ta thử nhấp chuột vào mục Khoa học và Tự nhiên, ta sẽ lại đi đến một webpage gồm 17 ngành Khoa học tự nhiên (Hóa học, Vật lý, vv…) Nếu cần tìm các thông tin về Hóa học, ta lại nhấp chuột vào mục Hóa học, dưới đề mục Hóa học này lại gồm 15 chuyên ngành nhỏ và các vấn đề liên quan đến Hóa học (Hóa phân tích, Hóa đại cương,v.v…) Webcrawler sẽ đề nghị những website tốt nhất về những vấn đề này mỗi khi ta nhấp chuột vào các đề mục trong Directory

Sự tổ chức của một thư viện điện tử online về bản chất không khác với một thư viện truyền thống: một chủ đề lớn bao gồm những chủ đề nhỏ, rồi đến lượt các chủ đề nhỏ này bao gồm các chủ đề nhỏ hơn, và cứ thế tiếp tục cho đến tận nguồn thông tin cuối cùng là một trang web hay một bài viết Điều làm cho các nguồn thông tin trong một thư viện điện tử online như trong phần Directory của Webcrawler khác với các nguồn thông tin truyền thống là khối lượng khổng lồ của khả năng nối kết to lớn giữa các thông tin trên mạng Ví dụ khi tìm các thông tin về Hóa học, từ những web site tốt nhất được đề nghị trong phần Directory Matches của

Trang 18

thể coi như những thư viện về hóa học vì khối lượng thông tin to lớn được nối kết trong mọi web site này

Trang 19

CHƯƠNG 3 TIÊU ĐỀ ĐỀ MỤC

3.1 TIÊU ĐỀ ĐỀ MỤC

Tiêu đề đề mục được dịch từ Subject Heading (Subject = Đề mục và Heading

= Tiêu đề) đôi khi được gọi là Đề mục như ta đã biết, cùng với Tác giả và Nhan

đề là những điểm truy cập quan trọng nhất trong Hệ thống tra cứu thư viện Tác giả và Nhan đềø được mô tả dựa vào dữ liệu có sẵn của tư liệu, trong khi đó Tiêu

đề đề mục do cán bộ biên mục xác định dựa vào nội dung tư liệu rồi đưa vào hệ

thống như một dữ liệu mới, tiến trình này được gọi là Phân tích Đề mục hay

Phân tích Chủ đề (Subject Analysis) phải được thực hiện với nghệ thuật và kỹ

thuật biên mục Từng tư liệu được xác định đúng tiêu đề đề mục hay hệ thống tiêu

đề đề mục của một thư viện được xử lý tốt thì nội dung kho tư liệu của thư viện đó

được phản ánh một cách đầy đủ Do đó Tiêu đề đề mục được dùng rộng rãi trong

Biên mục sách (Cataloging)

Thư viện của một quốc gia sử dụng ngôn ngữ nào thì Tiêu đề đề mục được thể

hiện bằng ngôn ngữ đó Từng quốc gia do đó thiết lập một Hệ thống Tiêu đề Đề mục bằng ngôn ngữ của riêng mình, nhưng phải tuân theo những cấu trúc và

nguyên tắc thiết lập chung để dần dần tiến đến một ngôn ngữ chung "Ngôn ngữ

tiêu đề đề mục = Subject Heading Language"

Một vài minh họa phô hiện thông tin trên biểu ghi về tư liệu với Đề mục

sử dụng Tiếng Việt cho Hệ thống Tiêu đề đề mục của Thư viện mình như minh

họa trong Hình 3.1 - Hai Đề mục được đánh số thứ tự Ả Rập ở dòng cuối cùng của

Thẻ Thư mục

Trang 20

Hình 3.1: Thông tin về sách (Hệ thống Online Catalog của Thư viện ĐH Khoa

học Tự Nhiên) Độc giả có thể nhấp chuột vào các Đề mục sau để tìm tài liệu có nội dung tương ứng:

C++ (NGÔN NGỮ LẬP TRÌNH MÁY TÍNH) ĐỒ HỌA MÁY TÍNH

Thư viện Quốc hội Hoa kỳ sử dụng Khung Đề mục LC (Library of Congress

Subject Headings) để định Tiêu đề đề mục Ví dụ ở Hình 3.2 cho ta thấy thông tin

về một cuốn sách xuất bản bằng Tiếng Việt có hai Đề mục bằng Tiếng Anh được dịch như sau:

BỘ ĐỘI GIÁO DỤC NGOẠI KHÓA VIỆT NAM

VIỆT NAM LỰC LƯỢNG VŨ TRANG SINH HOẠT CHÍNH TRỊ

Trang 21

Hình 3.2: Thông tin về sách (Hệ thống Online Catalog của Thư viện Quốc hội

Hoa kỳ)

Ví dụ ở Hình 3.3 là một biểu ghi thư mục một tác phẩm Tiếng Ba Lan của Thư

viện Quốc gia Anh gồm 4 Tiêu đề mục bằng Tiếng Anh Đề mục ở đây được chọn

từ Khung LCSH (Library of Congress Subject Headings) Những đề mục được dịch như sau:

KINH TẾ DỰ BÁO BA LAN

BA LAN ĐIỀU KIỆN KINH TẾ 1990-

BA LAN CHÍNH SÁCH KINH TẾ 1990-

Trang 22

Hình 3.3: Thông tin về sách (Hệ thống Online Catalog của Thư viện Quốc gia

Anh)

Hình 3.4 trình bày một biểu ghi thư mục của một bài tạp chí trong Cơ sở dữ liệu

CD-ROM "General Science" của EBSCO Bài tạp chí này được phân tích thành

hai Đề mục mang nội dung khác nhau, được dịch như sau:

Y TẾ, CHĂM SÓC VIỆT NAM

VIỆT NAM CHÍNH SÁCH KINH TẾ

Trang 23

Search/Subjects/Find GENERAL SCIENCE (FEB'91 - MAR'96)

+ -Detailed Display - 1 of 1 -+

Subject: MEDICAL care Vietnam; VIETNAM Economic policy

Title: The influence of market economics on primary health care in

Vietnam

Author: Gellert, George A

Summary: Analyzes the impact of economic reforms introduced in

Vietnam in 1986 on health care in the country Information on Vietnam's health care system; Abolishing the subsidy system; Details of factors

affecting primary health care; Disease prevention and health promotion

Hình 3.4: Thông tin về bài tạp chí (CSDL CD-ROM EBSCO)

Qua các minh họa trên ta thấy Tiêu đề đề mục đóng vai trò quan trọng trong

việc giới thiệu nội dung của một tư liệu (sách hoặc bài tạp chí ) Tiêu đề đề mục

là một trường độc lập trong một biểu ghi

3.2 TỪ KHÓA

Từ khóa là từ được dùng để định vị thông tin trong một Cơ sở dữ liệu Thông

tin có thể là một biểu ghi thư mục (bibligographic record), bản tóm tắc (abstract),

hay toàn văn (full text) mà Từ khóa hiện diện trong đó

Trang 24

Từ khóa tự do (Free Style Keyword) là từ nằm sẵn trong tư liệu hay

CSDL Từ khóa này không có riêng một trường độc lập

Từ khóa có kiểm soát (Controlled Style Keyword) là từ được chọn lọc

đưa vào CSDL Từ khóa loại này có riêng một trường độc lập

Khác với Tiêu đề đề mục đã có từ lâu, Từ khóa chỉ mới xuất hiện khi computer

được áp dụng trong ngành Thông tin Thư viện

Từ khóa giúp ta tìm nhanh tài liệu có chứa từ khóa đó Nhờ các Phép toán

Boolean giúp ta kết hợp nhiều nội dung tìm hay hạn chế số lượng kết quả tìm Do

đo Từ khóa được dùng để định vị và chỉ điểm (pointing) thông tin cần tìm trong CSDL Từ khóa được dùng rộng rãi trong công tác Chỉ mục tạp chí (Indexing)

3.3 SO SÁNH TIÊU ĐỀ ĐỀ MỤC VỚI TỪ KHÓA

Tiêu đề đề mục với Từ khóa tự do: Được dùng trong Biên mục sách

Tiêu đề đề mục là do Cán bộ biên mục đưa vào Cơ sở dữ liệu để phản ánh

nội dung tư liệu

Từ khóa tự do có thể là Từ khóa trong Nhan đề, Từ khóa trong Tác giả,

Từ khóa trong Đề mục

Vài minh họa cách sử dụng Từ khóa tự do trong Hệ thống tra cứu Online Catalog So sánh với cách sử dụng Tiêu đề đề mục

Hình 3.5 và Hình 3.6 cho ta thấy hai cách tìm theo Tiêu đề (Heading) và Từ

khóa tự do (Keyword) trong Hệ thống Online Catalog của Thư viện Baker, Đại

học Harvard, Hoa kỳ

Trang 25

Hình 3.5

Khi ta chọn BASIC SEARCH màn hình sẽ hiện ra như Hình 3.5 cho ta phương

thức tìm theo Tiêu đề gồm: Tiêu đề Tác giả, Tiêu đề Nhan đề, Tiêu đề Tên Tạp

chí, Tiêu đề đề mục, và Tiêu đề ký hiệu Phân loại (Xếp giá) Mỗi Tiêu đề là một

Trường trong CSDL Ta phải gõ đầy đủ thông tin về Tiêu đề Chẳng hạn như đối với Tiêu đề đề mục thì ta phải gõ đầy đủ Đề mục chính, Tiểu phân mục, dấu phân cách,v.v Ví dụ:

VIETNAM HISTORY 1954-1975

Nếu ta chọn KEYWORD SEARCH Màn hình như Hình3.6 cho ta phương thức

tìm theo Từ khóa tự do kèm theo giải thích cách tìm theo những Toán tử logic:

• thêm AND/OR vào ô hội thoại

Trang 26

• dùng * để đánh đấu những từ quan trọng: *technology

• dùng ? để chặt cụt từ: industr?

• dùng ! để ngăn chặn từ: !computer

Hình 3.6

Màn hình như Hình 3.7 minh họa cách tìm Từ khóa trong Nhan đề và Từ khóa

trong Đề mục trong Hệ thống Online Catalog của Thư viện Quốc gia Anh

Trang 27

Hình 3.7

Nếu ta chọn Từ khóa trong Đề mục thì vào ô hội thoại Subject (Đề mục) Ví dụ

ta chọn Từ khóa economic Những cuốn sách có Đề mục mang Từ khóa trên được

phô hiện; giã sử ta chọn cuốn sách có biểu ghi như Hình 3.3 có tựa đề là "Polonia

quo vadis? " và có những Đề mục mang Từ khóa economic như sau:

ECONOMIC FORECASTING POLAND

POLAND ECONOMIC CONDITIONS 1990-

POLAND ECONOMIC POLICY 1990-

Nếu ta chọn Từ khóa trong Nhan đề thì vào ô hội thoại Title (Nhan đề) Ví dụ ta

chọn Từ khóa Vietnam Màn hình như Hình 3.8 phô hiện những nhan đề sách có

chứa Từ khóa Vietnam

Trang 28

Hình 3.8

Hình 3.9

Hệ thống Online của Thư viện ĐH Simmons, Hoa kỳ như trong Hình 3.9 cho ta

Trang 29

(Subject), Từ Khóa tự do (Keyword), Ký hiệu xếp giá theo số Phân loại LC, Ký hiệu xếp giá không theo số Phân loại LC, số ISSN/ISBD

Tiêu đề đề mục với Từ khóa có kiểm soát: Cả hai đều là Thuật ngữø có kiểm soát (Controlled vocabulary) được tạo thành Trường độc lập trong Hệ thống

Online Catalog

Tiêu đề đề mục được dùng để mô tả nội dung tư liệu Danh sách Tiêu đề

đề mục (Subject heading list) chẳng hạn như "Library of Congress

Subject Headings" và "Sear List of Subject Headings" được dùng trong

Biên mục sách và đôi khi được dùng trong Chỉ mục Tạp chí

Từ khóa có kiểm soát tập hợp những từ phản ánh một phần nội dung tư

liệu, được kiểm soát để đồng nhất Từ khóa nói chung không chú trọng đến

cấu trúc và mô tả dữ liệu Chỉ chú trọng đến việc kết hợp để tạo nên những biểu thức tìm nhằm định vị nhanh và chỉ điểm đúng thông tin trong CSDL

Danh sách những Từ khóa có kiểm soát được gọi là Thesaurus được dùng

trong Chỉ mục tạp chí

3.4 KẾT LUẬN

Tiêu đề đề mục và Từ khóa là bộ phận không thể thiếu trong Bộ máy tra cứu

tư liệu Trong đó Tiêu đề đề mục là bộ phận chủ yếu nhất trong Biên mục học

(Cataloging), hiện diện trong giáo trình Khoa học Thông tin và Thư viện kể từ khi Nghề Thư viện ra đời cách đây rất lâu và càng tỏ ra hữu hiệu trong Hệ thống Mục lục trực tuyến (Online catalog) ngày nay Do vậy cần khuyến khích sử dụng và

thành lập "Danh sách Tiêu đề đề mục Tiếng Việt" theo chuẩn quốc tế để hỗ trợ

phát triển công tác biên mục thư viện đặc biệt là các thư viện điện tử nhằm hỗ trợ tiến trình tra cứu thông tin

Trang 30

CHƯƠNG 4

XÂY DỰNG CÔNG CỤ TÌM KIẾM VÀ DOWNLOAD

DỰA TRÊN TÁC NHÂN 4.1.TÁC NHÂN” PHẦN MỀM (SOFTWARE AGENT):

• The Hayes - Roth Agent (Hayes -Poth 1995) Các tác nhân thông minh biểu hiện 3 chức năng: cảm nhận về những trạng thái trong môi trường, hành động để tác động lên trạng thái trong môi trường đó

• The IBM Agent (http://activist.gpl.ibm.com:81/whitepaper/ptc2.htm) 'Tác nhân thông minh hoàn toàn là một phần mềm thực hiện một tập các hành động dựa trên cư xử của người sử dụng hay chương trình khác với môt vài mức độ độc lập hay tự hoạt động, và trong quá trình làm như thế, dùng một

số tri thức về mục đích và mong muốn của người sử dụng

• The Brustoloni Agent (Brustoloni 9991, Frankin 1995, trang 265) "Các tác nhân là các hệ thống có khả năng tự hoạt động, hành động có mục đích trong thế giới thực." Theo những định nghĩa trên có thể làm chúng ta thấy

rõ rằng các tác nhân phải có tính tự hoạt động (độc lập), tìm kiếm mục tiêu, kiên định, suy luận và khả năng giao tiếp

4.1.2 Các thuộc tính của tác nhân

Tác nhân về cơ bản hoàn toàn khác với các chương trình phần mềm và các chương trình, chúng phải có các đặc tính và thuộc tính đặc biệt Một tác nhân phải

có các đặc tính sau:

Trang 31

• Thích nghi: một tác nhân phải có khả năng làm việc thích nghi Khi môi

trường thay đổi, tác nhân phải tự động cảm nhận và có hành động thích nghi với những thay đổi của môi trường

• Tự khởi động: một tác nhân có thể tự kích hoạt hay dùng kích hoạt dựa

trên tiêu chuẩn của chính bản thân nó và có khả năng quyết định thu gom thông tin sử dụng các ưu tiên của người dùng Hoạt động thường xuyên theo giờ, ngày, tuần hay hàng tháng được đặt ra Tác nhân cần có khả năng quyết định kích hoạt hay ngừng hoạt động

• Trong suốt: Người sử dụng sẽ không nhìn thấy hoạt động bên dưới của tác

nhân trong hệ thống Mọi công việc trên đều trong suốt với người sử dụng Người sử dụng hầu như không biết tác nhân đang chạy trong hệ thống của mình

4.1.3 Sự tác động trực tiếp của Internet

Nhiều người cho rằng "tác nhân" và Internet luôn gắn liền với nhau Lý do là đầu tiên tác nhân được sử dụng cho các công việc trên môi trường Internet ( tác nhân tìm kiếm chẳng hạn) Tuy vậy, tác nhân có thể hành động trong bất kỳ môi trường nào

4.1.4 Các loại tác nhân:

Có thể tóm tắt đặc điểm của một số loại tác nhân như sau:

• Tác nhân thông minh: là loại mang ý nghĩa tổng quát và phù hợp với các

định nghĩa đã trình bày ở trên

• Tác nhân học: là những tác nhân phần mềm mà cơ bản học từ người sử

dụng hay người chủ của nó Việc học chúng ta định nghĩa ở đây như là việc

bổ sung hành vi thông qua kinh nghiệm hay sự phán đoán Một khi các công việc được học, tác nhân có thể sau đó chỉ dẫn hay đề nghị các cách thức để cải tiến công việc nào đó

Trang 32

trong nó Trong tương lai các tác nhân này sẽ trở nên thông minh hơn Tác nhân niềm tin hiện thời không thông minh chúng chỉ xuất hiện thân thiện để giao tiếp với người dùng Chúng thường xuất hiện thân thiện để giao tiếp với người dùng Chúng thường có mặt ở các trò chơi trẻ con như những con thú ảo,…

• Tác nhân có khả năng chuyển tải: Những tác nhân này rất năng động,

linh hoạt và có khả năng di chuyển đến nơi khác Chúng có thể cư ngụ trên một máy chủ hay một máy trạm nào đó, và gặm nhấm thông tin từ máy tính, mạng Internet đã thực hiện công việc của nó Nó thường được sử dụng

để thu nhập dữ liệu, thông tin hay là những thay đổi Tác nhân có khả năng

vận tải có nhiều thuận lợi hơn so với mô hình client/server truyền thống

4.1.5 Ứng dụng khái niệm “tác nhân” trong chương trình:

Chương trình cần được thiết kế theo hướng tiếp cận tác nhân đảm bảo đáp ứng đúng mục tiêu đã đề ra ban đầu: xây dựng một chương trình nhằm giúp cho người quản trị thư viện có thể biên mục một cách nhanh chóng và hiệu quả nhằm tiết kiệm thời gian và công sức tìm kiếm thông tin trên Internet

Theo cách tiếp cận này, chương trình được thiết kế gồm 2 “tác nhân” chính: tác nhân tìm kiếm và tác nhân download Khi chương trình được kích hoạt, hai tác nhân sẽ hoạt động liên tục để thực hiện nhiệm vụ của mình Trong quá trình thực hiện các tác nhân có thể chuyển sang trạng thái chờ nếu không có việc và sẽ tự động hoạt động trở lại khi cần thiết

Các tác nhân sẽ có khả năng hoạt động độc lập và liên tục không đòi hỏi nhiều sự can thiệp của con người Các tác nhân sẽ hoạt động dưới dạng một dịch

vụ của hệ thống để đảm bảo tính trong suốt đối với người sử dụng

Trang 33

4.2 GIỚI THIỆU VẤN ĐỀ:

Ngày nay với sự bùng nổ thông tin, nhất là sự phát triển mạnh mẽ của Internet và World Wide Web Việc tìm kiếm thông tin thật sự dễ dàng đối với người dùng Internet Tuy nhiên, Internet như một xa lộ rộng lớn và rất dễ đưa người sử dụng đi lạc trong cái mênh mông của nó Thật là dễ dàng vì bạn có thể dùng các trang tìm kiếm thông tin như yahoo hay google để tìm kiếm một thứ gì

đó Nhưng giả sử chúng ta cần tìm kiếm một số luận văn nghiên cứu về máy học,

và chúng ta bắt đầu tìm kiếm một cách bình thường, tức là vào google hay yahoo

để search với từ khóa :”Machine learning” Lúc này kết quả hiện ra là hàng ngàn các trang web nói về machine learning, bao gồm các trang web của các khoa máy tính của các đại học ,viện trên thế giới và các home page của các chuyên gia Để tìm kiếm tiếp chúng ta lần lượt chọn các địa chỉ web và xem, rồi chọn lọc Đến khi nào thông tin của chúng ta thỏa mãn thì thôi Việc tìm kiếm này đòi hỏi công sức và thời gian rất nhiều

Một câu hỏi đặt ra là trong một tổ chức như một viện hay một trường đại học, việc tìm kiếm thông tin như vậy sẽ rất không khoa học Ví dụ cùng một mục đích nhưng anh A ở khoa này phải tốn cả buổi trời để tìm, rồi anh B cũng vậy, và còn nhiều người nữa Thời gian cho việc tìm có thể là cấp số cộng Nếu ta có thể xây dựng được một thư viện, tạm gọi là thư viện số Tổ chức các thông tin và tài liệu tìm kiếm trên web một các khoa học và chính xác thì việc tìm kiếm thông tin hoàn toàn nhanh chóng và hiệu quả Việc tìm kiếm chỉ thực hiện một lần, và có thể được cập nhật thông tin thường xuyên (vì web liên tục phát triển)

Để xây dựng được thư viện số thì một trong thành phần quan trọng là tìm kiếm và lấy thông tin trên Internet Trong phần báo cáo này chúng tôi xin trình bày hai cơ chế hỗ trợ xây dựng thư viện số là : search engine và download engine

Trang 34

4.3 CHỨC NĂNG SEARCH ENGINE

Thuật ngữ Search engine khá là thân thiện với chúng ta, những người sử dụng Internet thường xuyên Ít nhất là một lần chúng ta sử dụng các trang web như Yahoo, Google hay Altavista để tìm kiếm một thông tin nào đó Các trang web này lấy từ khóa mà người tìm kiếm hỏi rồi đưa vào một chức năng gọi search engine, search engine này thực chất là một chương trình máy tính, chương trình này sẽ truy lùng trong một cơ sở dữ liệu thông tin tìm kiếm (được tổ chức ở web server của các trang web tìm kiếm) Sau khi tìm xong thì web server sẽ trả về cho người dùng các kết quả tìm kiếm được Đây là dạng tìm kiếm trực tiếp trên web Ngoài ra còn có một dạng tìm kiếm client như sau: Một chương trình tìm kiếm chạy ở máy có kết nối cổng internet, cho phép người dùng tìm kiếm các thông tin trên các search engine khác nhau Cách tìm kiếm này tiện lợi cho phép tìm kiếm thông tin đa dạng trên nhiều search engine và có thể lưu trữ lại các thông tin tìm kiếm theo nhiều định dạng tập tin khác nhau như text file, hoặc các sheet của excel

Chức năng Search Engine được cài đặt trong đề tài được phát triển theo hướng thứ hai Chương trình cho phép chúng ta tận dụng sức mạnh của các Search Engine hiện có, đồng thời nâng cao hiệu quả của việc tìm kiếm dưói dạng thư viện

số hóa Ngoài ra, việc tìm kiếm sẽ được kích hoạt một cách tự động nhằm làm giảm tối đa sự can thiệp của con người vào quá trình tìm kiếm thông tin trên Internet vốn rất tốn thời gian

4.4 CÀI ĐẶT SEARCH ENGINE TRONG THƯ VIỆN SỐ

Hướng tiếp cận là xây dựng một chương trình tìm kiếm tự động dạng một chương trình search kết nối nhiều cơ sở dữ liệu thông tin của các search engine trên web như google và yahoo Chương trình này sẽ hoạt động dạng một chương trình NT Service, nó sẽ hoạt động dưới dạng nền (deamon program), liên tục cập nhật thông tin mà người dùng cần tìm rồi thực hiện việc tìm kiếm trên Internet và lưu vào cơ sở dữ liệu của thư viện số

Trang 35

Do luôn hoạt động dưới hình thức nền, nên khi có một yêu cầu do một người quản lý thư viện hay một người dùng cần tìm kiếm thông tin mới nào đó, thì chức năng tìm kiếm sẽ được kích hoạt Các kết quả tìm đươc sẽ được lưu trữ vào thư viện và người dùng tìm kiếm sẽ được những thông tin cần tra cứu

Để thông tin được cập nhật liên tục thì thông thường theo định kỳ search engine phải cập nhật các thông tin đã tìm kiếm Tức là thêm các thông tin mới và hủy bỏ những thông tin không còn tồn tại hay không còn giá trị trên Internet Như chúng ta biết thì các trang web liên tục phát triển hàng ngày có hàng ngàn trang web ra đời và cũng có nhiều trang web không còn cung cấp hay không còn tồn tại nữa

Hình 4.1 Mô hình hoạt động của Search Engine

Thông tin tìm kiếm

Search Engine

Thực hiện tìm kiếm trên Internet

Lưu thông tin tìm kiếm mới vào CSDL Truy cập thư viện số

™ Mô hình hoạt động của Search Engine phục vụ cho thư viện số

Trang 36

4.5 CHỨC NĂNG DOWNLOAD ENGINE

Như chúng ta đã biết phần quan trọng của Internet & World Wide Web là cung cấp các tài liệu điện tử (e-book) Tài liệu này thường được lưu dưới rất nhiều định dạng tập tin khác nhau như pdf, ps, html, text file

Việc lấy các tài liệu dạng này về thư viện số cần phải có một chương trình tải

về (download) từ Internet Hiện tại có rất nhiều chương trình download thương mại trên thị trường cung cấp rất nhiều tiện ích tuỳ theo nhu cầu của người dùng Tuy nhiên, do yêu cầu xây dựng thư viện số nên chúng ta cần phải xây dựng một chương trình download riêng để kết hợp với search engine Tạo thành một khối kết hợp tự động, nhằm làm giảm sự can thiệp của người điều hành trực tiếp Chức năng Download Engine sẽ đảm nhiệm công việc download các tài liệu điện

tử tìm được về lưu vào cơ sở dữ liệu của thư viện số hóa Công việc này cũng sẽ được kích hoạt tự động cùng với chức năng Search Engine

4.6 CÀI ĐẶT DOWNLOAD ENGINE TRONG THƯ VIỆN SỐ

Thành phần download engine này chịu trách nhiệm tải về các tập tin trên Internet bao gồm các tài liệu điện tử, các tập tin nguồn

Cũng tương tự như search engine, chức năng downlaod engine cũng hoạt động dưới dạng NT Service Tức là hoạt động nền bên dưới, khi nào có yêu cầu download thì nó sẽ tự động kết nối vào URL đã tìm được trong cơ sở dữ liệu và thực hiện việc download các tập tin về rồi lưu vào thư viện số

Chức năng này hoạt động dựa trên kết quả đạt được của chương trình Search Engine Mỗi khi được kích hoạt, chương trình sẽ dò tìm trong cơ sở dữ liệu của thư viện để tiến hành download các tư liệu theo yêu cầu

Các tư liệu tải về sau khi được lưu lại sẽ được cập nhật thông tin trong cơ sở

dữ liệu để phục vụ cho hoạt động của thư viện số

Trang 37

Hình 4.2 Mô hình hoạt động của download engine

4.7 KẾT HỢP CƠ CHẾ SEARCH VÀ DOWNLOAD TRONG XÂY DỰNG THƯ VIỆN SỐ

Việc kết hợp search engine và download engine vào việc xây dựng thư viện

số là công việc thiết yếu Hai chương trình này sẽ giúp cho người quản trị thư viện

có thể biên mục thư viện số một cách nhanh chóng và hiệu quả Việc kết hợp này

sẽ đem lại nhiều lợi ích Lúc này người biên mục không tốn nhiều thời gian, và công sức tìm kiếm thông tin trên Internet bằng các chương trình tìm kiếm khác nhau rồi sau đó chọn lọc và lưu giữ chúng Và cuối cùng là chọn các tư liệu trên Internet để download về

Thông tin download

Download Engine

Internet - WWW

Cơ sở dữ liệu thư viện số

Quản trị thư viện

số

File Tư liệu, e-book

Chuyển URL cần download cho chương trình

Thực hiện download

Lưu nội dung download vào CSDL

™ Mô hình hoạt động của Download Engine phục vụ cho thư viện

số

URL User- LAN

Trang 38

Hình 4.3 Mô hình kết hợp hoạt động của search engine và download engine

Cách thức hoạt động như sau: người quản trị hay biên mục thư viện trong quá trình xây dựng và duy trì thư viện số, họ sẽ đưa yêu cầu tìm kiếm thông tin trên Internet cho Search engine Search engine sẽ thực hiện việc tìm kiếm trên Internet sau đó lưu kết quả tìm kiếm tức là địa chỉ của các trang web có nội dung liên quan Những thông tin này được lưu vào cơ sở dữ liệu thư viện số nhằm cung cấp cho hai mục đích : cung cấp địa chỉ cho người tìm kiếm, và mục đích thứ hai

là dùng các địa chỉ này để làm nguồn cho phần download engine lấy các tập tin và tài liệu liên quan từ nguồn này Việc lấy các tài liệu từ các nguồn này rất cần thiết Khi đó sẽ rất tiện lợi cho người dùng thư viện là họ không những tìm kiếm được trang web liên quan đến lĩnh vực mà còn xem được các tài liệu từ các nguồn này

Thông tin tìm kiếm

Search Engine

Thực hiện Tìm kiếm

URL

Download Engine

Chuyển thông tin cần download

Chuyển thông tin cần download Lưu nội dung download về CSDL

Trang 39

Toàn bộ các công việc trên được cài đặt sử dụng hướng tiếp cận mới gọi là tác nhân thông minh (Intelligent Agent) Hướng tiếp cận mới này cho phép xây dựng những phần mềm có khả năng thay thế cho con người, ở đây là thay thế cho

vị trí người quản thủ thư viện trong mô hình thư viện số

4.8 KẾT QUẢ XÂY DỰNG CHƯƠNG TRÌNH

4.8.1 Gíơi thiệu

Trong thời gian qua nhóm phát triển phần mềm đã xây dựng xong search engine Chương trình này được gọi là Search Agent Search Agent là một chương trình application dạng NT Service chạy trên nền Windows NT hay Windows 2000, Windows XP

Chương trình Search Agent hoạt động với đầu vào input và xuất dữ liệu output thông qua cơ sở dữ liệu là SQL Server Tức là thông tin cần tìm sẽ được một chương trình nhập vào thông qua một client program hay một form từ một trang web Thông tin cần tìm này hay còn gọi là khóa cần tìm sẽ được lưu vào một bảng tạm để chuẩn bị cho Search Agent thực hiện việc tìm kiếm Search Agent luôn luôn truy cập vào bảng tạm này để lấy các thông tin mới cần tìm theo một khoảng thời gian nhất định cho trước Các thông tin lấy về tức là các địa chỉ các trang web hay còn gọi là URL sẽ được lưu vào một bảng khác Các thông tin này được chỉ mục với các từ khóa để tiện cho việc tìm kiếm của người dùng trong thư viện

Trang 40

Search agent sẽ tiến hành lấy các kết quả tìm kiếm dựa trên kết quả có được

từ các search engine khác Tự động dò tìm các trang web ứng với từ khóa bằng cách tự tạo cho mình tri thức từ những trang web mà agent đi qua

Các thông tin lấy về tức là các địa chỉ các trang web hay còn gọi là URL sẽ được lưu vào một bảng khác Các thông tin này được chỉ mục với các từ khóa để tiện cho việc tìm kiếm của người dùng trong thư viện.Giới thiệu chương trình Search Agent:

Giới thiệu chương trình Search Agent:

o Tên chương trình: Search Agent

o Công cụ phát triển : Visual Studio 6

o Môi trường sử dụng : Windows NT, Windows 2K, Windows XP

o Cơ sở dữ liệu : SQL Server

o Yêu cầu kĩ thuật: cấu hình máy tính CPU Pentium II, 64MB RAM, 4GB HDD trở lên và phải có kết nổi với Internet

o Kết nối với cơ sở dữ liệu tìm kiếm trên Internet : Google và Yahoo

4.8.2.Phân tích yêu cầu xây dựng Search Agent:

o Xây dựng một ứng dụng Search engine thực hiện việc truy tìm thông tin trên Internet thông qua một từ khóa (keyword) hay cụm từ khóa (multiword)

o Search engine thực hiện việc tìm kiếm thông qua cơ chế tự động kết nối với các cơ sở dữ liệu tìm kiếm trên Internet như Google, Yahoo, Hotbot, Altav ista Để lấy các thông tin về các trang web liên quan cần tìm kiếm

o Việc thực hiện tìm kiếm phải đảm bảo tốc độ tốt nhất và tìm kiếm được nhiều thông tin nhất Tức là kết nối với cơ sở dữ liệu tìm kiếm nhanh và chất lượng, điển hình là Google và Yahoo là hai trang tìm kiếm nhanh

và hiệu quả ở thời điểm hiện tại

o Xây dựng chương trình kết nối với cơ sở dữ liệu lớn như SQL Server hay Oracle để các thông tin kết quả tìm kiếm được (có thể rất nhiều)

Ngày đăng: 24/01/2014, 04:20

HÌNH ẢNH LIÊN QUAN

Hình 3.1: Thông tin về sách (Hệ thống Online Catalog của Thư viện ĐH Khoa - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 3.1 Thông tin về sách (Hệ thống Online Catalog của Thư viện ĐH Khoa (Trang 20)
Hình 3.2: Thông tin về sách (Hệ thống Online Catalog của Thư viện Quốc hội - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 3.2 Thông tin về sách (Hệ thống Online Catalog của Thư viện Quốc hội (Trang 21)
Hình 4.1  Mô hình hoạt động của Search Engine - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 4.1 Mô hình hoạt động của Search Engine (Trang 35)
Hình 4.2. Mô hình hoạt động của download engine - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 4.2. Mô hình hoạt động của download engine (Trang 37)
Hình 4.3. Mô hình kết hợp hoạt động của search engine và download engine - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 4.3. Mô hình kết hợp hoạt động của search engine và download engine (Trang 38)
Bảng CSDL lưu trữ từ  Sai khóa tìm kiếm - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
ng CSDL lưu trữ từ Sai khóa tìm kiếm (Trang 42)
Bảng 4.1:  Dữ liệu đầu vào  Với dữ liệu đầu vào như Bảng 4.1, kết quả sau khi hoàn tất phải là 150 tập tin - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Bảng 4.1 Dữ liệu đầu vào Với dữ liệu đầu vào như Bảng 4.1, kết quả sau khi hoàn tất phải là 150 tập tin (Trang 48)
Bảng 4.2:  Kết quả tìm kiếm khi chương trình tạm dừng - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Bảng 4.2 Kết quả tìm kiếm khi chương trình tạm dừng (Trang 49)
Bảng 4.4:  Kết quả khi hoàn tất công việc - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Bảng 4.4 Kết quả khi hoàn tất công việc (Trang 50)
Bảng 4.5:  Kết quả mẫu trong cơ sở dữ liệu - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Bảng 4.5 Kết quả mẫu trong cơ sở dữ liệu (Trang 51)
Hình 5.3. Đồ thị quan hệ hypernym giữa các danh từ - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 5.3. Đồ thị quan hệ hypernym giữa các danh từ (Trang 73)
Hình 6.1:  Cấu - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 6.1 Cấu (Trang 86)
Hình 6.2: Sơ đồ liên kết màn hình - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 6.2 Sơ đồ liên kết màn hình (Trang 90)
Hình 6.8: Các dãy từ phổ biến đặc trưng cho một cụm trên lớp ra Kohonen - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
Hình 6.8 Các dãy từ phổ biến đặc trưng cho một cụm trên lớp ra Kohonen (Trang 98)
6. 8.3  Sơ đồ hoạt động hỗ trợ tra cứu thư viện số trên Web thông qua lớp ra  Kohonen - Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf
6. 8.3 Sơ đồ hoạt động hỗ trợ tra cứu thư viện số trên Web thông qua lớp ra Kohonen (Trang 101)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w