1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Hệ thống đề cương câu hỏi môn thư viện số

73 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống đề cương câu hỏi môn thư viện số
Trường học Đại học Quốc gia TP Hồ Chí Minh
Chuyên ngành Thư viện số
Thể loại Đề cương
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 73
Dung lượng 536,41 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hệ thống đề cương câu hỏi môn thư viện số Câu 1: Trình bày tổng quan về tình hình nghiên cứu và phát triển thư viện số DL (Digital Library) trên thế giới và ở Việt Nam ? – Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới – Trọng tâm của các dự án DL : Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL ................

Trang 1

Hệ thống đề cương câu hỏi môn thư viện số

Câu 1: Trình bày tổng quan về tình hình nghiên cứu và phát triển thư viện số DL (Digital Library) trên thế giới và ở Việt Nam ?

– Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới

– Trọng tâm của các dự án DL :

Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin

Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL

 Nghiên cứu và phát triển DL ở Mỹ

 Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh

 2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và

Dự án thư viện số quốc tế

 Dự án thư viện số DLI:

 Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU

 Dự án dịch vụ thông tin số của Đại học California ở Berkeley

 Dự án Alexandria của Đại học California ở Santa Barbara

 Dự án Interspace của Đại học Illinois ở Urbana-Champaign

 Dự án UMDL của Đại học Michigan

 Dự án InfoBus của Đại học Stanford

 Các dự án DL chủ yếu khác ở Mỹ:

 Thư viện quốc hội (Library of Congress)

 Dự án công nghệ thư viện số DLT của NASA

 Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ

 Dự án thư viện số của IBM

1

Trang 2

 Dự án thư viện số California CDL

 Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)

 Dự án MOA của hai Đại học Cornel và Michigan

 Dự án Open Book của Đại học Yale

 Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T

Laboratories và Springer-Verlag

 Dự án TULIP của nhà xuất bản Elsevier Science Publisher

 DL ở các nước khác

Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu

về lịch sử, văn hoá và nghệ thuật:

Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan,Australia, New Zealand

 Việt Nam

 Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin

 Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi

 Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam

 Đại bộ phận thư viện sẽ đi theo con đường: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin

 Hiện nay, một số phần mềm được cài đặt:

 PM Thư viện số Greenstone của dự án New Zealand Digital Library ở Đại học Quốc gia

TP Hồ Chí Minh và nhiều trường Đại học khác

 PM Thư viện số VTLS ở Đại học Bách khoa Hà Nội

 PM Thư viện số Koha ở Đại học Quốc gia Hà Nội

Trang 3

 PM Thư viện số Dspace ở Đại học Đà Lạt

 PM thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam

 PM thư viện điện tử LIBOL của công ty Tinh vân ở Cục Thông tin khoa học và công nghệ Quốc gia

 Hệ phần mềm nguồn mở Greenstone rất phổ biến trong xây dựng thư viện số PM cung cấp cách tổ chức thông tin và đưa thông tin lên Internet rất thuận tiện Kho tài liệu do Greenstone tạo ra có thể duy trì, tìm kiếm và duyệt Kho tài liệu dành cho mọi đối tượng độc giả và có thể mở rộng PM được phát hành theo General Public License (GNU) với tinh thần là phần mềm nguồn mở Xem thông tin chi tiết tại www.nzdl.org Phần mềm Thư viện số Greenstone do Dự án Thư viện số New Zealand của trường Đại học Waikato triển khai Có thể tải phần mềm từ www.nzdl.org

 Hệ phần mềm thư viện số Greenstone đang được Tổ chức Giáo dục, Khoa học và Văn hóa của Liên hợp quốc UNESCO ủng hộ và khuyến cáo các nước trên thế giới cài đặt và

sử dụng

Câu 2: Trình bày các định nghĩa không hình thức về DL, lợi ích của DL,ưu điểm và nhược điểm của DL ?

trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng

nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu

văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai

NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống

video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì

những tổ chức cung cấp các nguồn lực gồm cả cán bộ chuyên môn để lựa chọn, xây dựng, truy cập tri thức, giải thích, phân phát, bảo tồn tính toàn vẹn và đảm bảo tính bền

3

Trang 4

vững vượt thời gian của các kho tài liệu số, do đó chúng luôn sẵn sàng đáp ứng nhu cầu

sử dụng của một cộng đồng cụ thể hoặc của một nhóm cộng đồng

 Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng

 Ngoài ra, còn có một số định nghĩa khác về DL:

 “Thư viện số là thuật ngữ được chấp nhận rộng rãi như sự mô tả việc sử dụng công nghệ

số của thư viện để thu thập, lưu trữ, bảo tồn và cung cấp sự truy cập đến thông tin" - Trung tâm Nghiên cứu và đổi mới thư viện Anh

 Thư viện số không phải chỉ là một thực thể đơn lẻ; Thư viện số phải có công nghệ để liênkết tài nguyên của nhiều dịch vụ; Sự liên kết giữa những thư viện điện tử và dịch vụ thông tin phải là trong suốt đối với người dùng tin đầu cuối; Sự truy nhập đến thư viện điện tử và dịch vụ thông tin là mục đích; Sưu tập số của thư viện số không chỉ giới hạn ở mẫu tìm của tài liệu; nó được mở rộng cả đến các đối tượng số mà chúng không thể được trình bày hoặc phổ biến ở dạng in ấn - Hiệp hội Thư viện nghiên cứu

 "Thư viện số là cơ quan/tổ chức có các nguồn lực, kể cả các nguồn nhân lực chuyên hoá,

để lựa chọn, cấu trúc việc truy cập đến diễn giải, phổ biến, bảo quản sự toàn vẹn, đảm bảo sự ổn định trong thời gian dài của sưu tập các công trình số hoá mà chúng ở dạng sẵnsàng để sử dụng một cách kinh tế cho một hoặc một số cộng đồng nhất định." - Liên đoànThư viện Hoa Kỳ

 Thư viện số là nơi trình bày những bộ sưu tập thông tin có tổ chức Đối tượng của những

bộ sưu tập đó là nguồn tài nguyên thông tin số hóa cùng với các phương thức: truy hồi, chọn lọc, truy cập, tổ chức và bảo trì bộ sưu tập đó

 Người sử dụng: truy cập, chọn lọc, hiển thị tài liệu số

 Cán bộ thư viện: xây dựng, tổ chức, lưu hành

 Thư viện điện tử là loại thư viện "sử dụng các phương tiện điện tử trong thu thập, lưu trữ,

xử lý, tìm kiếm và phổ biến thông tin" - Vũ Văn Sơn

 Thư viện điện tử là thư viện duy trì toàn bộ hay một phần đáng kể sưu tập của mình ở dạng máy tính có thể xử lý được như một phương thức thay thế, bổ sung cho những tài liệu in truyền thống hoặc tài liệu trên vi hình hiện đang chiếm ưu thế trong thư viện – B Sloan

 “Thư viện điện tử là hệ thống thông tin phân tán cho phép tích hợp, bảo quản và sử dụng một cách hiệu quả những tập hợp đa dạng tài liệu điện tử, truy cập được ở dạng thuận tiệncho người sử dụng thông qua mạng truyền dữ liệu toàn cầu" - Chương trình thư viện điện

tử của Nga

Trang 5

LỢI ÍCH CỦA DL

 Thư viện số mang thư viện đến người sử dụng

 Máy tính được sử dụng để tìm kiếm và duyệt

 Thông tin có thể được chia sẻ

 Thông tin dễ dàng cập nhật hơn

 Thông tin luôn sẵn có

 Các dạng thông tin mới trở thành thực hiện được

 Giá của DL

Ưu điểm và nhược điểm của DL:

ƯU ĐIỂM

 Không bị giới hạn về địa lý

 Tiết kiệm không gian

 Phụ thuộc vào nhà cung cấp

 Lưu trữ lâu dài

 Mua quyền truy cập

Câu 4: Trình bày vấn đề bản quyền tài liệu trong DL.

a Khái niệm cơ bản

5

Trang 6

 Bản quyền (Copyright): thuật ngữ pháp lý mô tả quyền xác định cho người sáng tạo đối vớitài liệu và các công trình nghệ thuật của họ.

 Vi phạm bản quyền (Copyright infringement): việc sử dụng tài liệu được bảo vệ bởi luật bảnquyền không được phép của chủ sở hữu, hoặc cấp phép và/hoặc bán quyền sử dụng

 Người sáng tạo (Creator): tác giả của tác phẩm, người mà công trình của họ được côngnhận Chủ sở hữu bản quyền

 Nguyên tắc sử dụng không phải xin phép (Fair use principle): cho phép thư viện sao chụptác phẩm Kiểm tra bốn nhân tố sẽ đảm bảo thư viện quyết định việc sử dụng là phải xinphép hay không trong trường hợp có một bản sao thực làm ra

 Học thuyết chấm dứt quyền sau lần bán đầu tiên (First sale doctrine): điều khoản cho phépthư viện, một khi đã bản sao tác phẩm đúng bản quyền, quyền phổ biến bản sao không cầnphép của chủ sở hữu bản quyền Lần bán đầu tiên đảm bảo các thư viện mượn sách hoặc tiếnhành mượn liên thư viện không vi phạm luật bản quyền

 Quyền sở hữu trí tuệ (Intellectual Property Right)): sáng tạo trí óc: sáng chế, tác phẩm vănhọc và nghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại

 Quyền tinh thần (Moral rights): quyền dành cho như người sáng tạo tác phẩm, thực hiệnhành động nếu ai đó gây sai trái hoặc tác phẩm bị xuyên tạc

 WIPO - Tổ chức Sở hữu trí tuệ quốc tế là tổ chức chuyên môn của Liên hiệp quốc hoạt độngtrong việc phát triển một hệ thống sở hữu trí tuệ quốc tế truy cập được và ổn định dành cho

sự sáng tạo, kích thích cải tiến và góp phần vào phát triển kinh tế trong khi bảo vệ được lợiích chung

b Quyền sở hữu trí tuệ là gì?

Mở đầu

 Thư viện là cơ quan có nhiệm vụ cung cấp sự truy cập thông tin công bằng cho cộngđồng nó phục vụ Quyền sở hữu trí tuệ và bản quyền ảnh hưởng đến nhiệm vụ này nhưthế nào?

 WIPO định nghĩa quyền sở hữu trí tuệ là “sáng tạo trí óc: sáng chế, tác phẩm văn học vànghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại.”

 Theo WIPO, quyền sở hữu trí tuệ được phân thành hai loại: sở hữu công nghiệp và bảnquyền

Bản quyền là gì?

 Bản quyền là thuật ngữ pháp lý mô tả quyền của người sáng tạo đối với các tác phẩm vănhọc và nghệ thuật của họ Bảo vệ bản quyền là tự động cho dù tác phẩm này có đượcđăng ký hay không Ngay khi tác phẩm được viết ra, nó đã được bảo vệ

Bản quyền phức tạp và khác nhau giữa các nước

Ai là chủ sở hữu bản quyền?

 Nói chung, người sáng tạo ra tác phẩm là chủ sở hữu bản quyền Trong trường hợp có từhai người sáng tạo trở lên, điều quan trọng là cần có một bản cam kết viết ra xem ai làchủ sở hữu bản quyền Mặt khác, đã có những ngoại lệ với quy định này, và ngoại lệcũng khác nhau giữa các nước

Trang 7

 Bản quyền cũng có thể được cấp lại (thí dụ, cho nhà xuất bản) và/hoặc hết thời hạn saukhi tác giả chết

Quyền dành riêng cho chủ sở hữu bản quyền

 Quyền tái bản tác phẩm (gồm sao chụp, sao chép, làm phim, ghi âm và quét)

 Đưa tác phẩm đến với công chúng lần đầu tiên

 Tuyên truyền tác phẩm với công chúng

 Trình diễn tác phẩm với công chúng (chiếu phim, chơi nhạc)

 Phóng tác (gồm dịch, kịch hoá, chuyển biên)

 Truyền tệp và ghi âm cho công chúng bằng cách sử dụng bất kỳ hình thức công nghệ nào(qua thư điện tử, phát thanh, )

 Phát lại trên vô tuyến hoặc truyền hình

Bản quyền sẽ chấm dứt trong bao lâu?

 Khoảng thời gian bản quyền khác nhau giữa các nước Ở Philippines, khoảng thời gianbản quyền chấm dứt sau khi người sáng tạo chết 50 năm

 Ở Ôxtrâylia, từ tháng 1/2005, khoảng thời gian bản quyền là cuộc đời người sáng tạocông thêm 70 năm hoặc 70 năm từ khi tác phẩm được xuất bản lần đầu tiên

 Các điều khoản ở Hoa Kỳ còn phức tạp hơn

Vi phạm bản quyền là gì?

 Vi phạm bản quyền là sử dụng tài liệu được bảo vệ bản quyền không được phép của chủ

sở hữu, hoặc cấp phép và/hoặc bán trái phép

Các hoạt động không vi phạm bản quyền

 Đó là các hoạt động thuộc sử dụng không phải xin phép

 Sử dụng thông tin, không nằm trong diện bảo vệ bản quyền

Các tác phẩm không được bảo vệ bản quyền

 Ý tưởng, quá trình, hệ thống, phương pháp hoặc hoạt động, khái niệm, nguyên lý, pháthiện hoặc siêu dữ liệu cũng như sự kiện nếu được diễn tả, giải thích, minh hoạ hoặc kèmtrong một tác phẩm

 Tin tức hàng ngày và các sự kiện linh tinh khác có tính chất bình thường của thông tinbáo chí

 Tài liệu luật, hành chính hoặc có tính pháp lý, cũng như các bản dịch chính thức của cáctài liệu này

 Tài liệu của chính phủ; tuy nhiên cần phải xin phép trước khi khai thác vì mục đích lợinhuận

 Tác giả của các bài nói chuyện, bài giảng, bài thuyết giáo, bài luận văn sẽ có độc quyềntạo ra bộ sưu tập các tác phẩm của họ

Quyền tinh thần

 Bổ sung cho bản quyền, người sáng tạo có các quyền tinh thần Đó là các quyền dành chongười sáng tạo tác phẩm, thực hiện hành động nếu ai đó xâm phạm tác phẩm hoặc tácphẩm bị xuyên tạc

7

Trang 8

Học thuyết chấm dứt quyền sau lần bán đầu tiên là gì?

 Khi thư viện hoặc cá nhân mua hợp pháp một bản sao tác phẩm, Học thuyết chấm dứtquyền sau lần bán đầu tiên của luật bản quyền (17 U.S.C Section 109) cho phép thư việnhoặc cá nhân này có thể thực hiện quyền dành riêng khác của bản quyền-quyền phổ biếnbản sao-không cần phép của chủ sở hữu bản quyền

 Lần bán đầu tiên đảm bảo cho thư viện mượn sách và tiến hành các dịch vụ liên thư việnkhông cần cam kết không vi phạm bản quyền

 Hướng dẫn sử dụng không phải xin phép

Việc sao chép cá nhân một tác phẩm đã xuất bản ra một bản sao duy nhất, ở đây việc saochép được thực hiện bởi một người tự nhiên chỉ cho mục đích nghiên cứu hoặc học tập cá nhân,

sẽ được phép, không cần sự cho phép của chủ sở hữu bản quyền tác phẩm Mặt khác, bản quyền

sẽ không được mở rộng cho:

 Sao chép toàn bộ cuốn sách hoặc phần quan trọng của nó hoặc nhạc phẩm dưới dạng đồhoạ bằng các phương tiện sao chụp;

 Tập hợp dữ liệu và các tài liệu khác;

 Chương trình máy tính

 Bất kỳ tác phẩm nào khi sao chép có thể làm ảnh hưởng quyền lợi hợp pháp của tác giả

 Việc sử dụng chương trình máy tính cùng với máy tính cho mục đích này, và để mở rộngchương trình máy tính đã có;

 Mục đích lưu trữ, và để thay thế bản sao đã có sở hữu luật pháp của một chương trìnhmáy tính nếu bị mất, phá huỷ hoặc không sử dụng được nữa

Phân tích 4 yếu tố về sử dụng không phải xin phép

 Sử dụng việc kiểm tra sau đây để xác định việc sử dụng có phải là không cần xin phép hay không:

– Mục đích và đặc điểm sử dụng là gì? Đó sử dụng có bản chất thương mại hay mụcđích đào tạo phi lợi nhuận,

– Bản chất của tác phẩm có bản quyền;

– Số lượng và thực chất của phần được sử dụng so với toàn bộ tác phẩm;

– Tác động của Việc sử dụng đến thị trường tiềm năng hoặc gía trị của tác phẩm

Trang 9

Quyền đặc biệt của thư viện

– Các thư viện được phép thực thi những quyền đặc biệt bổ sung cho việc sử dụng không phải xin phép Một số quyền đó là:

– Lưu trữ những tác phẩm bị phá huỷ, hư hỏng, ăn cắp và mất

– Sao chụp cho người dùng thư viện

– Sao chụp cho những người dùng khác (mượn liên thư viện)

– Trình diễn và trưng bày trong dạy trực tiếp và đào tạo từ xa

– Các cơ quan giáo dục cũng được phép trưng bày và trình diễn tác phẩm khác trong các khoá học có giảng dạy trực tiếp, và mức độ ít hơn trong đào tạo từ xa

Bảo vệ bản quyền quốc tế

 Không có gì là bảo vệ bản quyền quốc tế, nhưng phần lớn các nước có bảo vệ các tác phẩm nước ngoài theo các hiệp ước và công ước quốc tế

Ghi nhớ

 Nếu không chắc chắn về các điều khoản của luật này, để áp dụng cụ thể, cần xin giấy phép sử dụng tài liệu từ chủ sở hữu bản quyền và/hoặc tư vấn luật sư vì luật bản quyền ở các nước khác nhau thì khác nhau Mặt khác, cũng nên nhớ rằng, do công ước quốc tế, có

sự dành cho nhau những đặc quyền trong luật này với các nước tham gia công ước, hiệp ước hoặc nghị định liên quân đến

C,Luật bản quyền hiện hành có áp dụng trong thời đại số hay không?

Mở đầu

 Mục đích của luật bản quyền là cân bằng quyền của chủ sở hữu bản quyền và người dùng Luật bản quyền hiện hành có áp dụng được trong thời đại số hay không? Thư viện mua thông tin để cung cấp bình đẳng cho cộng đồng của mình Vì ngày càng có nhiều thông tin phổ biến dưới dạng số, nên thư viện cần phải chú ý để đảm bảo cho công chúng

có thể được hưởng các quyền truy cập giống như với thông tin dạng in

Bản sao số

 Bản quyền dựa trên việc sao chép tài liệu Trong thời đại in, việc sao chụp có thể nhận biết được, và một trong các quyền dành riêng chi chủ sở hữu bản quyền là sao chụp Trong thời đại số, các bản sao số được tạo ra ngay khi tài liệu này được truy cập

Cấp phép và quyền sở hữu

9

Trang 10

 Ngày nay các thư viện không bổ sung tài liệu số để sở hữu riêng Thay vào đó họ mua quyền truy cập, mà đòi hỏi đặt mua dài hạn liên tục

Vấn đề bảo quản

Luật bản quyền cho phép thư viện sao chụp tài liệu in và sao chép tài liệu điện tử với mục đích bảo quản

Đăng ký trước điện tử

 Luật bản quyền hạn chế việc đặt trước tài liệu điện tử ở các chương, bài báo đơn lẻ, một

số biểu đồ và các minh hoạ khác, hoặc những phần nhỏ của tác phẩm

 Truy cập cũng có thể hạn chế cho các thành viên của lớp và cần chấm dứt vào cuối khoá học này Giấy phép cũng có thể cần thiết đối với những tài liệu mà sẽ được sử dụng lại sau này

Ngoại lệ đối với thư viện và cơ quan lưu trữ

 Theo Đạo luật bản quyền ở Hoa Kỳ, mục 404 của đạo luật bản quyền thiên niên kỷ số (DMCA) bổ sung mục 108 của đạo luật bản quyền

 Mục “Hạn chế các quyền đặc biệt: Tái bản bởi thư viện và cơ quan lưu trữ”

Kết luận

 Mặc dù DMCA đã có hiệu lực năm 2000, những vẫn còn những vấn đề bất ổn và các mốiquan tâm về bản quyền trong thời đại số Đó là vấn đề ở Hoa Kỳ cũng như ở bất kỳ nước nào Một lần nữa, xin lưu ý rằng nên tư vấn luật sư về các vấn đề bản quyền cụ thể

 Dùng Internet để tìm các luật trong nước bạn tác động đến bản quyền trong thời đại số Nếu không có, hãy tìm các diều khoản bản quyền tác động đến thư viện ở nước bạn

Câu 5: Trình bày mô hình hình thức cho DL?

1 Cơ sở toán học

Ký hiệu (a,b) Î R là aRb Một quan hệ R n-phân trên các tập hợp A1, A2, , An là một

tập con của tích Đề các A1x A2 x x An

x B sao cho đối với mỗi một a Î A tồn tại b Î B sao cho (a,b) Î f và nếu (a,b) Î f và (a,c) Î f thì b = c Tập hợp A được gọi là miền xác định của f và tập hợp B được gọi là

Trang 11

miền giá trị của f Ký pháp f : A ® B và b = f(a) là một ký pháp chung đối với (a,b) Î f Tập hợp {f(a)| a Î A} được gọi là vùng của f.

tập con ban đầu nào đó của {1, 2, , n} của các số tự nhiên và miền giá trị của nó là tập

Một xâu là một dãy hữu hạn các ký tự hoặc ký hiệu rút ra từ một tập hợp hữu hạn với ít

nhất hai phần tử, được gọi là bảng chữ Một xâu thường được ký hiệu bằng cách nối với nhau dảicác giá trị không có ký tự phân cách

Cho S là một bảng chữ S* ký hiệu tập hợp tất cả xâu từ S, bao hàm xâu rỗng (một dãy

rỗng e) Một ngôn ngữ là một tập con của S*

Một đồ thị G là một cặp (V, E), trong đó V là một tập đỉnh không rỗng và E là một tập

của một tập cạnh {u, v}, u, v Î V Một đồ thị có hướng G là một cặp (V, E), trong đó V là một tập đỉnh (nút) không rỗng và E là một tập cạnh (cung) trong đó mỗi một cạnh là một cặp thứ tự đỉnh phân biệt (vi, vj) với vi, vj Î V và vi ¹ vj Cạnh (vi, vj) được gọi là liên thuộc trên các đỉnh

vi và vj, trong đó vi kề với vj và vj kề từ vi

Một văn phạm phi ngữ cảnh là một bộ bốn (V, S, R, s0) trong đó V là một tập biến gọi là

không kết thúc, S là bộ chữ ký hiệu kết thúc, R là một tập luật hữu hạn và s0 là một phần tử phânbiệt của V gọi là ký hiệu bắt đầu

Một luật/ một sản xuất là một phần tử của tập V x (V È S)* Mỗi một sản xuất có dạng

SX ® a trong đó SX là một ký hiệu không kết thúc và a là một xâu ký hiệu

Trang 12

Một không gian là một không gian đo được, không gian độ đo, không gian xác suất,

không gian vector hoặc một không gian topo

(kết thúc và/hoặc không kết thúc)

5 Kịch bản

en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 £ k £ n

7 Định nghĩa hình thức thư viện số

Trang 13

Lý do xây dựng thư viện số

 Lý do chính:

DL phân phát thông tin tốt hơn thư viện truyền thống

 Số lượng tài liệu ngày càng tăng

 Sự phát triển của công nghệ thông tin và các hình thức xuất bản mới

 Nhu cầu của người sử dụng thay đổi

 Các hình thức tìm tin mới

 Vai trò của thư viện thay đổi

Các bước cơ bản của dự án xây dựng DL

1 Xác định dự án

2 Phác thảo kế hoạch triển khai DL

3 Thực hiện

1.Xác định dự án

Nêu mục đích, mục tiêu rõ ràng, xác định đối tượng độc giả và nội dung:

Phát triển hình ảnh và nhiệm vụ Thư viện là các nguồn thông tin hàng đầu; là trung tâm

thông tin quan trọng nhất dành cho sinh viên, giảng viên và nhân viên của trường đại học/cao đẳng Để thực hiện nhiệm vụ của mình, thư viện phát triển các kho tài liệu, tổ chức kho tài liệu để truy cập, cung cấp khả năng truy cập các nguồn thông tin khác, dạy người dùng các kỹ năng thư viện, tuyển dụng và đào tạo cán bộ các kỹ năng cần thiết để thư viện hoạt động, cung cấp phương tiện và dịch vụ thúc đẩy nghiên cứu và học tập

Lập mục đích và mục tiêu

Mục đích là mục tiêu dài hạn hình thành cùng với hình ảnh của tổ chức Mục tiêu là những hoạt động cụ thể mà tổ chức muốn hoàn thành trong một giai đoạn nào đó, thường là trong vòng một năm Mục tiêu mang tính ngắn hạn, chỉ tiêu phấn đấu có thể đạt được

2.Phác thảo kế hoạch triển khai thư viện số

Xác định các nguồn yêu cầu và phác thảo các nhiệm vụ khác nhau, chiến lược và thời hạn để hoàn thành mục đích Chiến lược do các phương pháp cấu thành, được thiết kế để hoàn thành mục đích và mục tiêu Chiến lược bao gồm kế

13

Trang 14

hoạch hành động, người phụ trách, thời hạn và các nguồn cần có Bảng dưới đây

là bản mẫu của một kế hoạch hành động

Mục đích Kết quả mong đợi Các nguồn lực yêu cầu/

Chi phí dự án

Người phụ trách

Dự kiến hoàn thành

Ngày dựkiến hoàn thành

Các nguồn lực yêu cầu

 Nội dung vốn tài liệu số đáp ứng nhu cầu của đối tượng độc giả và mục tiêu của

dự án

 Nhân sự và những kỹ năng cần thiết để xây dựng, tổ chức và quản lý thư viện số

và thức hiện các nhiệm vụ cần thiết trong xây dựng thư viện số

 Hạ tầng công nghệ thông tin (Ví dụ: phần cứng, phần mềm, khả năng kết nối)

 Phân bổ ngân sách

 Hỗ trợ và hợp tác của các đơn vị chính tham gia

Khảo sát môi trường Điểm chung của tất cả các định nghĩa và nhiệm vụ này là

nhu cầu khảo sát môi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương lai và chiến lược để đạt được tương lai đó

 Các công cụ cùng các tiêu chuẩn và giao thức tương ứng cho việc cung cấp thông tin và dịch vụ và mô tả việc bảo trì và đánh giá hệ thống sẽ được thực hiện nằm trong chiến lược xây dựng thư viện số

3.Thực hiện

 Lựa chọn nội dung Tiêu chí lựa chọn cần phải mở rộng

 Tổ chức tài liệu gốc để số hoá, lưu giữ, truy cập, tìm kiếm và tra cứu

 Cung cấp dịch vụ Nghiên cứu thị trường và cung cấp các dịch vụ phù hợp

 Tìm kiếm và sử dụng các công nghệ và công cụ chuyên dụng cho kế hoạch

Trang 15

 Bảo trì hệ thống Liên tục giám sát và bảo trì hệ thống là biện pháp cần thiết để nâng cao chất lượng dịch vụ tốt hơn

 Thực hiện các chiến lược marketing Thư viện số cần được tiếp thị tới người dùnghiện tại và tiềm năng Có rất nhiều cách xúc tiến việc sử dụng thư viện số

 Giám sát và đánh giá hoạt động của thư viện Đánh giá hoạt động định kỳ sẽ cho phép ban quản lý định hướng lại kế hoạch nhằm đáp ứng những thay đổi của môi trường Nhu cầu tái định hướng có thể do những thay đổi công nghệ, chính sách…

Khảo sát môi trường

Điểm chung của tất cả các định nghĩa và nhiệm vụ này là nhu cầu khảo sátmôi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương lai và chiến lược

để đạt được tương lai đó

Kho tài liệu

Tiêu chí lựa chọn tài liệu của tổ chức cần phải rõ ràng Tài liệu lựa chọn phải phù hợp với tiêu chí đề ra: chủ đề, yêu cầu, tính duy nhất và giá trị Tài liệu còn phải có giá trị sử dụng lâu dài Đôi khi một ấn phẩn mới có thể thay thế ấn phẩm hiện có

Bản quyền

Mục đích của thư viện số là cung cấp truy cập vốn tài liệu từ xa Bản quyền là vấn đề quan trọng cần cân nhắc trong xây dựng thư viện số vì chức năng phân phối lại của thư viện số

Câu 7: Trình bày tóm tắt các phương pháp chỉ mục tài liệu?

3.1.MỞ ĐẦU

15

Trang 16

Định nghĩa 3.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ

và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số

Định nghĩa 3.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc dữ liệu dùng để

xác định vị trí của các dòng trong tệp theo điều kiện nào đó

Định nghĩa 3.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm

thông tin

Định nghĩa 3.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản

Định nghĩa 3.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một

IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện IL đôi khi được coi là một danh sách mục lục và các con trỏ là

mục lục

 Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống

Bảng 3.2 - Văn bản mẫu; mỗi dòng là một tài liệu

 1 Information retrieval is searching and indexing

 2 Indexing is building an index

Trang 17

 3 An inverted file is an index

 4 Building an inverted file is indexing

Bảng 3.3 - IF đối với văn bản của bảng 3.2

Bảng 3.4 - IF mức từ đối với văn bản của bảng 3.2

Trang 18

Xây dựng chỉ mục tệp đảo IFID

 Xây dựng chỉ mục là một trong những nhiệm vụ thách thức nhất phải đương đầu khi xây dựng một CSDL

Ở đây, ta đề cập đến bài toán xây dựng chỉ mục tệp đảo IFID, vì đây là dạng chỉ mục thiết thực nhất đối với cả hai truy vấn BQ và RQ

 Quá trình xây dựng chỉ mục được coi là sự đảo văn bản Từ điển The Concise Oxford

Dictionary định nghĩa “sự đảo là đảo lộn trên dưới, đảo vị trí, trật tự hoặc quan hệ bình

thường” và đây đúng là điều phải làm để tạo lập chỉ mục

 Xét văn bản mẫu ở bảng 3.2

Mỗi tài liệu của văn bản chứa một số thuật ngữ chỉ mục và mỗi một thuật ngữ chỉ mục xuất hiện ở một số dòng Quan hệ có thể được biểu diễn với một ma trận tần suất, trong đó mỗi một cột tương ứng với một từ, mỗi một hàng tương ứng với một tài liệu và số chứa tại hàng và cột bất kỳ là tần suất của từ chỉ định bởi cột đó Ma trận tần suất đối với văn bản của bảng 3.2 được trình bày ở bảng 5.1

 GIẢI THUẬT 5.1 ĐẢO DANH SÁCH MÓC NỐI

1 Sản xuất một chỉ mục đảo đối với một CSDL tài liệu

/* Khởi tạo */

2 Tạo ra một cấu trúc từ điển rỗng S

/* Pha 1 - tập hợp các xuất hiện thuật ngữ */

Đối với mỗi một tài liệu Dd trong CSDL, 1 ≤ d ≤ N,

a Đọc Dd , phân tích cú pháp nó thành các thuật ngữ chỉ mục

b Đối với mỗi một thuật ngữ chỉ mục t Î Dd

Trang 19

i Cho fd,t là tần suất của thuật ngữ t trong Dd

ii Tìm kiếm S đối với tiii Nếu t không có trong S, chèn nó

iv Thêm một nút lưu trữ <d, fd,t> vào danh sáchtương ứng với thuật ngữ t

3 /* Pha 2 - đầu ra của IF */

Đối với mỗi một thuật ngữ 1 ≤ t ≤ N

a Bắt đầu một mục vào IF mới

b Đối với mỗi một <d, fd,t> trong danh sách tương ứng với t,

thêm <d, fd,t> vào mục vào IF này

a Nếu yêu cầu, nén mục vào IF

b Thêm mục vào IF này vào IF

 Thời gian đảo T yêu cầu là:

T = Btr + Ftp + (đọc và phân tích cú pháp văn bản) I(td + tr) (ghi IF nén)

Trang 20

 Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản Mỗi một tài liệu có một

ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó

Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật

bitslicing, tức là kỹ thuật chuyển vị ma trận bit

Câu 8+ câu 9 nằm trong câu 7.

Câu 10 So sánh 2 phương pháp chỉ mục tệp đảo tài liệu IFID và chỉ mục tệp ký số tài liệu SFID ?

 Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số

Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thực hiện tốt hơn SF

trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi

Câu 11: Trình bày mô hình tìm kiếm thông tin tổng quát IR trong DL ?

MÔ HÌNH TÌM KIẾM THÔNG TIN

 Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin có liên quan tới nhu cầu thông tin của NSD

 Mô hình IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn

Cho

D = {d1, d2, , dM}, M ³ 2 (4.1)

 là một tập hữu hạn không rỗng đối tượng

 Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường Các đối tượng tiêu biểu là đại diện

Cho  là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó r(D), nghĩa là,

hợp tập đối tượng D và ánh xạ tìm kiếm Â, chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau:

Định nghĩa 4.1 (cấu trúc tìm kiếm thông tin):

Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, Â> (4.3)

Trang 21

Định nghĩa 4.1 là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm  và đối tượng D Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và Â.

Câu 12 Trình bày phương pháp truy vấn xếp hạng tài liệu RQ trong DL ?

Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:

(4.6) Bảng 4.1 – Các vectơ đối với tính toán tích trong

(a) Vectơ tài liệu, (b) Vectơ truy vấn

3 Các tài liệu dài với nhiều thuật ngữ

Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc “không” nhị

phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu

Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :

Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu

21

X Y =

i=1 n

xi yi

Trang 22

Ví dụ:

Tính độ tương tự đối với truy vấn mẫu trở thành

S(information retrieval, D1)

= (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2

vì tài liệu D1 chứa information 1 lần và retrieval 1 lần

Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn

 Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:

S(Q, Dd) = Q . Dd = (4.7)Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau: S(Q,

Bài toán 2 không tính đến các thuật ngữ khó tìm

Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF

 Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó Tức

là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau:

(4.9)

trong đó: ft là số tài liệu chứa thuật ngữ t

 Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:

1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một số cách khác nhau

2 Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh ra một trọng

số truy vấn-thuật ngữ wq,t

3 Có thể được dùng trong cả hai tính toán wd,t và wq,t , tức là, áp dụng hai lần Không công thức nào ở trên là khả năng duy nhất được dùng đối với wt , thành phần IDF

Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo

Trang 23

Các vectơ tài liệu được tính như sau:

wd,t = rd,t (4.12)hoặc wd,t = rd,t wt (TF x IDF)

 Chú ý:

+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra têncủa chúng Một heuristic độ tương tự được gọi là “TF x IDF” bất kỳ khi dùng tần suất

thuật ngữ fd,t tăng đều và tần suất tài liệu của thuật ngữ ft giảm đều

Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài Do đó, luật tích

trong đánh giá độ tương tự bằng

(4.14)

trong đó là độ dài của tài liệu Dd

4.3.3 Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

(4.15)

Hướng chỉ thị bởi 2 vectơ

(4.18)

Công thức có 2 hàm ý:

1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu

2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng

Luật cosin đối với xếp hạng:

Trang 24

Trong đó:

là độ dài Euclide – trọng số – của tài liệu d và:

là trọng số của truy vấn q.

Độ tương tự:

Câu 13 Trình bày mô hình tìm kiếm thông tin xác suất trong DL ?

Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probability ranking principle):

Nếu đáp ứng của một hệ tìm kiếm thông tin với mỗi một yêu cầu của NSD là một dãy các tài liệu

sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các xác suất ở đây được đánh giá là độ

chính xác có thể trên CSDL có sẵn thì toàn bộ hiệu quả của hê đối với NSD sẽ là tốt nhất trên

Chúng ta lấy C = 2 là vì ở mô hình IR xác suất truyền thống có 2 tiêu chuẩn: có liên Định

nghĩa 4.5 (PIR): định nghĩa 4.4 có thể được định nghĩa lại như sau:

Mô hình tìm kiếm thông tin xác suất PIR là

Trang 25

C = 2 và Â(q) = {d|mãi(q,d) ³ mãj(q, d)}, j = i + (-1)i+1, mãi(q, d) > ai}

(4.30)

Định nghĩa 4.6

(mô hình tìm kiếm thông tin xác suất kinh điển)

Cho D là một tập tài liệu, q Î D một truy vấn và P(R|(q, d)) xác suất tài liệu d Î D là có liên quan /không liên quan với truy vấn q tương ứng Cho R(q) là tập tài liệu tìm kiếm đáp ứng truy vấn q Một tài liệu d được lựa chọn đáp ứng một truy vấn q nếu

P(R|(q, d)) ³ P(I|(q, d)) (Luật quyết định Bayes)

(4.31)nghĩa là,

R(q) = {d| P(R|(q, d)) ³ P(I|(q, d))} (4.32)

 Chính xác hơn, P(R|(q, d)) và P(I|(q, d)) là xác suất liên đới tới d khi nó được xét có liên quan và không liên quan tới q tương ứng

 Đánh giá P(R|(q, d)) và P(I|(q, d)) dựa vào công thức Bayes

Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q Î D và hai tiêu chuẩn ã1 và ã2 là liênquan và không liên quan tương ứng Cho mãi(q, d), i = 1, 2 là mức độ mà một đối tượng bất kỳ d

Î D thỏa mãn tiêu chuẩn ãi liên quan tới q

Trang 26

 Các xác suất có điều kiện có thể được đánh giá từ bảng 4.4

P [có liên quan | thuật ngữ t có mặt] = Rt / ft (4.34)

và P [không liên quan | thuật ngữ t có mặt] = (ft – Rt) / ft

Tương tự, P [thuật ngữ t có mặt | có liên quan] = Rt / R (4.35) và P [thuật ngữ t có mặt |

không liên quan] = (ft – Rt) / (N – R)

 trọng số wt đối với thuật ngữ t nhận được dùng công thức Bayes:

SỰ PHẢN HỒI LIÊN QUAN

 Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm

 Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn

Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn Q đều được coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt Chiến

lược đơn giản nhất như sau:

26

wt= Rt/( R−Rt) ( ftRt)/( N −ft−( R−Rt))

Q i+1 = Q iD n + ∑ D d

Trang 27

(4.39)trong đó:

+ Dn là tài liệu xếp hạng cao nhất không liên quan;

+ R là tập tài liệu có liên quan

 Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trong những tài liệu không liên quan ảnh hưởng đến truy vấn mới và bao hàm dự trữ sẵn cho truy vấn ban đầunhằm ảnh hưởng đến tất cả truy vấn tiếp theo:

trong đó:

p, w, l và h là các hằng trọng số (với h £ 0);

R là tập con tài liệu có liên quan

I là một tập con tài liệu không liên quan bởi vì đáp ứng của NSD với các phép lặp truy vấn

Câu 14: Trình bày mô hình tìm kiếm không gian vector trong DL và Đánh giá hiệu suất tìm kiếm tài liệu trong DL ?

4.3.3 Mô hình không gian vectơ

Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:

Hướng chỉ thị bởi 2 vectơ:

yi2

Trang 28

Công thức có 2 hàm ý:

1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu

2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng

Luật cosin đối với xếp hạng:

Độ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong

số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn:

Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan

được tìm kiếm trong r cao nhất:

tong so tai lieu tim kiem

tong so tai lieu co lien quan

Trang 29

Độ chính xác P:

Độ phục hồi R:

trong đó:

NT là tổng số tài liệu có liên quan tới một truy vấn q, NT ¹ 0;

| Â(q) | = k là số tài liệu tìm kiếm được đáp ứng q, k ¹ 0;

NR là số tài liệu có liên quan tìm kiếm được

Định đề: Tỉ số giữa độ phục hồi và độ chính xác R / P thay đổi tuyến tính đối với k

Chứng minh:

NR = R NT = P k Þ R / P = k / NT

4.6.2 Đường cong độ phục hồi-độ chính xác

Hình 4.1 – Đường cong P-R đối với hạng của bảng 3.2

Trang 30

Đồ thị hiệu suất tính toán

Câu 15: Trình bày tóm tắt các chuẩn trình bày trong DL ?

Chuẩn trình bày

ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP

a ASCII

 American Standard Code for Information Exchange

 Tiêu chuẩn Việt Nam: TCVN 5712-1993

 Văn bản chỉ có ký tự, không có lệnh trình bày (plain text file) Văn bản bằng ký tự ASCIIkhông có khả năng trình bày các công thức toán học và hoá học

020

Trang 31

 Thường phải được nhập thủ công vào CSDL

+ Không bảo toàn được nguyên dạng của trang

+ Không hỗ trợ đa ngôn ngữ (255 ký tự)

b UNICODE

 Dùng cho văn bản

 Tiêu chuẩn Việt Nam: TCVN 6909-2001

 Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự

– Phụ thuộc sự phát triển của công ty

– Đòi hỏi bản quyền

Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở

31

Trang 32

Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn dữ liệu không độc quyền

 Có tính mở

 Không phụ thuộc phần mềm, nền tảng máy tính (Platform independent)

 Ngôn ngữ đánh dấu (Markup Language)

 Sử dụng các cặp thẻ đánh dấu: bao gồm thẻ mở và thẻ đóng:

– <Title> và </Title>

 Hiện nay: SGML, HTML và XML

Ngôn ngữ đánh dấu tổng quát chuẩn SGML

Standard Generalized Markup Language

 SGML là cách thức trình bày tài liệu số bằng các mã đánh dấu

Là tiêu chuẩn ISO 8879 (Information processing Text and office systems - Standard

Generalized Markup Language)

 Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu trúc

 Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ liệu Thí dụ:

 <Title>Đây là nhan đề tài liệu</Title>

 Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên tắc

 Cấu trúc tài liệu SGML

Gồm 3 phần

– Phần 1: Phần thông báo (Statement)

<?sgml version="1.0" encoding="ISO-8859-1"?>

– Phần 2: Định nghĩa phần tử tài liệu

– DTD - Document Type Definition

Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )

– Phần 3: Nội dung tài liệu

 Định nghĩa phần tử dữ liệu (DTD)

Trang 33

DTD Document Type Definition

 DTD xác định các khối thông tin hợp lệ của một tài liệu SGML

 DTD xác định cấu trúc của tài liệu thông qua một danh mục các yếu tố và thuộc tính

 CDATA: cho biết đây là dữ liệu dạng ký tự (character data), sử dụng trong ngôn ngữ đánh dấu SGML and XML

 Dùng để phân biệt với dữ liệu không phải ký tự dùng cho các chức năng cấu trúc đặc thù

 Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc

 Phức tạp, phát triển ứng dụng tốn kém

 Phải có trình duyệt riêng để đọc

 Điều quan trọng để ứng dụng SGML là xây dựng DTD

 Ví dụ về ứng dụng:

TEI – Text Encoding Initiative

HTML

HyperText Mark-up Language

 Là một ứng dụng của SGML dùng cho tài liệu WEB

 Đơn giản hoá SGML

 Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi cộng đồng sử dụng Web

 Các thẻ HTML được thống nhất toàn cầu (W3C – WWW Consortium)

 Ưu nhược điểm của HTML

 Ưu điểm

– Đơn giản

– Có định hướng đến trình bày

– Được đọc bằng những trình duyệt (Browser)

– Được các công ty hỗ trợ phát triển trình duyệt: Internet Explorer, Netscape Navigator, Mosaic,

 Nhược điểm

– Phải chờ thông qua cho thẻ mới

– Số thẻ hạn chế

 Thẻ trợ giúp mô tả tài liệu HTML

 Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong phần <Head> của tài liệu

Trang 34

<META NAME="DC.TITLE" CONTENT="Giống lúa lai Trung Quốc và kỹ thuật gieo trồng">

<META NAME="DC.CREATOR" CONTENT="Trần Ngọc Trang">

<META NAME="DC.SUBJECT" CONTENT="Lúa lai">

<META NAME="DC.SUBJECT" CONTENT="Giống cây trồng">

<META NAME="DC.SUBJECT" CONTENT="Gieo trồng">

<META NAME="DC.IDENTIFIER"

CONTENT="/THUVIENDIENTU/BOOK/Vb/2001/Vb44.pdf">

</HEAD><BODY> </BODY></HTML>

Ngôn ngữ đánh dấu mở rộng XML

XML eXtensible Markup Language

 Là một dạng của SGML và được World Wide Web Consortium (W3C) đề xuất

 Đơn giản hơn SGML

 Linh hoạt hơn HTML

 Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo trong tạo lập các tài nguyên điện tử

 Đặc điểm của XML

 XML là ngôn ngữ đánh dấu tương tự HTML

 Được thiết kế để chứa/trao đổi dữ liệu nhưng không để trình bày dữ liệu

 Các thẻ XML không được xác định trước Người dùng tự xác định các thẻ của mình

 XML được thiết kế để tự mô tả (self-descriptive)

 Tổ chức 3WC gọi XML là:

"một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ liệu"

 Sự khác biệt giữa XML và HTML

 XML không thay thế HTML

 XML và HTML được thiết kế cho 2 mục đích khác nhau:

– XML dùng để chứa và chuyển tải dữ liệu XML định hướng dữ liệu

– HTML được thiết kế để trình bày dữ liệu

 XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu Phải có phần mềm để xử lý

 XML là tệp văn bản không mã hóa

 Người dùng tự quy định thẻ cho tài liệu (thí dụ <title> and <author>)

Không có thẻ XML mặc định

 XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho Internet

 XHTML: phiên bản mới nhất của HTML

 RDF and OWL for describing resources and ontology

RDF = Resource Description FormatOWL = Ontology Web Language

 Cấu trúc tài liệu XML

 Tương tự như SGML

 Gồm 3 phần

Trang 35

– Phần 1: Phần thông báo

– Phần 2: Định nghĩa phần tử tài liệu

DTD - Document Type Definition

Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )– Phần 3: Nội dung tài liệu

 Mục tiêu của DTD là xác định cấu trúc của một tài liệu XML

 Thông báo các yếu tố hợp lệ trong tài liệu

– <!DOCTYPE note [

– <!ELEMENT note (to,from,heading,body)>

– <!ELEMENT to (#PCDATA)>

– <!ELEMENT from (#PCDATA)

– <!ELEMENT heading (#PCDATA)

– <!ELEMENT body (#PCDATA)>]>

Trang 36

 Dùng để tự xác định các thành phần của tài liệu XML

 Với DTD, những nhóm người sử dụng khác có thể hiểu và xử lý được tài liệu XML và trao đổi được DL

 Dùng làm chuẩn để kiểm định tài liệu XML, kiểm định dữ liệu

 Ký hiệu đặc biệt - Entities

Một số ký tự có nghĩa với XML được định nghĩa sẵn trong XML

 Mọi yếu tố XML phải có thẻ đóng (Closing Tag)

 Thẻ XML phân biện chữ hoa-chữ thường (Case Sensitive)

– Thẻ <Letter> khác với <letter>

– Thẻ mở và thẻ đóng phải có cùng kiểu viết hoa/viết thường

 Yếu tố XML phải được lồng ghép chính xác

 Tài liệu XML phải có một yếu tố gốc (Root Element)

Tài liệu XML phải chứa 1 yếu tố làm cao nhất cho mọi yếu tố khác

 Các giá trị thuộc tính XML phải được đặt trong ngoặc kép

Ngày đăng: 04/05/2021, 16:15

🧩 Sản phẩm bạn có thể quan tâm

w