Hệ thống đề cương câu hỏi môn thư viện số Câu 1: Trình bày tổng quan về tình hình nghiên cứu và phát triển thư viện số DL (Digital Library) trên thế giới và ở Việt Nam ? – Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới – Trọng tâm của các dự án DL : Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL ................
Trang 1Hệ thống đề cương câu hỏi môn thư viện số
Câu 1: Trình bày tổng quan về tình hình nghiên cứu và phát triển thư viện số DL (Digital Library) trên thế giới và ở Việt Nam ?
– Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới
– Trọng tâm của các dự án DL :
Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin
Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL
Nghiên cứu và phát triển DL ở Mỹ
Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh
2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và
Dự án thư viện số quốc tế
Dự án thư viện số DLI:
Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU
Dự án dịch vụ thông tin số của Đại học California ở Berkeley
Dự án Alexandria của Đại học California ở Santa Barbara
Dự án Interspace của Đại học Illinois ở Urbana-Champaign
Dự án UMDL của Đại học Michigan
Dự án InfoBus của Đại học Stanford
Các dự án DL chủ yếu khác ở Mỹ:
Thư viện quốc hội (Library of Congress)
Dự án công nghệ thư viện số DLT của NASA
Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ
Dự án thư viện số của IBM
1
Trang 2 Dự án thư viện số California CDL
Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency)
Dự án MOA của hai Đại học Cornel và Michigan
Dự án Open Book của Đại học Yale
Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T
Laboratories và Springer-Verlag
Dự án TULIP của nhà xuất bản Elsevier Science Publisher
DL ở các nước khác
Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu
về lịch sử, văn hoá và nghệ thuật:
Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan,Australia, New Zealand
Việt Nam
Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin
Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi
Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam
Đại bộ phận thư viện sẽ đi theo con đường: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin
Hiện nay, một số phần mềm được cài đặt:
PM Thư viện số Greenstone của dự án New Zealand Digital Library ở Đại học Quốc gia
TP Hồ Chí Minh và nhiều trường Đại học khác
PM Thư viện số VTLS ở Đại học Bách khoa Hà Nội
PM Thư viện số Koha ở Đại học Quốc gia Hà Nội
Trang 3 PM Thư viện số Dspace ở Đại học Đà Lạt
PM thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam
PM thư viện điện tử LIBOL của công ty Tinh vân ở Cục Thông tin khoa học và công nghệ Quốc gia
Hệ phần mềm nguồn mở Greenstone rất phổ biến trong xây dựng thư viện số PM cung cấp cách tổ chức thông tin và đưa thông tin lên Internet rất thuận tiện Kho tài liệu do Greenstone tạo ra có thể duy trì, tìm kiếm và duyệt Kho tài liệu dành cho mọi đối tượng độc giả và có thể mở rộng PM được phát hành theo General Public License (GNU) với tinh thần là phần mềm nguồn mở Xem thông tin chi tiết tại www.nzdl.org Phần mềm Thư viện số Greenstone do Dự án Thư viện số New Zealand của trường Đại học Waikato triển khai Có thể tải phần mềm từ www.nzdl.org
Hệ phần mềm thư viện số Greenstone đang được Tổ chức Giáo dục, Khoa học và Văn hóa của Liên hợp quốc UNESCO ủng hộ và khuyến cáo các nước trên thế giới cài đặt và
sử dụng
Câu 2: Trình bày các định nghĩa không hình thức về DL, lợi ích của DL,ưu điểm và nhược điểm của DL ?
trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng
nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu
văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai
NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống
video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì
những tổ chức cung cấp các nguồn lực gồm cả cán bộ chuyên môn để lựa chọn, xây dựng, truy cập tri thức, giải thích, phân phát, bảo tồn tính toàn vẹn và đảm bảo tính bền
3
Trang 4vững vượt thời gian của các kho tài liệu số, do đó chúng luôn sẵn sàng đáp ứng nhu cầu
sử dụng của một cộng đồng cụ thể hoặc của một nhóm cộng đồng
Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng
Ngoài ra, còn có một số định nghĩa khác về DL:
“Thư viện số là thuật ngữ được chấp nhận rộng rãi như sự mô tả việc sử dụng công nghệ
số của thư viện để thu thập, lưu trữ, bảo tồn và cung cấp sự truy cập đến thông tin" - Trung tâm Nghiên cứu và đổi mới thư viện Anh
Thư viện số không phải chỉ là một thực thể đơn lẻ; Thư viện số phải có công nghệ để liênkết tài nguyên của nhiều dịch vụ; Sự liên kết giữa những thư viện điện tử và dịch vụ thông tin phải là trong suốt đối với người dùng tin đầu cuối; Sự truy nhập đến thư viện điện tử và dịch vụ thông tin là mục đích; Sưu tập số của thư viện số không chỉ giới hạn ở mẫu tìm của tài liệu; nó được mở rộng cả đến các đối tượng số mà chúng không thể được trình bày hoặc phổ biến ở dạng in ấn - Hiệp hội Thư viện nghiên cứu
"Thư viện số là cơ quan/tổ chức có các nguồn lực, kể cả các nguồn nhân lực chuyên hoá,
để lựa chọn, cấu trúc việc truy cập đến diễn giải, phổ biến, bảo quản sự toàn vẹn, đảm bảo sự ổn định trong thời gian dài của sưu tập các công trình số hoá mà chúng ở dạng sẵnsàng để sử dụng một cách kinh tế cho một hoặc một số cộng đồng nhất định." - Liên đoànThư viện Hoa Kỳ
Thư viện số là nơi trình bày những bộ sưu tập thông tin có tổ chức Đối tượng của những
bộ sưu tập đó là nguồn tài nguyên thông tin số hóa cùng với các phương thức: truy hồi, chọn lọc, truy cập, tổ chức và bảo trì bộ sưu tập đó
Người sử dụng: truy cập, chọn lọc, hiển thị tài liệu số
Cán bộ thư viện: xây dựng, tổ chức, lưu hành
Thư viện điện tử là loại thư viện "sử dụng các phương tiện điện tử trong thu thập, lưu trữ,
xử lý, tìm kiếm và phổ biến thông tin" - Vũ Văn Sơn
Thư viện điện tử là thư viện duy trì toàn bộ hay một phần đáng kể sưu tập của mình ở dạng máy tính có thể xử lý được như một phương thức thay thế, bổ sung cho những tài liệu in truyền thống hoặc tài liệu trên vi hình hiện đang chiếm ưu thế trong thư viện – B Sloan
“Thư viện điện tử là hệ thống thông tin phân tán cho phép tích hợp, bảo quản và sử dụng một cách hiệu quả những tập hợp đa dạng tài liệu điện tử, truy cập được ở dạng thuận tiệncho người sử dụng thông qua mạng truyền dữ liệu toàn cầu" - Chương trình thư viện điện
tử của Nga
Trang 5 LỢI ÍCH CỦA DL
Thư viện số mang thư viện đến người sử dụng
Máy tính được sử dụng để tìm kiếm và duyệt
Thông tin có thể được chia sẻ
Thông tin dễ dàng cập nhật hơn
Thông tin luôn sẵn có
Các dạng thông tin mới trở thành thực hiện được
Giá của DL
Ưu điểm và nhược điểm của DL:
ƯU ĐIỂM
Không bị giới hạn về địa lý
Tiết kiệm không gian
Phụ thuộc vào nhà cung cấp
Lưu trữ lâu dài
Mua quyền truy cập
Câu 4: Trình bày vấn đề bản quyền tài liệu trong DL.
a Khái niệm cơ bản
5
Trang 6 Bản quyền (Copyright): thuật ngữ pháp lý mô tả quyền xác định cho người sáng tạo đối vớitài liệu và các công trình nghệ thuật của họ.
Vi phạm bản quyền (Copyright infringement): việc sử dụng tài liệu được bảo vệ bởi luật bảnquyền không được phép của chủ sở hữu, hoặc cấp phép và/hoặc bán quyền sử dụng
Người sáng tạo (Creator): tác giả của tác phẩm, người mà công trình của họ được côngnhận Chủ sở hữu bản quyền
Nguyên tắc sử dụng không phải xin phép (Fair use principle): cho phép thư viện sao chụptác phẩm Kiểm tra bốn nhân tố sẽ đảm bảo thư viện quyết định việc sử dụng là phải xinphép hay không trong trường hợp có một bản sao thực làm ra
Học thuyết chấm dứt quyền sau lần bán đầu tiên (First sale doctrine): điều khoản cho phépthư viện, một khi đã bản sao tác phẩm đúng bản quyền, quyền phổ biến bản sao không cầnphép của chủ sở hữu bản quyền Lần bán đầu tiên đảm bảo các thư viện mượn sách hoặc tiếnhành mượn liên thư viện không vi phạm luật bản quyền
Quyền sở hữu trí tuệ (Intellectual Property Right)): sáng tạo trí óc: sáng chế, tác phẩm vănhọc và nghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại
Quyền tinh thần (Moral rights): quyền dành cho như người sáng tạo tác phẩm, thực hiệnhành động nếu ai đó gây sai trái hoặc tác phẩm bị xuyên tạc
WIPO - Tổ chức Sở hữu trí tuệ quốc tế là tổ chức chuyên môn của Liên hiệp quốc hoạt độngtrong việc phát triển một hệ thống sở hữu trí tuệ quốc tế truy cập được và ổn định dành cho
sự sáng tạo, kích thích cải tiến và góp phần vào phát triển kinh tế trong khi bảo vệ được lợiích chung
b Quyền sở hữu trí tuệ là gì?
Mở đầu
Thư viện là cơ quan có nhiệm vụ cung cấp sự truy cập thông tin công bằng cho cộngđồng nó phục vụ Quyền sở hữu trí tuệ và bản quyền ảnh hưởng đến nhiệm vụ này nhưthế nào?
WIPO định nghĩa quyền sở hữu trí tuệ là “sáng tạo trí óc: sáng chế, tác phẩm văn học vànghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại.”
Theo WIPO, quyền sở hữu trí tuệ được phân thành hai loại: sở hữu công nghiệp và bảnquyền
Bản quyền là gì?
Bản quyền là thuật ngữ pháp lý mô tả quyền của người sáng tạo đối với các tác phẩm vănhọc và nghệ thuật của họ Bảo vệ bản quyền là tự động cho dù tác phẩm này có đượcđăng ký hay không Ngay khi tác phẩm được viết ra, nó đã được bảo vệ
Bản quyền phức tạp và khác nhau giữa các nước
Ai là chủ sở hữu bản quyền?
Nói chung, người sáng tạo ra tác phẩm là chủ sở hữu bản quyền Trong trường hợp có từhai người sáng tạo trở lên, điều quan trọng là cần có một bản cam kết viết ra xem ai làchủ sở hữu bản quyền Mặt khác, đã có những ngoại lệ với quy định này, và ngoại lệcũng khác nhau giữa các nước
Trang 7 Bản quyền cũng có thể được cấp lại (thí dụ, cho nhà xuất bản) và/hoặc hết thời hạn saukhi tác giả chết
Quyền dành riêng cho chủ sở hữu bản quyền
Quyền tái bản tác phẩm (gồm sao chụp, sao chép, làm phim, ghi âm và quét)
Đưa tác phẩm đến với công chúng lần đầu tiên
Tuyên truyền tác phẩm với công chúng
Trình diễn tác phẩm với công chúng (chiếu phim, chơi nhạc)
Phóng tác (gồm dịch, kịch hoá, chuyển biên)
Truyền tệp và ghi âm cho công chúng bằng cách sử dụng bất kỳ hình thức công nghệ nào(qua thư điện tử, phát thanh, )
Phát lại trên vô tuyến hoặc truyền hình
Bản quyền sẽ chấm dứt trong bao lâu?
Khoảng thời gian bản quyền khác nhau giữa các nước Ở Philippines, khoảng thời gianbản quyền chấm dứt sau khi người sáng tạo chết 50 năm
Ở Ôxtrâylia, từ tháng 1/2005, khoảng thời gian bản quyền là cuộc đời người sáng tạocông thêm 70 năm hoặc 70 năm từ khi tác phẩm được xuất bản lần đầu tiên
Các điều khoản ở Hoa Kỳ còn phức tạp hơn
Vi phạm bản quyền là gì?
Vi phạm bản quyền là sử dụng tài liệu được bảo vệ bản quyền không được phép của chủ
sở hữu, hoặc cấp phép và/hoặc bán trái phép
Các hoạt động không vi phạm bản quyền
Đó là các hoạt động thuộc sử dụng không phải xin phép
Sử dụng thông tin, không nằm trong diện bảo vệ bản quyền
Các tác phẩm không được bảo vệ bản quyền
Ý tưởng, quá trình, hệ thống, phương pháp hoặc hoạt động, khái niệm, nguyên lý, pháthiện hoặc siêu dữ liệu cũng như sự kiện nếu được diễn tả, giải thích, minh hoạ hoặc kèmtrong một tác phẩm
Tin tức hàng ngày và các sự kiện linh tinh khác có tính chất bình thường của thông tinbáo chí
Tài liệu luật, hành chính hoặc có tính pháp lý, cũng như các bản dịch chính thức của cáctài liệu này
Tài liệu của chính phủ; tuy nhiên cần phải xin phép trước khi khai thác vì mục đích lợinhuận
Tác giả của các bài nói chuyện, bài giảng, bài thuyết giáo, bài luận văn sẽ có độc quyềntạo ra bộ sưu tập các tác phẩm của họ
Quyền tinh thần
Bổ sung cho bản quyền, người sáng tạo có các quyền tinh thần Đó là các quyền dành chongười sáng tạo tác phẩm, thực hiện hành động nếu ai đó xâm phạm tác phẩm hoặc tácphẩm bị xuyên tạc
7
Trang 8 Học thuyết chấm dứt quyền sau lần bán đầu tiên là gì?
Khi thư viện hoặc cá nhân mua hợp pháp một bản sao tác phẩm, Học thuyết chấm dứtquyền sau lần bán đầu tiên của luật bản quyền (17 U.S.C Section 109) cho phép thư việnhoặc cá nhân này có thể thực hiện quyền dành riêng khác của bản quyền-quyền phổ biếnbản sao-không cần phép của chủ sở hữu bản quyền
Lần bán đầu tiên đảm bảo cho thư viện mượn sách và tiến hành các dịch vụ liên thư việnkhông cần cam kết không vi phạm bản quyền
Hướng dẫn sử dụng không phải xin phép
Việc sao chép cá nhân một tác phẩm đã xuất bản ra một bản sao duy nhất, ở đây việc saochép được thực hiện bởi một người tự nhiên chỉ cho mục đích nghiên cứu hoặc học tập cá nhân,
sẽ được phép, không cần sự cho phép của chủ sở hữu bản quyền tác phẩm Mặt khác, bản quyền
sẽ không được mở rộng cho:
Sao chép toàn bộ cuốn sách hoặc phần quan trọng của nó hoặc nhạc phẩm dưới dạng đồhoạ bằng các phương tiện sao chụp;
Tập hợp dữ liệu và các tài liệu khác;
Chương trình máy tính
Bất kỳ tác phẩm nào khi sao chép có thể làm ảnh hưởng quyền lợi hợp pháp của tác giả
Việc sử dụng chương trình máy tính cùng với máy tính cho mục đích này, và để mở rộngchương trình máy tính đã có;
Mục đích lưu trữ, và để thay thế bản sao đã có sở hữu luật pháp của một chương trìnhmáy tính nếu bị mất, phá huỷ hoặc không sử dụng được nữa
Phân tích 4 yếu tố về sử dụng không phải xin phép
Sử dụng việc kiểm tra sau đây để xác định việc sử dụng có phải là không cần xin phép hay không:
– Mục đích và đặc điểm sử dụng là gì? Đó sử dụng có bản chất thương mại hay mụcđích đào tạo phi lợi nhuận,
– Bản chất của tác phẩm có bản quyền;
– Số lượng và thực chất của phần được sử dụng so với toàn bộ tác phẩm;
– Tác động của Việc sử dụng đến thị trường tiềm năng hoặc gía trị của tác phẩm
Trang 9Quyền đặc biệt của thư viện
– Các thư viện được phép thực thi những quyền đặc biệt bổ sung cho việc sử dụng không phải xin phép Một số quyền đó là:
– Lưu trữ những tác phẩm bị phá huỷ, hư hỏng, ăn cắp và mất
– Sao chụp cho người dùng thư viện
– Sao chụp cho những người dùng khác (mượn liên thư viện)
– Trình diễn và trưng bày trong dạy trực tiếp và đào tạo từ xa
– Các cơ quan giáo dục cũng được phép trưng bày và trình diễn tác phẩm khác trong các khoá học có giảng dạy trực tiếp, và mức độ ít hơn trong đào tạo từ xa
Bảo vệ bản quyền quốc tế
Không có gì là bảo vệ bản quyền quốc tế, nhưng phần lớn các nước có bảo vệ các tác phẩm nước ngoài theo các hiệp ước và công ước quốc tế
Ghi nhớ
Nếu không chắc chắn về các điều khoản của luật này, để áp dụng cụ thể, cần xin giấy phép sử dụng tài liệu từ chủ sở hữu bản quyền và/hoặc tư vấn luật sư vì luật bản quyền ở các nước khác nhau thì khác nhau Mặt khác, cũng nên nhớ rằng, do công ước quốc tế, có
sự dành cho nhau những đặc quyền trong luật này với các nước tham gia công ước, hiệp ước hoặc nghị định liên quân đến
C,Luật bản quyền hiện hành có áp dụng trong thời đại số hay không?
Mở đầu
Mục đích của luật bản quyền là cân bằng quyền của chủ sở hữu bản quyền và người dùng Luật bản quyền hiện hành có áp dụng được trong thời đại số hay không? Thư viện mua thông tin để cung cấp bình đẳng cho cộng đồng của mình Vì ngày càng có nhiều thông tin phổ biến dưới dạng số, nên thư viện cần phải chú ý để đảm bảo cho công chúng
có thể được hưởng các quyền truy cập giống như với thông tin dạng in
Bản sao số
Bản quyền dựa trên việc sao chép tài liệu Trong thời đại in, việc sao chụp có thể nhận biết được, và một trong các quyền dành riêng chi chủ sở hữu bản quyền là sao chụp Trong thời đại số, các bản sao số được tạo ra ngay khi tài liệu này được truy cập
Cấp phép và quyền sở hữu
9
Trang 10 Ngày nay các thư viện không bổ sung tài liệu số để sở hữu riêng Thay vào đó họ mua quyền truy cập, mà đòi hỏi đặt mua dài hạn liên tục
Vấn đề bảo quản
Luật bản quyền cho phép thư viện sao chụp tài liệu in và sao chép tài liệu điện tử với mục đích bảo quản
Đăng ký trước điện tử
Luật bản quyền hạn chế việc đặt trước tài liệu điện tử ở các chương, bài báo đơn lẻ, một
số biểu đồ và các minh hoạ khác, hoặc những phần nhỏ của tác phẩm
Truy cập cũng có thể hạn chế cho các thành viên của lớp và cần chấm dứt vào cuối khoá học này Giấy phép cũng có thể cần thiết đối với những tài liệu mà sẽ được sử dụng lại sau này
Ngoại lệ đối với thư viện và cơ quan lưu trữ
Theo Đạo luật bản quyền ở Hoa Kỳ, mục 404 của đạo luật bản quyền thiên niên kỷ số (DMCA) bổ sung mục 108 của đạo luật bản quyền
Mục “Hạn chế các quyền đặc biệt: Tái bản bởi thư viện và cơ quan lưu trữ”
Kết luận
Mặc dù DMCA đã có hiệu lực năm 2000, những vẫn còn những vấn đề bất ổn và các mốiquan tâm về bản quyền trong thời đại số Đó là vấn đề ở Hoa Kỳ cũng như ở bất kỳ nước nào Một lần nữa, xin lưu ý rằng nên tư vấn luật sư về các vấn đề bản quyền cụ thể
Dùng Internet để tìm các luật trong nước bạn tác động đến bản quyền trong thời đại số Nếu không có, hãy tìm các diều khoản bản quyền tác động đến thư viện ở nước bạn
Câu 5: Trình bày mô hình hình thức cho DL?
1 Cơ sở toán học
Ký hiệu (a,b) Î R là aRb Một quan hệ R n-phân trên các tập hợp A1, A2, , An là một
tập con của tích Đề các A1x A2 x x An
x B sao cho đối với mỗi một a Î A tồn tại b Î B sao cho (a,b) Î f và nếu (a,b) Î f và (a,c) Î f thì b = c Tập hợp A được gọi là miền xác định của f và tập hợp B được gọi là
Trang 11miền giá trị của f Ký pháp f : A ® B và b = f(a) là một ký pháp chung đối với (a,b) Î f Tập hợp {f(a)| a Î A} được gọi là vùng của f.
tập con ban đầu nào đó của {1, 2, , n} của các số tự nhiên và miền giá trị của nó là tập
Một xâu là một dãy hữu hạn các ký tự hoặc ký hiệu rút ra từ một tập hợp hữu hạn với ít
nhất hai phần tử, được gọi là bảng chữ Một xâu thường được ký hiệu bằng cách nối với nhau dảicác giá trị không có ký tự phân cách
Cho S là một bảng chữ S* ký hiệu tập hợp tất cả xâu từ S, bao hàm xâu rỗng (một dãy
rỗng e) Một ngôn ngữ là một tập con của S*
Một đồ thị G là một cặp (V, E), trong đó V là một tập đỉnh không rỗng và E là một tập
của một tập cạnh {u, v}, u, v Î V Một đồ thị có hướng G là một cặp (V, E), trong đó V là một tập đỉnh (nút) không rỗng và E là một tập cạnh (cung) trong đó mỗi một cạnh là một cặp thứ tự đỉnh phân biệt (vi, vj) với vi, vj Î V và vi ¹ vj Cạnh (vi, vj) được gọi là liên thuộc trên các đỉnh
vi và vj, trong đó vi kề với vj và vj kề từ vi
Một văn phạm phi ngữ cảnh là một bộ bốn (V, S, R, s0) trong đó V là một tập biến gọi là
không kết thúc, S là bộ chữ ký hiệu kết thúc, R là một tập luật hữu hạn và s0 là một phần tử phânbiệt của V gọi là ký hiệu bắt đầu
Một luật/ một sản xuất là một phần tử của tập V x (V È S)* Mỗi một sản xuất có dạng
SX ® a trong đó SX là một ký hiệu không kết thúc và a là một xâu ký hiệu
Trang 12Một không gian là một không gian đo được, không gian độ đo, không gian xác suất,
không gian vector hoặc một không gian topo
(kết thúc và/hoặc không kết thúc)
5 Kịch bản
en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 £ k £ n
7 Định nghĩa hình thức thư viện số
Trang 13 Lý do xây dựng thư viện số
Lý do chính:
DL phân phát thông tin tốt hơn thư viện truyền thống
Số lượng tài liệu ngày càng tăng
Sự phát triển của công nghệ thông tin và các hình thức xuất bản mới
Nhu cầu của người sử dụng thay đổi
Các hình thức tìm tin mới
Vai trò của thư viện thay đổi
Các bước cơ bản của dự án xây dựng DL
1 Xác định dự án
2 Phác thảo kế hoạch triển khai DL
3 Thực hiện
1.Xác định dự án
Nêu mục đích, mục tiêu rõ ràng, xác định đối tượng độc giả và nội dung:
Phát triển hình ảnh và nhiệm vụ Thư viện là các nguồn thông tin hàng đầu; là trung tâm
thông tin quan trọng nhất dành cho sinh viên, giảng viên và nhân viên của trường đại học/cao đẳng Để thực hiện nhiệm vụ của mình, thư viện phát triển các kho tài liệu, tổ chức kho tài liệu để truy cập, cung cấp khả năng truy cập các nguồn thông tin khác, dạy người dùng các kỹ năng thư viện, tuyển dụng và đào tạo cán bộ các kỹ năng cần thiết để thư viện hoạt động, cung cấp phương tiện và dịch vụ thúc đẩy nghiên cứu và học tập
Lập mục đích và mục tiêu
Mục đích là mục tiêu dài hạn hình thành cùng với hình ảnh của tổ chức Mục tiêu là những hoạt động cụ thể mà tổ chức muốn hoàn thành trong một giai đoạn nào đó, thường là trong vòng một năm Mục tiêu mang tính ngắn hạn, chỉ tiêu phấn đấu có thể đạt được
2.Phác thảo kế hoạch triển khai thư viện số
Xác định các nguồn yêu cầu và phác thảo các nhiệm vụ khác nhau, chiến lược và thời hạn để hoàn thành mục đích Chiến lược do các phương pháp cấu thành, được thiết kế để hoàn thành mục đích và mục tiêu Chiến lược bao gồm kế
13
Trang 14hoạch hành động, người phụ trách, thời hạn và các nguồn cần có Bảng dưới đây
là bản mẫu của một kế hoạch hành động
Mục đích Kết quả mong đợi Các nguồn lực yêu cầu/
Chi phí dự án
Người phụ trách
Dự kiến hoàn thành
Ngày dựkiến hoàn thành
Các nguồn lực yêu cầu
Nội dung vốn tài liệu số đáp ứng nhu cầu của đối tượng độc giả và mục tiêu của
dự án
Nhân sự và những kỹ năng cần thiết để xây dựng, tổ chức và quản lý thư viện số
và thức hiện các nhiệm vụ cần thiết trong xây dựng thư viện số
Hạ tầng công nghệ thông tin (Ví dụ: phần cứng, phần mềm, khả năng kết nối)
Phân bổ ngân sách
Hỗ trợ và hợp tác của các đơn vị chính tham gia
Khảo sát môi trường Điểm chung của tất cả các định nghĩa và nhiệm vụ này là
nhu cầu khảo sát môi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương lai và chiến lược để đạt được tương lai đó
Các công cụ cùng các tiêu chuẩn và giao thức tương ứng cho việc cung cấp thông tin và dịch vụ và mô tả việc bảo trì và đánh giá hệ thống sẽ được thực hiện nằm trong chiến lược xây dựng thư viện số
3.Thực hiện
Lựa chọn nội dung Tiêu chí lựa chọn cần phải mở rộng
Tổ chức tài liệu gốc để số hoá, lưu giữ, truy cập, tìm kiếm và tra cứu
Cung cấp dịch vụ Nghiên cứu thị trường và cung cấp các dịch vụ phù hợp
Tìm kiếm và sử dụng các công nghệ và công cụ chuyên dụng cho kế hoạch
Trang 15 Bảo trì hệ thống Liên tục giám sát và bảo trì hệ thống là biện pháp cần thiết để nâng cao chất lượng dịch vụ tốt hơn
Thực hiện các chiến lược marketing Thư viện số cần được tiếp thị tới người dùnghiện tại và tiềm năng Có rất nhiều cách xúc tiến việc sử dụng thư viện số
Giám sát và đánh giá hoạt động của thư viện Đánh giá hoạt động định kỳ sẽ cho phép ban quản lý định hướng lại kế hoạch nhằm đáp ứng những thay đổi của môi trường Nhu cầu tái định hướng có thể do những thay đổi công nghệ, chính sách…
Khảo sát môi trường
Điểm chung của tất cả các định nghĩa và nhiệm vụ này là nhu cầu khảo sátmôi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương lai và chiến lược
để đạt được tương lai đó
Kho tài liệu
Tiêu chí lựa chọn tài liệu của tổ chức cần phải rõ ràng Tài liệu lựa chọn phải phù hợp với tiêu chí đề ra: chủ đề, yêu cầu, tính duy nhất và giá trị Tài liệu còn phải có giá trị sử dụng lâu dài Đôi khi một ấn phẩn mới có thể thay thế ấn phẩm hiện có
Bản quyền
Mục đích của thư viện số là cung cấp truy cập vốn tài liệu từ xa Bản quyền là vấn đề quan trọng cần cân nhắc trong xây dựng thư viện số vì chức năng phân phối lại của thư viện số
Câu 7: Trình bày tóm tắt các phương pháp chỉ mục tài liệu?
3.1.MỞ ĐẦU
15
Trang 16 Định nghĩa 3.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ
và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số
Định nghĩa 3.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc dữ liệu dùng để
xác định vị trí của các dòng trong tệp theo điều kiện nào đó
Định nghĩa 3.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm
thông tin
Định nghĩa 3.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản
Định nghĩa 3.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một
IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện IL đôi khi được coi là một danh sách mục lục và các con trỏ là
mục lục
Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống
Bảng 3.2 - Văn bản mẫu; mỗi dòng là một tài liệu
1 Information retrieval is searching and indexing
2 Indexing is building an index
Trang 17 3 An inverted file is an index
4 Building an inverted file is indexing
Bảng 3.3 - IF đối với văn bản của bảng 3.2
Bảng 3.4 - IF mức từ đối với văn bản của bảng 3.2
Trang 18 Xây dựng chỉ mục tệp đảo IFID
Xây dựng chỉ mục là một trong những nhiệm vụ thách thức nhất phải đương đầu khi xây dựng một CSDL
Ở đây, ta đề cập đến bài toán xây dựng chỉ mục tệp đảo IFID, vì đây là dạng chỉ mục thiết thực nhất đối với cả hai truy vấn BQ và RQ
Quá trình xây dựng chỉ mục được coi là sự đảo văn bản Từ điển The Concise Oxford
Dictionary định nghĩa “sự đảo là đảo lộn trên dưới, đảo vị trí, trật tự hoặc quan hệ bình
thường” và đây đúng là điều phải làm để tạo lập chỉ mục
Xét văn bản mẫu ở bảng 3.2
Mỗi tài liệu của văn bản chứa một số thuật ngữ chỉ mục và mỗi một thuật ngữ chỉ mục xuất hiện ở một số dòng Quan hệ có thể được biểu diễn với một ma trận tần suất, trong đó mỗi một cột tương ứng với một từ, mỗi một hàng tương ứng với một tài liệu và số chứa tại hàng và cột bất kỳ là tần suất của từ chỉ định bởi cột đó Ma trận tần suất đối với văn bản của bảng 3.2 được trình bày ở bảng 5.1
GIẢI THUẬT 5.1 ĐẢO DANH SÁCH MÓC NỐI
1 Sản xuất một chỉ mục đảo đối với một CSDL tài liệu
/* Khởi tạo */
2 Tạo ra một cấu trúc từ điển rỗng S
/* Pha 1 - tập hợp các xuất hiện thuật ngữ */
Đối với mỗi một tài liệu Dd trong CSDL, 1 ≤ d ≤ N,
a Đọc Dd , phân tích cú pháp nó thành các thuật ngữ chỉ mục
b Đối với mỗi một thuật ngữ chỉ mục t Î Dd
Trang 19i Cho fd,t là tần suất của thuật ngữ t trong Dd
ii Tìm kiếm S đối với tiii Nếu t không có trong S, chèn nó
iv Thêm một nút lưu trữ <d, fd,t> vào danh sáchtương ứng với thuật ngữ t
3 /* Pha 2 - đầu ra của IF */
Đối với mỗi một thuật ngữ 1 ≤ t ≤ N
a Bắt đầu một mục vào IF mới
b Đối với mỗi một <d, fd,t> trong danh sách tương ứng với t,
thêm <d, fd,t> vào mục vào IF này
a Nếu yêu cầu, nén mục vào IF
b Thêm mục vào IF này vào IF
Thời gian đảo T yêu cầu là:
T = Btr + Ftp + (đọc và phân tích cú pháp văn bản) I(td + tr) (ghi IF nén)
Trang 20 Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản Mỗi một tài liệu có một
ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó
Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật
bitslicing, tức là kỹ thuật chuyển vị ma trận bit
Câu 8+ câu 9 nằm trong câu 7.
Câu 10 So sánh 2 phương pháp chỉ mục tệp đảo tài liệu IFID và chỉ mục tệp ký số tài liệu SFID ?
Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số
Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thực hiện tốt hơn SF
trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi
Câu 11: Trình bày mô hình tìm kiếm thông tin tổng quát IR trong DL ?
MÔ HÌNH TÌM KIẾM THÔNG TIN
Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin có liên quan tới nhu cầu thông tin của NSD
Mô hình IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn
Cho
D = {d1, d2, , dM}, M ³ 2 (4.1)
là một tập hữu hạn không rỗng đối tượng
Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường Các đối tượng tiêu biểu là đại diện
Cho  là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó r(D), nghĩa là,
hợp tập đối tượng D và ánh xạ tìm kiếm Â, chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau:
Định nghĩa 4.1 (cấu trúc tìm kiếm thông tin):
Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = <D, Â> (4.3)
Trang 21Định nghĩa 4.1 là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm  và đối tượng D Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và Â.
Câu 12 Trình bày phương pháp truy vấn xếp hạng tài liệu RQ trong DL ?
Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:
(4.6) Bảng 4.1 – Các vectơ đối với tính toán tích trong
(a) Vectơ tài liệu, (b) Vectơ truy vấn
3 Các tài liệu dài với nhiều thuật ngữ
Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc “không” nhị
phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu
Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :
Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu
21
X Y = ∑
i=1 n
xi yi
Trang 22Ví dụ:
Tính độ tương tự đối với truy vấn mẫu trở thành
S(information retrieval, D1)
= (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2
vì tài liệu D1 chứa information 1 lần và retrieval 1 lần
Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn
Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:
S(Q, Dd) = Q . Dd = (4.7)Nếu wq,t = 0 thì (nếu t không xuất hiện trong Q) độ tương tự như sau: S(Q,
Bài toán 2 không tính đến các thuật ngữ khó tìm
Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF
Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng của nó Tức
là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau:
(4.9)
trong đó: ft là số tài liệu chứa thuật ngữ t
Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:
1 Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một số cách khác nhau
2 Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh ra một trọng
số truy vấn-thuật ngữ wq,t
3 Có thể được dùng trong cả hai tính toán wd,t và wq,t , tức là, áp dụng hai lần Không công thức nào ở trên là khả năng duy nhất được dùng đối với wt , thành phần IDF
Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo
Trang 23Các vectơ tài liệu được tính như sau:
wd,t = rd,t (4.12)hoặc wd,t = rd,t wt (TF x IDF)
Chú ý:
+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra têncủa chúng Một heuristic độ tương tự được gọi là “TF x IDF” bất kỳ khi dùng tần suất
thuật ngữ fd,t tăng đều và tần suất tài liệu của thuật ngữ ft giảm đều
Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài Do đó, luật tích
trong đánh giá độ tương tự bằng
(4.14)
trong đó là độ dài của tài liệu Dd
4.3.3 Mô hình không gian vectơ
Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:
(4.15)
Hướng chỉ thị bởi 2 vectơ
(4.18)
Công thức có 2 hàm ý:
1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu
2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng
Luật cosin đối với xếp hạng:
Trang 24Trong đó:
là độ dài Euclide – trọng số – của tài liệu d và:
là trọng số của truy vấn q.
Độ tương tự:
Câu 13 Trình bày mô hình tìm kiếm thông tin xác suất trong DL ?
Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probability ranking principle):
Nếu đáp ứng của một hệ tìm kiếm thông tin với mỗi một yêu cầu của NSD là một dãy các tài liệu
sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các xác suất ở đây được đánh giá là độ
chính xác có thể trên CSDL có sẵn thì toàn bộ hiệu quả của hê đối với NSD sẽ là tốt nhất trên
Chúng ta lấy C = 2 là vì ở mô hình IR xác suất truyền thống có 2 tiêu chuẩn: có liên Định
nghĩa 4.5 (PIR): định nghĩa 4.4 có thể được định nghĩa lại như sau:
Mô hình tìm kiếm thông tin xác suất PIR là
Trang 25C = 2 và Â(q) = {d|mãi(q,d) ³ mãj(q, d)}, j = i + (-1)i+1, mãi(q, d) > ai}
(4.30)
Định nghĩa 4.6
(mô hình tìm kiếm thông tin xác suất kinh điển)
Cho D là một tập tài liệu, q Î D một truy vấn và P(R|(q, d)) xác suất tài liệu d Î D là có liên quan /không liên quan với truy vấn q tương ứng Cho R(q) là tập tài liệu tìm kiếm đáp ứng truy vấn q Một tài liệu d được lựa chọn đáp ứng một truy vấn q nếu
P(R|(q, d)) ³ P(I|(q, d)) (Luật quyết định Bayes)
(4.31)nghĩa là,
R(q) = {d| P(R|(q, d)) ³ P(I|(q, d))} (4.32)
Chính xác hơn, P(R|(q, d)) và P(I|(q, d)) là xác suất liên đới tới d khi nó được xét có liên quan và không liên quan tới q tương ứng
Đánh giá P(R|(q, d)) và P(I|(q, d)) dựa vào công thức Bayes
Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q Î D và hai tiêu chuẩn ã1 và ã2 là liênquan và không liên quan tương ứng Cho mãi(q, d), i = 1, 2 là mức độ mà một đối tượng bất kỳ d
Î D thỏa mãn tiêu chuẩn ãi liên quan tới q
Trang 26 Các xác suất có điều kiện có thể được đánh giá từ bảng 4.4
P [có liên quan | thuật ngữ t có mặt] = Rt / ft (4.34)
và P [không liên quan | thuật ngữ t có mặt] = (ft – Rt) / ft
Tương tự, P [thuật ngữ t có mặt | có liên quan] = Rt / R (4.35) và P [thuật ngữ t có mặt |
không liên quan] = (ft – Rt) / (N – R)
trọng số wt đối với thuật ngữ t nhận được dùng công thức Bayes:
SỰ PHẢN HỒI LIÊN QUAN
Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm
Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn
Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn Q đều được coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt Chiến
lược đơn giản nhất như sau:
26
wt= Rt/( R−Rt) ( ft− Rt)/( N −ft−( R−Rt))
Q i+1 = Q i − D n + ∑ D d
Trang 27(4.39)trong đó:
+ Dn là tài liệu xếp hạng cao nhất không liên quan;
+ R là tập tài liệu có liên quan
Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trong những tài liệu không liên quan ảnh hưởng đến truy vấn mới và bao hàm dự trữ sẵn cho truy vấn ban đầunhằm ảnh hưởng đến tất cả truy vấn tiếp theo:
trong đó:
p, w, l và h là các hằng trọng số (với h £ 0);
R là tập con tài liệu có liên quan
I là một tập con tài liệu không liên quan bởi vì đáp ứng của NSD với các phép lặp truy vấn
Câu 14: Trình bày mô hình tìm kiếm không gian vector trong DL và Đánh giá hiệu suất tìm kiếm tài liệu trong DL ?
4.3.3 Mô hình không gian vectơ
Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:
Hướng chỉ thị bởi 2 vectơ:
yi2
Trang 28Công thức có 2 hàm ý:
1 Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu
2 Cung cấp một sự trực quan rõ ràng của luật xếp hạng
Luật cosin đối với xếp hạng:
Độ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong
số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn:
Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan
được tìm kiếm trong r cao nhất:
tong so tai lieu tim kiem
tong so tai lieu co lien quan
Trang 29 Độ chính xác P:
Độ phục hồi R:
trong đó:
NT là tổng số tài liệu có liên quan tới một truy vấn q, NT ¹ 0;
| Â(q) | = k là số tài liệu tìm kiếm được đáp ứng q, k ¹ 0;
NR là số tài liệu có liên quan tìm kiếm được
Định đề: Tỉ số giữa độ phục hồi và độ chính xác R / P thay đổi tuyến tính đối với k
Chứng minh:
NR = R NT = P k Þ R / P = k / NT
4.6.2 Đường cong độ phục hồi-độ chính xác
Hình 4.1 – Đường cong P-R đối với hạng của bảng 3.2
Trang 30Đồ thị hiệu suất tính toán
Câu 15: Trình bày tóm tắt các chuẩn trình bày trong DL ?
Chuẩn trình bày
ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP
a ASCII
American Standard Code for Information Exchange
Tiêu chuẩn Việt Nam: TCVN 5712-1993
Văn bản chỉ có ký tự, không có lệnh trình bày (plain text file) Văn bản bằng ký tự ASCIIkhông có khả năng trình bày các công thức toán học và hoá học
020
Trang 31 Thường phải được nhập thủ công vào CSDL
+ Không bảo toàn được nguyên dạng của trang
+ Không hỗ trợ đa ngôn ngữ (255 ký tự)
b UNICODE
Dùng cho văn bản
Tiêu chuẩn Việt Nam: TCVN 6909-2001
Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự
– Phụ thuộc sự phát triển của công ty
– Đòi hỏi bản quyền
Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở
31
Trang 32 Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn dữ liệu không độc quyền
Có tính mở
Không phụ thuộc phần mềm, nền tảng máy tính (Platform independent)
Ngôn ngữ đánh dấu (Markup Language)
Sử dụng các cặp thẻ đánh dấu: bao gồm thẻ mở và thẻ đóng:
– <Title> và </Title>
Hiện nay: SGML, HTML và XML
Ngôn ngữ đánh dấu tổng quát chuẩn SGML
Standard Generalized Markup Language
SGML là cách thức trình bày tài liệu số bằng các mã đánh dấu
Là tiêu chuẩn ISO 8879 (Information processing Text and office systems - Standard
Generalized Markup Language)
Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu trúc
Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ liệu Thí dụ:
<Title>Đây là nhan đề tài liệu</Title>
Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên tắc
Cấu trúc tài liệu SGML
Gồm 3 phần
– Phần 1: Phần thông báo (Statement)
<?sgml version="1.0" encoding="ISO-8859-1"?>
– Phần 2: Định nghĩa phần tử tài liệu
– DTD - Document Type Definition
Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )
– Phần 3: Nội dung tài liệu
Định nghĩa phần tử dữ liệu (DTD)
Trang 33DTD Document Type Definition
DTD xác định các khối thông tin hợp lệ của một tài liệu SGML
DTD xác định cấu trúc của tài liệu thông qua một danh mục các yếu tố và thuộc tính
CDATA: cho biết đây là dữ liệu dạng ký tự (character data), sử dụng trong ngôn ngữ đánh dấu SGML and XML
Dùng để phân biệt với dữ liệu không phải ký tự dùng cho các chức năng cấu trúc đặc thù
Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc
Phức tạp, phát triển ứng dụng tốn kém
Phải có trình duyệt riêng để đọc
Điều quan trọng để ứng dụng SGML là xây dựng DTD
Ví dụ về ứng dụng:
TEI – Text Encoding Initiative
HTML
HyperText Mark-up Language
Là một ứng dụng của SGML dùng cho tài liệu WEB
Đơn giản hoá SGML
Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi cộng đồng sử dụng Web
Các thẻ HTML được thống nhất toàn cầu (W3C – WWW Consortium)
Ưu nhược điểm của HTML
Ưu điểm
– Đơn giản
– Có định hướng đến trình bày
– Được đọc bằng những trình duyệt (Browser)
– Được các công ty hỗ trợ phát triển trình duyệt: Internet Explorer, Netscape Navigator, Mosaic,
Nhược điểm
– Phải chờ thông qua cho thẻ mới
– Số thẻ hạn chế
Thẻ trợ giúp mô tả tài liệu HTML
Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong phần <Head> của tài liệu
Trang 34<META NAME="DC.TITLE" CONTENT="Giống lúa lai Trung Quốc và kỹ thuật gieo trồng">
<META NAME="DC.CREATOR" CONTENT="Trần Ngọc Trang">
<META NAME="DC.SUBJECT" CONTENT="Lúa lai">
<META NAME="DC.SUBJECT" CONTENT="Giống cây trồng">
<META NAME="DC.SUBJECT" CONTENT="Gieo trồng">
<META NAME="DC.IDENTIFIER"
CONTENT="/THUVIENDIENTU/BOOK/Vb/2001/Vb44.pdf">
</HEAD><BODY> </BODY></HTML>
Ngôn ngữ đánh dấu mở rộng XML
XML eXtensible Markup Language
Là một dạng của SGML và được World Wide Web Consortium (W3C) đề xuất
Đơn giản hơn SGML
Linh hoạt hơn HTML
Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo trong tạo lập các tài nguyên điện tử
Đặc điểm của XML
XML là ngôn ngữ đánh dấu tương tự HTML
Được thiết kế để chứa/trao đổi dữ liệu nhưng không để trình bày dữ liệu
Các thẻ XML không được xác định trước Người dùng tự xác định các thẻ của mình
XML được thiết kế để tự mô tả (self-descriptive)
Tổ chức 3WC gọi XML là:
"một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ liệu"
Sự khác biệt giữa XML và HTML
XML không thay thế HTML
XML và HTML được thiết kế cho 2 mục đích khác nhau:
– XML dùng để chứa và chuyển tải dữ liệu XML định hướng dữ liệu
– HTML được thiết kế để trình bày dữ liệu
XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu Phải có phần mềm để xử lý
XML là tệp văn bản không mã hóa
Người dùng tự quy định thẻ cho tài liệu (thí dụ <title> and <author>)
Không có thẻ XML mặc định
XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho Internet
XHTML: phiên bản mới nhất của HTML
RDF and OWL for describing resources and ontology
RDF = Resource Description FormatOWL = Ontology Web Language
Cấu trúc tài liệu XML
Tương tự như SGML
Gồm 3 phần
Trang 35– Phần 1: Phần thông báo
– Phần 2: Định nghĩa phần tử tài liệu
DTD - Document Type Definition
Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào, thẻ mô tả là gì, )– Phần 3: Nội dung tài liệu
Mục tiêu của DTD là xác định cấu trúc của một tài liệu XML
Thông báo các yếu tố hợp lệ trong tài liệu
– <!DOCTYPE note [
– <!ELEMENT note (to,from,heading,body)>
– <!ELEMENT to (#PCDATA)>
– <!ELEMENT from (#PCDATA)
– <!ELEMENT heading (#PCDATA)
– <!ELEMENT body (#PCDATA)>]>
Trang 36 Dùng để tự xác định các thành phần của tài liệu XML
Với DTD, những nhóm người sử dụng khác có thể hiểu và xử lý được tài liệu XML và trao đổi được DL
Dùng làm chuẩn để kiểm định tài liệu XML, kiểm định dữ liệu
Ký hiệu đặc biệt - Entities
Một số ký tự có nghĩa với XML được định nghĩa sẵn trong XML
Mọi yếu tố XML phải có thẻ đóng (Closing Tag)
Thẻ XML phân biện chữ hoa-chữ thường (Case Sensitive)
– Thẻ <Letter> khác với <letter>
– Thẻ mở và thẻ đóng phải có cùng kiểu viết hoa/viết thường
Yếu tố XML phải được lồng ghép chính xác
Tài liệu XML phải có một yếu tố gốc (Root Element)
Tài liệu XML phải chứa 1 yếu tố làm cao nhất cho mọi yếu tố khác
Các giá trị thuộc tính XML phải được đặt trong ngoặc kép