1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF

48 558 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 1,81 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MỞ ĐẦURSS là một công nghệ internet giúp người dùng có thể đọc được những tin tức cập nhậtmới nhất từ một hoặc nhiều website cùng lúc mà không cần vào trực tiếp trang web đó.RSS có thể l

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Họ và tên: Nguyễn Cao Phong

TÊN KHÓA LUẬN:

ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG CÔNG CỤ TỔNG HỢP RSS TỪ CÁC TRANG MẠNG XÃ HỘI VÀ LƯU TRỮ

Trang 2

Thành Phố Hồ Chí Minh – Năm 2015

Trang 3

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Họ và tên: Nguyễn Cao Phong

TÊN KHÓA LUẬN:

ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG CÔNG CỤ TỔNG HỢP RSS TỪ CÁC TRANG MẠNG XÃ HỘI VÀ LƯU TRỮ

Trang 4

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 1

DANH MỤC CÁC BẢNG 2

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 3

MỞ ĐẦU 4

Chương 1 – TỔNG QUAN SEMATIC WEB 6

1.1.Tổng quan về web ngữ nghĩa 6

1.2 Web ngữ nghĩa là gì 7

1.3 Văn bản và cơ sở dữ liệu 9

1.4 Tài liệu XML với miền đơn 9

1.5 Kiến trúc web ngữ nghĩa 9

Chương 2 – MÔ HÌNH RSS 11

2.1 Giới thiệu về RSS 11

2.2 Giới thiệu về chuẩn RDF 11

2.3 Quá trình hình thành của các phiên bản RSS 12

2.4 Vấn đề không tương thích giữa các phiên bản RSS 15

2.5 Cấu trúc của RSS feed 16

2.5.1 RSS 0.91 16

2.5.2 RSS 0.92 20

2.5.3 RSS 1.0 24

2.5.4 RSS 2.0 28

Trang 5

3.2 Hướng dẫn sử dụng 37

3.2.1 Chuyển dữ liệu RSS 2.0 sang RDF (RSS 1.0) 38

Chương 4 – KẾT LUẬN 40

TÀI LIỆU THAM KHẢO 41

Trang 6

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

RSS 0.91: Rich Site Summary

RSS 0.9 và 1.0: RDF Site Summary

RSS 2.0.0: Really Simple Syndication

Trang 7

DANH MỤC CÁC BẢNG

Bảng 1 So sánh RSS 0.9x/2.0 sang RSS 1.0

Bảng 2 Sự biến đổi của các thành phần qua các phiên bản RSS

Trang 8

Hình 4 Mô hình kiến trúc Web ngữ nghĩa

Hình 5 Cây cấu trúc các thành phần của RSS 0.91

Hình 6 Cây cấu trúc các thành phần của RSS 0.92

Hình 7 Cây cấu trúc các thành phần của RSS 1.0

Hình 8 Cây cấu trúc các thành phần của RSS 2.0

Hình 9 Giao diện của chương trình

Hình 10 Giao diện hiển thị nội dung tập tin RDF

Hình 11 Nội dung tâp tin RSS 2.0

Hình 12 Kết quả tổng hợp từ trang vnexpress.net, vietnamnet.vn, tuoitre.vn

Trang 9

MỞ ĐẦU

RSS là một công nghệ internet giúp người dùng có thể đọc được những tin tức cập nhậtmới nhất từ một hoặc nhiều website cùng lúc mà không cần vào trực tiếp trang web đó.RSS có thể là từ viết tắt của một trong các thuật ngữ sau:

Really Simple Syndication: Dịch vụ cung cấp thông tin đơn giản

Rich Site Summary, RDF Site Summary: Tóm tắt thông tin phong phú, tóm tắt thông tintheo định dạng RDF

RDF – Resource Discovery Framework: là định dạng của phiên bản RSS 1.0

RSS là một tiêu chuẩn dựa trên định dạng XML cung cấp nội dung cập nhật thườngxuyên Các nhà cung cấp nội dung web sử dụng RSS để tạo ra dữ liệu và phân phốinguồn dữ liệu đến độc giả

Một tập tin RSS đơn giản chỉ là một danh sách các đối tượng được mô tả, gồm có: tiêu đề(title), nội dung tóm lược (description), và một liên kết đến trang chính (link) của nó.Những thông tin khác như ngày tháng, tác giả, cũng có thể được thêm vào

Một số phiên bản của RSS: Các phiên bản của RSS gồm có 0.90 và 0.91 (tạo bởiNetscape), 1.0 (bởi RSS-DEV), 0.9x và 2.0 (bởi UserLand Software)

Trang 10

Hình 1: Cấu trúc một tài liệu RSS 1.0 đơn giảnRDF là ngôn ngữ nền tảng của của Semantic Web Nó là một ngôn ngữ được sử dụng để

mô tả data, metadata, hay thẩm chí là ngôn ngữ dữ liệu khác RDF sử dụng một địnhdạng dữ liệu đồ thị (graph)

RDF dựa trên ý tưởng là mỗi mẫu dữ liệu (data item) sẽ có một định dang web duy nhất,gọi là URI (Uniform Resource Identifier), và mỗi mẫu dữ liệu có thể kết nối với các itemkhác

Trang 11

Chương 1 – TỔNG QUAN SEMATIC WEB

1.1.Tổng quan về web ngữ nghĩa

Web ngữ nghĩa là thế hệ Web mới, đang được phát triển và sẽ xuất hiện trong tương laigần Hệ thống Web mới này sẽ dần thay thế Web hiện tại song không có nghĩa là hoàntoàn khác hệ thống Web hiện tại Web ngữ nghĩa được phát triển trên hệ thống Web hiệntại bằng cách bổ sung thêm ngữ nghĩa cho các tài nguyên Web mà máy tính có thể hiểu

và tăng khả năng xử lý tự động

World Wide Web (gọi tắt là Web) đã trở thành một kho tàng thông tin khổng lồ của nhânloại và một môi trường chuyển tải thông tin không thể thiếu được trong thời đại côngnghệ thông tin ngày nay Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra mộtthách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả,

mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng Muốn vậy,trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi ở thế hệ Webhiện tại thông tin được biểu diễn dưới dạng chỉ con người mới đọc hiểu được Cácchuyên gia dự đoán, bề nổi của web (surface web) chứa khoảng 1 đến 2 tỷ trang tài liệutrong khi, ở phần sâu của web thì chứa đến 550 tỷ trang tài liệu Có khoảng 200.000website có tầng thông tin sâu, khoảng hơn 1/2 số thông tin này nằm trong các cơ sở dữliệu có chủ đề riêng biệt Khoảng 95% thông tin trong các website có tầng thông tin sâucho phép đa số người dùng có thể khai thác miễn phí Nhưng hiện nay, hầu hết các công

cụ tìm kiếm tài liệu trên web được coi là tìm kiếm hiệu quả cũng chủ yếu tìm kiếm đượctrên bề nổi của web Trong khi ở tầng sâu của web chứa một khối lượng thông tin khổng

lồ và thường rất có giá trị cho các nhà nghiên cứu, các học giả hay đơn thuần là nhữngngười thích tìm hiểu Bên cạch đó, các trang web hiện nay có rất ít đường liên kết với cáctrang web khác nên việc tìm kiếm là khó khăn Ngoài ra, thông tin tìm kiếm được khôngtheo chủ đề mà chỉ là vấn đề tìm thoả theo từ khoá đơn thuần, kết quả tìm kiếm phải docon người chọn lại theo chủ đề mong muốn Chính những vấn đề này đã thúc đẩy sự ra

Trang 12

đời của ý tưởng Web ngữ nghĩa (Semantic Web), một thế hệ mới của Web, mà chính cha

đẻ của World Wide Web là Tim Berners-Lee đề xuất vào năm 1998 Web ngữ nghĩa là sự

mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho conngười và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn Mục tiêu củaWeb có ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính cóthể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việckhám phá thông tin (thông tin được tìm kiếm nhanh chóng và chính xác hơn), tích hợp dữliệu (dữ liệu liên kết động), và tự động hóa các công việc

1.2 Web ngữ nghĩa là gì

Tim Berners-Lee đã đưa ra hai vấn đề của web ngữ nghĩa, đó là tạo cho Web một môitrường cộng tác tốt hơn và vấn đề thứ hai là máy có thể hiểu và xử lý tự động các thôngtin trên Web

Trang 13

Hình 3 Một đề xuất nguồn gốc Web với CERN (CERN-Hội đồng Châu Âu nghiên cứu hạt nhân)

Hình 1.1 biểu diễn cái nhìn bản chất nguồn gốc Web của Tim Berners-Lee Cái nhìn nàyrất phức tạp và phức tạp hơn nhiều so với việc lọc ra các trang HTML từ các dịch vụ Webhiện tại Nhưng trong hình này, có các mối quan hệ giữa các thông tin như: "includes",

"describes", "rote", đây là các mối quan hệ giữa các tài nguyên mà trong web hiện tạikhông có Và chính các quan hệ này đưa vào web ngữ nghĩa là cần thiết, để máy có thểhiểu và xử lý thông tin tự động trên web Các quan hệ này được gọi là các siêu dữ liệu

Công nghệ để có được các siêu dữ liệu này là công nghệ RDF (Resource Description

Framework)

Trang 14

Để có thể tạo ra web có dữ liệu mà máy có thể xử lý được, trước hết phải thay đối môhình trong cách chúng ta nghĩ về dữ liệu Từ trước đến nay, dữ liệu bị khoá ngay trongcác ứng dụng độc quyền Dữ liệu được coi như thứ yếu để xử lý dữ liệu Thái độ khôngđúng này bộc lộ những sai sót cơ bản trong luận cứ gốc bằng việc thiết lập sự phụ thuộcgiữa xử lý và dữ liệu Hay nói cách khác, phần mềm tốt thì hoàn toàn phụ thuộc vào dữliệu tốt Với các hệ tính toán chuyên nghiệp thì ngay khi bắt đầu thực hiện, vấn đề dữ liệu

là rất quan trọng, nó phải được xác minh và bảo vệ Với Web, XML và xu thế Web ngữnghĩa đang nổi lên thì có sự thay đổi của sức mạnh đang di chuyển từ các ứng dụng sang

dữ liệu Vấn đề này cũng cho chúng ta mấu chốt để hiểu Web ngữ nghĩa Con đường đểmáy có thể xử lý dữ liệu chủ yếu là tạo ra dữ liệu thông minh hơn chứ không phải là các

xử lý thông minh Hình 1.2 biểu diễn sự phát triển tính thông minh của dữ liệu theo thờigian

Hình 4 Sơ đồ phát triển tính thông minh của dữ liệuHình 1.2 chỉ ra sự phát triển liên tục của tính thông minh dữ liệu có bốn bậc quan trọng.Bốn bậc này biểu diễn từ dữ liệu có tính thông minh thấp nhất đến dữ liệu đã có thông tin

đủ ngữ nghĩa để máy thực hiện suy luận về nó

Trang 15

1.3 Văn bản và cơ sở dữ liệu

Bậc đầu tiên, hầu hết dữ liệu ở bậc này được sở hữu độc quyền cho một ứng dụng

Do vậy tính thông minh là nằm trong ứng dụng đó chứ không phải là trong dữ liệu

1.4 Tài liệu XML với miền đơn

Ở bậc này, dữ liệu đạt được là: ứng dụng độc lập với miền riêng Bây giờ, dữ liệu đủthông minh để có thể di chuyển giữa các ứng dụng trong một miền đơn Ví dụ: các chuẩnXML trong chăm sóc sức khoẻ, công nghiệp bảo hiểm, hoặc công nghiệp bất động sản

1.5 Kiến trúc web ngữ nghĩa

Web ngữ nghĩa được xây dựng trên nền hệ thống web hiện tại Web ngữ nghĩa được coi

là sự mở rộng của Web hiện tại có bổ sung thêm ngữ nghĩa vào dữ liệu trên web Hình1.3 chỉ ra sơ đồ kiến trúc của Web ngữ nghĩa

Hình 5 Kiến trúc của web ngữ nghĩa

Từ sơ đồ kiến trúc của Web ngữ nghĩa, ta thấy có bảy tầng kiến trúc Trong đó, với hệthống Web hiện tại (World Wide Web) là đang ở tầng thứ hai

Trang 16

Unicode: là một bảng mã chuẩn chung có đủ các ký tự để thống nhất sự giao tiếp trên tất

cả các quốc gia, đáp ứng tính nhất quán toàn cầu của web

URI (Uniform Resource Identifier):là kí hiệu nhận dạng Web đơn giản Cụ thể, nó là

một xâu ngắn cho phép nhận dạng tài nguyên Web như: với các xâu bắt đầu với "http:"hoặc "ftp:" mà chúng ta thường thấy trên World Wide Web Bất kỳ một người nào cũng

có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở để xây dựng một

hệ thống Web toàn cầu Hệ thống World Wide Web được xây dựng trên chúng và bất kỳcái gì mà có một URI thì được coi là "trên Web"

URL (Uniform Resource Locator) là một dạng đặc biệt của URI, cụ thể nó là một địa

chỉ trên mạng

URIref (URI reference) là một URI cùng với một phần nhận dạng tuỳ ý ở cuối Ví dụ, ta

có một URIref : "http://www.example.org/Books#Ontology" bao gồm một URI:

"http://www.example.org/Books" và một phần nhận dạng "Ontology" được cách nhau bởi

kí hiệu #

Theo như quy ước,Name space các không gian tên là những tài nguyên mà tạo ra các đa

tài nguyên, thường là những URI được kết thúc bởi kí hiệu # Ví dụ:

"http://www.example.org/Books#" là một không gian tên Các tài nguyên không cóURIref thì được gọi là các nút trắng; một nút trắng chỉ ra sự tồn tại của tài nguyên không

có sự đề cập rõ ràng về tham chiếu URIref của tài nguyên

Trang 17

Chương 2 – MÔ HÌNH RSS

2.1 Giới thiệu về RSS

RSS là một định dạng tập tin thuộc họ XML dùng trong việc chia sẻ tin tức web (web

syndication), được dùng bởi nhiều website tin tức và weblog.

 RSS gồm các phiên bản sau:

 Rich Site Summary (RSS 0.91)

 RDF Site Summary (RSS 0.9 và 1.0)

 Really Simple Syndication (RSS 2.0.0)

Định dạng RSS cung cấp nội dung web, tóm lược nội dung web cùng với các liên kết đến

phiên bản đầy đủ của nội dung tin đó, và các siêu dữ liệu (metadata) khác Thông tin này được cung cấp dưới dạng một tập tin XML được gọi là một RSS feed (webfeed, RSS

stream, hay RSS channel) Cùng với việc hỗ trợ cung cấp chia sẻ thông tin, RSS cho phép

những độc giả thường xuyên của một website có thể theo dõi các cập nhật của site đó

dùng một aggregator.

Một chương trình gọi là một feed reader hay aggregator có thể kiểm tra xem một website

có hỗ trợ RSS cho người dùng không và, nếu có, hiển thị những bài viết cập nhật nhất mà

nó tìm thấy từ website đó

Trên các trang web, RSS feeds thường được liên kết bằng một hình chữ nhật màu cam , có thể kèm theo các kí tự XML hay RSS

2.2 Giới thiệu về chuẩn RDF

RDF viết tắt của Resource Description Framework, là một chuẩn dùng để mô tả thông tin

do W3C đưa ra nhằm tạo ra các metadata

Trang 18

Hiện nay để tra cứu thông tin trên Internet chúng ta vẫn thường dùng các công cụ tìmkiếm như: Google, Altavista, Vinaseek…Việc thực hiện tìm kiếm thông tin trên Internetcủa các công cụ này hoàn toàn dựa trên sự xuất hiện các từ tìm kiếm trong tài liệu và kếthợp với dự đoán một cách thông minh các ý đồ tìm kiếm của người sử dụng để đưa ra cáckết quả tìm kiếm phù hợp Và việc thực hiện này được thực hiện hoàn toàn tự động nhờcác phần mềm, các robots dùng để đánh chỉ mục các tài liệu bằng các kỹ thuật thườngđược gọi là Spider Với các công cụ sử dụng phương pháp tìm kiếm như trên không thểđảm bảo kết quả tìm kiếm sẽ thỏa mãn người dùng một cách nhanh chóng và cũng khôngcho phép người dùng có thể thực hiện tìm kiếm theo các metadata như tìm kiếm mộtquyển sách trong thư viện được Chính vì lý do này, với mong muốn các tài liệu xuất bảntrên Internet có thể được biên mục, tìm kiếm một cách nhanh chóng thuận tiện, W3C đưa

ra khuyến nghị sử dụng RDF cho mỗi trang Web Thực chất RDF là các thẻ mô tả về tài

liệu đó ví dụ Tiêu đề của tài liệu (Title), Thông tin mô tả tài liệu (Description), Nơi xuất bản (Publisher)…Các thông tin này không được đầy đủ bằng các thông tin mô tả một

quyển sách nhưng nó cũng đủ để mô tả một tài liệu thông thường

2.3 Quá trình hình thành của các phiên bản RSS

Trước RSS, có nhiều định dạng khác cũng từng được dùng cho vấn đề chia sẻ thông tin,nhưng không có định dạng nào được dùng rộng rãi cho đến ngày nay, vì hầu hết chủ yếudùng cho từng dịch vụ đơn Ví dụ, năm 1997 Microsoft tạo ra Channel Definition Fomatcho chức năng Active Channel của Internet Explorer 4.0 Dave Winer cũng đã thiết kếđịnh dạng XML cho việc chia sẻ thông tin riêng cho Scripting News weblog, ra đời năm1997

RDF (Resource Description Framework) Site Summary, phiên bản đầu tiên của RSS,

được tạo ra bởi Dan Libby của Netscape vào tháng 3/1999 dùng cho cổng điện tử My

Trang 19

Tháng 7/1999, đáp trả lại các đề nghị và góp ý, Libby đưa ra bản phác thảo ban đầu đặttên là RSS 0.91 (RSS – Rich Site Summary), nhằm đơn giản hóa định dạng và tích hợpmột số phần trong định dạng scriptingNews của Winer Từ đó, Libby đề xuất ra địnhdạng tương tự - RSS 1.0 thông qua cái gọi là Futures Document.

Nhóm RSS-DEV tiếp tục đưa ra RSS 1.0 vào tháng 12/2000 dựa trên bản phác thảo góp ý

sửa đổi cho bản đặc tả kĩ thuật đưa ra bởi Tristan Louis Giống với RSS 0.9 (không phải0.91) bản này dựa vào đặc tả kĩ thuật của RDF, nhưng có tính khả thi hơn, với nhiều mụcbắt nguồn từ các từ vựng metadata chuẩn như Dublin Core

Mười chín ngày sau, Winer cho ra phiên bản RSS 0.92, và một vài chỉnh sửa có tínhtương thích với các thay đổi của RSS 0.91 dựa trên cùng bản góp ý Tháng 4/2001, ôngđưa ra bản phác thảo của RSS 0.93 mà hầu hết là giống với bản 0.92 Bản thảo RSS 0.94

ra đời vào tháng 8, phục hồi lại những thay đổi trong bản 0.93, và thêm vào thuộc tính

(attribute) type cho thành phần (element) description.

Tháng 9/2002, Winer cho ra bản cuối cùng của RSS 0.92, bây giờ gọi là RSS 2.0 và nhấnmạnh "Really Simple Syndication" là nghĩa của ba kí tự viết tắt RSS Đặc tả kĩ thuật của

RSS 2.0 loại bỏ thuộc tính type từng được thêm vào trong RSS 0.94 và cho phép người

dùng có thể thêm thành phần mở rộng nhờ dùng XML namespaces Nhiều phiên bản củaRSS 2.0 đã được ra đời, nhưng chỉ số của phiên bản thì vẫn không thay đổi

Tháng 11/2002, Thời báo New York đã bắt đầu cung cấp cho người đọc khả năng xem

các tin có hỗ trợ RSS feeds liên quan đến nhiều chủ đề khác nhau Tháng 1/2003, David Winer đã gọi việc dùng RSS của Thời báo New York Time là một "điểm nhấn" (tipping

point) trong việc đưa định dạng RSS trở thành một chuẩn.

Tháng 7/2003, Winer và Userland Software được cấp quyền sở hữu đặc tả kĩ thuật RSS2.0, Trung tâm Berkman về Xã hội và Internet của Harvard

Trang 20

Tháng 1/2005, Sean B.Palmer và Christopher Schmidt đã cho ra bản sơ thảo đầu tiên củaRSS 1.1 là bản sửa lỗi của RSS 1.0 Nó loại bỏ những đặc tính ít dùng, đơn giản hóa cúpháp và nâng cao đặc tả kĩ thuật dựa vào đặc tả RDF Tháng 8/2005, Jonathan Avidan đãđưa ra dự án cho riêng mình nhằm tạo một “RSS 3” thế nhưng không nhận được sự phảnhổi nào từ bất kì ai trong công nghệ RSS và dự án đã thất bại.

Tháng 11/2005 Microsoft đã đưa ra RSS chia sẻ thông tin mở rộng đơn giản và gọi là:

“Real Simple Synchronization” bởi Colm Smyth

Tháng 12/2005 Microsoft công bố đặc tả RSS 2.0, cũng theo hãng thì phiên bản mới cótên gọi là SSE (Simple Sharing Extensions) Đặc tả mới cho RSS được cung cấp miễn phítheo giấy phép bản quyền của Creative Commons Vì vậy, phiên bản mới này cho phépnhững người sử dụng khác có thể sửa đổi, thêm bớt cũng như xây dựng những đặc tả mớikhác dựa trên SSE theo đúng giấy phép bản quyền, thậm chí phục vụ cho mục đích kinhdoanh

Thực ra, RSS về cơ bản chỉ là cung cấp tin tức một chiều Trong khi đó để giải quyết vấn

đề chia sẻ thông tin phức tạp, chúng ta cần phải cung cấp và đồng bộ thông tin 2 chiềuhay thậm chí là nhiều chiều Do đó, sử dụng RSS cho mục đích đồng bộ hóa không còn làtùy chọn nữa

Xu hướng của Microsoft là kết hợp RSS (Really Simple Syndication) và OPML (OutlineProcessor Markup Language ) nhằm sử dụng khả năng vốn có của RSS và giữ cho xuhướng "cực kì đơn giản" của RSS có thể làm việc tốt trong môi trường cung cấp thông tintrong mạng Kết hợp cả 2 ý tưởng này lại hứa hẹn sẽ đem lại nhiều lợi ích cho người sửdụng

SSE cho phép nhân bản bất cứ dữ liệu độc lập nào từ lịch công tác, danh sách các đối táccho đến danh sách trong thư mục Favourite…Những nguồn tin này đều có thể được xuất

Trang 21

dụ: SSE có thể được sử dụng để chia sẻ lịch làm việc với đồng nghiệp Nếu lịch làm việccủa bạn được xuất bản theo SSE, khi bạn thay đổi lịch làm việc của mình thì lịch làm việctrên máy đồng nghiệp cũng thay đổi tương ứng và ngược lại Kết quả là, đồng nghiệp cóthể xem được kế hoạch công tác của bạn và đặt các cuộc hẹn mới mà không bị ảnh hưởngtới kế hoạch của họ…

Ý tưởng đằng sau SSE chính là cho phép đồng bộ dữ liệu đa hướng và đồng bộ dữ liệu đahướng xuyên suốt nhiều ứng dụng Một điều cần lưu ý là Microsoft mới chỉ phát hànhđặc tả SSE, hiện thời chưa có sản phẩm nào của Microsoft cũng như các hãng khác ứngdụng công nghệ này Tuy nhiên, một số công ty cũng đang hứa hẹn sẽ triển khai ứngdụng mới của họ trên SSE

SSE là một bước tiến lớn của RSS Khả năng cung cấp nguồn tin đa hướng và đồng bộ dữliệu giữa các ứng dụng khác nhau thật sự là một cuộc cách mạng

2.4 Vấn đề không tương thích giữa các phiên bản RSS

Như đã nói ở trên, có nhiều phiên bản khác nhau của RSS bao gồm:

RDF hay RSS 1.*, bao gồm các phiên bản sau đây:

 RSS 0.90 là phiên bản của Netscape Bản RSS này được gọi là: tóm lược thông tinđịnh dạng RDF, nhưng được dựa trên bản nháp lúc đầu của chuẩn RDF, và nókhông tương thích với chuẩn RDF cuối cùng

 RSS 1.0 và 1.1 là một định dạng mở của nhóm RSS-DEV Working Group, thaythế RSS 0.90 RSS 1.0 là một khuôn dạng RDF như RSS 0.90 nhưng dựa trênchuẩn RDF cuối cùng

Các phiên bản RSS 2.* (khởi tạo bởi UserLand, bây giờ là Harvard) bao gồm cácphiên bản sau:

 RSS 0.91 là phiên bản đơn giản hóa được phát hành bởi Netscape Phiên bản nàygọi là: Rich Site Summary Nó không phải là định dạng RDF nhưng mà khá dễ sử

Trang 22

dụng RSS 0.91 chứa nhiều thành phần cơ bản nhất của RSS

 RSS 0.92 đến RSS 0.94 là mở rộng của định dạng RSS 0.91 và nó không tươngthích với RSS 0.90 (RSS 0.90 có những đặc tả kĩ thuật khác biệt)

 RSS 2.0.1 có phần cốt lõi là: RSS 2.0 RSS 2.0.1 đã từng được tuyên bố là sẽ kếtthúc, không mở rộng nữa, nhưng mà nó vẫn được bổ sung một chút sau khi pháthành mà không thay đổi số của phiên bản Phiên bản RSS này là viết tắt của:Really Simple Syndication Thay đổi lớn trong phiên bản này là: cơ chế mở rộng

rõ ràng sử dụng không gian tên của XML

2.5 Cấu trúc của RSS feed

Cấu trúc chung của một RSS feed:

 Channel (title, description, URL, creation date, v.v.)

 Image

 Item (title, description, URL, v.v.)

 Item (title, description, URL, v.v.)

 Item (title, description, URL, v.v.)

2.5.1 RSS 0.91

Trang 23

Hình 6 Cây cấu trúc các thành phần của RSS 0.91

Thành phần (element) đầu tiên của một tài liệu RSS 0.91 là: <rss

version="0.91">

Theo sau là thành phần channel, chứa toàn bộ nội dung của feed và tất cả các siêu

dữ liệu có liên quan Các thành phần con (subelement) bắt buộc trong channel gồm:

 title: Tiêu đề của feed Trong hầu hết các trường hợp, tiêu đề này trùng với tiêu

đề của trang web, có chiều dài tối đa là 100 kí tự

 link: Địa chỉ URL của trang web, tối đa 500 kí tự

 description: Mô tả channel, chỉ là văn bản đơn giản, không chứa định dạng

HTML hoặc ngôn ngữ đánh dấu (markup language) khác.

 language: Mã ngôn ngữ của feed

image: Mô tả biểu tượng (icon) kèm theo của feed, có các thành phần con:

 url: Địa chỉ URL của ảnh (định dạng GIF, JPG, hoặc PNG), tối đa 500 kítự

Trang 24

 title: Thông tin mô tả về ảnh, tối đa 100 kí tự.

 link: Địa chỉ URL mà ảnh đó liên kết đến, tối đa 500 kí tự

 width và height: độ dài và độ rộng của ảnh, đây là hai thành phần tùychọn

 Ngoài ra còn có các thành phần tùy chọn khác, đa số các thành phần này là tĩnh vànội dung của chúng không thay đổi: copyright, managingEditor,webMaster, rating, pubDate, lastBuildDate, docs, skipDays,skipHours, textInput (title, description, name, link)

 Thành phần item: chứa nội dung chính của feed, gồm các thành phần con:

 title: Tiêu đề của mẩu tin, là thành phần bắt buộc, tối đa 100 kí tự

 link: Địa chỉ URL của mẩu tin, là thành phần bắt buộc, tối đa 500 kí tự

 description: Mô tả tóm tắt nội dung của mẩu tin, chỉ là văn bản đơngiản (không chứa HTML), là thành phần tùy chọn, tối đa 500 kí tự

<title>RSS0.91 Example</title>

<link>http://www.exampleurl.com/example/index.html</link>

Ngày đăng: 04/07/2015, 03:37

HÌNH ẢNH LIÊN QUAN

Hình 1: Cấu trúc một tài liệu RSS 1.0 đơn giản - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 1 Cấu trúc một tài liệu RSS 1.0 đơn giản (Trang 10)
Hình 3. Một đề xuất nguồn gốc Web với CERN (CERN-Hội đồng Châu Âu nghiên cứu hạt nhân) - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 3. Một đề xuất nguồn gốc Web với CERN (CERN-Hội đồng Châu Âu nghiên cứu hạt nhân) (Trang 13)
Hình 4. Sơ đồ phát triển tính thông minh của dữ liệu - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 4. Sơ đồ phát triển tính thông minh của dữ liệu (Trang 14)
Hình 5. Kiến trúc của web ngữ nghĩa - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 5. Kiến trúc của web ngữ nghĩa (Trang 15)
Hình 6. Cây cấu trúc các thành phần của RSS 0.91 - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 6. Cây cấu trúc các thành phần của RSS 0.91 (Trang 23)
Hình 7. Cây cấu trúc các thành phần của RSS 0.92 - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 7. Cây cấu trúc các thành phần của RSS 0.92 (Trang 27)
Hình 8. Cây cấu trúc các thành phần của RSS 1.0 - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 8. Cây cấu trúc các thành phần của RSS 1.0 (Trang 31)
Hình 9. Cây cấu trúc các thành phần của RSS 2.0 - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 9. Cây cấu trúc các thành phần của RSS 2.0 (Trang 36)
Bảng 1. So sánh RSS 0.9x/2.0 sang RSS 1.0 - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Bảng 1. So sánh RSS 0.9x/2.0 sang RSS 1.0 (Trang 42)
Bảng 2. Sự biến đổi của các thành phần qua các phiên bản RSS - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Bảng 2. Sự biến đổi của các thành phần qua các phiên bản RSS (Trang 43)
Hình 10. Giao diện chính của chương trình - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 10. Giao diện chính của chương trình (Trang 45)
Hình 12. Nội dung tâp tin RSS 2.0 - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 12. Nội dung tâp tin RSS 2.0 (Trang 46)
Hình 13. Kết quả tổng hợp từ trang vnexpress.net, vietnamnet.vn, tuoitre.vn - Ứng dụng semantic web để xây dựng công cụ tổng hợp RSS từ các trang mạng xã hội và lưu trữ dưới dạng RDF
Hình 13. Kết quả tổng hợp từ trang vnexpress.net, vietnamnet.vn, tuoitre.vn (Trang 47)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w