Nghiên cứu về web thế hệ mới, tìm hiểu các vấn đề liên quan web thế hệ mới và thử nghiệm một số ứng dụng tự động thu thập thông tin trên web

Sự phát triển một hệ thống web mới mà nội dung trên được xây dựng cùng với mô tả về ngữ nghĩa, liên kết giữa các dữ liệu với nhau sẽ trở thành nền tảng cho các công nghệ, ứng dụng khác p

Trang 1

-

LƯƠNG XUÂN DIỆU

NGHIÊN CỨU VỀ WEB THẾ HỆ MỚI, TÌM HIỂU

CÁC VẤN ĐỀ LIÊN QUAN WEB THẾ HỆ MỚI VÀ

THỬ NGHIỆM MỘT SỐ ỨNG DỤNG TỰ ĐỘNG

THU THẬP THÔNG TIN TRÊN WEB

CHUYÊN NGÀNH: KĨ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS PHẠM HUY HOÀNG

Trang 2

Lời cảm ơn

Em xin gởi lời cảm ơn chân thành và sự tri ân sâu sắc đối với các thầy cô của trường

Đại học Đại học Bách khoa Hà nội, đặc biệt là các thầy cô Viện Công nghệ thông tin và Truyền thông của trường đã tạo điều kiện cho em thực tập ở viện để có nhiều thời gian cho luận văn tốt

nghiệp Và em cũng xin chân thành cám ơn thầy giáo, Tiến sĩ Phạm Huy Hoàng đã tận tình

hướng dẫn hướng dẫn em trong suốt quá trình hoàn thành tốt luận văn

Trong quá trình thực tập, cũng như là trong quá trình làm bài báo cáo, khó tránh khỏi

sai sót, rất mong các Thầy, Cô bỏ qua Đồng thời do trình độ lý luận cũng như kinh nghiệm

thực tiễn còn hạn chế nên luận văn không thể tránh khỏi những thiếu sót, em rất mong nhận

được ý kiến đóng góp Thầy, Cô để em học thêm được nhiều kinh nghiệm và hoàn thiện được luận văn tốt hơn nữa

Em xin chân thành cảm ơn!

Học viên

Lương Xuân Diệu

Trang 3

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công

bố trong bất kỳ công trình nào khác

Tác giả

Lương Xuân Diệu

Trang 4

Mục lục

1 Lý do chọn đề tài 6

2 Lịch sử nghiên cứu 6

3 Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu 7

4 Tóm tắt các luận điểm cơ bản 8

5 Phương pháp nghiên cứu 8

Chương I: Tổng quan về Web ngữ nghĩa (Senmantic Web) 9

1 Các thế hệ web và sự ra đời của web ngữ nghĩa 9

1.1 Lịch sử phát triển của website 9

1.2 Web dữ liệu (Web of Data) 10

1.3 Những giới hạn của web 2.0, sự ra đời của web 3.0 10

1.4 Lịch sử phát triển của web ngữ nghĩa 12

2 Định nghĩa về web ngữ nghĩa 13

2.1 Định nghĩa 13

2.2 Các thành phần cơ bản của web ngữ nghĩa 14

2.3 Các phiên bản của web ngữ nghĩa 16

2.4 Các ứng dụng nổi bật trên nền tảng web ngữ nghĩa 17

2.5 Adaptive web và Semantic web 20

Chương II: Các thành phần cơ bản của web ngữ nghĩa (Các tầng của Semantic Web) 22 1 URI 22

1.2 Ứng dụng của URI trong Web ngữ nghĩa 23

Trang 5

2 RDF và RDFS 23

2.1 RDF 23

2.1.1 Định nghĩa 23

2.1.3 Các thuộc tính của RDF (property) 28

2.2 RDFS 29

2.2.1 Định nghĩa 29

2.2.2 RDF vs RDFS 32

2.3 RDF Tripple Stores 32

2.4 Ngôn ngữ truy vấn trên RDF: SPARQL 35

3 Web Ontology Language (OWL) 39

3.2 Các thành phần, nội dung cơ bản của OWL 43

3.2.1 Các phiên bản của OWL 43

3.2.3 Syntax 44

3.2.3 Terminology Error! Bookmark not defined. 3.3 RDFS vs OWL 46

4 Một số phương pháp lưu RDF trên Database 47

4.1 Giant triple storage: 47

4.2 ID base triple store: 49

4.3 Quad store: 49

Trang 6

Chương III: Ứng dụng tìm kiếm dữ liệu trên mô hình web ngữ nghĩa 51

1 Mô hình cơ bản các website hiện nay (2.0) 52

2 Các nội dung cơ bản để chuyển từ web 2.0 thành web ngữ nghĩa 53

2.1 Thiết kế cơ sở dữ liệu 53

2.2 Truy vấn dữ liệu 58

2.3 Xuất bản và truy vấn dữ liệu giữa các website 60

3 Ứng dụng tìm kiếm trên web ngữ nghĩa 60

1 Những kết luận mới 63

2 Kiến nghị về việc sử dụng kết quả nghiên cứu 64

Trang 7

MỞ ĐẦU

1 Lý do chọn đề tài

Với sự phát triển mạnh mẽ cả về số lượng và chất lượng của Internet dẫn tới việc gia tăng không ngừng của các nội dung, thông tin trên Internet Internet trở thành một kho từ điển khổng lồ chứa đựng tri thức sâu rộng về mọi vấn đề

Tuy nhiên với công nghệ xây dựng Website hiện nay, việc tìm kiếm chính xác nội dung, thông tin trên Internet ngày càng trở nên khó khăn, tỉ lệ nghịch với sự phát triển mạnh mẽ của hệ thống Web trên thế giới

Sự phát triển một hệ thống web mới mà nội dung trên được xây dựng cùng với

mô tả về ngữ nghĩa, liên kết giữa các dữ liệu với nhau sẽ trở thành nền tảng cho các công nghệ, ứng dụng khác phát triển mạnh mẽ, đáp ứng được nhu cầu ngày một cao của người sử dụng

Đã có nhiều nghiên cứu trong và ngoài nước về việc xây dựng hệ thống website mới, sao cho các hệ thống máy tính có thể hiểu được nội dung của dữ liệu được lưu trữ trên đó Xuất phát từ nhu cầu cần có một nghiên cứu chi tiết, cụ thể về những lý luận

cơ bản của web ngữ nghĩa, cũng như cách thức xây dựng bộ máy tìm kiếm dữ liệu trên

nền tảng web ngữ nghĩa, tôi đã tiến hành thực hiện đề tài: “Nghiên cứu về Web thế hệ

mới, tìm hiểu các vấn đề liên quan Web thế hệ mới và thử nghiệm một số ứng dụng

tự động thu thập thông tin trên web”

2 Lịch sử nghiên cứu

Với sự ra ra đời của web ngữ nghĩa từ đầu những năm 60, các bộ máy tìm kiếm

đi cùng với mô hình web ngữ nghĩa luôn được ưu tiên nghiên cứu và phát triển

Trang 8

Hiện nay đã có nhiều dự án nghiên cứu và ứng dụng các hệ thống tìm kiếm semantic khác nhau được xây dựng Tuy nhiên việc ứng dụng web semantic và tìm kiếm trên web semantic chưa thực sự mạnh mẽ trên thế giới

Cần có sự chuẩn bị và thời gian để chuyển dần việc sử dụng công nghệ web 2.0 sang việc sử dụng công nghê mới để xây dựng web

Một số search engine hiện nay:

3 Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu

Mục đích của đề tài: nghiên cứu về cơ sở lý luận và thực tiễn của web semantic, các thành phần, công nghệ cơ bản được sử dụng trong web semantic

Đưa ra được ưu điểm, và sự khác biệt trong việc sử dụng các công nghệ khác nhau trong việc xây dựng web semantic

Trang 9

Xây dựng được môt hình tìm kiếm semantic đơn giản nhất mô phỏng kết quả nghiên cứu và tính khả thi của mô hình web ngữ nghĩa

Đối tượng nghiên cứu của đề tài: Web ngữ nghĩa, các công nghệ nền tảng xây dựng web ngữ nghĩa, các hệ thống tìm kiếm trên nền tảng web ngữ nghĩa

4 Tóm tắt các luận điểm cơ bản

World Wide Web đã thay đổi cách thức giao tiếp của con người trong nhiều lĩnh vực và Web ngữ nghĩa ra đời là xu thế phát triển trong việc biểu diễn dữ liệu để khắc phục các hạn chế của Web hiện tại và hướng tới một thế hệ Web mới, đáp ứng tốt hơn nhu cầu của con người và các ứng dung

Các ứng dụng được thiết kế dựa trên các khái niệm và sử dụng các thông tin có thể xử lý được bởi máy tính để tạo ra động lức lớn cho việc phát triển của một thế hệ các công cụ và các ứng dụng mới

RDF/RDFS và OWL là các ngôn ngữ được xây dựng và sử dụng trong việc định nghĩa và mô tả dữ liệu trên nền tảng web ngữ nghĩa Cùng với việc sử dụng SPARQL như một ngôn ngữ truy vấn dữ liệu chính cho web ngữ nghĩa Từ đó đã xây dựng nên được các thành phần cơ bản của một web ngữ nghĩa, có thể ứng dụng vào thực tế Hiện nay việc ứng dụng web ngữ nghĩa để xây dựng các ứng dụng ngày càng nhiều như: các thư viện số, các hệ thống quản lý thông tin, các hệ thống tra cứu, tư vấn và hỗ trợ…

5 Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Nghiên cứu các công trình khoa học đã được công bố về web ngữ nghĩa, các bài báo, các bài giảng Tham khảo về các công cụ, ngôn ngữ mới tại World Wide Web Consortium (W3C)

Trang 10

Nội dung Chương I: Tổng quan về Web ngữ nghĩa (Senmantic Web)

1 Các thế hệ web và sự ra đời của web ngữ nghĩa

1.1 Lịch sử phát triển của website

Web site là một một tập hợp các trang web hay cũng có thể chỉ là một site đơn giản, được đặt trên một hoặc nhiều web server Được truy cập thông qua mạng Internet hoặc mạng LAN bởi một địa chỉ của website được gọi là URL (Uniform resource location)

Thế hệ Website đầu tiên (web tĩnh – Static web) chỉ là một trang text đơn giản, kết hợp với ngôn ngữ đánh dấu (HTML) và CSS Loại web này chỉ đơn giản thể hiện thông tin đã được xây dựng sẵn, và không có sự tương tác với người dùng Nó có thể chứa được hình ảnh, âm thanh, video, nhưng tất cả đều đã được xác định sẵn, không thể thay đổi theo yêu cầu của người dùng

Thế hệ Website thứ 2 (web động – dynamic web) được phát triển từ nền tảng static web (HTML, CSS) cùng với việc sử dụng các công nghệ theo mô hình Client - Server như CGI, Java Servlet, JSP, ASP…đã tạo nên một hệ thống web động Có khả năng tương tác, thay đổi nội dung, dữ liệu theo yêu cầu của người sử dụng

Với sự ra đời ngày càng nhiều về số lượng và ngày càng tăng về chất lượng, nội dung, đã khiến cho hệ thống web trên toàn thế giới trở thành một kho thông tin khổng

lồ, chứa đựng thông tin về mọi mặt của cuộc sống

Tuy nhiên từ đó nảy sinh một yêu cầu tất yếu, đó là việc tìm kiếm thông tin trong kho tri thức khổng lồ đó Với bản chất của web là một tập hợp các nội dung cùng với ngôn ngữ đánh dấu (HTML) và ngôn ngữ định dạng (CSS) việc tìm kiếm thông tin

Trang 11

thống web mà trên đó thông tin có thể được “hiểu” được mang ý nghĩa, khi đó việc tìm kiếm thông tin sẽ quy về việc tìm kiếm theo nghĩa của nội dung thay vì tìm kiếm bằng

từ vựng

1.2 Web dữ liệu (Web of Data)

Ta có thể hiểu web động chỉ là là một tập hợp thông tin được biểu diễn, thể hiện

và liên kết với nhau mà không hề có ý nghĩa, vì vậy để có thể thay thế việc tìm kiếm bằng từ vựng, ta cần thêm vào thông tin đó một phần “nghĩa” của thông tin Phần nghĩa này sẽ giúp cho các hệ thống máy tính có thể “hiểu” được nội dung của thông tin, làm cho việc tìm kiếm thông tin sát với yêu cầu người người dùng

Việc xây dựng một hệ thống web site chứa đựng thông tin đi cùng với phần mô

tả nội dung, ý nghĩa của nó đã tạo nên một hệ thống web mới, chứa đựng thông tin có thể được tìm kiếm, truy xuất theo nghĩa của thông tin, theo từ chủ đề, chuyên mục riêng

Tuy nhiên, với bản chất của hệ thống web động (2.0) hiện tại, thì việc đưa thêm một phần thông tin để mô tả ý nghĩa của thông tin thì gần như không thể thực hiện được Vì vậy việc phát triển, ra đời của một thế hệ web mới là tất yếu

1.3 Những giới hạn của web 2.0, sự ra đời của web 3.0

Từ sự phát triển của website, từ web tĩnh tới web động; việc biểu diễn thông tin trên web đều thông qua việc sử dụng ngôn ngữ đánh dấu (HTML), kết hợp cùng với việc sử dụng liên kết giữa các nội dung, tạo nên một hệ thống website

Tuy nhiên hệ thống website được tăng lên hàng giờ thì việc liên kết giữa các nội dung, các thông tin đó trở nên rối rắm, phức tạp, không có khả năng khai thác Các bộ máy tìm kiếm (search engine) hiện nay đều được xây dựng trên cơ sở sử dụng từ vựng

Trang 12

hệ thống thông tin vô cùng lớn, có nhiều nội dung đồng âm nhưng khác nghĩa, thông tin không được phân chia thành các hệ thống, các chuyên mục riêng biệt

Ví dụ ta tìm kiếm thông tin về một loài động vật (Jaguar) trên Google, sẽ nhận được các thông tin khác nhau có cùng âm là jaguar như vậy

Tuy nhiên nội dung ta muốn tìm thì lại không được tìm thấy, hoặc có tìm thấy thì nội dung rất ít, sơ sài; không được ưu tiên

Xuất phát từ ý tưởng đó, việc xây dựng một hệ thống website mới (web 3.0) đã

ra đời Việc đưa thêm ý nghĩa, ngữ nghĩa cho thông tin lên web, sẽ giúp cho bộ máy tìm kiếm hiểu được ý nghĩa của từ thông tin, giúp cho việc liên kết giữa các thông tin được chính xác, đầy đủ; việc tìm kiếm của bộ máy tìm kiếm sẽ chính xác hơn Khi đó

Trang 13

việc tìm kiếm sẽ không dựa chỉ dựa vào từ vựng, mà thêm vào đó sẽ được tìm kiếm theo ý nghĩa của thông tin

1.4 Lịch sử phát triển của web ngữ nghĩa

Định nghĩa về Semantic Network Model đã được xây dựng vào đầu những năm

1960 bởi Allan M Collins, M Ross Quillian và Elizabeth F Loftus như một các biểu diễn có cấu trúc của tri thức Đây là sự mở rộng của hệ thống các liên kết trên website bằng cách thêm vào đó các thông tin Metadata chưa đựng thông tin về nội dung chính của website cũng như cách nó liên kết tới các website khác Khi đó bộ máy tìm kiếm sẽ

tự động thu thập thông tin trong Metadata này để tăng độ chính xác và hiệu quả trong việc tìm kiếm

Thuật ngữ Web ngữ nghĩa (Senmantic Web) được đề xuất bởi Tim Berners Lee

Trang 14

sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn Mục tiêu của web ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên web, sao cho chúng có thể hỗ trợ tốt hơn cho việc tìm kiếm thông tin, tích hợp dữ liệu và tự động hóa

2 Định nghĩa về web ngữ nghĩa

2.1 Định nghĩa

Web ngữ nghĩa là một phương pháp cho phép định nghĩa là liên kết dữ liệu một cách có nghĩa nhằm mục đích phục vụ cho máy tính có thể hiểu được nội dung của thông tin, dữ liệu Web ngữ nghĩa còn cung cấp một môi trường chia sử và xử lý dữ liệu tự động bằng hệ thống máy tính

Tim Berners – Lee đã đư ra hai vấn đề chính của web ngữ nghĩa, đó là tạo cho web một môi trường trong đó có sự tương tác giữa các web với nhau, thứ hai là máy tính có thể hiểu được các thông tin, dữ liệu trên website

Khi đó, thay vì việc phải được ra phương pháp xử lý dữ liệu mới, ta sẽ đưa ra một phương pháp xây dựng dữ liệu mới, có cấu trúc, có ngữ nghĩa

Trang 15

2.2 Các thành phần cơ bản của web ngữ nghĩa

Web ngữ nghĩa được xây dựng trên nền tảng hệ thống web hiện tại; nó được coi là sự

mở rộng, bổ xung thêm ngữ nghĩa vào các dữ liệu đã có trên web

Các thành phần cơ bản, kiến trúc của web ngữ nghĩa gồm có các thành phần cơ bản:

- Các URI (resource uniform identifier)

- Sử dụng bảng mã chuẩn unicode: đây là bảng mã chuẩn chung có đầy đủ các ký

tự để thống nhất giao tiếp giữa tất cả các quốc gia, đáp ứng tính toàn cầu hóa của web

- Sử dụng XML để đánh dấu, lưu trữ dữ liệu, tuy nhiên hiện nay XML không còn

Trang 16

- XML Schema là ngôn ngữ hỗ trợ cho việc giải quyết các hạn chế về mặt cấu trúc và nội dung được chưa trong file XML

- RDF: Ngôn ngữ đơn giản để mô tả mô hình dữ liệu, nó mô tả các đối tượng và mối liên hệ giữa các đối tượng RDF có thể được sử dụng dưới nhiều kiểu cú pháp khác nhau như: RDF/XMl, N3, Turtle và RDFa RDF được coi là nền tảng của web ngữ nghĩa

- RDF Schema là sử mở rộng của RDF: nó mô tả các thuộc tính và các lớp của tài nguyên dưới được viết dưới dạng RDF

- OWL: mở rộng thêm tập từ khóa để mô tả dữ liệu và các lớp, mối liên hệ giữa các lớp

- SPARQL: Giao thức và ngôn ngữ truy vấn cho dữ liệu của web ngữ nghĩa

- RIF: chuẩn giao thức của W3C, sử dụng ngôn ngữ XML để mô tả các luật của web để máy tính cả thể hiểu được

- Unifying logic: Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng Ontology có mục đích là để máy có thể lập luận được Mà cơ sở lập luận chủ yếu dựa vào logic, chính vì vậy việc sử dụng logic trong web ngữ nghĩa là để hỗ trợ cho việc mô tả dữ liệu một cách có logic

- Proof: Cung cấp các luật để phát biểu các suy luận logic, từ các thông tin đã có,

ta có thể suy ra các thông tin mới

- Trust: Đảm bảo tính tin cây của các ứng dụng trên web nghữ nghĩa Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế, các mệnh đề trên có thể nằm trong các ngữ cảnh khác nhau, khi đó ngữ nghĩa tương ứng khác nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó Để có được sự chứng minh về độ tin cậy thì các lập luận được áp dụng là không đơn điều và có các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ kí điện tử

để xác nhận độ tin cậy

Trang 17

2.3 Các phiên bản của web ngữ nghĩa

Trong quá trình phát triển của web ngữ nghĩa, đã xuất hiện một số định nghĩa mới, các mô hình website mới, vừa là bước đệm cho sự phát triển, vừa là bổ sung cho

mô hình web ngữ nghĩa

Linked Data: là hệ thống các dữ liệu được liên kết một cách có cấu trúc với nhau, tạo nên một hệ thống siêu dữ liệu Được xây dựng trên các công nghệ web cơ bản: HTTP, RDF và URIs; nhưng nó không chỉ phục vụ cho việc hiển thị trên web browser cho người dùng có thể xem, nó còn có thể được tự động tìm kiếm, đọc bởi các

hệ thống máy tính Điều này cho phép dữ liệu ở các nguồn khác nhau có thể liên kết và truy vấn

Trang 18

2.4 Các ứng dụng nổi bật trên nền tảng web ngữ nghĩa

Trên nền tảng web ngữ nghĩa, có rất nhiều ứng dụng có thể triển khai; mặc dù nhiều ứng dụng đã xuất hiện và phát triển trên nền tàng web 2.0, tuy nhiên chỉ có trên nền tảng web 3.0 thì các ứng dụng đó mới thực sử trở nên mạnh mẽ, thể hiện được hết

ưu điểm của nó

Ngay bản thân hệ thống Linked data cũng được coi như là một ứng dụng trên nền tảng web ngữ nghĩa

Ngoài ra các bộ máy tìm kiếm trên nên tảng web ngữ nghĩa cũng được ưu tiên nghiên cứu và phát triển Tuy nhiên trên nền tảng web ngữ nghĩa, việc tìm kiếm sẽ dựa trên ngữ nghĩa thay vì từ khóa như ở thế hệ web cũ Với bộ máy tìm kiếm (search engine) trên web ngữ nghĩa có thể được phát triển theo nhiều hướng, mô hình khác nhau:

- Document retrieval (text retrieval): cách tìm kiếm trên các bản ghi văn bản (free-text) Khi đó các văn bản có thể là bất kì loại văn bản nào, nhưng thường là các vản bản phi cấu trúc như: các bài báo, bài luận…Nội dung truy vấn có thể là một vài từ khóa hoặc

có thể là một vài câu với mô tả chi tiết về nội dung cần tìm kiếm

- Fact Retrieval: Ứng dụng trong các hệ thống trợ giúp tự động, người dùng sẽ sử dụng các câu hỏi thực tế, hệ thống sẽ trả về một loạt các thông tin có liên quan

Trang 19

- Exploratory Search: đây là một cách tìm kiếm đặc biệt, kết quả được trả về bảo gồm nhiều thông tin khác nhau, có liên quan hoặc không liên quan tới nội dung tìm kiếm, có các đặc điểm như sau:

+ Không liên quan tới nội dung, hoặc chủ đều cần tìm kiếm

+ Không chắc chắn về cách để tìm được kết quả

+ Hoặc không chắc chắn ngay ở mục tiêu tìm kiếm

Trang 20

- Inteligent Agents (tác tử thông minh) : ứng dụng này đã xuất hiện và được khai thác trên nền tảng web cũ, tuy nhiên việc tương tác và sử dụng của người dùng và hệ thống đơn thuần chỉ là một chiều, và nhỏ hẹp Khi được ứng dụng trên nền tảng web ngữ nghĩa, việc tương tác giữa người dùng và hệ thống sẽ là 2 chiều và giữa nhiều ứng dụng, hệ thống, thiết bị khác nhau

Trang 21

Các Web Service: Tích hợp web ngữ nghĩa vào các ứng dụng thường được sử dụng (thư điện tử, web browser…) để cung cấp nhiều hơn tính hoạt động liên tục trên web cũng như các ứng dung Ứng dụng web ngữ nghĩa vào thương mại điện tử, đặc biệt là các nghiên cứu liên quan đến quản lý tiến trình nghiệp vụ (Business Process Managerment) trong thương mại điện tử và B2B (Business to Businees) Đây là một trong những ứng dụng mới của web ngữ nghĩ nhằm làm giàu ngữ nghĩa cho các tiến trình nghiệp vụ trong môi trường công tác doanh nghiệp

2.5 Adaptive web và Semantic web

Trong quá trình nghiên cứu phát triển thế hệ website mới 3.0, nhiều phương pháp nghiên cứu đã được nêu ra, trong đó có nghiên cứu về Adaptive web

Trang 22

Mục đích của Adaptive web là nhằm mục đích đưa ra các thông tin định hướng cho người sử dụng Các thông tin được đưa ra vừa nhằm mục đích gợi ý cho người dùng, các thông tin có liên quan tới nội dung đang được quan tâm

Nói một cách khác, việc sử dụng Exploratory Search trên nền tảng web ngữ nghĩa cũng chính là một hình thức gợi ý cho người sử dụng các tài liệu, dữ liệu tương tự

Ngoài ra, việc đưa ngữ nghĩa vào dữ liệu, sẽ khiến cho việc tìm kiếm thông tin trên web sẽ có tính logic hơn, cung cấp được các thông tin cần thiết cho người dùng mà không cần có sự tác động, hoặc yêu cầu từ phía người sử dụng

Trang 23

Chương II: Các thành phần cơ bản của web ngữ nghĩa (Các tầng của Semantic Web)

1 URI

1.1 Định nghĩa

URI là một chuỗi các kí tự dùng để xác định tên của một tài nguyên trên web Cho phép xác định địa chỉ cụ thể biển diễn các tài nguyên web thông qua một mạng (thường là World Wide Web) và sử dụng những giao thức đặc biệt Các URI được xây dựng theo một cú pháp xác định

Cú pháp của URI được tuân theo cấu trúc như sau:

Trong đó:

- Scheme name: là một chuỗi liên tiếp các kí tự được bắt đàu bởi một một chữ cái và tiếp theo là một chuỗi kết hợp của chữ, số, dấu + , dấu “.” hoặc dấu “-“ Mặc đù shemes là case-insensitive, nhưng URI thường được để ở dạng chữ hường, và kết thúc bằng dấu “:”

Trang 24

- path: đường dẫn tới file của máy chủ WWW

- query: biến được truyền vào ứng dụng để lấy ra kết quả

- fragment: xác định một phần nhỏ để lấy ra của tài nguyên

1.2 Ứng dụng của URI trong Web ngữ nghĩa

URI là một trong những thành phần cơ bản, cấu thành nên web ngữ nghĩa Có thể nói, nó là định nghĩa cho tất cả các đối tượng, thành phần, tài nguyên có trong web ngữ nghĩa nói riêng, và cho mọi thứ nói chung

Việc sử dụng URI sẽ tránh được sự chồng chéo trong việc định nghĩa, xác định tài nguyên Cho phép đặt nhiều tài nguyên, văn bản tại cùng một chỗ

- Được xây dựng dựa trên nền tảng cơ bản của web: URI, HTTP, XML…dựa trên mô hình chuẩn của web ngữ nghĩa Định nghĩa tất cả những mối liên hệ có khả năng giữa các tài nguyên

RDF là một tập hợp các nguyên tắc dành cho ngôn ngữ đánh dấu Nó cho phép sự

Trang 25

thể hiểu được nội dung, có thể đáp ứng cho các ứng dụng tự động xử lý thông tin, dữ liệu

RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao cho các hệ thống độc lập có thể trao đổi, chia sử và sử dụng chung Đồng thời, nó được thiết kế sao cho

hệ thống máy tính có thể hiệu được và đọc được thông tin, chứ không chỉ nhằm mục đích biển diễn dữ liệu cho người dùng

Cú pháp của RDF dựa trên mô hình dữ liệu, mô hình này ảnh hưởng tới cách mô tả các thuộc tính và nó làm cho cấu trúc của những mô tả đó trở nên rõ ràng Điều này giúp cho RDF phù hợp cho việc mô tả tài nguyên trên Web

Trang 26

Tri thức được biểu diễn trong RDF là một loạt các câu phát biểu về tài nguyên, tất cả các câu phát biểu trong RDF đều tuân theo một chuẩn đơn giản

Ví dụ:

Harald Sack has phone number ++49 (331) 5509-927

Trong đó:

Harald Sack : Chủ ngữ (Subject): có thể được định nghĩa, tìm thông qua URI

has phone number : Thuộc tính (property): Thuộc tính cần môt tả của Subject

Trang 27

khóa học, hay là những module đóng gói trong phần mềm…RDF cung cấp nhiều loại

và nhiều thuộc tính tích hợp sẵn giúp chúng ta mô tả được các nhóm như vậy Tuy nhiên, RDF cũng cung cấp một kiểu khai báo là Container dùng để lưu danh sách các tài nguyên hoặc các kiểu giá trị (chuỗi kí tự, số…) Các thành phần của một Container

có thể là các tài nguyên (gồm các nút rỗng) hay các Literal

Có 3 loại Containner: Bag, Sequence và Alternate

Bag là một danh sách những tài nguyên hay những Literal không thứ tự Bag được dùng để khai báo một thuộc tính có nhiều giá trị và giá trị đó không quan trọng về thứ tự xuất hiện Bag cũng có thể được dùng để tạo ra một danh sách những số mà thứ

tự xử lý những thành phần không quan trọng Những giá trị giống nhau có thể sử dụng trong Bag

Sequence: là một lớp con của Container, chức năng của Sequence tương tự như của Bag, nhưng thay vì lưu trữ các thành phần quan tâm tới thứ tự, thì đối với các thành phần cần phải được lưu trữ theo thứ tự, ta sẽ sử dụng Sequence

Alternate: là lớp con của Container: cũng tương tự như Bag và Sequence, nhưng được sử dụng khi muốn lựa chọn một thành phần trong các thành phần của container Thành phần đầu tiên là lựa chọn mặc định

Trang 28

RDF Collection : Dùng để định nghĩa ra những tập hợp nhiều đối tượng nhưng

là mộ tập hợp đóng hay một nhóm hữu hạn các phần tử Cấu trúc của RDF Conllection tương tự như mộ danh sách, có phần tử đầu, phần tử giữa và phần tử cuối RDF cung cấp một cách xác định để mô tả một tập hợp, bằng cách sử dụng một thuộc tính có attribute là rdf:parseType = “Collection”

Trang 29

2.1.3 Các thuộc tính của RDF (property)

rdf:type Là một thành phần của Property được dùng để khai báo một tài

nguyên thuộc vào một lớp

rdf:first Thành phần đầu tiên của một Subject RDF List

rdf:rest Tất cả các thành phần còn lại của RDF list sau rdf:first

rdf:value Được sử dụng cho các các giá trị có cấu trúc

rdf:subject Subject của phát biểu

rdf:predicate Predicate của phát biểu

rdf:object Object của phát biểu

Trang 30

2.2 RDFS

2.2.1 Định nghĩa

RDFS: Resource Description Framework Schema được xem như là sử mở rộng của RDF Cung cấp một hệ thống cơ bản được dùng trong mộ thình RDF Nó định nghĩa tài nguyên và những thuộc tính của tài nguyên để xác định những thông tin chuyên biệt về ứng dụng

Cung cấp thông tin về sử giải thích của những phát biểu trong một mô hình dữ liệu RDF và nó cũng xác định những ràng buộc nên được dùng trong những mô hình

dữ liệu RDFS cung cấp một khung để mô tả các lớp, thuộc tính của ứng dụng cụ thể Các lớp trong RDFS giống như các lớp trong lập trình hướng đối tượng, cho phép các tài nguyên được định nghĩa như là một thực thể của lớp, lớp con của lớp

rdfs:Resource Lớp của tài nguyên (tất cả mọi thứ)

Trang 31

rdfs:Class Lớp của các lớp

rdfs:ContainerMembershipProperty Lớp thuộc tính của các thành viên thành

viên

Các tài nguyên được chia thành các các nhóm được gọi là các class; các thành viên của nhóm được xem như là thể hiện của lớp đó Thông qua các định danh URI, các tài nguyên được truy xuất có thể được mô tả bằng các RDF Property RDFS cung cấp một bộ từ vựng để mô tả làm thế nào mà các thuộc tính và các lớp có thể sử dụng cùng nhau trong RDF

Rdfs:Resource: Tất cả mọi thứ mô tả bởi RDF được gọi là tài nguyên, và là những thể hiện của lớp rdfs:Resource Đây là lớp của mọi thứ, tất cả những lớp khác là lớp con của lớp này, rdfs:Resource là một thể hiện của rdfs:Class

Rdfs:Property: là lớp của những thuộc tính RDF, là một thể hiện của rdfs:Class

Rdfs:Class: Khi một Schema định nghĩa dưới một lớp mới, thì tài nguyên thể hiện rằng lớp đó phải có một thuộc tính rdf:type mà giá trị của nó là tài nguyên rdfs:class Những lớp RDF có thể được định nghĩa để biểu diễn hầu hết mọi thứ, như những trang web, loại tài liệu, các cơ sở dữ liệu hay những khái niệm trừ tượng

Rdfs:Literal: là lớp của những giá trị literal như chuỗi số và số nguyên Giá trị thuộc tính như chuỗi văn bản là những ví dụ của Literal RDF Những Literal RDF có thể là Plain Literal hay Typed Literal Một Typed Literal là một thể hiện của một lớp datatype Đặc tả này không định nghĩa lớp của Plain Literial Rdfs:Literal là một thể

Trang 32

rdfs:subClassOf Subject là lớp con của một lớp

rdfs:subPropertyOf Subject là thuộc tính con của một thuộc

tính

rdfs:domain Domain của một Subject

rdfs:range Range của một Subject

rdfs:label Nhãn của Subject (Có thể hiểu được bởi

con người)

rdfs:comment Mô tả về Subject

rdfs:member Thành viên của Subject

rdfs:seeAlso Thông tin tra cứu thê về Subject

rdfs:isDefinedBy Định nghĩa về Subject

Rdfs:Type: Là thể hiện của rdf:Property và được dùng để chỉ một tài nguyên là thể hiện của một lớp

Rfds:subClassOf: thuộc tính này mô tả lớp này là một thể hiện của lớp khác

Rdfs:subPropertyOF: Thuộc tính này là thể hiện của rdf:Property nó chỉ ra rằng tất cả những tài nguyên quan hệ bởi mộ thuộc tính thì cũng quan hệ bởi thuộc tính khác

Rdfs:Range: Là một thể hiện của rdf:Property, chúng được dùng để chỉ rõ ràng giá trị của một thuộc tính là một thể hiện của một hay nhiều hơn một lớp

Rdfs:Domain: Là một thể hiện của rdf:Property và chúng được dùng để chỉ rằng bất kỳ tài nguyên nào có một thuộc tính đã cho là một thể hiện của một hay nhiều hơn

Trang 33

Subject: Thành phần này xác định tài nguyên mà phát biểu nói tới được gọi là chủ ngữ

Predicate: Thành phần này xác định thuộc tính hay những đặc trưng của chủ ngữ của phát biểu xác định, được gọi là vị từ

Object: Thành phần này xác định giá trị của thuộc tính, được gọi là tân ngữ

Đồ thị RDF (RDF graph): Mô hình cơ bản của RDF gồm ba bộ phận: Tài nguyên (resource) là tất cả những gì được mô tả bằng phát biểu RDF (RDF Statement), Thuộc tính (property) là đặc tính hay quan hệ mô tả tính chất tài nguyên và phát biểu (statements) Mỗi phát biểu gồm ba thành phần: Subject (chủ thể): Địa chỉ hay vị trí tài nguyên muốn mô tả, predicate (thuộc tính): xác định tính chất của tài nguyên và object

Định dạng
Số trang	66
Dung lượng	2,22 MB