Ứng dụng semantic web để xây dựng hệ thống tra cứu cá rạn san hô ở biển việt nam

C ác số liệu tham khảo khác sử dụng trong nghiên cứu này thuộc về bản quyền của các tác giả và được trích dẫn một cách rõ ràng, minh bạch.. Việc sử dụng các trang thông tin trên thế giới

Trang 1

BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

VŨ THẾ THẢO

ỨNG DỤNG SEMANTIC WEB XÂY DỰNG HỆ THỐNG TRA CỨU CÁ RẠN SAN HÔ

Ở BIỂN VIỆT NAM

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT

HẢI PHÒNG, 2016

Trang 2

BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

VŨ THẾ THẢO

ỨNG DỤNG SEMANTIC WEB XÂY DỰNG HỆ THỐNG TRA CỨU CÁ RẠN SAN HÔ

Ở BIỂN VIỆT NAM

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TINNgười hướng dẫn khoa học: TS Trần Thị Hương

HẢI PHÒNG, 2016

Trang 3

LỜI CAM ĐOAN

Tôi: Vũ Thế Thảo, học viên cao học lớp CNTT 2014_1, chuyên ngành Công nghệ Thông tin, khoá học 2014-2016, Trường Đại học Hàng Hải Việt Nam xin cam đoan: Các nội dung trong Luận văn Thạc sĩ này là do tự bản thân tôi làm ra trên cơ sở các tài liệu, số liệu khảo sát thực tế do chính bản thân tôi thu thập C ác số liệu tham khảo khác sử dụng trong nghiên cứu này thuộc về bản quyền của các tác giả và được trích dẫn một cách rõ ràng, minh bạch.

Người cam đoan

Vũ Thế Thảo

Trang 4

LỜI CẢM ƠN

Hoàn thành Luận văn Thạc sĩ này, trước hết tôi xin bày tỏ lòng biết ơn sâusắc tới TS Trần Thị Hương, người hướng dẫn khoa học đã tận tình hướng dẫn vàgiúp đỡ tôi trong suốt thời gian thực hiện Luận văn

Nhân dịp này tôi xin bày tỏ lòng biết ơn đến các thầy cô Phòng đào tạo Sauđại học trường Đại học Hàng Hải Việt Nam, Viện Nghiên cứu Hải sản đã giúp đỡtôi trong suốt thời gian học tập và hoàn thành Luận văn Thạc sĩ này

Tôi cũng xin gửi lời cảm ơn chân thành nhất đến các ông chủ nhiệm đề tài,

dự án: ThS Lại Duy Phương và các tác giả các bài báo khoa học… đã cho phép tôi

sử dụng nguồn tư liệu để viết Luận văn Trong quá trình thực hiện và hoàn thànhLuận văn, tôi đã nhận được sự giúp đỡ và động viên của Lãnh đạo Phòng Tổ chức,Hành chính, Viện Nghiên cứu Hải sản, đã tạo mọi điều kiện giúp đỡ tôi trong quátrình thu thập tư liệu tại và xử lý số liệu

Cuối cùng tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp chính là nguồn độngviên, khích lệ vô giá đã đi cùng tôi trong suốt những năm tháng phấn đấu, rènluyện để có được sản phẩm khoa học này

Hải Phòng, ngày tháng năm 2016

Học viên

Vũ Thế Thảo

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

BẢNG CHÚ GIẢI CHỮ VIẾT TẮT vi

DANH MỤC BẢNG vii

DANH MỤC HÌNH viii

MỞ ĐẦU 1

CHƯƠNG I TỔNG QUAN LÝ THUYẾT VỀ SEMANTIC WEB 4

1.1 Semantic web – web 3.0 4

1.1.1 Công nghệ web qua các thời kỳ 4

1.1.2 Hạn chế của web thế hệ đầu và sự ra đời của semantic web 4

1.1.3 Khái niện và lợi ích của semantic web 5

1.1.4 Kiến trúc phân tầng của semmantic web 6

1.2 Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài trong nước và quốc tế 8

1.2.1 Nghiên cứu ứng dụng của semantic web trong nước 8

1.2.2 Nghiên cứu ứng dụng của semantic web quốc tế 9

1.3 Các công cụ và công nghệ liên quan đến semantic web 10

1.3.1 RDF, RDFS nền tảng của Web ngữ nghĩa 11

1.3.2 ONTOLOGY 21

1.3.3 SPARQL ngôn ngữ truy vấn trên dữ liệu Web ngữ nghĩa 23

CHƯƠNG II CÁ RẠN SAN HÔ Ở BIỂN VIỆT NAM VÀ GIẢI PHÁP XÂY DỰNG ỨNG DỤNG TRA CỨU BẰNG SEMANTIC WEB 29

2.1 Cá rạn san hô, nhu cầu và hiện trạng tra cứu 29

Trang 6

2.1.2 Các thuật ngữ, mô tả đặc điểm hình thái của cá 30

2.1.3 Thông tin chi tiết mô tả về một loài cá rạn san hô ở biển Việt Nam 31

2.1.4 Nhu cầu tra cứu thông tin cá rạn san hô ở biển Việt Nam 33

2.1.5 Hiện trạng hệ thống tra cứu cá rạn san hô ở biển Việt Nam 34

2.2 Giải pháp xây dựng ứng dụng tra cứu cá rạn bằng semantic web 35

2.2.1 Yêu cầu với hệ thống 35

2.2.2 Mô hình tổng thể của ứng dụng 35

2.3 Biểu đồ Ca sử dụng của ứng dụng 36

2.4 Sơ đồ hoạt động của Ca sử dụng 37

2.5 Ngôn ngữ và các công cụ xây dựng 40

2.5.1 Ngôn ngữ thiết kế Web 40

2.5.2 Thư viện mã nguồn mở 40

2.5.3 Phần mềm xây dựng ontology 42

CHƯƠNG III XÂY DỰNG HỆ THỐNG TRA CỨU CÁ RẠN SAN HÔ Ở BIỂN VIỆT NAM 44

3.1 Quy trình xây dựng ứng dụng 44

3.2 Tổng hợp nguồn dữ liệu 44

3.3 Xây dựng Ontology 44

3.4 Cài đặt phát triển hệ thống 56

3.5 Chương trình thử nghiệm, kết quả và đánh giá 56

3.5.1 Thiết lập kết nối chương trình 56

3.5.2 Giao diện trang chủ của chương trình 57

3.5.3 Giao diện hiển thị kết quả tìm kiếm 57

3.5.4 Giao diện hiển thị chi tiết đối tượng 58

3.6 Đánh giá kết quả của hệ thống 58

KẾT LUẬN VÀ ĐỀ XUẤT 59

Trang 8

3 HTTP Hyper Text Transfer Protocol

12 NN & PTNT Nông nghiệp và Phát triển Nông thôn

DANH MỤC BẢNG Bảng 1.1 Mô hình cơ bản của RDF 11 Bảng 1.2 Cú pháp cơ bản của RDF 15

Trang 9

Bảng 3 Mối quan hệ của các lớp và mô tả thuộc tính 51

DANH MỤC HÌNH Hình 1.1 So sách giữa Web 1.0, Web 2.0 và Web 3.0 5 Hình 1.2 Kiến trúc phân tầng Semantic Web qua các thời kỳ 6 Hình 1.3 Trang thông tin semantic web VN-KIM 8

Trang 10

Hình 1.4 Trang tìm kiếm Swoogle Semantic Web Search Engine 9

Hình 1.5 Trang tìm kiếm Falcons 9

Hình 1.6 Trang tìm kiếm Swse 10

Hình 1.7 Trang tìm kiếm Watson 10

Hình 1.8 Mối quan hệ giữa các thành phần trong một bộ ba 12

Hình 1.9 Đồ thị RDF đơn giản 12

Hình 1.10 Minh họa kiểu Plain Literal 13

Hình 1.11 Kiểu Typed Literal biểu diễn tuổi 14

Hình 1.12 Mô tả một Bag Container đơn giản 17

Hình 1.13 Mô tả một Alt Container đơn giản 17

Hình 1.14 Mô tả một RDF Collection 18

Hình 1.15 Các lớp và các thuộc tính 20

Hình 1.16 Những ràng buộc trong RDFS 21

Hình 2.1 Các loại vảy thông thường và hình dạng, độ nhô của miệng 30

Hình 2.2 Các số đo hình thái thông thường 31

Hình 2.3 Các thuật ngữ chỉ bộ phận trên cơ thể cá 31

Hình 2.4 Hình dạng đại diện họ cá sơn đá Holocentridae 32

Hình 2.5 Cá sơn đá răng đôi 33

Hình 2.6 Bản đồ nơi khảo sát, phát hiện phân bố cá rạn san hô tại biển VN 33 Hình 2.7 Kết quả tìm kiếm cá nóc hòm trên Google 34

Hình 2.8 Mô hình tổng thể của ứng dụng 35

Hình 2.9 Biểu đồ Ca sử dụng của admin 36

Hình 2.10 Biểu đồ Ca sử dụng của user 37

Hình 2.11 Sơ đồ hoạt động mô tả chức năng tìm kiếm thông tin 37

Trang 11

Hình 2.12 Sơ đồ hoạt động mô tả chức năng thêm đối tượng 38

Hình 2.13 Sơ đồ hoạt động mô tả chức năng sửa đối tượng 39

Hình 2.14 Sơ đồ hoạt động mô tả chức năng xóa đối tượng 39

Hình 2.15 Giao diện Protégé 4.1 43

Hình 3.1 Mô tả miền và phạm vi của ontology 45

Hình 3.2 Cấu trúc phân lớp cá rạn 46

Hình 3.3 Cấu trúc phân lớp biển đảo 47

Hình 3.4 Cấu trúc phân lớp san hô 47

Hình 3.5 Cấu trúc phân lớp phân bố 48

Hình 3.6 Cấu trúc phân lớp tài nguyên 49

Hình 3.7 Cấu trúc lớp (Classes) trong ontology 49

Hình 3.8 Cấu trúc phân lớp (ontograf) trong ontology 50

Hình 3.9 Các thuộc tính dữ liệu của Data Properies 50

Hình 3.10 Các thuộc tính quan hệ của ontology ontology 51

Hình 3.11 thống kê số lượng lớp và thực thể trong ontology metrics 54

Hình 3.12 Giao diện trang chủ hệ thống 57

Hình 3.13 Giao diện hiển thị kết quả tìm kiếm 57

Hình 3.14 Giao diện hiển thị kết quả tìm kiếm 58

Trang 12

MỞ ĐẦU

1 Cơ sở khoa học, ý nghĩa thực tiễn của đề tài.

Cá rạn san hô được biết đến như là “Nhóm cá có đời sống gắn liền với các sinh cảnh của rạn hoặc một phần trong vòng đời có đời sống liên quan tới rạn san hô” Cá rạn là một trong số ít các nhóm sinh vật biển có ý nghĩa khoa học, sinh

thái và giá trị kinh tế quan trọng sống trong hệ sinh thái rạn Nhiều nhóm cá rạnsan hô có giá trị kinh tế cao đã và đang mang lại nguồn thu nhập đáng kể cho hàngtriệu ngư dân ven đảo, đặc biệt là các các quốc gia có biển đảo như Việt Nam,Srilanka, Indonesia, Philippin v.v

Nhu cầu sử dụng tra cứu các loài cá rạn san hô điển hình, thường gặp ở biểnViệt Nam cho việc nghiên cứu khoa học, giảng dạy, quản lý nguồn lợi trong cácKhu bảo tồn biển, tham quan du lịch sinh thái bằng tàu đáy kính, lặn trong cácvùng rạn san hô là rất lớn Tuy nhiên, cho tới nay việc việc số hóa cho riêng cácloài cá rạn đặc trưng, thường gặp ở biển Việt Nam vẫn chưa được thực hiện Việc

sử dụng các trang thông tin trên thế giới (thường xây dựng cho khu hệ cá rạn ởnhiều vùng biển khác nhau trong khu vực và trên thế giới) và ở Việt Nam chỉ dừnglại một số tập atlas, sách còn rất nhiều hạn chế, chưa phát huy được hiệu quả sửdụng

Với sự bùng nổ Công nghệ thông tin, đặc biệt là sự ra đời của Web ngữ nghĩa(Sematic Web hay Web 3.0) đã tiến thêm một bước tiến mới trong ngành côngnghệ Web, chúng ta không những nhận được các thông tin chính xác hơn khi tìmkiếm từ máy tính, mà máy tính còn có thể tích hợp thông tin từ nhiều nguồn khácnhau, biết so sánh các thông tin với nhau hay có thể kết hợp các thông tin đã được

mô tả giàu ngữ nghĩa với bất kì nguồn dữ liệu nào

Nhằm từng bước tạo điều kiện thuận lợi cho các nhà nghiên cứu về ngư loạihọc, nguồn lợi khu hệ cá rạn san hô biển Việt Nam cũng như phục vụ công tác

quản lý, giảng dạy, nuôi cá cảnh biển v.v Việc nghiên cứu chọn đề tài: “Ứng

dụng Semantic web xây dựng hệ thống tra cứu cá rạn san hô ở biển Việt Nam”

là thực sự cần thiết

Trang 13

2 Mục đích của đề đề:

Mục tiêu chung là: “Ứng dụng Semantic web để xây dựng hệ thống tra cứu

cá rạn san hô ở biển Việt Nam”.

Mục tiêu cụ thể: Nghiên cứu công nghệ Semantic Web và các công cụ liênquan, xây dựng Ontology về CRSH ở biển Việt Nam tích hợp trong ứng dụng cụthể thực tế là website tìm kiếm thông tin giúp người dùng tìm kiếm nhanh, đầy đủ

và chính xác về mặt ngữ nghĩa

3 Phương pháp và phạm vi nghiên cứu của đề tài:

Phương pháp nghiên cứu lý thuyết:

o Nghiên cứu tài liệu, công cụ và công nghệ liên quan

o Thu thập dữ liệu, tài liệu về CRSH ở biển Việt Nam

Phương pháp khảo sát:

o Khảo sát mô hình, tìm kiếm các hệ thống tra cứu CRSH hiện có

Phương pháp nghiên cứu thực nghiệm:

o Phân tính hệ thống, xây dựng mô hình web ngữ nghĩa tra cứu vềCRSH ở biển Việt Nam

o Các biểu đồ về ontology

4 Ý nghĩa khoa học và tính thực tiễn của đề tài.

Ý nghĩa khoa học: Tổng hợp phân tích các vấn đề liên quan đến web ngữnghĩa, cung cấp các thông tin chính thống đầy đủ, chi tiết về cá rạn san hô ở biểnViệt Nam cho các nhà nghiên cứu về ngư loại học, nguồn lời cũng như phục vụcông tác quản lý, giảng dạy, nuôi cá cảnh biển…

Tính thực tiễn: Mở ra hướng mới về nghiên cứu ứng dụng tìm kiếm trên webngữ nghĩa các loài cá rạn nói riêng và các loài thủy hải sản nói chung

Trang 14

Trong chương này giới thiệu về khái niệm, cấu trúc, các ứng dụng semanticweb, những điểm khác biệt so với các thế hệ web trước, các ngôn ngữ và côngnghệ liên quan.

Chương II Cá rạn san hô ở biển Việt Nam và giải pháp xây dựng ứng dụngtra cứu bằng semantic web

Trong chương này giới thiệu về một số thông tin như đặt điểm, phân bố nhu cầu tra cứu thông tin về CRSH ở biển Việt Nam Phân tích thiết kế và giảipháp để xây dựng ứng dụng tra cứu

Chương III Xây dựng hệ thống tra cứu cá rạn san hô ở biển Việt Nam

Xây dựng chương trình và triển khai thực tế trên nền web ngữ nghĩa, dựatrên những phân tích và thiết kế hệ thống đã cho

Trang 15

CHƯƠNG I TỔNG QUAN LÝ THUYẾT VỀ SEMANTIC WEB

Trong chương này sẽ giới thiệu tổng quát về công nghệ web hiện nay, nhữnghạn chế của nó và sự ra đời của thế hệ web thứ 3 hay còn gọi là semantic web, webngữ nghĩa Tìm hiểu kiến trúc, các lĩnh vực ứng dụng của web 3.0 Trong đónghiên cứu sâu về RDF\RDFS, ngôn ngữ truy vấn dữ liệu SPARQL và Ontology

1.1 Semantic web – web 3.0

1.1.1 Công nghệ web qua các thời kỳ

Web 1.0 được đưa ra bởi Tim Berners-Lee vào năm 1989/1990[12] Nó baogồm các yếu tố sau:

1 – Là các trang Web tĩnh: Trình bày dựa trên các công nghệ hỗ trợ Web tĩnhnhư Netscape hoặc Yahoo không cần sự tương tác nhiều, sử dụng để hiển thị thôngtin là chính

2 – Là Web không thể tương tác: Người dùng chỉ truy cập và xem thông tin,không thể đăng bài hay sửa nội dung…

3 – Là các ứng dụng độc quyền: Các ứng dụng phần mềm do nhà cung cấpWeb 2.0 là khái niệm được Dale Dougherty đưa ra năm 2004 Đã đúc kếtđược một số đặc tính sau:

1 – Web có vai trò nền tảng, có thể chạy trên mọi ứng dụng

2 – Tập hợp trí tuệ cộng đồng

3 – Dữ liệu có vai trò then chốt

4 – Phần mềm được cung cấp dưới dạng dịch vụ

5 – Phát triển ứng dụng dễ dàng và nhanh chóng

6 – Phần mềm có thể chạy trên nhiều thiết bị

7 – Giao diện ứng dụng phong phú

1.1.2 Hạn chế của web thế hệ đầu và sự ra đời của semantic web

Hệ thống mạng Internet đã trở nên rộng khắp, là nguồn kiến thức vô tận manglại nhiều lợi ích Cùng với sự phát triển đó là việc một loạt các tiêu chuẩn đượcthiết lập rộng rãi và đảm bảo được các thành phần ở các mức độ khác nhau Tuynhiên, tài nguyên thông tin trên Web ngày càng nhiều và đa dạng, điều này làm

Trang 16

nảy sinh vấn đề là làm thế nào để tìm kiếm chính xác tài nguyên mình mong muốn.Với công nghệ web hiện nay, các công cụ tiềm kiếm như Google, Yahoo, Bing…chỉ giúp chúng ta tìm được những tài liệu có chứa từ khóa Dữ liệu trong các fileHTML có thể hữu ích ở ngữ cảnh này nhưng vô nghĩa đối với ngữ cảnh khác Chính vì vậy Semantic Web, thế hệ web thứ 3 ra đời, bao gồm các dịch vụdựa trên nền tảng máy tính có thể hiểu được nội dung thông tin trên web, thông tinđược tìm kiếm một cách nhanh chóng và chính xác hơn, khả năng suy luận thôngminh, dữ liệu liên kết động, khắc phục những hạn chế web hiện tại và đáp ứng tốtnhu cầu ứng dụng của con người.

1.1.3 Khái niện và lợi ích của semantic web

Semantic web hay còn được gọi là web ngữ nghĩa hay web 3.0, là sự mở rộngnối tiếp của các web thế hệ trước, được đưa ra bởi Tim Berners-Lee vào khoảngnăm 1998[12] Web ngữ nghĩa là một cỗ máy tìm kiếm, có khả năng hỗ trợ ngườidùng tìm kiếm các thông tin một cách thông minh, chính xác và nhanh chóng hơn Lợi ích của web ngữ nghĩa là máy tính có thể hiểu được nội dung thông tintrên web, thông tin được tìm kiếm một cách chính xác và nhanh chóng hơn, dự liệuliên kết động và hỗ trợ sự tự động hóa cho các dịch vụ

Hình 1.1 So sách giữa Web 1.0, Web 2.0 và Web 3.0

Trang 17

1.1.4 Kiến trúc phân tầng của semmantic web

Tim Berners Lee đã đưa ra mô hình kiến trúc Web ngữ nghĩa đầu tiên trongmột phiên họp toàn thể vào ngày 28 tháng 2 năm 2001[12], một mô hình kiến trúcgồm 7 tầng Trong đó, các tầng trên kế thừa các tầng thấp hơn với cơ sở là cácchuẩn để mô tả siêu dữ liệu và để đảm bảo độ an toàn và giá trị thông tin trở nêntốt nhất Mô hình kiến trúc đang được thay đổi và hoàn thiện theo thời gian

Hình 1.2 Kiến trúc phân tầng Semantic Web qua các thời kỳ

Tầng URI và IRI

URI: Là một chuỗi định danh web như các chuỗi bắt đầu bằng http hay ftpURL: Bảo đảm việc sử dụng tập các kí tự quốc tế và cung cấp phương tiệnnhằm định danh các đối tượng trong Semantic Web

Tầng XML

XML: Là một mở rộng của ngôn ngữ đánh dấu cho các cấu trúc tài liệu bất

kỳ, dựa theo chuẩn SGML do tổ chức ISO chuẩn hóa năm 1986 Một XML bao

Trang 18

gồm một tập các thẻ đóng và thẻ mở đuộc lồng vào nhau, ở đó mỗi một cặp thẻ cómột cặp các thuốc tính và giá trị XML sẽ tiếp tục đóng một vai trò quan trọngtrong sự phát triển của Semantic Web.

Tầng RDF và RDFS

RDF: Là công cụ để mô tả thông tin về các tài nguyên cho Semantic Web mộtcách linh động Nó có thể được sử dụng để biểu diễn các thông tin như văn hóa,đời sống, xã hội

RDFS: Là một ngôn ngữ Otology cơ bản mô tả đối tượng như thuộc tính, cáclớp Nó phát triển và mở rộng từ RSF, bổ sung thêm các tập từ vựng để hỗ trợ choviệc xây dựng Ontology

Tầng Ontology

Ontology: Là cấu trúc dữ liệu biểu diễn ngữ nghĩa nâng cao Được phát triểntrên cở sở hạ tầng RDF và RDFS, một Ontology định nghĩa một bộ từ vựng mangtính phổ biến và thông thường, có cho phép các nhà phát triển chia sẻ thông tintrong một hay nhiều lĩnh vực

Tầng Logic

Việc biểi diễn các tài nguyên dưới dạng các bộ từ vựng Ontology có mụcđích, là để máy có thể lập luận được mà cơ sở lập luận chủ yếu dựa vào logic.Chính vì vậy mà các Ontology được ánh xạ sang logic, cụ thể là logic mô tả để cóthể hỗ trợ lập luận

Tầng User Interface & Application

Trang 19

Đây là tầng cuối cùng của kiến trúc semantic web Là tầng giao diện giao tiếpvới người sử dụng, nhận yêu cầu từ người dùng và đưa đến các tầng khác cũng nhưhiển thị kết quả trả lại người dùng.

1.2 Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài trong nước và quốc tế

1.2.1 Nghiên cứu ứng dụng của semantic web trong nước

 Viet Nam - Knowledge and Information Management (VN-KIM)

Miền dữ liệu mà VN-KIM hướng đến là các thực thể được đề cập đến trongcác thông tin quốc tế hàng ngày Ontology của VN-KIM hiện tại có khoảng 250lớp và 100 thuộc tính Cơ sở tri thức hiện có khoảng 80,000 thực thể về các nhânvật, thành phố, công ty, tổ chức quan trọng và phổ biến trên thế giới

Chức năng chính của Viet Nam - Knowledge and Information Management làrút trích và chú thích tự động lớp và danh hiệu của các thực thể có tên xuất hiệntrong các trang báo điện tử tiếng Việt VN-KIM bao gồm những khối chính sau:1- Cơ sở tri thức về các nhân vật tổ chức núi non sông ngòi và địa điểm phổ biến

ở Việt Nam

2- Khối rút trích thông tin tự động từ các trang báo điện tử tiếng Việt

3- Khối truy hồi thông tin và các trang Web về các thực thể có tên ở Việt Nam

Hình 1.3 Trang thông tin semantic web VN-KIM

Trang 20

1.2.2 Nghiên cứu ứng dụng của semantic web quốc tế

 Trang tìm kiếm Swoogle

Swoogle Semantic Web Search Engine là một công cụ tìm kiếm theo ngữnghĩa trên Ontology, Document, Term, Across ontology Swoogle cung cấp dịch

vụ cho người sử dụng qua một giao diện trình duyệt và thông qua các đại lý phầnmềm Swoogle được phát triển tại Đại học Maryland, Banltimore (UMBC) với sựtài trợ của Quỹ khoa học quốc gia, DARPA Mỹ Đây là luận án tiến sĩ Li Dingdưới sự hướng dẫn của giáo sư Tim Finin

Hình 1.4 Trang tìm kiếm Swoogle Semantic Web Search Engine

 Trang tìm kiếm Falcon

Falcon là một cơ sở hạ tầng cho các ứng dụng Web có ngữ nghĩa, với mụctiêu cung cấp các công nghệ cơ bản cho việc tìm kiếm, sắp xếp và bản thể học, vàcuối cùng là cho thu nhận tri thức từ các web thông qua một phương pháp tiếp cậnontology-driven

Hình 1.5 Trang tìm kiếm Falcons

Trang 21

 Trang tìm kiếm SWSE

SWSE là từ viết tắt của Semantic Web Search Engine Nó là một công cụ tìmkiếm thực thể RDF

Hình 1.6 Trang tìm kiếm Swse

 Trang tìm kiếm Watson

Là một công cụ tìm kiếm bản thể, nó không cố gắng để chỉ số tất cả các tàiliệu web ngữ nghĩa nhưng đặc biệt tập trung vào các ontology Web

Hình 1.7 Trang tìm kiếm Watson

1.3 Các công cụ và công nghệ liên quan đến semantic web

Trong phần này tác giả giới thiệu và trình bày sâu về các ngôn ngữ ứng dụngtrong nghiên cứu luận văn về đó là RDF,RDFS, ngôn ngữ truy vấn dữ liệuSPARQL và Ontology

Trang 22

1.3.1 RDF, RDFS nền tảng của Web ngữ nghĩa

1.3.1.1 RDF

1.3.1.1.1 Giới thiệu RDF

RDF được hiểu là một tập hợp các nguyên tắc dùng cho ngôn ngữ đánh dấu

Nó cho phép sự chia sẻ giữa các ứng dụng để trao đổi thông tin sao cho các máytính có thể hiểu được các thông tin trên web và tự động nhấn mạnh vào quá trình

xử lý các nguồn thông tin Nó cũng cung cấp một mô hình dữ liệu, và một cú phápđơn giản sao cho các hệ thống độc lập có thể trao đổi và sử dụng nó Đồng thời, nóđược thiết kế sao cho hệ thống máy tính có thể hiểu được và có thể đọc được thôngtin, chứ không phải chỉ để trình bày dữ liệu cho ngừời dùng Cú pháp của RDF dựatrên mô hình dữ liệu, và mô hình này ảnh hưởng đến cách thức mà những thuộctính được mô tả và nó cũng làm cho cấu trúc của những mô tả đó trở nên rõ ràng

giữa các đối tượng

- Mỗi tài nguyên luôn

được định danh bởi URI,

- Thuộc tính trong RDFđược xác định bởi URL

- Một phát biểu xác địnhthuộc tính của tàinguyên, là một bộ ba

gồm Object – Attribute – Value (Đối tượng -

Thuộc tính - Giá trị)

Trang 23

Hình 1.8 Mối quan hệ giữa các thành phần trong một bộ ba.

Nhằm biểu diễn chi tiết bộ ba trên chúng ta có thể dùng đồ thị RDF để biểudiễn một phát biểu sau:

Ví dụ: Vu The Thao is the creator of resource http//www.w3.org/Home/vtthao

Hình 1.9 Đồ thị RDF đơn giản

1.3.1.1.4 Namespace, Qualified name

Trang 24

Namespace Là một tập các tên, được định danh bởi URL, được sử dụng trong

các tài liệu SML như các “element type” và “attribute name” Một namespace

được khai báo sử dụng một tập các thuộc tính đã được định nghĩa Tên của thuộc

tính phải có xmlns hay xmlns như là một Prefix

Một Qualified name bao gồm một prefix mà đã được gán trước đó bởi mộtURL theo sau đó là dấu ‘:’ và tên cục bộ

1.3.1.1.5 Literal

Literal được sử dụng để xác định các giá trị như những con số hay ngày thángnăm bởi ý nghĩa của sự hiển thị một từ vựng Bất cứ cái gì đó được biểu thị bởimột giá trị Literal cũng có thể được biểu diễn dưới dạng một URI, nhưng thườngthuận tiện và trực giác hơn để sử dụng các Literal Literal có hai kiểu sau: PlainLiteral và Typed Literal

Plain Literal: là một chuỗi kết hợp với một thẻ (tag) ngôn ngữ tùy chọn Điềunày có thể được sử dụng cho văn bản thông thường trong một ngôn ngữ tự nhiên

Ví dụ:

Hình 1.10 Minh họa kiểu Plain Literal

Ví dụ trên mô tả tuổi của một người là 35 Ở đây ta biểu diễn tuổi của mộtngười là một kiểu Plain Literal Giá trị 35 ở đây chỉ là một chuỗi gồm hai kí tự ‘3’

và ‘5’ Nhưng nếu chúng ta muốn biểu diễn nó là một con số thì phải làm thế nào ?Bằng cách dùng kiểu Typed Literal chúng ta sẽ có được cách định nghĩa mà chúng

ta muốn

Trang 25

Typed Literal: Được tạo ra bằng cách kết hợp một chuỗi với một định danhURI để biểu diễn một kiểu dữ liệu đặc biệt nào đó Kết quả trả về là một nút trong

đồ thị tương tự như kiểu Literal Kiểu giá trị được biểu diễn bằng Typed Literal sẽđược ánh xạ đến kiểu giá trị đặc biệt mà ta đã khai báo thông qua URI Ví dụ khimuốn biểu diễn tuổi của một người là một kiểu số nguyên thì ta sẽ khai báo nhưsau:

Và được biểu diễn bằng đồ thị như sau:

Hình 1.11 Kiểu Typed Literal biểu diễn tuổi 1.3.1.2 Cấu trúc RRF/XML

1.3.1.2.1 Cú pháp RDF/XML

Để biểu diễn các phát biểu RDF theo một cách thức nào đó mà máy tính cókhả năng xử lý được, RDF đã sử dụng rất nhiều ngôn ngữ, một trong nhưng ngônngữ đó là XML XML được thiết kế để cho phép bất cứ ai tạo ra định dạng tài liệuriêng của họ và sau đó viết một tài liệu ở định dạng đó RDF định nghĩa ra mộtngôn ngữ đánh dấu XML đặc biệt, được đề cập đến như RDF/XML, để sử dụngtrong việc biểu diễn thông tin RDF, và trao đổi thông tin giữa các máy Cú pháp cơbản của RDF/XNL được biểu diễn như bảng sau[17]:

Trang 26

Bảng 1.2 Cú pháp cơ bản của RDF

Ví dụ: Xét phát biểu sau:

ex: index.html exterms:creation-date “August 16, 1999”.

Cú pháp RDF/XML biểu diễn phát biểu trên:

Trang 27

Giải thích cụ thể cho cú pháp ở trên như sau:

 Dòng thứ 1: Là khai báo XML, cho biết nội dung theo sau dựa trên cúpháp XML và phiên bản XML được dùng

 Dòng thứ 2 và thứ 3: Bắt đầu với thẻ rdf:RDF, cho biết rằng nội dung XML tiếp theo ( bắt đầu từ đây cho đến </rdf:RDF> trong dòng thứ 7) mô tả

RDF Từ khóa này xác định tài liệu được biểu diễn dưới dạng RDF Tiếp theo

là phần khai báo namespace của XML được sử dụng trong tài liệu, tùy vàonhu cầu và mục đích sử dụng mà ta có thể dùng các namescpace khác nhaucho từng tài liệu

 Dòng thứ 4, thứ 5 và thứ 6: Mô tả những phát biểu RDF Để mô tả bất

kỳ phát biểu nào dạng RDF/XML có thể dùng rdf:Description, và rdf:about, đây chính là chủ ngữ của phát biểu (http://www.example.org/index.html) Thẻ bắt đầu rdf:Description trong dòng 4 cho biết bắt đầu mô tả về một tài nguyên, và tiếp tục đinh danh tài nguyên dùng thuộc tính rdf:about để chỉ ra

URI của chủ ngữ tài nguyên Dòng 5 cung cấp một phần tử thuộc tính, với

QName exterms:creation-date như là thẻ của nó Nội dung của phần tử thuộc tính này là tân ngữ của phát biểu, có giá trị là kiểu Plain Literal “August 16, 1999”

 Dòng thứ 7: Cho biết kết thúc của thẻ rdf:RDF bắt đầu ở dòng 2 và

cũng là thẻ kết thúc tài liệu RDF

1.3.1.2.2 Bộ chứa (Controner)

RDF sử dụng một số phần tử đặc biệt để xây dựng các danh sách, gọi là RDFCollection, các RDF Collection này được sử dụng để mô tả một nhóm hay một tậphợp RDF định nghĩa ra ba lọai đối tượng Container dùng để miêu tả rfd là Bag;Sequence và Alternate [16],[17]

Ví dụ, để biểu diễn phát biểu:

The students in course 6.001 are Amy, Tim, John, Mary, and Phuong.

Thì mô hình RDF là:

Trang 28

Hình 1.12 Mô tả một Bag Container đơn giản

Trang 29

tương tự như một danh sách, có phần tử đầu (rdf:first), phần tử kế (rdf:rest) và phần tử cuối (rdf:nil).

Xét phát biểu sau:

The students in course 6.001 are Amy, Mohamed, and Johann.

Được biểu diễn dưới dạng đồ thị:

Hình 1.14 Mô tả một RDF Collection.

Ở đồ thị trên ta thấy mỗi thành viên của danh sách, ví dụ như: Amy, là chủ

ngữ của thuộc tính rdf:first mà chủ ngữ đó là một tài nguyên (một nút rỗng đối với

ví dụ này) mà nó biểu diễn như một danh sách Danh sách này liên kết với phần tử

còn lại của nó bằng thuộc tính rdf:rest Phần tử cuối cùng của danh sách được chỉ bởi thuộc tính rdf:rest có tài nguyên là rdf:nil (là một danh sách rỗng) Ví dụ trên có thể được biểu diễn dưới cú pháp RDF/XML như sau:

Trang 30

Tuy nhiên, RDF/XML cung cấp một cách định nghĩa để mô tả một tập hợp,

bằng cách dùng một thuộc tính có thuộc tính là rdf:parseType=”Collection” Ta

có thể viết lại ví dụ như sau:

Trang 31

1.3.1.3.1 Giới thiệu về RDFS

RDFS là một ngôn ngữ ontology cơ bản, được mở rộng từ RDF và bổ sungthêm các tập từ vựng để hỗ trợ cho việc xây dựng các ontology được dễ dàng.Một RDFS không chỉ định nghĩa thuộc tính của tài nguyên mà còn có thểđịnh nghĩa ra loại tài nguyên được mô tả và các mối quan hệ qua lại giữa tàinguyên với tài nguyên, giữa thuộc tính với thuộc tính, và giữa tài nguyên với thuộctính

1.3.1.3.2 Các lớp và thuộc tính

Những tài nguyên có thể được chia thành những nhóm gọi là các lớp Nhữngthành viên của một lớp được biết đến như những thể hiện của lớp và chính nhữnglớp là những tài nguyên Chúng thường được xác định bởi những URI và được mô

tả sử dụng những thuộc tính RDF

Hình 1.15 Các lớp và các thuộc tính

Hình trên minh họa khái niệm của lớp, lớp con và tài nguyên Một lớp được

mô tả bởi một hình chữ nhật tròn; một tài nguyên là một dấu chấm tròn lớn Nhữngmũi tên được vẽ từ một tài nguyên tới lớp nó định nghĩa Một lớp con là một hìnhchữ nhật tròn nằm trong lớp khác

1.3.1.3.3 Những rằng buộc

Một số các ví dụ của các ràng buộc bao gồm:

Trang 32

 Giá trị của một thuộc tính phải là một tài nguyên của một lớp rõ ràng.Điều này được biết như một ràng buộc range Ví dụ, một ràng buộc range ápdụng cho thuộc tính author có thể mô tả rằng giá trị của thuộc tính author phải

là một tài nguyên của lớp Person

 Một thuộc tính có thể được dùng dựa trên các tài nguyên của một lớpnhất định Điều này được biết như một ràng buộc domain Ví dụ, thuộc tínhauthor chỉ có thể bắt nguồn từ một tài nguyên mà tài nguyên đó là môt thểhiện của lớp Book

Hình 1.16 Những ràng buộc trong RDFS.

1.3.2 ONTOLOGY

1.3.2.1 Khái niệm về ontology

 Trong khoa học máy tính, một Ontology là một mô hình dữ liệu biểu diễnmột lĩnh vực nào đó và được sử dụng để suy luận về các đối tượng trong lĩnhvực đó và mối quan hệ giữa chúng

 Hiện nay Otology được ứng dụng trong nhiều lĩnh vực khác nhau, một sốđịnh nghĩa được đưa ra như:

- Theo thư Swartout B, Patil R, knight K và Russ T (1996): “Ontology là một tập thuật ngữ có cấu trúc, thứ bậc để diễn tả một phạm vi cụ thể và có thể sử

Trang 33

- Theo A Maedche, B Motik và L Stojanovic (2003): “Ontology là một mô hình khái niệm có thể chia sẻ và thực thi trên máy trong một phạm vi nhất định”[20].

- Theo Tom Gruber (2008): “Ontology là một tập hợp các đại diện nguyên

bản với mô hình của một miền kiến thức hoặc lập luận”[21].

- Theo như Natalya F Noy và Deborah L McGuinness (2011): “Ontology là

một mô tả hình thức rõ ràng của các khái niệm trong phạm vi cụ thể, các thuộc tính của khái niệm mô tả đặc tính và tính chất của khái niệm, các ràng buộc của thuộc tính” [22].

1.3.2.2 Các thành phần của ontology

Các thành phần của ontology gôm các yếu tố sau[18]

Các cá thể (Individuals) - Thể hiện các cá thể là các thành phần cơ bản, nền

tảng của một ontology Các cá thể trong một ontology có thể bao gồm các đốitượng cụ thể như con người, động vật, đồ vật… cũng như các cá thể trừu tượngnhư các thành viên hay các từ Một ontology có thể không cần bất kỳ một cá thểnào, nhưng một trong những lý do chính của một ontology là để cung cấp một ngữnghĩa của việc phân lớp các cá thể, mặc dù các cá thể này không thực sự là mộtphần của ontology

Các lớp (Classes) - Khái niệm Các lớp là các nhóm, tập hợp các đối tượng

trừu tượng Chúng có thể chứa các cá thể, các lớp khác, hay là sự phối hợp của cảhai Các ontology biến đổi tuỳ thuộc vào cấu trúc và nội dung của nó: Một lớp cóthể chứa các lớp con, có thể là một lớp tổng quan (chứa tất cả mọi thứ), có thể làlớp chỉ chứa những cá thể riêng lẻ, Một lớp có thể xếp gộp vào hoặc bị xếp gộpvào bởi các lớp khác Mối quan hệ xếp gộp này được sử dụng để tạo ra một cấutrúc có thứ bậc các lớp, thường là với một lớp thông dụng nhất kiểu Thing ở trênđỉnh và các lớp rất rõ ràng kiểu 2002, Ford ở phía dưới cùng

Các thuộc tính (Properties) - Các đối tượng trong ontology có thể được mô tả

thông qua việc khai báo các thuộc tính của chúng Mỗi một thuộc tính đều có tên

và giá trị của thuộc tính đó Các thuộc tính được sử dụng để lưu trữ các thông tin

Trang 34

mà đối tượng có thể có Giá trị của một thuộc tính có thể có các kiểu dữ liệu phứctạp

Các mối quan hệ (Relation) - Một trong những ứng dụng quan trọng của việc

sử dụng các thuộc tính là để mô tả mối liên hệ giữa các đối tượng trong ontology.Một mối quan hệ là một thuộc tính có giá trị là một đối tượng nào đó trongontology Một kiểu quan hệ quan trọng là kiểu quan hệ xếp gộp (subsumption).Kiểu quan hệ này mô tả các đối tượng nào là các thành viên của các lớp nào củacác đối tượng

1.3.3 SPARQL ngôn ngữ truy vấn trên dữ liệu Web ngữ nghĩa

1.3.3.1 Giới thiệu về SPARQL

SPARQL được phát triển bởi nhóm RDF Data Access Working Group – mộtphần trong hoạt động của Semantic Web và đã được W3C – tổ chức chịu tráchnhiệm xây dựng, quản lý đưa ra các chuẩn liên quan đến WWW – khuyến nghị vàonăm 2008 Nó cung cấp những tính năng sau:

 Trích thông tin ở dạng URI, nút rỗng, những Plain và Typed Literal

ba RDF nhưng mỗi thành phần (chủ ngữ, vị từ, tân ngữ) đều có thể là một biến truyvấn

Một mẫu đồ thị cơ bản (basic graph pattern) là một tập các mẫu bộ ba

Ngôn ngữ SPARQL dựa trên nền tảng so sánh các mẫu đồ thị Kết quả truyvấn là tất cả các giải pháp mà một truy vấn có thể phù hợp với đồ thị được truyvấn Một câu truy vấn có thể có không, một hay nhiều kết quả

Trang 35

Ví dụ 1 Xét một truy vấn SPARQL tìm kiếm tựa đề của một cuốn sách từ

thông tin trong đồ thị đã cho:

1.3.3.3 Truy vấn với RDF Literal

Trong SPARQL một kí tự RDF được viết như một chuỗi mà chứa các mẫu từvựng học của kí tự, theo sau bởi một thẻ ngôn ngữ tùy chọn hay một loại dữ liệutùy chon Việc kết hợp mẫu đồ thị tạo ra những kết hợp của các biến Có thể mởhạn chế lời giải bằng cách ràng buộc những ràng buộc của các biến có thể chấpnhận được tới nhứng thuật ngữ RDF

Ví dụ 2 Xét một truy vấn ràng buộc sau:

Trang 36

:books2 ns:price 24

 Truy vấn:

PREFIX dc: <http://purl.org/dc/elements/1.1/>

PREFIX ns: <http://example.org/ns#>

SELECT ?title ?price

WHERE { ?x ns:price ?price

FILTER (?price < 34)

?x dc:title ?title }

 Kết quả truy vấn:

" Giới thiệu về Semantic web " 24

Bằng cách ràng buộc biến “price”, chỉ có books2 thích hợp với truy vấn vì cómột giới hạn dựa vào gía trị được phép của “price”

1.3.3.4 Mẫu đồ thị (Graph Pattern)

Những mẫu đồ thị phức tạp có thể được tạo ra bằng cách kết hợp những mẫu

đồ thị đơn giản Cách tạo ra những mẫu đồ thị đó là:

- Mẫu đồ thị cơ bản (Basic Graph Pattern), là một tập những mẫu bộ baphù hợp với tất cả

- Mẫu nhóm (Group Pattern), là một tập những mẫu đồ thị phải phù hợpvới tất cả sử dụng cùng biến thay thế

- Những mẫu đồ thị tùy chọn (Optional graph pattern), là những mẫu bổsung có thể mở rộng lời giải

- Những ràng buộc giá trị (Value contrain), mà hạn chế những thuậtngữ RDF trong một lời giải

- Mẫu dựa vào những đồ thị đặt tên (Pattern on Named Graph), lànhững mẫu kết hợp với những đồ thị đặt tên

1.3.3.5 Những giá trị tùy chọn

Những kiểu đồ thị thuộc loại cơ bản cho phép những ứng dụng tạo ra nhữngtruy vấn mà trong đó toàn bộ kiểu truy vấn phải kết hợp để có được lời giải đối

Định dạng
Số trang	73
Dung lượng	9,63 MB