1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ỨNG DỤNG R2RML ĐỂ CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU CHO LINKED DATA

15 109 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 1,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

R2RML Relational Database to RDF Mapping Language là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ RDB sang bộ dữ liệu RDF.. R2RML cũng được định nghĩa là một ánh xạ trực

Trang 1

Tập 106, Số 07, 2015, Tr 149-163

ỨNG DỤNG R2RML ĐỂ CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU

CHO LINKED DATA

1Đại học Huế,

2Trường Cao đẳng nghề Tiền Giang

Tóm tắt RDF (Resource Description Framework) là chuẩn mô tả dữ liệu Web ngữ nghĩa, và

trở thành cơ sở của Linked Data và Web Dữ liệu Việc chuyển đổi các dữ liệu trong các cơ sở

dữ liệu (CSDL) sang RDF được xem là một trong những bước quan trọng cho việc xây dựng Web dữ liệu R2RML (Relational Database to RDF Mapping Language) là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ (RDB) sang bộ dữ liệu RDF Ánh xạ này cung cấp khả năng xem dữ liệu hiện có trong mô hình dữ liệu quan hệ RDF, được thể hiện trong một cấu trúc và từ vựng R2RML cũng được định nghĩa là một ánh xạ trực tiếp từ cơ sở dữ liệu quan hệ sang RDF Bài báo này trình bày việc áp dụng R2RML vào việc chuyển đổi CSDL quan hệ sang Linked Data phục vụ cho Web Dữ liệu

Từ khóa: Linked Data, Web of Data, Semantic Web, ontology, RDF, OWL

Hiện nay phần lớn dữ liệu trên Web đang được lưu trữ trong các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) với các ưu điểm đã được chứng minh về các mặt: khả năng mở rộng, lưu trữ hiệu quả, tối ưu hóa việc thực thi các câu truy vấn, độ an toàn Tuy nhiên, các cơ sở dữ liệu quan hệ (RDB) thường là tách biệt nhau, không đồng nhất về lược đồ, thuật ngữ, định danh và mức độ chi tiết của sự biểu diễn dữ liệu, và không có tính chia sẻ Do đó, người ta đã sử dụng

kỹ thuật để chuyển đổi các dữ liệu trong RDB sang các dạng dữ liêu thô hoặc có cấu trúc, hoặc giàu ngữ nghĩa như RDF và RDFS – là cơ sở của Linked Data Việc chuyển dữ liệu sang Linked Data nhằm cung cấp một nền tảng cho việc tích hợp tất cả các nguồn dữ liệu đó trên Web dữ liệu

R2RML (Relational Database to RDF Mapping Language) là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ (RDB) sang bộ dữ liệu RDF Ánh xạ này cung cấp khả năng xem dữ liệu hiện có trong mô hình dữ liệu quan hệ RDF, được thể hiện trong một cấu trúc và từ vựng R2RML cũng được định nghĩa là một ánh xạ trực tiếp từ cơ sở dữ liệu quan hệ sang RDF Trong các ánh xạ trực tiếp của một CSDL, cấu trúc của đồ thị RDF là kết quả phản ánh trực tiếp cấu trúc của CSDL, mục từ trong từ vựng RDF phản ánh trực tiếp tên của các phần tử trong lược đồ CSDL Mỗi ánh xạ R2RML là phù hợp với một lược đồ CSDL và mục từ từ vựng Các đầu vào một ánh xạ R2RML là một cơ sở dữ liệu quan hệ phù hợp vào lược đồ đó Đầu ra là một tập dữ liệu RDF có sử dụng vị từ và các kiểu từ vựng Bài báo này trình bày việc áp dụng

Trang 2

R2RML vào việc chuyển đổi CSDL quan hệ sang Linked Data phục vụ cho Web Dữ liệu, bên cạnh đó, cũng trình bày các hướng tiếp cận liên quan

Tạo các ánh xạ

Chúng ta có thể phân loại các phương pháp được sử dụng để tạo ra các ánh xạ giữa RDB

và RDF thành hai loại:

a Ánh xạ tự động:

Một tập hợp các ánh xạ giữa RDB và RDF cụ thể là:

i) Một mẫu tin RDB là một nút của RDF;

ii) Tên cột của một bảng RDB là một vị từ của RDF;

iii) Một ô của bảng RDB là một giá trị của RDF

Nhiều hệ thống sử dụng các ánh xạ tự động để ánh xạ giữa RDB và RDF với một bảng của RDB như một lớp các nút của RDF và các tên cột của RDB như là vị từ của RDF

Mặc dù các ánh xạ tự động tạo ra thường không nắm bắt được ngữ nghĩa được yêu cầu của nhiều ứng dụng, nhưng những ánh xạ này có thể là một điểm khởi đầu để tạo ra các tuỳ chọn hữu ích hơn Phương pháp này cũng cho phép các ứng dụng Web ngữ nghĩa truy vấn các nguồn RDB, nơi mà ứng dụng ngữ nghĩa được quy định về ánh xạ RDB Phương pháp này còn được gọi là "vùng ánh xạ ontology"

b Ngữ nghĩa miền - định hướng ánh xạ:

Cách tiếp cận thứ hai để tạo ra ánh xạ từ RDB sang RDF bằng cách kết hợp ngữ nghĩa miền ẩn hoặc không ẩn trong tất cả lược đồ RDB Các mô hình về ngữ nghĩa miền thường được

mô hình hóa như là một miền ontology Trong thư viện RDF, cho phép các ứng dụng phần mềm tận dụng lợi thế "thông tin thu được" và thực hiện các truy vấn liên kết các thực thể với nhau [4]

Ngoài ra, một ánh xạ được tạo ra bằng cách sử dụng ngữ nghĩa miền nhằm làm giảm việc tạo ra bộ dữ liệu dư thừa hoặc không liên quan Byrne[4] thảo luận về việc giảm kích thước của các tập dữ liệu RDF khoảng 2,8 triệu bộ thông qua việc sử dụng ngữ nghĩa theo định hướng của tên miền ánh xạ từ RDB sang RDF

Cài đặt truy vấn

Truy vấn trong các hệ thống tạo ánh xạ từ RDB sang RDF hoặc trong SPARQL được thực hiện dựa vào RDF, hoặc truy vấn SPARQL có thể được chuyển đổi thành một hoặc nhiều truy vấn SQL được thực hiện dựa vào RDB Cyganiak [4] đã thảo luận việc chuyển đổi đại số quan

Trang 3

hệ của SPARQL và tiếp tục trong SQL Toán tử biểu diễn như "SELECTION" và "INNER JOIN" được thực hiện trong RDF và tương quan "đại số quan hệ RDF" đến SQL

Tích hợp dữ liệu

Mô hình RDF đại diện thông qua việc sử dụng của URI và các mối quan hệ của mô hình một cách rõ ràng giữa các thực thể làm cho nó dễ dàng hơn để tích hợp dữ liệu có hiệu quả Điều quan trọng là cần lưu ý rằng RDF không tự động giải quyết nhiều việc không đồng nhất, chẳng hạn như không đồng nhất về cấu trúc, cú pháp và ngữ nghĩa, được mô tả trong dữ liệu/thông tin tích hợp Tuy nhiên, việc sử dụng các miền ontology dựa theo các quy tắc suy luận mà người dùng định nghĩa để đối chiếu tính không đồng nhất giữa các nguồn RDB là một cách tiếp cận có hiệu quả cho việc tạo ra một hoặc một tập "tương thích" của RDF Do đó, số liệu đánh giá các phương pháp tiếp cận tạo ánh xạ khác nhau liên quan đến tích hợp dữ liệu

Trong phần này, chúng tôi phân loại các công việc khảo sát thành ba lớp lớn cụ thể là:

Các dự án nhằm chứng minh các khái niệm: Dự án xem xét trong phần này là khám phá

cách tiếp cận cụ thể để chuyển đổi ánh xạ từ RDB sang RDF với một mẫu tin hoặc chứng minh thực hiện khái niệm Công việc có thể có hoặc không có, dẫn đến việc phát triển một công cụ/ứng dụng chung

Các dự án ứng dụng theo miền: Nhiều dự án được khảo sát đã thúc đẩy bởi yêu cầu ứng

dụng thế giới thực và đã sử dụng ngữ nghĩa miền dựa vào ánh xạ tùy chọn, công cụ tạo ánh xạ dùng chung hoặc kết hợp cả hai

Công cụ/ứng dụng: Các dự án khảo sát bao gồm D2RQ, R2O, Virtuoso, Triplify và các

công cụ Dartgrid đã được đưa ra để ánh xạ RDB sang RDF

Hình 1 Mô hình cấu trúc tham chiếu cho việc chuyển đổi RDB sang RDF

Trang 4

3 Ngôn ngữ chuyển đổi R2RML

R2RML (Relational Database to RDF Mapping Language) là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ sang bộ dữ liệu RDF Ánh xạ này cung cấp khả năng xem

dữ liệu hiện có trong mô hình dữ liệu quan hệ RDF, được thể hiện theo một cấu trúc và từ vựng [10] R2RML cũng được định nghĩa là một ánh xạ trực tiếp từ cơ sở dữ liệu quan hệ sang RDF Trong các ánh xạ trực tiếp của một cơ sở dữ liệu, cấu trúc của đồ thị RDF là kết quả phản ánh trực tiếp cấu trúc của cơ sở dữ liệu, mục từ trong từ vựng RDF phản ánh trực tiếp tên của các phần tử trong lược đồ cơ sở dữ liệu Mỗi ánh xạ R2RML là phù hợp với một lược đồ cơ sở dữ liệu và mục từ từ vựng Các đầu vào một ánh xạ R2RML là một cơ sở dữ liệu quan hệ phù hợp vào lược đồ đó Đầu ra là một tập dữ liệu RDF có sử dụng vị từ và các kiểu từ vựng Ánh xạ R2RML được thể hiện dưới dạng đồ thị RDF và cú pháp Turtle

Bảng 1 Bảng qui định không gian tên

Các mục từ trong bộ từ vựng R2RML

a Lớp:

Bảng 2 Các lớp trong R2RML

rr:objectMap

Trang 5

b Thuộc tính:

Bảng 3 Các thuộc tính trong R2RML

Ánh xạ bộ ba

R2RML

Trong Hình 2, Ánh xạ R2RML định nghĩa một ánh xạ từ một cơ sở dữ liệu quan hệ sang RDF Nó là một cấu trúc bao gồm một hoặc nhiều ánh xạ bộ ba[10] Bộ xử lý R2RML là một hệ thống, một ánh xạ R2RML và một cơ sở dữ liệu đầu vào nhằm cung cấp truy cập cho các dữ liệu đầu ra Đầu vào cho một ánh xạ R2RML là cơ sở dữ liệu

Phương pháp truy cập vào các dữ liệu đầu ra được cung cấp bởi một bộ xử lý R2RML tương ứng Một bộ xử lý R2RML có thể cụ thể hóa các dữ liệu đầu ra vào cho một tập tin, hoặc cung cấp truy cập ảo thông qua một giao diện để truy vấn cơ sở dữ liệu đầu vào, hoặc cung cấp bất kỳ phương tiện cho các dữ liệu đầu ra

Một bộ xử lý R2RML cũng có quyền truy cập vào môi trường thực thi bao gồm:

 Kết nối SQL vào cơ sở dữ liệu đầu vào,

 Sử dụng IRI trong việc giải quyết các quan hệ được tạo ra bởi các ánh xạ R2RML

Trang 6

Dữ liệu R2RML là một hệ thống đầu vào của một ánh xạ R2RML, IRI và SQL, và sẽ kết nối đến một cơ sở dữ liệu đầu vào đồng thời kiểm tra sự xuất hiện của các lỗi dữ liệu Khi kiểm tra cơ sở dữ liệu đầu vào, phải báo cáo bất kỳ lỗi nào mà dữ liệu được đưa ra trong quá trình tạo ra các dữ liệu đầu ra

Hình 2 Chuyển đổi cơ sở dữ liệu quan hệ sang RDF

Ánh xạ đồ thị và từ vựng R2RML

Một ánh xạ R2RML được biểu diễn như một đồ thị RDF Nói cách khác, RDF được sử dụng không chỉ là mô hình dữ liệu của ánh xạ, mà còn là một hình thức đại diện cho ánh xạ R2RML chính nó [10]

Một đồ thị RDF đại diện cho một ánh xạ R2RML được gọi là một đồ thị ánh xạ R2RML

Từ vựng R2RML là tập hợp các IRIs được bắt đầu với

rr:namespace IRI:http://www.w3.org/ns/r2rml #

Ánh xạ mặc định

Một bộ xử lý R2RML có thể bao gồm các ánh xạ mặc định R2RML Đây là một cơ sở để xem xét lược đồ của cơ sở dữ liệu đầu vào và tạo ra một ánh xạ R2RML dưới hình thức một tài liệu ánh xạ R2RML Một ánh xạ như vậy được gọi là một ánh xạ mặc định Ánh xạ mặc định coi đầu ra của nó là đồ thị trực tiếp tương ứng với cơ sở dữ liệu đầu vào

Hình 3 Thuộc tính của các bảng logic

Trang 7

Bảng logic là kết quả của một truy vấn SQL được ánh xạ tới bộ ba của RDF Một bảng logic là một trong hai trường hợp sau:

 Bảng SQL hoặc khung nhìn, hoặc

 Khung nhìn R2RML

Bảng logic là một truy vấn SQL hiệu quả nếu thực hiện qua kết nối SQL, sản phẩm là kết quả các nội dung của bảng logic Dòng của bảng logic là dòng trong một bảng logic.Tên cột là tên của một cột trong một bảng logic

Khung nhìn R2RML (rr:sqlQuery, rr:sqlVersion)

Khung nhìn R2RML là một bảng logic có nội dung là kết quả của việc thực hiện truy vấn SQL cho cơ sở dữ liệu đầu vào Nó được đại diện bởi nguồn tài nguyên có chính xác một thuộc

tính rr: sqlquery

R2RML đôi khi đòi hỏi phải chuyển đổi dữ liệu, tính toán, hoặc lọc trước khi tạo ra từ cơ

sở dữ liệu Điều này có thể đạt được bằng cách xác định SQL trong cơ sở dữ liệu đầu vào và đề

cập đến nó với rr:tableName

Câu lệnh truy vấn SELECT trong ngôn ngữ SQL có thể được thực hiện trên cơ sở dữ liệu đầu vào Trong câu lệnh SQL kết thúc câu lệnh truy vấn SELECT là dấu chấm phẩy Kết quả của việc thực hiện truy vấn phải không có tên cột trùng nhau Đối tượng tham chiếu cơ sở dữ liệu trong các truy vấn SQL có thể có đủ điều kiện với tên danh mục hoặc tên lược đồ

Một khung nhìn R2RML có thể có một hoặc nhiều phiên bản nhận dạng SQL Phải có IRIs

hợp lệ và được đại diện như là giá trị thuộc tính của rr:sqlVersion Định danh phiên bản SQL sau

đây chỉ ra rằng các truy vấn SQL phù hợp với Core SQL 2008

http://www.w3.org/ns/r2rml # SQL2008

Hiệu quả câu lệnh truy vấn SQL của khung nhìn R2RML là giá trị thuộc tính của

rr:sqlquery

Ví dụ: Một bảng logic của khung nhìn R2RML phù hợp với Core SQL 2008

[] rr:sqlQuery """

Select ('PHONGBAN' || Mapb) AS PHONGID, Mapb, Tenpb

from PHONGBAN

""";

rr:sqlVersion rr:SQL2008

Ánh xạ các bảng logic sang RDF với ánh xạ bộ ba

Một ánh xạ bộ ba quy định một quy tắc chuyển đổi mỗi hàng của một bảng logic có thể không có hoặc có nhiều bộ ba RDF

Các bộ ba RDF tạo ra từ một hàng trong bảng logic được chia sẽ tất cả các chủ thể

Trang 8

Hình 4 Thuộc tính của ánh xạ bộ ba

Ví dụ: Ánh xạ bộ ba bao gồm cả bảng logic, ánh xạ chủ thể và ánh xạ vị từ đối tượng rr:logicalTable

[

rr:tableSchema "R2RML";

rr:tableOwner "TEST";

rr:tableName "CUSTOMER"

];

rr:subjectMap

[

rr:template"http://example.com/customer/{makh}";

rr:class exa:customer;

rr:graph <http://example.com/>;

];

rr:predicateObjectMap

[

rr:predicate customer:makh;

rr:objectMap [ rr:column "makh" ];

];

a Tạo tài nguyên với ánh xạ chủ thể

Một ánh xạ chủ thể là một thuật ngữ ánh xạ chỉ ra một quy tắc để tạo các đối tượng của

bộ ba RDF bởi một ánh xạ bộ ba

b Kiểu tài nguyên (rr:class)

Ánh xạ chủ thể có thể có một hoặc nhiều lớp IRIs Nó đại diện bởi các thuộc tính rr:class Các giá trị của thuộc tính rr:class phải thuộc IRIs Đối với mỗi thuật ngữ RDF được tạo ra bởi các ánh xạ chủ thể, RDF bộ ba với vị từ rdf:type và lớp IRI Trong ví dụ sau, đối tượng được tạo ra sẽ

được khẳng định như một thể hiện lớp customer:

rr:template"http://example.com/customer/{makh}";

Trang 9

rr:class exa:customer;

rr:graph <http://example.com/>;

Ví dụ: Bảng CUSTOMER, bộ ba RDF sau đây sẽ được tạo ra:

<http://example.com/CUSTOMER/BT> rdf:type ex:CUSTOMER

c Tạo thuộc tính và giá trị ánh xạ vị từ-đối tượng

Ánh xạ vị từ - đối tượng là một chức năng tạo ra một hoặc nhiều cặp vị từ - đối tượng cho mỗi dòng của bảng logic Nó kết hợp với một ánh xạ chủ thể để tạo ra bộ ba trong ánh xạ bộ ba

Tạo các mục từ RDF với thuật ngữ ánh xạ

Một mục từ RDF là IRI hoặc một nút trống hoặc một literal Một mục từ ánh xạ là một

hàm tạo ra mục từ RDF từ một dòng của bảng logic Kết quả của hàm đó được gọi là thuật ngữ ánh xạ được tạo ra của mục từ RDF

Hình 5 Thuộc tính của các ánh xạ mục từ

Các cột tham chiếu của thuật ngữ ánh xạ là tập hợp của tên cột tham chiếu trong thuật ngữ ánh xạ và phụ thuộc vào kiểu của thuật ngữ ánh xạ

d Hằng số RDF (rr: constant)

Hằng số (constant) là một thuật ngữ ánh xạ bỏ qua các dòng của bảng logic và luôn luôn được tạo ra cùng với thuật ngữ RDF Hằng số được đại diện bởi một nguồn tài nguyên có một

thuộc tính rr:constant cố định

Hằng số là thuật ngữ có giá trị ánh xạ được thể hiện chính xác hơn bằng cách sử dụng các

thuộc tính rr:subject, rr:perdecate, rr:object và rr:graph Những lần xuất hiện của những thuộc tính

này phải được xử lý chính xác, nếu đã xuất hiện như bộ ba trong đồ thị ánh xạ thay thế:

Trang 10

Bảng 4 Bảng viết tắt của bộ ba

Ví dụ: Một ánh xạ vị từ - đối tượng sử dụng một hằng số cho cả vị từ của mình và cho đối tượng của nó

[ rr: predicateMap [rr: constant rdf: type];

rr: ObjectMap [rr: constant ex: customer]];

Nếu thêm vào một ánh xạ bộ ba, thì ánh xạ vị từ - đối tượng sẽ thêm bộ ba cho tất cả các nguồn tài nguyên ?x tạo ra bởi ánh xạ bộ ba:

? x rdf:type ex:customer

e Từ một cột (rr: column)

Giá trị cột của thuật ngữ ánh xạ là một thuật ngữ ánh xạ đại diện bởi một nguồn tài

nguyên có một thuộc tính chính xác rr:column Giá trị của thuộc tính rr:column là một tên cột

hợp lệ Giá trị cột là giá trị dữ liệu của cột trong một dòng của bảng logic nhất định

Cột tham chiếu là một tập hợp đơn có chứa các giá trị của thuộc tính rr:column

Ví dụ: Định nghĩa một ánh xạ đối tượng được tạo ra từ cột Tenkh của một số bảng logic Customer

[ ] rr:ObjectMap [rr: column"Tenkh"]

Sử dụng hàng có sẵn từ bảng CUSTOMER như một dòng của bảng logic, giá trị cột của ánh xạ đối tượng sẽ là "CTy Thanh Thanh"

f Từ một Template (rr:template)

Template là một ánh xạ được đại diện bởi một nguồn tài nguyên có chính xác trong thuộc

tính rr: template Giá trị của thuộc tính rr:template phải là một chuỗi template hợp lệ Một chuỗi

template là một chuỗi định dạng có thể được sử dụng để xây dựng chuỗi từ nhiều thành phần

Nó có thể tham chiếu các tên cột bằng cách đóng nó trong dấu ngoặc nhọn ("{" và "}")

Ví dụ: Định nghĩa một ánh xạ chủ thể tạo ra IRI từ cột makh của một bảng logic

rr:subjectMap

[ rr:template "http://example.com/customer/{makh}"; ]

Sử dụng dòng từ bảng CUSTOMER như một dòng của bảng logic, giá trị template của

ánh xạ chủ thể sẽ là: http://example.com/customer/BT

Ví dụ: một giá trị template IRI được tạo ra:

rr:subjectMap [ rr:template "http://example.com/customer/{makh}";]

Ngày đăng: 04/09/2018, 12:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w