R2RML Relational Database to RDF Mapping Language là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ RDB sang bộ dữ liệu RDF.. R2RML cũng được định nghĩa là một ánh xạ trực
Trang 1Tập 106, Số 07, 2015, Tr 149-163
ỨNG DỤNG R2RML ĐỂ CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU
CHO LINKED DATA
1Đại học Huế,
2Trường Cao đẳng nghề Tiền Giang
Tóm tắt RDF (Resource Description Framework) là chuẩn mô tả dữ liệu Web ngữ nghĩa, và
trở thành cơ sở của Linked Data và Web Dữ liệu Việc chuyển đổi các dữ liệu trong các cơ sở
dữ liệu (CSDL) sang RDF được xem là một trong những bước quan trọng cho việc xây dựng Web dữ liệu R2RML (Relational Database to RDF Mapping Language) là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ (RDB) sang bộ dữ liệu RDF Ánh xạ này cung cấp khả năng xem dữ liệu hiện có trong mô hình dữ liệu quan hệ RDF, được thể hiện trong một cấu trúc và từ vựng R2RML cũng được định nghĩa là một ánh xạ trực tiếp từ cơ sở dữ liệu quan hệ sang RDF Bài báo này trình bày việc áp dụng R2RML vào việc chuyển đổi CSDL quan hệ sang Linked Data phục vụ cho Web Dữ liệu
Từ khóa: Linked Data, Web of Data, Semantic Web, ontology, RDF, OWL
Hiện nay phần lớn dữ liệu trên Web đang được lưu trữ trong các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) với các ưu điểm đã được chứng minh về các mặt: khả năng mở rộng, lưu trữ hiệu quả, tối ưu hóa việc thực thi các câu truy vấn, độ an toàn Tuy nhiên, các cơ sở dữ liệu quan hệ (RDB) thường là tách biệt nhau, không đồng nhất về lược đồ, thuật ngữ, định danh và mức độ chi tiết của sự biểu diễn dữ liệu, và không có tính chia sẻ Do đó, người ta đã sử dụng
kỹ thuật để chuyển đổi các dữ liệu trong RDB sang các dạng dữ liêu thô hoặc có cấu trúc, hoặc giàu ngữ nghĩa như RDF và RDFS – là cơ sở của Linked Data Việc chuyển dữ liệu sang Linked Data nhằm cung cấp một nền tảng cho việc tích hợp tất cả các nguồn dữ liệu đó trên Web dữ liệu
R2RML (Relational Database to RDF Mapping Language) là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ (RDB) sang bộ dữ liệu RDF Ánh xạ này cung cấp khả năng xem dữ liệu hiện có trong mô hình dữ liệu quan hệ RDF, được thể hiện trong một cấu trúc và từ vựng R2RML cũng được định nghĩa là một ánh xạ trực tiếp từ cơ sở dữ liệu quan hệ sang RDF Trong các ánh xạ trực tiếp của một CSDL, cấu trúc của đồ thị RDF là kết quả phản ánh trực tiếp cấu trúc của CSDL, mục từ trong từ vựng RDF phản ánh trực tiếp tên của các phần tử trong lược đồ CSDL Mỗi ánh xạ R2RML là phù hợp với một lược đồ CSDL và mục từ từ vựng Các đầu vào một ánh xạ R2RML là một cơ sở dữ liệu quan hệ phù hợp vào lược đồ đó Đầu ra là một tập dữ liệu RDF có sử dụng vị từ và các kiểu từ vựng Bài báo này trình bày việc áp dụng
Trang 2R2RML vào việc chuyển đổi CSDL quan hệ sang Linked Data phục vụ cho Web Dữ liệu, bên cạnh đó, cũng trình bày các hướng tiếp cận liên quan
Tạo các ánh xạ
Chúng ta có thể phân loại các phương pháp được sử dụng để tạo ra các ánh xạ giữa RDB
và RDF thành hai loại:
a Ánh xạ tự động:
Một tập hợp các ánh xạ giữa RDB và RDF cụ thể là:
i) Một mẫu tin RDB là một nút của RDF;
ii) Tên cột của một bảng RDB là một vị từ của RDF;
iii) Một ô của bảng RDB là một giá trị của RDF
Nhiều hệ thống sử dụng các ánh xạ tự động để ánh xạ giữa RDB và RDF với một bảng của RDB như một lớp các nút của RDF và các tên cột của RDB như là vị từ của RDF
Mặc dù các ánh xạ tự động tạo ra thường không nắm bắt được ngữ nghĩa được yêu cầu của nhiều ứng dụng, nhưng những ánh xạ này có thể là một điểm khởi đầu để tạo ra các tuỳ chọn hữu ích hơn Phương pháp này cũng cho phép các ứng dụng Web ngữ nghĩa truy vấn các nguồn RDB, nơi mà ứng dụng ngữ nghĩa được quy định về ánh xạ RDB Phương pháp này còn được gọi là "vùng ánh xạ ontology"
b Ngữ nghĩa miền - định hướng ánh xạ:
Cách tiếp cận thứ hai để tạo ra ánh xạ từ RDB sang RDF bằng cách kết hợp ngữ nghĩa miền ẩn hoặc không ẩn trong tất cả lược đồ RDB Các mô hình về ngữ nghĩa miền thường được
mô hình hóa như là một miền ontology Trong thư viện RDF, cho phép các ứng dụng phần mềm tận dụng lợi thế "thông tin thu được" và thực hiện các truy vấn liên kết các thực thể với nhau [4]
Ngoài ra, một ánh xạ được tạo ra bằng cách sử dụng ngữ nghĩa miền nhằm làm giảm việc tạo ra bộ dữ liệu dư thừa hoặc không liên quan Byrne[4] thảo luận về việc giảm kích thước của các tập dữ liệu RDF khoảng 2,8 triệu bộ thông qua việc sử dụng ngữ nghĩa theo định hướng của tên miền ánh xạ từ RDB sang RDF
Cài đặt truy vấn
Truy vấn trong các hệ thống tạo ánh xạ từ RDB sang RDF hoặc trong SPARQL được thực hiện dựa vào RDF, hoặc truy vấn SPARQL có thể được chuyển đổi thành một hoặc nhiều truy vấn SQL được thực hiện dựa vào RDB Cyganiak [4] đã thảo luận việc chuyển đổi đại số quan
Trang 3hệ của SPARQL và tiếp tục trong SQL Toán tử biểu diễn như "SELECTION" và "INNER JOIN" được thực hiện trong RDF và tương quan "đại số quan hệ RDF" đến SQL
Tích hợp dữ liệu
Mô hình RDF đại diện thông qua việc sử dụng của URI và các mối quan hệ của mô hình một cách rõ ràng giữa các thực thể làm cho nó dễ dàng hơn để tích hợp dữ liệu có hiệu quả Điều quan trọng là cần lưu ý rằng RDF không tự động giải quyết nhiều việc không đồng nhất, chẳng hạn như không đồng nhất về cấu trúc, cú pháp và ngữ nghĩa, được mô tả trong dữ liệu/thông tin tích hợp Tuy nhiên, việc sử dụng các miền ontology dựa theo các quy tắc suy luận mà người dùng định nghĩa để đối chiếu tính không đồng nhất giữa các nguồn RDB là một cách tiếp cận có hiệu quả cho việc tạo ra một hoặc một tập "tương thích" của RDF Do đó, số liệu đánh giá các phương pháp tiếp cận tạo ánh xạ khác nhau liên quan đến tích hợp dữ liệu
Trong phần này, chúng tôi phân loại các công việc khảo sát thành ba lớp lớn cụ thể là:
Các dự án nhằm chứng minh các khái niệm: Dự án xem xét trong phần này là khám phá
cách tiếp cận cụ thể để chuyển đổi ánh xạ từ RDB sang RDF với một mẫu tin hoặc chứng minh thực hiện khái niệm Công việc có thể có hoặc không có, dẫn đến việc phát triển một công cụ/ứng dụng chung
Các dự án ứng dụng theo miền: Nhiều dự án được khảo sát đã thúc đẩy bởi yêu cầu ứng
dụng thế giới thực và đã sử dụng ngữ nghĩa miền dựa vào ánh xạ tùy chọn, công cụ tạo ánh xạ dùng chung hoặc kết hợp cả hai
Công cụ/ứng dụng: Các dự án khảo sát bao gồm D2RQ, R2O, Virtuoso, Triplify và các
công cụ Dartgrid đã được đưa ra để ánh xạ RDB sang RDF
Hình 1 Mô hình cấu trúc tham chiếu cho việc chuyển đổi RDB sang RDF
Trang 43 Ngôn ngữ chuyển đổi R2RML
R2RML (Relational Database to RDF Mapping Language) là một ngôn ngữ để thể hiện ánh xạ từ các cơ sở dữ liệu quan hệ sang bộ dữ liệu RDF Ánh xạ này cung cấp khả năng xem
dữ liệu hiện có trong mô hình dữ liệu quan hệ RDF, được thể hiện theo một cấu trúc và từ vựng [10] R2RML cũng được định nghĩa là một ánh xạ trực tiếp từ cơ sở dữ liệu quan hệ sang RDF Trong các ánh xạ trực tiếp của một cơ sở dữ liệu, cấu trúc của đồ thị RDF là kết quả phản ánh trực tiếp cấu trúc của cơ sở dữ liệu, mục từ trong từ vựng RDF phản ánh trực tiếp tên của các phần tử trong lược đồ cơ sở dữ liệu Mỗi ánh xạ R2RML là phù hợp với một lược đồ cơ sở dữ liệu và mục từ từ vựng Các đầu vào một ánh xạ R2RML là một cơ sở dữ liệu quan hệ phù hợp vào lược đồ đó Đầu ra là một tập dữ liệu RDF có sử dụng vị từ và các kiểu từ vựng Ánh xạ R2RML được thể hiện dưới dạng đồ thị RDF và cú pháp Turtle
Bảng 1 Bảng qui định không gian tên
Các mục từ trong bộ từ vựng R2RML
a Lớp:
Bảng 2 Các lớp trong R2RML
rr:objectMap
Trang 5b Thuộc tính:
Bảng 3 Các thuộc tính trong R2RML
Ánh xạ bộ ba
R2RML
Trong Hình 2, Ánh xạ R2RML định nghĩa một ánh xạ từ một cơ sở dữ liệu quan hệ sang RDF Nó là một cấu trúc bao gồm một hoặc nhiều ánh xạ bộ ba[10] Bộ xử lý R2RML là một hệ thống, một ánh xạ R2RML và một cơ sở dữ liệu đầu vào nhằm cung cấp truy cập cho các dữ liệu đầu ra Đầu vào cho một ánh xạ R2RML là cơ sở dữ liệu
Phương pháp truy cập vào các dữ liệu đầu ra được cung cấp bởi một bộ xử lý R2RML tương ứng Một bộ xử lý R2RML có thể cụ thể hóa các dữ liệu đầu ra vào cho một tập tin, hoặc cung cấp truy cập ảo thông qua một giao diện để truy vấn cơ sở dữ liệu đầu vào, hoặc cung cấp bất kỳ phương tiện cho các dữ liệu đầu ra
Một bộ xử lý R2RML cũng có quyền truy cập vào môi trường thực thi bao gồm:
Kết nối SQL vào cơ sở dữ liệu đầu vào,
Sử dụng IRI trong việc giải quyết các quan hệ được tạo ra bởi các ánh xạ R2RML
Trang 6Dữ liệu R2RML là một hệ thống đầu vào của một ánh xạ R2RML, IRI và SQL, và sẽ kết nối đến một cơ sở dữ liệu đầu vào đồng thời kiểm tra sự xuất hiện của các lỗi dữ liệu Khi kiểm tra cơ sở dữ liệu đầu vào, phải báo cáo bất kỳ lỗi nào mà dữ liệu được đưa ra trong quá trình tạo ra các dữ liệu đầu ra
Hình 2 Chuyển đổi cơ sở dữ liệu quan hệ sang RDF
Ánh xạ đồ thị và từ vựng R2RML
Một ánh xạ R2RML được biểu diễn như một đồ thị RDF Nói cách khác, RDF được sử dụng không chỉ là mô hình dữ liệu của ánh xạ, mà còn là một hình thức đại diện cho ánh xạ R2RML chính nó [10]
Một đồ thị RDF đại diện cho một ánh xạ R2RML được gọi là một đồ thị ánh xạ R2RML
Từ vựng R2RML là tập hợp các IRIs được bắt đầu với
rr:namespace IRI:http://www.w3.org/ns/r2rml #
Ánh xạ mặc định
Một bộ xử lý R2RML có thể bao gồm các ánh xạ mặc định R2RML Đây là một cơ sở để xem xét lược đồ của cơ sở dữ liệu đầu vào và tạo ra một ánh xạ R2RML dưới hình thức một tài liệu ánh xạ R2RML Một ánh xạ như vậy được gọi là một ánh xạ mặc định Ánh xạ mặc định coi đầu ra của nó là đồ thị trực tiếp tương ứng với cơ sở dữ liệu đầu vào
Hình 3 Thuộc tính của các bảng logic
Trang 7Bảng logic là kết quả của một truy vấn SQL được ánh xạ tới bộ ba của RDF Một bảng logic là một trong hai trường hợp sau:
Bảng SQL hoặc khung nhìn, hoặc
Khung nhìn R2RML
Bảng logic là một truy vấn SQL hiệu quả nếu thực hiện qua kết nối SQL, sản phẩm là kết quả các nội dung của bảng logic Dòng của bảng logic là dòng trong một bảng logic.Tên cột là tên của một cột trong một bảng logic
Khung nhìn R2RML (rr:sqlQuery, rr:sqlVersion)
Khung nhìn R2RML là một bảng logic có nội dung là kết quả của việc thực hiện truy vấn SQL cho cơ sở dữ liệu đầu vào Nó được đại diện bởi nguồn tài nguyên có chính xác một thuộc
tính rr: sqlquery
R2RML đôi khi đòi hỏi phải chuyển đổi dữ liệu, tính toán, hoặc lọc trước khi tạo ra từ cơ
sở dữ liệu Điều này có thể đạt được bằng cách xác định SQL trong cơ sở dữ liệu đầu vào và đề
cập đến nó với rr:tableName
Câu lệnh truy vấn SELECT trong ngôn ngữ SQL có thể được thực hiện trên cơ sở dữ liệu đầu vào Trong câu lệnh SQL kết thúc câu lệnh truy vấn SELECT là dấu chấm phẩy Kết quả của việc thực hiện truy vấn phải không có tên cột trùng nhau Đối tượng tham chiếu cơ sở dữ liệu trong các truy vấn SQL có thể có đủ điều kiện với tên danh mục hoặc tên lược đồ
Một khung nhìn R2RML có thể có một hoặc nhiều phiên bản nhận dạng SQL Phải có IRIs
hợp lệ và được đại diện như là giá trị thuộc tính của rr:sqlVersion Định danh phiên bản SQL sau
đây chỉ ra rằng các truy vấn SQL phù hợp với Core SQL 2008
http://www.w3.org/ns/r2rml # SQL2008
Hiệu quả câu lệnh truy vấn SQL của khung nhìn R2RML là giá trị thuộc tính của
rr:sqlquery
Ví dụ: Một bảng logic của khung nhìn R2RML phù hợp với Core SQL 2008
[] rr:sqlQuery """
Select ('PHONGBAN' || Mapb) AS PHONGID, Mapb, Tenpb
from PHONGBAN
""";
rr:sqlVersion rr:SQL2008
Ánh xạ các bảng logic sang RDF với ánh xạ bộ ba
Một ánh xạ bộ ba quy định một quy tắc chuyển đổi mỗi hàng của một bảng logic có thể không có hoặc có nhiều bộ ba RDF
Các bộ ba RDF tạo ra từ một hàng trong bảng logic được chia sẽ tất cả các chủ thể
Trang 8Hình 4 Thuộc tính của ánh xạ bộ ba
Ví dụ: Ánh xạ bộ ba bao gồm cả bảng logic, ánh xạ chủ thể và ánh xạ vị từ đối tượng rr:logicalTable
[
rr:tableSchema "R2RML";
rr:tableOwner "TEST";
rr:tableName "CUSTOMER"
];
rr:subjectMap
[
rr:template"http://example.com/customer/{makh}";
rr:class exa:customer;
rr:graph <http://example.com/>;
];
rr:predicateObjectMap
[
rr:predicate customer:makh;
rr:objectMap [ rr:column "makh" ];
];
a Tạo tài nguyên với ánh xạ chủ thể
Một ánh xạ chủ thể là một thuật ngữ ánh xạ chỉ ra một quy tắc để tạo các đối tượng của
bộ ba RDF bởi một ánh xạ bộ ba
b Kiểu tài nguyên (rr:class)
Ánh xạ chủ thể có thể có một hoặc nhiều lớp IRIs Nó đại diện bởi các thuộc tính rr:class Các giá trị của thuộc tính rr:class phải thuộc IRIs Đối với mỗi thuật ngữ RDF được tạo ra bởi các ánh xạ chủ thể, RDF bộ ba với vị từ rdf:type và lớp IRI Trong ví dụ sau, đối tượng được tạo ra sẽ
được khẳng định như một thể hiện lớp customer:
rr:template"http://example.com/customer/{makh}";
Trang 9rr:class exa:customer;
rr:graph <http://example.com/>;
Ví dụ: Bảng CUSTOMER, bộ ba RDF sau đây sẽ được tạo ra:
<http://example.com/CUSTOMER/BT> rdf:type ex:CUSTOMER
c Tạo thuộc tính và giá trị ánh xạ vị từ-đối tượng
Ánh xạ vị từ - đối tượng là một chức năng tạo ra một hoặc nhiều cặp vị từ - đối tượng cho mỗi dòng của bảng logic Nó kết hợp với một ánh xạ chủ thể để tạo ra bộ ba trong ánh xạ bộ ba
Tạo các mục từ RDF với thuật ngữ ánh xạ
Một mục từ RDF là IRI hoặc một nút trống hoặc một literal Một mục từ ánh xạ là một
hàm tạo ra mục từ RDF từ một dòng của bảng logic Kết quả của hàm đó được gọi là thuật ngữ ánh xạ được tạo ra của mục từ RDF
Hình 5 Thuộc tính của các ánh xạ mục từ
Các cột tham chiếu của thuật ngữ ánh xạ là tập hợp của tên cột tham chiếu trong thuật ngữ ánh xạ và phụ thuộc vào kiểu của thuật ngữ ánh xạ
d Hằng số RDF (rr: constant)
Hằng số (constant) là một thuật ngữ ánh xạ bỏ qua các dòng của bảng logic và luôn luôn được tạo ra cùng với thuật ngữ RDF Hằng số được đại diện bởi một nguồn tài nguyên có một
thuộc tính rr:constant cố định
Hằng số là thuật ngữ có giá trị ánh xạ được thể hiện chính xác hơn bằng cách sử dụng các
thuộc tính rr:subject, rr:perdecate, rr:object và rr:graph Những lần xuất hiện của những thuộc tính
này phải được xử lý chính xác, nếu đã xuất hiện như bộ ba trong đồ thị ánh xạ thay thế:
Trang 10Bảng 4 Bảng viết tắt của bộ ba
Ví dụ: Một ánh xạ vị từ - đối tượng sử dụng một hằng số cho cả vị từ của mình và cho đối tượng của nó
[ rr: predicateMap [rr: constant rdf: type];
rr: ObjectMap [rr: constant ex: customer]];
Nếu thêm vào một ánh xạ bộ ba, thì ánh xạ vị từ - đối tượng sẽ thêm bộ ba cho tất cả các nguồn tài nguyên ?x tạo ra bởi ánh xạ bộ ba:
? x rdf:type ex:customer
e Từ một cột (rr: column)
Giá trị cột của thuật ngữ ánh xạ là một thuật ngữ ánh xạ đại diện bởi một nguồn tài
nguyên có một thuộc tính chính xác rr:column Giá trị của thuộc tính rr:column là một tên cột
hợp lệ Giá trị cột là giá trị dữ liệu của cột trong một dòng của bảng logic nhất định
Cột tham chiếu là một tập hợp đơn có chứa các giá trị của thuộc tính rr:column
Ví dụ: Định nghĩa một ánh xạ đối tượng được tạo ra từ cột Tenkh của một số bảng logic Customer
[ ] rr:ObjectMap [rr: column"Tenkh"]
Sử dụng hàng có sẵn từ bảng CUSTOMER như một dòng của bảng logic, giá trị cột của ánh xạ đối tượng sẽ là "CTy Thanh Thanh"
f Từ một Template (rr:template)
Template là một ánh xạ được đại diện bởi một nguồn tài nguyên có chính xác trong thuộc
tính rr: template Giá trị của thuộc tính rr:template phải là một chuỗi template hợp lệ Một chuỗi
template là một chuỗi định dạng có thể được sử dụng để xây dựng chuỗi từ nhiều thành phần
Nó có thể tham chiếu các tên cột bằng cách đóng nó trong dấu ngoặc nhọn ("{" và "}")
Ví dụ: Định nghĩa một ánh xạ chủ thể tạo ra IRI từ cột makh của một bảng logic
rr:subjectMap
[ rr:template "http://example.com/customer/{makh}"; ]
Sử dụng dòng từ bảng CUSTOMER như một dòng của bảng logic, giá trị template của
ánh xạ chủ thể sẽ là: http://example.com/customer/BT
Ví dụ: một giá trị template IRI được tạo ra:
rr:subjectMap [ rr:template "http://example.com/customer/{makh}";]