Logic mô tả cung cấp khả năng biểu diễn tri thức thông qua các khái niệm, các quan hệ và các luật cú pháp tương ứng với khả năng của từng ngôn ngữ.. Chương này em trình bày về các nội d
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan bản luận văn này là kết quả nghiên cứu của bản thân tôi dưới sự hướng dẫn của Ts.Trần Đình Khang Nếu có gì sai phạm tôi xin hoàn toàn chịu trách nhiệm
Người làm cam đoan
Vũ Minh Yến
Trang 2MỤC LỤC
Trang
DANH SÁCH BẢNG 5
DANH SÁCH HÌNH VẼ 6
LỜI NÓI ĐẦU 7
LỜI CẢM ƠN 9
Chương 1 TỔNG QUAN VỀ LOGIC MÔ TẢ 1.1 Giới thiệu 10
1.2 Cú pháp logic mô tả 11
1.3 Ngữ nghĩa 15
1.4 Cơ sở tri thức và chuẩn hoá 16
1.4.1 Bộ thuật ngữ (TBox) 17
1.4.2 Bộ quan hệ (RBox) 20
1.4.3 Bộ khẳng định (ABox) 22
1.4.4 Cơ sở tri thức 22
1.5 Kiến trúc hệ logic mô tả 23
1.6 Các thủ tục quyết định trong logic mô tả 24
1.7 Giải thuật tableaux 27
1.8 Tổng kết chương 31
Chương 2 LOGIC MÔ TẢ ỨNG DỤNG TRONG WEB NGỮ NGHĨA 2.1 Tổng quan về web ngữ nghĩa 33
2.1.1 Nguồn gốc và mục tiêu của web ngữ nghĩa 33
2.1.2 Web ngữ nghĩa là gì? 35
2.1.3 Kiến trúc của web ngữ nghĩa 39
2.2 Nội dung xây dựng web ngữ nghĩa 44
Trang 32.2.1 Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu (XML) và
các siêu dữ liệu (RDF) trên Web 44
2.2.2 Chuẩn hoá các ngôn ngữ biểu diễn Ontology cho Web ngữ nghĩa 45
2.2.3 Phát triển nâng cao Web ngữ nghĩa 45
2.3 Logic mô tả là cơ sở logic của web ngữ nghĩa 46
2.3.1 Tại sao lại là Logic mô tả? 48
2.3.2 Logic mô tả là cơ sở của ngôn ngữ Ontology 52
2.4 Tổng kết chương 55
Chương 3 NGÔN NGỮ OWL DL 3.1 Khái niệm về ontology 56
3.2 Ngôn ngữ SHOIN(D) 60
3.2.1 Miền cụ thể 60
3.2.2 Cú pháp 61
3.2.3 Ngữ nghĩa 64
3.3 Ngôn ngữ OWL DL 66
3.3.1 Cú pháp 67
3.3.2 Ngữ nghĩa 70
3.4 Tổng kết chương 70
Chương 4 VÍ DỤ MINH HOẠ 4.1 Giới thiệu về công cụ PROTÉGÉ và bộ lập luận RACER 71
4.1.1 Công cụ PROTÉGÉ 71
4.1.2 Bộ lập luận RACER 72
4.2 Sử dụng công cụ Protégé và bộ lập luận RACER để hỗ trợ phát triển Web ngữ nghĩa trên cơ sở logic mô tả 73
4.2.1 Hỗ trợ xây dựng Ontology 73
Trang 44.3 Tổng kết chương 79
KẾT LUẬN 80
DANH SÁCH THUẬT NGỮ 81
TÀI LIỆU THAM KHẢO 83
Trang 53.7 Một Ontology ví dụ trong cú pháp trừu tượng của OWL DL 69
Trang 6DANH SÁCH HÌNH VẼ
2.2 Sơ đồ phát triển tính thông minh của dữ liệu 37
4.6 Thứ bậc các khái niệm trước và sau khi phân lớp 76
Trang 7LỜI NÓI ĐẦU
Trong thời gian gần đây, logic mô tả được nhắc đến như một loại hình biểu diễn tri thức hiệu quả Logic mô tả cung cấp khả năng biểu diễn tri thức thông qua các khái niệm, các quan hệ và các luật cú pháp tương ứng với khả năng của từng ngôn ngữ Logic mô tả ngày càng được phát triển và ứng dụng rộng rãi trong các hệ thống ứng dụng thông minh Một trong số những hướng nghiên cứu chính được quan tâm dựa trên ý tưởng biểu diễn tri thức theo lĩnh vực và phải được đặc trưng hóa thành các lớp đối tượng và mối quan hệ giữa chúng, các lớp được sử dụng để mô tả lĩnh vực quan tâm được tổ chức theo cấu trúc phân cấp Bên cạnh khả năng hỗ trợ biểu diễn thông tin một cách hiệu quả, logic mô tả còn cho phép thực hiện các dịch vụ suy diễn với độ phức tạp tính toán phù hợp
Cùng với các ứng dụng trong nhiều lĩnh vực như: mô hình hoá, xử lý ngôn ngữ tự nhiên, công nghệ phần mền, y học, logic mô tả đang rất được các nhà nghiên cứu quan tâm ứng dụng trong quá trình phát triển Web ngữ nghĩa Web ngữ nghĩa là một hệ thống Web mới đang được xây dựng với ý tưởng quản lý hiệu quả nguồn tài nguyên khổng lồ của World Wide Web hiện tại và trong tương lai, cho phép máy có thể hiểu được các tài nguyên và
có thể xử lý một cách tự động Logic mô tả hỗ trợ thiết kế, tích hợp và triển khai Ontology, mà Ontology có thể hiểu là một bộ từ vựng để biểu diễn ngữ nghĩa tài liệu Web Ontology có vai trò then chốt để máy có thể hiểu được tài nguyên trên Web Logic mô tả đóng vai trò là nền tảng logic để xây dựng các ngôn ngữ biểu diễn Ontology và khả năng lập luận mạnh của nó đảm bảo chất lượng của các Ontology ứng dụng trong Web ngữ nghĩa Hiện nay đã có một
số hệ thống thử nghiệm nhằm biểu diễn ngữ nghĩa tài nguyên Web trên cơ sở logic mô tả như: RACER, FACT, PROPÉTÉ,
Trang 8Trong luận văn này, em đã tìm hiểu về logic mô tả và khả năng ứng dụng của nó trong Web ngữ nghĩa theo bố cục như sau:
Chương 1 Tổng quan về logic mô tả Chương này em trình bày về các
nội dung cơ bản liên quan đến logic mô tả như: cú pháp, ngữ nghĩa của các ngôn ngữ logic mô tả cơ sở như AL, ALC, S; kiến trúc một hệ logic mô tả; các bài toán quyết định trong logic mô tả và các thuật toán tableaux cho bài toán thoả của ngôn ngữ ALC và ngôn ngữ S
Chương 2 Logic mô tả ứng dụng trong Web ngữ nghĩa Chương này
trình bày tổng quan về Web ngữ nghĩa như: nguồn gốc, vai trò, mục tiêu của Web ngữ nghĩa; bản chất của Web ngữ nghĩa là gì; các nội dung xây dựng Web ngữ nghĩa Tiếp theo, là trình bày về vai trò của logic mô tả trong quá trình xây dựng Web ngữ nghĩa
Chương 3 Ngôn ngữ OWL Chương này giới thiệu một ngôn ngữ biểu
diễn Ontology trên Web ngữ nghĩa (OWL DL), ngôn ngữ này sử dụng nền tảng cơ sở là logic mô tả SHOIN(D)
Chương 4 Ví dụ minh hoạ Chương này em đưa ra một ví dụ về hỗ trợ
của logic mô tả trong việc xây dựng, phát triển Ontology, và ứng dụng trong Web ngữ nghĩa trên công cụ Protégé có kết hợp với bộ lập luận RACER
Do thời gian tìm hiều và nghiên cứu về logic mô tả và về Web ngữ nghĩa còn hạn chế nên trong luận văn còn có những thiếu sót Em rất mong được sự đánh giá và góp ý bổ sung của các thầy giáo, cô giáo và các bạn để luận văn được hoàn thiện hơn
Hà nội, ngày tháng 11 năm 2005
HỌC VIÊN THỰC HIỆN
Trang 9LỜI CẢM ƠN
Em xin chân thành gửi lời cảm ơn đến các thày cô giáo khoa Công nghệ thông tin trường Đại học Bách khoa Hà Nội đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại trường
Em xin gửi lời cảm ơn sâu sắc tới thầy giáo, Ts Trần Đình Khang, người đã trực tiếp hướng dẫn, chỉ bảo, giúp đỡ em hoàn thành luận văn này
Em xin chân thành cảm ơn!
Trang 10Chương 1 TỔNG QUAN VỀ LOGIC MÔ TẢ
1.1 Giới thiệu
Logic mô tả đầu tiên được phát triển nhằm cung cấp ý nghĩa cho các mạng ngữ nghĩa, đã đưa ra các biểu diễn được cấu trúc và các biểu diễn này
có thể được kết hợp với các công cụ lập luận cho hiệu quả cao
Trước đây, "logic mô tả" được đề cập đến dưới các tên khác như "ngôn ngữ biểu diễn tri thức thuật ngữ" hay "ngôn ngữ khái niệm" Tương ứng với từng tên là những sự quan tâm khác nhau Với "ngôn ngữ biểu diễn tri thức thuật ngữ", người ta muốn nói đến ngôn ngữ dùng để biểu diễn các tri thức thông qua việc xây dựng các thuật ngữ trong miền ứng dụng Hay với "ngôn ngữ khái niệm", người ta lại nói tới ngôn ngữ để hình thành khái niệm Hiện nay, khi những chú ý được chuyển vào các tính chất nằm trong các hệ logic thì cái tên logic mô tả đã trở nên quen thuộc
Logic mô tả được ứng dụng đặc biệt hiệu quả trong các hệ thống thông minh, và gần đây với ý tưởng xây dựng hệ thống web thế hệ mới: web ngữ nghĩa, với mục đích tăng khả năng liên kết giữa các trang web và khả năng hiểu nội dung các tài liệu web của máy tính, logic mô tả đóng vai trò là nền tảng logic để bổ sung ngữ nghĩa và đã thu hút được sự quan tâm của rất nhiều nhà nghiên cứu trong lĩnh vực này
Logic mô tả cung cấp khả năng biểu diễn tri thức và suy diễn để rút ra được các tri thức đúng đắn trong miền ứng dụng Việc biểu diễn tri thức được xây dựng từ các khái niệm, các quan hệ nguyên thuỷ và các luật xây dựng khái niệm Các luật này được gọi là ngôn ngữ xây dựng khái niệm Bên cạnh
Trang 11giữa các khái niệm, các quan hệ với các cá thể hay giữa các cá thể với nhau Logic mô tả còn cung cấp khả năng lập luận và suy diễn các tri thức được biểu diễn ở trên Khả năng biểu diễn tri thức tỉ lệ thuận với độ phức tạp tính toán của các dịch vụ suy diễn của hệ logic mô tả tương ứng Để xây dựng một
hệ thống logic mô tả người ta đã tổng kết lại ba bước quan trọng sau:
- Xác định các khái niệm từ các khái niệm nguyên thuỷ, các quan hệ nguyên thuỷ và các cá thể ban đầu
- Sử dụng một ngôn ngữ xây dựng khái niệm để hình thành những khái niệm phức tạp
- Sử dụng các thủ tục suy luận để rút ra những tri thức đúng đắn về các khái niệm và các cá thể nếu có thể Chủ yếu là quan hệ bao hàm giữa hai khái niệm hoặc quan hệ giữa các cá thể và khái niệm hay giữa một cặp cá thể và một quan hệ
Tóm lại, logic mô tả là họ của các hệ hình thức biểu diễn tri thức cơ sở logic, được thiết kế để biểu diễn và lập luận tri thức của một miền ứng dụng bằng phương pháp có cấu trúc Chúng dựa trên một họ ngôn ngữ chung được gọi là ngôn ngữ mô tả, cung cấp một tập các toán tử để xây dựng các khái niệm (tương ứng là các lớp) và các mô tả quan hệ (hay thuộc tính) Các mô tả
đó có thể được sử dụng trong các tiên đề và các khẳng định của cơ sở tri thức logic mô tả và có thể được lập luận về cơ sở tri thức logic mô tả bằng các hệ thống logic mô tả
1.2 Cú pháp logic mô tả
Cơ sở của logic mô tả là các mô tả khái niệm và mô tả quan hệ, thường gọi tắt là khái niệm và quan hệ Một cách trực quan, một khái niệm biểu diễn một lớp các đối tượng có chung một số đặc trưng, một quan hệ biểu diễn một
Trang 12quan hệ hai ngôi giữa các đối tượng hoặc giữa các đối tượng với các giá trị dữ
liệu Ví dụ: ConNguoi là một khái niệm, Cocon là một quan hệ
Một ngôn ngữ mô tả bao gồm: các khái niệm (kí hiệu: C), các quan hệ (kí hiệu:R) và các cá thể (kí hiệu: I), cùng với một tập các toán tử (các luật cú pháp) để xây dựng các mô tả khái niệm và quan hệ còn gọi là các khái niệm, các quan hệ phức Như vậy, ta có thể xây dựng các khái niệm phức, các quan
hệ phức từ các khái niệm, các quan hệ cơ sở ban đầu, các khái niệm và các quan hệ cơ sở này được gọi là các khái niệm nguyên thuỷ và các quan hệ nguyên thuỷ Các khái niệm và các quan hệ phức có thể được đặt tên là một xâu vắn tắt để tiện sử dụng
Các ngôn ngữ mô tả phân biệt với nhau bằng các luật cú pháp mà chúng cung cấp Ngôn ngữ mô tả đầu tiên được gọi là ngôn ngữ thuộc tính
AL, là ngôn ngữ mô tả có các luật cú pháp đơn giản nhất
Ngôn ngữ thuộc tính AL
Họ ngôn ngữ mô tả ban đầu xuất phát từ ngôn ngữ mô tả đơn giản nhất
là ngôn ngữ thuộc tính AL Các luật cú pháp của ngôn ngữ AL bao gồm:
C, D A Khái niệm nguyên thuỷ
Т Khái niệm đỉnh
A Phủ định khái niệm
R.C Lượng từ với mọi
R.Т Lượng từ tồn tại
Bảng 1.1 Cú pháp ngôn ngữ thuộc tính AL
Trang 13Để tăng khả năng xây dựng các khái niệm phức tạp, người ta mở rộng
ngôn ngữ AL bằng cách bổ sung thêm các luật cú pháp, và mỗi luật cú pháp mới được kí hiệu là một chữ cái được viết sau AL, khi đó ngôn ngữ mô tả mở rộng có dạng: AL[U][][N[C]
Ví dụ 1.1 Mô tả lại cách sử dụng các luật cú pháp trên để xây dựng các
khái niệm phức hợp, đó là các khái niệm trong gia đình Trong đó, có sử dụng
hai khái niệm nguyên thuỷ là con người "ConNguoi", giống cái "GiongCai"
và sử dụng một quan hệ nguyên thuỷ là có con "cocon"
Bảng 1.3 Các khái niệm trong gia đình
Nu ConNguoi ⊓ GiongCai Nam ConNguoi ⊓ Nu
Me Nu ⊓ cocon.ConNguoi Cha Nam ⊓ cocon.ConNguoi ChaMe Cha ⊔ Me
Ba Me ⊓ cocon.ChaMe Ong Cha ⊓ cocon.ChaMe
⊓
Trang 14Ngôn ngữ S
Trong các ngôn ngữ logic mô tả gần đây, người ta coi ngôn ngữ S thường được sử dụng như là ngôn ngữ tối thiểu, nó tương đương với ngôn
ngữ ALC R+ theo quy ước ở trên Có nghĩa là ngôn ngữ S có các luật cú pháp
của ALC và có bổ sung thêm các tiên đề quan hệ bắc cầu
Cú pháp của ngôn ngữ S như sau:
C, D A Khái niệm nguyên thuỷ
Т Khái niệm đỉnh
C (C) Phủ định bất kỳ C⊓D Giao khái niệm C⊔D (U) Hợp khái niệm
R.C Lượng từ với mọi
R.C () Lượng từ tồn tại đầy đủ Bảng 1.4 Cú pháp ngôn ngữ S
Các khái niệm trong Bảng 1.3 cũng thuộc ngôn ngữ S
Ngôn ngữ S cho phép xây dựng các khái niệm từ các quan hệ nguyên thuỷ và các khái niệm nguyên thuỷ nhưng không cung cấp các toán tử để xây dựng những quan hệ phức hợp của S Các ngôn ngữ được mở rộng từ ngôn ngữ S bằng cách bổ sung thêm các luật cú pháp để tăng khả năng biểu diễn của ngôn ngữ mô tả, và các ngôn ngữ đó được gọi là họ ngôn ngữ S Họ ngôn ngữ S bao gồm: SH, mở rộng với các tiên đề bao hàm quan hệ; SHI, mở rộng
Trang 15từ SH và bổ sung thêm các quan hệ đảo; SHf: mở rộng từ SH với các tiên đề
quan hệ hàm (f); SHIO, mở rộng từ SH với các nominal (O) và các quan hệ
đảo (I); SHOIN, mở rộng từ SHIO với các lượng tử số (N),
1.3 Ngữ nghĩa
Bên cạnh việc định nghĩa ra các khái niệm, ta cũng cần phải có một cách hiểu "có ngữ nghĩa" về từng khái niệm được tạo ra Ngữ nghĩa của khái niệm trong logic mô tả có được nhờ vào các phép thông dịch
Định nghĩa 1.1 Mỗi phép thông dịch, kí hiệu là I, là một cặp (I
, I ) Trong
đó, I
là một tập khác rỗng, còn I là một hàm dịch Hàm dịch I biến mỗi khái niệm A thành một tập A II , biến mỗi quan hệ hai ngôi R thành một quan hệ R II I , biến một cá thể i thành i I
Trang 16Ví dụ 1.2: Diễn dịch một khái niệm ngôn ngữ S
Cho khái niệm nguyên thuỷ: Thucvat (thực vật) và các quan hệ nguyên thuỷ: an (ăn), motphancua(một phần của), thuộc ngôn ngữ S Từ Bảng 1.4 ta
có an ( Thucvat ⊔ motphancua.Thucvat) là một khái niệm của S
Chúng ta sẽ tìm ngữ nghĩa cho khái niệm
an (Thucvat ⊔ motphancua Thucvat)
Áp dụng Bảng 1.5 ta có:
(motphancua Thucvat)I =
(Thucvat ⊔ motphancua.Thucvat)I = ThucvatI(motphancua.Thucvat)I = {co1}
an.(Thucvat ⊔ motphancua.Thucvat)I={ Ganesh, Balavan, co1, qua1} Lưu ý rằng Blavan, co, qua không quan hệ với bất kỳ cái gì thông qua quan hệ an, theo định nghĩa của lượng tử với mọi đầy đủ (bảng 1.4) tất cả
chúng là các cá thể thuộc khái niệm an (Thucvat ⊔ motphancua Thucvat)
1.4 Cơ sở tri thức và chuẩn hoá
Đặc trưng của một cơ sở tri thức gồm hai thành phần là: tri thức nội hàm ( bộ thuật ngữ và bộ quan hệ - TBox và RBox) và tri thức mở rộng (bộ
khẳng định - ABox) Tri thức nội hàm là tri thức tổng quát về các khái niệm,
Trang 17các quan hệ, các luật cú pháp để xây dựng các khái niệm và quan hệ phức của miền ứng dụng Còn tri thức mở rộng là tri thức về các tình huống cụ thể
1.4.1 Bộ thuật ngữ (TBox)
Một cách trực quan, một TBox là một tập các mệnh đề biểu diễn mối quan hệ của các khái niệm với nhau Ví dụ:
(ConNguoi ⊓ GiongCai ⊓ cocon.ConNguoi ) ⊐ Chame
Một TBox được định nghĩa một cách hình thức như sau:
Định nghĩa 1.2 Cho L là một hệ logic mô tả, C, D là các khái niệm của L,
một TBox (T) là một tập hữu hạn, có thể rỗng của các mệnh đề có dạng C ⊐
D, được gọi là các bao hàm khái niệm.Và CD được gọi là tương đương khái niệm, là sự ước lược của C ⊐ D và D ⊐ C Các mệnh đề trong T được gọi là các tiên đề thuật ngữ
Một tương đương khái niệm nếu vế trái là một tên khái niệm mới, chỉ xuất hiện không quá một lần bên vế trái (được gọi là ký hiệu tên) trong các tiên đề của TBox và vế phải là một biểu thức các khái niệm (ký hiệu gốc) thì
được gọi là một định nghĩa khái niệm
Về mặt ngữ nghĩa: Một diễn dịch I được gọi là thoả bao hàm khái
niệm C ⊐ D hay I là mô hình của C ⊐ D (kí hiệu là I |= C ⊐ D) nếu CI DI
và I thoả một tương đương khái niệm CD nếu CI
=DI Một diễn dịch I thoả một TBox T (kí hiệu: I |= T) nếu nó thoả mãn tất cả các tiên đề thuật ngữ
trong T, I là mô hình của TBox
Thuật ngữ trong TBox có thể chứa chu trình Một chu trình thuật ngữ trong một TBox là một bao hàm khái niệm đệ quy, ví dụ: Connguoi ⊐ Cochame.Connguoi hay một hoặc nhiều bao hàm khái niệm
Trang 18đệ quy như: {Connguoi ⊐ Cochame.Me, Me ⊐ Cocon.Connguoi} Tuy nhiên, nếu ta có hai khái niệm A,B C và {A⊐B, B⊐A} thì đây không phải là chu trình thuật ngữ mà tương đương với một tương đương khái niệm AB
Lập luận của một cơ sở tri thức với sự có mặt của TBox sẽ phức tạp hơn nhiều khi không có mặt của TBox, đặc biệt là TBox có chứa chu trình
Xét TBox không chứa chu trình, để lập luận được dễ dàng hơn, người
ta thực hiện chuẩn hoá TBox
Chuẩn hoá TBox
Một TBox được chuẩn hoá khi tất cả các tiên đề trong TBox đều ở dạng định nghĩa khái niệm Như vậy, để TBox được chuẩn hoá, ta thay các bao hàm khái niệm bằng các định nghĩa khái niệm Cụ thể, nếu có bao hàm khái
niệm C ⊐ D ta sẽ thay bằng một định nghĩa khái niệm CC⊓D với C là một khái niệm nguyên thuỷ mới được thêm vào
Ví dụ 1.3:
Giả sử ta có một bao hàm khái niệm: Nu ⊐ Connguoi, ta thay bằng một định nghĩa khái niệm: Nu=Nu⊓ Connguoi , trong đó khái niệm Nu là một khái niệm nguyên thuỷ mới được thêm vào, đặc trưng cho những tính
chất để có thể phân biệt một người phụ nữ (ứng với khái niệm Nu) trong các đối tượng là con người (tương ứng với khái niệm Connguoi), do đó khái niệm
Nu có thể đặt lại là Giongcai, khi đó ta có: Nu=Giongcai ⊓ Connguoi, và khái niệm Giongcai là khái niệm nguyên thuỷ mới được thêm vào
Đối với một TBox không chứa chu trình, quá trình chuẩn hoá sẽ dừng sau một số hữu hạn bước và quá trình này cũng được gọi là quá trình mở rộng
Trang 19bộ thuật ngữ Việc mở rộng bộ thuật ngữ là đúng đắn nếu bộ thuật ngữ sau tương đương với bộ thuật ngữ ban đầu và thoả mãn các mệnh đề sau:
Mệnh đề 1.1
Gọi T là một bộ thuật ngữ không chứa chu trình và T' là bộ thuật ngữ
mở rộng của nó, khi đó:
- T và T' có cùng các ký hiệu tên và các ký hiệu gốc
- T và T' tương đương nhau
Ví dụ 1.4: Mở rộng bộ thuật ngữ trong Bảng 1.3
Bảng 1.5 Mở rộng các khái niệm trong gia đình
Bảng 1.6 Mở rộng các khái niệm trong gia đình
Nu ConNguoi ⊓ GiongCai
Nam ConNguoi ⊓ (ConNguoi ⊓ GiongCai)
Me (ConNguoi ⊓ GiongCai) ⊓ cocon.ConNguoi
Cha ConNguoi ⊓ (ConNguoi ⊓ GiongCai) ⊓
cocon.ConNguoi ChaMe (ConNguoi ⊓ (ConNguoi ⊓ GiongCai) ⊓
cocon.ConNguoi) ⊔ ((ConNguoi ⊓ GiongCai) ⊓
cocon.ConNguoi)
Ba (ConNguoi ⊓ GiongCai) ⊓ cocon.ConNguoi ⊓
cocon ((ConNguoi ⊓ (ConNguoi ⊓ GiongCai) ⊓
cocon.ConNguoi) ⊔ ((ConNguoi ⊓ GiongCai) ⊓
cocon.ConNguoi)) Ong ConNguoi ⊓ (ConNguoi ⊓ GiongCai) ⊓
cocon.ConNguoi ⊓ cocon ((ConNguoi ⊓
(ConNguoi ⊓ GiongCai) ⊓ cocon.ConNguoi) ⊔((ConNguoi⊓ GiongCai) ⊓ cocon.ConNguoi))
Trang 20Cơ sở lý thuyết để đảm bảo sự đúng đắn về ngữ nghĩa cho quá trình chuẩn hoá được thể hiện trong mệnh đề sau
Mệnh đề 1.2 Gọi T là một bộ thuật ngữ không có chu trình và T là bộ thuật ngữ chuẩn hoá của nó, khi đó:
- Mọi mô hình của T cũng là mô hình của T
- Với mỗi mô hình I của T có một mô hình I của T mà có cùng miền với I và chấp nhận I về các khái niệm và các luật trong T
1.4.2 Bộ quan hệ (RBox)
Một cách trực quan, một bộ quan hệ (RBox) là một tập các mệnh đề về các đặc trưng của các quan hệ Một RBox có thể bao gồm các mệnh đề xác nhận rằng một quan hệ là hàm, hoặc bắc cầu hay trong một mối quan hệ bao hàm Ví dụ: một người thì có nhiều nhất một người cha, ta có thể nói quan hệ
Cocha là một quan hệ hàm; giả sử ta có: "x có tổ tiên là y, y có tổ tiên là z, do
đó x có tổ tiên là z", khi đó ta nói quan hệ cototien là quan hệ bắc cầu; tương
tự ta có một tiên đề quan hệ bao hàm như: coCha⊐ cototien
Một bộ quan hệ được định nghĩa một cách hình thức như sau:
Định nghĩa 1.3 Cho L là một logic mô tả, N, S R là các quan hệ nguyên thuỷ, R1, R2 là các quan hệ của L, một RBox (R) là một tập hữu hạn có thể rỗng các mệnh đề có dạng:
- Func(N) hoặc N F, trong đó FR là một tập các quan hệ hàm, hoặc
- Trans(S) hoặc S R + , trong đó R +R là một tập các quan hệ bắc cầu, hoặc
Trang 21- R1⊐ R2, được gọi là một bao hàm quan hệ; R1 R2 được gọi là tương đương quan hệ, là một sự rút gọn của R1⊐ R2 và R2 ⊐ R1
Các mệnh đề trong RBox được gọi là các tiên đề quan hệ Các loại tiên
đề quan hệ xuất hiện trong RBox phụ thuộc vào khả năng biểu diễn của L
Một diễn dịch I thoả một bao hàm quan hệ R1⊐ R2 (kí hiệu là:
I |= R1⊐ R2) nếu R1 IR2 I và thoả một tương đương quan hệ R1 R2 (kí hiệu: I |= R1 R2) nếu R1 I = R2 I
Một diễn dịch I thoả một RBox R (kí hiệu: I |= R) nếu nó thỏa tất cả các tiên đề quan hệ trong R, khi đó I được gọi là mô hình của RBox R
Rất nhiều ngôn ngữ logic mô tả (như ALC, ) không cung cấp bất kỳ
một tiên đề quan hệ nào Do vậy, RBox không được coi là một thành phần trong cơ sở tri thức Tuy nhiên, đối với họ ngôn ngữ S, RBox là một thành phần rất quan trọng trong cơ sở tri thức, vì chính nó cung cấp các tiên đề quan
hệ bắc cầu Trong một số hệ logic mô tả người ta có thể gộp luôn hai khái niệm TBox và RBox ở trên thành một TBox mới Như vậy, cơ sở tri thức chỉ gồm có TBox (bao gồm cả RBox) và ABox
Cũng giống như các luật cú pháp, mỗi loại tiên đề quan hệ sẽ được đặc
trưng bởi một kí tự đặc biệt, như: f - các tiên đề quan hệ hàm, R+ - các tiên đề
Trang 22bắc cầu và H- các tiên đề bao hàm quan hệ Ngôn ngữ S hay còn gọi là ALCR+,
nếu S mở rộng với các tiên đề bao hàm quan hệ thì ta có logic mô tả SH, hay cung cấp thêm các tiên đề quan hệ hàm ta có: SHf,
1.4.3 Bộ khẳng định (ABox)
Thành phần thứ ba của cơ sở tri thức DL là bộ khẳng định (ABox), hay chính là mô tả thể giới Bộ khẳng định chứa các mô tả trạng thái các cá thể với các khái niệm, các quan hệ trong một miền ứng dụng
Ví dụ 1.5:
co: Thucvat
<Ganesh, co>:an, <Bokhara, qua>: an
Một bộ khẳng định được định nghĩa một cách hình thức như sau:
Định nghĩa 1.4 Cho L là logic mô tả, a,bI là các cá thể, C là một khái niệm của L, và R là một quan hệ của L Một ABox (A) là một tập hữu hạn có thể rỗng của các mệnh đề có dạng: aC, được gọi là khẳng định khái niệm hoặc có dạng: <a, b>: R, được gọi là khẳng định quan hệ Các mệnh đề trong A được gọi là các khẳng định (hay các tiên đề cá thể)
Xét về mặt ngữ nghĩa: Một diễn dịch I thoả một khẳng định khái niệm
a: C (kí hiệu: I |= a: C) nếu a I C I , và I thoả một khẳng định quan hệ
<a, b>: R (kí hiệu: I |= <a, b>: R) nếu <a I , b I > R I Một diễn dịch I thoả một ABox A (kí hiệu: I |= A) nếu I thoả tất cả các khẳng định trong A và I là
mô hình của ABox
1.4.4 Cơ sở tri thức
Định nghĩa 1.5 Một cơ sở tri thức là một bộ ba <T, R, A>, trong đó T là một TBox, R là một RBox và A là một ABox
Trang 23Một diễn dịch I thoả một cơ sở tri thức , kí hiệu là I |= , nếu nó thoả
cả ba thành phần là T, R, A và I được gọi là mô hình của cơ sở tri thức Cơ
sở tri thức là thoả (hay không thoả), kí hiệu |≠ (|= ) nếu có tồn tại (hoặc không tồn tại) một diễn dịch I thoả
1.5 Kiến trúc hệ logic mô tả
Hệ logic mô tả là các hệ thống thông tin có sử dụng logic mô tả để biểu diễn tri thức về miền của ứng dụng Các hệ này sử dụng khả năng biểu diễn mạnh mẽ của logic mô tả kết hợp với hệ thống lập luận để tạo nên khả năng hoạt động của chúng Nhờ vào các ngôn ngữ mô tả, người ta có thể xây dựng nên những hệ thống khái niệm của lĩnh vực ứng dụng, tức là thực hiện quá trình phân loại các khái niệm giống như con người Sự có mặt của các cá thể giống như những thông tin cụ thể về miền ứng dụng mà hệ thống có sử dụng Hình 1.1 sau, mô tả kiến trúc chung của một hệ logic mô tả
Hình 1.1 Kiến trúc của hệ logic mô tả
Trang 241.6 Các thủ tục quyết định trong logic mô tả
Hiệu quả chính mà một hệ logic mô tả mang lại là khả năng cung cấp các dịch vụ suy diễn Nếu xét trên một khía cạnh nào đó, ta có thể hiểu như khả năng cung cấp này là khả năng hệ có thể trả lời các câu hỏi từ phía người
sử dụng Vì độ phức tạp tính toán trong hầu hết các thủ tục suy diễn mà hệ có thể cung cấp tỉ lệ thuận với khả năng biểu diễn của hệ nên đa số các thủ tục được nghiên cứu và cài đặt có hiệu quả là các thủ tục quyết định
Có bốn bài toán quyết định quan trọng sẽ được đề cập đến là: bài toán thoả, bài toán bao hàm, bài toán tương đương và bài toán không giao Các bài toán được định nghĩa lần lượt như sau, với kí hiệu cho bộ thuật ngữ TBox là
T
- Bài toán thoả: Khái niệm C là thoả theo T nếu như tồn tại một mô
hình I của mà C I Khi đó, ta cũng nói rằng I là mô hình của C
- Bài toán bao hàm: Khái niệm C bị bao bởi khái niệm D theo T nếu
như với mọi mô hình I của T, ta có C I D I Khi đó ta kí hiệu là C ⊐T D hoặc
- Bài toán không giao: Hai khái niệm C và D là không giao nhau theo
T nếu như C I D I = với mọi mô hình I của T
Ví dụ 1.6: Xét bộ thuật ngữ trong bảng 1.3, ta có khái niệm ConNguoi bao
hàm khái niệm Nam và Nu Khái niệm ChaMe bao hàm khái niệm Cha và Me Khái niệm Me bao hàm khái niệm Ba, Ngoài ra, hai khái niệm Nam và Nu
Trang 25Trong các bài toán suy diễn này, có hai vấn đề cần quan tâm Thứ nhất
là ta có thể chuyển các bài toán này về dạng bài toán bao hàm hoặc về dạng bài toán không thoả Điều đó có nghĩa là ta chỉ cần có một thủ tục quyết định cho bài toán bao hàm hoặc bài toán thoả là đã có thể giải quyết được cho các bài toán còn lại Trên thực tế, các hệ logic mô tả thường chỉ cung cấp cơ chế kiểm tra cơ bản đối với bài toán bao hàm khái niệm Điều này là đủ để thực hiện các suy luận còn lại dựa vào mệnh đề sau (giảm về bài toán bao hàm)
Mệnh đề 1.3 Chuyển về bài toán bao hàm
Ta xét hai khái niệm C và D
- Bài toán C là không thoả bài toán bao hàm C bị bao bởi
- Bài toán C tương đương với D bài toán bao hàm C bị bao hàm bởi
cơ sở lý thuyết của các hệ này (giảm về bài toán không thoả)
Mệnh đề 1.4 Chuyển về bài toán không thoả
Ta xét hai khái niệm C và D
- Bài toán C bị bao bởi D Bài toán C ⊓D là không thoả
- Bài toán C tương đương với D Bài toán C ⊓ D là không thoả
và D⊓ C là không thoả
- Bài toán C không giao với D Bài toán C ⊓D là không thoả
Trang 26Vấn đề thứ hai là loại bỏ bộ thuật ngữ TBox, vì sự có mặt của bộ thuật
ngữ trong các thủ tục suy diễn chỉ làm phức tạp thêm Người ta loại bỏ ảnh hưởng của TBox trong các bài toán quyết định bằng cách sử dụng bộ thuật ngữ mở rộng Như đã được trình bày ở trên, bộ thuật ngữ mở rộng chỉ chứa các thuật ngữ là định nghĩa khái niệm với vế trái là các khái niệm mới (các ký hiệu tên), còn vế phải là các khái niệm nguyên thuỷ hoặc quan hệ nguyên thuỷ (các ký hiệu gốc) Như vậy, với một khái niệm C cho trước, thông qua phần
mở rộng của TBox, ta có được một biểu thức khái niệm của C, gọi là khái niệm đầy đủ của khái niệm C, mà trong đó chỉ chứa các khái niệm nguyên thủy và quan hệ nguyên thuỷ Quay lại ví dụ trong bảng 1.3, khái niệm mở
rộng của khái niệm Ba sẽ là:
ConNguoi ⊓ (ConNguoi⊓ GiongCai) ⊓cocon.ConNguoi
Ta có một số tính chất như sau giữa khái niệm và các khái niệm mở
rộng của nó theo bộ thuật ngữ TBox (ký hiệu là T) Trong đó, C' và D' là các
ký hiệu cho khái niệm mở rộng tương ứng của C và D
- C T C'
- C là thoả theo T khi và chỉ khi C' là thoả
- C ⊐T D khi và chỉ khi C' ⊐ D'
- C T D khi và chỉ khi C' D'
- C và D là không giao nhau theo T khi và chỉ khi C' và D' là
không giao nhau
Chúng hỗ trợ cho ta có thể chuyển được từ những bài toán quyết định phức tạp về những bài toán quyết định đơn giản hơn, và đặc biệt là sử dụng thuật toán cho bài toán này để có thể giải quyết các bài toán còn lại Một trong những bài toán được tập trung giải quyết là bài toán bao hàm, thuật toán được đưa ra ở đây được xem như một kiểu hợp giải trong các bài toán logic thông
Trang 27thường Phần tiếp theo sẽ trình bày ngắn gọn thuật toán này, thuật toán Tableaux
1.7 Giải thuật tableaux
Như mục trên trình bày, các bài toán cơ bản trên có thể chuyển về bài toán bao hàm Để giải quyết bài toán bao hàm, ban đầu, người ta đã đưa ra thuật toán cấu trúc Song đây là một thuật toán đơn giản nên nó không giải
quyết tốt trong các trường hợp phức tạp như khi có phép giao C⊓ D, phủ định
với khái niệm phức tạp C, phép tồn tại R.C Một trong những hướng tiếp
cận thay thế cho thuật toán cấu trúc trong tình huống này là thuật toán Tableau
Thuật toán Tableau có ý tưởng dựa trên việc chuyển một bài toán quyết định bao hàm thành bài toán quyết định không thoả, có nghĩa là: việc giải
quyết bài toán C⊐ D thành việc giải quyết bài toán C⊓D là không thoả
Xét với bài toán thoả khái niệm D trong cơ sở tri thức =(T, R, A), trước khi áp dụng giải thuật Tableau ta phải thực hiện chuẩn hoá TBox T, nghĩa là đưa tất cả các tiên đề thuật ngữ của T về dạng định nghĩa khái niệm (như đã trình bày ở 1.4.1) Sau đó ta đưa tất cả các mô tả khái niệm trong TBox về dạng chuẩn phủ định (NNF), có nghĩa là ta đưa các dấu phủ định vào trước các khái niệm nguyên thuỷ (giả sử C, D) theo các luật sau:
Khái niệm phức Dạng chuẩn NNF
Trang 28Sau đó, ta thay các định nghĩa khái niệm trong TBox đã ở dạng chuẩn phủ định vào ABox, và như vậy ta sẽ coi TBox = Khi đó ta chỉ lập luận với
ABox được khai triển thành các khẳng định chỉ có các mô tả của các khái niệm nguyên thuỷ, và các mô tả khái niệm ở dạng chuẩn phủ định Với ALC thì RBox=, chưa có các tiên đề quan hệ phức tạp
Tiếp theo, giải thuật Tableau kiểm tra tính thoả của khái niệm D bằng cách xây dựng một mô hình của D Mô hình của D thường được biểu diễn bởi cây đầy đủ T: các nút của T biểu diễn các cá thể của mô hình; mỗi nút x được gán nhãn L(x), là một tập khái niệm con của D; mỗi cạnh <x, y> được gán nhãn L(<x, y>), là tập các tên quan hệ trong D Giải thuật Tableaux bắt đầu từ nút gốc x 0 được gán nhãn L(x 0 )={D} T được mở rộng bằng cách lặp lại việc
áp dụng các luật lan truyền, bằng cách mở rộng các nhãn của nút hoặc là thêm vào những nút lá mới Các luật lan truyển đó tương ứng với các toán tử logic cũng như là các tiên đề quan hệ đã cung cấp bởi các ngôn ngữ mô tả riêng
R.C L(x) và không có nút y mà R L(<x,y>)
và C L(y)
Tạo một nút y mới sao cho L(<x,y>)={R} và L(y)={C}
Trang 29Việc kết thúc giải thuật khi T là đầy đủ, có nghĩa là không còn các luật lan truyền để có thể áp dụng hoặc khi xuất hiện một mâu thuẫn hiển nhiên
Khái niệm là không thoả khi mọi mở rộng đều dẫn đến mâu thuẫn và là thoả nếu có thể có một mở rộng nào đó dẫn đến việc phát hiện ra một cây không mâu thuẫn là đầy đủ
Ví dụ 1.6 Chứng minh: Me ⊐ ChaMe Xét với bộ thuật ngữ TBox
={ChaMe Cha ⊔ Me}
- Khi đó, ta phải chứng minh: Me ⊐ Cha⊔ Me
- Chuyển về bài toán không thoả: Me⊓ (Cha⊔ Me) là không thoả
- Xét khái niệm D= Me⊓(Cha⊔ Me) và biểu diễn mô tả khái niệm
D ở dạng chuẩn phủ định ta có: D= Me⊓( Cha⊓ Me)
- Xây dựng cây mô hình T cho khái niệm D:
Bắt đầu với nút x0 ta có L(x0) = { Me⊓(Cha⊓ Me)}=
Như vậy xảy ra điều kiện mâu thuẫn (1) Do đó, khái niệm D là không
thoả Nghĩa là Me⊓(Cha⊔ Me) là không thoả hay Me ⊐ ChaMe đã được
chứng minh
Điều kiện xảy ra mâu thuẫn của ALC:
Một nút x của cây hoàn thành T chứa mâu thuẫn nếu xảy ra ít nhất một trong hai điều kiện sau:
(1) L(x)
(2) Với AC nào đó mà {A, A}L(x)
Trang 30Đối với các ngôn ngữ có khả năng biểu diễn cao hơn, như họ ngôn ngữ
S, để đảm bảo sự kết thúc của giải thuật Tableaux, người ta sử dụng kỹ thuật
chặn (blocking) Trước khi giải thích về kỹ thuật chặn này, chúng ta xem xét
khái niệm nút cha và nút tổ tiên Nút cha của nút y là nút x nếu <x, y> là một cạnh của T; nút tổ tiên là sự kết thúc bắc cầu của nút cha Một nút y được coi
là bị chặn nếu có một nút tổ tiên x nào đó mà L(y) L(x); trong trường hợp này x được gọi là nút chặn Việc sử dụng kỹ thuật chặn (trong trường hợp cuả S) ngay khi một nút bị chặn thì các luật bổ sung sẽ không được tiếp tục áp dụng nữa và thuật toán kết thúc Bảng 1.7 chỉ ra các luật lan truyền cho ngôn ngữ S (ALCR+), ALCR+ cung cấp các tiên đề quan hệ bắc cầu nên cần đến kỹ thuật chặn Lưu ý rằng, các ngôn ngữ mô tả khác nhau có thể sử dụng các loại
Trang 31Các ngôn ngữ mở rộng từ ngôn ngữ S, trong giải thuật Tableaux, các
mô hình không chỉ được biểu diễn bởi các cây mà là các rừng Các kỹ thuật chặn được chúng sử dụng sẽ phức tạp hơn kỹ thuật chặn được giới thiệu ở đây
1.8 Tổng kết chương
Chương 1 đã trình bày những khái niệm cơ bản về logic mô tả Cụ thể:
Cú pháp của ngôn ngữ mô tả Trong đó, trình bày cú pháp của ngôn
ngữ thuộc tính AL, và các cú pháp bổ sung cho các ngôn ngữ mở rộng từ AL Ngôn ngữ này cho phép xây dựng các khái niệm phức tạp từ các khái niệm và quan hệ nguyên thuỷ Ngôn ngữ thông dụng nhất trong họ AL là ngôn ngữ ALC Và họ ngôn ngữ mô tả hỗ trợ Web ngữ nghĩa là họ ngôn ngữ S, trong
đó S là ngôn ngữ ALC có thêm tiên đề quan hệ bắc cầu và được kí hiệu theo
họ ngôn ngữ ALC là ALCR+
Ngữ nghĩa của các khái niệm trong logic mô tả Phần này trình bày về
phép thông dịch I Phép thông dịch I gồm hai thành phần: một tập khác rỗng
và một hàm dịch I Hàm dịch này tác động lên các khái niệm, các cá thể, các quan hệ ta được ngữ nghĩa của các mô tả khái niệm
Kiến trúc hệ logic mô tả.Thể hiện được kiến trúc của một hệ thống
thông tin mô tả gồm cơ sở tri thức =(T, R, A), thông qua hệ thống lập luận mới đến giao diện người sử dụng Có nghĩa là hệ logic mô tả cung cấp cho người sử dụng thông tin từ cơ sở tri thức thông qua các dịch vụ lập luận hay suy diễn tri thức trên cơ sở giải quyết các bài toán quyết định cơ bản như bài toán thoả, bài toán không giao, bài toán tương đương
Để giải quyết các bài toán lập luận trên, giải thuật tableau giới thiệu
giải quyết được trên logic mô tả ALC và ngôn ngữ mô tả S
Trang 32Trên đây là các cơ sở lý thuyết cơ bản nhất của logic mô tả Là tiền đề
để xây dựng, mở rộng logic mô tả và đưa logic mô tả ứng dụng trong các bài toán thực tiễn Chương tiếp theo sẽ trình bày tổng quan về Web ngữ nghĩa và các khả năng hỗ trợ của logic mô tả trong quá trình xây dựng Web ngữ nghĩa, một hệ thống Web mới thông minh hơn World Wide Web hiện tại
Trang 33tả có vai trò là nền tảng cơ sở để xây dựng các ngôn ngữ Ontology, mà các ngôn ngữ này có khả năng diễn tả cao, có nhiệm vụ biểu diễn và chia sẻ ngữ nghĩa của các tài nguyên, hỗ trợ lập luận để khai thác các tài nguyên này một cách tự động
2.1 Tổng quan về web ngữ nghĩa
Web ngữ nghĩa là một thế hệ Web mới, đang được phát triển và sẽ xuất hiện trong tương lai gần Hệ thống Web mới này sẽ thay thế hệ thống Web hiện tại song không có nghĩa là một hệ thống hoàn toàn khác hệ thống Web hiện tại Web ngữ nghĩa được phát triển trên hệ thống Web hiện tại bằng cách
bổ sung thêm ngữ nghĩa cho các tài nguyên Web mà máy có thể hiểu và tăng khả năng xử lý tự động
2.1.1 Nguồn gốc và mục tiêu của web ngữ nghĩa
World Wide Web (gọi tắt là Web) đã trở thành một kho tàng thông tin khổng lồ của nhân loại và một môi trường chuyển tải thông tin không thể thiếu được trong thời đại công nghệ thông tin ngày nay Sự phổ biến và bùng
nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy
Trang 34tính có thể trợ giúp xử lý tự động được chúng Muốn vậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi ở thế hệ Web hiện tại thông tin được biểu diễn dưới dạng chỉ con người mới đọc hiểu được
Các chuyên gia dự đoán, bề nổi của web (surface web) chứa khoảng 1 đến 2 tỷ trang tài liệu trong khi, ở phần sâu của web thì chứa đến 550 tỷ trang tài liệu Có khoảng 200.000 website có tầng thông tin sâu, khoảng hơn 1/2 số thông tin này nằm trong các cơ sở dữ liệu có chủ đề riêng biệt Khoảng 95% thông tin trong các website có tầng thông tin sâu cho phép đa số người dùng
có thể khai thác miễn phí Nhưng hiện nay, hầu hết các công cụ tìm kiếm tài liệu trên web được coi là tìm kiếm hiệu quả cũng chủ yếu tìm kiếm được trên
bề nổi của web Trong khi ở tầng sâu của web chứa một khối lượng thông tin khổng lồ và thường rất có giá trị cho các nhà nghiên cứu, các học giả hay đơn thuần là những người thích tìm hiểu Bên cạch đó, các trang web hiện nay có rất ít đường liên kết với các trang web khác nên việc tìm kiếm là khó khăn Ngoài ra, thông tin tìm kiếm được không theo chủ đề mà chỉ là vấn đề tìm thoả theo từ khoá đơn thuần, kết quả tìm kiếm phải do con người chọn lại theo chủ đề mong muốn
Chính những vấn đề này đã thúc đẩy sự ra đời của ý tưởng Web ngữ nghĩa (Semantic Web), một thế hệ mới của Web, mà chính cha đẻ của World
Wide Web là Tim Berners-Lee đề xuất vào năm 1998 Web ngữ nghĩa là sự
mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn Mục tiêu của Web có ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu, và
tự động hóa các công việc
Trang 35"describes", "rote", đây là các mối quan hệ giữa các tài nguyên mà trong web hiện tại không có Và chính các quan hệ này đưa vào web ngữ nghĩa là cần thiết, để máy có thể hiểu và xử lý thông tin tự động trên web Các quan hệ này được gọi là các siêu dữ liệu Công nghệ để có được các siêu dữ liệu này là công nghệ RDF (Resource Description Framework), sẽ được giới thiệu sau
Trang 36Hình 2.1 Một đề xuất nguồn gốc Web với CERN (CERN-Hội đồng Châu Âu nghiên cứu hạt nhân)
Để có thể tạo ra web có dữ liệu mà máy có thể xử lý được, trước hết phải thay đối mô hình trong cách chúng ta nghĩ về dữ liệu Từ trước đến nay,
dữ liệu bị khoá ngay trong các ứng dụng độc quyền Dữ liệu được coi như thứ yếu để xử lý dữ liệu Thái độ không đúng này bộc lộ những sai sót cơ bản trong luận cứ gốc bằng việc thiết lập sự phụ thuộc giữa xử lý và dữ liệu Hay nói cách khác, phần mềm tốt thì hoàn toàn phụ thuộc vào dữ liệu tốt Với các
hệ tính toán chuyên nghiệp thì ngay khi bắt đầu thực hiện, vấn đề dữ liệu là rất quan trọng, nó phải được xác minh và bảo vệ Với Web, XML và xu thế
Trang 37Web ngữ nghĩa đang nổi lên thì có sự thay đổi của sức mạnh đang di chuyển
từ các ứng dụng sang dữ liệu Vấn đề này cũng cho chúng ta mấu chốt để hiểu Web ngữ nghĩa Con đường để máy có thể xử lý dữ liệu chủ yếu là tạo ra dữ liệu thông minh hơn chứ không phải là các xử lý thông minh Hình 2.2 biểu diễn sự phát triển tính thông minh của dữ liệu theo thời gian
Hình 2.2 Sơ đồ phát triển tính thông minh của dữ liệu Hình 2.2 chỉ ra sự phát triển liên tục của tính thông minh dữ liệu có bốn bậc quan trọng Bốn bậc này biểu diễn từ dữ liệu có tính thông minh thấp nhất đến dữ liệu đã có thông tin đủ ngữ nghĩa để máy thực hiện suy luận về nó Cụ thể các bậc đó như sau:
Văn bản và cơ sở dữ liệu (bậc này là tiền XML)
Bậc đầu tiên, hầu hết dữ liệu ở bậc này được sở hữu độc quyền cho một ứng dụng Do vậy tính thông minh là nằm trong ứng dụng đó chứ không phải
là trong dữ liệu
Trang 38Tài liệu XML với miền đơn
Ở bậc này, dữ liệu đạt được là: ứng dụng độc lập với miền riêng Bây giờ, dữ liệu đủ thông minh để có thể di chuyển giữa các ứng dụng trong một miền đơn Ví dụ: các chuẩn XML trong công nghiệp chăm sóc sức khoẻ, công nghiệp bảo hiểm, hoặc công nghiệp bất động sản
Các phân loại và tài liệu với các bộ từ vựng hỗn hợp
Trong bậc này, dữ liệu có thể được soạn từ đa miền và được phân lớp chính xác theo một nguyên tắc phân loại có thứ bậc Thực tế, sự phân lớp đó
có thể được sử dụng để khám phá dữ liệu Các quan hệ đơn giản giữ các lớp
có thể được sử dụng để quan hệ và do vậy, ta có dữ liệu kết hợp Như vậy, dữ liệu bây giờ thông minh đủ để khám phá dễ dàng và được kết hợp một cách hợp lý với dữ liệu khác
Các ontology và các luật lập luận
Trong mức này, dữ liệu mới có thể được suy ra từ những dữ liệu đã có theo các luật logic Thực chất, dữ liệu bây giờ thông minh đủ để được mô tả với các quan hệ cụ thể và các dạng hình thức phức tạp Điều này cho phép kết hợp hoặc tái kết hợp dữ liệu nguyên thuỷ nhiều hơn và sự phân tích về dữ liệu mịn hơn Một ví dụ về sự phức tạp của dữ liệu là việc chuyển tự động tài liệu trong một miền này sang một tài liệu tương đương trong một miền khác Ở mức này, ta có thể soạn một định nghĩa mới trên Web ngữ nghĩa, máy có thể
xử lý các tài liệu web có dữ liệu thông minh Hơn nữa, ta có thể định nghĩa dữ liệu thông minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn, phân lớp và lấy một phần của các hệ thông tin lớn hơn
Như vậy, việc xây dựng web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống web có dữ liệu thông minh Dữ liệu thông minh ở đây không có nghĩa
Trang 39con người hay máy xử lý được ngôn ngữ tự nhiên mà nó thông minh bởi việc
tổ chức lựa chọn dữ liệu biểu diễn trong ngôn ngữ được cấu trúc để máy có thể hiểu Và sau đây chúng ta tìm hiểu về kiến trúc của web ngữ nghĩa
2.1.3 Kiến trúc của web ngữ nghĩa
Web ngữ nghĩa được xây dựng trên nền hệ thống web hiện tại Web ngữ nghĩa được coi là sự mở rộng của Web hiện tại có bổ sung thêm ngữ nghĩa vào dữ liệu trên web Hình 2.3 chỉ ra sơ đồ kiến trúc của Web ngữ nghĩa
Hình 2.3 Kiến trúc của web ngữ nghĩa
Từ sơ đồ kiến trúc của Web ngữ nghĩa, ta thấy có bảy tầng kiến trúc Trong đó, với hệ thống Web hiện tại (World Wide Web) là đang ở tầng thứ hai Chúng ta xem xét ý nghĩa của các tầng này
Unicode: chỉ đơn thuần là một bảng mã chuẩn chung có đủ các ký tự
để thống nhất sự giao tiếp trên tất cả các quốc gia, đáp ứng tính nhất quán toàn cầu của web
URI (Uniform Resource Identifier)
Trang 40Một URI (Uniform Resource Identifier) là một kí hiệu nhận dạng Web đơn giản Cụ thể, nó là một xâu ngắn cho phép nhận dạng tài nguyên Web như: với các xâu bắt đầu với "http:" hoặc "ftp:" mà chúng ta thường thấy trên World Wide Web Bất kỳ một người nào cũng có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở để xây dựng một hệ thống Web toàn cầu Hệ thống World Wide Web được xây dựng trên chúng và bất kỳ cái gì
mà có một URI thì được coi là "trên Web"
URL (Uniform Resource Locator) là một dạng đặc biệt của URI, cụ thể
nó là một địa chỉ trên mạng
URIref (URI reference) là một URI cùng với một phần nhận dạng tuỳ ý
ở cuối Ví dụ, ta có một URIref : "http://www.example.org/Elephant#Ganesh" bao gồm một URI: "http://www.example.org/Elephant" và một phần nhận dạng "Ganesh" được cách nhau bởi kí hiệu #
Theo như quy ước, các không gian tên là những tài nguyên mà tạo ra các đa tài nguyên, thường là những URI được kết thúc bởi kí hiệu # Ví dụ:
"http://www.example.org/Elephant#" là một không gian tên Các tài nguyên không có URIref thì được gọi là các nút trắng; một nút trắng chỉ ra sự tồn tại của tài nguyên không có sự đề cập rõ ràng về tham chiếu URIref của tài nguyên
RDF (Resource Description Framework): Khung mô tả tài nguyên
RDF được W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa Một mệnh đề RDF là một
bộ ba có dạng: [chủđề thuộctính đốitượng] Trong đó, chủ đề là tài nguyên
mà được mô tả bằng thuộc tính và đối tượng Thuộc tính thể hiện mối quan hệ giữa chủ đề và đối tượng Còn đối tượng ở đây có thể là một tài nguyên hoặc