thuật toán linear-time cho chuẩn Horn-SAT bài toán được giải quyết trong thời Do thời gian tìm hiểu và nghiên cứu về Logic mô tả EL còn hạn chế nên trong đồ án còn có những thiếu sót, ch
Trang 1LỜI NÓI ĐẦU
Logic mô tả từ lâu đã đúng một vai trò quan trọng như một loại hình tiêu biểu biểu diễn tri thức hiệu quả Logic mô tả cung cấp khả năng biểu diễn tri thức thông qua các khái niệm, các quan hệ và các luật cú pháp tương ứng với từng ngôn ngữ Logic mô tả ngày càng được phát triển và ứng dụng rộng rãi trong các hệ thống ứng dụng thông minh Quá trình tìm kiếm hướng tới sự dễ sử dụng và kiểm soát các ngôn ngữ Logic mô tả đã được bắt đầu từ những năm 1980s [Brachman and Levesque 1984; Nebel 1988] Mục đích của quá trình tìm kiếm là tìm ra những thủ tục suy diễn ứng dụng trong thực tiễn, những thuật toán dễ dàng được thực thi và mang lại tính khả quan [Horrocks, 1998; Haarslev and M¨oller, 2001] Một trong số những hướng nghiên cứu chính được quan tâm dựa trên ý tưởng biểu diễn tri thức theo lĩnh vực và phải được đặc trưng hóa thành các lớp đối tượng và mối quan hệ giữa chúng, các lớp sử dụng để mô tả lĩnh vực quan tâm được tổ chức theo cấu trúc phân cấp Bên cạnh khả năng biểu diễn thông tin một cách hiệu quả, Logic mô tả còn cho phép thực hiện các dịch vụ suy diễn với độ phức tạp tính toán phù hợp.Các hệ thống miêu tả dữ liệu dựa trên các hệ thống Logic mô tả cung cấp cho người sử dụng các khả năng suy diễn khác nhau để rút ra tri thức ẩn từ các tri thức
đã biết Để đảm bảo một hệ thống Logic mô tả hoạt động hợp lý thì phải giải quyết được các bài toán quyết định của Logic mô tả với độ phức tạp chấp nhận được Tìm hiểu sự cân bằng giữa khả năng biểu diễn tri thức của Logic mô tả và độ phức tạp của các bài toán quyết định trong Logic mô tả trở thành một trong những kết quả quan trọng trong nghiên cứu Logic mô tả Logic mô tả ALC và Logic mô tả EL là một trong các ngôn ngữ đạt được các yêu cầu trên Nhưng Logic mô tả EL có tính vượt trội hơn, do độ phức tạp của các bài toán quyết định trong Logic mô tả EL chỉ
là đa thức [Nebel 7] so với Logic mô tả ALC thì độ phức tạp tính toán là Complete [M.Schmidt-SchauB and G Smolka 1991, 15]
ExpTime-Nhiệm vụ của đồ án là tìm hiểu về Logic mô tả EL và cài đặt ví dụ minh họa
Bố cục của đồ án được phân ra như sau:
Chương 1 Tổng quan về Logic mô tả EL Chương này trình bày về các nội
dung cơ bản trong Logic mô tả như: Định nghĩa, cú pháp, ngữ nghĩa của các Logic
mô tả cơ sở như FL0, ALC, EL và kiến trúc của một hệ Logic mô tả
Chương 2 Các thủ tục suy diễn trong Logic mô tả EL Chương này trình bày
các luật chuẩn hóa EL-TBox, phương thức chuyển một EL-TBox đã chuẩn hóa sang một đồ thị mô tả và các bài toán quyết định trong Logic mô tả EL
Chương 3 Các thuật toán cho Logic mô tả EL Chương này mô tả các thuật toán cho bao hàm trong Logic mô tả EL Trong đó trình bày thuật toán cho: bao
hàm đối với ngữ nghĩa điểm cố định lớn nhất ( ELgfp) bằng cách sử dụng phép mô phỏng (simulator) để giải quyết bài toán với thời gian là đa thức bậc ba Bài toán bao hàm cho bộ thuật ngữ với các tiên đề thuật ngữ dạng tổng quát-TBox tổng quát(ELgci-General Concept Inclusion) được giải quyết bằng cách chuyển EL-TBox
sang dạnh chuẩn Horn và áp dụng thuật toán linear-time cho chuẩn Horn-SAT khi
đó bài toán được quyết định trong thời gian đa thức bậc ba Cuối cùng là bài toán
bao hàm ngữ nghĩa (ELdesc) cũng được chuyển sang dạng chuẩn Horn và áp dụng
Trang 2thuật toán linear-time cho chuẩn Horn-SAT bài toán được giải quyết trong thời
Do thời gian tìm hiểu và nghiên cứu về Logic mô tả EL còn hạn chế nên trong
đồ án còn có những thiếu sót, chưa trình bày đầy đủ về họ Logic mô tả EL như:
EL+, EL++, ELH, và các Logic mô tả EL có thêm các luật: phép hợp, phép phủ định, giới hạn số, lượng từ với mọi… , khái niệm đáy Em rất mong sự đánh giá và góp ý
bổ sung của các thầy giáo, cô giáo và các bạn để đồ án được hoàn thiện hơn
Trang 4DANH MỤC CÁC HÌNH
Hình 1.1 Kiến trúc hệ Logic mô tả 14
Hình 2.1: Đồ thị mô tả-EL của chuẩn hóa EL-TBox gfp-ngữ nghĩa Tgfp 25
Hình 2.2 Đồ thị mô tả EL ứng với ví dụ 2.4 26
Hình 3.1 Đồ thị mô tả trong ví dụ 3.1 29
Hình 3.2 Đồ thị mô tả EL cho ví dụ 3.4.1 37
Hình 3.3 Kết quả thực nghiệm của bài toán bao hàm trên Gene Ontology 39
Hình 4.1 Sơ đồ phân cấp chức năng của hệ thống 41
Hình 4.2 Trường hợp sử dụng của người sử dụng 44
Hình 4.3 Biểu đồ người sử dụng yêu cầu hiển thị nội dung cơ sở tri thức ban đầu 45
Hình 4.4 Biểu đồ người sử dụng yêu cầu khử phép bao hàm trong cơ sở tri thức 46
Hình 4.5 Biểu đồ người sử dụng yêu cầu khai triển TBox 46
Hình 4.6 Biểu đồ người sử dụng yêu cầu hiển thị kết quả TBox đã chuẩn hóa .47
Hình 4.7 Biểu đồ người sử dụng yêu cầu hiển thị cây đồ thị mô tả 48
Hình 4.8 Sơ đồ quá trình thu thập và hiển thị cơ sở tri thức 50
Hình 4.9 Sơ đồ quá trình khử phép bao hàm 51
Hình 4.10 Sơ đồ quá trình triển khai TBox 52
Hình 4.11 Lớp DynamicTree 53
Hình 4.12 Lớp TboxPanel 54
Hình 4.13 Lớp InclusionPanel 55
Hình 4.14 Lớp ExpensePanel 56
Hình 4.15 Lớp ABoxPanel 56
Hình 4.16 Lớp NormalizeTBox 57
Hình 4.19 Lớp MainClass 59
Hình 4.20 Giao diện hiển thị cơ sở tri thức trước khi chuẩn hóa 60
Hình 4.21 Giao diện thực hiện khử phép bao hàm 60
Hình 4.22 Giao diện triển khai TBox 61
Hình 4.23 Giao diện hiển thị cơ sở tri thức sau khi chuẩn hóa 61
Hình 4.24 Giao diện hiển thị cây đồ thị của TBox đã chuẩn hóa 62
Hình 4.25 Giao diện hiển thị cây đồ thị của TBox sau chuẩn hóa 62
Hình 4.26 Nội dung TBox của bài toán “Gia đình” 64
Hình 4.27 Nội dung ABox của bài toán gia đình 64
Hình 4.29 Khử phép bao hàm trong TBox của bài toán “Gia đình” 65
Hình 4.30 Các khái niệm nguyên thủy mới của TBox trong bài toán “Gia đình” sau khi khử phép bao hàm 66
Hình 4.31 Các luật của TBox trong bài toán “Gia đình” sau khi thực hiện phép khử phép bao hàm 66
Hình 4.32 Kết quả thu được sau khi chuẩn hóa TBox trong bài toán “Gia đình” 67
Hình 4.33 Cây đồ thị mô tả EL 68
Hình 4.34 Cây đồ thị mô tả của TBox đã chuẩn hóa 68
Trang 5DANH MỤC CÁC BẢNG
Bảng 1.1 Cú pháp của ngôn ngữ mô tả FL0 9
Bảng 1.2 Cú pháp của Logic mô tả ALC 10
Bảng 1.3 Các khái niệm trong gia đình của ngôn ngữ ALC 10
Bảng 1.4 Cú pháp của Logic mô tả EL 12
Bảng 1.5 Mô tả khái niệm gia đình trong Logic mô tả EL 12
Bảng 1.6 Cú pháp và ngữ nghĩa của Logic mô tả EL 13
Trang 6Bảng 2.1 Các luật chuẩn hóa 21
Bảng 3.1 Thuật toán tính toán phép simulation lớn nhất của đồ thị mô tả-EL 28
Bảng 3.2 Các mẫu chuẩn hóa GCI 31
Bảng 3.3 Các luật chuẩn hóa GCIs 31
Bảng 3.4 Mở rộng các vai trò cho các tập hợp tương quan 33
Bảng 3.5 Các mệnh đề Horn 34
Bảng 3.6 Các mệnh đề Horn trong T với ngữ nghĩa mô tả 36
Bảng 4.1 Các khái niệm nguyên thủy của bài toán “Gia đình” 63
Bảng 4.2 Các khái niệm phức của bài toán “Gia đình” 63
Bảng 4.3 Các quan hệ nguyên thủy của bài toán “Gia đình” 63
MỤC LỤC LỜI NÓI ĐẦU 1
LỜI CẢM ƠN 3
DANH MỤC CÁC HÌNH 4
DANH MỤC CÁC BẢNG 5
MỤC LỤC 6
Chương 1 Tổng quan về Logic mô tả EL 8
1.1 Giới thiệu chung 8
1.2 Cú pháp của Logic mô tả 9
1.2.1 Ngôn ngữ mô tả FL0 9
1.2.2 Ngôn ngữ Logic mô tả ALC 10
1.3 Logic mô tả EL 11
1.3.1 Khái niệm Logic mô tả EL 11
1.3.2 Ngữ nghĩa và cú pháp của Logic mô tả EL 12
Trang 71.3.3 Kiến trúc của ngôn ngữ Logic mô tả 13
1.4 Tổng kết chương 17
Chương 2 Các thủ tục suy diễn trong Logic mô tả EL 18
2.1 Bài toán suy diễn trong Logic mô tả EL 18
2.1.1 Suy diễn cho EL-TBox 18
2.1.2 Suy diễn cho EL-ABox 19
2.2 Luật chuẩn hóa trong Logic mô tả EL 20
2.3 Chuẩn hóa EL-TBox 23
2.4 Đồ thị mô tả -EL 24
2.5 Tổng kết chương 26
Chương 3 Các thuật toán cho Logic mô tả EL 26
3.1 Giới thiệu chung 26
3.2 Thuật toán bao hàm cho ELgfp 27
3.3 Thuật toán cho bao hàm ELgci 31
3.3.1 Chuẩn hóa EL-TBox với GCI 31
3.3.2 Các luật chuẩn hóa-GCI 31
3.3.3 Thể thức mô tả-ELgci 33
3.4 Thuật toán cho bao hàm ELdesc 35
3.5 Thực nghiệm của bao hàm khái niệm EL trên Gene Ontology 38
3.5.1 Ontology 38
3.5.2 Gene Ontology 38
3.5.3 Các kết quả thực nghiệm trên Gene Ontology 38
3.6 Tổng kết chương 39
Chương 4 Phân tích thiết kế chương trình ứng dụng 40
4.1 Đặc tả yêu cầu 40
4.1.1 Tác nhân và yêu cầu của tác nhân 40
4.1.2 Đặc tả chức năng của hệ thống 41
4.2 Phân tích hệ thống 43
4.3 Thiết kế hệ thống 48
4.3.1 Thiết kế định dạng file lưu trữ cơ sở tri thức 48
4.3.2 Thiết kế khối hiển thị cơ sở tri thức ban đầu 49
4.3.3 Thiết kế khối khử phép bao hàm 50
4.3.4 Thiết kế khối triển khai TBox 51
4.4 Lập trình xây dựng hệ thống 52
4.4.1 Mô hình cài đặt hệ thống 52
4.4.2 Giao diện chương trình 60
4.5 Chương trình thử nghiệm 63
4.5.1 Bài toán “Gia đình” 63
KẾT LUẬN 69
DANH SÁCH THUẬT NGỮ 70
TÀI LIỆU THAM KHẢO 72
Trang 8Chương 1 Tổng quan về Logic mô tả EL
1.1 Giới thiệu chung
Biểu diễn tri thức (Knowledge Representation) là một lĩnh vực trong trí tuệ nhân tạo tập trung vào việc đưa ra các hình thức để biểu diễn tri thức về một lĩnh vực xác định Một trong những phương pháp được quan tâm nhất là biểu diễn tri thức thông qua mô tả các lớp đối tượng và mối quan hệ giữa chúng Việc tổ chức các lớp theo kiến trúc phân cấp không chỉ cho phép thông tin được biểu diễn một cách hiệu quả chặt chẽ mà còn cho phép suy diễn theo phương pháp tính toán hiệu quả Dựa trên lý thuyết này đã phát triển ra hệ thống dựa trên cấu trúc[13] và mạng ngữ nghĩa[12] đầu tiên Tiếp sau đó, hệ thống KL-ONE[14] đã cung cấp nền tảng Logic để thông dịch các đối tượng, các lớp hay các khái niệm và mối quan hệ giữa chúng
Logic mô tả (Description Logic-DL) là một họ ngôn ngữ biểu diễn tri thức, là cốt lõi của các hệ thống biểu diễn tri thức Logic mô tả cung cấp khả năng biểu diễn tri thức và suy diễn để rút ra được các tri thức đúng đắn, các tri thức mới từ cơ sở tri thức ban đầu trong miền ứng dụng Việc biểu diễn tri thức được xây dựng từ các khái niệm, các quan hệ nguyên thuỷ và các toán tử Tập hợp các toán tử khác nhau tạo ra các ngôn ngữ khác nhau
Ngày nay bên cạnh việc xem xét làm giàu thêm ngôn ngữ mô tả cho Logic mô
tả, các nghiên cứu tập trung vào việc sử dụng tối ưu khả năng biểu diễn của Logic
mô tả nhằm đạt được cải tiến trong độ phức tạp tính toán cũng nhận được nhiều quan tâm Việc tìm kiếm đã hướng tới các ngôn ngữ như ALCNR [21] và SHIQ [22] mà thời gian quyết định cho thủ tục bao hàm với TBox tổng quát là EXPTIME hard Cụ thể hơn, ngay đối với Logic mô tả ALC là Logic mô tả cơ bản nhất thỏa mãn tính chất đúng mệnh đề (propositionally closed), thì các thủ tục suy diễn trên ngôn ngữ Logic mô tả ALC nếu không xét tới TBox đã là PSpace-complete, và khi xét tới TBox tổng quát ( chứa các tiên đề thuật ngữ dạng tổng quát GCI-General Concept Inclusion) thì độ phức tạp tính toán trở thành ExpTime-Complete Chính vì lý do độ phức tạp tính toán lớn của các bài toán suy diễn trong ngôn ngữ Logic mô tả cũng hạn chế phần nào khả năng ứng dụng của ngôn ngữ Logic mô tả trong thực tế, trong khi đó trong nhiều bài toán ta chỉ cần một Logic con của Logic mô tả ALC cũng đủ để mô tả và giải quyết các bài toán đó
Trong thời gian gần đây, việc tìm kiếm đã chỉ ra rằng đối với Logic mô tả EL
là một Logic con của Logic mô tả ALC thì bài toán bao hàm cho thuật ngữ có chứa chu trình hay không có chu trình đều có thể quyết định trong thời gian đa thức [Baader 2003-5] Và Kết quả cho bài toán bao hàm trong Logic mô tả EL có chứa các tiên đề thuật ngữ-GCIs (hay TBox tổng quát) cũng vẫn được duy trì trong thời
Trang 9gian đa thức [Brandt 2004-6].Logic mô tả EL đã được sử dụng rộng rãi trong thuật ngữ y học SNOMED[23] (Systematized Nomenclature of Medicine [Spackman 2000]), và là ngôn ngữ cơ bản đại diện cho thuật ngữ y học GaLen-[24] [Rector and Horrocks, 1997] mà TBox chứa các GCIs hay TBox tổng quát Logic mô tả EL đã được thi hành trong Common LISP, Allegro và thu được hiệu quả lớn trong việc sử dụng Gene Ontology[10] như là một tiêu chuẩn đánh giá.
1.2 Cú pháp của Logic mô tả
Cơ sở của một Logic mô tả là các mô tả khái niệm và các mô tả vai trò, thường gọi tắt là khái niệm và vai trò Một cách trực quan, một khái niệm biểu diễn một lớp các đối tượng có chung một số đặc trưng, một vai trò biểu diễn một quan hệ hai ngơi giữa các đối tượng hoặc giữa các đối tượng với các giá trị dữ liệu, tiếp đó
sử dụng các khái niệm và các vai trò để mô tả các thuộc tính của các đối tượng trong một miền cơ sở tri thức
Ví dụ: ConNguoi là một khái niệm, Cocon là một vai trò.
Một ngôn ngữ mô tả bao gồm: các khái niệm nguyên thủy (kí hiệu: A, B), các vai trò (kí hiệu: r) và các cá thể (kí hiệu: I), cùng với một tập các toán tử (các luật cú pháp) để xây dựng các mô tả khái niệm (kí hiệu C, D) và các khái niệm phức hợp Như vậy, ta có thể xây dựng các khái niệm phức hợp từ các khái niệm, các vai trò
cơ sở ban đầu
Ví dụ: ChaMe ≡ Connguoi ⊓ ∃Cocon.Connguoi
Trong đó ChaMe là một mô tả khái niệm phức hợp định nghĩa cho khái niệm cha mẹ (định nghĩa rằng con người có con thì được gọi là cha mẹ)
Các ngôn ngữ mô tả khác nhau phân biệt bằng các luật cú pháp mà chúng cung cấp Ngôn ngữ mô tả cơ bản đầu tiên được gọi là ngôn ngữ FL0 là ngôn ngữ
mô tả có các luật cú pháp đơn giản
1.2.1 Ngôn ngữ mô tả FL0.
Ngôn ngữ mô tả FL0 được xây dựng từ một tập các toán tử: lượng từ với mọi
và các phép toán Logic như: phép giao, khái niệm đỉnh Do đó các luật cú pháp của ngôn ngữ mô tả FL0 sẽ là:
┬ Khái niệm đỉnh
C ⊓ D Giao khái niệm ∀r.C Lượng từ với mọi
Bảng 1.1 Cú pháp của ngôn ngữ mô tả FL 0
Ngôn ngữ mô tả FL0 ban đầu có thủ tục quyết định với TBox tổng quát là PSpace-Complete[2] Sau đó với ba loại ngữ nghĩa mô tả được đưa ra bởi Nebel đã đưa thủ tục quyết định cho bài toán bao hàm trong ngôn ngữ mô tả FL0 có chứa chu trình thuật ngữ với thời gian quyết định trên ngôn ngữ mô tả FL0 là PSpace-hard
Trang 10[20] Vì vậy ngôn ngữ FL0 không chỉ mang khả năng biểu diễn tri thức hạn chế mà thời gian tính toán trên ngôn ngữ mô tả FL0 cũng khá phức tạp, chính vì vậy trong quá trình cải tiến của ngôn ngữ mô tả, các toán tử mới (các tập luật) đã được thêm vào và đã xây dựng nên các ngôn ngữ mô tả khác nhau Tập hợp các toán tử khác nhau tạo nên các ngôn ngữ Logic mô tả khác nhau Trong đó có Logic mô tả ALC
đã thể hiện khả năng biểu diễn tri thức khá mạnh mẽ bởi các luật cú pháp của ALC.1.2.2 Ngôn ngữ Logic mô tả ALC
Ngôn ngữ Logic mô tả ALC (Attributive Language with Complements) [15]
là một ngôn ngữ có các luật cú pháp khá đầy đủ nên ALC có khả năng biểu diễn tri thức rất phong phú, cùng với khả năng biểu diễn tri thức mạnh mẽ đó thì ALC cũng mang độ phức tạp tính toán rất lớn Tuy nhiên Logic mô tả ALC cũng là một Logic
mô tả cơ bản nhất thỏa mãn tính chất đúng mệnh đề (propositionally closed) và ALC được xây dựng từ các toán tử: lượng từ với mọi, lượng từ tồn tại và các phép toán Logic như: phép giao, phép hợp, phép phủ định, khái niệm đáy và khái niệm đỉnh Các luật cú pháp của Logic mô tả ALC được mô tả như sau:
Bảng 1.2 Cú pháp của Logic mô tả ALC
Ví dụ 1.1 Mô tả lại cách sử dụng các luật cú pháp trên để xây dựng các khái
niệm phức hợp, đó là các khái niệm trong gia đình Trong đó, có sử dụng hai khái niệm nguyên thủy là con người "ConNguoi" và giống cái "GiongCai", đồng thời
sử dụng một quan hệ nguyên thủy là có con "Cocon"
Bảng 1.3 Các khái niệm trong gia đình của ngôn ngữ ALC
Trang 11Logic mô tả ALC có khả năng biểu diễn tri thức khá mạnh mẽ nhờ một tập lớn các cú pháp của ALC Trong khi đó khả năng biểu diễn tri thức tỉ lệ thuận với độ phức tạp tính toán của các dịch vụ suy diễn trong các hệ Logic mô tả tương ứng Các thủ tục suy diễn trong Logic mô tả ALC khi không xét tới TBox đã là PSpace-Complete, TBox có chứa chu trình là PSpace-Complete và khi xét tới TBox tổng quát thì độ phức tạp tính toán trở thành ExpTime-Complete [Tommie Meyer] Chính vì lý do độ phức tạp tính toán lớn của các bài toán suy diễn trong Logic mô tả ALC đã hạn chế phần nào khả năng ứng dụng của Logic mô tả ALC trong thực tế Trong thực tế thời gian suy diễn cho các bài toán là rất quan trọng và việc cải tiến trong độ phức tạp tính toán đã và đang nhận được khá nhiều quan tâm Và thực
tế cũng đã chứng minh được rằng trong nhiều bài toán ta chỉ cần một Logic con của ALC cũng đủ để mô tả và giải quyết chúng Một trong những Logic con của ALC chính là Logic mô tả EL
1.3 Logic mô tả EL
Logic mô tả EL là một Logic con của Logic mô tả ALC Đặc điểm nổi bật của Logic mô tả EL so với các Logic mô tả con khác của Logic mô tả ALC là suy diễn trên Logic mô tả EL luôn có độ phức tạp tính toán đa thức, bất chấp sự có mặt của TBox tổng quát hay không [Baader 2003, Brandt 2004] Hiện tại EL đang được
sử dụng trong một số ứng dụng thực tế và thu được khá nhiều thành công, điển hình
là ứng dụng trong cơ sở dữ liệu gen trong y khoa Gene Ontology[10]
Kết luận quan trọng nhất trong Logic mô tả là các bài toán thỏa khái niệm và bài toán bao hàm của các mô tả khái niệm Một mô tả khái niệm được gọi là thỏa nếu nó nhất quán và không xuất hiện mẫu thuẫn trong nó Tuy nhiên trong Logic
mô tả EL không chứa phép phủ định nên tất cả các mô tả khái niệm đều đã ở dạng thỏa Vì vậy mục đích của Logic mô tả EL là giải quyết các bài toán bao hàm khái niệm trong các mô tả khái niệm
Logic mô tả EL có thể quyết định trong thời gian đa thức dự TBox có chứa chu trình hay không chứa chu trình là do ta có thể xóa bỏ thành phần cấu thành nên chu trình trong một thuật ngữ của các khái niệm mà không làm mất đi ý nghĩa của các khái niệm
Hơn nữa thay vì mở rộng các định nghĩa khái niệm và quyết định bao hàm trên các mô tả khái niệm thì ta có thể chuyển đổi thuật ngữ sang một mô hình tương ứng, khi đó các bài toán tương đương và bài toán bao hàm trong mô hình tương ứng
sẽ được quyết định trong thời gian đa thức
Để chuyển đổi sang một mô hình tương ứng ta cần có các công cụ hỗ trợ và Logic mô tả EL đã sử dụng một kỹ thuật xây dựng một cấu trúc đơn giản của các TBox tổng quát Hướng tiếp cận này là thực hiện việc chuyển đổi TBox sang một mô hình chuẩn hóa mà trong đó chứa các mô tả khái niệm phức hợp dạng cơ bản nhất
1.3.1 Khái niệm Logic mô tả EL
Logic mô tả EL là một trong những Logic con của Logic mô tả ALC, Logic
mô tả EL được xây dựng từ một tập các toán tử bao gồm: phép giao, lượng từ tồn tại, và khái niệm đỉnh Từ đó cú pháp của Logic mô tả EL được biểu diễn như trong
Bảng 1.4 dưới đây:
Trang 12Cú Pháp Tên các toán tử ┬ Khái niệm đỉnh
C ⊓ D Giao khái niệm ∃r.C Lượng từ tồn tại
Bảng 1.4 Cú pháp của Logic mô tả EL
Ví dụ 1.2 Sử dụng các luật cú pháp của Logic mô tả EL ta xây dựng các khái
niệm phức hợp, đó là các khái niệm trong gia đình Trong đó, có sử dụng ba khái niệm nguyên thủy là con người "ConNguoi", giống cái "GiongCai", giống đực
“GiongDuc” và sử dụng một quan hệ nguyên thủy là có con "Cocon"
Bảng 1.5 Mô tả khái niệm gia đình trong Logic mô tả EL
1.3.2 Ngữ nghĩa và cú pháp của Logic mô tả EL
Các mô tả khái niệm được định nghĩa quy nạp từ một tập các toán tử kết hợp với tên các khái niệm và các vai trò Ngữ nghĩa của các mô tả khái niệm trong Logic mô tả EL có được nhờ vào các phép thông dịch
Mỗi phép thông dịch, ký hiệu là I, là một cặp (∆I, I) Trong đó, ∆I là một tập khác rỗng, còn I là một hàm dịch Hàm dịch I biến mỗi khái niệm C thành một tập
CI ⊆ ∆I, biến mỗi quan hệ hai ngơi r thành một quan hệ rI ⊆ ∆I x ∆I, biến mỗi cá thể i thành iI là một phần tử thuộc ∆I Tập CI (hoặc rI) được gọi là mở rộng của C (hoặc r) đối với I
Ví dụ 1.3: Ta xác định ngữ nghĩa cho một khái niệm sau:
Cha ⊓ ∃Cocon.ChaMe
Cho (∆I, I) là một mô hình của Cha ⊓ ∃Cocon.ChaMe với :
Một tập khác rỗng: ∆I ={ Peter, Harry, Raul}
Khi đó Hàm dịch I được định nghĩa như sau:
Cha(Peter)Cocon(Peter, Raul)
Trang 13Cha(Raul)Cocon(Raul, Harry)
Ta có:
(Cha ⊓ ∃Cocon.ChaMe)I = (Cha)I ∩ (∃Cocon.ChaMe)I
(Cha)I = {Peter, Raul}
(∃Cocon.ChaMe)I = {Peter, Raul}
Vậy ta có:
(Cha ⊓ ∃Cocon.ChaMe)I = {Peter}
Với các khái niệm phức được xây dựng từ Logic mô tả EL thì hàm dịch được định nghĩa như sau:
Tên của toán tử Cú pháp Ngữ nghĩa
Tên khái niệm C ∈ Ncon C CI ⊆ ∆I
Tên vai trò r ∈ Nrole r rI ⊆ ∆I × ∆I
Khái niệm giao C ⊓ D CI ∩ DI
Lượng từ tồn tại r.C {x ∈ ∆I | y : (x, y) ∈ rI y ∈ CI}Định nghĩa khái niệm C ≡ D CI = DI
Khái niệm riêng a ∈ NI a aI ∈ ∆I
Khẳng định khái niệm C(a) aI ∈ CI
Khẳng định vai trò r(a, b) (aI, bI) ∈ rI
Bảng 1.6 Cú pháp và ngữ nghĩa của Logic mô tả EL
1.3.3 Kiến trúc của ngôn ngữ Logic mô tả
Một hệ Logic mô tả bao gồm các hệ thống thụng tin có sử dụng Logic mô tả
để biểu diễn tri thức của miền ứng dụng Các hệ này sử dụng khả năng biểu diễn mạnh mẽ của Logic mô tả kết hợp với các thủ tục suy diễn để tạo nên hoạt động của chúng Logic mô tả EL được mô tả bởi một tập các cá thể để xây dựng các khái niệm phức hợp của miền ứng dụng mà dựa trên các khái niệm và các vai trò nguyên thủy của chúng Logic mô tả EL bao gồm hai thành phần, một thành phần là TBox
và một thành phần là ABox Một TBox là một bộ thuật ngữ mô tả chính xác các thuộc tính tổng quát của các khái niệm trong một miền của một cơ sở tri thức Trong khi đó một ABox chứa đựng các khẳng định về các cá thể độc lập mà có thể
mô tả chính xác thông qua các vai trò và có thể là một trường của các khái niệm
Hình 1.1 dưới đây mô tả kiến trúc chung của một hệ ngôn ngữ Logic mô tả
Hai thành phần chứa đựng cơ sở tri thức là “Bộ thuật ngữ-TBox ” và “Bộ khẳng
Trang 14định-ABox” Bên cạnh đó nhờ các dịch vụ suy diễn mà hệ thống hỗ trợ có thể sẽ đem lại cho hệ thống khả năng suy luận ra những tri thức đúng đắn để đạt được mục đích thực sự khi sử dụng Logic mô tả EL trong hệ.
Hình 1.1 Kiến trúc hệ Logic mô tả
1.3.3.1 Bộ thuật ngữ EL-TBox
Một EL-TBox là một tập hữu hạn các định nghĩa khái niệm C ≡ D (trong đó C
là tên một khái niệm, D là một mô tả khái niệm) mà biểu diễn mối quan hệ của các khái niệm khác nhau Trong một EL-TBox không được chứa hai mô tả khái niệm D1, D2 khác nhau cùng thỏa mãn C ≡ D1 và C ≡ D2
Ví dụ 1.4: Các định nghĩa khái niệm sau sẽ tạo nên một EL-TBox.
Nu ≡ ConNguoi ⊓ GiongCai
Nam ≡ ConNguoi ⊓ GiongDuc
ChaMe ≡ ConNguoi ⊓ ∃coCon.ConNguoi
Thuật ngữ chu trình trong EL-TBox Một EL-TBox T được gọi là có chứa chu trình thuật ngữ nếu trong EL-TBox đó có chứa một tập các định nghĩa khái niệm là { C1 ≡ D1, , Cn ≡ Dn } mà trong đó Di chứa Ci+1 và Dn chứa C1
Ví dụ : NguoiDuc ≡ ConNguoi ⊓ ∃coCha.NguoiDuc ⊓ ∃coMe.NguoiDucĐịnh nghĩa khái niệm người Đức (NguoiDuc) là một định nghĩa có chứa chu trình, một EL-TBox chứa định nghĩa khái niệm NguoiDuc ở trên sẽ là một TBox có chứa chu trình
Về mặt ngữ nghĩa: Một phép thông dịch I được gọi là thỏa một định nghĩa
khái niệm C ≡ D nếu CI = DI Phép thông dịch I thỏa một EL-TBox T nếu phép thông dịch đó thỏa mãn tất cả các định nghĩa khái niệm trong T, khi đó ta gọi I là
mô hình của EL-TBox T
Chương trình ứng dụng
Các tập luật
Trang 15Phép thông dịch nguyên thủy: Cho T là một EL-TBox gồm các khái niệm nguyên thủy (ký hiệu Nprim), các vai trò (ký hiệu Nrole) và các định nghĩa khái niệm (ký hiệu Ndef) Khi đó J gọi là phép thông dịch nguyên thủy đối với T nếu:
1 Một phép thông dịch nguyên thủy (ký hiệu là J) là một cặp (∆J, J) Trong đó
∆J là một tập khác rỗng, còn J là một hàm dịch Hàm dịch J biến mỗi khái niệm nguyên thủy P thành một tập PJ ⊆ ∆J, biến mỗi quan hệ hai ngơi r thành một quan hệ nhị phân rI ⊆ ∆J x ∆J
2 Một phép thông dịch I được gọi là dựa trên phép thông dịch nguyên thủy J nếu nó có cùng miền thông dịch với J khi đó hàm dịch J và I là đồng nhất trên Nprim và Nrole
Cho I1 và I2 là các mô hình của EL-TBox T, {C1, C2, , Ck} là các định nghĩa khái niệm Nếu :
I1 ≤J I2 nếu C ⊆ C với mọi i, 1 ≤ i ≤ k
Khi đó I1 được gọi là mô hình lớn nhất của T dựa trên J Ta gọi mô hình này là
mô hình điểm cố định lớn nhất của T [Nebel 1991]
Ví dụ 1.5: Xác định phép thông dịch nguyên thủy cho TBox gồm các khái
niệm sau
TopDoanhnghiep ≡ Doanhnghiep ⊓ Giau ⊓ ∃quanhe.TopDoanhnghiep Giả sử ta có :
∆J = {Mai, Mơ, Mây}
DoanhnghiepJ = {Mai, Mơ, Mây}
GiauJ = {Mai, Mơ}
quanheJ = {(Mai, Mơ), (Mơ, Mây), (Mây, Mai)}
Ta thấy Mây không phải là người nằm trong TopDoanhnghiep do Mây không
phải là một người giàu có, trong khí đó Mai và Mơ thì có thể Từ đó ta có 2 phép thông dịch dựa trên J như sau:
1 I thông dịch định nghĩa khái niệm TopDoanhnghiep đối với tập
{Mai, Mơ}
2 I thông dịch định nghĩa khái niệm với tập rỗng
Khi đó I là mô hình điểm cố định lớn nhất dựa trên J
1.3.3.2 Bộ thuật ngữ với GCIs-TBox tổng quát
Tổng quát, các tiên đề thuật ngữ thường có dạng:
C D (r s) hoặc C ≡ D (r ≡ s)Trong đó C và D là các khái niệm, còn r và s là các vai trò Các tiên đề dạng đầu tiên được gọi là các tiên đề về sự bao hàm (inclusion), dạng hai được gọi là tương đương (equality)
Khi đó một EL-TBox tổng quát được định nghĩa như sau: Cho C và D là các định nghĩa khái niệm trong EL-TBox T khi đó C D là một tiên đề thuật ngữ dạng
tổng quát (hay GCI) Một EL-TBox tổng quát là một tập hữu hạn các các tiên đề
thuật ngữ dạng tổng quát Trong đó các mệnh đề có dạng C D được gọi là các
Trang 16bao hàm khái niệm, và C ≡ D được gọi là tương đương khái niệm, đó là sự ước lược của C D và D C Các mệnh đề trong T được gọi là các tiên đề thuật ngữ.
Ngữ nghĩa của EL-TBox tổng quát: Một phép thông dịch I thỏa một GCI
(tiên đề thuật ngữ dạng tổng quát) C D (kí hiệu là I |= C D) nếuCI ⊆ DI hay I thoả một tương đương khái niệm C ≡ D nếu CI = DI Khi đó I được gọi là một mô hình của EL-TBox tổng quát nếu I thỏa mãn tất cả các GCIs trong T
Ví dụ 1.6: Một EL-Tbox chứa các định nghĩa khái niệm:
Me ≡ ConNguoi ⊓ GiongCai ⊓ ∃Cocon.ConNguoi
NguoiDuc ≡ ConNguoi ⊓ ∃Cocha.NguoiDuc ⊓ ∃Come.NguoiDuc
Khi đó ta có thể cải tiến TBox chứa đựng các GCI thay thế cho các định nghĩa khái niệm như sau:
ConNguoi ⊓ GiongCai ⊓ ∃Cocon.ConNguoi Me
ConNguoi ⊓ ∃Cocha.NguoiDuc ⊓ ∃Come.NguoiDuc NguoiDuc
Bao hàm khái niệm: Cho T là một EL-TBox và C, D là các mô tả khái
niệm Khi đó ta có
• C được gọi là bao hàm bởi D (C D) nếu CI ⊆ DI
• D được gọi là bao hàm bởi C (D C) nếu DI ⊆ CI
Một cách khác nếu C D và D C thì C ≡ D được gọi là một tương đương khái niệm, là sự ước lược của C D và D C
Một tương đương khái niệm nếu vế trái là tên một khái niệm mới, chỉ xuất hiện không quá một lần bên vế trái (được gọi là ký hiệu tên) trong các tiên đề của TBox và vế phải là một biểu thức chứa các khái niệm (ký hiệu gốc) thì được gọi là
một định nghĩa khái niệm.
Ví dụ 1.7 Sử dụng hệ thống khái niệm gia đình Giả sử hệ thống bao gồm các
phần tử Tuân, Hồng, Đào, là tên các cá thể Khi đó ta có 3 khẳng định sau:
Me(Hồng) Cocon<Hồng, Tuân>
Cocon<Tuân, Đào>
ABox trên biểu diễn rằng Hồng là một người mẹ, Hồng có con là Tuân và Tuân có con là Đào
Trang 17ABox có thể xem như là một thể hiện của cơ sở dữ liệu mà chỉ có quan hệ một ngơi hoặc hai ngơi Tuy nhiên ABox khác với cơ sở dữ liệu thông thường là do ABox là một thế giới mở bởi các cơ sở tri thức luôn cập nhật và không bao giờ là đầy đủ.
Về mặt ngữ nghĩa: Một phép thông dịch I của một ABox ánh xạ mỗi tên cá thể độc lập a sang một phần tử aI ∈ ∆I, một khẳng định vai trò r(a, b) sang một tập (aI, bI) ∈ rI Khi đó một phép thông dịch I được gọi là một mô hình của một ABox
A nếu I thỏa tất cả các khẳng định của A hay aI ∈ CI với mọi khẳng định khái niệm C(a) trong A và (aI, bI) ∈ rI với mọi khẳng định vai trò r(a, b) trong A
1.4 Tổng kết chương
Chương 1 đã trình bày quá trình phát triển của Logic mô tả để dẫn tới sự ra đời của Logic mô tả EL, những khái niệm cơ bản về Logic mô tả EL như:
Cú pháp của ngôn ngữ mô tả: Trong đó, trình bày cú pháp của Logic cơ bản
đầu tiên FL0, các cú pháp cho ALC và sự ra đời của EL Ngôn ngữ này cho phép xây dựng các khái niệm phức hợp từ các khái niệm và vai trò nguyên thuỷ Ngôn ngữ thông dụng nhất mà suy diễn trên nó luôn có độ phức tạp tính toán chỉ là đa thức
Ngữ nghĩa của Logic mô tả EL: Phần này trình bày về phép thông dịch
nguyên thủy J và phép thông dịch I Phép thông dịch I gồm hai thành phần, một tập khác rỗng và một hàm dịch I Hàm dịch này tác động lên các khái niệm, các vai trò
và các cá thể trong cơ sở tri thức của hệ Logic mô tả EL tạo nên ngữ nghĩa mô tả khái niệm trong EL
Kiến trúc hệ Logic mô tả: Thể hiện được kiến trúc một hệ thống thông tin mô
tả gồm cơ sở tri thức K=(T, A) thông qua một hệ thống lập luận mới đến giao diện người sử dụng
Trang 18Chương 2 Các thủ tục suy diễn trong Logic mô tả EL
2.1 Bài toán suy diễn trong Logic mô tả EL
Như ta đã biết mục đích của các thủ tục quyết định trong bài toán bao hàm trong Logic mô tả là nhằm hướng tới sự dễ kiểm soát và sử dụng Hầu hết các thuật ngữ trong nó đều ở dạng tổng quát, các suy diễn cơ bản nhất nhằm đưa ra các tri thức ẩn, các tri thức tiềm tàng trong một cơ sở tri thức Logic Cơ sở tri thức chứa đựng phần lớn các dạng thuật ngữ (TBox) và một phần dữ liệu trong mô hình khẳng định , phần đặc trưng của các cá thể trong miền cơ sở tri thức (ABox) Các bài toán suy diễn thường được đo bằng toàn bộ kích thước đầu vào của TBox và ABox Kích thước của một cá thể độc lập luôn là một hằng số Độ phức tạp trong suy diễn là mối quan tâm chủ điểm trong Logic mô tả Độ phức tạp phụ thuộc trên sự xuất hiện
và sự kết hợp của các toán tử trong TBox Vì độ phức tạp tính toán trong hầu hết các thủ tục suy diễn mà hệ có thể cung cấp tỉ lệ thuận với khả năng biểu diễn của hệ nên đa số các thủ tục được nghiên cứu và cài đặt có hiệu quả là các thủ tục quyết định Do EL cung cấp ít các tác tử hơn, hay cú pháp nhỏ gọn hơn, nên độ phức tạp trong suy diễn của Logic mô tả EL nhỏ hơn độ phức tạp suy diễn của ữ Logic mô tả ALC
Mặc dù bài toán nhất quán của cơ sở tri thức là bài toán quyết định chuẩn và tổng quát nhất cũng cần phải xem xét các giải pháp cho các bài toán ít tổng quát hơn Trong một số ứng dụng của các hệ thống Logic mô tả, thành phần cơ sở tri thức ABox không xử lý tới các vai trò và do đó việc suy diễn chỉ thực hiện ở mức thuật ngữ (Rector & Horrocks, 1997; Schulz & Hahn, 2000; Bechhofer & Horrocks, 2000; Franconi & Ng, 2000) Với các ứng dụng này, không cần quan tâm tới thành phần ABox Hơn nữa, ABox không có sự tương đồng với miền hình thái Do đó các kết quả lý thuyết thu được cho suy diễn với cơ sở tri thức không dễ chuyển đổi như các kết quả thu được cho suy diễn với TBox Vì vậy suy diễn với cơ sở tri thức luôn khó hơn suy diễn chỉ có TBox
2.1.1 Suy diễn cho EL-TBox
Cú pháp trong Logic mô tả EL không chứa toán tử phủ định nên các mô tả khái niệm trong Logic mô tả EL đã luôn ở dạng khẳng định Do đó các bài toán trong Logic mô tả EL là :
1 Bài toán bao hàm: Khái niệm C bị bao bởi khái niệm D đối với T
nếu như với mọi mô hình I của T, có CI ⊆ DI Khi đó khái niệm C bị bao bởi khái niệm D sẽ được kí hiệu là C T D hoặc T |= C D Sử dụng bài toán bao hàm các khái niệm trong TBox có thể được sắp xếp theo thứ tự bao hàm giữa chúng dựa trên quan hệ bao hàm trực tiếp hay bao hàm gián tiếp
Khái niệm C bị bao hàm trực tiếp bởi khái niệm D đối với T nếu như khái niệm C bị bao hàm bởi khái niệm D và không tồn tại một khái niệm E mà khái niệm C bị bao hàm bởi khái niệm E và khái niệm E bị bao hàm bởi khái niệm D
Khái niệm C bị bao hàm gián tiếp bởi khái niệm D đối với T nếu như khái niệm C bị bao hàm bởi khái niệm D và khái niệm C không bị bao hàm trực tiếp bởi khái niệm D
Trang 19Tính toán thứ bậc bao hàm là một trong các bài toán suy diễn chính của các
hệ thống Logic mô tả hiện nay
2 Bài toán tương đương khái niệm: Hai khái niệm C và D gọi là
tương đương đối với T nếu như CI = DI với mọi mô hình I của T Khi đó ta viết C
≡T D hoặc T |= C ≡ D.
3 Bài toán nhất quán của TBox: Một TBox T là nhất quán khi và chỉ
khi nó thỏa mãn, tức là tồn tại ít nhất một mô hình không rỗng của T Một phép thông dịch I là một mô hình của T nếu nó thỏa mọi tiên đề trong T
4 Bài toán không giao khái niệm: Hai khái niệm C và D là không giao
nhau đối với T nếu như CI ∩ DI = ∅ với mọi mô hình I của T
Ví dụ 2.1 Xét bộ thuật ngữ trong Bảng 1.5, ta có khái niệm ConNguoi bao
hàm khái niệm Nam và Nu Ngoài ra, hai khái niệm Nam và Nu là không giao
Các hệ thống Logic mô tả như KL-ONE (Brachman & Schmolze, 1985) và các hệ thống tiếp sau nó BACK (Quantz & Kindermann, 1990), K-REP (Mays, Dionne & Weida, 1991) hay LOOM (MacGregor, 1991) sử dụng thuật toán cấu trúc dựa vào sự so sánh cú pháp của các khái niệm ở dạng chuẩn thích hợp để quyết định tính bao hàm Nebel (1990) đã đưa ra một mô tả chính thức về một thuật toán dựa trên tiếp cận này Thuật toán này hoạt động thực sự có hiệu quả chỉ với thời gian đa thức
Ngày nay trong Logic mô tả EL chủ yếu chỉ xét các bài toán bao hàm Bài toán bao hàm trong Logic mô tả EL với TBox có chu trình và TBox tổng quát được diễn giải thông qua việc xây dựng phép simulation giữa các đồ thị Để mô tả hai bài toán TBox có chu trình và TBox tổng quát trong Logic mô tả EL ta thực hiện chuẩn hóa EL-TBox và sử dụng đồ thị mô tả-EL Đồ thị mô tả-EL được xây dựng qua EL-TBox chuẩn hỉa
2.1.2 Suy diễn cho EL-ABox
ABox chỉ gồm có 2 loại khẳng định: khẳng định khái niệm có dạng C(a) và khẳng định vai trò có dạng r(a,b) Do đó, một mình ABox không thể xem như một
cơ sở tri thức mà nó phải đi cùng với TBox Do đó, suy diễn ABox luôn luôn được thực hiện đối với một TBox
Trong Logic mô tả, các bài toán suy diễn cơ bản cho ABox bao gồm:
1 Kiểm tra thể hiện: Xác định một khẳng định có phải được suy diễn
từ ABox A hay không Logic mô tả EL không chứa bất cứ xây dựng luật vai trò nào ở dạng phức tạp, nên bài toán kiểm tra khẳng định vai trò rất đơn giản, chỉ là tìm sự xuất hiện của khẳng định vai trò cần kiểm tra trong ABox Như vậy chúng
ta chỉ cần quan tâm tới kiểm tra khẳng định khái niệm Để kiểm tra một khẳng định khái niệm, chúng ta phải kiểm tra khẳng định có được suy diễn từ ABox hay không Một khẳng định được suy diễn từ ABox (A |= C(a)) nếu với mọi mô hình
I của A cũng thỏa mãn C(a)
2 Nhất quán của ABox: ABox A là nhất quán khi và chỉ khi nó nhất
quán đối với TBox T, tức là tồn tại một phép thông dịch là mô hình của cả TBox
và ABox Do đó, chúng ta phải sử dụng TBox trong dịch vụ suy diễn này của ABox, tức là mở rộng ABox với các khái niệm TBox mở rộng Khái niệm mở
Trang 20rộng E thu được bằng cách thay thế các tên trong mô tả của khái niệm ban đầu C bằng các mô tả của chúng ở trong T C là thỏa đối với T khi và chỉ khi E là thỏa đối với T Do đó, mở rộng ABox đối với T (ABox A’) có thể thu được bằng cách thay thế mỗi khẳng định khái niệm C(a) trong A bằng khẳng định khái niệm E(a) Trong mọi mô hình của T, một khái niệm C và mở rộng E được thông dịch theo cùng một cách và A’ không chứa các kí hiệu tên được định nghĩa trong T Vì vậy, A là nhất quán đối với T khi và chỉ khi A’ là nhất quán A’ nhất quán khi và chỉ khi nó thỏa, tức là tồn tại một mô hình không rỗng của A’ Bây giờ A’ cũng biểu diễn toàn bộ cơ sở tri thức
Bài toán bao hàm khái niệm cũng có thể chuyển về bài toán kiểm tra thể hiện: Khái niệm C bị bao hàm bởi khái niệm D khi và chỉ khi khẳng định khái niệm D(a) được suy ra từ cơ sở tri thức {C(a)}, tức là {C(a)} |= D(a)
Trong các ứng dụng, thường xuyên phải sử dụng các suy diễn phức tạp hơn bài toán nhất quán và kiểm tra thể hiện Nếu chúng ta xem xét một cơ sở tri thức theo nghĩa lưu trữ thông tin về các cá thể, chúng ta sẽ muốn biết mọi cá thể là thể hiện của một mô tả khái niệm C đã cho, tức là chúng ta sử dụng ngôn ngữ mô tả để trình bày chính xác các truy vấn:
1 Tìm kiếm cá thể: Cho một ABox A và một khái niệm C, tìm tất cả mọi
cá thể a trong ABox là thể hiện của C, tức là A |= C(a) Một giải thuật cho việc tìm kiếm cá thể có thể thực hiện bằng cách kiểm tra mỗi cá thể xuất hiện trong ABox có phải là một thể hiện của khái niệm C hay không
2 Tìm kiếm khái niệm: Cho một cá thể a và tập các khái niệm, tìm khái
niệm cụ thể nhất C từ tập các khái niệm mà a là một thể hiện của C, tức là A thỏa mãn C(a), ký hiệu A |= C(a) Ở đây khái niệm cụ thể nhất được hiểu là khái niệm nhỏ nhất đối với thứ tự bao hàm Bài toán này có thể được sử dụng trong các hệ thống sinh ngôn ngữ tự nhiên
2.2 Luật chuẩn hóa trong Logic mô tả EL
Một cách trực quan định nghĩa cho EL-TBox chuẩn hóa như sau:
EL-TBox chuẩn hóa: Cho T là một EL-TBox với các định nghĩa khái niệm,
các khái niệm nguyên thủy và tên các vai trò Khi đó T được gọi là một EL-TBox
chuẩn hóa, nếu định nghĩa khái niệm C ≡ D nằm trong T hàm ý rằng D là mô hình
của mẫu sau:
P1 ⊓ ⊓ Pm ∃r1.B1 ⊓ ⊓ ∃rk.Bk ,
Với m, k 0
• P1, , Pm là các khái niệm nguyên thủy (ký hiệu Nprim)
• r1, , rk là các vai trò (ký hiệu Nrole)
• B1, , Bk là các định nghĩa khái niệm (ký hiệu Ndef)
Cho T là một EL-TBox chứa các khái niệm nguyên thủy, định nghĩa khái niệm và các vai trò Các Luật chuẩn hóa được định nghĩa như sau:
Trong các luật chuẩn hóa có A, Â, Ai là ký hiệu tên các khái niệm, C và Ci là các mô tả khái niệm (có thể là khái niệm phức hoặc khái niệm đỉnh), Ĉ là một khái niệm (có thể là một khái niệm nguyên thủy hoặc là một khái niệm phức hợp) và còn
Trang 21lại là một định nghĩa khái niệm mà chưa xuất hiện trong định nghĩa khái niệm ban đầu.
NF1 {A ≡ ∃r.Ĉ ⊓ C} → { A ≡ ∃r.B C , B ≡ Ĉ },⊓
Với B là một tên khái niệm mới
NF2 desc (ngữ nghĩa mô tả)
A1 ≡ A2 ⊓ C1,A2 ≡ A3 ⊓ C2, Ai ≡ P ⊓ C1 ⊓ …⊓ Ck ∶ → cho 1 i k
với P là một tên khái niệm mới
Ak ≡ A1 ⊓ Ck
NF2 gfp (ngữ nghĩa với điểm cố định lớn nhất(fixpoint))
A1 ≡ A2 ⊓ C1,A2 ≡ A3 ⊓ C2, Ai ≡ C1 ⊓ …⊓ Ck ∶ → cho 1 i k
Luật NF2 desc áp dụng với các định nghĩa khái niệm
Trang 22Tương tự với luật NF2 gfp ta có:
{Bà, Me, Nu} ≡ ConNguoi GiongCai ⊓ ⊓∃Cocon.ConNguoi ⊓∃Cocon.ChaMe
Luật NF3 với định nghĩa khái niệm
Me ≡ Nu ⊓∃Cocon.ConNguoi
sẽ được chuyển thành: Me ≡ ConNguoi ⊓ GiongCai ⊓∃Cocon.ConNguoi
Ví dụ 2.2 Cho T là một EL-TBox chỉ bao gồm định nghĩa khái niệm, với
các tập định nghĩa như sau:
1. Boss(Ông chủ), GiamDoc(Giám đốc), DoanhNghiep(Doanh nghiệp)
là các mô tả khái niệm
2 ĐôLa(DoLa), Vàng(Vang), Giàu(Giau) là các khái niệm nguyên thủy.
3 coTien(có tiền), coQuanhe(có quan hệ) là các vai trò.
4 TopDoanhnghiep là những doanh nghiệp lớn.
DoanhNghiep ≡ Vang GiamDoc ⊓ ⊓ ∃coTien.∃coQuanhe.DoanhNghiep
GiamDoc ≡ DoLa Boss ⊓ ⊓∃coQuanhe.∃coTien.Boss
Boss ≡ Giau GiamDoc ⊓ ⊓∃coTien.(DoLa Vang)⊓
Bằng cách định nghĩa các khái niệm mới từ khái niệm phức hợp trong TBox trên ta được:
DoanhNghiep ≡ Vang GiamDoc ⊓ ⊓∃coTien.TopDoanhNghiep TopDoanhNghiep ≡ ∃coQuanhe.DoanhNghiep
GiamDoc ≡ DoLa Boss ⊓ ⊓∃coQuanhe.ThuongGia
ThuongGia ≡ ∃coTien.Boss
Boss ≡ Giau GiamDoc ⊓ ⊓∃coTien.TuBan
TuBan ≡ DoLa Vang⊓
Trong định nghĩa khái niệm GiamDoc và Boss Ta thấy GiamDoc thì bao bởi Boss đồng thời Boss cũng được bao bởi GiamDoc Do đó định nghĩa khái niệm GiamDoc và Boss là tương đương Hơn nữa cả GiamDoc và Boss cùng gộp vào (DoLa Giau ∃coQuanhe.ThuongGia ∃coTien.TuBan) Bởi vậy ta có thể thay thế định nghĩa của GiamDoc và Boss bởi tiên đề thuật ngữ dạng tổng quát, bao hàm khái niệm (GCIs)
Boss ⊑ DoLa Giau ⊓ ⊓∃coQuanhe.ThuongGia ⊓∃coTien.TuBan
GiamDoc DoLa Giau ⊑ ⊓ ⊓∃coQuanhe.ThuongGia ⊓ ∃coTien.TuBan
Bây giờ ta có thuật ngữ với 2 GCIs:
DoanhNghiep ≡ Vang GiamDoc ⊓ ⊓∃coTien.TopDoanhNghiep TopDoanhNghiep ≡ ∃coQuanhe.DoanhNghiep
GiamDoc DoLa ⊑ ⊓ Giau ⊓∃coQuanhe.ThuongGia ⊓∃coTien.TuBan ThuongGia ≡ ∃coTien.Boss
Boss ⊑ DoLa Giau ⊓ ⊓∃coQuanhe.ThuongGia ⊓∃coTien.TuBan TuBan ≡ DoLa Vang⊓
Theo thứ tự chuyển thuật ngữ này vào trong một TBox, ta phải loại bỏ 2 GCIs Áp dụng ngữ nghĩa mô tả ( luật NF2desc) được dựng với TBox, ta đưa ra khái niệm nguyên thủy mới P và thay GCIs bằng định nghĩa
GiamDoc ≡ P DoLa Giau ⊓ ⊓ ⊓∃coQuanhe.ThuongGia ⊓∃coTien.TuBan
Trang 23Boss ≡ P DoLa ⊓ Giau ⊓∃coQuanhe.ThuongGia ⊓ ∃coTien.TuBan
Ký hiệu Tdes là EL-TBox thu được trong trường hợp này Áp dụng luật NF3 thay thế cho định nghĩa GiamDoc trong DoanhNghiep Ta thu được EL-TBox sau khi đã chuẩn hóa là Tdesc như sau:
DoanhNghiep ≡ Vang DoLa Giau ⊓ ⊓ ⊓∃coQuanhe.ThuongGia ⊓
∃coTien.TuBan ⊓∃coTien.TopDoanhNghiepTopDoanhNghiep ≡ ∃coQuanhe.DoanhNghiep GiamDoc ≡ P DoLa Giau ⊓ ⊓ ⊓∃coQuanhe.ThuongGia ⊓∃coTien.TuBan ThuongGia ≡ ∃coTien.Boss
Boss ≡ P DoLa ⊓ Giau ⊓∃coQuanhe.ThuongGia ⊓∃coTien.TuBan TuBan ≡ DoLa Vang⊓
Áp dụng gfp-ngữ nghĩa (luật NF2gfp), khi đó GCIs có thể tách biệt theo thứ tự
để thay thế bởi định nghĩa
GiamDoc ≡ DoLa Giau ⊓ ⊓ ∃coQuanhe.ThuongGia ⊓∃coTien.TuBan và Boss ≡ DoLa Giau ⊓ ⊓∃coQuanhe.ThuongGia ⊓ ∃coTien.TuBan
Ký hiệu T gfp là EL-TBox thu được trong trường hợp này Áp dụng luật NF3 thay thế cho định nghĩa GiamDoc trong DoanhNghiep Ta thu được EL-TBox sau khi đã chuẩn là Tgfp như sau:
DoanhNghiep ≡ Vang ⊓ DoLa ⊓ Giau ⊓ ∃coQuanhe.ThuongGia ⊓
∃coTien.TuBan ⊓ ∃coTien.TopDoanhNghiepTopDoanhNghiep ≡ ∃coQuanhe.DoanhNghiep
GiamDoc ≡ DoLa ⊓ Giau ⊓ ∃coQuanhe.ThuongGia ⊓ ∃coTien.TuBan
ThuongGia ≡ ∃coTien.Boss
Boss ≡ DoLa ⊓ Giau ⊓ ∃coQuanhe.ThuongGia ⊓ ∃coTien.TuBan
TuBan ≡ DoLa Vang.⊓
Xử lý chuẩn hóa mô tả trong ví dụ trên bao gồm ba bước chính là:
1 Đưa vào định nghĩa khái niệm mới, với mỗi khái niệm con là một lượng từ tồn tại và định nghĩa khái niệm nằm bên cạnh lượng từ tồn tại đó Ta thay thế một khái niệm con bằng một định nghĩa khái niệm mới
2 Dò tìm và xóa bỏ những định nghĩa khái niệm là phép giao bậc cao của các định nghĩa khái niệm mô tả chúng
3 Thay thế định nghĩa khái niệm mà xuất hiện trong phép giao bậc cao của một định nghĩa khái niệm với những định nghĩa mô tả khái niệm đó
2.3 Chuẩn hóa EL-TBox
Chuẩn hóa EL-TBox của T với ngữ nghĩa -gfp (ký hiệu normgfp(T)) được định nghĩa bằng cách áp dụng tường tận các luật NF1, tiếp đó là NF2gfp và cuối cùng
là NF3
Chuẩn hóa EL-TBox của T với ngữ nghĩa mô tả (ký hiệu normdesc(T)) được định nghĩa bằng cách áp dụng lần lượt các luật NF1, tiếp đó là NF2desc và cuối cùng
là NF3
Trang 24Khi đó kích cỡ của một EL-TBox T (ký hiệu |T|), là tổng số lần xuất hiện của tất cả tên các khái niệm và tên các vai trò trong T
Ví dụ 2.2 Cho T1 là một EL-TBox chứa đựng các định nghĩa khái niệm:
A1 ≡ A2 ⊓ P1,
A2 ≡ A3 ⊓ P2,
∶
An ≡ A1 ⊓ Pn,
Ai là các định nghĩa khái niệm và Pi là khái niệm nguyên thủy cho 1 i n
và n 1 T1 đã thực hiện chuẩn hóa luật NF1, và kích thước của T1 sẽ thuộc độ dài n ( |T1|=3n)
Ví dụ 2.3: với các định nghĩa khái niệm
Ba ≡ Me ⊓ ∃coCon.ChaMe
Me ≡ Nu ⊓ ∃coCon.ConNguoi
Nu ≡ ConNguoi ⊓ GiongCai
được chứa đựng trong EL-TBox thì kích thước của nó là: |T|=11
Áp dụng luật NF2gfp, ta thu được chuẩn hóa EL-TBox normgfp(T1) như sau: A1 ≡ P1 P⊓ 2 … P⊓ ⊓ n,
A2 ≡ P1 P⊓ 2 … P⊓ ⊓ n,
∶
An ≡ P1 P⊓ 2 … P⊓ ⊓ n.
Kích thước của T1 sẽ là đa thức ( |normgfp(T1)| = n(n + 1))
Bổ đề 2.1 Cho T là một EL-TBox Chuẩn hóa EL-TBox normgfp(T) (gfp-ngữ nghĩa) và normdesc(T) (ngữ nghĩa mô tả), có thể tính toán trong thời gian bậc 2 theo |T|, và kết quả ontologies là kích thước bậc 2 theo |T|
2.4 Đồ thị mô tả -EL
Cho T là một EL-TBox đã chuẩn hóa gồm các khái niệm nguyên thủy, các vai trò và các định nghĩa khái niệm, khi đó đồ thị mô tả EL-TBox T sẽ là đồ thị GT=(VT, ET, LT) có các cạnh và các nút được gán nhãn được định nghĩa như sau:
• VT là tập các nút (các nút là các định nghĩa khái niệm)
• ET = {(x, y) | (x, y) : r ∈ Nrole), là tập các cạnh gán nhãn là tên các vai trò
• LT(A)={P1, ,Pm} là các khái niệm nguyên thủy của A Với A là một định nghĩa khái niệm: P1 P⊓ 2 … P⊓ ⊓ m ⊓ r1.B1 ⊓ r2.B2 … ⊓ ⊓ rk.Ak trong
T (A là tập các cạnh (A, r1, B1), , ( A, rk, Bk) ET)
Ví dụ 2.3 Mĩ tả đồ thị mô tả-EL của chuẩn hóa EL-TBox gfp-ngữ nghĩa(Tgfp) trong ví dụ 2.1
Trang 25Hình 2.1: Đồ thị mô tả-EL của chuẩn hóa EL-TBox gfp-ngữ nghĩa T gfp
Khi đó kích thước của đồ thị mô tả (ký hiệu |GT|) sẽ là tổng độ dài các nút ( ký hiệu |VT| và các cạnh (ký hiệu |ET|) Thỏa mãn bổ đề sau:
Bổ đề 2.2 Cho T là một EL-TBox và GT = (VT, ET, LT) là đồ thị mô tả-EL tương ứng của T Khi đó
1 Tổng số các nút |VT| là kích thước theo chiều dài của T, và tổng số các cạnh
|ET| là bậc 2 trong kích thước của T
2 Kích thước của GT là bậc 2 trong kích thước của T
Chứng minh:
Ta có số các nút trong GT là các định nghĩa khái niệm trong EL-TBox đã được chuẩn hóa Một định nghĩa khái niệm mới sẽ được thêm vào T mỗi khi áp dụng luật NF1, do đó chỉ làm tăng kích thước của T theo chiều dài
Mỗi cạnh (A, r, B) trong GT là một khái niệm con r.B xuất hiện trong định nghĩa khái niệm ban đầu của định nghĩa khái niệm A trong EL-TBox đã được chuẩn
hóa T’ Khi đó theo Bổ đề 2.1 thì kích thước của T’ sẽ là bậc 2 theo kích thước của
T
Ví dụ 2.4 Cho các định nghĩa khái niệm trong gia đình của TBox T như sau:
Nam ≡ ConNguoi ⊓ GiongDuc
ChaMe ≡ ConNguoi ⊓ ∃cocon.ConNguoi
Cha ≡ Nam ⊓ ∃Cocon.ConNguoi
Ong ≡ Cha ⊓ ∃Cocon.ChaMe
Áp dụng luật NF1 ta được:
ConNguoi ≡ ConNguoi
Áp dụng luật NF3 ta có các định nghĩa khái niệm sau:
ChaMe ≡ ConNguoi ⊓ ∃cocon.ConNguoi Cha ≡ ConNguoi ⊓ GiongDuc ⊓ ∃Cocon.ConNguoi
DoanhNghiep
TuBan n
TopDoanh Nghiep
Thuong Gia
{∅}
Trang 26Ong ≡ ConNguoi ⊓ GiongDuc ⊓ ∃Cocon.ConNguoi ⊓ ∃Cocon.ChaMe.Sau khi áp dụng các luật NF1 và NF3 TBox đã ở dạng chuẩn hóa, ta mô phỏng EL-TBox T đã ở dạng chuẩn hóa sang một đồ thị mô tả-EL như sau:
Hình 2.2 Đồ thị mô tả EL ứng với ví dụ 2.42.5 Tổng kết chương
Như vậy trong chương 2 đã trình bày về các bài toán trong Logic mô tả EL, chỉ ra điểm mạnh của ngôn ngữ Logic mô tả EL so với các ngôn ngữ mô tả khác Với một tập cú pháp với các toán tử nhỏ gọn đã thể hiện khả năng suy diễn các bài toán bao hàm chỉ với thời gian đa thức Đồng thời trong chương 2 cũng đã chỉ ra các bài toán suy diễn cho TBox và ABox, đặc điểm của bài toán bao hàm trong Logic mô tả EL là trước khi thực hiện các thuật toán áp dụng cho EL thì ta cần phải chuẩn hóa TBox sang dạng chuẩn theo các luật chuẩn hóa áp dụng vào các khái niệm nguyên thủy, các vai trò và các định nghĩa khái niệm để đưa ra một EL-TBox
ở dạng chuẩn hóa Trong chương 2 này cũng đưa ra một thuật ngữ gọi là đồ thị mô tả-EL, đồ thị mô tả-EL được xây dựng thông qua một EL-TBox đã ở dạng chuẩn hóa, trong đó các nút là các định nghĩa khái niệm, các cạnh là các vai trò Khi đó kích thước của đồ thị mô tả sẽ là bậc hai theo kích thước của TBox
Chương 3 Các thuật toán cho Logic mô tả EL
3.1 Giới thiệu chung
Có nhiều thuật toán đã được phát triển để giải quyết các bài toán quyết định trong Logic mô tả Trong đó có ba thủ tục quyết định cho thuật ngữ cài đặt trong
Logic mô tả EL là TBox với ngữ nghĩa điểm cố định lớn nhất (EL gfp), TBox với ngữ nghĩa mô tả (ELdesc), và các tiên đề thuật ngữ với GCIs (ELgci) (hay TBox tổng quát)
đã làm cho thời gian tính toán trong Logic mô tả EL giảm đi nhiều
{∅}
{ConNguoi}
Trang 27Đối với ELgfp và ELdesc chúng ta sử dụng một phép mô tả thông qua phép simulation(phép mô phỏng) giữa các cây nhị phân với nhau hay còn gọi là đồ thị
mô tả-EL Với một thuật toán hiệu quả cho việc tính toán phép simulation trên các
đồ thị Chúng ta chỉ ra rằng bao hàm-ELgfp có thể quyết định trong thời gian bậc ba
với kích thước đầu vào của TBox Thủ tục quyết định cho bao hàm-ELdesc được chuyển từ phép simulation trên các đồ thị sang bài toán thỏa của chuẩn Horn, tiếp
đó áp dụng một thuật toán linear-time Horn-SAT đối với chuẩn Horn khi đó thủ
tục quyết định cho bao hàm-ELdesc sẽ tiến tới thời gian là đa thức bậc bốn Cuối cùng với TBox tổng quát (hay TBox với các tiên đề thuật ngữ GCIs) chúng ta thực hiện một chuẩn hóa khác và mô tả bao hàm qua chuẩn hóa đó, ta gọi các chuẩn hóa
đó là các tập hợp tương quan ( implication sets), khi đó thời gian tính toán cho bao hàm-ELgci sẽ được quyết định trong thời gian là bậc ba so với kích thước đầu vào
của thuật ngữ, thuật toán này được áp dụng bằng cách chuyển các tập hợp tương
quan sang một chuẩn Horn và áp dụng thuật toán linear-time Horn-SAT tương tự
như ELdesc
Các thủ tục này đã được áp dụng vào ngôn ngữ Common LISP và thu được hiệu quả lớn trong việc sử dụng Gene Ontology và được coi như là một tiêu chuẩn
3.2 Thuật toán bao hàm cho ELgfp
Thuật toán bao hàm cho ELgfp được đưa ra để giải quyết các bài toán quyết định trong Logic mô tả EL với thời gian là đa thức bậc ba Để thu được kết quả này
ta chuyển các EL-TBox sang các đồ thị mô tả-EL, phương pháp này gọi là phép mô phỏng (simulations) của các đồ thị mô tả-EL Trong bài này ta sẽ chỉ ra cách thức làm thế nào để biên dịch một EL-TBox thành một đồ thị mô tả-EL Và đưa ra khái niệm của một phép mô phỏng giữa các nút của một đồ thị mô tả Tiếp đó ta chuyển bài toán bao hàm khái niệm- ELgfp của EL-TBox sang bài toán mô phỏng tương ứng trên đồ thị mô tả-EL
Các phép mô phỏng là quan hệ nhị phân giữa các nút của hai đồ thị mô tả-EL
có các nhãn và các cạnh đã được định nghĩa như sau:
Phép mô phỏng: Cho Gi = (Vi, Ei, Li) ( với i = 1, 2) là hai đồ thị mô tả-EL Khi đó quan hệ nhị phân Z ⊆ V1 ×V2 là một phép mô phỏng từ G1 sang G2 nếu
Trang 28Bảng 3.1 Thuật toán tính toán phép simulation lớn nhất của đồ thị mô tả-EL
Trong đó tập hợp sim(v) chứa đựng các nút v thỏa S1 Ta ký hiệu post(u,r) là
tập tất cả các kế vị r của u và pre(u,r) tập tất cả các kế vị r trước đó của u Với U là tập các nút thì pre(U,r) := pre(u,r) Nút trong remove(v,r) sẽ được xóa từ
sim(u) đối với u ∈ pre(v,r)
Hệ quả: Bao hàm giữa các khái niệm trong Logic mô tả EL của một EL-TBox
T với ngữ nghĩa điểm cố định lớn nhất có thể tính toán trong thời gian bậc 3 kích
thước của T (O(|T|3)
Chứng minh: Cho GT=(VT, ET, LT) là một đồ thị mô tả-EL của T Theo Định
lý 3.2.1 [Baader] chỉ ra rằng độ phức tạp của thuật toán EL gfp- EfficientSimilarity
tương ứng với GT Theo Bổ đề 2.2, kích thước |VT| giới hạn bởi T và |ET| giới hạn bởi T2 Nếu |V| |E| thì độ phức tạp của thuật toán EL gfp- EfficientSimilarity sẽ là O(|VT| ·|ET|), hay O(|T|3)
sim(v) := { u ∈ V | L(v) L(u) and
post(v, r) ≠ → post(u, r) ≠ for all r ∅ ∅ ∈ R };
remove(v, r) := pre(V, r)\pre(sim(v), r); for all r ∈ R
pre (v) := { (u, r) | u ∗ ∈ pre(v, r) for all r ∈ R };
od;
{ Vòng lặp }
while có một nút v ∈ V and một cạnh gán nhãn r ∈ R
such that remove(v, r) ≠ do∅
for all u ∈ pre(v, r) do
for all w ∈ remove(v, r) do
if w ∈ sim(u) then
sim(u) := sim(u)\{w};
for all (w′ , r′ ) ∈ pre (w) do∗
if post(w′ , r′ ) ∩ sim(u) = then∅
Trang 29Như vậy để thực hiện thuật toán cho bao hàm ELgfp ta cần phải chuyển TBox sang dạng chuẩn hóa, sau khi TBox đã ở dạng chuẩn hóa thì ta sử dụng phép mô phỏng để biên dịch một EL-TBox thành một đồ thị mô tả-EL cuối cùng ta sử dụng
thuật toán EL gfp- EfficientSimilarity để chứng minh bài toán bao hàm trong Logic
mô tả EL sẽ được giải quyết trong thời gian là đa thức bậc ba theo kích thứớc đầu vào của TBox T
Ví dụ 3.1 Giả sử ta có một TBox đã chuẩn hóa gồm các định nghĩa khái niệm như
sau:
ChaMe ≡ ConNguoi ⊓ ∃Cocon.ConNguoi Cha ≡ ConNguoi ⊓ GiongDuc ⊓ ∃Cocon.ConNguoi Ong ≡ ConNguoi ⊓ GiongDuc ⊓ ∃Cocon.ConNguoi ⊓ ∃Cocon.ChaMe
Áp dụng thuật toán EL gfp- EfficientSimilarity với đồ thị hình 3.1
Bước khởi tạo của thuật toán cho kết quả như sau:
- Tập các nhãn của đồ thị là:
L(ConNguoi) = {Ø}
L(Ong) = {ConNguoi, GiongDuc}
L(Cha) = {ConNguoi, GiongDuc}
L(ChaMe) = {CongNguoi}
- Tập các nút tiếp theo của nút đang xét
post(Ong) = {ChaMe, ConNguoi}
Trang 30- Tập các nút trước của nút đang xét
pre(Ong, coCon) = {Ø}
pre(Cha, coCon) = {Ø}
pre(ChaMe, coCon) = {Ong}
pre(ConNguoi, coCon) = {Ong, Cha, ChaMe}
- Tập mô phỏng quan hệ của mỗi nút
Sim(Ong) = {Cha, Ong}
Sim(Cha) = {Cha, Ong}
Sim(ConNguoi) = {ConNguoi}
Sim(ChaMe) = {ChaMe, Ong, Cha}
- Các bước khởi tạo trong thuật toán dựng để xóa bỏ các nút trong tập chứa các nút trước nút đang xét
remove(ConNguoi, coCon) = {Ø}
remove(Ong, coCon) = {Cha, ChaMe, Ong}
remove(Cha, coCon) = {Cha, ChaMe, Ong}
remove(ChaMe, coCon) = {Cha, ChaMe}
- Tập ánh xạ quan hệ của nút với nút trước nó
pre*(Ong) = {Ø}
pre*(Cha) = {Ø}
pre*(ChaMe) = {Ong}
pre*(ConNguoi= {Ong, Cha, ChaMe}
Kết quả cuối cùng nhận được sau khi kết thúc thuật toán là tập hợp của các nút mô phỏng mối quan hệ của nút đó với các nút khác
Sim(Ong) = {Ong}
Sim(Cha) = {Cha, Ong}
Sim(ChaMe) = {ChaMe, Ong, Cha}
Sim(ConNguoi) = {ConNguoi}
Thuật toán chỉ rằng quan hệ mô phỏng của nút Ong thì bao hàm bởi nút Ong, nút Cha được bao hàm bởi nút Ong và nút Cha, nút ChaMe thì được bao hàm bởi nút Cha, nút ChaMe và nút Ong
Vậy thuật toán EL gfp- EfficientSimilarity với đầu vào là một đồ thị và đầu ra
là một tập các nút mô phỏng mô phỏng các mối quan hệ của các nút đó Thời gian tính toán cho phép mô phỏng trên đồ thị sẽ được quyết định trong thời gian đa thức bậc ba Do đó, kết quả cho thuật toán bao hàm cho ELgfp sẽ được quyết định trong thời gian đa thức bậc ba là do ta sử dụng phép mô phỏng trên một đồ thị mô tả được xây dựng từ một TBox đã chuẩn hóa Mà trong đó khi các định nghĩa được mô phỏng thành các nút trên đồ thị thì kích thước |VT| giới hạn bởi đầu vào là TBox |T|,
và khi các vai trò được mô phỏng thành các cạnh của đồ thị thì kích thước |ET| giới hạn bởi đầu vào của T là |T|2 Khi |VT| ≥ |ET| thì độ phức tạp của phép mô phỏng trên
thuật toán EL gfp- EfficientSimilarity sẽ là O(|VT|.|ET|) hay O(|T|3)
Trang 313.3 Thuật toán cho bao hàm ELgci
Một ELdesc-TBox có thể chuyển đổi thành một ELgci-TBox nhưng một ELgci không thể chuyển sang một ELdesc Đó là một trong những lý do mà thực tế thường
sử dụng cho bao hàm khái niệm ELgci hơn là cho bao hàm khái niệm ELdesc Hơn nữa thuật toán cho bao hàm ELgci được quyết định trong thời gian đa thức bậc ba, còn thuật toán cho bao hàm ELdesc được quyết định trong thời gian đa thức bậc bốn Thực hiện thuật toán bao hàm ELgci bằng cách áp dụng kỹ thuật chuyển đổi TBox
tổng quát sang chuẩn Horn Sau đó sử dụng thuật toán linear-time cho chuẩn Horn-SAT.
3.3.1 Chuẩn hóa EL-TBox với GCI
Cho T là một EL-TBox tổng quát T là chuẩn hóa GCI nếu T chỉ chứa đựng các mẫu GCIs sau:
GCI1 A ⊑B
Bảng 3.2 Các mẫu chuẩn hóa GCI
Trong đó A, A1, A2, và B là các tên khái niệm hoặc khái niệm đỉnh ⊤, và r là tên vai trò Một EL-TBox tổng quát có thể chuyển sang mô hình chuẩn-GCIs bằng cách áp dụng các luật chuẩn hóa
3.3.2 Các luật chuẩn hóa-GCI
Cho T là một EL-TBox tổng quát gồm tên các khái niệm và tên các vai trò Với r là ký hiệu tên một vai trò, B là tên một khái niệm, và A là tên một khái niệm mới Cho Ĉ, Ď là các khái niệm phức và C, D, E là các mô tả khái niệm bất kỳ Các luật chuẩn hóa-GCI được định nghĩa như sau:
Bảng 3.3 Các luật chuẩn hóa GCIs
TBox chuẩn hóa-GCI (ký hiệu normgci(T)) được định nghĩa bằng cách áp
dụng các luật NF1 đến NF4 (Pha1) và sau đó áp dụng luật NF5 đến NF7 (Pha2).
Trang 32Bổ đề 3.1 Cho T là một TBox tổng quát TBox chuẩn hóa GCIs ký hiệu
normgci(T) có thể tính trong thời gian theo độ dài kích thước của T Khi đó kết quả ontology normgci(T) là kích thước độ dài của T
Chứng minh: Kích thước của T tăng theo chiều dài khi áp dụng luật NF1 Các luật NF2 và NF3 áp dụng cho mỗi phép “ ” bên vế trái của GCI trong T Áp dụng luật NF4 giới hạn bởi phép “∃” bên vế trái của GCI trong T Với mỗi một trong những luật của Pha1 từ NF2 đến NF4, kích thước của T sẽ tăng theo một
hằng số, mỗi một định nghĩa khái niệm mới được sinh ra sẽ biến đổi 1 GCI thành 2
GCI Do đó việc áp dụng các luật trong Pha1 sẽ là một thủ tục (TBox T’)với khoảng thời gian là kích thước theo chiều dài kích thước của T Áp dụng luật NF5
cho mỗi GCI trong T’ khi đó kích thước sẽ bằng 2 lần GCIs theo chiều dài Tương
tự như Pha1, áp dụng các luật NF6 (NF7) cho các phép “ ”(“∃”) trong T’ Mỗi ứng dụng đơn của các luật NF6 và NF7 cũng gia tăng kích thước của T’ theo một hằng số Vì vậy áp dụng Pha2 từ NF5 đến NF7 cũng mất khoảng thời gian là có độ
lớn theo độ dài kích thước của T
Ví dụ 3.2 Cho T là một TBox tổng quát T bao gồm 4 GCIs Ba GCIs đầu tiên
đã được chuẩn hóa với Pha1 Với các thuật ngữ sau:
Mangngoaitim ⊑Mo⊓∃khoangtrong.Tim
Viemmangngoaitim ⊑Viem⊓∃vitri.Mangngoaitim
Viem ⊑Benh ⊓∃hoatdong.Mangngoaitim
Benh ⊓∃vitri.∃khoangtrong.Tim⊑BenhTim ⊓∃trangthai.Canchuatri
Áp dụng Luật NF3 với GCI cuối cùng:
Benh ⊓ ∃vitri.∃khoangtrong.Tim BenhTim ⊑ ⊓ trangthai.CanchuatriĐược tách thành 2 GCIs:
1 Benh ⊓ A1 BenhTim ⊑ ⊓ trangthai.Canchuatri
Viemmangngoaitim Viem ⊑ ⊓ ∃vitri.Mangngoaitim
Viem Benh ⊑ ⊓ ∃hoatdong.MangngoaitimBenh A⊓ 1 BenhTim ⊑ ⊓∃trangthai.Canchuatri
∃vitri.A2 A⊑ 1
∃khoangtrong.Tim A⊑ 2
Bây giờ luật NF5 chỉ áp dụng cho GCI thứ 4 để chuyển nó thành
Benh ⊓ A1 A⊑ 3A3 BenhTim ⊑ ⊓ ∃trangthai.Canchuatri
Trạng thái còn lại cũng sẽ được chuẩn hóa sau khi áp dụng luật NF7 cho mỗi
GCI TBox tổng quát cuối cùng T" trong mô hình chuẩn-GCI bao gồm 11 GCIs như sau:
Mangngoaitim Mo⊑Mangngoaitim ⊑∃khoangtrong.TimViemmangngoaitim Viem⊑
Trang 33Viemmangngoaitim ⊑∃vitri.Mangngoaitim
Viem Benh⊑Viem ⊑∃hoatdong.Mangngoaitim
Benh A⊓ 1 A⊑ 3A3 BenhTim⊑A3 ⊑∃trangthai.Canchuatri
∃vitri.A2 A⊑ 1
∃khoangtrong.Tim A⊑ 2.
Từ đó ta thấy một EL-TBox tổng quát và các mẫu chuẩn hóa-GCI tương ứng của nó chính là các bao hàm khái niệm
3.3.3 Thể thức mô tả-ELgci
Như ta đã biết để quyết định bài toán bao hàm khái niệm- ELgci trong thời gian đa thức thì ta cần phải chuyển EL-TBox chuẩn hóa sang dạng chuẩn Horn Trước khi chuyển sang chuẩn Horn ta cần phải hiểu một số khái niệm
Ta ký hiệu NC là tập hợp tên các khái niệm không giao nhau, là hợp của các khái niệm(ký hiệu Ncon) với khái niệm đỉnh (ký hiệu T ), ta biểu diễn như sau: NC:= Ncon { T } Gọi ST(A) N⊆ C Để mô tả rõ mối quan hệ giữa tên các khái niệm không giao nhau trong cấu trúc của GCIs với EL-TBox đã chuẩn hóa GCIs ta cần biết mối tương quan giữa chúng
3.3.3.1 Các tập hợp tương quan (Implication sets):
Đối với mọi tên khái niệm A trong NC, tập hợp tương quan ST(A) được định nghĩa bởi hợp của tất cả các Sn(A) (ký hiệu Sn(A)) Trong đó tập Sn được định nghĩa quy nạp trên n: S0(A):={A, T } Nếu Sn(B) đã được định nghĩa đối với tất cả tên các khái niệm B trong NC, khi đó Sn+1(A) là kết quả mở rộng của các luật sau:
Thể thức mô tả EL: Cho T là một EL-TBox đã thực hiện chuẩn hóa các
Trang 34GCIs, EL-TBox chứa tên các khái niệm không giao nhau và tên các vai trò không
giao nhau Khi đó thể thức mô tả-EL ký hiệu là HT là tập hợp nhỏ nhất của các
mệnh đề Horn mà chỉ chứa đựng các mệnh đề ký tự theo mẫu sau:
P ,Trong đó { , } N⊆ C và bao gồm các mệnh đề Horn sau:
(H0) PC, C ← với tất cả các C N∈ con
P⊤ , C ←
(H1) PB, C ← PA, C với tất cả C N∈ con và với mỗi GCI A B T ⊑ ∈
(H2) PB, C ← PA1, C P⋀ A2, C với tất cả C N∈ con
và với mỗi GCI A1 ⊓ A2 B T ⊑ ∈
(H3) PB, C ← PA, C P⋀ B2, B1 với tất cả C N∈ con và với {A ⊑ ∃r.B1, ∃r.B2 B} T⊑ ⊆
Bảng 3.5 Các mệnh đề Horn
Mệnh đề ký tự PA, B mã hóa sự kện A ∈ ST(B) hàm ý rằng khái niệm B được bao hàm bởi khái niệm A Mệnh đề H0 mã hóa tên khái niệm C của các tập hợp tương quan ban đầu S0(C), hàm ý rằng C được bao hàm bởi khái niệm đỉnh và tên khái niệm của chính nó Các mệnh đề H1, H2 và H3 tương ứng với các luật mở rộng IS1, IS2, IS3
Bổ đề 3.2 Cho T là một EL-TBox đã chuẩn hóa các GCIs với tập tên các
khái niệm và tên các vai trò không giao nhau HT tương ứng là thể thức mô tả-ELgci
của T Khi đó kích thước của HT là bậc ba theo kích thước của T
Ví dụ 3.3 Chuyển các GCI đã ở dạng chuẩn hóa trong ví dụ 3.2 sang dạng
chuẩn Horn
- Áp dụng (H3) khi đó có các chuẩn Horn là:
PA2, C ← PViemmangngoaitim, C ⋀ PMangngoaitim, Tim
- Áp dụng (H2) khi đó có chuẩn Horn tương ứng sẽ là:
PA3, C ← PBenh, C ⋀ PA1, C
Benh A⊓ 1 A⊑ 3
- Cuối cùng áp dụng (H1) sẽ có các chuẩn Horn sau:
PBenh, C ← PViem, C
Viem Benh⊑PA1, C ← P∃ vitri.A2, C
∃vitri.A2 A⊑ 1
Trang 35PBenhtim, C ← PA3, C
A3 BenhTim⊑
P∃trangthai.Canchuatri, C ← PA3, C
A3 ⊑∃trangthai.CanchuatriSau khi chuyển đổi TBox đã ở dạng chuẩn hóa sang các chuẩn Horn, áp
dụng thuật toán linear-time Horn-SAT ( thuật toán linear-time thỏa chuẩn Horn),
sẽ thu được các bao hàm trong các định nghĩa khái niệm trong ví dụ 3.2 và thời gian cho việc thực hiện thuật toán linear-time Horn-SAT sẽ là đa thức bậc ba theo
đầu vào là các chuẩn Horn hay đầu vào là TBox
Như vậy để thực hiện thuật toán bao hàm ELgci ta cần chuyển TBox sang
dạng TBox đã ở dạng chuẩn hóa theo các luật chuẩn hóa cho các GCIs trong bảng 3.3 sau đó ta áp dụng kỹ thuật chuyển đổi EL-TBox tổng quát đã ở dạng chuẩn hóa sang chuẩn Horn Tiếp đó sử dụng thuật toán linear-time cho chuẩn Horn-SAT
Như vậy trong phần này ta đã chỉ ra được rằng để chuyển bài toán bao hàm ELgci ta cần hai bước đó là bài toán bao hàm khái niệm ELgci sẽ được miêu tả thông qua khái niệm của các tập hợp tương quan Chuẩn Horn được định nghĩa thông qua thể thức
mô tả HT của T Khi đó kích thước của HT sẽ là bậc ba theo kích thước của đầu vào EL-TBox T
3.4 Thuật toán cho bao hàm ELdesc
Như ta đã biết với T là một EL-TBox và GT tương ứng là một đồ thị mô tả
EL của T thì mô hình ngữ nghĩa điểm cố định lớn nhất của T (gfp-model của T) cũng là một mô hình của T, hay với một khái niệm A được bao hàm bởi một khái niệm B (A T B) hàm ý rằng A được bao hàm ngữ nghĩa điểm cố định lớn nhất bởi
B (A gfp, T B) Từ đó ta có A T B hàm ý rằng có một phép mô phỏng Z: G1 ≃G2
mà (B, A) ∈ Z, thì thuộc tính trên phép mô phỏng Z cần phải được thỏa
Để giải quyết bài toán bao hàm khái niệm-ELdesc trong thời gian đa thức bậc bốn với đầu vào TBox thì ta cần chuyển bài toán bao hàm khái niệm-ELdesc sang bài
toán thỏa chuẩn Horn (Horn-SAT) Tiếp đó ta áp dụng thuật toán linear-time cho chuẩn Horn-SAT để giải quyết bài toán bao hàm khái niệm-ELdessc Đối với một đầu vào EL-TBox T thì toàn bộ thuật toán cho bao hàm khái niệm-ELdessc sẽ thực hiện trong thời gian đa thức bậc hai theo kích thước của đồ thị mô tả-EL Mà theo
Bổ đề 2.2 thì kích thước của đồ thị mô tả GT là bậc hai theo kích thước của T nên bài toán bao hàm khái niệm-ELdesc sẽ được quyết định trong thời gian đa thức bậc bốn theo kích thước đầu vào T
Cho T là một EL-TBox đã ở dạng chuẩn hóa và GT là một đồ thị mô tả-EL
của T Bao hàm khái niệm và ngữ nghĩa mô tả có thể được miêu tả thông qua phép
mô phỏng đồng bộ trên đồ thị GT giống như Định lý 3.2.1[Baader].
Định lý 3.4.1 Cho T là một EL-TBox, có chứa các định nghĩa khái niệm là
A, B GT là đồ thị mô tả EL tương ứng của T YT là phép mô phỏng quan hệ đồng bộ trên T Khi đó ta có các tương đương sau:
• A T B
• (B, A)∈ YT
Phép mô phỏng đồng bộ: Cho T là một EL-TBox đã ở dạng chuẩn hóa và
GT tương ứng là một đồ thị mô tả-EL của T Khi đó quan hệ mô phỏng đồng bộ YT được định nghĩa là hợp của tất cả các Yn với n≥0 (ký hiệu Yn) Trong đó quan
Trang 36hệ Yn được định nghĩa quy nạp trên n như sau: Y0 được xác định trên các nút của
GT Nếu Yn-1 đã được định nghĩa thì
Yn := Yn-1 {(A, B) | (1) LT(A) LT(B)
(2) (A, r1, A1), , (A, rk, Ak) là các cạnh trong GT
(3) (B, r1, B1), , (B, rk, Bk) là các cạnh trong GT
mà (Ai, Bi) ∈Yn-1 }
Thể thức mô tả EL: Cho T là một EL-TBox, GT=(VT, ET, LT) là đồ thị mô tả của T và YT tương ứng là quan hệ mô phỏng đồng bộ Thể thức mô tả-EL của T được ký hiệu là HT là tập hợp nhỏ nhất của các mệnh đề Horn chứa đựng các mệnh
đề theo mẫu sau:
PA, B nếu A, B ∈ VT
P(A, r, A’), B nếu A, B ∈ VT và (A, r, A’) ∈ ET
và chứa các mệnh đề Horn sau:
(H1) PA, A ← đối với tất cả các nút A trong VT
(H2) P(A, r, A′ ), B ← PA′, B′ đối với tất cả các cạnh (A, r, A′ )
và (B, r, B′) trong ET
(H3) PA, B ← P(A, r, A′ ), B đối với tất cả các nút A, B trong VT với LT(A) LT(B)
Bảng 3.6 Các mệnh đề Horn trong T với ngữ nghĩa mô tả
Mệnh đề PA, B mã hóa sự kiện (A, B) ∈ YT Cạnh (A, r, A′ ) trong GT tương ứng với điều kiện (2) và có một cạnh (B, r, B′) ∈ GT đối với B′ ∈ VT mà trong đó (A, B) ∈ YT tương ứng với điều kiện (3) Một cách chi tiết H1 mã hóa quan hệ đồng nhất các nút của đồ thị GT (Y0), H2 và H3 mã hóa cấu trúc của Yn khi Yn-1 đã được tính toán Mệnh đề H3 trong HT hàm ý rằng điều kiện 1 của cấu trúc Yn (với n › 0)
đã ở dạng thỏa, điều kiện (2) và điều kiện (3) cũng sẽ thỏa nếu HT |= P(A, r, A′ ), B với mọi (A, r, A′ ) trong ET Như vậy bài toán bài toán bao hàm khái niệm-ELdesc sẽ được chuyển về bài toán thỏa chuẩn Horn theo định lý sau:
Định lý 3.4.2 Cho T là một EL-TBox đã ở dạng chuẩn hóa, YT là quan hệ mô phỏng đồng bộ của T và HT tương ứng là thể thức mô tả-EL của T Nếu A và B là các định nghĩa khái niệm trong T thì ta có các tương đương sau:
• (A, B) ∈ YT
• HT |= PA,B
Ví dụ 3.4: Giả sử ta có một EL-TBox T đã chuẩn hóa khi đó ta có một đồ thị mô
tả như hình sau
Trang 37Từ định lý 3.4.1 và định lý 3.4.2 cho thấy có thể chuyển bài toán bao hàm
khái niệm ELdesc sang bài toán thỏa chuẩn Horn (Horn SAT) Một cách trực quan ta thấy để giải quyết bài toán bao hàm khái niệm ELdesc trong thời gian đa thức bậc bốn
A 3 A
r 1
r 2
r 1