Học khái niệm cho các hệ thống thông tin dựa trên logic mô tả

Những đóng góp mới của luận án: Trong quá trình thực hiện luận án, tác giả đã có một số đóng góp mới cả về lý thuyết cũng như cài đặt mô phỏng, trong việc cải tiến cơ chế quản lý hàng đợi tích cực tại các nút mạng trên mạng TCP/IP, bằng cách xây dựng bộ điều khiển mờ thích nghi AFC và xây dựng bộ điều khiển nơ-ron mờ FNN để tìm ra bộ tham số của bộ mờ tối ưu cho bộ điều khiển mờ thích nghi AFC. Cụ thể như sau:  Phân tích, đánh giá và phân lớp ứng dụng cho các cơ chế quản lý hàng đợi tích cực hiện có. Đồng thời, áp dụng bộ điều khiển mờ truyền thống để cải tiến các cơ chế các cơ chế quản lý hàng đợi tích cực tiêu biểu nhằm nâng cao hiệu quả kiểm soát tắc nghẽn trong mạng TCP/IP.  Đề xuất mô hình điều khiển mờ thích nghi AFC để cải tiến các cơ chế quản lý hàng đợi tích cực. Dựa trên mô hình lý thuyết, luận án đã xây dựng các cơ chế cải tiến FLRED và FLREM. Kết quả cài đặt mô phỏng đã chứng minh tính hiệu quả của việc sử dụng điều khiển mờ thích nghi AFC để cải tiến các cơ chế quản lý hàng đợi tích cực.  Đề xuất mô hình kết hợp điều khiển mờ với mạng nơ-ron mờ tối ưu FNN để nâng cao hiệu quả của các cơ chế quản lý hàng đợi tích cực. Dựa trên mô hình lý thuyết, luận án đã xây dựng các cơ chế cải tiến FNNRED, FNNREM. Hai cơ chế này có được bằng cách sử dụng mạng nơ-ron mờ FNN huấn luyện cho các cơ chế FLRED và FLREM. Kết quả cài đăt mô phỏng cho thấy hiệu năng của các cơ chế được nâng lên khi sử dụng điều khiển mờ tối ưu FNN. Từ kết quả nghiên cứu lý thuyết và kiểm chứng bằng cài đặt mô phỏng, cho thấy hiệu năng của các cơ chế quản lý hàng đợi tích cực tại các nút mạng được tăng dần khi lần lượt áp dụng các bộ điều khiển mờ truyền thống, bộ điều khiển mờ thích nghi AFC và điều khiển mơ tối ưu để cải tiến. Kết quả của luận án mới chỉ là bước đầu trong quá trình nghiên cứu của chúng tôi. Một số vấn đề còn có thể nghiên cứu hoàn thiện hơn cả về mặt lý thuyết cũng như thực tiễn. N

Trang 1

ĐẠI HỌC HUẾTRƯỜNG ĐẠI HỌC KHOA HỌC

TRẦN THANH LƯƠNG

HỌC KHÁI NIỆM CHO CÁC HỆ THỐNG THÔNG TIN

DỰA TRÊN LOGIC MÔ TẢ

LUẬN ÁN TIẾN SĨ MÁY TÍNH

HUẾ, NĂM 2015

Trang 2

ĐẠI HỌC HUẾTRƯỜNG ĐẠI HỌC KHOA HỌC

TRẦN THANH LƯƠNG

HỌC KHÁI NIỆM CHO CÁC HỆ THỐNG THÔNG TIN

DỰA TRÊN LOGIC MÔ TẢ

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

MÃ SỐ: 62.48.01.01

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Người hướng dẫn khoa học:

1 PGS TSKH NGUYỄN ANH LINH

2 TS HOÀNG THỊ LAN GIAO

HUẾ, NĂM 2015

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướngdẫn của PGS TSKH Nguyễn Anh Linh và TS Hoàng Thị Lan Giao Những nội dungtrong các công trình đã công bố chung với các tác giả khác đã được sự đồng ý củađồng tác giả khi đưa vào luận án Các số liệu và kết quả nghiên cứu trình bày trongluận án là trung thực, khách quan và chưa được công bố bởi tác giả nào trong bất cứcông trình nào khác

Nghiên cứu sinh

Trần Thanh Lương

Trang 4

LỜI CẢM ƠN

Luận án này được thực hiện và hoàn thành tại Khoa Công nghệ Thông tin,Trường Đại học Khoa học, Đại học Huế Trong suốt quá trình học tập, tôi đã nhậnđược sự quan tâm, giúp đỡ của thầy giáo, cô giáo hướng dẫn, thầy cô giáo trong Banchủ nhiệm Khoa Công nghệ Thông tin, Phòng Đào tạo Sau đại học và Ban giám hiệuTrường Đại học Khoa học

Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS TSKH Nguyễn Anh Linh và

TS Hoàng Thị Lan Giao, là những người Thầy đã tận tình hướng dẫn, động viên

và truyền đạt những kinh nghiệm quý báu trong nghiên cứu khoa học để tôi có thểhoàn thành luận án này

Tôi xin chân thành cảm ơn Quý thầy cô giáo trong Ban chủ nhiệm Khoa Công nghệThông tin đã tạo điều kiện thuận lợi trong công tác để tôi có đủ thời gian cho côngviệc nghiên cứu của mình Tôi xin cảm ơn Quý thầy cô và cán bộ của Phòng Đào tạoSau Đại học, Ban giám hiệu Trường Đại học Khoa học đã giúp đỡ tôi trong việc hoànthành kế hoạch học tập

Tôi xin trân trọng cảm ơn GS TSKH Andrzej Sza las, PGS TS Hà Quang Thụy,PGS TSKH Nguyễn Hùng Sơn đã đóng góp nhiều ý kiến quý báu trong quá trìnhnghiên cứu và công bố các công trình khoa học Tôi xin trân trọng cảm ơn PGS TS

Lê Mạnh Thạnh đã đọc và đưa ra những góp ý cho luận án

Tôi xin cảm ơn Quý thầy cô giáo và các anh chị đồng nghiệp trong Khoa Công nghệThông tin đã giúp đỡ, chia sẻ trong quá trình công tác, học tập, nghiên cứu và thựchiện luận án của mình

Tôi xin cảm ơn bạn bè đã động viên và đặc biệt là những người thân trong giađình luôn luôn quan tâm, ủng hộ và tạo mọi điều kiện thuận lợi nhất cho tôi hoànthành luận án này

Nghiên cứu sinh

Trần Thanh Lương

Trang 5

MỤC LỤC

1.1 Tổng quan về logic mô tả 7

1.1.1 Giới thiệu 7

1.1.2 Ngôn ngữ logic mô tả ALC 8

1.1.3 Biểu diễn tri thức 11

1.1.4 Khả năng biểu diễn 13

1.1.5 Logic mô tả và các tên gọi 16

1.2 Cú pháp và ngữ nghĩa của logic mô tả 17

1.2.1 Logic mô tả ALCreg 17

1.2.2 Ngôn ngữ logic mô tả LΣ,Φ 18

1.3 Các dạng chuẩn 21

1.3.1 Dạng chuẩn phủ định của khái niệm 21

1.3.2 Dạng chuẩn lưu trữ của khái niệm 22

1.3.3 Dạng chuẩn nghịch đảo của vai trò 23

1.4 Cơ sở tri thức trong logic mô tả 24

1.4.1 Bộ tiên đề vai trò 24

1.4.2 Bộ tiên đề thuật ngữ 25

1.4.3 Bộ khẳng định cá thể 25

1.4.4 Cơ sở tri thức và mô hình của cơ sở tri thức 26

1.5 Suy luận trong logic mô tả 29

1.5.1 Giới thiệu 29

1.5.2 Các thuật toán suy luận 30

Tiểu kết Chương 1 32

Chương 2 Mô phỏng hai chiều trong logic mô tả và tính bất biến 33 2.1 Giới thiệu 33

2.2 Mô phỏng hai chiều 34

2.2.1 Khái niệm 34

Trang 6

2.2.2 Quan hệ tương tự hai chiều và quan hệ tương đương 40

2.3 Tính bất biến đối với mô phỏng hai chiều 42

2.3.1 Quan hệ giữa mô phỏng hai chiều với các khái niệm và vai trò 42 2.3.2 Tính bất biến của khái niệm 47

2.3.3 Tính bất biến của cơ sở tri thức 48

2.4 Tính chất Hennessy-Milner đối với mô phỏng hai chiều 50

2.5 Tự mô phỏng hai chiều 54

Chương 3 Học khái niệm cho hệ thống thông tin trong logic mô tả 57 3.1 Hệ thống thông tin 57

3.1.1 Hệ thống thông tin truyền thống 57

3.1.2 Hệ thống thông tin dựa trên logic mô tả 58

3.2 Học khái niệm trong logic mô tả với Ngữ cảnh (3) 61

3.2.1 Giới thiệu bài toán 61

3.2.2 Bộ chọn 63

3.2.3 Tính đơn giản của khái niệm 68

3.2.4 Độ đo dựa trên entropy 70

3.2.5 Thuật toán học khái niệm trong logic mô tả với Ngữ cảnh (3) 71

3.3 Ví dụ minh họa 74

3.4 Kết quả thực nghiệm 80

Chương 4 Học khái niệm cho cơ sở tri thức trong logic mô tả 86 4.1 Giới thiệu 86

4.2 Phân hoạch miền của diễn dịch 88

4.3.1 Thuật toán BBCL 91

4.3.2 Thuật toán dual-BBCL 94

4.3.3 Tính đúng đắn của thuật toán BBCL 94

4.3.4 Ví dụ minh họa 95

4.4.1 Thuật toán BBCL2 98

4.4.2 Tính đúng đắn của thuật toán BBCL2 100

4.4.3 Ví dụ minh họa 101

Trang 7

DANH MỤC TỪ VIẾT TẮT

Bộ khẳng định cá thểBBCL Bisimulation-Based Concept Learning

Học khái niệm dựa trên mô phỏng hai chiềuCWA Close World Assumption

Giả thiết thế giới đóngLCS Least Common Subsumers

Bao hàm chung nhỏ nhất

Giả thiết thế giới mởOWL Web Ontology Language

Ngôn ngữ Web OntologyPAC Probably Approximately Correct

Tổ chức tiêu chuẩn quốc tế về World Wide Web

Trang 8

DANH MỤC CÁC KÝ HIỆU

A, B Các thuộc tính/tên khái niệm

r, s Các tên vai trò đối tượng

R, S Các vai trò đối tượng

c, d Các phần tử thuộc miền giá trị

σ, % Các vai trò dữ liệu

range(A) Miền giá trị của thuộc tính A

range(σ) Miền giá trị của vai trò dữ liệu σ

Φ, Φ† Các tập đặc trưng của logic mô tả

∼Σ† ,Φ † ,I Quan hệ LΣ† ,Φ †-tự mô phỏng hai chiều lớn nhất

≡Σ† ,Φ † ,I Quan hệ LΣ† ,Φ †-tương đương

Ref Khẳng định vai trò phản xạ

Irr Khẳng định vai trò không phản xạ

Sym Khẳng định vai trò đối xứng

Tra Khẳng định vai trò bắc cầu

Dis Khẳng định vai trò không giao nhau

Trang 9

DANH MỤC BẢNG, BIỂU

Bảng 3.1 Kết quả ước lượng trên tập dữ liệu WebKB, PokerHand và Family

với 100 khái niệm ngẫu nhiên trong logic mô tả ALCIQ 81Bảng 3.2 Kết quả ước lượng trên tập dữ liệu Family với 5 khái niệm phổ biến

trong logic mô tả ALCI 82Bảng 3.3 Kết quả ước lượng trên tập dữ liệu Poker Hand với 6 tập đối tượng

trong logic mô tả ALCQ 83

Trang 10

DANH MỤC HÌNH VẼ

Hình 1.1 Diễn dịch của logic mô tả 9

Hình 1.2 Kiến trúc của một hệ cơ sở tri thức trong logic mô tả 11

Hình 1.3 Diễn dịch của các vai trò phức và khái niệm phức 21

Hình 1.4 Một minh họa cho cơ sở tri thức của Ví dụ 1.9 27

Hình 2.1 Các diễn dịch I và I0 trong LΣ,Φ của Ví dụ 1.10 42

Hình 3.1 Một minh họa cho cơ sở tri thức của Ví dụ 3.2 60

Hình 3.2 Quá trình làm mịn phân hoạch của Ví dụ 3.5 76

Hình 3.4 Hệ thống thông tin tương ứng với cơ sở tri thức trong Ví dụ 3.7 78

Hình 3.5 Quá trình làm mịn phân hoạch sử dụng các bộ chọn đơn giản 79

Hình 3.6 Quá trình làm mịn phân hoạch sử dụng các bộ chọn đơn giản và mở rộng 79 Hình 4.1 Quá trình làm mịn phân hoạch của Ví dụ 4.1 90

Trang 11

MỞ ĐẦU

Logic mô tả (Description Logics) là một họ các ngôn ngữ hình thức rất thích hợpcho việc biểu diễn và suy luận tri thức trong một miền quan tâm cụ thể [2] Tronglogic mô tả, miền quan tâm được mô tả thông qua các thuật ngữ về cá thể, khái niệm

và vai trò Một cá thể đại diện cho một đối tượng, một khái niệm đại diện cho một tậpcác đối tượng và một vai trò đại diện cho một quan hệ hai ngôi giữa các đối tượng.Các khái niệm phức được xây dựng từ các tên khái niệm, tên vai trò và tên cá thểbằng cách kết hợp với các tạo tử

Logic mô tả có tầm quan trọng đặc biệt trong việc cung cấp mô hình lý thuyếtcho các hệ thống ngữ nghĩa Nó là nền tảng cơ bản trong việc xây dựng các ngôn ngữ

để mô hình hóa các ontology, trong đó Web Ontology Language (OWL) là ngôn ngữđược tổ chức tiêu chuẩn quốc tế World Wide Web Consortium (W3C) khuyến nghị

sử dụng cho các hệ thống Web ngữ nghĩa (Semantic Web) Về cơ bản, OWL là mộtngôn ngữ dựa trên các logic mô tả [25], [26], [27] Phiên bản đầu tiên của OWL (đượcgiới thiệu vào năm 2004) dựa trên logic mô tả SHOIN và SHOIQ [25], [27], phiênbản thứ hai của OWL là OWL 2 (được giới thiệu năm 2009) dựa trên logic mô tảSROIQ [26] Logic mô tả SHOIN , SHOIQ và SROIQ có khả năng biểu diễn rấttốt nhưng lại có độ phức tạp tính toán đối với các thuật toán suy luận rất cao (tươngứng là NExpTime-đầy đủ cho SHOIN , SHOIQ và NExpTime-khó cho SROIQ)

và độ phức tạp dữ liệu cũng cao (NP-khó) đối với những bài toán suy luận cơ bản

Do vây, W3C khuyến khích nên sử dụng OWL 2 EL, OWL 2 QL và OWL 2 RL, lànhững ngôn ngữ con của OWL 2 Full với độ phức tạp dữ liệu đa thức tương ứng vớimiền quan tâm, mô để hình hóa các hệ thống ngữ nghĩa

Web ngữ nghĩa là một lĩnh vực đang phát triển rất nhanh và nhận được sự quantâm của cộng đồng nghiên cứu trong thập niên vừa qua Công nghệ Web ngữ nghĩađang được áp dụng vào nhiều lĩnh vực khác nhau trong thực tế như: tin sinh học, tinhọc trong y tế, trình duyệt web ngữ nghĩa, quản trị tri thức, kỹ nghệ phần mềm, Một trong các tầng cơ bản và đóng vai trò quan trọng trong Web ngữ nghĩa là ontology

- thành phần được sử dụng để biểu diễn tri thức và suy luận cho Web ngữ nghĩa.Xây dựng ontology cho các hệ thống Web ngữ nghĩa và đặc tả các khái niệm phùhợp là một trong những vấn đề rất được quan tâm trong công nghệ ontology Do vậy,bài toán đặt ra là cần tìm được các khái niệm quan trọng và xây dựng được định nghĩa

Trang 12

cho các khái niệm đó Học khái niệm trong logic mô tả nhằm mục đích kiểm tra, suyluận và tìm ra được các khái niệm này phục vụ cho các ứng dụng cụ thể.

Vấn đề học khái niệm trong logic mô tả tương tự như phân lớp nhị phân trong họcmáy truyền thống Tuy nhiên, việc học khái niệm trong ngữ cảnh logic mô tả khác vớihọc máy truyền thống ở điểm, các đối tượng không chỉ được đặc tả bằng các thuộctính mà còn được đặc tả bằng các mối quan hệ giữa các đối tượng Các mối quan hệnày là một trong những yếu tố làm giàu thêm ngữ nghĩa của hệ thống huấn luyện

Do đó, các phương pháp học khái niệm trong logic mô tả cần phải tận dụng đượcchúng như là một lợi thế

Thông qua việc khảo sát các công trình [4], [17], [32], [35], [15], [16], [36], [44], chúngtôi khái quát vấn đề học khái niệm trong logic mô tả theo ba ngữ cảnh chính như sau:

• Ngữ cảnh (1): Cho cơ sở tri thức KB trong logic mô tả LΣ,Φ và các tập các cáthể E+, E− Học khái niệm C trong LΣ,Φ sao cho:

1 KB |= C(a) với mọi a ∈ E+, và

2 KB |= ¬C(a) với mọi a ∈ E−

trong đó, tập E+ chứa các mẫu dương và E− chứa các mẫu âm của C

• Ngữ cảnh (2): Ngữ cảnh này khác với ngữ cảnh đã đề cập ở trên là điều kiệnthứ hai được thay bằng một điều kiện yếu hơn:

1 KB |= C(a) với mọi a ∈ E+, và

2 KB 6|= C(a) với mọi a ∈ E−

• Ngữ cảnh (3): Cho một diễn dịch I và các tập các cá thể E+, E− Học kháiniệm C trong logic mô tả LΣ,Φ sao cho:

1 I |= C(a) với mọi a ∈ E+, và

2 I |= ¬C(a) với mọi a ∈ E−

Chú ý rằng I |= ¬C(a) tương đồng với I 6|= C(a)

Mô tả chi tiết của các ngữ cảnh được trình bày trong các chương tiếp theo, trong

đó Ngữ cảnh (1) được trình bày trong Mục 3.2, Ngữ cảnh (2) được trình bày trongMục 4.3 và Ngữ cảnh (3) được trình bày trong Mục 4.4

Học khái niệm trong logic mô tả đã được nhiều nhà khoa học quan tâm nghiêncứu và chia thành ba hướng tiếp cận chính Hướng tiếp cận thứ nhất tập trung vàokhả năng học trong logic mô tả [10], [11], [19] và xây dựng một số thuật toán đơn giản

Trang 13

liên quan [51], [11], [19], [33] Hướng tiếp cận thứ hai nghiên cứu học khái niệm tronglogic mô tả bằng cách sử dụng các toán tử làm mịn (refinement operators) [4], [17], [32],[35], [15], [16], [36] Hướng tiếp cận thứ ba khai thác mô phỏng hai chiều (bisimulation)cho bài toán học khái niệm trong logic mô tả [44].

Quinlan nghiên cứu việc học các định nghĩa của mệnh đề Horn từ các dữ liệu đượcbiểu diễn thông qua các quan hệ và đề xuất thuật toán học Foil [51] Cohen và Hirshnghiên cứu lý thuyết về khả năng học (Probably Approximately Correct - PAC) tronglogic mô tả và đề xuất thuật toán học khái niệm LCSLearn dựa trên các “bao hàmchung nhỏ nhất” (least common subsumers) [10], [11] Frazier và Pitt đã nghiên cứu

về khả năng học trong logic mô tả Classic bằng cách sử dụng các truy vấn trên môhình học PAC [19] Lambrix và Larocchia đã đề xuất một thuật toán học khái niệmđơn giản dựa trên việc chuẩn hóa khái niệm và lựa chọn khái niệm thông qua các thểhiện của dạng chuẩn hóa [33]

Trong hướng tiếp cận thứ hai, Badea và Nienhuys-Cheng nghiên cứu học khái niệmtrong logic mô tả ALE R bằng cách sử dụng toán tử làm mịn như trong lập trình logic

đệ quy [4] Các tác giả đã giới thiệu một số tính chất của toán tử làm mịn và sử dụngchúng để thực hiện tìm kiếm theo chiến lược từ trên xuống Iannone và cộng sự cũngnghiên cứu các thuật toán học bằng cách sử dụng toán tử làm mịn nhưng trên mộtlogic mô tả giàu ngữ nghĩa hơn, logic mô tả ALC Ý tưởng chính của các thuật toánnày là tìm và loại bỏ những phần của khái niệm dẫn đến lỗi về phân loại [32] Cả haicông trình trên đều nghiên cứu việc học khái niệm trong logic mô tả với Ngữ cảnh (1).Fanizzi cùng các cộng sự nghiên cứu toán tử làm mịn trên xuống trong logic mô

tả ALN [17] và xây dựng hệ thống DL-Foil [15] cho việc học khái niệm trong logic

mô tả hỗ trợ ngôn ngữ OWL Các tác giả đã sử dụng kỹ thuật học bán giám sát với

dữ liệu không gán nhãn Các thành phần chính của hệ thống sử dụng tập các toán tửlàm mịn tương tự như trong công trình của Badea và Nienhuys-Cheng [4]

Lehmann và Hitzler đề xuất thuật toán học DL-Learner theo phương pháp lậptrình đệ quy và có khai thác thêm các kỹ thuật về lập trình di truyền [35], [36] Cáccông trình này nghiên cứu việc học khái niệm trong logic mô tả với Ngữ cảnh (2).Ngoài việc sử dụng các toán tử làm mịn, các hàm tính điểm và chiến lược tìm kiếmcũng đóng vai trò quan trọng đối với các thuật toán đã được đề xuất trong nhữngcông trình nêu trên [4], [32], [35], [15], [36]

Hướng tiếp cận thứ ba sử dụng mô phỏng hai chiều trong logic mô tả [12], [44], [14].Nguyen và Sza las đã áp dụng mô phỏng hai chiều vào trong logic mô tả để mô hìnhhóa tính không phân biệt được của các đối tượng [44] Dựa trên tự mô phỏng hai chiều

Trang 14

lớn nhất, các tác giả đã đề xuất một phương pháp tổng quát để học khái niệm chocác hệ thống thông tin trong logic mô tả Đây là công trình tiên phong trong việc sửdụng mô phỏng hai chiều cho việc giải quyết bài toán trên Divroodi [12] và cộng sự

đã nghiên cứu khả năng học trong logic mô tả sử dụng mô phỏng hai chiều Các côngtrình này nghiên cứu bài toán học khái niệm trong logic mô tả với Ngữ cảnh (3).Ngoại trừ công trình của Nguyen và Sza las [44], Divrooodi [12] sử dụng mô phỏnghai chiều trong logic mô tả để hướng dẫn việc tìm kiếm khái niệm kết quả Tất cả cáccông trình nghiên cứu còn lại [51], [11], [33], [4], [32], [17], [15], [35], [16], [36] đều sử dụngtoán tử làm mịn như trong lập trình logic đệ quy và/hoặc các chiến lược tìm kiếm dựavào các hàm tính điểm mà không sử dụng mô phỏng hai chiều Các công trình nàychủ yếu tập trung vào vấn đề học khái niệm với Ngữ cảnh (1) và Ngữ cảnh (2) trêncác logic mô tả khá đơn giản ALE R, ALN và ALC Việc nghiên cứu học khái niệmtrong các logic mô tả phức tạp hơn như ALCN , ALCQ, ALCIQ, SHIF , SHIQ,SHOIN , SHOIQ, SROIQ, với các ngữ cảnh khác nhau chưa được các côngtrình trên đề cập đến vì còn gặp nhiều vấn đề khó khăn về mặt kỹ thuật đối với cáctoán tử làm mịn Trong công trình [44], Nguyen và Sza las đã sử dụng mô phỏng haichiều cho việc học khái niệm trong các logic mô tả chỉ với Ngữ cảnh (3) nhưng không

đề cập đến các thuộc tính và vai trò dữ liệu trong hệ thống thông tin cũng như cácđặc trưng quan trọng của logic mô tả như: F (tính chất hàm), N (hạn chế số lượngkhông định tính) Do không đề cập đến các thuộc tính và vai trò dữ liệu nên lớp cáclogic mô tả này không thể biểu diễn những hệ thống thông tin có chứa thuộc tính số

và thuộc tính đa trị cũng như không giải quyết tốt những bài toán trong các logic mô

tả SHIF , SHIN , SHOIN , Trong công trình [12], Divroodi và các cộng sự chỉnghiên cứu về mô phỏng hai chiều và áp dụng để giải quyết bài toán khả năng họctrong logic mô tả với Ngữ cảnh (3) Hai công trình trên không đề cập đến vấn đề họckhái niệm trong logic mô tả với Ngữ cảnh (1) và Ngữ cảnh (2)

Từ các khảo sát như đã nêu ở trên, chúng ta nhận thấy rằng học khái niệm tronglogic mô tả là một vấn đề quan trọng trong việc xây dựng các khái niệm hữu ích phục

vụ cho các hệ thống ngữ nghĩa nói chung và ontolgy nói riêng Từ đó, nó tác độnglên nhiều ứng dụng trong thực tế có áp dụng Web ngữ nghĩa vào hệ thống Học kháiniệm trong logic mô tả dựa trên mô phỏng hai chiều là một hướng đi mới chưa từngđược nghiên cứu ngoại trừ công trình của Nguyen và Sza las [44], Divroodi [12] với một

số kết quả ban đầu như đã đề cập ở trên Trên cơ sở các kết quả của Nguyen, Sza las

và Divroodi [44], [12], luận án tập trung nghiên cứu các phương pháp học khái niệmtrong logic mô tả dựa trên mô phỏng hai chiều với các mục tiêu chính đặt ra là:

Trang 15

• Nghiên cứu cú pháp, ngữ nghĩa đối với một lớp lớn các logic mô tả giàu ngữnghĩa hơn so với các công trình đã có bằng cách cho phép sử dụng các thuộctính như là các phần tử cơ bản của ngôn ngữ, các quan hệ thông qua các vai trò

dữ liệu và đề cập đến đặc trưng F , N Lớp các logic này bao phủ những logic

mô tả hữu ích như ALC, SHIF , SHIQ, SHOIN , SHOIQ, SROIQ,

• Xây dựng, mở rộng các định nghĩa, định lý, bổ đề về mô phỏng hai chiều tronglớp các logic mô tả đã đề cập ở trên và sử dụng nó để mô hình hóa tính khôngphân biệt được của các đối tượng làm cơ sở cho các thuật toán học khái niệmtrong logic mô tả

• Phát triển thuật toán học khái niệm dựa trên mô phỏng hai chiều cho các hệthống thông tin trong logic mô tả với Ngữ cảnh (3)

• Xây dựng phương pháp làm mịn phân hoạch miền của các diễn dịch trong logic

mô tả dựa trên mô phỏng hai chiều sử dụng các bộ chọn hợp lý và độ đo gialượng thông tin

• Đề xuất các thuật toán học khái niệm cho các cơ sở tri thức trong logic mô tảvới Ngữ cảnh (1) và Ngữ cảnh (2) sử dụng mô phỏng hai chiều

Nội dung của luận án được trình bày trong bốn chương:

Chương 1 trình bày cú pháp và ngữ nghĩa của logic mô tả, khả năng biểu diễn củalogic mô tả Xây dựng ngôn ngữ logic mô tả lấy các thuộc tính làm thành phần cơ bảncủa ngôn ngữ, cho phép sử dụng vai trò dữ liệu cũng như mở rộng tập các đặc trưngcủa logic mô tả so với các công trình đã có Trên cơ sở đó, chương này đề cập đến cơ

sở tri thức, mô hình của cơ sở tri thức và những vấn đề cơ bản về suy luận trong logic

mô tả

Chương 2 giới thiệu mô phỏng hai chiều trên lớp các logic mô tả đã đề cập ởChương 1 Chúng tôi phát biểu các định nghĩa, định lý, bổ đề mở rộng về mô phỏnghai chiều và chứng minh tính bất biến đối với mô phỏng hai chiều cho các khái niệm,

bộ tiên đề thuật ngữ, bộ khẳng định và cơ sở tri thức đối với các logic mô tả đangnghiên cứu Đặc biệt tính bất biến của khái niệm là nền tảng cho phép mô hình hóatính không phân biệt được của các đối tượng thông qua ngôn ngữ con Đây là cơ sở choviệc sử dụng ngôn ngữ con trong quá trình xây dựng các thuật toán học khái niệm.Chương 3 trình bày thuật toán học khái niệm cho các hệ thống thông tin tronglogic mô tả với Ngữ cảnh (3) (thể hiện qua Thuật toán 3.1) Thuật toán này cho phéphọc một khái niệm từ một hệ thống thông tin huấn luyện trong logic mô tả với tập

Trang 16

các mẫu dương và mẫu âm cho trước Chúng tôi đã sử dụng bộ chọn cơ bản, bộ chọnđơn giản và bộ chọn mở rộng kết hợp với độ đo gia lượng thông tin để phân chia cáckhối trong quá trình làm mịn các phân hoạch miền của diễn dịch Ngoài ra, chươngnày còn trình bày các kết quả thực nghiệm đối với thuật toán đã đề xuất.

Chương 4 trình bày các thuật toán học khái niệm cho các cơ sở tri thức trong logic

mô tả với Ngữ cảnh (1) và Ngữ cảnh (2), bao gồm thuật toán BBCL, dual-BBCL vàBBCL2 Các thuật toán này sử dụng các mô hình của cơ sở tri thức kết hợp với môphỏng hai chiều trong mô hình đó (để mô hình hóa tính không phân biệt được) vàcây quyết định (để phân lớp dữ liệu) cho việc tìm kiếm khái niệm cần học Chúng tôicũng chứng minh tính đúng đắn của thuật toán thông qua các mệnh đề liên quan.Cuối cùng, phần kết luận trình bày tóm tắt những đóng góp chính của luận án,hướng phát triển và những vấn đề cần phải giải quyết trong tương lai

Trang 17

Chương 1.

LOGIC MÔ TẢ VÀ CƠ SỞ TRI THỨC

1.1 Tổng quan về logic mô tả

1.1.1 Giới thiệu

Các nghiên cứu về biểu diễn tri thức được đặt ra từ những năm 70 của thế kỷ XX.Những công trình nghiên cứu đầu tiên trong lĩnh vực này dựa trên hướng tiếp cậnphi logic Hướng tiếp cận này sử dụng đồ thị làm nền tảng, trong đó tri thức đượcbiểu diễn bằng những cấu trúc dữ liệu đặc biệt và việc suy luận được thực hiện thôngqua các thủ tục thao tác trên những cấu trúc đó Năm 1967, Quillian [49] đã sử dụngmạng ngữ nghĩa (semantic networks) để biểu diễn và suy luận tri thức thông qua cáccấu trúc nhận thức dạng mạng lưới Sau đó, năm 1974, Minsky giới thiệu hệ thốngkhung (frame systems) dựa trên các khái niệm về một “khung” như một giao thức vàkhả năng biểu diễn các mối quan hệ giữa các khung [37] Hướng tiếp cận như trênkhông trang bị được ngữ nghĩa dựa trên logic hình thức Để khắc phục nhược điểmnày, người ta biểu diễn tri thức theo hướng tiếp cận dựa trên logic Theo đó, ngôn ngữbiểu diễn thường là một biến thể của logic vị từ bậc nhất và việc tính toán, suy luậnthường dựa vào các hệ quả logic

Logic mô tả được thiết kế như là một sự mở rộng của mạng ngữ nghĩa và hệ thốngkhung với ngữ nghĩa dựa trên logic Nó là một họ các ngôn ngữ hình thức rất thíchhợp cho việc biểu diễn và suy luận tri thức trong một miền quan tâm cụ thể [2] Thuậtngữ “logic mô tả” được sử dụng rộng rãi từ những năm 80 của thế kỷ XX Ngày nay,cùng với sự phát triển của các hệ thống biểu diễn tri thức, logic mô tả đã trở thànhmột nền tảng quan trọng của Web ngữ nghĩa do nó được sử dụng để cung cấp môhình lý thuyết trong việc thiết kế các ontology

Logic mô tả được xây dựng dựa vào ba thành phần cơ bản gồm tập các cá thể (cóthể hiểu như là các đối tượng), tập các khái niệm nguyên tố (có thể hiểu như là cáclớp, các vị từ một đối) và tập các vai trò nguyên tố (có thể hiểu như là các quan hệhai ngôi, các vị từ hai đối) Các logic mô tả khác nhau được đặc trưng bởi tập các tạo

tử khái niệm và tạo tử vai trò mà nó được phép sử dụng để xây dựng các khái niệmphức, vai trò phức từ các khái niệm nguyên tố và vai trò nguyên tố

Trang 18

Năm 1985, hệ thống biểu diễn tri thức dựa trên logic mô tả đầu tiên KL-one [56], [7]

ra đời đã đánh dấu một sự khởi đầu mạnh mẽ về nghiên cứu logic mô tả Một

số hệ thống biểu diễn tri thức dựa trên logic mô tả khác tiếp tục xuất hiện sau

đó là LOOM (1987), BACK (1988), CLASSIC (1991) Các hệ thống này có bộ suyluận sử dụng các thuật toán bao hàm cấu trúc Gần đây, các hệ thống biểu diễntri thức sử dụng các ngôn ngữ logic mô tả có khả năng biểu diễn tốt hơn nhưSHOIN , SHOIQ, SROIQ, và các bộ suy luận hiệu quả hơn như FaCT (1998),RACER (2001), CEL (2005) và KAON 2 (2005) [53] Các bộ suy luận này sử dụngcác thuật toán tableaux để giải quyết các bái toán suy luận

1.1.2 Ngôn ngữ logic mô tả ALC

Logic mô tả cơ bản ALC được Schmidt-Schaubß và Smolka giới thiệu lần đầutiên vào năm 1991 [55] Tên ALC đại diện cho “Attribute concept Language withComplements” Trên cơ sở logic mô tả cơ bản ALC, người ta mở rộng nó để có cáclogic mô tả khác có khả năng biểu diễn tốt hơn bằng cách thêm vào các tạo tử kháiniệm và tạo tử vai trò Các định nghĩa sau đây trình bày cú pháp và ngữ nghĩa củalogic mô tả cơ bản ALC [34], [36]

Định nghĩa 1.1 (Cú pháp của ALC) Cho ΣC là tập các tên khái niệm và ΣR là tậpcác tên vai trò (ΣC ∩ ΣR = ∅) Các phần tử của ΣC được gọi là khái niệm nguyên tố.Logic mô tả ALC cho phép các khái niệm được định nghĩa một cách đệ quy như sau:

• Nếu A ∈ ΣC thì A là một khái niệm của ALC,

• Nếu C, D là các khái niệm và r ∈ ΣR là một vai trò thì >, ⊥, ¬C, C u D, C t D,

Các ký hiệu và các tạo tử khái niệm trong Định nghĩa 1.1 có ý nghĩa như sau:

• > gọi là khái niệm đỉnh,

• ⊥ gọi là khái niệm đáy,

• ¬C biểu diễn phủ định của khái niệm C,

• C u D biểu diễn giao của khái niệm C và D,

• C t D biểu diễn hợp của khái niệm C và D,

• ∃r.C biểu diễn hạn chế tồn tại của khái niệm C bởi vai trò r,

• ∀r.C biểu diễn hạn chế phổ quát của khái niệm C bởi vai trò r

Trang 19

Cú pháp của logic mô tả ALC có thể mô tả một cách vắn tắt bằng các luật sau:

C, D −→ A | > | ⊥ | ¬C | C u D | C t D | ∃r.C | ∀r.CĐịnh nghĩa 1.2 (Ngữ nghĩa của ALC) Một diễn dịch trong logic mô tả ALC là một

bộ I = I, ·I, trong đó ∆I là một tập khác rỗng được gọi là miền của I và ·I làmột ánh xạ, được gọi là hàm diễn dịch của I, cho phép ánh xạ mỗi cá thể a ∈ ΣIthành một phần tử aI ∈ ∆I, mỗi tên khái niệm A ∈ ΣC thành một tập AI ⊆ ∆I vàmỗi tên vai trò r ∈ ΣR thành một quan hệ hai ngôi rI ⊆ ∆I× ∆I Diễn dịch của cáckhái niệm phức được xác định như sau:

(∃r.C)I = {x ∈ ∆I | ∃y ∈ ∆I [rI(x, y) ∧ CI(y)]}, (C u D)I = CI∩ DI,(∀r.C)I = {x ∈ ∆I | ∀y ∈ ∆I [rI(x, y) ⇒ CI(y)]}, (C t D)I = CI ∪ DI

Hình 1.1 minh họa ngắn gọn cho diễn dịch trong logic mô tả Mỗi cá thể được diễndịch thành một đối tượng, mỗi khái niệm được diễn dịch thành một tập các đối tượng

và mỗi vai trò được diễn dịch thành một quan hệ hai ngôi giữa các đối tượng [21]

Tên cá thể a ∈ ΣI

Tên khái niệm A ∈ ΣC

Tên vai trò r ∈ ΣR

Hình 1.1: Diễn dịch của logic mô tả

Ví dụ 1.1 Giả sử chúng ta có các cá thể, khái niệm nguyên tố và vai trò nguyên tốnhư sau:

LAN, HAI, HUNG là các cá thể,

Human là khái niệm chỉ các đối tượng là con người,

Trang 20

F emale là khái niệm chỉ các đối tượng là giống cái,

Rich là khái niệm chỉ những đối tượng giàu có,

hasChild là vai trò chỉ đối tượng này có con là đối tượng kia,

hasDescendant là vai trò chỉ đối tượng này có con cháu là đối tượng kia,

marriedT o là vai trò chỉ đối tượng này kết hôn với đối tượng kia

Với những khái niệm nguyên tố, vai trò nguyên tố đã cho ở trên và các tạo tử phủđịnh của khái niệm (¬), giao của các khái niệm (u), hợp của các khái niệm (t), lượng

từ hạn chế tồn tại (∃), lượng từ hạn chế với mọi (∀), chúng ta có thể xây dựng cáckhái niệm phức như sau:

Human u F emale là khái niệm chỉ các đối tượng là người phụ nữ,Human u ∃hasChild.F emale là khái niệm chỉ các đối tượng là người có con gái,Human u ∃marriedT o.Human là khái niệm chỉ những người đã kết hôn,

Human u F emale u Rich là khái niệm chỉ những người phụ nữ giàu có,Human u ∀hasChild.F emale là khái niệm chỉ những người chỉ có toàn con gái

hoặc những người không có con

Ngoài ra chúng ta có thể dùng khái niệm đỉnh (ký hiệu >), khái niệm đại diện chotất cả các đối tượng và khái niệm đáy (ký hiệu ⊥), khái niệm không đại diện cho bất

kỳ đối tượng nào, để xây dựng các khái niệm phức Chẳng hạn như sau:

Human u ∃hasChild.> là khái niệm chỉ các đối tượng là người có con,

Human u ∀hasChild.⊥ là khái niệm chỉ những người không có con

Ví dụ 1.2 Cho tập các cá thể, khái niệm và vai trò như trong Ví dụ 1.1 Xét diễndịch I như sau:

HUNGI = HUNG,

∆I = {LAN, HAI, HUNG},

HumanI = {LAN, HAI, HUNG},

F emaleI = {LAN},

RichI = {HUNG},

hasChildI = {hLAN, HUNGi, hHAI, HUNGi},

marriedT oI = {hLAN, HAIi, hHAI, LANi},

Trang 21

Lúc đó ta có:

(Human u F emale)I = {LAN},

(Human u ¬F emale)I = {HAI, HUNG},

(Human u ∃hasChild.F emale)I = ∅,

1.1.3 Biểu diễn tri thức

Từ các cá thể, các khái niệm và các vai trò, người ta có thể xây dựng một hệ thống

để biểu diễn và suy luận tri thức dựa trên logic mô tả Thông thường, một hệ thốngbiểu diễn và suy luận tri thức gồm có các thành phần sau [2]:

KB - CƠ SỞ TRI THỨC

ABox - Bộ khẳng địnhTBox - Bộ tiên đề thuật ngữ

RBox - Bộ tiên đề vai trò

-

H Ệ T H Ố N G S U Y L U Ậ N

D I Ệ N

-Hình 1.2: Kiến trúc của một hệ cơ sở tri thức trong logic mô tả

• Bộ tiên đề vai trò (Role Box - RBox): Bộ tiên đề vai trò chứa các tiên đề

về vai trò bao gồm các tiên đề bao hàm vai trò và các khẳng định vai trò Thông qua

bộ tiên đề vai trò, chúng ta có thể xây dựng các vai trò phức từ các vai trò nguyên tố

và các tạo tử vai trò mà logic mô tả được phép sử dụng

Ví dụ 1.3 Với các vai trò nguyên tố đã cho trong Ví dụ 1.1, chúng ta có thể xâydựng bộ tiên đề vai trò như sau:

hasP arent ≡ hasChild−,

hasChild v hasDescendant,

hasDescendant ◦ hasDescendant v hasDescendant

Phát biểu đầu tiên để định nghĩa vai trò mới hasP arent là một vai trò nghịch đảocủa vai trò hasChild Tiên đề thứ hai là một tiên đề bao hàm vai trò dùng để chỉ nếu

Trang 22

một đối tượng này là con của đối tượng kia thì nó cũng là con cháu của đối tượng kia.Phát biểu thứ ba là một tiên đề thể hiện rằng hasDescendant là một vai trò bắc cầu.

• Bộ tiên đề thuật ngữ (Terminology Box - TBox): Bộ tiên đề thuật ngữchứa các tiên đề về thuật ngữ, nó cho phép xây dựng các khái niệm phức từ nhữngkhái niệm nguyên tố và vai trò nguyên tố, đồng thời bộ tiên đề thuật ngữ cho biết mốiquan hệ giữa các khái niệm thông qua các tiên đề bao hàm tổng quát Chúng ta xét

ví dụ sau về mối quan hệ giữa các con người với nhau thông qua bộ tiên đề thuật ngữ

Ví dụ 1.4 Với các khái niệm nguyên tố, vai trò nguyên tố đã cho trong Ví dụ 1.1,chúng ta có thể xây dựng bộ tiên đề thuật ngữ như sau:

Human ≡ >,

M ale ≡ ¬F emale,

Husband ≡ M ale u ∃marriedT o.F emale,

Husband v ∀marriedT o.F emale,

M ale u F emale ≡ ⊥

Phát biểu đầu tiên của bộ tiên đề thuật ngữ dùng để nói lên rằng miền quan tâmchỉ gồm các đối tượng là con người Hai phát biểu tiếp theo dùng để định nghĩa cáckhái niệm mới đó là M ale và Husband tương ứng dùng để chỉ những đối tượng làgiống đực và chồng Phát biểu thứ tư yêu cầu mọi thể hiện của Husband phải thỏamãn khái niệm ∀marriedT o.F emale, nghĩa là, mọi người đàn ông đã kết hôn (đượcgọi là chồng) thì phải kết hôn với một người phụ nữ Phát biểu cuối cùng để biểu diễnhai khái niệm M ale và F emale không giao nhau

• Bộ khẳng định (Assertion Box - ABox): Bộ khẳng định dùng để chứanhững tri thức đã biết thông qua các khẳng định về các cá thể bao gồm khẳng địnhkhái niệm, khẳng định vai trò, khẳng định đẳng thức, khẳng định bất đẳng thức, Chúng ta xét ví dụ sau đây với các khẳng định về thông tin của con người

Ví dụ 1.5 Với các khái niệm nguyên tố, vai trò nguyên tố đã cho trong Ví dụ 1.1 vàcác khái niệm được định nghĩa thêm trong Ví dụ 1.4, chúng ta có thể cung cấp nhữngkhẳng định sau đây:

Trang 23

Khẳng định thứ nhất cho biết cá thể LAN là một con người, khẳng định thứ haicho biết cá thể HUNG là một đối tượng giống đực, khẳng định thứ ba cho biết cá thểHAI là một người chồng, khẳng định thứ tư cho biết cá thể LAN có con là cá thể HUNG

và khẳng định cuối cùng cho biết cá thể HUNG là một người đàn ông giàu có

Ngoài ra, một hệ thống biểu diễn tri thức còn có thêm các thành phần bổ trợ đểthực hiện các chức năng mà hệ thống đó hướng tới Thông thường, hệ thống biểu diễntri thức còn có thêm những thành phần sau [2]:

• Hệ thống suy luận (Inference System - IS): Hệ thống suy luận cho phéptrích rút ra những tri thức tiềm ẩn từ những tri thức đã có được thể hiện trongRBox, TBox và ABox Một trong những bài toán suy luận phổ biến trong logic mô

tả là kiểm tra xem một cá thể có phải là thể hiện của một khái niệm hay không.Thông qua Ví dụ 1.4 và 1.5, chúng ta có thể suy luận ra rằng cá thể HAI là mộtthể hiện của khái niệm M ale Lý do đưa ra khẳng định này là: HAI là thể hiện củaHusband, mà Husband là khái niệm được định nghĩa thông qua phát biểu Husband ≡

M ale u ∃marriedT o.Human Một bài toán suy luận khác cũng phổ biến của logic mô

tả là kiểm tra tính bao hàm của các khái niệm Qua Ví dụ 1.4, chúng ta thấy rằng cả

M ale và F emale đều được bao hàm trong Human

Một điểm lưu ý là, chúng ta không xem xét một cơ sở tri thức theo giả thiết thếgiới đóng (Closed World Assumption - CWA) mà xem xét nó theo giả thiết thế giới

mở (Open World Assumption - OWA) Nghĩa là, những khẳng định xuất hiện trongABox thì được cho là đúng Ngược lại, những khẳng định không xuất hiện trong ABox

và không thể suy luận được thông qua bộ suy luận thì không được kết luận là sai màphải được xem như là chưa biết, ngoại trừ chúng ta suy luận được khẳng định đó sai

• Giao diện người dùng (User Interface - UI): Giao diện người dùng được

sử dụng để giao tiếp với người sử dụng Thông qua giao diện này, người sử dụng cóthể trích rút ra những thông tin từ cơ sở tri thức Giao diện người dùng được thiết kếtùy thuộc vào từng ứng dụng cụ thể

1.1.4 Khả năng biểu diễn

Khả năng biểu diễn của logic mô tả có quan hệ mật thiết với độ phức tạp củacác bài toán suy luận Theo đó, thông thường nếu logic mô tả càng diễn cảm (có khảnăng biểu diễn tốt) thì có độ phức tạp trong suy luận càng cao Khả năng biểu diễncủa logic mô tả được thể hiện thông qua các tạo tử khái niệm và tạo tử vai trò mà nóđược phép sử dụng để xây dựng các khái niệm phức và vai trò phức Hiện nay, logic

mô tả ALC (chỉ sử dụng các tạo tử ¬, u, t, ∃ và ∀) được xem là logic mô tả cơ bản

Trang 24

nhất Trong mục này chúng tôi điểm qua thêm một số nét cơ bản của các tạo tử kháiniệm và tạo tử vai trò dùng để xây dựng các logic mô tả mở rộng thông qua logic mô

tả cơ bản ALC

1.1.4.1 Hạn chế số lượng

Tạo tử hạn chế số lượng cho phép xây dựng những khái niệm có ràng buộc bản số

về đối tượng Trong logic mô tả, người ta sử dụng hai loại hạn chế số lượng như sau:

• Hạn chế số lượng có định tính (qualified number restrictions), ký hiệu là Q, làhạn chế số lượng trên các vai trò có chỉ ra tính chất của các đối tượng cần hạnchế Chẳng hạn, để xây dựng khái niệm đại diện cho “đối tượng là người có ítnhất hai con gái ”, chúng ta sử dụng biểu thức Human u (≥ 2 hasChild.F emale)

Ở đây, khái niệm F emale đặt sau vai trò hasChild dùng để chỉ tính chất mà nócần định tính thông qua vai trò

• Hạn chế số lượng không định tính (unqualified number restrictions), ký hiệu

là N , là hạn chế số lượng trên các vai trò nhưng không chỉ ra tính chất củacác đối tượng cần hạn chế Chẳng hạn, để xây dựng khái niệm đại diện cho

“những đối tượng là người có nhiều nhất ba con”, chúng ta sử dụng biểu thứcHumanu(≤ 3 hasChild) (là cách viết ngắn gọn của Humanu(≤ 3 hasChild.>)).Chúng ta thấy rằng sau vai trò hasChild không yêu cầu chỉ ra tính chất cầnthỏa mãn (khái niệm > nói lên rằng tất cả các đối tượng đều phù hợp)

1.1.4.2 Tính chất hàm

Ràng buộc tính chất hàm (functionality), ký hiệu là F , là trường hợp đặc biệt củaràng buộc hạn chế số lượng không định tính Nó cho phép chỉ ra tính chất hàm cục bộcủa vai trò, nghĩa là mỗi cá thể của khái niệm có quan hệ tối đa với một cá thể khácthông qua vai trò được chỉ định Chẳng hạn, để quy định “một người chỉ có thể đượckết hôn với một người khác”, chúng ta có thể sử dụng ràng buộc > v ≤ 1 marriedT o.1.1.4.3 Định danh

Tạo tử định danh (nominal), ký hiệu là O, cho phép xây dựng khái niệm dạng {a}

từ một cá thể đơn lẻ a Khái niệm này biểu diễn cho tập có thể hiện chỉ là một cá thể.Bằng cách sử dụng tạo tử định danh, chúng ta có thể xây dựng cấu trúc {a1, a2, , an}

để biểu diễn cho khái niệm gồm chính xác các thể hiện là những cá thể a1, a2, , an.Chẳng hạn, để biểu diễn “các nước thành viên thường trực của Hội đồng Bảo an Liênhiệp quốc”, chúng ta sử dụng khái niệm {ANH, MY, NGA, PHAP, TRUNGQUOC}

Trang 25

1.1.4.4 Vai trò nghịch đảo

Một logic mô tả với vai trò nghịch đảo (inverse role), ký hiệu là I, cho phép người

sử dụng định nghĩa các vai trò là nghịch đảo của nhau nhằm tăng khả năng ràng buộcđối với các đối tượng trong miền biểu diễn Nghịch đảo của vai trò r được viết là r−.Nghĩa là, nếu s là một vai trò nghịch đảo của r (s ≡ r−) thì r(a, b) thỏa mãn khi vàchỉ khi s(b, a) thỏa mãn Chẳng hạn, chúng ta có thể định nghĩa vai trò hasP arent làvai trò nghịch đảo của vai trò hasChild và ký hiệu là hasP arent ≡ hasChild−.1.1.4.5 Vai trò bắc cầu

Tạo tử vai trò bắc cầu (transitive role), ký hiệu là S, được đưa vào logic mô tảnhằm tăng khả năng biểu diễn của logic mô tả đó Một vai trò r được gọi là bắc cầu nếur◦r v r Nghĩa là, khi r là một vai trò bắc cầu, lúc đó nếu r(a, b) và r(b, c) thỏa mãn thìr(a, c) cũng thỏa mãn Chẳng hạn, xét vai trò hasDescendant (vai trò để chỉ đối tượngnày có con cháu là đối tượng kia), giả sử rằng đối tượng a có con cháu là đối tượng b vàđối tượng b có con cháu là đối tượng c Một cách tự nhiên, chúng ta thấy đối tượng a cócon cháu là đối tượng c Nghĩa là, hasDescendant◦hasDescendant v hasDescendant.Như vậy, vai trò hasDescendant có tính chất bắc cầu

1.1.4.6 Phân cấp vai trò

Tạo tử phân cấp vai trò (role hierarchive), ký hiệu là H, cho phép người sử dụngbiểu diễn mối quan hệ giữa các vai trò theo phương cách cụ thể hóa hoặc theo phươngcách tổng quát hóa Vai trò r là cụ thể hóa của vai trò s (hay nói cách khác, vai trò s

là tổng quát hóa của vai trò r) và được viết là r v s Khi đó nếu r(a, b) thỏa mãn thìs(a, b) cũng thỏa mãn Xét hai vai trò hasChild và hasDescendant Chúng ta thấynếu đối tượng a có con là đối tượng b thì đối tượng a cũng có con cháu là đối tượng b

Vì vậy, vai trò hasChild được bao hàm trong vai trò hasDescendant và được ký hiệu

là hasChild v hasDescendant

1.1.4.7 Bao hàm vai trò phức

Tạo tử bao hàm vai trò phức (complex role inclusion), ký hiệu là R, cho phép người

sử dụng biểu diễn các tiên đề bao hàm dạng r ◦ s v r (hoặc r ◦ s v s) Nghĩa là, nếur(a, b) và s(b, c) thỏa mãn thì r(a, c) (hoặc s(a, c)) cũng thỏa mãn Ví dụ, với vai tròhasChild và hasDescendant, giả sử đối tượng a có con là đối tượng b và đối tượng b

có con cháu là đối tượng c, lúc đó đối tượng a cũng có con cháu là đối tượng c Rõràng chúng ta có hasChild ◦ hasDescendant v hasDescendant

Trang 26

1.1.5 Logic mô tả và các tên gọi

Hiện nay, có rất nhiều logic mô tả được phát triển để đáp ứng các nhu cầu trongthực tế về biểu diễn và suy luận tri thức Để thống nhất các tên gọi của logic mô tả,người ta lấy logic mô tả ALC làm nền tảng [55] Từ logic mô tả cơ bản ALC, bằngcách thêm các tính chất thông qua các tạo tử khái niệm và tạo tử vai trò người ta xâydựng được các logic mô tả mở rộng khác nhau Các logic mô tả này sử dụng các ký

tự để biểu diễn cho các tính chất được mở rộng, cụ thể như sau [34], [52]:

• ALC - logic mô tả cơ bản nhất: ALC là ngôn ngữ khái niệm thuộc tính cóphủ định

• S - ALC + tính chất bắc cầu của vai trò: Tính chất bắc cầu của vai trò chophép các vai trò bắc cầu được sử dụng

• H - bao hàm vai trò: Tính chất bao hàm vai trò cho phép một vai trò đượcbao hàm trong một vai trò khác theo dạng r v s

• I - vai trò nghịch đảo: Tính chất vai trò nghịch đảo cho phép sử dụng nghịchđảo của một vai trò r theo dạng r−

• O - định danh: Tạo tử định danh cho phép tạo ra các khái niệm đơn từ các

cá thể đơn lẻ a với dạng {a} và danh sách các cá thể a1, a2, , an với dạng{a1, a2, , an}

• N - hạn chế số lượng không định tính: Tạo tử hạn chế số lượng không địnhtính cho phép xây dựng các khái niệm về hạn chế số lượng dạng ≥ n r và ≤ n r

• Q - hạn chế số lượng có định tính: Tạo tử hạn chế số lượng có định tính chophép xây dựng các khái niệm hạn chế số lượng dạng ≥ n r.C và ≤ n r.C

• F - tính chất hàm: Tính chất hàm cho phép biểu diễn một vai trò là một hàm

và nó tương đương với tiên đề > v ≤ 1 r

• R - bao hàm vai trò phức: Bao hàm vai trò phức cho phép các tiên đề dạng

r ◦ s v r hoặc r ◦ s v s

Với các ký hiệu như vậy, khi ta viết logic mô tả ALCI, nghĩa là logic mô tả ALCcộng thêm tính chất vai trò nghịch đảo; SHOIQ là logic mô tả ALC có thêm tínhchất bắc cầu của vai trò, phân cấp vai trò, định danh, vai trò nghịch đảo và hạn chế

số lượng có định tính

Trang 27

1.2 Cú pháp và ngữ nghĩa của logic mô tả

1.2.1 Logic mô tả ALCreg

Logic mệnh đề động (Propositional Dynamic Logics) là một biến thể của logic hìnhthái được Fischer và Ladner giới thiệu vào năm 1979 [18] Nó được thiết kế chuyênbiệt cho việc biểu diễn và suy luận trong các chương trình Schild đã chỉ ra rằng có sựtương ứng giữa các logic mô tả và một số logic mệnh đề động [54] Sự tương ứng dựatrên tính tương tự giữa các cấu trúc diễn dịch của hai logic Theo đó, mỗi đối tượngtrong logic mô tả tương ứng với một trạng thái trong logic mệnh đề động và các kếtnối giữa hai đối tượng tương ứng với các dịch chuyển trạng thái Các khái niệm tươngứng với các mệnh đề và các vai trò tương ứng với các chương trình [20], [9]

Định nghĩa 1.3 (Cú pháp của ALCreg) Cho ΣC là tập các tên khái niệm và ΣR làtập các tên vai trò (ΣC∩ ΣR= ∅) Các phần tử của ΣC được gọi là khái niệm nguyên

tố và các phần tử của ΣR được gọi là vai trò nguyên tố Logic mô tả động ALCreg chophép các khái niệm và các vai trò được định nghĩa một cách đệ quy như sau:

• Nếu r ∈ ΣR thì r là một vai trò của ALCreg,

• Nếu A ∈ ΣC thì A là một khái niệm của ALCreg,

• Nếu C, D là các khái niệm và R, S là các vai trò thì

– ε, R ◦ S, R t S, R∗, C? là các vai trò của ALCreg,

– >, ⊥, ¬C, C u D, C t D, ∃R.C và ∀R.C là các khái niệm của ALCreg

Cú pháp ALCreg có thể mô tả một cách vắn tắt bằng các luật sau:

R, S −→ ε | r | R ◦ S | R t S | R∗ | C?

C, D −→ A | > | ⊥ | ¬C | C u D | C t D | ∃R.C | ∀R.CCác ký hiệu và các tạo tử vai trò có ý nghĩa như sau:

• ε biểu diễn quan hệ đồng nhất,

• R ◦ S biểu diễn hợp thành tuần tự của R và S,

• R t S biểu diễn hợp của R và S,

• R∗ biểu diễn cho vai trò bao đóng phản xạ và bắc cầu của R,1

• C? biểu diễn cho toán tử kiểm tra

1 Bao đóng phản xạ và bắc cầu của R là quan hệ nhỏ nhất S thỏa mãn R v S, S có tính chất phản xạ và bắc cầu.

Trang 28

Diễn dịch của các vai trò phức trong ALCreg được xác định như sau:

Trong luận án này, chúng tôi ký hiệu các ký tự chữ cái thường như a, b, cho các

cá thể; các ký tự chữ cái hoa như A, B, cho các thuộc tính và/hoặc tên khái niệm(khái niệm nguyên tố); các ký tự chữ cái hoa như C, D, cho các khái niệm (kháiniệm nguyên tố và khái niệm phức); các ký tự chữ cái thường như r, s, cho các tênvai trò đối tượng (vai trò đối tượng nguyên tố); các ký tự chữ cái hoa như R, S, chocác vai trò đối tượng (vai trò đối tượng nguyên tố và vai trò đối tượng phức)

1.2.2 Ngôn ngữ logic mô tả LΣ,Φ

Một bộ ký tự logic mô tả là một tập hữu hạn Σ = ΣI∪ ΣdA ∪ ΣnA∪ ΣoR∪ ΣdR,trong đó ΣI là tập các cá thể, ΣdA là tập các thuộc tính rời rạc, ΣnA là tập các thuộctính số, ΣoR là tập các tên vai trò đối tượng và ΣdR là tập các vai trò dữ liệu Tất cảcác tập ΣI, ΣdA, ΣnA, ΣoR và ΣdR rời nhau từng đôi một

Đặt ΣA = ΣdA ∪ ΣnA Khi đó mỗi thuộc tính A ∈ ΣA có một miền giá trị làrange(A) Miền range(A) là một tập khác rỗng đếm được nếu A là thuộc tính rời rạc

và có thứ tự “≤” nếu A là thuộc tính liên tục.2 (Để đơn giản, chúng ta không ghi kýhiệu “≤” kèm theo thuộc tính A) Một thuộc tính rời rạc được gọi là thuộc tính Boolnếu range(A) = {true, false} Chúng ta xem các thuộc tính Bool như là các tên kháiniệm Gọi ΣC là tập các tên khái niệm của Σ, lúc đó ta có ΣC ⊆ ΣdA

Mỗi tên vai trò đối tượng đại diện cho một vị từ hai ngôi giữa các cá thể Mỗi vaitrò dữ liệu σ có miền giá trị là range(σ) và σ đại diện cho một vị từ hai ngôi giữa các

cá thể với các phần tử trong tập range(σ) Ở đây, các ký tự như σ, %, dùng để kýhiệu cho các vai trò dữ liệu; và các ký tự c, d, dùng để ký hiệu cho các phần tửcủa tập range(A) hoặc range(σ)

Xét các đặc trưng của logic mô tả gồm: I (vai trò nghịch đảo), O (định danh), F(tính chất hàm), N (hạn chế số lượng không định tính), Q (hạn chế số lượng có địnhtính), U (vai trò phổ quát), Self (tính phản xạ cục bộ của vai trò) Tập các đặc trưng

2 Có thể giả sử rằng nếu A là một thuộc tính số thì range(A) là tập các số thực và “≤” là một quan hệ thứ tự giữa các số thực.

Trang 29

của logic mô tả Φ là một tập rỗng hoặc tập chứa một số các đặc trưng nêu trên Chẳnghạn như Φ = {I, O, Q} để chỉ tập các đặc trưng của logic mô tả gồm: vai trò nghịchđảo, định danh và hạn chế số lượng có định tính.

Luận án xây dựng các thuật toán học máy cho các hệ thống thông tin dựa trênlogic mô tả Cách tiếp cận này phù hợp đối với các hệ thống thông tin thường có trongthực tế Lý do là các hệ thống thông tin truyền thống được định nghĩa như các bảng

dữ liệu về các giá trị của các thuộc tính, các đối tượng chỉ được đặc tả thông qua cácthuộc tính Tuy nhiên, trong thực tế tồn tại những hệ thống thông tin mà các đốitượng không những được đặc tả bằng các thuộc tính mà còn được đặc tả thông quacác mối quan hệ giữa các đối tượng đó Hệ thống thông tin dựa trên logic mô tả giảiquyết được nhược điểm vốn có của hệ thống thông tin truyền thống và phù hợp vớithực tế hơn

Dovroodi và Nguyen [13], [14], Nguyen và Sza las [44] nghiên cứu logic mô tả ALCreg

với tập các đặc trưng gồm I, O, Q, U và Self Ngoài những đặc trưng đã đề cập ởtrên, luận án này mở rộng lớp các logic mô tả bằng cách xem xét thêm các đặc trưng

F và N Đặc biệt, luận án xem xét thêm các thuộc tính như là các thành phần cơbản của ngôn ngữ, bao gồm thuộc tính rời rạc và thuộc tính số Do đó, ngôn ngữ logic

mô tả được nghiên cứu trong luận án tổng quát hơn so với công trình của Nguyen vàSza las [44] Các kết quả trình bày trong các định nghĩa, định lý tiếp theo là những mởrộng của các định nghĩa, định lý trong [13], [14], [44] bằng cách phát triển nó trên mộtlớp các logic mô tả rộng hơn

Định nghĩa 1.4 (Ngôn ngữ LΣ,Φ) Cho Σ là bộ ký tự logic mô tả, Φ là tập các đặctrưng của logic mô tả và L đại diện cho ALCreg Ngôn ngữ logic mô tả LΣ,Φ cho phépcác vai trò đối tượng và các khái niệm được định nghĩa đệ quy như sau:

• Nếu r ∈ ΣoR thì r là một vai trò đối tượng của LΣ,Φ,

• Nếu A ∈ ΣC thì A là một khái niệm của LΣ,Φ,

• Nếu A ∈ ΣA\ ΣC và d ∈ range(A) thì A = d và A 6= d là các khái niệm của LΣ,Φ,

• Nếu A ∈ ΣnA và d ∈ range(A) thì A ≤ d, A < d, A ≥ d và A > d là các kháiniệm của LΣ,Φ,

• Nếu R và S là các vai trò đối tượng của LΣ,Φ, C và D là các khái niệm của LΣ,Φ,

r ∈ ΣoR, σ ∈ ΣdR, a ∈ ΣI và n là một số tự nhiên thì

– ε, R ◦ S , R t S, R∗ và C? là các vai trò đối tượng của LΣ,Φ,

– >, ⊥, ¬C, C u D, C t D, ∃R.C và ∀R.C là các khái niệm của LΣ,Φ,

Trang 30

– Nếu d ∈ range(σ) thì ∃σ.{d} là một khái niệm của LΣ,Φ,

– Nếu I ∈ Φ thì R− là một vai trò đối tượng của LΣ,Φ,

– Nếu O ∈ Φ thì {a} là một khái niệm của LΣ,Φ,

– Nếu F ∈ Φ thì ≤ 1 r là một khái niệm của LΣ,Φ,

– Nếu {F , I} ⊆ Φ thì ≤ 1 r− là một khái niệm của LΣ,Φ,

– Nếu N ∈ Φ thì ≥ n r và ≤ n r là các khái niệm của LΣ,Φ,

– Nếu {N , I} ⊆ Φ thì ≥ n r− và ≤ n r− là các khái niệm của LΣ,Φ,

– Nếu Q ∈ Φ thì ≥ n r.C và ≤ n r.C là các khái niệm của LΣ,Φ,

– Nếu {Q, I} ⊆ Φ thì ≥ n r−.C và ≤ n r−.C là các khái niệm của LΣ,Φ,– Nếu U ∈ Φ thì U là một vai trò đối tượng của LΣ,Φ,

– Nếu Self ∈ Φ thì ∃r.Self là một khái niệm của LΣ,Φ

Định nghĩa 1.5 (Ngữ nghĩa của LΣ,Φ) Một diễn dịch trong LΣ,Φlà một bộ I = I, ·I,trong đó ∆I là một tập khác rỗng được gọi là miền của I và ·I là một ánh xạ được gọi

là hàm diễn dịch của I cho phép ánh xạ mỗi cá thể a ∈ ΣI thành một phần tử aI ∈ ∆I,mỗi tên khái niệm A ∈ ΣC thành một tập AI ⊆ ∆I, mỗi thuộc tính A ∈ ΣA\ ΣCthành một hàm từng phần AI : ∆I → range(A), mỗi tên vai trò đối tượng r ∈ ΣoR

thành một quan hệ hai ngôi rI ⊆ ∆I × ∆I và mỗi vai trò dữ liệu σ ∈ ΣdR thành mộtquan hệ hai ngôi σI ⊆ ∆I× range(σ) Hàm diễn dịch ·I được mở rộng cho các vai tròđối tượng phức và các khái niệm phức như trong Hình 1.3, trong đó #Γ ký hiệu cho

Chúng ta nói CI (tương ứng, RI) là diễn dịch của khái niệm C (tương ứng, vaitrò R) trong diễn dịch I Một khái niệm C được gọi là thỏa mãn nếu tồn tại một diễndịch I sao cho CI 6= ∅ Nếu aI ∈ CI, lúc đó chúng ta nói a là một thể hiện của Ctrong diễn dịch I Để ngắn gọn, ta viết CI(x) (tương ứng, RI(x, y), σI(x, d)) thay cho

x ∈ CI (tương ứng, hx, yi ∈ RI, hx, di ∈ σI)

Cho diễn dịch I = I, ·I trong ngôn ngữ LΣ,Φ Chúng ta nói rằng đối tượng

x ∈ ∆I có độ sâu là k nếu k là số tự nhiên lớn nhất sao cho tồn tại các đối tượng

x0, x1, , xk∈ ∆I khác nhau từng đôi một thỏa mãn:

• xk = x và x0 = aI với a ∈ ΣI,

• xi 6= bI

với mọi 1 ≤ i ≤ k và với mọi b ∈ ΣI,

• với mỗi 1 ≤ i ≤ k tồn tại một vai trò đối tượng Ri của LΣ,Φ sao cho RIi(xi−1, xi)thỏa mãn

Trang 31

Chúng ta ký hiệu I|k là diễn dịch thu được từ diễn dịch I bằng cách hạn chế miền

∆I của diễn dịch I chỉ bao gồm các đối tượng có độ sâu không lớn hơn k và hàm diễndịch ·I được hạn chế một cách tương ứng

>I = ∆I ⊥I = ∅(C t D)I = CI∪ DI

(C?)I = {hx, xi | CI(x)}

εI = {hx, xi | x ∈ ∆I}(¬C)I = ∆I \ CI

{a}I = {aI}(A ≤ d)I = {x ∈ ∆I | AI(x) xác định và AI(x) ≤ d}

(A ≥ d)I = {x ∈ ∆I | AI(x) xác định và AI(x) ≥ d}

(A = d)I = {x ∈ ∆I | AI(x) = d} (A 6= d)I = (¬(A = d))I

(A < d)I = ((A ≤ d) u (A 6= d))I (A > d)I = ((A ≥ d) u (A 6= d))I(∀R.C)I = {x ∈ ∆I | ∀y [RI(x, y) ⇒ CI(y)]} (∃r.Self)I = {x ∈ ∆I | rI(x, x)}(∃R.C)I = {x ∈ ∆I | ∃y [RI(x, y) ∧ CI(y)]} (∃σ.{d})I = {x ∈ ∆I | σI(x, d)}(≥ n R.C)I = {x ∈ ∆I | #{y | RI(x, y) ∧ CI(y)} ≥ n} (≥ n R)I = (≥ n R.>)I(≤ n R.C)I = {x ∈ ∆I | #{y | RI(x, y) ∧ CI(y)} ≤ n} (≤ n R)I = (≤ n R.>)I

Hình 1.3: Diễn dịch của các vai trò phức và khái niệm phức

1.3 Các dạng chuẩn

Để biểu diễn các khái niệm và vai trò theo một dạng thống nhất trong logic mô tảnhằm phù hợp với quá trình xử lý khái niệm và vai trò đó, người ta sử dụng các dạngchuẩn của khái niệm và vai trò Dạng chuẩn của khái niệm C (tương ứng, vai trò R)

là một khái niệm C0 (tương ứng, vai trò R0) tương đương với khái niệm C (tương ứng,vai trò R) Nghĩa là khái niệm C0 (tương ứng, vai trò R0) có cùng ý nghĩa với kháiniệm C (tương ứng, vai trò R) nhưng khác nhau về cú pháp biểu diễn Việc sử dụngcác dạng chuẩn nhằm để nhất quán cách biểu diễn của khái niệm và vai trò trong một

hệ thống Điều này thuận lợi cho việc xử lý các khái niệm trong cài đặt chương trìnhđược đề cập trong Chương 3

1.3.1 Dạng chuẩn phủ định của khái niệm

Dạng chuẩn phủ định của khái niệm (Negation Normal Form) [2], [34] được đềxuất nhằm phục vụ cho việc xử lý các bài toán suy luận của cơ sở tri thức trong logic

mô tả Khái niệm C được gọi là ở dạng chuẩn phủ định nếu toán tử phủ định chỉ xuấthiện trước các tên khái niệm có trong C

Trang 32

Để chuyển một khái niệm về dạng chuẩn phủ định, chúng ta sử dụng luật De gan và các phép biến đổi tương đương, cụ thể như sau:

1.3.2 Dạng chuẩn lưu trữ của khái niệm

Ngoài dạng chuẩn phủ định của khái niệm, chúng ta có thể sử dụng các dạngchuẩn khác để phù hợp với quá trình thao tác và xử lý khái niệm Luận án đề xuấtmột dạng chuẩn để lưu trữ khái niệm trong quá trình xây dựng các chương trình họcmáy Dạng chuẩn lưu trữ khái niệm được xây dựng dựa trên dạng chuẩn phủ định vàtập hợp Nó là một mở rộng của dạng chuẩn đã đề xuất trong [38] Để chuyển mộtkhái niệm về dạng chuẩn này, chúng ta áp dụng các luật chuẩn hóa sau:

1 Các khái được biểu diễn theo dạng chuẩn phủ định,

2 Khái niệm C1 u C2u · · · u Cn được biểu diễn bằng một tập hợp “AND” và kýhiệu là u{C1, C2, , Cn},

3 u{C} được thay thế bằng C,

4 u{u{C1, C2, , Ci}, Ci+1, , Cn} được thay thế bằng u{C1, C2, , Cn},

5 u{>, C1, C2, , Cn} được thay thế bằng u{C1, C2, , Cn},

6 u{⊥, C1, C2, , Cn} được thay thế bằng ⊥,

7 Nếu Ci v Cj và 1 ≤ i 6= j ≤ n thì loại bỏ Cj ra khỏi u{C1, C2, , Cn},

8 Nếu Ci ≡ Cj và 1 ≤ i 6= j ≤ n thì u{C1, C2, , Cn} được thay thế bằng ⊥,trong đó C là dạng chuẩn của ¬C,

9 ∀R u {C1, C2, , Cn} được thay thế bằng u{∀R.C1, ∀R.C2, , ∀R.Cn},

10 ∀R.> được thay thế bằng >,

Trang 33

11 ≤ n R.⊥ được thay thế bằng >,

12 ≥ 1 R.C được thay thế bằng ∃R.C,

13 ≥ n R.⊥ được thay thế bằng ⊥ nếu n > 0,

14 Các luật song hành được áp dụng cho các luật từ thứ 2 đến thứ 10 bằngcách đảo các tạo tử và khái niệm >, ⊥ trong luật một cách tương ứng (chẳnghạn, luật song hành tương ứng của luật thứ 5 là t{⊥, C1, C2, , Cn} đượcthay thế bằng t{C1, C2, , Cn}, luật song hành tương ứng của luật thứ 6 làt{>, C1, C2, , Cn} được thay thế bằng >

Các khái niệm ở dạng chuẩn được biểu diễn dưới dạng tập hợp của các khái niệmcon Sử dụng tập hợp trong biểu diễn khái niệm mang lại một lợi thế quan trọng làthứ tự của các khái niệm con trong tập hợp không ảnh hưởng tới khái niệm đang xét.Chẳng hạn, u{C1, C2} và u{C2, C1} là hai khái niệm giống nhau Vì vậy, trong thựcnghiệm, các chương trình cài đặt cần phải xây dựng được cấu trúc dữ liệu thích hợpcho việc lưu trữ khái niệm Cấu trúc dữ liệu này phải đảm bảo hai khái niệm có cùng

“dạng chuẩn” được biểu diễn như nhau để tránh việc lưu trữ lặp lại các khái niệmgiống nhau trong bộ nhớ

Ví dụ 1.7 Cho A và B là các tên khái niệm, r và s là các tên vai trò đối tượng

và khái niệm C ≡ ¬(∃r.¬A u (B t ∀s.A)) u ¬(≥ 3 r.A t ¬B) Dạng chuẩn phủđịnh của C là (∀r.A t (¬B u ∃s.¬A)) u (≤ 2 r.A u B) Dạng chuẩn lưu trữ của C

1.3.3 Dạng chuẩn nghịch đảo của vai trò

Vai trò đối tượng R được gọi là một vai trò ở dạng chuẩn nghịch đảo (ConverseNormal Form) nếu tạo tử nghịch đảo chỉ áp dụng cho các tên vai trò đối tượng xuấthiện trong R (không xét đến vai trò đối tượng phổ quát U ) [14] Rõ ràng, tất cả cácvai trò đối tượng đều có thể chuyển đổi tương đương thành vai trò đối tượng ở dạngchuẩn nghịch đảo Trong luận án này, chúng ta sử dụng các vai trò được biểu diễn ởdạng chuẩn nghịch đảo

Để chuyển một vai trò về dạng chuẩn nghịch đảo, chúng ta sử dụng các phép biếnđổi tương đương sau:

Ví dụ 1.8 Cho r, s là các tên vai trò đối tượng và vai trò R ≡ ((r ◦s−)t(r∗◦s)ts−)−.Dạng chuẩn nghịch đảo của R là (s ◦ r−) t (s−◦ (r−)∗) t s

Trang 34

Đặt Σ±oR = ΣoR∪ {r− | r ∈ ΣoR} Một vai trò đối tượng cơ bản là một phần tửthuộc Σ±oR nếu ngôn ngữ được xem xét cho phép vai trò nghịch đảo hoặc một phần tửthuộc ΣoR nếu ngôn ngữ được xem xét không cho phép vai trò nghịch đảo [14].

1.4 Cơ sở tri thức trong logic mô tả

Cơ sở tri thức trong logic mô tả thường bao gồm ba thành phần: bộ tiên đề vaitrò chứa các tiên đề vai trò, bộ tiên đề thuật ngữ chứa các tiên đề thuật ngữ và bộkhẳng định chứa các khẳng định về cá thể [2], [14]

1.4.1 Bộ tiên đề vai trò

Định nghĩa 1.6 (Tiên đề vai trò) Một tiên đề bao hàm vai trò trong ngôn ngữ LΣ,Φ

là một biểu thức có dạng ε v r hoặc R1◦ R2◦ · · · ◦ Rkv r, trong đó k ≥ 1, r ∈ ΣoR và

R1, R2, , Rk là các vai trò đối tượng cơ bản của LΣ,Φ khác với vai trò phổ quát U Một khẳng định vai trò trong ngôn ngữ LΣ,Φ là một biểu thức có dạng Ref(r), Irr(r),Sym(r), Tra(r) hoặc Dis(R, S), trong đó r ∈ ΣoR và R, S là các vai trò đối tượng của

LΣ,Φkhác với vai trò phổ quát U Một tiên đề vai trò trong ngôn ngữ LΣ,Φ là một tiên

đề bao hàm vai trò hoặc một khẳng định vai trò trong LΣ,Φ

Ý nghĩa của các khẳng định vai trò trong Định nghĩa 1.6 được hiểu như sau:

• Ref(r) được gọi là một khẳng định vai trò phản xạ,

• Irr(r) được gọi là một khẳng định vai trò không phản xạ,

• Sym(r) được gọi là một khẳng định vai trò đối xứng,

• Tra(r) được gọi là một khẳng định vai trò bắc cầu,

• Dis(R, S) được gọi là một khẳng định vai trò không giao nhau

Ngữ nghĩa của các tiên đề vai trò được xác định thông qua diễn dịch I như sau:

I |= Irr(r) nếu rI không phản xạ,

I |= Sym(r) nếu rI đối xứng,

I |= Tra(r) nếu rI bắc cầu,

I |= Dis(R, S) nếu RI và SI không giao nhau

Giả sử ϕ là một tiên đề vai trò Chúng ta nói rằng I thỏa mãn ϕ nếu I |= ϕ

Trang 35

Định nghĩa 1.7 (Bộ tiên đề vai trò) Bộ tiên đề vai trò (RBox) trong ngôn ngữ LΣ,Φ

là một tập hữu hạn các tiên đề vai trò trong LΣ,Φ

1.4.2 Bộ tiên đề thuật ngữ

Định nghĩa 1.8 (Tiên đề thuật ngữ) Một tiên đề bao hàm khái niệm tổng quát trongngôn ngữ LΣ,Φ là một biểu thức có dạng C v D, trong đó C và D là các khái niệmcủa LΣ,Φ Một tiên đề tương đương khái niệm trong ngôn ngữ LΣ,Φ là một biểu thức

có dạng C ≡ D, trong đó C và D là các khái niệm của LΣ,Φ Một tiên đề thuật ngữtrong ngôn ngữ LΣ,Φ là một tiên đề bao hàm khái niệm tổng quát hoặc một tiên đề

Đối với tiên đề tương đương khái niệm C ≡ D, trong đó C và D là các khái niệmcủa LΣ,Φ, nếu C là một tên khái niệm thì chúng ta nói C ≡ D là một định nghĩa kháiniệm và khái niệm C được gọi là khái niệm định nghĩa Một tiên đề tương đương kháiniệm C ≡ D có thể được chuyển đổi tương đương thành hai tiên đề bao hàm kháiniệm tổng quát là C v D và D v C

Ngữ nghĩa của các tiên đề thuật ngữ được xác định thông qua diễn dịch I như sau:

I |= C v D nếu CI ⊆ DI,

I |= C ≡ D nếu CI = DI

Giả sử ϕ là một tiên đề thuật ngữ Chúng ta nói rằng I thỏa mãn ϕ nếu I |= ϕ.Định nghĩa 1.9 (Bộ tiên đề thuật ngữ) Bộ tiên đề thuật ngữ (TBox) trong ngônngữ LΣ,Φ là một tập hữu hạn các tiên đề thuật ngữ trong LΣ,Φ

1.4.3 Bộ khẳng định cá thể

Định nghĩa 1.10 (Khẳng định cá thể) Một khẳng định cá thể trong ngôn ngữ LΣ,Φ

là một biểu thức có dạng C(a), R(a, b), ¬R(a, b), a = b, a 6= b, trong đó C là một khái

Ý nghĩa của các khẳng định cá thể trong Định nghĩa 1.10 được hiểu như sau:

• C(a) được gọi là một khẳng định khái niệm,

• R(a, b) được gọi là một khẳng định vai trò đối tượng dương,

• ¬R(a, b) được gọi là một khẳng định vai trò đối tượng âm,

• a = b được gọi là một khẳng định bằng nhau,

Trang 36

• a 6= b được gọi là một khẳng định khác nhau.

Ngữ nghĩa của các khẳng định cá thể được xác định thông qua diễn dịch I như sau:

1.4.4 Cơ sở tri thức và mô hình của cơ sở tri thức

Định nghĩa 1.12 (Cơ sở tri thức) Một cơ sở tri thức trong ngôn ngữ LΣ,Φ là một

bộ ba KB = hR, T , Ai, trong đó R là một RBox, T là một TBox và A là một ABox

Định nghĩa 1.13 (Mô hình) Một diễn dịch I là một mô hình của RBox R (tươngứng, TBox T , ABox A), ký hiệu là I |= R (tương ứng, I |= T , I |= A), nếu Ithỏa mãn tất cả các tiên đề vai trò trong R (tương ứng, tiên đề thuật ngữ trong

T , khẳng định cá thể trong A) Một diễn dịch I là một mô hình của cơ sở tri thức

KB = hR, T , Ai, ký hiệu là I |= KB, nếu nó là mô hình của cả R, T và A

Cơ sở tri thức KB được gọi là thỏa mãn được nếu KB có mô hình Một cá thể ađược gọi là thể hiện của khái niệm C dựa trên cơ sở tri thức KB, ký hiệu là KB |= C(a),nếu với mọi diễn dịch I là mô hình của KB thì aI ∈ CI

Cá thể a không phải thể hiệncủa khái niệm C dựa trên cơ sở tri thức KB được ký hiệu là KB 6|= C(a) Khái niệm Dđược gọi là bao hàm khái niệm C dựa trên cơ sở tri thức KB, ký hiệu là KB |= C v D,nếu với mọi diễn dịch I là mô hình của KB thì CI ⊆ DI

Một logic LΣ,Φ được xác định thông qua một số hạn chế cụ thể đối với ngôn ngữ

LΣ,Φ Ta nói rằng logic LΣ,Φ là quyết định được nếu bài toán kiểm tra tính thỏa mãncủa một cơ sở tri thức trong LΣ,Φ là quyết định được Một logic LΣ,Φ được xem là cótính chất mô hình hữu hạn nếu với mọi cơ sở tri thức thỏa mãn được trong LΣ,Φ đều

có mô hình hữu hạn Một logic LΣ,Φ được xem là có tính chất mô hình nửa hữu hạnnếu với mọi cơ sở tri thức thỏa mãn được trong LΣ,Φ đều có mô hình I sao cho vớimọi số tự nhiên k, I|k là hữu hạn và có thể xây dựng được

Trang 37

Ví dụ 1.9 Ví dụ sau đây là các cơ sở tri thức đề cập về các ấn phẩm khoa học:

Φ = {I, O, N , Q}, ΣI = {P1, P2, P3, P4, P5, P6},

ΣC = {Pub, Awarded , UsefulPub, Ad}, ΣdA= ΣC, ΣnA = {Year },

ΣoR = {cites, cited_by}, ΣdR = ∅,

R = {cites−v cited_by, cited_by− v cites, Irr(cites)},

T = {> v Pub, UsefulPub ≡ ∃cited_by.>},

A00 = {Awarded (P1), ¬Awarded (P2), ¬Awarded (P3), Awarded (P4),

¬Awarded (P5), Awarded (P6), Year (P1) = 2010, Year (P2) = 2009,

Year (P3) = 2008, Year (P4) = 2007, Year (P5) = 2006, Year (P6) = 2006,cites(P1, P2), cites(P1, P3), cites(P1, P4), cites(P1, P6), cites(P2, P3),

cites(P2, P4), cites(P2, P5), cites(P3, P4), cites(P3, P5), cites(P3, P6),

cites(P4, P5), cites(P4, P6)},

A0 = A00∪ {(¬∃cited_by.>)(P1), (∀cited_by.{P2, P3, P4})(P5)}

Lúc đó KB00 = hR, T , A00i và KB0 = hR, T , A0i là các cơ sở tri thức trong LΣ,Φ.Tiên đề > v Pub để chỉ ra rằng miền của bất kỳ mô hình nào của KB00 hoặc KB0 đềuchỉ gồm các ấn phẩm khoa học Cơ sở tri thức KB00 và KB0 được minh họa như trongHình 1.4 Trong hình này, các nút ký hiệu cho các ấn phẩm và các cạnh ký hiệu chocác trích dẫn (khẳng định của vai trò cites) Hình này chỉ biểu diễn những thông tin

về các khẳng định Year , Awarded và cites Cơ sở tri thức KB0 khác với KB00 ở điểm

là KB0 có thêm khẳng định (¬∃cited_by.>)(P1) (trong A0) để khẳng định P1 khôngđược trích dẫn bởi bất kỳ ấn phẩm nào và khẳng định (∀cited_by.{P2, P3, P4})(P5)(trong A0) để khẳng định P5 chỉ được trích dẫn bởi các ấn phẩm P2, P3 và P4

// P6 : 2006Awarded

Hình 1.4: Một minh họa cho cơ sở tri thức của Ví dụ 1.9

Trang 38

Ví dụ 1.10 Cho ΣI = {a, b, c}, ΣnA = {BirthY ear}, ΣC = {Human, M ale, F emale},

ΣdA = {N ickN ame}∪ΣC, ΣoR= {hasChild, marriedT o} và ΣdR= {hasOccupation}.Chúng ta có thể xem cá thể a là ALICE, b là BOB và c là CALVIN và các diễn dịch I1

và I2 được xây dựng như sau:

N ickN ameI1(aI1) = “Allie”, N ickN ameI1(bI1) = “Bo”, N ickN ameI1(cI1) = “Cal”

N ickN ameI1(x1) = “Dell”, N ickN ameI1(x2) = “Eddy”, N ickN ameI1(x3) = “Fae”,

N ickN ameI1(x4) = “Garry”,

hasChildI1 = { I1, cI1 I1

, x1 I1, cI1 I1

, x1 I1, x3 I1, x4,

hx2, x3i, hx2, x4i},marriedT oI1 = { I1, bI1 I 1, aI1 I 1, x2 2, cI1},

hasOccupationI1= { I1, “housewife” I1, “doctor” I1, “lecturer” I1, “nurse”,

BirthY earI2(y4) = 1984, BirthY earI2(y5) = 1987,

N ickN ameI2(aI2) = “Allie”, N ickN ameI2(bI2) = “Bo”, N ickN ameI2(cI2) = “Cal”

N ickN ameI2(y1) = “Dell”, N ickN ameI2(y2) = “Eddy”, N ickN ameI2(y3) = “Fae”,

N ickN ameI2(y4) = “Garry”, N ickN ameI2(y5) = “Jay”,

Trang 39

hasChildI2 = { I2, cI2 I 2, y1 I2, cI2 I 2, y1 I2, y3 I2, y4 I2, y5,

hy2, y3i, hy2, y4i, hy2, y5i},marriedT oI2 = { I2, bI2 I2

, aI2 I2

, y2 2, cI2},hasOccupationI2= { I2, “housewife” I2, “doctor” I2, “lecturer” I2, “nurse”,

R = {Sym(marriedT o), Irr(hasChild)},

T = {Human ≡ >, ¬F emale v M ale, ∃marriedT o.M ale v F emale,

{c} v (≥ 2 hasChild.Human), {b, c} v ∃hasOccupation.{“lecturer”}},

A = {F emale(a), M ale(b), F emale(c), (≥ 2 hasChild.Human)(a), marriedT o(a, b),marriedT o(b, a), hasChild(a, c), hasChild(b, c), hasOccupation(b, “doctor”),hasOccupation(b, “lecturer”), hasOccupation(c, “lecturer”)}

Qua các Ví dụ 1.9 và 1.10, chúng ta thấy rằng nếu không sử dụng thuộc tính thì

sẽ rất khó biểu diễn dữ liệu số như: năm xuất bản của một công trình, tuổi của mộtngười Tương tự như thế, nếu không dùng vai trò dữ liệu thì cũng sẽ rất khó biểu diễncác dữ liệu đa trị như nghề nghiệp của một người Như vậy, bằng cách sử dụng cácthuộc tính và vai trò dữ liệu, chúng ta có thể biểu diễn các thuộc tính số và các dữliệu đa trị

1.5 Suy luận trong logic mô tả

1.5.1 Giới thiệu

Mục đích của các hệ thống biểu diễn tri thức ngoài việc lưu trữ các tiên đề vaitrò, tiên đề thuật ngữ, định nghĩa khái niệm và các khẳng định còn có việc thực hiệncác suy luận để tìm ra những tri thức tiềm ẩn Chẳng hạn, từ bộ tiên đề thuật ngữtrong Ví dụ 1.4 và bộ khẳng định trong Ví dụ 1.5, chúng ta có thể kết luận rằng cáthể HAI là một người đàn ông (cá thể hải là một thể hiện của khái niệm M ale) mặc

dù tri thức này không được đưa ra trong bộ khẳng định

Có nhiều bài toán suy luận được đặt ra trong các hệ thống biểu diễn tri thức dựatrên logic mô tả Từ cơ sở tri thức KB, chúng ta có các bài toán suy luận như sau [2]:

Trang 40

• Tính thỏa mãn của cơ sở tri thức: KB được gọi là thỏa mãn nếu tồn tạidiễn dịch I là mô hình của KB.

• Tính thỏa mãn của khái niệm: Một khái niệm C được gọi là thỏa mãn dựatrên KB nếu tồn tại một mô hình I của KB sao cho CI 6= ∅

• Bao hàm khái niệm: Khái niệm C được bao hàm trong khái niệm D dựa trên

KB, ký hiệu là KB |= C v D, nếu CI ⊆ DI với mọi mô hình I của KB

• Tương đương khái niệm: Khái niệm C tương đương với khái niệm D dựa trên

KB, ký hiệu là KB |= C ≡ D, nếu CI = DI với mọi mô hình I của KB

• Khái niệm rời nhau: Khái niệm C và khái niệm D là rời nhau dựa trên KBnếu CI ∩ DI = ∅ với mọi mô hình I của KB

Trong các bài toán suy luận trên đây, bài toán suy luận quan trọng nhất là bàitoán kiểm tra tính thỏa mãn một cơ sở tri thức Lý do bài toán này được xem là quantrọng bởi vì thuật toán để giải bài toán này tương đối đã đầy đủ Hơn nữa, các bàitoán suy luận khác đều có thể được chuyển đổi tương đương về bài toán kiểm tra tínhthỏa mãn của một cơ sở tri thức [2]

Ví dụ 1.11 Chuyển bài toán kiểm tra thể hiện của một khái niệm về bài toán kiểmtra tính thỏa mãn của một cơ sở tri thức

Cho cơ sở tri thức KB, khái niệm C và cá thể a Kiểm tra xem cá thể a có phải làmột thể hiện của khái niệm C (KB |= C(a)) hay không? Nghĩa là, kiểm tra xem vớimọi diễn dịch I là mô hình của KB thì I có phải là mô hình của C(a) hay không?

Để kiểm tra vấn đề này, chúng ta có thể chuyển bài toán trên về bài toán kiểm tratính thỏa mãn của cơ sở tri thức KB0 = hR, T , A0i với A0 = A ∪ C(a) Nghĩa là kiểmtra xem có tồn tại hay không một diễn dịch I là mô hình của KB0?

Nếu cơ sở tri thức KB0 thỏa mãn thì cá thể a là một thể hiện của khái niệm C dựatrên KB, ngược lại nếu cơ sở tri thức KB0 không thỏa mãn thì cá thể a không phải là

1.5.2 Các thuật toán suy luận

1.5.2.1 Thuật toán bao hàm theo cấu trúc

Thuật toán bao hàm theo cấu trúc thực hiện quá trình suy luận dựa trên việc sosánh cấu trúc cú pháp của các khái niệm (thường đã được chuyển về ở dạng chuẩnphủ định) Thuật toán này tỏ ra hiệu quả đối với các ngôn ngữ logic mô tả đơn giản cókhả năng biểu diễn yếu như F L0, F L⊥, ALN Với các ngôn ngữ logic mô tả giàu ngữ

Định dạng
Số trang	121
Dung lượng	1,08 MB

Học khái niệm cho các hệ thống thông tin dựa trên logic mô tả

Logic mô tả ALC reg

Ngôn ngữ logic mô tả LΣ,Φ