Một số phương pháp xử lý truy vấn mới trên cơ sở dữ liệu hướng đối tượng mờ

Mô hình cơ sở dữ liệu hướng đối tượng mờ là một mô hình cơ sở dữ liệu hướng đối tượng mở rộng, trong đó các giá trị thuộc tính của các đối tượng có thể được biểu... Trong chương này trìn

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

NGUYỄN TẤN THUẬN

MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ

SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

HÀ NỘI – 2021

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

Nguyễn Tấn Thuận

MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ

SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ

Chuyên ngành: Hệ thống thông tin

Mã số: 9 48 01 04

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 GS.TS Đoàn Văn Ban

2 TS Trương Ngọc Châu

Hà Nội – Năm 2021

Trang 3

Danh mục các thuật ngữ 5

Bảng các ký hiệu, từ viết tắt 6

Danh sách bảng biểu 7

Danh sách hình vẽ 8

MỞ ĐẦU 10

Chương 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ TRUY VẤN TRÊN MÔ HÌNH CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 15

1.1 Giới thiệu bài toán 15

1.2 Các nghiên cứu liên quan 16

1.2.1 Các mô hình CSDL HĐT mờ 16

1.2.2 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ 18

1.2.3 Xử lý và tối ưu hóa truy vấn mờ 18

1.3 Các vấn đề nghiên cứu và giải pháp 19

1.3.1 Biểu diễn thông tin không hoàn hảo trong mô hình khái niệm dữ liệu mờ 19

1.3.2 Mô hình hóa UML của dữ liệu mờ 21

1.3.3 Lớp mờ 22

1.3.4 Giá trị thuộc tính mờ 25

1.3.5 Biểu diễn các giá trị thuộc tính mơ hồ cho đối tượng mờ 26

1.3.6 Quan hệ tổng quát hóa mờ 29

1.3.7 Quan hệ kết tập mờ 34

1.3.8 Quan hệ kết hợp mờ 37

1.3.9 Quan hệ phụ thuộc mờ 40

1.3.10 Ánh xạ mô hình dữ liệu UML mờ vào mô hình cơ sở dữ liệu hướng đối tượng mờ 42

1.3.10.1 Mô hình cơ sở dữ liệu hướng đối tượng mờ (FOODB) 42

Trang 4

1.3.10.2 Chuyển đổi biểu đồ lớp UML mờ 43

1.3.10.3 Chuyển đổi các lớp 43

1.3.10.4 Chuyển đổi quan hệ kết tập 46

1.3.10.5 Chuyển đổi quan hệ kết hợp 47

1.3.10.6 Chuyển đổi các quan hệ phụ thuộc 49

1.3.11 Truy vấn mờ FOQL 50

1.4 Giải pháp cho bài toán 50

1.5 Kết luận chương 1 51

Chương 2 CÁC PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỜ DỰA VÀO ĐỘ ĐO TƯƠNG TỰ VÀ GOM CỤM DỮ LIỆU 53

2.1 Xử lý truy vấn mờ dựa vào độ đo tương tự 53

2.1.1 So sánh tính tương tự của hai đối tượng mờ 53

2.1.1.1 Độ đo tương tự và phi tương tự 54

2.1.1.2 Độ đo ngữ nghĩa của dữ liệu mờ 55

2.1.1.3 So sánh hai đối tượng dựa vào độ đo tương tự mờ 56

2.1.2 Thuật toán xử lý truy vấn dựa vào độ đo tương tự 68

2.2 Xử lý truy vấn mờ dựa vào kỹ thuật gom cụm dữ liệu và phân khoảng mờ 75

2.2.1 Phương pháp gom cụm dữ liệu bằng thuật toán EM 75

2.2.1.1 Mô hình Gaussian Mixture Model 75

2.2.1.2 Thuật toán EM 76

2.2.1.3 Thuật toán gom cụm cải tiến EMC sử dụng mô hình thống kê hỗn hợp GMM 79

2.2.1.4 Đánh giá thuật toán EMC dựa trên Log Likelihood 85

2.2.1.5 Đánh giá thuật toán EMC bằng phương pháp phân tích sự khác biệt giữa các nhóm 85

2.2.2 Phân các khoảng mờ 87

2.2.2.1 Xác định tâm 87

Trang 5

2.2.2.2 Xác định các khoảng 88

2.2.3 Xử lý truy vấn dựa trên các khoảng mở 89

2.2.4 Thuật toán xử lý truy vấn trên các cụm 93

2.3 Xử lý truy vấn dựa vào đại số gia tử 94

2.4 Đánh giá thực nghiệm 95

Chương 3 XỬ LÝ VÀ TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 98

3.1 Các phép toán đại số trong cơ sở dữ liệu hướng đối tượng mờ 99

3.1.1 Đại số đối tượng 99

3.1.2 Đại kết hợp mờ 99

3.1.3 Mô hình đại số kết hợp các đối tượng mờ 99

3.1.4 Các phép toán đại số kết hợp mờ 100

3.1.4.1 Tích mờ × 102

3.1.4.2 Kết nối mờ ⋈ 102

3.1.4.3 Phép hợp mờ ∪ 103

3.1.4.4 Phép trừ mờ ≃ 103

3.1.4.5 Phép giao mờ ∩ 104

3.1.4.6 Phép chia mờ ÷ 104

3.1.5 Các phép toán mở rộng 105

3.1.5.1 Phép chiếu mờ 𝜫 105

3.1.5.2 Phép chọn mờ 105

3.2 Ngôn ngữ truy vấn mờ FOQL 106

3.2.1 Truy vấn mờ FOQL 106

3.2.2 Mô hình lớp mờ 106

3.2.3 Cấu trúc câu truy vấn mờ 108

Trang 6

3.2.4 Phương pháp xử lý truy vấn mờ 108

3.2.4.1 Các bước của phương pháp 108

3.2.4.2 Quy trình xử lý truy vấn mờ 110

3.2.4.3 Cây truy vấn và đồ thị truy vấn 110

3.3 Tối ưu hóa truy vấn mờ 114

3.3.1 Các phép biến đổi tương đương 114

3.3.1.1 Tối ưu hóa kế hoạch thực thi truy vấn 116

3.3.1.2 Không gian tìm kiếm và các luật chuyển đổi 117

3.3.1.3 Thuật toán tối ưu hóa truy vấn mờ 117

3.3.1.4 Đánh giá thực nghiệm 121

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 124

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 126

TÀI LIỆU THAM KHẢO 127

Trang 7

Danh mục các thuật ngữ

Đại số kết hợp mờ Fuzzy association algebra

Đồ thị lược đồ mờ Fuzzy object schema Graph

Mối quan hệ kế thừa Inheritance relationship

Mối quan hệ đối tượng với lớp Object and Class relationship Mối quan hệ kết hợp mờ Fuzzy association relationship Mối quan hệ kết nhập mờ Fuzzy aggregation relationship Mối quan hệ tổng quát hóa Fuzzy genralization relationship Phân cấp kế thừa mờ Fuzzy inheritance hierarchy

Trang 8

GMM (Gaussian Mixture Model) Mô hình Gaussian hỗn hợp

OQL (Object Query Language) Ngôn ngữ truy vấn hướng đối tượng ODMG (Object Database Management

Group)

Nhóm quản trị CSDL đối tượng, tổ chức đề xuất mô hình ODMG và OQL OID (Object Indentifier) Định danh đối tượng rõ

OODBMS (Object-Oriented Data Base

Management System)

Hệ quản trị cơ sở dữ liệu hướng đối tượng

FOID (Fuzzy Object Indentifier) Định danh đối tượng mờ

FOQL (Fuzzy Object Query Language) Ngôn ngữ truy vấn đối tượng mờ FOODBMS (Fuzzy Object Oriented

Database Management System)

Hệ quản trị cơ sở dữ liệu hướng đối tượng mờ

SQL (Structured Query Language) Ngôn ngữ truy vấn có cấu trúc

Trang 9

Danh sách bảng biểu

Bảng 2.1: Danh sách dữ liệu phòng của các đối tượng mờ 74

Bảng 2.2: Danh sách dữ liệu phòng từ kết quả truy vân của trường hợp 1 74

Bảng 2.3 Danh sách dữ liệu phòng từ kết quả truy vân của trường hợp 2 75

Bảng 2.4: Bảng dữ liệu của các đối tượng về "Điểm Toán" 83

Bảng 2.5: Kết quả phân cụm của thuật toán EMC 84

Bảng 2.6: Bảng kết quả thống kê dữ liệu 86

Bảng 2.7: Xác định khoảng mờ của thuộc tính định lượng "Điểm toán" 89

Bảng 2.8: Danh sách dữ liệu từ kết quả truy vấn trực tiếp trên các vùng mờ cho trường hợp 1 90

Bảng 2.9: Các giá trị khoảng mờ của thuộc tính Điểm Toán 92

Bảng 2.10: Danh sách dữ liệu từ kết quả truy vấn trực tiếp trên các vùng mờ cho trường hợp 2 92

Bảng 2.11: Kết quả truy vấn với mức độ thỏa mãn điều kiện truy vấn "Điểm Toán hơi cao" 93

Bảng 2.12: Thời gian thực thi của thuật toán 95

Bảng 2.13: Sử dụng bộ nhớ trong các thuật toán 96

Trang 10

Danh sách hình vẽ

Hình 1.1 Biểu diễn dữ liệu mờ tuổi 20

Hình 1.2 Lớp mờ 25

Hình 1.3 Quan hệ tổng quát mờ 34

Hình 1.4.Mối quan hệ kết tập mờ 37

Hình 1.5.Mối quan hệ kết hợp mờ 39

Hình 1.6 Mối quan hệ phụ thuộc mờ 41

Hình 1.7.Mô hình dữ liệu UML mờ 41

Hình 1.8.Chuyển đổi các lớp trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 45

Hình 1.9.Chuyển đổi các lớp con trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 46

Hình 1.10.Chuyển đổi các tập hợp trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 47

Hình 1.11.Chuyển đổi các liên kết trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 49

Hình 2.1.Nghiên cứu điển hình về so sánh các đối tượng mờ 57

Hình 2.2 Tính toán sự giống nhau giữa hai đối tượng mờ 𝑜1 và 𝑜2 60

Hình 2.3 Trường hợp I (a) so sánh hai phòng 61

Hình 2.4.Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai phòng (Sử dụng các hàm thành viên khác nhau) 62

Hình 2.5: Trường hợp I (b) So sánh phòng 63

Hình 2.6: Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai (Sử dụng các hàm thành viên khác nhau) 64

Hình 2.7: Trường hợp II Các phòng được mô tả bởi các thuộc tính rõ và mờ 64

Hình 2.8: Đồ thị biểu diễn một vòng lặp của thuật toán EM 78

Hình 2.9: Các khoảng mờ 88

Hình 2.10: Thời gian thực thi trong thuật toán 95

Hình 2.11: Đánh giá việc sử dụng bộ nhớ cho các bộ dữ liệu khác nhau 96

Hình 3.1: Phương pháp xử lý truy vấn hướng đối tượng mờ 108

Hình 3.2: Cây truy vấn 111

Trang 11

Hình 3.3: Đồ thị truy vấn 111

Hình 3.4: Đồ thị lược đồ phân cấp lớp mờ 111

Hình 3.5: Hai cây truy vấn cho truy vấn FQ2 (a) Cây truy vấn tương ứng với biểu thức đại số đối tượng mờ cho FQ2 (b) Cây truy vấn ban đầu (chuẩn của FOQL) cho truy vấn FQ2 (c) Đồ thị truy vấn cho FQ2 113

Hình 3.6: Các cây xử lý truy vấn tương đương 117

Hình 3.7: Cây đại số đối tượng tối ưu hóa truy vấn mờ 120

Hình 3.8: Kết quả đánh gia thực nghiệm tối ưu hóa truy vấn mờ 122

Trang 12

MỞ ĐẦU

Ngày nay, tính khả thi và tính hữu ích của toán học mờ như lý thuyết xác suất, lý thuyết tập mờ, lý thuyết khả năng, quan hệ tương tự [1] - [6], , đã được minh chứng cho sự thành công trong một loạt các lĩnh vực gồm: kỹ thuật, khoa học máy tính, trí tuệ nhân tạo, xử lý thông tin và các hệ thống cơ sở dữ liệu (CSDL) [7] - [11] Cùng với sự phát triển của toán học mờ, các mô hình CSDL hướng đối tượng đã được nghiên cứu và áp dụng rộng rãi trong việc phát triển các hệ thống phần mềm, nhiều

hệ quản trị CSDL hướng đối tượng có tính thương mại đã được tạo ra như GEMSTONE, ORION, VBASE, OBJECTSTORE, POET, … Một mô hình dữ liệu đối tượng chuẩn ODMG đã được phát triển và dựa vào đó để thiết lập một số khái niệm cơ sở được gọi là mô hình hạt nhân cho mô hình CSDL hướng đối tượng Mô hình hạt nhân đủ mạnh để thỏa mãn nhiều đòi hỏi của các ứng dụng mới, hơn nữa còn được dùng làm cơ sở để xác định những khác biệt chính giữa mô hình dữ liệu hướng đối tượng và các mô hình dữ liệu liệu truyền thống khác Tuy nhiên, cả hai mô hình CSDL quan hệ và CSDL hướng đối tượng có khả năng đủ để xử lý đối tượng phức tạp nhưng bị hạn chế đối với các đại diện dữ liệu không chính xác hoặc không chắc chắn Thêm vào đó, các hệ thống này chỉ có thể xử lý dữ liệu "cứng" (chính xác và xác định) trong thực tế Tuy nhiên, nhiều ứng dụng trên thế giới thực thường liên quan đến dữ liệu "mềm" (mơ hồ và không chính xác) Do đó, việc nghiên cứu ứng dụng cơ sở dữ liệu mờ và xử lý truy vấn để giải quyết những hạn chế của cơ sở dữ liệu quan hệ/hướng đối tượng rõ trong việc xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ trở thành một chủ đề nghiên cứu quan trọng được nhiều người tập trung nghiên cứu và triển khai ứng dụng

Thông qua các kết quả nghiên cứu trên, việc áp dụng lĩnh vực toán học mờ vào các mô hình cơ sở dữ liệu truyền thống/hướng đối tượng, nhằm xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ là rất cần thiết Một số đề xuất và triển khai toán học mờ đẫ được áp dụng hiệu quả trên các hệ thống quản lý cơ sở dữ liệu nói chung như [12] - [15] và như vậy mô hình cơ sở dữ liệu hướng đối tượng mờ đã được

đề xuất trên cơ sở áp dụng toán học mờ [16] - [21]

Mô hình cơ sở dữ liệu hướng đối tượng mờ là một mô hình cơ sở dữ liệu hướng đối tượng mở rộng, trong đó các giá trị thuộc tính của các đối tượng có thể được biểu

Trang 13

diễn bằng các tập mờ Do đó, các lớp, các mối quan hệ lớp đối tượng và các mối quan

dữ liệu trên mô hình này là SQL Mô hình với thông tin không chắc chắn được

đề xuất bởi Gyseghem và Caluwe [23], đặc tả tính mờ và không chắc chắn bằng cách sử dụng lần lượt các tập mờ và phân bố khả năng Mô hình mở rộng dựa trên đồ thị do G Bordogna và các cộng sự [16], [21] Mô hình dựa trên quan hệ tương tự, phạm vi của các giá trị thuộc tính được sử dụng để biểu diễn tập các giá trị cho phép của một thuộc tính trong một lớp được trình bày trong [24] Mô hình dựa vào lý thuyết khả năng, tính mơ hồ được biểu diễn trong phân cấp lớp, mức độ bao hàm của lớp con trong lớp cha được xác định dựa trên mức độ bao hàm các miền mờ của các thuộc tính của lớp cha đối với các miền mờ của các thuộc tính của lớp con [25] Cũng dựa trên phân bố khả năng, trong [26] một số khái niệm chính trong CSDL hướng đối tượng chẳng hạn đối tượng, các mối quan hệ đối tượng/lớp, lớp con/lớp cha và đa thừa kế được đưa ra trong môi trường thông tin mờ Mô hình dựa trên lý thuyết xác suất đầu tiên được nhóm tác giả Kornatzky và Shimony đề xuất năm 1994 [27] Trong

mô hình này, lớp được định nghĩa như một tập các thuộc tính mà giá trị của chúng có thể kết hợp với một phân bố xác suất Lược đồ được định nghĩa như một tập các lớp có phân cấp kết hợp với xác suất có điều kiện để một đối tượng của một lớp thuộc về lớp con của nó Bên cạnh đó một mô hình mới về xác suất đã được B Ding và các cộng sự đề xuất [28] nhằm mô tả một diễn dịch xác suất của các quan hệ trên các giá trị tập mờ và một đại số cho các bộ ba xác suất mờ được nghiên cứu và định nghĩa một cách hình thức

 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ: Thuật toán GNP phân cụm cơ sở dữ liệu được đề xuất [29] GNP tạo các cụm dựa trên phân loại mẫu, trong đó nhãn cụm được gán cho mỗi đối tượng được biểu diễn bằng một tập hợp các đặc trưng mờ Việc tối ưu hóa các cụm được thực

Trang 14

hiện để các đối tượng có độ tương tự cao được đưa vào cùng một cụm L Yan

và các cộng sự [30] phân biệt các thực thể trong cơ sở dữ liệu hướng đối tượng

mờ dựa trên thước đo ngữ nghĩa của dữ liệu mờ, để so sánh một cách tổng quát hơn các đối tượng và lớp với kiểu dữ liệu mờ Phương pháp này cũng có thể được sử dụng trong cơ sở dữ liệu mờ hoặc thậm chí mô hình cơ sở dữ liệu quan hệ cổ điển Đề xuất mới của M C Mouna và các cộng sự [31] về phương pháp tính toán tính tương tự để so sánh hai đối tượng mờ thông qua các thuộc tính mờ bằng cách sử dụng độ đo khoảng cách Euclide A Mhedhbi và S Salihoglu [4] phát triển phép đo độ tương tự dựa trên mô hình đối sánh Tversky

và áp dụng nó trên các tập mờ bằng cách sử dụng lý thuyết tập mờ và các phép toán của chúng Mô hình này cung cấp một phương pháp so sánh các đối tượng

có nội dung mơ hồ / mờ

 Xử lý và tối ưu hóa truy vấn: X Hu và các cộng sự phát triển [32] mô hình dữ liệu hướng đối tượng mờ mới (F-model) và định nghĩa đại số kết hợp mờ mở rộng (FA-algebra), dựa trên các kết hợp mờ, truy vấn mờ được đề xuất nhằm

xử lý các giá trị mờ Các phép toán lý thuyết tập hợp, cụ thể là phép hợp, phép giao và phép hiệu dựa trên trên cấu trúc lớp Các phép toán được thiết lập dựa trên thành viên của lớp tương ứng chứa các đối tượng mờ được phát triển bằng cách sử dụng giá trị chân lý của đối tượng và nhận dạng đối tượng nhằm giúp cho truy vấn xác định các đối tượng có giá trị mờ Đề xuất [33] tối ưu hóa truy vấn dựa vào biểu thức đường dẫn và cách viết lại câu truy vấn

Tuy nhiên, trong các mô hình đề xuất trên còn thiếu định nghĩa chính thức một thiết kế kiến trúc, định nghĩa về các phép toán đại số đối tượng mờ và ngôn ngữ truy vấn Do đó cần có một đề xuất mới nhằm đảm bảo tính hệ thống cho mô hình cơ sở

dữ liệu hướng đối tượng mờ hoạt động hiệu quả hơn

Mục tiêu của luận án là đề xuất đại số đối tượng mờ mới, quy trình và phương pháp

xử lý, tối ưu hóa truy vấn dựa trên đại số đã đề xuất kết hợp với các giải pháp như phép biến đổi tương đương và giải thuật Heuristic Bên cạnh đó, luận án cũng đề xuất các bước tiền xử lý như so sánh tính tương tự của hai đối tượng mờ và thuật toán gom cụm EMC (Expectation-Maximization-Coefficient)

Các vấn đề liên quan đến mục tiêu nghiên cứu được trình bày trong luận án bao gồm

Trang 15

1 Nhằm tăng tính hiệu quả cho quá trình xử lý truy vấn dữ liệu có các đại diện thông tin là mờ, luận án đề xuất phương pháp gom cụm và so sánh tính tương tự giữa hai đối tượng một cách tổng quát nhất, cụ thể hơn để so sánh tính tương tự giữa hai đối tượng luận án đã sử dụng các kỹ thuật khác nhau

đó là: tính độ đo ngữ nghĩa, độ đo Euclidean Bằng các kỹ thuật như vậy, tác giả thực hiện so sánh hai đối tượng trong các trường hợp như: hai đối tượng có cùng thể hiện hoặc không cùng thể hiện của một lớp, hai đối tượng

có giá trị thuộc tính là mờ hoặc rõ hay cả hai đối tượng rõ/mờ Bên cạnh đó, luận án đề xuất thuật toán phân cụm EMC được cải tiến dựa trên thuật toán Expectation Maximization (EM) bằng cách bổ sung bước (C) vào thuật toán

để tăng độ mềm dẻo và giảm tối ưu hóa cục bộ và tăng tối ưu hóa toàn cục trong quá trình phân cụm Luận án cũng đánh giá tính hiệu quả của thuật toán phân cụm EMC bằng phương pháp đánh giá sự khác biệt giữa các nhóm đã đề xuất Nhằm đảm bảo cho hệ thống thực hiện câu truy vấn linh hoạt và tự nhiên hơn, luận án đề xuất phương pháp phân các khoảng mờ dựa trên kết quả của thuật toán gom cụm EMC

2 Thông qua các đề xuất đối sánh và gom cụm dữ liệu, luận án đề xuất các thuật toán xử lý truy vấn mờ mới như: Thuật toán xử lý truy vấn đơn, đa điều kiện mờ FQSIMSC (Fuzzy Query Sim Single Condition) và FQSIMMC (Fuzzy Query Sim Multi-Condition) sử dụng đại lượng tính toán độ đo tương tự của SIM để trích rút các đối tượng mờ, hay như thuật toán xử lý truy vấn mờ FQSEM (Fuzzy Query SEM) sử dụng đại lượng tính toán SEM để trích rút dữ liệu có dạng phân bố khả năng Hơn nữa, luận án cũng đã đề xuất thuật toán xử lý truy vấn trên các khoảng mờ FQINTERVAL (Fuzzy Query Interval), nhằm giúp người dùng thực hiện trích lọc dữ liệu tự nhiên hơn

3 Đề xuất đại số kết hợp mờ mới Trong đó luận án định nghĩa các phép toán kết hợp mờ như (Phép chọn mờ, phép nối mờ, phép chiếu mờ, phép chia

mờ, phép trừ mờ, phép hợp mờ và phép giao mờ làm cơ sở cho việc xây dựng đại số truy vấn mờ cho mô hình cơ sở dữ liệu hướng đối tượng mờ

4 Luận án đề xuất kiến trúc xử lý và tối ưu hóa truy vấn mờ Cụ thể, luận án phát triển thuật toán heuristic tối ưu hóa đại số đối tượng mờ dựa trên các

Trang 16

quy tắc của phép biến đổi tương đương Phân tích trên một số thử nghiệm

sử dụng thuật toán đề xuất cho thấy hiệu suất xử lý truy vấn tốt hơn, điều này chứng tỏ sự nâng cao hiệu quả của phương pháp đã đề xuất

Để thực hiện được các mục tiêu trên, luận án được tổ chức như sau: Ngoài phần

mở đầu, kết luận và tài liệu tham khảo, luận án được chia thành 3 chương, trong đó:

Chương thứ nhất trình bày khái quát về cơ sở dữ liệu hướng đối tượng mờ Nội dung

của chương này bao gồm: các khái niệm, các phép toán cơ bản của lý thuyết tập mờ Trong chương này trình bày cụ thể mô hình cơ sở dữ liệu hướng đối tượng với các khái niệm về đối tượng mờ, lớp mờ, phân cấp thừa kế mờ và mô hình lớp mờ và các quan hệ mờ

Chương thứ hai giới thiệu các thuật toán xử lý truy vấn mờ mới dựa vào các tính

toán đối sánh và gom cụm dữ liệu Để so sánh tính tương tự giữa các đối tượng nếu chúng đảm bảo một trong hai yếu tố: thứ nhất hai đối tượng được gọi là tương tự nếu chúng có cùng thể hiện của một lớp các đối tượng, yếu tố thứ hai là hai đối tượng được gọi là tương tự nếu giá trị một trong các thuộc tính của lớp này có ngữ nghĩa tương tự với giá trị thuộc tính của lớp kia Một đề xuất quan trọng trong chương này

là đề xuất thuật toán gom cụm dữ liệu EMC được cải tiến từ thuật toán gom cụm dữ liệu cực đại hóa kỳ vọng (EM) Các kết quả đánh giá thuật toán cho thấy tính hiệu quả cũng như tính mềm dẻo với số cụm được tùy biến tùy thuộc vào từng ứng dụng

cụ thể sẽ có số cụm được phân khác nhau Thuật toán gom cụm EMC tăng tính hiệu quả cho việc xử lý và trích rút dữ liệu cho câu truy vấn trên các cụm đó

Chương thứ ba giới thiệu các phép toán đại số đối tượng mới như (phép chiếu mờ,

giao mờ, hợp mờ, chọn mờ, trừ mờ, tích đề các mờ, nối mờ) và các phép biến đổi tương đương mờ Một chủ đề không thể thiếu đối với mọi hệ quản trị cơ sở dữ liệu

đó là tối ưu hóa truy vấn bằng phương pháp Heuristic

Trang 17

Chương 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ TRUY VẤN TRÊN MÔ

HÌNH CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ

1.1 Giới thiệu bài toán

Hệ thống thông tin đã cách mạng hóa cách thức lưu trữ và xử lý thông tin đa dạng, phức tạp Kết quả là, khối lượng thông tin đã tăng lên đáng kể dẫn đến quá tải thông tin Do đó, việc phân tích lượng lớn dữ liệu có sẵn và đưa ra các quyết định quản lý phù hợp trở nên khó khăn Trong thực tế, hệ thống thông tin chủ yếu sử dụng CSDL quan hệ [12], [14], [34] - [38], hoặc CSDL hướng đối tượng [39] - [42] để lưu trữ các tập hợp dữ liệu này Cả hai mô hình CSDL quan hệ và CSDL hướng đối tượng

có khả năng đủ để xử lý đối tượng phức tạp nhưng bị hạn chế đối với các đại diện dữ liệu không chính xác hoặc không chắc chắn Một vấn đề khác, sử dụng mô hình quan

hệ, hướng đối tượng đang gặp phải nhiều hạn chế của việc mô tả và xử lý các thông tin không chắc chắn, không đầy đủ, theo đó là một quy trình truy vấn không phù hợp cho việc ra quyết định Thêm vào đó, các hệ thống này chỉ có thể xử lý dữ liệu "cứng" (chính xác và xác định) trong tự nhiên Tuy nhiên, nhiều ứng dụng trong thế giới thực luôn liên quan đến dữ liệu "mềm" (mơ hồ và không chính xác) Do đó, việc nghiên cứu ứng dụng cơ sở dữ liệu mờ và xử lý truy vấn để giải quyết những hạn chế của cơ

sở dữ liệu quan hệ/hướng đối tượng rõ trong việc xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ trở thành một chủ đề nghiên cứu quan trọng được nhiều nhà khoa học tập trung nghiên cứu [2], [17], [30], [43] - [68]

Hơn nữa, cuộc cách mạng công nghiệp lần thứ tư, hay còn gọi là “Công nghiệp 4.0” (I4.0) được giới thiệu bởi Hamburg 2013 [102], đang được thực hiện trong những năm gần đây và tiếp theo dự kiến sẽ thay đổi sâu sắc các quy trình sản xuất và chế tạo trong tương lai, dẫn đến các nhà máy thông minh và môi trường công nghiệp được nối mạng sẽ được hưởng lợi từ các nguyên tắc thiết kế của công nghệ này: khả năng tương tác, ảo hóa, phân quyền, điều khiển và giao tiếp phân tán, khả năng thời gian thực, định hướng dịch vụ, bảo trì nhanh chóng và dễ dàng chi phí thấp [103] Về công nghệ hiện đại, Công nghiệp 4.0 gắn liền với việc ứng dụng và xử lý dữ liệu thông minh trong các lĩnh vực: hệ thống thần kinh nhân tạo, Internet công nghiệp, giải pháp đám mây và dịch vụ phi tập trung, cũng như xử lý và khai thác dữ liệu lớn Các công trình của Klaus-Dieter Thoben, Stefan Wiesner và Thorsten Wuest [104], Robert

Trang 18

Lawrence Wichmann, Boris Eisenbart và Kilian Gericke [105] dành cho những nghiên cứu này về công nghệ xử lý dữ liệu lớn theo thời gian thực Bên cạnh đó, các dịch vụ tư vấn trực tuyến cũng đã xuất hiện trên các ứng dụng web thông qua công

cụ tư vấn tự động chatbot [106], [107] bằng cách ứng dụng trí tuệ nhân tạo và dữ liệu đám mây nhằm cung cấp thông tin cho khách hàng Hay như, robot có thể giao tiếp với con người bằng ngôn ngữ tự nhiên [108] Qua đó ta có thể nhận thấy rằng tiền xử

lý dữ liệu là một bước rất quan trọng trong việc giải quyết xử lý truy vấn CSDL và như vậy cơ sở dữ liệu hướng đối tượng mờ cũng cần có các bước tiền xử lý dữ liệu như vậy Trong luận án này, tác giả tập trung nghiên cứu, phát triển các phương pháp

xử lý truy vấn, các phép toán đại số đối tượng mờ, ngôn ngữ truy vấn mờ và các thuật toán tiền xử lý dữ liệu Nhằm đảm bảo cho hệ thống CSDL HĐT mờ hoàn thiện hơn trong các cơ chế vận hành, xử lý dữ liệu mờ

1.2 Các nghiên cứu liên quan

Trong những năm qua đã có nhiều nghiên cứu liên quan về mô hình cơ sở dữ liệu hướng đối tượng mờ theo các cách tiếp cận khác nhau và các kết quả đạt được trên các mô hình này là:

1.2.1 Các mô hình CSDL HĐT mờ

1) Mô hình cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất bởi M.Umano

và các cộng sự [22], trong đó giá trị của thuộc tính đối tượng là các giá trị

mờ với một hệ số chắc chắn, và một ngôn ngữ thao tác dữ liệu trên mô hình này là SQL

2) Mô hình CSDL hướng đối tượng mờ và không chắc chắn được đề xuất bởi Gyseghem và Caluwe [23], đặc tả tính mờ và không chắc chắn bằng cách

sử dụng lần lượt các tập mờ và phân bố khả năng Hành vi và cấu trúc của đối tượng có thể được định nghĩa không đầy đủ, từ đó cho phép đặc tả được các thể hiện của các đối tượng một cách tự nhiên như trong thế giới thực Thừa kế bộ phận, thừa kế có điều kiện và đa thừa kế cũng được giới thiệu trong mô hình này

3) Mô hình CSDL hướng đối tượng mờ được đề xuất bởi G Bordogna và các cộng sự [16], [21] bằng cách mở rộng mô hình đối tượng dựa trên đồ thị Mức độ mờ được biểu diễn bởi các từ chỉ mức độ, chẳng hạn như {không,

Trang 19

rất lưu loát, lưu loát, trung bình, cao, rất cao, hoàn toàn}, kết hợp với thể hiện mối quan hệ giữa các đối tượng với một lớp Các khái niệm lớp mờ, phân cấp lớp mờ và các phép toán được định nghĩa dựa trên đồ thị để chọn, duyệt CSDL hướng đối tượng mờ được sử dụng để biểu diễn và xử lý các thông tin mờ

4) Dựa trên quan hệ tương tự, phạm vi của các giá trị thuộc tính được sử dụng

để biểu diễn tập các giá trị cho phép của một thuộc tính trong một lớp được trình bày trong [24] Độ thuộc thành viên của đối tượng thuộc vào một lớp được tính dựa trên mức độ bao hàm các giá trị thuộc tính của đối tượng và trong các phạm vi giá trị thuộc tính của lớp Phân cấp lớp mạnh hay yếu được xác định dựa vào sự tăng đều hay giảm đều theo độ thuộc thành viên của một lớp con vào trong lớp cha của nó

5) Dựa vào lý thuyết khả năng, tính mơ hồ được biểu diễn trong phân cấp lớp, các miền mờ của các thuộc tính lớp con được xác định bằng cách thu hẹp miền của các thuộc tính của lớp cha, mức độ bao hàm của lớp con trong lớp cha được xác định dựa trên mức độ bao hàm các miền mờ của các thuộc tính của lớp cha đối với các miền mờ của các thuộc tính của lớp con [25] Cũng dựa trên phân bố khả năng, trong [26] một số khái niệm chính trong CSDL hướng đối tượng chẳng hạn đối tượng, các mối quan hệ đối tượng/lớp, lớp con/lớp cha và đa thừa kế được đưa ra trong môi trường thông tin mờ

6) Mô hình dựa trên lý thuyết xác suất đầu tiên do nhóm tác giả Kornatzky và Shimony đề xuất năm 1994 [27] Trong mô hình này, lớp được định nghĩa như một tập các thuộc tính mà giá trị của chúng có thể kết hợp với một phân bố xác suất Lược đồ được định nghĩa như một tập các lớp có phân cấp kết hợp với xác suất có điều kiện để một đối tượng của một lớp thuộc

về lớp con của nó Các tác giả cũng đã phát triển một ngôn ngữ truy vấn

để thao tác chọn các đối tượng thỏa một xác suất được kết hợp với các truy vấn Bên cạnh đó một mô hình mới về xác suất đã được đề xuất [28] nhằm

mô tả một diễn dịch xác suất của các quan hệ trên các giá trị tập mờ và một đại số cho các bộ ba xác suất mờ được nghiên cứu và định nghĩa một cách hình thức

Trang 20

1.2.2 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ

1) Thuật toán phân cụm cơ sở dữ liệu sử dụng lập trình mạng di truyền (GNP) [29] tách được các cụm đối tượng dựa trên phân loại mẫu, trong đó nhãn cụm gán cho mỗi đối tượng được biểu diễn bằng một tập hợp các đặc trưng

mờ GNP là một trong những thuật toán tiến hóa và khám phá các quy tắc

mờ từ cơ sở dữ liệu hướng đối tượng mờ Việc tối ưu hóa các cụm được thực hiện để các đối tượng có độ tương tự cao được đưa vào cùng một cụm 2) Nhằm mục đích phân biệt các đối tượng trong cơ sở dữ liệu hướng đối tượng mờ, L Yan và Z M Ma [30] sử dụng độ đo ngữ nghĩa của dữ liệu

mờ, để so sánh một cách tổng quát hơn các đối tượng và lớp với kiểu dữ liệu mờ

3) Một trong những vấn đề quan trọng nhất trong cơ sở dữ liệu mờ là làm thế nào để quản lý sự xuất hiện của sự mơ hồ, không chính xác và không chắc chắn Các phương pháp đánh giá tính tương tự là cần thiết để tìm các đối tượng gần với các đối tượng mờ đã cho khác hoặc được sử dụng trong một truy vấn mơ hồ của người dùng Các phương pháp như vậy cũng có thể được sử dụng trong cơ sở dữ liệu mờ hoặc thậm chí mô hình cơ sở dữ liệu quan hệ cổ điển Y Bashon và các cộng sự [31] đề xuất phương pháp tính toán tính tương tự để so sánh hai đối tượng mờ thông qua các thuộc tính

mờ bằng cách sử dụng độ đo khoảng cách Euclide So sánh được thực hiện cho hai trường hợp: cả hai thuộc tính là mờ hoặc một thuộc tính rõ với một thuộc tính mờ

4) Y Bashon và các cộng sự [4] phát triển phép đo độ tương tự dựa trên mô hình đối sánh Tversky và áp dụng nó trên các tập mờ bằng cách sử dụng lý thuyết tập mờ và các phép toán của chúng Mô hình này cung cấp một phương pháp so sánh các đối tượng có nội dung mơ hồ / mờ

1.2.3 Xử lý và tối ưu hóa truy vấn mờ

1) S Na và S Park [32] đề xuất mô hình dữ liệu hướng đối tượng mờ mới model) và định nghĩa đại số kết hợp mờ mở rộng (FA-algebra) F-model

(F-hỗ trợ các lớp mờ và liên kết mờ giữa các đối tượng mờ Bằng đại số FA

Trang 21

mở rộng dựa trên các kết hợp mờ, truy vấn mờ được đề xuất nhằm xử lý các giá trị mờ và ngôn ngữ gia tử

2) P K Panigrahi và A Goswami [19] thiết kế đại số đối tượng dựa trên các khía cạnh kiểu và tập hợp của lớp Một khuôn mẫu được nêu ra để thực hiện các phép toán lý thuyết tập hợp, cụ thể là phép hợp, phép giao và phép hiệu dựa trên trên cấu trúc lớp Các phép toán thiết lập trên thành viên của lớp tương ứng chứa các đối tượng mờ được phát triển bằng cách sử dụng giá trị chân lý của đối tượng và nhận dạng đối tượng

1.3 Các vấn đề nghiên cứu và giải pháp

1.3.1 Biểu diễn thông tin không hoàn hảo trong mô hình khái niệm dữ liệu mờ

Mục tiêu của cơ sở dữ liệu mờ là chủ yếu xử lý thông tin không hoàn hảo trong cơ sở

dữ liệu Các loại thông tin không hoàn hảo được phân biết như sau [23]:

 Sự không nhất quán: là một loại ngữ nghĩa thể hiện khả năng sung đột khi xét

một số khía cạnh của thế giới thực không thể biểu diễn được nhiều hơn một lần trong cơ sở dữ liệu (khi độ tuổi của một người được lưu trữ là 34 và 37);

 Tính không chính xác: có liên quan đến nội dung của giá trị thuộc tính và có

nghĩa là lựa chọn phải được thực hiện từ một phạm vi (khoảng thời gian hoặc tập hợp) đã cho (tuổi của một người là tập hợp {17, 18, 19, 20} hoặc chiều cao nằm trong khoảng [1.00 - 1.95]);

 Sự mơ hồ: giống như sự thiếu chính xác nhưng thường được thể hiện bằng các

giá trị ngôn ngữ (tuổi của một người là “trẻ”);

 Tính không chắc chắn: Sự không chắc chắn đề cập đến việc thiếu thông tin về

các sự kiện của thế giới thực, để xác định một phát biểu Boolean (có thể đúng hay sai)

 Sự không rõ ràng: có nghĩa là một số yếu tố của mô hình thiếu sự hoàn chỉnh

về mặt ngữ nghĩa dẫn đến một số cách giải thích có thể khác nhau

Nói chung, một số loại thông tin không hoàn hảo khác nhau có thể cùng tồn tại đối với cùng một phần thông tin Không chính xác, không chắc chắn và mơ

hồ là ba loại thông tin không hoàn hảo chính và có thể được mô hình hóa bằng các tập mờ [69] và lý thuyết khả năng [5] Nhiều cách tiếp cận hiện tại đối với tính không chính xác và không chắc chắn dựa trên lý thuyết tập mờ [70], [71]

Trang 22

Cho 𝑈 = { 𝑢1, 𝑢2, … , 𝑢𝑛} là một tập hợp và F là một tập con của U Một phần tử u của U có thuộc F hay không, có thể mô tả bởi một hàm thuộc 𝜇𝐹:

𝜇𝐹(𝑢) = {1 𝑛ế𝑢 𝑢 ∈ 𝐹

0 𝑁ế𝑢 𝑢 ∉ 𝐹

Trong tập con mờ, hàm thuộc của một phần tử nào đó của F không chỉ nhận giá trị

{0, 1} mà có thể nhận giá trị trong khoảng [0; 1]

Định nghĩa 1.1: Cho U là một vũ trụ các đối tượng (sau đây gọi tắt là vũ trụ), một

tập mờ F trên U xác định bởi hàm thuộc 𝜇𝐹: 𝑈 → [0; 1], gán cho mỗi phần tử u của

U một độ thuộc 𝜇𝐹(𝑢) để chỉ độ thuộc của u vào tập mờ F Tập mờ F được biểu diễn

dưới dạng:

𝐹 = {(𝑢1, 𝐹(𝑢1)), (𝑢2, 𝐹(𝑢2)), , (𝑢𝑛, 𝐹(𝑢𝑛))}

Khi F (u)được xem như độ đo khả năng mà một biến X nhận giá trị u, một giá trị

mờ được biểu diễn bằng phân bố khả năng 𝜋𝑋 [5] như sau:

𝜋𝑋 = {(𝑢1, 𝜋𝑋(𝑢1)), (𝑢2, 𝜋𝑋(𝑢2)), , (𝑢𝑛, 𝜋𝑋(𝑢𝑛))}

Trong đó, 𝜋𝑋(𝑢𝑖), 𝑢𝑖 ∈ 𝑈 biểu thị khả năng mà X nhận giá trị 𝑢𝑖 Cho X,Flần lượt

là biểu diễn phân bố khả năng và tập mờ cho một giá trị mờ, khi đó X F

Định nghĩa 1.2: Tập mờ F được gọi là chuẩn nếu tồn tại ít nhất một phần tử 𝑢 ∈ 𝑈

sao cho 𝜇𝐹(𝑢) = 1

Ví dụ 1.1: Cho U là tập các tuổi 37 tuổi, 39 tuổi, 41 tuổi, 43 tuổi và 45 tuổi Một giá

trị mờ tuổi “Trung niên” có thể được mô tả bởi tập mờ F là tập hợp các tuổi “Trung

niên” như sau:

𝐹 = {0.5/37 𝑡𝑢ổ𝑖, 0.6/39 𝑡𝑢ổ𝑖, 0.7/41 𝑡𝑢ổ𝑖, 0.8/43 𝑡𝑢ổ𝑖, 1.0/45 𝑡𝑢ổ𝑖} Trong đó, 𝜇𝐹(37 𝑡𝑢ổ𝑖) = 0.5, 𝜇𝐹(39 𝑡𝑢ổ𝑖) = 0.6, 𝜇𝐹(41 𝑡𝑢ổ𝑖) =

0.7, 𝜇𝐹(43 𝑡𝑢ổ𝑖) = 0.8, 𝜇𝐹(45 𝑡𝑢ổ𝑖) = 1

Hình 1.1 Biểu diễn dữ liệu mờ tuổi

Trang 23

Lý thuyết tập hợp mờ lần đầu tiên được áp dụng cho một số khái niệm cơ bản

ER ở Zvieli và Chen [6] Đề xuất này đã giới thiệu tập hợp kiểu thực thể mờ, tập hợp kiểu quan hệ mờ và tập thuộc tính mờ của các kiểu thực thể (hoặc kiểu quan hệ), tạo thành ba mức mờ sau đây trong mô hình ER

 Mức 1 (Mức lược đồ): Lớp thuộc về mô hình dữ liệu hay thuộc tính định nghĩa lớp thuộc về lớp với độ thuộc nằm trong [0; 1]

 Mức 2 (Mức thể hiện lớp): Tính mờ liên quan đến một số thể hiện là các thể hiện của lớp, mặc dù cấu trúc dữ liệu định nghĩa lớp là rõ nhưng các thể hiện của lớp thuộc về lớp với độ thuộc nằm trong [0; 1]

 Mức 3 (Mức thuộc tính): Liên quan đến giá trị các thuộc tính của thể hiện lớp Một thuộc tính trong lớp xác định một miền giá trị, khi miền giá trị này là một tập con mờ hay tập các tập con mờ thì giá trị thuộc tính là mờ

Ví dụ 1.2: Xét các giá trị thành viên cho các kiểu thực thể, kiểu quan hệ và thuộc

tính Giả sử rằng ta có một mô hình ER về một thư viện bao gồm hai loại thực thể

“Sách” , “Cửa hàng sách” và có mối quan hệ “Mua từ” giữa hai loại thực thể này Mô hình giả định rằng “Cửa hàng sách” là một loại thực thể mờ với cấp thành viên là 0.6 Sau đó, “Mua từ” là một kiểu quan hệ mờ với cấp thành viên là 0.6 Ngoài ra, Sách

có thể chứa thuộc tính “Kích thước” ngoài các thuộc tính ID, Tên sách, Tác giả, ISBN, Nhà xuất bản, v.v và “Kích thước” là một thuộc tính mờ với cấp thành viên là 0.4

1.3.2 Mô hình hóa UML của dữ liệu mờ

Phần này mở rộng từ biểu đồ lớp UML để biểu diễn thông tin mờ [3] Vì các cấu trúc của UML chứa lớp và các mối quan hệ, nên việc mở rộng các cấu trúc này được tiến hành dựa trên các tập mờ Với mục đích này, đề xuất [3] đã mô tả chính thức về biểu

đồ lớp UML

Biểu đồ lớp UML là một bộ 𝐷 = (𝐶, 𝐴, 𝑅, 𝑂, 𝑀, 𝑆), trong đó C là tập hữu hạn các lớp, A là tập hữu hạn các thuộc tính, R là tập các mối quan hệ, O là một tập các đối tượng, M là một tập các phương thức và S là một tập các ràng buộc Phần mục này tập trung vào các lớp, thuộc tính, mối quan hệ và đối tượng, từ đó đề xuất mô hình sơ đồ lớp UML như sau: 𝐷 = (𝐶, 𝐴, 𝑅, 𝑂), trong đó 𝐶 = {𝑐1, 𝑐2, … , 𝑐𝑘}, 𝐴 = {𝑎1, 𝑎2, … , 𝑎𝑙}, 𝑅 = {𝑟1, 𝑟2, … , 𝑟𝑚} và 𝑂 = {𝑜1, 𝑜2, … , 𝑜𝑛} Ta có:

Trang 24

 R ⊆ C × C là một quan hệ nhị nguyên đại diện cho tổng quát hóa, tập hợp, liên kết hoặc phụ thuộc

 Với ci ∈ C (1 ≤ i ≤ k), A (ci) đại diện cho một tập các thuộc tính của ci

op được sử dụng thay vì op(ci) và op(aj) được sử dụng thay vì op(aj(ci))

Để lưu trữ thông tin mờ trong biểu đồ lớp UML, mô hình biểu đồ lớp UML phải được mở rộng bằng cách sử dụng tập mờ và logic mờ Về mặt hình thức, một sơ đồ lớp UML mờ là một bộ 𝐷̃ = (𝐶̃, 𝐴̃, 𝑅̃, 𝑂̃), trong đó 𝐶̃ là tập các lớp mờ, 𝐴̃ là tập các thuộc tính mờ, 𝑅̃ là tập các mối quan hệ mờ, và 𝑂̃ là tập các đối tượng mờ

1.3.3 Lớp mờ

Về mặt lý thuyết, một lớp có thể được xem xét từ hai quan điểm khác nhau:

a) Một lớp mở rộng (kế thừa), trong đó lớp được xác định bởi danh sách các đối tượng

b) Một lớp nguyên [3], trong đó lớp được xác định bởi một tập các thuộc tính

và các giá trị có thể chấp nhận

Một lớp con được xác định từ lớp cha của nó bằng cơ chế kế thừa và đây có thể được coi là trường hợp đặc biệt của (b) ở trên Các đối tượng có cùng thuộc tính được nhóm thành các lớp Giả sử rằng một số đối tượng mờ có các thuộc tính tương tự và một lớp được định nghĩa bởi các đối tượng này Các đối tượng này thuộc về lớp có

độ thuộc thành viên là [0; 1], làm cho nó trở thành một lớp mờ Ngoài ra, đối với một lớp nguyên, miền của thuộc tính lớp có thể mờ Do đó, một số đối tượng có thể có các giá trị mờ trên thuộc tính này, làm cho lớp tương ứng trở thành một lớp mờ Cuối cùng, một lớp được tạo ra bởi một lớp mờ bằng phương pháp đặc biệt hóa, hoặc một

Trang 25

lớp được tạo ra bởi một số lớp (trong đó ít nhất một lớp mờ) bằng phương pháp tổng quát hóa

Theo Zvieli và Chen [6], một lớp có ba mức độ mờ 𝐷̃ = (𝐶̃, 𝐴̃, 𝑅̃, 𝑂̃)

a) Mức độ mờ đầu tiên đánh giá mức độ mà lớp thuộc về mô hình dữ liệu cũng như mức độ mờ giá trị thuộc tính của lớp Tại thời điểm này, ta có một tập mờ các lớp 𝐶̃ và 𝑐𝑖 là lớp của 𝐶̃ với mức thành viên 𝜇𝐶̃(𝑐𝑖), đi cùng với nó là một tập mờ gồm các thuộc tính A (𝑐𝑖) và 𝑎𝑗(𝑐𝑖) là thuộc tính của A (𝑐𝑖) với mức thành viên 𝜇𝐴̃(𝑎𝑗(𝑐𝑖))

b) Mức độ mờ thứ hai đánh giá mức độ mà một số đối tượng thuộc về một lớp Một đối tượng là mờ nếu nó chứa ít nhất một giá trị thuộc tính mờ Khi đó, một đối tượng như vậy 𝑜𝑝(𝑐𝑖) là đối tượng của lớp 𝑂(𝑐𝑖) với mức thành viên

𝜇𝑂̃(𝑜𝑝(𝑐𝑖))

c) Mức độ mờ thứ ba là các giá trị thuộc tính của các đối tượng của lớp Một thuộc tính trong một lớp được xác định một miền giá trị Khi miền này là một tập con mờ hoặc một tập của một tập con mờ, giá trị của một đối tượng trên thuộc tính, chẳng hạn 𝑜𝑝(𝑎𝑗(𝑐𝑖)) , 𝑣ớ𝑖 1 ≤ 𝑝 ≤ 𝑛, là một miền mờ được biểu diễn bằng phân bố khả năng {(𝑣1, 𝜋(𝑣1)), (𝑣2, 𝜋(𝑣2)), … , (𝑣𝑞, 𝜋(𝑣𝑞))} Ở đây, 𝜋(𝑣𝑠), 𝑣ớ𝑖 1 ≤ 𝑠 ≤ 𝑞 biểu thị khả năng của 𝑜𝑝(𝑎𝑗(𝑐𝑖)) có giá trị 𝑣𝑠

Ba mức độ mờ trong lớp tạo thành nền tảng của biểu đồ lớp UML mờ, vì vậy

độ ổn định của chúng là rất quan trọng Xét mức độ mờ đầu tiên Đối với tập mờ 𝐶̃ của các lớp và bất kỳ lớp 𝑐𝑖, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘, bậc mà 𝑐𝑖 thuộc 𝐶̃ là 𝜇𝐶̃(𝑐𝑖), 𝑣ớ𝑖 0 ≤

𝜇𝐶̃(𝑐𝑖) ≤ 1 Điều này ngụ ý rằng đối với sơ đồ lớp UML truyền thống không có thông tin không chính xác hoặc không chắc chắn, 𝜇𝐶̃(𝑐𝑖) = 0, 𝑐𝑖 không thuộc 𝐶̃ hoặc

𝜇𝐶̃(𝑐𝑖) = 1, 𝑐𝑖 thuộc 𝐶̃ Tại thời điểm này, 𝐶̃ là một tập hợp các lớp rõ Ngoài ra, đối với lớp 𝑐𝑖, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘 và thuộc tính 𝑎𝑗(𝑐𝑖), 𝑣ớ𝑖 1 ≤ 𝑗 ≤ 𝑙 của 𝑐𝑖, mức độ 𝑎𝑗 thuộc 𝐴(𝑐𝑖) là 𝜇𝐴̃ (𝑎𝑗(𝑐𝑖)) , 𝑣ớ𝑖 0 ≤ 𝜇𝐴̃(𝑎𝑗(𝑐𝑖)) ≤ 1 Như vậy, 𝜇𝐴̃(𝑎𝑗(𝑐𝑖)) = 0 hoặc

𝜇𝐴̃(𝑎𝑗(𝑐𝑖)) = 1 trong môi trường thông tin truyền thống (không có sự chính xác hoặc không chắc chắn nào cả) Tình huống trước chỉ ra rằng 𝑎𝑗 không phải là thuộc tính của 𝑐𝑖, trong khi tình huống sau chỉ ra rằng 𝑎𝑗 phải là thuộc tính của 𝑐𝑖 Xét mức độ

Trang 26

mờ thứ hai Đối với lớp 𝑐𝑖, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘 và một đối tượng 𝑜𝑝(𝑐𝑖), 𝑣ớ𝑖 1 ≤ 𝑝 ≤ 𝑛 của 𝑐𝑖, mức độ 𝑜𝑝 thuộc 𝑂(𝑐𝑖) là 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) , 𝑣ớ𝑖 0 ≤ 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) ≤ 1 Sau đó, trong môi trường thông tin truyền thống, 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) = 0 hoặc 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) = 1, có nghĩa là 𝑜𝑝 không phải là đối tượng của 𝑐𝑖 hoặc 𝑜𝑝 phải là đối tượng của 𝑐𝑖, tương ứng Cuối cùng, xét mức độ mờ thứ ba Giá trị thuộc tính của đối tượng 𝑜𝑝(𝑎𝑗(𝑐𝑖)) được biểu diễn bằng phân bố khả năng {𝜋(𝑣1 )/𝑣1 , 𝜋(𝑣2 )/𝑣2 , … , 𝜋(𝑣𝑞 )/𝑣𝑞 } Khả năng 𝑜𝑝(𝑎𝑗(𝑐𝑖)) có giá trị so với 𝑣𝑠, 𝑣ớ𝑖 1 ≤ 𝑠 ≤ 𝑞 là 𝜋(𝑣𝑠), 0 ≤ 𝜋 (𝑣𝑠) ≤ 1 Ngoài

ra, khi không có thông tin không chính xác hoặc không chắc chắn, 𝜋(𝑣𝑠) = 0 hoặc 𝜋(𝑣𝑠) = 1 Kết quả là {(𝑣1, 𝜋(𝑣1)), (𝑣2, 𝜋(𝑣2)), … , (𝑣𝑞, 𝜋(𝑣𝑞))} được rút gọn thành một tập rõ và 𝑜𝑝(𝑎𝑗(𝑐𝑖)) nhận một giá trị thuộc tính rõ Tóm lại, biểu đồ lớp UML truyền thống chỉ đơn giản là một trường hợp đặc biệt của biểu đồ lớp UML mờ

Vì nó là một phần mở rộng của biểu đồ lớp UML truyền thống, nên biểu đồ lớp UML

mờ với ba mức độ mờ có thể giảm xuống sơ đồ truyền thống trong trường hợp không

có thông tin không chính xác và không chắc chắn Do đó, việc mở rộng ba mức độ

mờ cho các lớp là phù hợp

Mô hình hóa cho ba mức độ mờ được thực hiện như sau:

1 Mức thứ nhất, tức là một thuộc tính hoặc một lớp có mức thành viên, thì thuộc

tính hoặc tên lớp phải được khai báo bởi một cặp từ WITH mem DEGREE,

trong đó 0 ≤ mem ≤ 1, được sử dụng để biểu thị mức độ mà thuộc tính thuộc

về lớp hoặc lớp thuộc về mô hình dữ liệu [23], [72]

Ví dụ 1.3: lớp “Nhân viên WITH 0.6 DEGREE” và thuộc tính “Mã nhân viên WITH 0.8 DEGREE” có mức độ mờ thứ nhất Nói chung, một thuộc

tính hoặc lớp sẽ không được khai báo khi mức thành viên của nó là 0 Ngoài

ra, “WITH 1.0 DEGREE” có thể bị bỏ qua khi mức thành viên của một thuộc

tính hoặc lớp là 1 Lưu ý rằng các giá trị thuộc tính có thể mờ

2 Đối với mức độ mờ thứ hai, mức thành viên mà một đối tượng thuộc về lớp Với mục đích này, một thuộc tính bổ sung có ký tự là 𝜇 được đưa vào lớp để thể hiện mức thành viên của đối tượng thuộc lớp với miền [0; 1] Một lớp có mức độ mờ thứ hai được biểu thị bằng hình chữ nhật với đường nét đứt nét

Trang 27

3 Để mô hình hóa mức độ mờ thứ ba, từ khóa FUZZY được khai báo trước tên

thuộc tính

Hình 1.2 cho thấy lớp nhân viên trẻ là mờ Ở đây, thuộc tính Năm sinh có thể nhận các giá trị mờ; cụ thể miền của nó là mờ Không rõ liệu lớp Nhân viên trẻ có thuộc tính Vợ/Chồng hay không, nhưng ta biết rằng các nhân viên trẻ có vợ hoặc chồng có khả năng nằm ở khoảng giữa, chẳng hạn 0.5 Do đó, thuộc tính Vợ/Chồng không chắc chắn thuộc về lớp Nhân viên trẻ Lớp này có độ mờ ở cấp độ thứ nhất và

sử dụng "với mức thành viên 0.5" để mô tả độ mờ trong định nghĩa lớp Ngoài ra, chúng ta không thể xác định liệu một đối tượng có phải là một thể hiện của lớp hay không vì lớp này mờ Do đó, một thuộc tính (μ) được bổ sung vào lớp

Hình 1.2 Lớp mờ

1.3.4 Giá trị thuộc tính mờ

Chúng ta xem hai giá trị không chính xác và không rõ ràng như là các giá trị mờ Mỗi giá trị rõ ràng và chính xác có thể được mở rộng thêm các giá trị mờ Chúng ta xác định ba loại khác nhau của các giá trị mờ

Một giá trị rõ thuộc vũ trụ U được đặc trưng bởi hàm sau đây

𝜇𝑎(𝑥) = {1, 𝑛ế𝑢 𝑥 = 𝑎

0, 𝑛ế𝑢 𝑥 ≠ 𝑎Giá trị không chắc chắn 𝑎 được xác định trong khoảng có chứa ít nhất hai phần tử,

và hàm đặt trưng được biểu diễn như sau

𝜇𝑎(𝑥) = {1, 𝑛ế𝑢 𝑥 ∈ 𝑎

0, 𝑛ế𝑢 𝑥 ∉ 𝑎Một giá trị mơ hồ thuộc vũ trụ U được xác định bởi một tập mờ và được đặc trưng bởi hàm như: 0 ≤ 𝜇𝑎(𝑥) ≤ 1 𝑣ớ𝑖 ∀ 𝑥 ∈ 𝑈, để mô tả ngữ nghĩa cho thuộc tính của đối tượng là những giá trị mơ hồ

NHÂN VIÊN TRẺ

ID

Họ tên FUZZY Ngày sinh Vợ/Chồng WITH 0.5 DEGREE

μ

Trang 28

1.3.5 Biểu diễn các giá trị thuộc tính mơ hồ cho đối tượng mờ

Trong mục này, mức mờ được giới thiệu ở các mức khác nhau Điểm chung cho tất

cả các đề xuất [74], [109], [110] này là sự hỗ trợ của mức mờ ở cấp thuộc tính Nội dung dưới đây đề xuất một tập hợp các kiểu dữ liệu phong phú dành cho việc mô hình hóa các loại thông tin không hoàn hảo khác nhau Để tạo điều kiện cho thao tác dữ liệu và tính toán hiệu quả, các loại giá trị thuộc tính khác nhau được thể hiện thống nhất thông qua phân phối khả năng

Các tác giả [109], [74] liệt kê bốn cấp độ để thực hiện thông tin không hoàn hảo trong

cơ sở dữ liệu: Mức hệ thống cơ sở dữ liệu, mức cơ sở dữ liệu, mức siêu dữ liệu, và mức cơ sở mô hình:

1 Mức hệ thống cơ sở dữ liệu: Mức này được liên kết với mở rộng các ngôn ngữ thao tác dữ liệu để xử lý các mức mờ khác nhau mà hệ thống cơ sở dữ liệu cần

hỗ trợ [109]

2 Mức cơ sở dữ liệu: Ở mức này biểu diễn cách lưu trữ thông tin không hoàn hảo Điều này liên quan đến tất cả các giá trị thuộc tính và định nghĩa mức độ của các mối quan hệ / lớp mờ khác nhau [109]

3 Mức siêu dữ liệu: Mức này liên quan đến mục đích của các mối quan hệ / lớp

mờ Lưu ý rằng mức này được gọi là siêu dữ liệu trong [109]

4 Mức cơ sở mô hình: Mức này thuộc nhóm các hàm được định nghĩa để tính toán mức thành viên và các hàm này được liên kết với các loại dữ liệu khác nhau nhằm đảm bảo cho mức này biểu diễn dạng phân bố khả năng [74] Như đã nhấn mạnh ở trên, cách tiếp cận chi tiết sau đây đã được triển khai trong mô hình cơ sở dữ liệu quan hệ đối tượng nhưng nó đủ chung để thực hiện trong các mô hình cơ sở dữ liệu khác, đặc biệt là đối với các mô hình cơ sở dữ liệu quan hệ, hướng đối tượng

Để lưu trữ nét đặt trưng của tất cả các thuộc tính, chúng được định nghĩa một mối quan hệ meta, được gọi là ATTRIBUTES, ở cấp siêu dữ liệu với các thuộc tính sau:

 Attribute-id: Xác định duy nhất mỗi thuộc tính được định nghĩa ở cấp cơ sở

dữ liệu, là khóa chính của mối quan hệ meta ATTRIBUTES Lưu ý rằng để phân biệt các thuộc tính khóa trong quan hệ này với các thuộc tính khác bằng dấu gạch chân

Trang 29

 Attribute-name: Lưu tên của thuộc tính Đối với cơ sở dữ liệu cổ điển, cùng một lớp/quan hệ mờ không thể có hai thuộc tính có cùng tên nhưng cùng tên thuộc tính có thể xuất hiện trong các quan hệ/lớp mờ khác nhau

 Defined-in: Biểu diễn mối quan hệ/lớp mờ theo thuộc tính

 Data-type: Dạng thuộc tính đa giá trị lưu trữ loại thuộc tính có thể nhận bất kỳ một trong các phần tử của danh sách Đối với các thuộc tính rõ, thuộc tính này hoạt động như các cơ sở dữ liệu thông thường (nó có thể lấy các giá trị của các kiểu dữ liệu như integer, real, float, v.v.) Đối với các thuộc tính mờ dựa vào kiểu dữ liệu lưu trữ chính kiểu dữ liệu mờ và kiểu dữ liệu rõ cơ bản

Bảng 1.1 Quan hệ meta ATTRIBUTES

attr-id attribute-name defined-in data-type

attr-16 kiểu dữ liệu của sao STAR {symbolic}

attr-17 tuổi STAR {linguistic label, integer} attr-18 độ sáng STAR {linguistic label, real}

attr-19 vị trí STAR {linguistic label, real}

attr-20 trọng lượng STAR {interval, real}

attr-77 lĩnh vực nghiên cứu SCIENTIST { scalar}

attr-80 tuổi SCIENTIST {linguistic label, integer}

Bảng 1.1 biểu diễn một số thuộc tính được liên kết với lớp mờ STAR và lớp SCIENTIST được giới thiệu trong [110]

Trong thực tế, chúng được định nghĩa một phép đo phổ biến với thuộc tính đa giá trị lưu trữ tất cả các tham số cần thiết Mối quan hệ meta này, được biểu thị bởi PARAMETERS, chứa một dòng cho mỗi giá trị ngôn ngữ xuất hiện trong miền của bất kỳ thuộc tính loại dữ liệu ngôn ngữ nào (hoặc danh sách các giá trị cho phép biểu diễn dữ liệu dạng biểu tượng) Ba loại thuộc tính có dạng như sau:

 Attribute-id: Tham chiếu một thuộc tính xuất hiện trong ATTRIBUTES quan

hệ meta

 Label: Lưu trữ một nhãn ngôn ngữ thuộc về miền thuộc tính Đối với các kiểu

dữ liệu biểu tượng, thuộc tính này có giá trị là “nill”

Trang 30

 Parameters: Thuộc tính đa giá trị được sử dụng để lưu trữ các tham số cần thiết để tạo phân phối khả năng của nhãn ngôn ngữ Các thuộc tính không có tham số, sẽ không được tính trong quan hệ meta PARAMETERS

Bảng 1.2 Mối quan hệ meta của PARAMETERS

các ngôn ngữ trong thuộc tính tham số

Các giá trị thuộc tính có thể rõ, mờ hoặc cả hai được xác định thông qua các quan hệ/lớp mờ Hệ thống cơ sở dữ liệu phải cho phép người dùng chèn các giá trị của bất

kỳ kiểu dữ liệu nào phù hợp với định nghĩa của thuộc tính Ở mức độ xác định của quan hệ/lớp mờ, mỗi thuộc tính mờ được ánh xạ thành một tổ hợp mới bao gồm ba thuộc tính thành phần:

Các giá trị thuộc tính được lưu trữ ở mức cơ sở dữ liệu cùng với mức độ định nghĩa của các mối quan hệ/lớp của chúng Như đã đề cập ở trên, để tạo thuận lợi cho thao tác dữ liệu và tính toán hiệu quả, các loại giá trị thuộc tính khác nhau được thể hiện thống nhất thông qua phân phối khả năng Tuy nhiên, các bản phân phối này không được lưu trữ rõ ràng trong cơ sở dữ liệu mà được tạo tự động trong quá trình xử lý dữ liệu và xử lý truy vấn bằng các hàm cụ thể được liên kết với các loại dữ liệu khác nhau

Các giá trị thuộc tính có thể rõ, mờ hoặc cả hai Điều này chỉ cần được chỉ ra trong mục đích xác định các mối quan hệ/lớp mờ dựa trên các thuộc tính Hệ thống cơ sở

dữ liệu sẽ cho phép người dùng chèn các giá trị của bất kỳ loại dữ liệu nào phù hợp với định nghĩa của thuộc tính Ở phạm vi của mối quan hệ/lớp mờ, mỗi thuộc tính mờ

Trang 31

được ánh xạ thành một tổ hợp mới bao gồm các thành phần của ba thuộc tính như sau:

 Attr-value: lưu trữ giá trị của thuộc tính do người dùng cung cấp

 Data-type: lưu trữ kiểu dữ liệu của giá trị được chèn

 Parameters: thuộc tính đa giá trị được sử dụng để lưu trữ các tham số được liên kết với giá trị thuộc tính được sử dụng để tạo phân phối khả năng data-type được sử dụng cả ở phạm vi và mục đích cho phép người dùng chèn giá trị của các loại dữ liệu khác nhau, có thể có số lượng tham số khác nhau Điều này sẽ cung cấp nhiều khả năng hơn cho người dùng Tuy nhiên, các loại dữ liệu khác nhau được định nghĩa ở cấp độ phạm vi phải phù hợp với định nghĩa chính thức của thuộc tính ở cấp độ mục đích Chẳng hạn, định nghĩa chính thức của thuộc tính có thể là phân phối khả năng dựa trên hình thang với bốn tham số nhưng người dùng có thể đưa ra một giá trị rõ (không có tham số nào), một khoảng (chỉ có hai tham số) hoặc giá trị gần đúng (với chỉ ba tham số) Lưu ý rằng kiểu dữ liệu thuộc tính ở mức độ không phải là một kiểu đa giá trị

1.3.6 Quan hệ tổng quát hóa mờ

Kế thừa là một cơ chế quan trọng trong mô hình dữ liệu hướng đối tượng cho phép một lớp được gọi là lớp con kế thừa các thuộc tính và phương thức từ một lớp khác được gọi là lớp cha Kết quả là, kế thừa cho phép định nghĩa các lớp cha và lớp con,

và các lớp được tổ chức theo phân cấp kế thừa trong đó các định nghĩa về thuộc tính

và phương thức được kế thừa giữa các lớp Bởi vì một lớp con là một chuyên biệt hóa của lớp cha, bất kỳ một đối tượng nào thuộc lớp con phải thuộc về lớp cha Đặc tính này có thể được sử dụng để xác định xem hai lớp có mối quan hệ là cha/con (trong quan hệ kế thừa lớp cha gọi lớp tổng quát hóa, lớp con gọi là lớp chi tiết hóa) hay không

Trong mô hình dữ liệu UML mờ, các lớp có thể mờ Một lớp được tạo ra từ một lớp mờ bằng phương pháp kế thừa có thể mờ Một lớp là lớp con của một lớp khác với mức thành viên [0; 1], thì mối quan hệ lớp con/lớp cha là mờ Ngoài ra, một lớp

có thể là một lớp mờ có mức thành viên dẫn đến đối tượng được tạo ra từ lớp này là (mờ) Thông qua ngưỡng của các đối tượng ta có thể xác định mối quan hệ cha/con

Trang 32

Đề xuất của nhóm tác giả [3] đã phát triển phương pháp sau nhằm xác định mối quan

Các đối tượng sẽ đạt mức thành viên ở mức tối thiểu khi các đối tượng này thuộc

về lớp con trong quan hệ kế thừa Ở đây, ngưỡng đã cho được sử dụng để đặt độ tin cậy mà hai lớp có mối quan hệ lớp con/lớp cha với mức thành viên Nói chung, hai loại đối tượng của lớp con có thể được xác định: các đối tượng có mức thành viên nhỏ hơn ngưỡng đã cho và đối tượng có mức thành viên lớn hơn hoặc bằng ngưỡng

đã cho Với ngưỡng đã cho, hai lớp có mối quan hệ lớp con/lớp cha miễn là các đối tượng sau có mức thành viên nhỏ hơn hoặc bằng mức thành viên mà chúng thuộc về lớp cha Nếu ngưỡng không được đặt, thì hai lớp không có mối quan hệ lớp con/lớp cha khi tồn tại một đối tượng của lớp con có mức thành viên lớn hơn mức thành viên

mà nó thuộc về lớp cha, ngay cả khi mức thành viên này là rất nhỏ

Cho 𝑐′ và 𝑐′′ là các lớp (mờ) với 𝛽 là ngưỡng cho trước Ta nói rằng 𝑐′′ là một lớp con của 𝑐′ nếu (∀𝑜), 𝑣ớ𝑖 𝛽 ≤ 𝜇𝑐′′(𝑜) ≤ 𝜇𝑐′(𝑜)

Mức thành viên mà 𝑐′′ là lớp con của 𝑐′ phải là 𝑚𝑖𝑛𝜇

𝑐′′ (𝑜) ≥ 𝛽(𝜇𝑐′′(𝑜)) Ở đây, o là đối tượng của 𝑐′ và 𝑐′′, 𝜇𝑐′(𝑜) và 𝜇𝑐′′(𝑜) lần lượt là các mức thành viên của đối tượng

o thuộc lớp 𝑐′ và 𝑐′′

Tuy nhiên, lưu ý rằng trong mối quan hệ tổng quát mờ nói trên, chúng ta giả định rằng các lớp 𝑐′ và 𝑐′′ chỉ có mức mờ thứ hai Các lớp 𝑐′ hoặc 𝑐′′ có thể là các lớp có mức thành viên, cụ thể là với cấp độ mờ thứ nhất Giả sử rằng ta có hai lớp 𝑐′ và 𝑐′′, như sau:

Trang 33

tượng nào của lớp cha 𝑐′ lớn hơn hoặc bằng mức thành viên của đối tượng lớp con

𝑐′′ Mức thành viên của lớp 𝑐′ và lớp 𝑐′′ lớn hơn hoặc bằng ngưỡng đã cho và mức thành viên của 𝑐′ lớn hơn hoặc bằng mức thành viên của 𝑐′′

Xét lớp cha mờ 𝑐′ và các lớp con mờ 𝑐1′′, 𝑐2′′, , 𝑐𝑛′′ tương ứng với các cấp thành viên

là 𝜇𝑐′ , 𝜇𝑐

1′′, 𝜇𝑐

2′′, , 𝑣à 𝜇𝑐𝑛′′, cũng có các cấp thành viên tương ứng là degree_𝑐′,

degree_𝑐1′′, degree_𝑐2′′, , và degree_𝑐𝑛′′ Khi đó, ta có mối quan hệ sau:

(∀𝑜)(𝑚𝑎𝑥(𝜇𝑐1′′(0), 𝜇𝑐2′′(0), … , 𝜇𝑐𝑛′′(0)) ≤ 𝜇𝑐′(0))

∧ (𝑚𝑎𝑥(𝑑𝑒𝑔𝑟𝑒𝑒_𝑐1′′, 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2′′, , 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐𝑛′′) ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′) Đối với mối quan hệ lớp cha/lớp con, rõ ràng với nhiều lớp con, một đối tượng phải thuộc lớp cha nếu nó thuộc về một lớp con, nhưng một đối tượng thuộc lớp cha

có thể thuộc hoặc không thuộc các lớp con Xét các lớp “Bệnh nhân”, “Bệnh nhân ngoại trú” và “Nội trú”, trong đó “Bệnh nhân ngoại trú” và “Nội trú” là hai lớp con của lớp “Bệnh nhân” Giả sử rằng đối tượng “Lê Văn A” là một đối tượng của lớp con “Nội trú” Rõ ràng, “Lê Văn A” phải là một đối tượng của siêu lớp “Bệnh nhân” Giả sử rằng “Lê Văn A” là một đối tượng của lớp cha “Bệnh nhân” nhưng không thuộc lớp con “Ngoại trú”, điều này ngụ ý rằng trong mối quan hệ lớp cha/lớp con, mức thành viên mà một đối tượng thuộc các lớp con không lớn hơn mức thành viên của đối tượng thuộc về các lớp cha Do đó, trong mối quan hệ lớp cha/lớp con với nhiều lớp con mờ, mức thành viên mà một đối tượng thuộc về bất kỳ lớp con nào không lớn hơn mức thành viên mà đối tượng này thuộc về lớp cha Theo đó, toán tử max được sử dụng ở trên

Cho 𝑐′ và 𝑐′′ là các lớp (mờ) và mức thành viên mà 𝑐′′ là lớp con của 𝑐′ được ký hiệu

là 𝜇(𝑐′, 𝑐′′) Với một ngưỡng nhất định 𝛽, ta nói rằng 𝑐′′ là một lớp con của 𝑐′ nếu 𝜇(𝑐′, 𝑐′′) ≥ 𝛽

Ở đây 𝜇(𝑐′, 𝑐′′) được sử dụng để đánh giá mức độ bao hàm của 𝑐′′ đối với 𝑐′theo mức độ bao hàm của các miền thuộc tính của 𝑐′′ đối với các miền thuộc tính của

𝑐′ cũng như trọng số của các thuộc tính Mức thành viên 𝜇(𝑐′, 𝑐′′) chỉ ra lớp 𝑐′′ là lớp con của 𝑐′

Giả sử rằng ta có hai lớp 𝑐′ và 𝑐′′ là các lớp có mức thành viên với cấp độ mờ đầu tiên như sau:

𝑐′ WITH degree_𝑐′ DEGREE,

Trang 34

𝑐′′ WITH degree_𝑐′′ DEGREE

Khi đó, 𝑐′′ là một lớp con của 𝑐′ nếu

(𝜇(𝑐′, 𝑐′′) ≥ 𝛽)⋀(𝛽 ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′′≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′)

Nghĩa là 𝑐′′ là lớp con của 𝑐′ nếu mức độ bao gồm của 𝑐′ so với 𝑐′′ lớn hơn hoặc bằng ngưỡng đã cho, các mức thành viên của 𝑐′ và 𝑐′′ đều lớn hơn hoặc bằng ngưỡng

đã cho, và mức thành viên của 𝑐′ lớn hơn hoặc bằng mức thành viên của 𝑐′′

Mức độ bao gồm của một lớp con (mờ) đối với lớp cha (mờ) có thể được tính theo mức độ bao gồm của các miền thuộc tính của lớp con đối với các miền thuộc tính của lớp cha cũng như trọng số của các thuộc tính Các phương pháp được sử dụng để đánh giá mức độ bao hàm của các miền thuộc tính mờ và để đánh giá thêm mức độ bao hàm của một lớp con đối với lớp cha đã được phát triển trong [73]

Một vấn đề quan trọng trong phân cấp lớp con/lớp cha là tính đa kế thừa của một lớp Mối quan hệ tổng quát hóa mờ với đa kế thừa của lớp có thể được biểu diễn bằng phép hội hoặc tuyển

Gọi 𝑐′, 𝑐1 và 𝑐2 là các lớp mờ với mức mờ thứ hai và 𝛽 là một ngưỡng cho trước Ta nói rằng 𝑐′ là một lớp con của 𝑐1 và 𝑐2 và được biểu diễn bằng mối quan hệ phép hội nếu (∀𝑜)(∀𝑐)(𝑐 ∈ {𝑐1, 𝑐2} ∧ 𝛽 ≤ 𝜇𝑐′(𝑜) ≤ 𝜇𝑐(𝑜))

Nếu thay vì sử dụng mức độ bao gồm của các đối tượng vào lớp, ta sử dụng mức độ bao gồm của một lớp đối với lớp khác để xác định mối quan hệ giữa lớp con mờ và lớp cha, công thức trên được định nghĩa lại như sau:

(𝜇(𝑐1, 𝑐′) ≥ 𝛽) ∧ (𝜇(𝑐2, 𝑐′) ≥ 𝛽) ∧ (𝛽 ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐1) ∧ 𝛽

≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2)

Trang 35

Trong trường hợp một lớp có nhiều kế thừa, sự mơ hồ nảy sinh khi nhiều lớp cha có các thuộc tính chung và lớp con không khai báo rõ rang các thuộc tính của lớp cha được kế thừa

Giả sử rằng thuộc tính 𝑎𝑖 trong 𝑐1, ký hiệu là 𝑎𝑖(𝑐1), giống với thuộc tính 𝑎𝑖trong 𝑐2, ký hiệu là 𝑎𝑖(𝑐2) Nếu 𝑎𝑖(𝑐1 ) và 𝑎𝑖(𝑐2 ) có cùng một miền, thì không có xung đột trong phân cấp đa kế thừa và c kế thừa thuộc tính 𝑎𝑖 trực tiếp Tuy nhiên, xung đột xảy ra nếu 𝑎𝑖(𝑐1) và 𝑎𝑖(𝑐2) có các miền khác nhau Tại thời điểm này, việc lớp c kế thừa 𝑎𝑖(𝑐1) hay 𝑎𝑖(𝑐2) phụ thuộc vào lớp nào là trội [73], với lớp c kế thừa

𝑎𝑖 từ lớp cha trội hơn Lưu ý rằng trong hệ thống phân cấp đa thừa kế mờ, lớp con có các mức khác nhau đối với các lớp cha khác nhau, điều này khác với tình huống trong

cơ sở dữ liệu hướng đối tượng cổ điển

Xét mối quan hệ tổng quát mờ với một diễn giải không chính xác Gọi 𝑐′, 𝑐1 và 𝑐2 là các lớp mờ với mức mờ thứ hai và 𝛽 là một ngưỡng cho trước Đề xuất [3] nói rằng

𝑐′ là một lớp con của 𝑐1 và 𝑐2 với phép tuyển nếu

≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2) Mũi tên hình tam giác đứt nét được sử dụng để biểu diễn tổng quát mờ như trong Hình 1.3 Ở đây, các lớp Nhân viên trẻ, Nhân viên trung niên và Nhân viên già đều thể hiện mức mờ thứ hai, có nghĩa là các lớp có một số đối tượng thuộc về các lớp có mức thành viên Ba lớp này có thể được tổng quát thành lớp Nhân viên

Trang 36

Hình 1.3: Quan hệ tổng quát mờ

1.3.7 Quan hệ kết tập mờ

Là một dạng đặc biệt của liên kết mô hình hóa mối quan hệ toàn thể-bộ phận (whole

- part) giữa đối tượng toàn thể và các bộ phận của nó

Mô tả mối quan hệ giữa một đối tượng lớn hơn được tạo ra từ những đối tượng nhỏ hơn Một loại quan hệ đặc biệt này là quan hệ “có”, nó có nghĩa là một đối tượng tổng thể có những đối tượng thành phần

Một đối tượng thành phần cũng có thể tham gia kết hợp với nhiều đối tượng tổng thể khác nhau, trường hợp này gọi là chia sẻ

Ví dụ 1.4: Một vận động viên có quan hệ tới một đội với ý nghĩa là một phần tử của

đội, tuy nhiên vận động viên này cũng có thể thành viên của một đội khác, trường hợp này gọi là sự chia sẻ Do đó, nếu một đội bị hủy bỏ, thì không nhất thiết phải hũy

bỏ vận động viên này Kết tập là mối quan hệ “là một phần” (“is a part-of”)

Gọi 𝑐′ là tập hợp các phần cấu thành 𝑐1′′, 𝑐2′′, … , 𝑐𝑛′′ Với 𝑜 ∈ 𝑐′, phép chiếu của

o lên 𝑐𝑖′′ được ký hiệu là 𝑜 ↓𝑐

𝑖′′, biểu diễn một thể hiện của 𝑐𝑖′′ Khi đó, ta có (𝑜 ↓𝑐

1′′) ∈

𝑐1′′, (𝑜 ↓𝑐2′′) ∈ 𝑐2′′, … , (𝑜 ↓𝑐𝑛′′) ∈ 𝑐𝑛′′

Ví dụ 1.5: Quan hệ kết tập Xe được kết tập theo các hạng bộ phận cấu thành Động

cơ, Nội thất và Khung xe Đối với một ví dụ về ô tô (chẳng hạn như “Honda CR-V EX”), phép chiếu của nó trên Động cơ là phiên bản động cơ (giả sử “In-Line 4-Cylinder”) và ta có 𝐻𝑜𝑛𝑑𝑎 𝐶𝑅 − 𝑉𝐸𝑋 ↓𝐸𝑛𝑔𝑖𝑛𝑒 = 𝐼𝑛 − 𝐿𝑖𝑛𝑒 4 − 𝐶𝑦𝑙𝑖𝑛𝑑𝑒𝑟

Một lớp được kết tập từ các phần cấu thành mờ có thể mờ Nếu cái trước vẫn được gọi là kết tập, thì kết tập đó là kết tập mờ Tại thời điểm này, một lớp là sự kết tập các bộ phận cấu thành có mức thành viên là [0; 1] Phương pháp sau có thể được

sử dụng để xác định mối quan hệ kết tập mờ

Nhân viên

Nhân viên trẻ Nhân viên trung niên Nhân viên già

Trang 37

a) Đối với bất kỳ đối tượng (mờ) nào, mức thành viên mà nó thuộc về kết tập lớn hơn hoặc bằng ngưỡng đã cho, và

b) Mức thành viên mà nó thuộc về kết tập nhỏ hơn hoặc bằng mức độ thuộc mà phép chiếu của nó lên mỗi bộ phận cấu thành

Khi đó, tổng thể là sự kết tập các bộ phận hợp thành có mức thành viên, là cấp độ tối thiểu của các mức thành viên mà phép chiếu của các đối tượng này lên các bộ phận hợp thành thuộc các bộ phận cấu thành tương ứng Đối với tổng quát hóa mờ, ngưỡng

đã cho là ngưỡng tính toán được sử dụng để đặt độ tin cậy mà các phần tổng hợp và phần cấu thành có mối quan hệ kết tập với mức thành viên và để tránh mức độ biến đổi là nhỏ nhất Các đối tượng của kết tập có mức thành viên lớn hơn hoặc bằng ngưỡng được kiểm tra xem các mức thành viên của chúng hoặc bằng mức thành viên

mà các dự báo của chúng đối với từng bộ phận cấu thành Các đối tượng của tổng thể

có mức thành viên nhỏ hơn ngưỡng sẽ không được xem xét

Về mặt hình thức, gọi 𝑐′ là một kết tập mờ của các tập hợp lớp mờ 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, với các mức thành viên của các đối tượng tương ứng là 𝜇𝑐′ , 𝜇𝑐1′′, 𝜇𝑐2′′, , 𝑣à 𝜇𝑐𝑛′′ Gọi 𝛽 là một ngưỡng cho trước Ta có

𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, 𝑐𝑖′′, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛, thuộc về lớp 𝑐𝑖′′ Đối với bất kỳ đối tượng (mờ) nào, mức thành viên mà nó thuộc về lớp 𝑐′ phải lớn hơn hoặc bằng ngưỡng đã cho Mức độ liên thuộc mà 𝑐′ là sự kết tập của tập hợp các lớp 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′ phải là 𝑚𝑖𝑛 𝜇

𝑐𝑖′′(𝑜↓𝑐𝑖′′)≥ 𝛽 (𝜇𝑐

𝑖′′(𝑜 ↓𝑐

𝑖′′)) , 𝑣ớ𝑖 1 ≤ i ≤ n Ở đây, o là đối tượng của lớp 𝑐′ Đối với quan hệ kết tập cổ điển, với bất kỳ đối tượng nào của 𝑐′, phép chiếu của nó lên bất kỳ một trong các lớp 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, 𝑐𝑖′′, 𝑣ớ𝑖 1 ≤ i ≤ n, phải là đối tượng của phần cấu thành 𝑐𝑖′′ Tuy nhiên, một đối tượng của bộ phận cấu thành 𝑐𝑖′′ có thể được sử dụng hoặc không được sử dụng để tạo đối tượng từ lớp 𝑐′ (là lớp tổng thể) như một bộ phận bởi vì bộ phận cấu thành tồn tại độc lập Điều này ngụ ý rằng trong kết tập mờ, mức thành viên thể hiện mà một đối tượng thuộc tập hợp không lớn hơn mức thành viên mà phép chiếu của đối tượng này lên bất kỳ một trong các bộ phận

Trang 38

cấu thành Do đó, trong kết tập mờ, mức thành viên mà đối tượng thuộc về tổng thể không lớn hơn mức thành viên mà đối tượng này dự báo trên bất kỳ một trong các bộ phận cấu thành Do đó, toán tử min được sử dụng trong kết tập mờ ở trên

Xét mức mờ thứ nhất trong các lớp nói trên 𝑐′, 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, cụ thể chúng là các lớp mờ có mức thành viên Ta có

𝑐1′′ WITH degree_𝑐1′′ DEGREE,

𝑐𝑛′′ WITH degree_𝑐𝑛′′ DEGREE

Khi đó, 𝑐′ là quan hệ kết tập của các lớp mờ 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′ nếu

Trang 39

𝑐𝑛′′ WITH degree_𝑐𝑛′′ DEGREE

Khi đó, 𝑐′ là quan hệ kết tập của các lớp mờ 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′ nếu

𝑚𝑖𝑛(𝜇(𝑐1′′, 𝑐′ ↓𝑐

1′′), 𝜇(𝑐2′′, 𝑐′ ↓𝑐

2′′), , 𝜇(𝑐𝑛′′, 𝑐′ ↓𝑐𝑛′′)) ≥ 𝛽 ∧ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑚𝑖𝑛(𝑑𝑒𝑔𝑟𝑒𝑒_𝑐1′′, 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2′′, , 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐𝑛′′))

Ký hiệu hình thoi mở đứt nét được sử dụng để biểu thị mối quan hệ kết tập mờ như thể hiện trong Hình 1.4, trong đó Xe ô tô cũ được nạp từ động cơ, nội thất và khung xe Bên cạnh đó lớp mờ Động cơ cũ thể hiện mức mờ thứ hai Do đó lớp Xe ô

tô cũ được kết tập từ các lớp Nội thất, Khung gầm và động cơ cũ, làm cho Xe trở thành lớp có độ mờ thứ hai

Hình 1.4: Mối quan hệ kết tập mờ

1.3.8 Quan hệ kết hợp mờ

Mối quan hệ kết hợp được định nghĩa là mối quan hệ cấu trúc nhị phân giữa hai lớp liên kết chúng, được chỉ định bằng các đối tượng của một lớp kết nối với các đối tượng của lớp khác

Mối quan hệ kết hợp là hai chiều hoặc một chiều Mối quan hệ kết hợp được xác định trên cơ sở các lớp, không phải trên cơ sở các đối tượng của các lớp Tất nhiên, đối với một phạm vi nhất định, mỗi cặp đối tượng trong các lớp tương ứng có cùng mối quan hệ kết hợp

Ví dụ 1.6: Trong một sân bay, các lớp Chuyến bay và Tàu bay có mối quan hệ kết

hợp với tên liên kết được chỉ định là tàu bay

Các liên kết của lớp mờ tạo thành mối quan hệ kết hợp mờ Đối với các lớp mờ

có mức mờ thứ hai, các đối tượng của lớp thuộc về các lớp đã cho có mức thành viên

Do đó, có thể không biết chắc chắn liệu hai lớp thuộc các lớp liên kết có mối quan hệ kết hợp nhất định hay không, mặc dù mối quan hệ kết hợp chắc chắn tồn tại giữa hai lớp này

Xe ô tô cũ

Trang 40

Ví dụ 1.7: Các lớp Lái xe trẻ và Xe mới có mối quan hệ kết hợp mờ với tên liên kết

lái xe Ở đây, đối tượng của Lái xe trẻ và đối tượng Xe mới có mối quan hệ liên kết với mức thành viên

Về mặt hình thức, cho 𝑐′ và 𝑐′′ là hai lớp có độ mờ mức hai Đối tượng 𝑜′ của 𝑐′ là một đối tượng có mức thành viên 𝜇𝑐′(𝑜′), và đối tượng 𝑜′′ của 𝑐′′ là đối tượng có mức thành viên 𝜇𝑐′′(𝑜′′) Giả sử rằng mối quan hệ kết hợp giữa 𝑐′ và 𝑐′′ được ký hiệu là 𝑎𝑠𝑠𝑐(𝑐′, 𝑐′′) Như vậy, mối quan hệ kết hợp giữa 𝑜′ và 𝑜′′, được ký hiệu là 𝑎𝑠𝑠𝑐(𝑜′, 𝑜′′), có mức thành viên được tính như sau

𝜇(𝑎𝑠𝑠𝑐(𝑜′ , 𝑜′′)) = 𝑚𝑖𝑛( 𝜇𝑐′(𝑜′), 𝜇𝑐′′(𝑜′′))

Lưu ý rằng mức thành viên 𝜇(𝑎𝑠𝑠𝑐(𝑜′ ,𝑜′′)) được xác định cho 𝑜′ và 𝑜′′, không cho

𝑐′ và 𝑐′′ Nói cách khác, mức thành viên mà 𝑜′ và 𝑜′′ có mối quan hệ kết hợp là

𝜇(𝑎𝑠𝑠𝑐(𝑜′ ,𝑜′′)) Đối với một cặp đối tượng thuộc hai lớp nhưng không phải là 𝑜′ và 𝑜′′, mức liên kết mà cặp đối tượng có mối quan hệ kết hợp có thể khác với 𝜇(𝑎𝑠𝑠𝑐(𝑜′ ,𝑜′′)) Nếu mức thành viên nhỏ thì cặp đối tượng trong trường hợp này không có liên kết kiểu quan hệ kết hợp

Một lưu ý nữa mối quan hệ kết hợp có thể được xác định một cách mơ hồ (Những người thích thể thao) và mối quan hệ kết hợp tồn tại trong hai lớp liên kết với mức thành viên Khác với quan hệ kết hợp mờ ở mức đối tượng của lớp ở trên, quan

hệ kết hợp mờ ở đây là ở mức lớp Mức mờ trong mối quan hệ kết hợp này được thiết

kế, định nghĩa cụ thể ngay cả khi các lớp tương ứng là rõ

Ví dụ 1.8: Trong thiết kế sơ bộ của một chiếc ô tô, giả sử rằng đầu đĩa DVD có thể

được lắp hoặc không được lắp vào ô tô ở giai đoạn này và khả năng đầu đĩa DVD sẽ được lắp vào ô tô là 0.6 Gọi 𝑐′ và 𝑐′′ là hai lớp rõ và 𝑎𝑠𝑠𝑐(𝑐′, 𝑐′′) là mối quan hệ kết

hợp với mức thành viên degree_assc, được ký hiệu là 𝑎𝑠𝑠𝑐(𝑐′, 𝑐′′) WITH

degree_assc DEGREE Tại thời điểm này, mức thành viên của các đối tượng 𝑜′ thuộc

Định dạng
Số trang	138
Dung lượng	2,7 MB