Mô hình cơ sở dữ liệu hướng đối tượng mờ là một mô hình cơ sở dữ liệu hướng đối tượng mở rộng, trong đó các giá trị thuộc tính của các đối tượng có thể được biểu... Trong chương này trìn
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-
NGUYỄN TẤN THUẬN
MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ
SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
HÀ NỘI – 2021
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-
Nguyễn Tấn Thuận
MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ
SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ
Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 GS.TS Đoàn Văn Ban
2 TS Trương Ngọc Châu
Hà Nội – Năm 2021
Trang 3Danh mục các thuật ngữ 5
Bảng các ký hiệu, từ viết tắt 6
Danh sách bảng biểu 7
Danh sách hình vẽ 8
MỞ ĐẦU 10
Chương 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ TRUY VẤN TRÊN MÔ HÌNH CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 15
1.1 Giới thiệu bài toán 15
1.2 Các nghiên cứu liên quan 16
1.2.1 Các mô hình CSDL HĐT mờ 16
1.2.2 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ 18
1.2.3 Xử lý và tối ưu hóa truy vấn mờ 18
1.3 Các vấn đề nghiên cứu và giải pháp 19
1.3.1 Biểu diễn thông tin không hoàn hảo trong mô hình khái niệm dữ liệu mờ 19
1.3.2 Mô hình hóa UML của dữ liệu mờ 21
1.3.3 Lớp mờ 22
1.3.4 Giá trị thuộc tính mờ 25
1.3.5 Biểu diễn các giá trị thuộc tính mơ hồ cho đối tượng mờ 26
1.3.6 Quan hệ tổng quát hóa mờ 29
1.3.7 Quan hệ kết tập mờ 34
1.3.8 Quan hệ kết hợp mờ 37
1.3.9 Quan hệ phụ thuộc mờ 40
1.3.10 Ánh xạ mô hình dữ liệu UML mờ vào mô hình cơ sở dữ liệu hướng đối tượng mờ 42
1.3.10.1 Mô hình cơ sở dữ liệu hướng đối tượng mờ (FOODB) 42
Trang 41.3.10.2 Chuyển đổi biểu đồ lớp UML mờ 43
1.3.10.3 Chuyển đổi các lớp 43
1.3.10.4 Chuyển đổi quan hệ kết tập 46
1.3.10.5 Chuyển đổi quan hệ kết hợp 47
1.3.10.6 Chuyển đổi các quan hệ phụ thuộc 49
1.3.11 Truy vấn mờ FOQL 50
1.4 Giải pháp cho bài toán 50
1.5 Kết luận chương 1 51
Chương 2 CÁC PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỜ DỰA VÀO ĐỘ ĐO TƯƠNG TỰ VÀ GOM CỤM DỮ LIỆU 53
2.1 Xử lý truy vấn mờ dựa vào độ đo tương tự 53
2.1.1 So sánh tính tương tự của hai đối tượng mờ 53
2.1.1.1 Độ đo tương tự và phi tương tự 54
2.1.1.2 Độ đo ngữ nghĩa của dữ liệu mờ 55
2.1.1.3 So sánh hai đối tượng dựa vào độ đo tương tự mờ 56
2.1.2 Thuật toán xử lý truy vấn dựa vào độ đo tương tự 68
2.2 Xử lý truy vấn mờ dựa vào kỹ thuật gom cụm dữ liệu và phân khoảng mờ 75
2.2.1 Phương pháp gom cụm dữ liệu bằng thuật toán EM 75
2.2.1.1 Mô hình Gaussian Mixture Model 75
2.2.1.2 Thuật toán EM 76
2.2.1.3 Thuật toán gom cụm cải tiến EMC sử dụng mô hình thống kê hỗn hợp GMM 79
2.2.1.4 Đánh giá thuật toán EMC dựa trên Log Likelihood 85
2.2.1.5 Đánh giá thuật toán EMC bằng phương pháp phân tích sự khác biệt giữa các nhóm 85
2.2.2 Phân các khoảng mờ 87
2.2.2.1 Xác định tâm 87
Trang 52.2.2.2 Xác định các khoảng 88
2.2.3 Xử lý truy vấn dựa trên các khoảng mở 89
2.2.4 Thuật toán xử lý truy vấn trên các cụm 93
2.3 Xử lý truy vấn dựa vào đại số gia tử 94
2.4 Đánh giá thực nghiệm 95
2.5 Kết luận chương 2 96
Chương 3 XỬ LÝ VÀ TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 98
3.1 Các phép toán đại số trong cơ sở dữ liệu hướng đối tượng mờ 99
3.1.1 Đại số đối tượng 99
3.1.2 Đại kết hợp mờ 99
3.1.3 Mô hình đại số kết hợp các đối tượng mờ 99
3.1.4 Các phép toán đại số kết hợp mờ 100
3.1.4.1 Tích mờ × 102
3.1.4.2 Kết nối mờ ⋈ 102
3.1.4.3 Phép hợp mờ ∪ 103
3.1.4.4 Phép trừ mờ ≃ 103
3.1.4.5 Phép giao mờ ∩ 104
3.1.4.6 Phép chia mờ ÷ 104
3.1.5 Các phép toán mở rộng 105
3.1.5.1 Phép chiếu mờ 𝜫 105
3.1.5.2 Phép chọn mờ 105
3.2 Ngôn ngữ truy vấn mờ FOQL 106
3.2.1 Truy vấn mờ FOQL 106
3.2.2 Mô hình lớp mờ 106
3.2.3 Cấu trúc câu truy vấn mờ 108
Trang 63.2.4 Phương pháp xử lý truy vấn mờ 108
3.2.4.1 Các bước của phương pháp 108
3.2.4.2 Quy trình xử lý truy vấn mờ 110
3.2.4.3 Cây truy vấn và đồ thị truy vấn 110
3.3 Tối ưu hóa truy vấn mờ 114
3.3.1 Các phép biến đổi tương đương 114
3.3.1.1 Tối ưu hóa kế hoạch thực thi truy vấn 116
3.3.1.2 Không gian tìm kiếm và các luật chuyển đổi 117
3.3.1.3 Thuật toán tối ưu hóa truy vấn mờ 117
3.3.1.4 Đánh giá thực nghiệm 121
3.4 Kết luận chương 3 122
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 124
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 126
TÀI LIỆU THAM KHẢO 127
Trang 7Danh mục các thuật ngữ
Đại số kết hợp mờ Fuzzy association algebra
Đồ thị lược đồ mờ Fuzzy object schema Graph
Mối quan hệ kế thừa Inheritance relationship
Mối quan hệ đối tượng với lớp Object and Class relationship Mối quan hệ kết hợp mờ Fuzzy association relationship Mối quan hệ kết nhập mờ Fuzzy aggregation relationship Mối quan hệ tổng quát hóa Fuzzy genralization relationship Phân cấp kế thừa mờ Fuzzy inheritance hierarchy
Trang 8GMM (Gaussian Mixture Model) Mô hình Gaussian hỗn hợp
OQL (Object Query Language) Ngôn ngữ truy vấn hướng đối tượng ODMG (Object Database Management
Group)
Nhóm quản trị CSDL đối tượng, tổ chức đề xuất mô hình ODMG và OQL OID (Object Indentifier) Định danh đối tượng rõ
OODBMS (Object-Oriented Data Base
Management System)
Hệ quản trị cơ sở dữ liệu hướng đối tượng
FOID (Fuzzy Object Indentifier) Định danh đối tượng mờ
FOQL (Fuzzy Object Query Language) Ngôn ngữ truy vấn đối tượng mờ FOODBMS (Fuzzy Object Oriented
Database Management System)
Hệ quản trị cơ sở dữ liệu hướng đối tượng mờ
SQL (Structured Query Language) Ngôn ngữ truy vấn có cấu trúc
Trang 9Danh sách bảng biểu
Bảng 2.1: Danh sách dữ liệu phòng của các đối tượng mờ 74
Bảng 2.2: Danh sách dữ liệu phòng từ kết quả truy vân của trường hợp 1 74
Bảng 2.3 Danh sách dữ liệu phòng từ kết quả truy vân của trường hợp 2 75
Bảng 2.4: Bảng dữ liệu của các đối tượng về "Điểm Toán" 83
Bảng 2.5: Kết quả phân cụm của thuật toán EMC 84
Bảng 2.6: Bảng kết quả thống kê dữ liệu 86
Bảng 2.7: Xác định khoảng mờ của thuộc tính định lượng "Điểm toán" 89
Bảng 2.8: Danh sách dữ liệu từ kết quả truy vấn trực tiếp trên các vùng mờ cho trường hợp 1 90
Bảng 2.9: Các giá trị khoảng mờ của thuộc tính Điểm Toán 92
Bảng 2.10: Danh sách dữ liệu từ kết quả truy vấn trực tiếp trên các vùng mờ cho trường hợp 2 92
Bảng 2.11: Kết quả truy vấn với mức độ thỏa mãn điều kiện truy vấn "Điểm Toán hơi cao" 93
Bảng 2.12: Thời gian thực thi của thuật toán 95
Bảng 2.13: Sử dụng bộ nhớ trong các thuật toán 96
Trang 10Danh sách hình vẽ
Hình 1.1 Biểu diễn dữ liệu mờ tuổi 20
Hình 1.2 Lớp mờ 25
Hình 1.3 Quan hệ tổng quát mờ 34
Hình 1.4.Mối quan hệ kết tập mờ 37
Hình 1.5.Mối quan hệ kết hợp mờ 39
Hình 1.6 Mối quan hệ phụ thuộc mờ 41
Hình 1.7.Mô hình dữ liệu UML mờ 41
Hình 1.8.Chuyển đổi các lớp trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 45
Hình 1.9.Chuyển đổi các lớp con trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 46
Hình 1.10.Chuyển đổi các tập hợp trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 47
Hình 1.11.Chuyển đổi các liên kết trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ 49
Hình 2.1.Nghiên cứu điển hình về so sánh các đối tượng mờ 57
Hình 2.2 Tính toán sự giống nhau giữa hai đối tượng mờ 𝑜1 và 𝑜2 60
Hình 2.3 Trường hợp I (a) so sánh hai phòng 61
Hình 2.4.Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai phòng (Sử dụng các hàm thành viên khác nhau) 62
Hình 2.5: Trường hợp I (b) So sánh phòng 63
Hình 2.6: Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai (Sử dụng các hàm thành viên khác nhau) 64
Hình 2.7: Trường hợp II Các phòng được mô tả bởi các thuộc tính rõ và mờ 64
Hình 2.8: Đồ thị biểu diễn một vòng lặp của thuật toán EM 78
Hình 2.9: Các khoảng mờ 88
Hình 2.10: Thời gian thực thi trong thuật toán 95
Hình 2.11: Đánh giá việc sử dụng bộ nhớ cho các bộ dữ liệu khác nhau 96
Hình 3.1: Phương pháp xử lý truy vấn hướng đối tượng mờ 108
Hình 3.2: Cây truy vấn 111
Trang 11Hình 3.3: Đồ thị truy vấn 111
Hình 3.4: Đồ thị lược đồ phân cấp lớp mờ 111
Hình 3.5: Hai cây truy vấn cho truy vấn FQ2 (a) Cây truy vấn tương ứng với biểu thức đại số đối tượng mờ cho FQ2 (b) Cây truy vấn ban đầu (chuẩn của FOQL) cho truy vấn FQ2 (c) Đồ thị truy vấn cho FQ2 113
Hình 3.6: Các cây xử lý truy vấn tương đương 117
Hình 3.7: Cây đại số đối tượng tối ưu hóa truy vấn mờ 120
Hình 3.8: Kết quả đánh gia thực nghiệm tối ưu hóa truy vấn mờ 122
Trang 12MỞ ĐẦU
Ngày nay, tính khả thi và tính hữu ích của toán học mờ như lý thuyết xác suất, lý thuyết tập mờ, lý thuyết khả năng, quan hệ tương tự [1] - [6], , đã được minh chứng cho sự thành công trong một loạt các lĩnh vực gồm: kỹ thuật, khoa học máy tính, trí tuệ nhân tạo, xử lý thông tin và các hệ thống cơ sở dữ liệu (CSDL) [7] - [11] Cùng với sự phát triển của toán học mờ, các mô hình CSDL hướng đối tượng đã được nghiên cứu và áp dụng rộng rãi trong việc phát triển các hệ thống phần mềm, nhiều
hệ quản trị CSDL hướng đối tượng có tính thương mại đã được tạo ra như GEMSTONE, ORION, VBASE, OBJECTSTORE, POET, … Một mô hình dữ liệu đối tượng chuẩn ODMG đã được phát triển và dựa vào đó để thiết lập một số khái niệm cơ sở được gọi là mô hình hạt nhân cho mô hình CSDL hướng đối tượng Mô hình hạt nhân đủ mạnh để thỏa mãn nhiều đòi hỏi của các ứng dụng mới, hơn nữa còn được dùng làm cơ sở để xác định những khác biệt chính giữa mô hình dữ liệu hướng đối tượng và các mô hình dữ liệu liệu truyền thống khác Tuy nhiên, cả hai mô hình CSDL quan hệ và CSDL hướng đối tượng có khả năng đủ để xử lý đối tượng phức tạp nhưng bị hạn chế đối với các đại diện dữ liệu không chính xác hoặc không chắc chắn Thêm vào đó, các hệ thống này chỉ có thể xử lý dữ liệu "cứng" (chính xác và xác định) trong thực tế Tuy nhiên, nhiều ứng dụng trên thế giới thực thường liên quan đến dữ liệu "mềm" (mơ hồ và không chính xác) Do đó, việc nghiên cứu ứng dụng cơ sở dữ liệu mờ và xử lý truy vấn để giải quyết những hạn chế của cơ sở dữ liệu quan hệ/hướng đối tượng rõ trong việc xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ trở thành một chủ đề nghiên cứu quan trọng được nhiều người tập trung nghiên cứu và triển khai ứng dụng
Thông qua các kết quả nghiên cứu trên, việc áp dụng lĩnh vực toán học mờ vào các mô hình cơ sở dữ liệu truyền thống/hướng đối tượng, nhằm xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ là rất cần thiết Một số đề xuất và triển khai toán học mờ đẫ được áp dụng hiệu quả trên các hệ thống quản lý cơ sở dữ liệu nói chung như [12] - [15] và như vậy mô hình cơ sở dữ liệu hướng đối tượng mờ đã được
đề xuất trên cơ sở áp dụng toán học mờ [16] - [21]
Mô hình cơ sở dữ liệu hướng đối tượng mờ là một mô hình cơ sở dữ liệu hướng đối tượng mở rộng, trong đó các giá trị thuộc tính của các đối tượng có thể được biểu
Trang 13diễn bằng các tập mờ Do đó, các lớp, các mối quan hệ lớp đối tượng và các mối quan
dữ liệu trên mô hình này là SQL Mô hình với thông tin không chắc chắn được
đề xuất bởi Gyseghem và Caluwe [23], đặc tả tính mờ và không chắc chắn bằng cách sử dụng lần lượt các tập mờ và phân bố khả năng Mô hình mở rộng dựa trên đồ thị do G Bordogna và các cộng sự [16], [21] Mô hình dựa trên quan hệ tương tự, phạm vi của các giá trị thuộc tính được sử dụng để biểu diễn tập các giá trị cho phép của một thuộc tính trong một lớp được trình bày trong [24] Mô hình dựa vào lý thuyết khả năng, tính mơ hồ được biểu diễn trong phân cấp lớp, mức độ bao hàm của lớp con trong lớp cha được xác định dựa trên mức độ bao hàm các miền mờ của các thuộc tính của lớp cha đối với các miền mờ của các thuộc tính của lớp con [25] Cũng dựa trên phân bố khả năng, trong [26] một số khái niệm chính trong CSDL hướng đối tượng chẳng hạn đối tượng, các mối quan hệ đối tượng/lớp, lớp con/lớp cha và đa thừa kế được đưa ra trong môi trường thông tin mờ Mô hình dựa trên lý thuyết xác suất đầu tiên được nhóm tác giả Kornatzky và Shimony đề xuất năm 1994 [27] Trong
mô hình này, lớp được định nghĩa như một tập các thuộc tính mà giá trị của chúng có thể kết hợp với một phân bố xác suất Lược đồ được định nghĩa như một tập các lớp có phân cấp kết hợp với xác suất có điều kiện để một đối tượng của một lớp thuộc về lớp con của nó Bên cạnh đó một mô hình mới về xác suất đã được B Ding và các cộng sự đề xuất [28] nhằm mô tả một diễn dịch xác suất của các quan hệ trên các giá trị tập mờ và một đại số cho các bộ ba xác suất mờ được nghiên cứu và định nghĩa một cách hình thức
Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ: Thuật toán GNP phân cụm cơ sở dữ liệu được đề xuất [29] GNP tạo các cụm dựa trên phân loại mẫu, trong đó nhãn cụm được gán cho mỗi đối tượng được biểu diễn bằng một tập hợp các đặc trưng mờ Việc tối ưu hóa các cụm được thực
Trang 14hiện để các đối tượng có độ tương tự cao được đưa vào cùng một cụm L Yan
và các cộng sự [30] phân biệt các thực thể trong cơ sở dữ liệu hướng đối tượng
mờ dựa trên thước đo ngữ nghĩa của dữ liệu mờ, để so sánh một cách tổng quát hơn các đối tượng và lớp với kiểu dữ liệu mờ Phương pháp này cũng có thể được sử dụng trong cơ sở dữ liệu mờ hoặc thậm chí mô hình cơ sở dữ liệu quan hệ cổ điển Đề xuất mới của M C Mouna và các cộng sự [31] về phương pháp tính toán tính tương tự để so sánh hai đối tượng mờ thông qua các thuộc tính mờ bằng cách sử dụng độ đo khoảng cách Euclide A Mhedhbi và S Salihoglu [4] phát triển phép đo độ tương tự dựa trên mô hình đối sánh Tversky
và áp dụng nó trên các tập mờ bằng cách sử dụng lý thuyết tập mờ và các phép toán của chúng Mô hình này cung cấp một phương pháp so sánh các đối tượng
có nội dung mơ hồ / mờ
Xử lý và tối ưu hóa truy vấn: X Hu và các cộng sự phát triển [32] mô hình dữ liệu hướng đối tượng mờ mới (F-model) và định nghĩa đại số kết hợp mờ mở rộng (FA-algebra), dựa trên các kết hợp mờ, truy vấn mờ được đề xuất nhằm
xử lý các giá trị mờ Các phép toán lý thuyết tập hợp, cụ thể là phép hợp, phép giao và phép hiệu dựa trên trên cấu trúc lớp Các phép toán được thiết lập dựa trên thành viên của lớp tương ứng chứa các đối tượng mờ được phát triển bằng cách sử dụng giá trị chân lý của đối tượng và nhận dạng đối tượng nhằm giúp cho truy vấn xác định các đối tượng có giá trị mờ Đề xuất [33] tối ưu hóa truy vấn dựa vào biểu thức đường dẫn và cách viết lại câu truy vấn
Tuy nhiên, trong các mô hình đề xuất trên còn thiếu định nghĩa chính thức một thiết kế kiến trúc, định nghĩa về các phép toán đại số đối tượng mờ và ngôn ngữ truy vấn Do đó cần có một đề xuất mới nhằm đảm bảo tính hệ thống cho mô hình cơ sở
dữ liệu hướng đối tượng mờ hoạt động hiệu quả hơn
Mục tiêu của luận án là đề xuất đại số đối tượng mờ mới, quy trình và phương pháp
xử lý, tối ưu hóa truy vấn dựa trên đại số đã đề xuất kết hợp với các giải pháp như phép biến đổi tương đương và giải thuật Heuristic Bên cạnh đó, luận án cũng đề xuất các bước tiền xử lý như so sánh tính tương tự của hai đối tượng mờ và thuật toán gom cụm EMC (Expectation-Maximization-Coefficient)
Các vấn đề liên quan đến mục tiêu nghiên cứu được trình bày trong luận án bao gồm
Trang 151 Nhằm tăng tính hiệu quả cho quá trình xử lý truy vấn dữ liệu có các đại diện thông tin là mờ, luận án đề xuất phương pháp gom cụm và so sánh tính tương tự giữa hai đối tượng một cách tổng quát nhất, cụ thể hơn để so sánh tính tương tự giữa hai đối tượng luận án đã sử dụng các kỹ thuật khác nhau
đó là: tính độ đo ngữ nghĩa, độ đo Euclidean Bằng các kỹ thuật như vậy, tác giả thực hiện so sánh hai đối tượng trong các trường hợp như: hai đối tượng có cùng thể hiện hoặc không cùng thể hiện của một lớp, hai đối tượng
có giá trị thuộc tính là mờ hoặc rõ hay cả hai đối tượng rõ/mờ Bên cạnh đó, luận án đề xuất thuật toán phân cụm EMC được cải tiến dựa trên thuật toán Expectation Maximization (EM) bằng cách bổ sung bước (C) vào thuật toán
để tăng độ mềm dẻo và giảm tối ưu hóa cục bộ và tăng tối ưu hóa toàn cục trong quá trình phân cụm Luận án cũng đánh giá tính hiệu quả của thuật toán phân cụm EMC bằng phương pháp đánh giá sự khác biệt giữa các nhóm đã đề xuất Nhằm đảm bảo cho hệ thống thực hiện câu truy vấn linh hoạt và tự nhiên hơn, luận án đề xuất phương pháp phân các khoảng mờ dựa trên kết quả của thuật toán gom cụm EMC
2 Thông qua các đề xuất đối sánh và gom cụm dữ liệu, luận án đề xuất các thuật toán xử lý truy vấn mờ mới như: Thuật toán xử lý truy vấn đơn, đa điều kiện mờ FQSIMSC (Fuzzy Query Sim Single Condition) và FQSIMMC (Fuzzy Query Sim Multi-Condition) sử dụng đại lượng tính toán độ đo tương tự của SIM để trích rút các đối tượng mờ, hay như thuật toán xử lý truy vấn mờ FQSEM (Fuzzy Query SEM) sử dụng đại lượng tính toán SEM để trích rút dữ liệu có dạng phân bố khả năng Hơn nữa, luận án cũng đã đề xuất thuật toán xử lý truy vấn trên các khoảng mờ FQINTERVAL (Fuzzy Query Interval), nhằm giúp người dùng thực hiện trích lọc dữ liệu tự nhiên hơn
3 Đề xuất đại số kết hợp mờ mới Trong đó luận án định nghĩa các phép toán kết hợp mờ như (Phép chọn mờ, phép nối mờ, phép chiếu mờ, phép chia
mờ, phép trừ mờ, phép hợp mờ và phép giao mờ làm cơ sở cho việc xây dựng đại số truy vấn mờ cho mô hình cơ sở dữ liệu hướng đối tượng mờ
4 Luận án đề xuất kiến trúc xử lý và tối ưu hóa truy vấn mờ Cụ thể, luận án phát triển thuật toán heuristic tối ưu hóa đại số đối tượng mờ dựa trên các
Trang 16quy tắc của phép biến đổi tương đương Phân tích trên một số thử nghiệm
sử dụng thuật toán đề xuất cho thấy hiệu suất xử lý truy vấn tốt hơn, điều này chứng tỏ sự nâng cao hiệu quả của phương pháp đã đề xuất
Để thực hiện được các mục tiêu trên, luận án được tổ chức như sau: Ngoài phần
mở đầu, kết luận và tài liệu tham khảo, luận án được chia thành 3 chương, trong đó:
Chương thứ nhất trình bày khái quát về cơ sở dữ liệu hướng đối tượng mờ Nội dung
của chương này bao gồm: các khái niệm, các phép toán cơ bản của lý thuyết tập mờ Trong chương này trình bày cụ thể mô hình cơ sở dữ liệu hướng đối tượng với các khái niệm về đối tượng mờ, lớp mờ, phân cấp thừa kế mờ và mô hình lớp mờ và các quan hệ mờ
Chương thứ hai giới thiệu các thuật toán xử lý truy vấn mờ mới dựa vào các tính
toán đối sánh và gom cụm dữ liệu Để so sánh tính tương tự giữa các đối tượng nếu chúng đảm bảo một trong hai yếu tố: thứ nhất hai đối tượng được gọi là tương tự nếu chúng có cùng thể hiện của một lớp các đối tượng, yếu tố thứ hai là hai đối tượng được gọi là tương tự nếu giá trị một trong các thuộc tính của lớp này có ngữ nghĩa tương tự với giá trị thuộc tính của lớp kia Một đề xuất quan trọng trong chương này
là đề xuất thuật toán gom cụm dữ liệu EMC được cải tiến từ thuật toán gom cụm dữ liệu cực đại hóa kỳ vọng (EM) Các kết quả đánh giá thuật toán cho thấy tính hiệu quả cũng như tính mềm dẻo với số cụm được tùy biến tùy thuộc vào từng ứng dụng
cụ thể sẽ có số cụm được phân khác nhau Thuật toán gom cụm EMC tăng tính hiệu quả cho việc xử lý và trích rút dữ liệu cho câu truy vấn trên các cụm đó
Chương thứ ba giới thiệu các phép toán đại số đối tượng mới như (phép chiếu mờ,
giao mờ, hợp mờ, chọn mờ, trừ mờ, tích đề các mờ, nối mờ) và các phép biến đổi tương đương mờ Một chủ đề không thể thiếu đối với mọi hệ quản trị cơ sở dữ liệu
đó là tối ưu hóa truy vấn bằng phương pháp Heuristic
Trang 17Chương 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ TRUY VẤN TRÊN MÔ
HÌNH CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ
1.1 Giới thiệu bài toán
Hệ thống thông tin đã cách mạng hóa cách thức lưu trữ và xử lý thông tin đa dạng, phức tạp Kết quả là, khối lượng thông tin đã tăng lên đáng kể dẫn đến quá tải thông tin Do đó, việc phân tích lượng lớn dữ liệu có sẵn và đưa ra các quyết định quản lý phù hợp trở nên khó khăn Trong thực tế, hệ thống thông tin chủ yếu sử dụng CSDL quan hệ [12], [14], [34] - [38], hoặc CSDL hướng đối tượng [39] - [42] để lưu trữ các tập hợp dữ liệu này Cả hai mô hình CSDL quan hệ và CSDL hướng đối tượng
có khả năng đủ để xử lý đối tượng phức tạp nhưng bị hạn chế đối với các đại diện dữ liệu không chính xác hoặc không chắc chắn Một vấn đề khác, sử dụng mô hình quan
hệ, hướng đối tượng đang gặp phải nhiều hạn chế của việc mô tả và xử lý các thông tin không chắc chắn, không đầy đủ, theo đó là một quy trình truy vấn không phù hợp cho việc ra quyết định Thêm vào đó, các hệ thống này chỉ có thể xử lý dữ liệu "cứng" (chính xác và xác định) trong tự nhiên Tuy nhiên, nhiều ứng dụng trong thế giới thực luôn liên quan đến dữ liệu "mềm" (mơ hồ và không chính xác) Do đó, việc nghiên cứu ứng dụng cơ sở dữ liệu mờ và xử lý truy vấn để giải quyết những hạn chế của cơ
sở dữ liệu quan hệ/hướng đối tượng rõ trong việc xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ trở thành một chủ đề nghiên cứu quan trọng được nhiều nhà khoa học tập trung nghiên cứu [2], [17], [30], [43] - [68]
Hơn nữa, cuộc cách mạng công nghiệp lần thứ tư, hay còn gọi là “Công nghiệp 4.0” (I4.0) được giới thiệu bởi Hamburg 2013 [102], đang được thực hiện trong những năm gần đây và tiếp theo dự kiến sẽ thay đổi sâu sắc các quy trình sản xuất và chế tạo trong tương lai, dẫn đến các nhà máy thông minh và môi trường công nghiệp được nối mạng sẽ được hưởng lợi từ các nguyên tắc thiết kế của công nghệ này: khả năng tương tác, ảo hóa, phân quyền, điều khiển và giao tiếp phân tán, khả năng thời gian thực, định hướng dịch vụ, bảo trì nhanh chóng và dễ dàng chi phí thấp [103] Về công nghệ hiện đại, Công nghiệp 4.0 gắn liền với việc ứng dụng và xử lý dữ liệu thông minh trong các lĩnh vực: hệ thống thần kinh nhân tạo, Internet công nghiệp, giải pháp đám mây và dịch vụ phi tập trung, cũng như xử lý và khai thác dữ liệu lớn Các công trình của Klaus-Dieter Thoben, Stefan Wiesner và Thorsten Wuest [104], Robert
Trang 18Lawrence Wichmann, Boris Eisenbart và Kilian Gericke [105] dành cho những nghiên cứu này về công nghệ xử lý dữ liệu lớn theo thời gian thực Bên cạnh đó, các dịch vụ tư vấn trực tuyến cũng đã xuất hiện trên các ứng dụng web thông qua công
cụ tư vấn tự động chatbot [106], [107] bằng cách ứng dụng trí tuệ nhân tạo và dữ liệu đám mây nhằm cung cấp thông tin cho khách hàng Hay như, robot có thể giao tiếp với con người bằng ngôn ngữ tự nhiên [108] Qua đó ta có thể nhận thấy rằng tiền xử
lý dữ liệu là một bước rất quan trọng trong việc giải quyết xử lý truy vấn CSDL và như vậy cơ sở dữ liệu hướng đối tượng mờ cũng cần có các bước tiền xử lý dữ liệu như vậy Trong luận án này, tác giả tập trung nghiên cứu, phát triển các phương pháp
xử lý truy vấn, các phép toán đại số đối tượng mờ, ngôn ngữ truy vấn mờ và các thuật toán tiền xử lý dữ liệu Nhằm đảm bảo cho hệ thống CSDL HĐT mờ hoàn thiện hơn trong các cơ chế vận hành, xử lý dữ liệu mờ
1.2 Các nghiên cứu liên quan
Trong những năm qua đã có nhiều nghiên cứu liên quan về mô hình cơ sở dữ liệu hướng đối tượng mờ theo các cách tiếp cận khác nhau và các kết quả đạt được trên các mô hình này là:
1.2.1 Các mô hình CSDL HĐT mờ
1) Mô hình cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất bởi M.Umano
và các cộng sự [22], trong đó giá trị của thuộc tính đối tượng là các giá trị
mờ với một hệ số chắc chắn, và một ngôn ngữ thao tác dữ liệu trên mô hình này là SQL
2) Mô hình CSDL hướng đối tượng mờ và không chắc chắn được đề xuất bởi Gyseghem và Caluwe [23], đặc tả tính mờ và không chắc chắn bằng cách
sử dụng lần lượt các tập mờ và phân bố khả năng Hành vi và cấu trúc của đối tượng có thể được định nghĩa không đầy đủ, từ đó cho phép đặc tả được các thể hiện của các đối tượng một cách tự nhiên như trong thế giới thực Thừa kế bộ phận, thừa kế có điều kiện và đa thừa kế cũng được giới thiệu trong mô hình này
3) Mô hình CSDL hướng đối tượng mờ được đề xuất bởi G Bordogna và các cộng sự [16], [21] bằng cách mở rộng mô hình đối tượng dựa trên đồ thị Mức độ mờ được biểu diễn bởi các từ chỉ mức độ, chẳng hạn như {không,
Trang 19rất lưu loát, lưu loát, trung bình, cao, rất cao, hoàn toàn}, kết hợp với thể hiện mối quan hệ giữa các đối tượng với một lớp Các khái niệm lớp mờ, phân cấp lớp mờ và các phép toán được định nghĩa dựa trên đồ thị để chọn, duyệt CSDL hướng đối tượng mờ được sử dụng để biểu diễn và xử lý các thông tin mờ
4) Dựa trên quan hệ tương tự, phạm vi của các giá trị thuộc tính được sử dụng
để biểu diễn tập các giá trị cho phép của một thuộc tính trong một lớp được trình bày trong [24] Độ thuộc thành viên của đối tượng thuộc vào một lớp được tính dựa trên mức độ bao hàm các giá trị thuộc tính của đối tượng và trong các phạm vi giá trị thuộc tính của lớp Phân cấp lớp mạnh hay yếu được xác định dựa vào sự tăng đều hay giảm đều theo độ thuộc thành viên của một lớp con vào trong lớp cha của nó
5) Dựa vào lý thuyết khả năng, tính mơ hồ được biểu diễn trong phân cấp lớp, các miền mờ của các thuộc tính lớp con được xác định bằng cách thu hẹp miền của các thuộc tính của lớp cha, mức độ bao hàm của lớp con trong lớp cha được xác định dựa trên mức độ bao hàm các miền mờ của các thuộc tính của lớp cha đối với các miền mờ của các thuộc tính của lớp con [25] Cũng dựa trên phân bố khả năng, trong [26] một số khái niệm chính trong CSDL hướng đối tượng chẳng hạn đối tượng, các mối quan hệ đối tượng/lớp, lớp con/lớp cha và đa thừa kế được đưa ra trong môi trường thông tin mờ
6) Mô hình dựa trên lý thuyết xác suất đầu tiên do nhóm tác giả Kornatzky và Shimony đề xuất năm 1994 [27] Trong mô hình này, lớp được định nghĩa như một tập các thuộc tính mà giá trị của chúng có thể kết hợp với một phân bố xác suất Lược đồ được định nghĩa như một tập các lớp có phân cấp kết hợp với xác suất có điều kiện để một đối tượng của một lớp thuộc
về lớp con của nó Các tác giả cũng đã phát triển một ngôn ngữ truy vấn
để thao tác chọn các đối tượng thỏa một xác suất được kết hợp với các truy vấn Bên cạnh đó một mô hình mới về xác suất đã được đề xuất [28] nhằm
mô tả một diễn dịch xác suất của các quan hệ trên các giá trị tập mờ và một đại số cho các bộ ba xác suất mờ được nghiên cứu và định nghĩa một cách hình thức
Trang 201.2.2 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ
1) Thuật toán phân cụm cơ sở dữ liệu sử dụng lập trình mạng di truyền (GNP) [29] tách được các cụm đối tượng dựa trên phân loại mẫu, trong đó nhãn cụm gán cho mỗi đối tượng được biểu diễn bằng một tập hợp các đặc trưng
mờ GNP là một trong những thuật toán tiến hóa và khám phá các quy tắc
mờ từ cơ sở dữ liệu hướng đối tượng mờ Việc tối ưu hóa các cụm được thực hiện để các đối tượng có độ tương tự cao được đưa vào cùng một cụm 2) Nhằm mục đích phân biệt các đối tượng trong cơ sở dữ liệu hướng đối tượng mờ, L Yan và Z M Ma [30] sử dụng độ đo ngữ nghĩa của dữ liệu
mờ, để so sánh một cách tổng quát hơn các đối tượng và lớp với kiểu dữ liệu mờ
3) Một trong những vấn đề quan trọng nhất trong cơ sở dữ liệu mờ là làm thế nào để quản lý sự xuất hiện của sự mơ hồ, không chính xác và không chắc chắn Các phương pháp đánh giá tính tương tự là cần thiết để tìm các đối tượng gần với các đối tượng mờ đã cho khác hoặc được sử dụng trong một truy vấn mơ hồ của người dùng Các phương pháp như vậy cũng có thể được sử dụng trong cơ sở dữ liệu mờ hoặc thậm chí mô hình cơ sở dữ liệu quan hệ cổ điển Y Bashon và các cộng sự [31] đề xuất phương pháp tính toán tính tương tự để so sánh hai đối tượng mờ thông qua các thuộc tính
mờ bằng cách sử dụng độ đo khoảng cách Euclide So sánh được thực hiện cho hai trường hợp: cả hai thuộc tính là mờ hoặc một thuộc tính rõ với một thuộc tính mờ
4) Y Bashon và các cộng sự [4] phát triển phép đo độ tương tự dựa trên mô hình đối sánh Tversky và áp dụng nó trên các tập mờ bằng cách sử dụng lý thuyết tập mờ và các phép toán của chúng Mô hình này cung cấp một phương pháp so sánh các đối tượng có nội dung mơ hồ / mờ
1.2.3 Xử lý và tối ưu hóa truy vấn mờ
1) S Na và S Park [32] đề xuất mô hình dữ liệu hướng đối tượng mờ mới model) và định nghĩa đại số kết hợp mờ mở rộng (FA-algebra) F-model
(F-hỗ trợ các lớp mờ và liên kết mờ giữa các đối tượng mờ Bằng đại số FA
Trang 21mở rộng dựa trên các kết hợp mờ, truy vấn mờ được đề xuất nhằm xử lý các giá trị mờ và ngôn ngữ gia tử
2) P K Panigrahi và A Goswami [19] thiết kế đại số đối tượng dựa trên các khía cạnh kiểu và tập hợp của lớp Một khuôn mẫu được nêu ra để thực hiện các phép toán lý thuyết tập hợp, cụ thể là phép hợp, phép giao và phép hiệu dựa trên trên cấu trúc lớp Các phép toán thiết lập trên thành viên của lớp tương ứng chứa các đối tượng mờ được phát triển bằng cách sử dụng giá trị chân lý của đối tượng và nhận dạng đối tượng
1.3 Các vấn đề nghiên cứu và giải pháp
1.3.1 Biểu diễn thông tin không hoàn hảo trong mô hình khái niệm dữ liệu mờ
Mục tiêu của cơ sở dữ liệu mờ là chủ yếu xử lý thông tin không hoàn hảo trong cơ sở
dữ liệu Các loại thông tin không hoàn hảo được phân biết như sau [23]:
Sự không nhất quán: là một loại ngữ nghĩa thể hiện khả năng sung đột khi xét
một số khía cạnh của thế giới thực không thể biểu diễn được nhiều hơn một lần trong cơ sở dữ liệu (khi độ tuổi của một người được lưu trữ là 34 và 37);
Tính không chính xác: có liên quan đến nội dung của giá trị thuộc tính và có
nghĩa là lựa chọn phải được thực hiện từ một phạm vi (khoảng thời gian hoặc tập hợp) đã cho (tuổi của một người là tập hợp {17, 18, 19, 20} hoặc chiều cao nằm trong khoảng [1.00 - 1.95]);
Sự mơ hồ: giống như sự thiếu chính xác nhưng thường được thể hiện bằng các
giá trị ngôn ngữ (tuổi của một người là “trẻ”);
Tính không chắc chắn: Sự không chắc chắn đề cập đến việc thiếu thông tin về
các sự kiện của thế giới thực, để xác định một phát biểu Boolean (có thể đúng hay sai)
Sự không rõ ràng: có nghĩa là một số yếu tố của mô hình thiếu sự hoàn chỉnh
về mặt ngữ nghĩa dẫn đến một số cách giải thích có thể khác nhau
Nói chung, một số loại thông tin không hoàn hảo khác nhau có thể cùng tồn tại đối với cùng một phần thông tin Không chính xác, không chắc chắn và mơ
hồ là ba loại thông tin không hoàn hảo chính và có thể được mô hình hóa bằng các tập mờ [69] và lý thuyết khả năng [5] Nhiều cách tiếp cận hiện tại đối với tính không chính xác và không chắc chắn dựa trên lý thuyết tập mờ [70], [71]
Trang 22Cho 𝑈 = { 𝑢1, 𝑢2, … , 𝑢𝑛} là một tập hợp và F là một tập con của U Một phần tử u của U có thuộc F hay không, có thể mô tả bởi một hàm thuộc 𝜇𝐹:
𝜇𝐹(𝑢) = {1 𝑛ế𝑢 𝑢 ∈ 𝐹
0 𝑁ế𝑢 𝑢 ∉ 𝐹
Trong tập con mờ, hàm thuộc của một phần tử nào đó của F không chỉ nhận giá trị
{0, 1} mà có thể nhận giá trị trong khoảng [0; 1]
Định nghĩa 1.1: Cho U là một vũ trụ các đối tượng (sau đây gọi tắt là vũ trụ), một
tập mờ F trên U xác định bởi hàm thuộc 𝜇𝐹: 𝑈 → [0; 1], gán cho mỗi phần tử u của
U một độ thuộc 𝜇𝐹(𝑢) để chỉ độ thuộc của u vào tập mờ F Tập mờ F được biểu diễn
dưới dạng:
𝐹 = {(𝑢1, 𝐹(𝑢1)), (𝑢2, 𝐹(𝑢2)), , (𝑢𝑛, 𝐹(𝑢𝑛))}
Khi F (u)được xem như độ đo khả năng mà một biến X nhận giá trị u, một giá trị
mờ được biểu diễn bằng phân bố khả năng 𝜋𝑋 [5] như sau:
𝜋𝑋 = {(𝑢1, 𝜋𝑋(𝑢1)), (𝑢2, 𝜋𝑋(𝑢2)), , (𝑢𝑛, 𝜋𝑋(𝑢𝑛))}
Trong đó, 𝜋𝑋(𝑢𝑖), 𝑢𝑖 ∈ 𝑈 biểu thị khả năng mà X nhận giá trị 𝑢𝑖 Cho X,Flần lượt
là biểu diễn phân bố khả năng và tập mờ cho một giá trị mờ, khi đó X F
Định nghĩa 1.2: Tập mờ F được gọi là chuẩn nếu tồn tại ít nhất một phần tử 𝑢 ∈ 𝑈
sao cho 𝜇𝐹(𝑢) = 1
Ví dụ 1.1: Cho U là tập các tuổi 37 tuổi, 39 tuổi, 41 tuổi, 43 tuổi và 45 tuổi Một giá
trị mờ tuổi “Trung niên” có thể được mô tả bởi tập mờ F là tập hợp các tuổi “Trung
niên” như sau:
𝐹 = {0.5/37 𝑡𝑢ổ𝑖, 0.6/39 𝑡𝑢ổ𝑖, 0.7/41 𝑡𝑢ổ𝑖, 0.8/43 𝑡𝑢ổ𝑖, 1.0/45 𝑡𝑢ổ𝑖} Trong đó, 𝜇𝐹(37 𝑡𝑢ổ𝑖) = 0.5, 𝜇𝐹(39 𝑡𝑢ổ𝑖) = 0.6, 𝜇𝐹(41 𝑡𝑢ổ𝑖) =
0.7, 𝜇𝐹(43 𝑡𝑢ổ𝑖) = 0.8, 𝜇𝐹(45 𝑡𝑢ổ𝑖) = 1
Hình 1.1 Biểu diễn dữ liệu mờ tuổi
Trang 23Lý thuyết tập hợp mờ lần đầu tiên được áp dụng cho một số khái niệm cơ bản
ER ở Zvieli và Chen [6] Đề xuất này đã giới thiệu tập hợp kiểu thực thể mờ, tập hợp kiểu quan hệ mờ và tập thuộc tính mờ của các kiểu thực thể (hoặc kiểu quan hệ), tạo thành ba mức mờ sau đây trong mô hình ER
Mức 1 (Mức lược đồ): Lớp thuộc về mô hình dữ liệu hay thuộc tính định nghĩa lớp thuộc về lớp với độ thuộc nằm trong [0; 1]
Mức 2 (Mức thể hiện lớp): Tính mờ liên quan đến một số thể hiện là các thể hiện của lớp, mặc dù cấu trúc dữ liệu định nghĩa lớp là rõ nhưng các thể hiện của lớp thuộc về lớp với độ thuộc nằm trong [0; 1]
Mức 3 (Mức thuộc tính): Liên quan đến giá trị các thuộc tính của thể hiện lớp Một thuộc tính trong lớp xác định một miền giá trị, khi miền giá trị này là một tập con mờ hay tập các tập con mờ thì giá trị thuộc tính là mờ
Ví dụ 1.2: Xét các giá trị thành viên cho các kiểu thực thể, kiểu quan hệ và thuộc
tính Giả sử rằng ta có một mô hình ER về một thư viện bao gồm hai loại thực thể
“Sách” , “Cửa hàng sách” và có mối quan hệ “Mua từ” giữa hai loại thực thể này Mô hình giả định rằng “Cửa hàng sách” là một loại thực thể mờ với cấp thành viên là 0.6 Sau đó, “Mua từ” là một kiểu quan hệ mờ với cấp thành viên là 0.6 Ngoài ra, Sách
có thể chứa thuộc tính “Kích thước” ngoài các thuộc tính ID, Tên sách, Tác giả, ISBN, Nhà xuất bản, v.v và “Kích thước” là một thuộc tính mờ với cấp thành viên là 0.4
1.3.2 Mô hình hóa UML của dữ liệu mờ
Phần này mở rộng từ biểu đồ lớp UML để biểu diễn thông tin mờ [3] Vì các cấu trúc của UML chứa lớp và các mối quan hệ, nên việc mở rộng các cấu trúc này được tiến hành dựa trên các tập mờ Với mục đích này, đề xuất [3] đã mô tả chính thức về biểu
đồ lớp UML
Biểu đồ lớp UML là một bộ 𝐷 = (𝐶, 𝐴, 𝑅, 𝑂, 𝑀, 𝑆), trong đó C là tập hữu hạn các lớp, A là tập hữu hạn các thuộc tính, R là tập các mối quan hệ, O là một tập các đối tượng, M là một tập các phương thức và S là một tập các ràng buộc Phần mục này tập trung vào các lớp, thuộc tính, mối quan hệ và đối tượng, từ đó đề xuất mô hình sơ đồ lớp UML như sau: 𝐷 = (𝐶, 𝐴, 𝑅, 𝑂), trong đó 𝐶 = {𝑐1, 𝑐2, … , 𝑐𝑘}, 𝐴 = {𝑎1, 𝑎2, … , 𝑎𝑙}, 𝑅 = {𝑟1, 𝑟2, … , 𝑟𝑚} và 𝑂 = {𝑜1, 𝑜2, … , 𝑜𝑛} Ta có:
Trang 24 R ⊆ C × C là một quan hệ nhị nguyên đại diện cho tổng quát hóa, tập hợp, liên kết hoặc phụ thuộc
Với ci ∈ C (1 ≤ i ≤ k), A (ci) đại diện cho một tập các thuộc tính của ci
op được sử dụng thay vì op(ci) và op(aj) được sử dụng thay vì op(aj(ci))
Để lưu trữ thông tin mờ trong biểu đồ lớp UML, mô hình biểu đồ lớp UML phải được mở rộng bằng cách sử dụng tập mờ và logic mờ Về mặt hình thức, một sơ đồ lớp UML mờ là một bộ 𝐷̃ = (𝐶̃, 𝐴̃, 𝑅̃, 𝑂̃), trong đó 𝐶̃ là tập các lớp mờ, 𝐴̃ là tập các thuộc tính mờ, 𝑅̃ là tập các mối quan hệ mờ, và 𝑂̃ là tập các đối tượng mờ
1.3.3 Lớp mờ
Về mặt lý thuyết, một lớp có thể được xem xét từ hai quan điểm khác nhau:
a) Một lớp mở rộng (kế thừa), trong đó lớp được xác định bởi danh sách các đối tượng
b) Một lớp nguyên [3], trong đó lớp được xác định bởi một tập các thuộc tính
và các giá trị có thể chấp nhận
Một lớp con được xác định từ lớp cha của nó bằng cơ chế kế thừa và đây có thể được coi là trường hợp đặc biệt của (b) ở trên Các đối tượng có cùng thuộc tính được nhóm thành các lớp Giả sử rằng một số đối tượng mờ có các thuộc tính tương tự và một lớp được định nghĩa bởi các đối tượng này Các đối tượng này thuộc về lớp có
độ thuộc thành viên là [0; 1], làm cho nó trở thành một lớp mờ Ngoài ra, đối với một lớp nguyên, miền của thuộc tính lớp có thể mờ Do đó, một số đối tượng có thể có các giá trị mờ trên thuộc tính này, làm cho lớp tương ứng trở thành một lớp mờ Cuối cùng, một lớp được tạo ra bởi một lớp mờ bằng phương pháp đặc biệt hóa, hoặc một
Trang 25lớp được tạo ra bởi một số lớp (trong đó ít nhất một lớp mờ) bằng phương pháp tổng quát hóa
Theo Zvieli và Chen [6], một lớp có ba mức độ mờ 𝐷̃ = (𝐶̃, 𝐴̃, 𝑅̃, 𝑂̃)
a) Mức độ mờ đầu tiên đánh giá mức độ mà lớp thuộc về mô hình dữ liệu cũng như mức độ mờ giá trị thuộc tính của lớp Tại thời điểm này, ta có một tập mờ các lớp 𝐶̃ và 𝑐𝑖 là lớp của 𝐶̃ với mức thành viên 𝜇𝐶̃(𝑐𝑖), đi cùng với nó là một tập mờ gồm các thuộc tính A (𝑐𝑖) và 𝑎𝑗(𝑐𝑖) là thuộc tính của A (𝑐𝑖) với mức thành viên 𝜇𝐴̃(𝑎𝑗(𝑐𝑖))
b) Mức độ mờ thứ hai đánh giá mức độ mà một số đối tượng thuộc về một lớp Một đối tượng là mờ nếu nó chứa ít nhất một giá trị thuộc tính mờ Khi đó, một đối tượng như vậy 𝑜𝑝(𝑐𝑖) là đối tượng của lớp 𝑂(𝑐𝑖) với mức thành viên
𝜇𝑂̃(𝑜𝑝(𝑐𝑖))
c) Mức độ mờ thứ ba là các giá trị thuộc tính của các đối tượng của lớp Một thuộc tính trong một lớp được xác định một miền giá trị Khi miền này là một tập con mờ hoặc một tập của một tập con mờ, giá trị của một đối tượng trên thuộc tính, chẳng hạn 𝑜𝑝(𝑎𝑗(𝑐𝑖)) , 𝑣ớ𝑖 1 ≤ 𝑝 ≤ 𝑛, là một miền mờ được biểu diễn bằng phân bố khả năng {(𝑣1, 𝜋(𝑣1)), (𝑣2, 𝜋(𝑣2)), … , (𝑣𝑞, 𝜋(𝑣𝑞))} Ở đây, 𝜋(𝑣𝑠), 𝑣ớ𝑖 1 ≤ 𝑠 ≤ 𝑞 biểu thị khả năng của 𝑜𝑝(𝑎𝑗(𝑐𝑖)) có giá trị 𝑣𝑠
Ba mức độ mờ trong lớp tạo thành nền tảng của biểu đồ lớp UML mờ, vì vậy
độ ổn định của chúng là rất quan trọng Xét mức độ mờ đầu tiên Đối với tập mờ 𝐶̃ của các lớp và bất kỳ lớp 𝑐𝑖, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘, bậc mà 𝑐𝑖 thuộc 𝐶̃ là 𝜇𝐶̃(𝑐𝑖), 𝑣ớ𝑖 0 ≤
𝜇𝐶̃(𝑐𝑖) ≤ 1 Điều này ngụ ý rằng đối với sơ đồ lớp UML truyền thống không có thông tin không chính xác hoặc không chắc chắn, 𝜇𝐶̃(𝑐𝑖) = 0, 𝑐𝑖 không thuộc 𝐶̃ hoặc
𝜇𝐶̃(𝑐𝑖) = 1, 𝑐𝑖 thuộc 𝐶̃ Tại thời điểm này, 𝐶̃ là một tập hợp các lớp rõ Ngoài ra, đối với lớp 𝑐𝑖, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘 và thuộc tính 𝑎𝑗(𝑐𝑖), 𝑣ớ𝑖 1 ≤ 𝑗 ≤ 𝑙 của 𝑐𝑖, mức độ 𝑎𝑗 thuộc 𝐴(𝑐𝑖) là 𝜇𝐴̃ (𝑎𝑗(𝑐𝑖)) , 𝑣ớ𝑖 0 ≤ 𝜇𝐴̃(𝑎𝑗(𝑐𝑖)) ≤ 1 Như vậy, 𝜇𝐴̃(𝑎𝑗(𝑐𝑖)) = 0 hoặc
𝜇𝐴̃(𝑎𝑗(𝑐𝑖)) = 1 trong môi trường thông tin truyền thống (không có sự chính xác hoặc không chắc chắn nào cả) Tình huống trước chỉ ra rằng 𝑎𝑗 không phải là thuộc tính của 𝑐𝑖, trong khi tình huống sau chỉ ra rằng 𝑎𝑗 phải là thuộc tính của 𝑐𝑖 Xét mức độ
Trang 26mờ thứ hai Đối với lớp 𝑐𝑖, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘 và một đối tượng 𝑜𝑝(𝑐𝑖), 𝑣ớ𝑖 1 ≤ 𝑝 ≤ 𝑛 của 𝑐𝑖, mức độ 𝑜𝑝 thuộc 𝑂(𝑐𝑖) là 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) , 𝑣ớ𝑖 0 ≤ 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) ≤ 1 Sau đó, trong môi trường thông tin truyền thống, 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) = 0 hoặc 𝜇𝑂̃(𝑜𝑝(𝑐𝑖)) = 1, có nghĩa là 𝑜𝑝 không phải là đối tượng của 𝑐𝑖 hoặc 𝑜𝑝 phải là đối tượng của 𝑐𝑖, tương ứng Cuối cùng, xét mức độ mờ thứ ba Giá trị thuộc tính của đối tượng 𝑜𝑝(𝑎𝑗(𝑐𝑖)) được biểu diễn bằng phân bố khả năng {𝜋(𝑣1 )/𝑣1 , 𝜋(𝑣2 )/𝑣2 , … , 𝜋(𝑣𝑞 )/𝑣𝑞 } Khả năng 𝑜𝑝(𝑎𝑗(𝑐𝑖)) có giá trị so với 𝑣𝑠, 𝑣ớ𝑖 1 ≤ 𝑠 ≤ 𝑞 là 𝜋(𝑣𝑠), 0 ≤ 𝜋 (𝑣𝑠) ≤ 1 Ngoài
ra, khi không có thông tin không chính xác hoặc không chắc chắn, 𝜋(𝑣𝑠) = 0 hoặc 𝜋(𝑣𝑠) = 1 Kết quả là {(𝑣1, 𝜋(𝑣1)), (𝑣2, 𝜋(𝑣2)), … , (𝑣𝑞, 𝜋(𝑣𝑞))} được rút gọn thành một tập rõ và 𝑜𝑝(𝑎𝑗(𝑐𝑖)) nhận một giá trị thuộc tính rõ Tóm lại, biểu đồ lớp UML truyền thống chỉ đơn giản là một trường hợp đặc biệt của biểu đồ lớp UML mờ
Vì nó là một phần mở rộng của biểu đồ lớp UML truyền thống, nên biểu đồ lớp UML
mờ với ba mức độ mờ có thể giảm xuống sơ đồ truyền thống trong trường hợp không
có thông tin không chính xác và không chắc chắn Do đó, việc mở rộng ba mức độ
mờ cho các lớp là phù hợp
Mô hình hóa cho ba mức độ mờ được thực hiện như sau:
1 Mức thứ nhất, tức là một thuộc tính hoặc một lớp có mức thành viên, thì thuộc
tính hoặc tên lớp phải được khai báo bởi một cặp từ WITH mem DEGREE,
trong đó 0 ≤ mem ≤ 1, được sử dụng để biểu thị mức độ mà thuộc tính thuộc
về lớp hoặc lớp thuộc về mô hình dữ liệu [23], [72]
Ví dụ 1.3: lớp “Nhân viên WITH 0.6 DEGREE” và thuộc tính “Mã nhân viên WITH 0.8 DEGREE” có mức độ mờ thứ nhất Nói chung, một thuộc
tính hoặc lớp sẽ không được khai báo khi mức thành viên của nó là 0 Ngoài
ra, “WITH 1.0 DEGREE” có thể bị bỏ qua khi mức thành viên của một thuộc
tính hoặc lớp là 1 Lưu ý rằng các giá trị thuộc tính có thể mờ
2 Đối với mức độ mờ thứ hai, mức thành viên mà một đối tượng thuộc về lớp Với mục đích này, một thuộc tính bổ sung có ký tự là 𝜇 được đưa vào lớp để thể hiện mức thành viên của đối tượng thuộc lớp với miền [0; 1] Một lớp có mức độ mờ thứ hai được biểu thị bằng hình chữ nhật với đường nét đứt nét
Trang 273 Để mô hình hóa mức độ mờ thứ ba, từ khóa FUZZY được khai báo trước tên
thuộc tính
Hình 1.2 cho thấy lớp nhân viên trẻ là mờ Ở đây, thuộc tính Năm sinh có thể nhận các giá trị mờ; cụ thể miền của nó là mờ Không rõ liệu lớp Nhân viên trẻ có thuộc tính Vợ/Chồng hay không, nhưng ta biết rằng các nhân viên trẻ có vợ hoặc chồng có khả năng nằm ở khoảng giữa, chẳng hạn 0.5 Do đó, thuộc tính Vợ/Chồng không chắc chắn thuộc về lớp Nhân viên trẻ Lớp này có độ mờ ở cấp độ thứ nhất và
sử dụng "với mức thành viên 0.5" để mô tả độ mờ trong định nghĩa lớp Ngoài ra, chúng ta không thể xác định liệu một đối tượng có phải là một thể hiện của lớp hay không vì lớp này mờ Do đó, một thuộc tính (μ) được bổ sung vào lớp
Hình 1.2 Lớp mờ
1.3.4 Giá trị thuộc tính mờ
Chúng ta xem hai giá trị không chính xác và không rõ ràng như là các giá trị mờ Mỗi giá trị rõ ràng và chính xác có thể được mở rộng thêm các giá trị mờ Chúng ta xác định ba loại khác nhau của các giá trị mờ
Một giá trị rõ thuộc vũ trụ U được đặc trưng bởi hàm sau đây
𝜇𝑎(𝑥) = {1, 𝑛ế𝑢 𝑥 = 𝑎
0, 𝑛ế𝑢 𝑥 ≠ 𝑎Giá trị không chắc chắn 𝑎 được xác định trong khoảng có chứa ít nhất hai phần tử,
và hàm đặt trưng được biểu diễn như sau
𝜇𝑎(𝑥) = {1, 𝑛ế𝑢 𝑥 ∈ 𝑎
0, 𝑛ế𝑢 𝑥 ∉ 𝑎Một giá trị mơ hồ thuộc vũ trụ U được xác định bởi một tập mờ và được đặc trưng bởi hàm như: 0 ≤ 𝜇𝑎(𝑥) ≤ 1 𝑣ớ𝑖 ∀ 𝑥 ∈ 𝑈, để mô tả ngữ nghĩa cho thuộc tính của đối tượng là những giá trị mơ hồ
NHÂN VIÊN TRẺ
ID
Họ tên FUZZY Ngày sinh Vợ/Chồng WITH 0.5 DEGREE
μ
Trang 281.3.5 Biểu diễn các giá trị thuộc tính mơ hồ cho đối tượng mờ
Trong mục này, mức mờ được giới thiệu ở các mức khác nhau Điểm chung cho tất
cả các đề xuất [74], [109], [110] này là sự hỗ trợ của mức mờ ở cấp thuộc tính Nội dung dưới đây đề xuất một tập hợp các kiểu dữ liệu phong phú dành cho việc mô hình hóa các loại thông tin không hoàn hảo khác nhau Để tạo điều kiện cho thao tác dữ liệu và tính toán hiệu quả, các loại giá trị thuộc tính khác nhau được thể hiện thống nhất thông qua phân phối khả năng
Các tác giả [109], [74] liệt kê bốn cấp độ để thực hiện thông tin không hoàn hảo trong
cơ sở dữ liệu: Mức hệ thống cơ sở dữ liệu, mức cơ sở dữ liệu, mức siêu dữ liệu, và mức cơ sở mô hình:
1 Mức hệ thống cơ sở dữ liệu: Mức này được liên kết với mở rộng các ngôn ngữ thao tác dữ liệu để xử lý các mức mờ khác nhau mà hệ thống cơ sở dữ liệu cần
hỗ trợ [109]
2 Mức cơ sở dữ liệu: Ở mức này biểu diễn cách lưu trữ thông tin không hoàn hảo Điều này liên quan đến tất cả các giá trị thuộc tính và định nghĩa mức độ của các mối quan hệ / lớp mờ khác nhau [109]
3 Mức siêu dữ liệu: Mức này liên quan đến mục đích của các mối quan hệ / lớp
mờ Lưu ý rằng mức này được gọi là siêu dữ liệu trong [109]
4 Mức cơ sở mô hình: Mức này thuộc nhóm các hàm được định nghĩa để tính toán mức thành viên và các hàm này được liên kết với các loại dữ liệu khác nhau nhằm đảm bảo cho mức này biểu diễn dạng phân bố khả năng [74] Như đã nhấn mạnh ở trên, cách tiếp cận chi tiết sau đây đã được triển khai trong mô hình cơ sở dữ liệu quan hệ đối tượng nhưng nó đủ chung để thực hiện trong các mô hình cơ sở dữ liệu khác, đặc biệt là đối với các mô hình cơ sở dữ liệu quan hệ, hướng đối tượng
Để lưu trữ nét đặt trưng của tất cả các thuộc tính, chúng được định nghĩa một mối quan hệ meta, được gọi là ATTRIBUTES, ở cấp siêu dữ liệu với các thuộc tính sau:
Attribute-id: Xác định duy nhất mỗi thuộc tính được định nghĩa ở cấp cơ sở
dữ liệu, là khóa chính của mối quan hệ meta ATTRIBUTES Lưu ý rằng để phân biệt các thuộc tính khóa trong quan hệ này với các thuộc tính khác bằng dấu gạch chân
Trang 29 Attribute-name: Lưu tên của thuộc tính Đối với cơ sở dữ liệu cổ điển, cùng một lớp/quan hệ mờ không thể có hai thuộc tính có cùng tên nhưng cùng tên thuộc tính có thể xuất hiện trong các quan hệ/lớp mờ khác nhau
Defined-in: Biểu diễn mối quan hệ/lớp mờ theo thuộc tính
Data-type: Dạng thuộc tính đa giá trị lưu trữ loại thuộc tính có thể nhận bất kỳ một trong các phần tử của danh sách Đối với các thuộc tính rõ, thuộc tính này hoạt động như các cơ sở dữ liệu thông thường (nó có thể lấy các giá trị của các kiểu dữ liệu như integer, real, float, v.v.) Đối với các thuộc tính mờ dựa vào kiểu dữ liệu lưu trữ chính kiểu dữ liệu mờ và kiểu dữ liệu rõ cơ bản
Bảng 1.1 Quan hệ meta ATTRIBUTES
attr-id attribute-name defined-in data-type
attr-16 kiểu dữ liệu của sao STAR {symbolic}
attr-17 tuổi STAR {linguistic label, integer} attr-18 độ sáng STAR {linguistic label, real}
attr-19 vị trí STAR {linguistic label, real}
attr-20 trọng lượng STAR {interval, real}
attr-77 lĩnh vực nghiên cứu SCIENTIST { scalar}
attr-80 tuổi SCIENTIST {linguistic label, integer}
Bảng 1.1 biểu diễn một số thuộc tính được liên kết với lớp mờ STAR và lớp SCIENTIST được giới thiệu trong [110]
Trong thực tế, chúng được định nghĩa một phép đo phổ biến với thuộc tính đa giá trị lưu trữ tất cả các tham số cần thiết Mối quan hệ meta này, được biểu thị bởi PARAMETERS, chứa một dòng cho mỗi giá trị ngôn ngữ xuất hiện trong miền của bất kỳ thuộc tính loại dữ liệu ngôn ngữ nào (hoặc danh sách các giá trị cho phép biểu diễn dữ liệu dạng biểu tượng) Ba loại thuộc tính có dạng như sau:
Attribute-id: Tham chiếu một thuộc tính xuất hiện trong ATTRIBUTES quan
hệ meta
Label: Lưu trữ một nhãn ngôn ngữ thuộc về miền thuộc tính Đối với các kiểu
dữ liệu biểu tượng, thuộc tính này có giá trị là “nill”
Trang 30 Parameters: Thuộc tính đa giá trị được sử dụng để lưu trữ các tham số cần thiết để tạo phân phối khả năng của nhãn ngôn ngữ Các thuộc tính không có tham số, sẽ không được tính trong quan hệ meta PARAMETERS
Bảng 1.2 Mối quan hệ meta của PARAMETERS
các ngôn ngữ trong thuộc tính tham số
Các giá trị thuộc tính có thể rõ, mờ hoặc cả hai được xác định thông qua các quan hệ/lớp mờ Hệ thống cơ sở dữ liệu phải cho phép người dùng chèn các giá trị của bất
kỳ kiểu dữ liệu nào phù hợp với định nghĩa của thuộc tính Ở mức độ xác định của quan hệ/lớp mờ, mỗi thuộc tính mờ được ánh xạ thành một tổ hợp mới bao gồm ba thuộc tính thành phần:
Các giá trị thuộc tính được lưu trữ ở mức cơ sở dữ liệu cùng với mức độ định nghĩa của các mối quan hệ/lớp của chúng Như đã đề cập ở trên, để tạo thuận lợi cho thao tác dữ liệu và tính toán hiệu quả, các loại giá trị thuộc tính khác nhau được thể hiện thống nhất thông qua phân phối khả năng Tuy nhiên, các bản phân phối này không được lưu trữ rõ ràng trong cơ sở dữ liệu mà được tạo tự động trong quá trình xử lý dữ liệu và xử lý truy vấn bằng các hàm cụ thể được liên kết với các loại dữ liệu khác nhau
Các giá trị thuộc tính có thể rõ, mờ hoặc cả hai Điều này chỉ cần được chỉ ra trong mục đích xác định các mối quan hệ/lớp mờ dựa trên các thuộc tính Hệ thống cơ sở
dữ liệu sẽ cho phép người dùng chèn các giá trị của bất kỳ loại dữ liệu nào phù hợp với định nghĩa của thuộc tính Ở phạm vi của mối quan hệ/lớp mờ, mỗi thuộc tính mờ
Trang 31được ánh xạ thành một tổ hợp mới bao gồm các thành phần của ba thuộc tính như sau:
Attr-value: lưu trữ giá trị của thuộc tính do người dùng cung cấp
Data-type: lưu trữ kiểu dữ liệu của giá trị được chèn
Parameters: thuộc tính đa giá trị được sử dụng để lưu trữ các tham số được liên kết với giá trị thuộc tính được sử dụng để tạo phân phối khả năng data-type được sử dụng cả ở phạm vi và mục đích cho phép người dùng chèn giá trị của các loại dữ liệu khác nhau, có thể có số lượng tham số khác nhau Điều này sẽ cung cấp nhiều khả năng hơn cho người dùng Tuy nhiên, các loại dữ liệu khác nhau được định nghĩa ở cấp độ phạm vi phải phù hợp với định nghĩa chính thức của thuộc tính ở cấp độ mục đích Chẳng hạn, định nghĩa chính thức của thuộc tính có thể là phân phối khả năng dựa trên hình thang với bốn tham số nhưng người dùng có thể đưa ra một giá trị rõ (không có tham số nào), một khoảng (chỉ có hai tham số) hoặc giá trị gần đúng (với chỉ ba tham số) Lưu ý rằng kiểu dữ liệu thuộc tính ở mức độ không phải là một kiểu đa giá trị
1.3.6 Quan hệ tổng quát hóa mờ
Kế thừa là một cơ chế quan trọng trong mô hình dữ liệu hướng đối tượng cho phép một lớp được gọi là lớp con kế thừa các thuộc tính và phương thức từ một lớp khác được gọi là lớp cha Kết quả là, kế thừa cho phép định nghĩa các lớp cha và lớp con,
và các lớp được tổ chức theo phân cấp kế thừa trong đó các định nghĩa về thuộc tính
và phương thức được kế thừa giữa các lớp Bởi vì một lớp con là một chuyên biệt hóa của lớp cha, bất kỳ một đối tượng nào thuộc lớp con phải thuộc về lớp cha Đặc tính này có thể được sử dụng để xác định xem hai lớp có mối quan hệ là cha/con (trong quan hệ kế thừa lớp cha gọi lớp tổng quát hóa, lớp con gọi là lớp chi tiết hóa) hay không
Trong mô hình dữ liệu UML mờ, các lớp có thể mờ Một lớp được tạo ra từ một lớp mờ bằng phương pháp kế thừa có thể mờ Một lớp là lớp con của một lớp khác với mức thành viên [0; 1], thì mối quan hệ lớp con/lớp cha là mờ Ngoài ra, một lớp
có thể là một lớp mờ có mức thành viên dẫn đến đối tượng được tạo ra từ lớp này là (mờ) Thông qua ngưỡng của các đối tượng ta có thể xác định mối quan hệ cha/con
Trang 32Đề xuất của nhóm tác giả [3] đã phát triển phương pháp sau nhằm xác định mối quan
Các đối tượng sẽ đạt mức thành viên ở mức tối thiểu khi các đối tượng này thuộc
về lớp con trong quan hệ kế thừa Ở đây, ngưỡng đã cho được sử dụng để đặt độ tin cậy mà hai lớp có mối quan hệ lớp con/lớp cha với mức thành viên Nói chung, hai loại đối tượng của lớp con có thể được xác định: các đối tượng có mức thành viên nhỏ hơn ngưỡng đã cho và đối tượng có mức thành viên lớn hơn hoặc bằng ngưỡng
đã cho Với ngưỡng đã cho, hai lớp có mối quan hệ lớp con/lớp cha miễn là các đối tượng sau có mức thành viên nhỏ hơn hoặc bằng mức thành viên mà chúng thuộc về lớp cha Nếu ngưỡng không được đặt, thì hai lớp không có mối quan hệ lớp con/lớp cha khi tồn tại một đối tượng của lớp con có mức thành viên lớn hơn mức thành viên
mà nó thuộc về lớp cha, ngay cả khi mức thành viên này là rất nhỏ
Cho 𝑐′ và 𝑐′′ là các lớp (mờ) với 𝛽 là ngưỡng cho trước Ta nói rằng 𝑐′′ là một lớp con của 𝑐′ nếu (∀𝑜), 𝑣ớ𝑖 𝛽 ≤ 𝜇𝑐′′(𝑜) ≤ 𝜇𝑐′(𝑜)
Mức thành viên mà 𝑐′′ là lớp con của 𝑐′ phải là 𝑚𝑖𝑛𝜇
𝑐′′ (𝑜) ≥ 𝛽(𝜇𝑐′′(𝑜)) Ở đây, o là đối tượng của 𝑐′ và 𝑐′′, 𝜇𝑐′(𝑜) và 𝜇𝑐′′(𝑜) lần lượt là các mức thành viên của đối tượng
o thuộc lớp 𝑐′ và 𝑐′′
Tuy nhiên, lưu ý rằng trong mối quan hệ tổng quát mờ nói trên, chúng ta giả định rằng các lớp 𝑐′ và 𝑐′′ chỉ có mức mờ thứ hai Các lớp 𝑐′ hoặc 𝑐′′ có thể là các lớp có mức thành viên, cụ thể là với cấp độ mờ thứ nhất Giả sử rằng ta có hai lớp 𝑐′ và 𝑐′′, như sau:
Trang 33tượng nào của lớp cha 𝑐′ lớn hơn hoặc bằng mức thành viên của đối tượng lớp con
𝑐′′ Mức thành viên của lớp 𝑐′ và lớp 𝑐′′ lớn hơn hoặc bằng ngưỡng đã cho và mức thành viên của 𝑐′ lớn hơn hoặc bằng mức thành viên của 𝑐′′
Xét lớp cha mờ 𝑐′ và các lớp con mờ 𝑐1′′, 𝑐2′′, , 𝑐𝑛′′ tương ứng với các cấp thành viên
là 𝜇𝑐′ , 𝜇𝑐
1′′, 𝜇𝑐
2′′, , 𝑣à 𝜇𝑐𝑛′′, cũng có các cấp thành viên tương ứng là degree_𝑐′,
degree_𝑐1′′, degree_𝑐2′′, , và degree_𝑐𝑛′′ Khi đó, ta có mối quan hệ sau:
(∀𝑜)(𝑚𝑎𝑥(𝜇𝑐1′′(0), 𝜇𝑐2′′(0), … , 𝜇𝑐𝑛′′(0)) ≤ 𝜇𝑐′(0))
∧ (𝑚𝑎𝑥(𝑑𝑒𝑔𝑟𝑒𝑒_𝑐1′′, 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2′′, , 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐𝑛′′) ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′) Đối với mối quan hệ lớp cha/lớp con, rõ ràng với nhiều lớp con, một đối tượng phải thuộc lớp cha nếu nó thuộc về một lớp con, nhưng một đối tượng thuộc lớp cha
có thể thuộc hoặc không thuộc các lớp con Xét các lớp “Bệnh nhân”, “Bệnh nhân ngoại trú” và “Nội trú”, trong đó “Bệnh nhân ngoại trú” và “Nội trú” là hai lớp con của lớp “Bệnh nhân” Giả sử rằng đối tượng “Lê Văn A” là một đối tượng của lớp con “Nội trú” Rõ ràng, “Lê Văn A” phải là một đối tượng của siêu lớp “Bệnh nhân” Giả sử rằng “Lê Văn A” là một đối tượng của lớp cha “Bệnh nhân” nhưng không thuộc lớp con “Ngoại trú”, điều này ngụ ý rằng trong mối quan hệ lớp cha/lớp con, mức thành viên mà một đối tượng thuộc các lớp con không lớn hơn mức thành viên của đối tượng thuộc về các lớp cha Do đó, trong mối quan hệ lớp cha/lớp con với nhiều lớp con mờ, mức thành viên mà một đối tượng thuộc về bất kỳ lớp con nào không lớn hơn mức thành viên mà đối tượng này thuộc về lớp cha Theo đó, toán tử max được sử dụng ở trên
Cho 𝑐′ và 𝑐′′ là các lớp (mờ) và mức thành viên mà 𝑐′′ là lớp con của 𝑐′ được ký hiệu
là 𝜇(𝑐′, 𝑐′′) Với một ngưỡng nhất định 𝛽, ta nói rằng 𝑐′′ là một lớp con của 𝑐′ nếu 𝜇(𝑐′, 𝑐′′) ≥ 𝛽
Ở đây 𝜇(𝑐′, 𝑐′′) được sử dụng để đánh giá mức độ bao hàm của 𝑐′′ đối với 𝑐′theo mức độ bao hàm của các miền thuộc tính của 𝑐′′ đối với các miền thuộc tính của
𝑐′ cũng như trọng số của các thuộc tính Mức thành viên 𝜇(𝑐′, 𝑐′′) chỉ ra lớp 𝑐′′ là lớp con của 𝑐′
Giả sử rằng ta có hai lớp 𝑐′ và 𝑐′′ là các lớp có mức thành viên với cấp độ mờ đầu tiên như sau:
𝑐′ WITH degree_𝑐′ DEGREE,
Trang 34𝑐′′ WITH degree_𝑐′′ DEGREE
Khi đó, 𝑐′′ là một lớp con của 𝑐′ nếu
(𝜇(𝑐′, 𝑐′′) ≥ 𝛽)⋀(𝛽 ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′′≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′)
Nghĩa là 𝑐′′ là lớp con của 𝑐′ nếu mức độ bao gồm của 𝑐′ so với 𝑐′′ lớn hơn hoặc bằng ngưỡng đã cho, các mức thành viên của 𝑐′ và 𝑐′′ đều lớn hơn hoặc bằng ngưỡng
đã cho, và mức thành viên của 𝑐′ lớn hơn hoặc bằng mức thành viên của 𝑐′′
Mức độ bao gồm của một lớp con (mờ) đối với lớp cha (mờ) có thể được tính theo mức độ bao gồm của các miền thuộc tính của lớp con đối với các miền thuộc tính của lớp cha cũng như trọng số của các thuộc tính Các phương pháp được sử dụng để đánh giá mức độ bao hàm của các miền thuộc tính mờ và để đánh giá thêm mức độ bao hàm của một lớp con đối với lớp cha đã được phát triển trong [73]
Một vấn đề quan trọng trong phân cấp lớp con/lớp cha là tính đa kế thừa của một lớp Mối quan hệ tổng quát hóa mờ với đa kế thừa của lớp có thể được biểu diễn bằng phép hội hoặc tuyển
Gọi 𝑐′, 𝑐1 và 𝑐2 là các lớp mờ với mức mờ thứ hai và 𝛽 là một ngưỡng cho trước Ta nói rằng 𝑐′ là một lớp con của 𝑐1 và 𝑐2 và được biểu diễn bằng mối quan hệ phép hội nếu (∀𝑜)(∀𝑐)(𝑐 ∈ {𝑐1, 𝑐2} ∧ 𝛽 ≤ 𝜇𝑐′(𝑜) ≤ 𝜇𝑐(𝑜))
Nếu thay vì sử dụng mức độ bao gồm của các đối tượng vào lớp, ta sử dụng mức độ bao gồm của một lớp đối với lớp khác để xác định mối quan hệ giữa lớp con mờ và lớp cha, công thức trên được định nghĩa lại như sau:
(𝜇(𝑐1, 𝑐′) ≥ 𝛽) ∧ (𝜇(𝑐2, 𝑐′) ≥ 𝛽) ∧ (𝛽 ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐1) ∧ 𝛽
≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2)
Trang 35Trong trường hợp một lớp có nhiều kế thừa, sự mơ hồ nảy sinh khi nhiều lớp cha có các thuộc tính chung và lớp con không khai báo rõ rang các thuộc tính của lớp cha được kế thừa
Giả sử rằng thuộc tính 𝑎𝑖 trong 𝑐1, ký hiệu là 𝑎𝑖(𝑐1), giống với thuộc tính 𝑎𝑖trong 𝑐2, ký hiệu là 𝑎𝑖(𝑐2) Nếu 𝑎𝑖(𝑐1 ) và 𝑎𝑖(𝑐2 ) có cùng một miền, thì không có xung đột trong phân cấp đa kế thừa và c kế thừa thuộc tính 𝑎𝑖 trực tiếp Tuy nhiên, xung đột xảy ra nếu 𝑎𝑖(𝑐1) và 𝑎𝑖(𝑐2) có các miền khác nhau Tại thời điểm này, việc lớp c kế thừa 𝑎𝑖(𝑐1) hay 𝑎𝑖(𝑐2) phụ thuộc vào lớp nào là trội [73], với lớp c kế thừa
𝑎𝑖 từ lớp cha trội hơn Lưu ý rằng trong hệ thống phân cấp đa thừa kế mờ, lớp con có các mức khác nhau đối với các lớp cha khác nhau, điều này khác với tình huống trong
cơ sở dữ liệu hướng đối tượng cổ điển
Xét mối quan hệ tổng quát mờ với một diễn giải không chính xác Gọi 𝑐′, 𝑐1 và 𝑐2 là các lớp mờ với mức mờ thứ hai và 𝛽 là một ngưỡng cho trước Đề xuất [3] nói rằng
𝑐′ là một lớp con của 𝑐1 và 𝑐2 với phép tuyển nếu
≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2) Mũi tên hình tam giác đứt nét được sử dụng để biểu diễn tổng quát mờ như trong Hình 1.3 Ở đây, các lớp Nhân viên trẻ, Nhân viên trung niên và Nhân viên già đều thể hiện mức mờ thứ hai, có nghĩa là các lớp có một số đối tượng thuộc về các lớp có mức thành viên Ba lớp này có thể được tổng quát thành lớp Nhân viên
Trang 36Hình 1.3: Quan hệ tổng quát mờ
1.3.7 Quan hệ kết tập mờ
Là một dạng đặc biệt của liên kết mô hình hóa mối quan hệ toàn thể-bộ phận (whole
- part) giữa đối tượng toàn thể và các bộ phận của nó
Mô tả mối quan hệ giữa một đối tượng lớn hơn được tạo ra từ những đối tượng nhỏ hơn Một loại quan hệ đặc biệt này là quan hệ “có”, nó có nghĩa là một đối tượng tổng thể có những đối tượng thành phần
Một đối tượng thành phần cũng có thể tham gia kết hợp với nhiều đối tượng tổng thể khác nhau, trường hợp này gọi là chia sẻ
Ví dụ 1.4: Một vận động viên có quan hệ tới một đội với ý nghĩa là một phần tử của
đội, tuy nhiên vận động viên này cũng có thể thành viên của một đội khác, trường hợp này gọi là sự chia sẻ Do đó, nếu một đội bị hủy bỏ, thì không nhất thiết phải hũy
bỏ vận động viên này Kết tập là mối quan hệ “là một phần” (“is a part-of”)
Gọi 𝑐′ là tập hợp các phần cấu thành 𝑐1′′, 𝑐2′′, … , 𝑐𝑛′′ Với 𝑜 ∈ 𝑐′, phép chiếu của
o lên 𝑐𝑖′′ được ký hiệu là 𝑜 ↓𝑐
𝑖′′, biểu diễn một thể hiện của 𝑐𝑖′′ Khi đó, ta có (𝑜 ↓𝑐
1′′) ∈
𝑐1′′, (𝑜 ↓𝑐2′′) ∈ 𝑐2′′, … , (𝑜 ↓𝑐𝑛′′) ∈ 𝑐𝑛′′
Ví dụ 1.5: Quan hệ kết tập Xe được kết tập theo các hạng bộ phận cấu thành Động
cơ, Nội thất và Khung xe Đối với một ví dụ về ô tô (chẳng hạn như “Honda CR-V EX”), phép chiếu của nó trên Động cơ là phiên bản động cơ (giả sử “In-Line 4-Cylinder”) và ta có 𝐻𝑜𝑛𝑑𝑎 𝐶𝑅 − 𝑉𝐸𝑋 ↓𝐸𝑛𝑔𝑖𝑛𝑒 = 𝐼𝑛 − 𝐿𝑖𝑛𝑒 4 − 𝐶𝑦𝑙𝑖𝑛𝑑𝑒𝑟
Một lớp được kết tập từ các phần cấu thành mờ có thể mờ Nếu cái trước vẫn được gọi là kết tập, thì kết tập đó là kết tập mờ Tại thời điểm này, một lớp là sự kết tập các bộ phận cấu thành có mức thành viên là [0; 1] Phương pháp sau có thể được
sử dụng để xác định mối quan hệ kết tập mờ
Nhân viên
Nhân viên trẻ Nhân viên trung niên Nhân viên già
Trang 37a) Đối với bất kỳ đối tượng (mờ) nào, mức thành viên mà nó thuộc về kết tập lớn hơn hoặc bằng ngưỡng đã cho, và
b) Mức thành viên mà nó thuộc về kết tập nhỏ hơn hoặc bằng mức độ thuộc mà phép chiếu của nó lên mỗi bộ phận cấu thành
Khi đó, tổng thể là sự kết tập các bộ phận hợp thành có mức thành viên, là cấp độ tối thiểu của các mức thành viên mà phép chiếu của các đối tượng này lên các bộ phận hợp thành thuộc các bộ phận cấu thành tương ứng Đối với tổng quát hóa mờ, ngưỡng
đã cho là ngưỡng tính toán được sử dụng để đặt độ tin cậy mà các phần tổng hợp và phần cấu thành có mối quan hệ kết tập với mức thành viên và để tránh mức độ biến đổi là nhỏ nhất Các đối tượng của kết tập có mức thành viên lớn hơn hoặc bằng ngưỡng được kiểm tra xem các mức thành viên của chúng hoặc bằng mức thành viên
mà các dự báo của chúng đối với từng bộ phận cấu thành Các đối tượng của tổng thể
có mức thành viên nhỏ hơn ngưỡng sẽ không được xem xét
Về mặt hình thức, gọi 𝑐′ là một kết tập mờ của các tập hợp lớp mờ 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, với các mức thành viên của các đối tượng tương ứng là 𝜇𝑐′ , 𝜇𝑐1′′, 𝜇𝑐2′′, , 𝑣à 𝜇𝑐𝑛′′ Gọi 𝛽 là một ngưỡng cho trước Ta có
𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, 𝑐𝑖′′, 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛, thuộc về lớp 𝑐𝑖′′ Đối với bất kỳ đối tượng (mờ) nào, mức thành viên mà nó thuộc về lớp 𝑐′ phải lớn hơn hoặc bằng ngưỡng đã cho Mức độ liên thuộc mà 𝑐′ là sự kết tập của tập hợp các lớp 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′ phải là 𝑚𝑖𝑛 𝜇
𝑐𝑖′′(𝑜↓𝑐𝑖′′)≥ 𝛽 (𝜇𝑐
𝑖′′(𝑜 ↓𝑐
𝑖′′)) , 𝑣ớ𝑖 1 ≤ i ≤ n Ở đây, o là đối tượng của lớp 𝑐′ Đối với quan hệ kết tập cổ điển, với bất kỳ đối tượng nào của 𝑐′, phép chiếu của nó lên bất kỳ một trong các lớp 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, 𝑐𝑖′′, 𝑣ớ𝑖 1 ≤ i ≤ n, phải là đối tượng của phần cấu thành 𝑐𝑖′′ Tuy nhiên, một đối tượng của bộ phận cấu thành 𝑐𝑖′′ có thể được sử dụng hoặc không được sử dụng để tạo đối tượng từ lớp 𝑐′ (là lớp tổng thể) như một bộ phận bởi vì bộ phận cấu thành tồn tại độc lập Điều này ngụ ý rằng trong kết tập mờ, mức thành viên thể hiện mà một đối tượng thuộc tập hợp không lớn hơn mức thành viên mà phép chiếu của đối tượng này lên bất kỳ một trong các bộ phận
Trang 38cấu thành Do đó, trong kết tập mờ, mức thành viên mà đối tượng thuộc về tổng thể không lớn hơn mức thành viên mà đối tượng này dự báo trên bất kỳ một trong các bộ phận cấu thành Do đó, toán tử min được sử dụng trong kết tập mờ ở trên
Xét mức mờ thứ nhất trong các lớp nói trên 𝑐′, 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′, cụ thể chúng là các lớp mờ có mức thành viên Ta có
𝑐′ WITH degree_𝑐′ DEGREE,
𝑐1′′ WITH degree_𝑐1′′ DEGREE,
𝑐2′′ WITH degree_𝑐2′′ DEGREE,
𝑐𝑛′′ WITH degree_𝑐𝑛′′ DEGREE
Khi đó, 𝑐′ là quan hệ kết tập của các lớp mờ 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′ nếu
𝑐′ WITH degree_𝑐′ DEGREE,
𝑐1′′ WITH degree_𝑐1′′ DEGREE,
𝑐2′′ WITH degree_𝑐2′′ DEGREE,
Trang 39
𝑐𝑛′′ WITH degree_𝑐𝑛′′ DEGREE
Khi đó, 𝑐′ là quan hệ kết tập của các lớp mờ 𝑐1′′, 𝑐2′′, … , 𝑣à 𝑐𝑛′′ nếu
𝑚𝑖𝑛(𝜇(𝑐1′′, 𝑐′ ↓𝑐
1′′), 𝜇(𝑐2′′, 𝑐′ ↓𝑐
2′′), , 𝜇(𝑐𝑛′′, 𝑐′ ↓𝑐𝑛′′)) ≥ 𝛽 ∧ 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐′ ≤ 𝑚𝑖𝑛(𝑑𝑒𝑔𝑟𝑒𝑒_𝑐1′′, 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐2′′, , 𝑑𝑒𝑔𝑟𝑒𝑒_𝑐𝑛′′))
Ký hiệu hình thoi mở đứt nét được sử dụng để biểu thị mối quan hệ kết tập mờ như thể hiện trong Hình 1.4, trong đó Xe ô tô cũ được nạp từ động cơ, nội thất và khung xe Bên cạnh đó lớp mờ Động cơ cũ thể hiện mức mờ thứ hai Do đó lớp Xe ô
tô cũ được kết tập từ các lớp Nội thất, Khung gầm và động cơ cũ, làm cho Xe trở thành lớp có độ mờ thứ hai
Hình 1.4: Mối quan hệ kết tập mờ
1.3.8 Quan hệ kết hợp mờ
Mối quan hệ kết hợp được định nghĩa là mối quan hệ cấu trúc nhị phân giữa hai lớp liên kết chúng, được chỉ định bằng các đối tượng của một lớp kết nối với các đối tượng của lớp khác
Mối quan hệ kết hợp là hai chiều hoặc một chiều Mối quan hệ kết hợp được xác định trên cơ sở các lớp, không phải trên cơ sở các đối tượng của các lớp Tất nhiên, đối với một phạm vi nhất định, mỗi cặp đối tượng trong các lớp tương ứng có cùng mối quan hệ kết hợp
Ví dụ 1.6: Trong một sân bay, các lớp Chuyến bay và Tàu bay có mối quan hệ kết
hợp với tên liên kết được chỉ định là tàu bay
Các liên kết của lớp mờ tạo thành mối quan hệ kết hợp mờ Đối với các lớp mờ
có mức mờ thứ hai, các đối tượng của lớp thuộc về các lớp đã cho có mức thành viên
Do đó, có thể không biết chắc chắn liệu hai lớp thuộc các lớp liên kết có mối quan hệ kết hợp nhất định hay không, mặc dù mối quan hệ kết hợp chắc chắn tồn tại giữa hai lớp này
Xe ô tô cũ
Trang 40Ví dụ 1.7: Các lớp Lái xe trẻ và Xe mới có mối quan hệ kết hợp mờ với tên liên kết
lái xe Ở đây, đối tượng của Lái xe trẻ và đối tượng Xe mới có mối quan hệ liên kết với mức thành viên
Về mặt hình thức, cho 𝑐′ và 𝑐′′ là hai lớp có độ mờ mức hai Đối tượng 𝑜′ của 𝑐′ là một đối tượng có mức thành viên 𝜇𝑐′(𝑜′), và đối tượng 𝑜′′ của 𝑐′′ là đối tượng có mức thành viên 𝜇𝑐′′(𝑜′′) Giả sử rằng mối quan hệ kết hợp giữa 𝑐′ và 𝑐′′ được ký hiệu là 𝑎𝑠𝑠𝑐(𝑐′, 𝑐′′) Như vậy, mối quan hệ kết hợp giữa 𝑜′ và 𝑜′′, được ký hiệu là 𝑎𝑠𝑠𝑐(𝑜′, 𝑜′′), có mức thành viên được tính như sau
𝜇(𝑎𝑠𝑠𝑐(𝑜′ , 𝑜′′)) = 𝑚𝑖𝑛( 𝜇𝑐′(𝑜′), 𝜇𝑐′′(𝑜′′))
Lưu ý rằng mức thành viên 𝜇(𝑎𝑠𝑠𝑐(𝑜′ ,𝑜′′)) được xác định cho 𝑜′ và 𝑜′′, không cho
𝑐′ và 𝑐′′ Nói cách khác, mức thành viên mà 𝑜′ và 𝑜′′ có mối quan hệ kết hợp là
𝜇(𝑎𝑠𝑠𝑐(𝑜′ ,𝑜′′)) Đối với một cặp đối tượng thuộc hai lớp nhưng không phải là 𝑜′ và 𝑜′′, mức liên kết mà cặp đối tượng có mối quan hệ kết hợp có thể khác với 𝜇(𝑎𝑠𝑠𝑐(𝑜′ ,𝑜′′)) Nếu mức thành viên nhỏ thì cặp đối tượng trong trường hợp này không có liên kết kiểu quan hệ kết hợp
Một lưu ý nữa mối quan hệ kết hợp có thể được xác định một cách mơ hồ (Những người thích thể thao) và mối quan hệ kết hợp tồn tại trong hai lớp liên kết với mức thành viên Khác với quan hệ kết hợp mờ ở mức đối tượng của lớp ở trên, quan
hệ kết hợp mờ ở đây là ở mức lớp Mức mờ trong mối quan hệ kết hợp này được thiết
kế, định nghĩa cụ thể ngay cả khi các lớp tương ứng là rõ
Ví dụ 1.8: Trong thiết kế sơ bộ của một chiếc ô tô, giả sử rằng đầu đĩa DVD có thể
được lắp hoặc không được lắp vào ô tô ở giai đoạn này và khả năng đầu đĩa DVD sẽ được lắp vào ô tô là 0.6 Gọi 𝑐′ và 𝑐′′ là hai lớp rõ và 𝑎𝑠𝑠𝑐(𝑐′, 𝑐′′) là mối quan hệ kết
hợp với mức thành viên degree_assc, được ký hiệu là 𝑎𝑠𝑠𝑐(𝑐′, 𝑐′′) WITH
degree_assc DEGREE Tại thời điểm này, mức thành viên của các đối tượng 𝑜′ thuộc