Mục tiêu của luận án là đề xuất đại số đối tượng mờ mới, kiến trúc xử lý truy vấn và phương pháp tối ưu hóa truy vấn dựa trên đại số đã đề xuất kết hợp với các giải pháp như phép biến đổ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
…… ….***…………
NGUYỄN TẤN THUẬN
MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ
SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ
Chuyên ngành: Hệ thống thông tin
Mã số: 62 48 01 04
TÓM TẮT LUẬN ÁN TIẾN SỸ NGÀNH MÁY TÍNH
Hà Nội – 2021
Trang 2Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học 1: GS.TS Đoàn Văn Ban
Người hướng dẫn khoa học 2: TS Trương Ngọc Châu
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam
Trang 3DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ
1
Nguyễn Tấn Thuận, Đoàn Văn Ban, Trương Ngọc Châu, Trần Thị Thúy Trinh (2015),
“Phương pháp xử lý truy vấn đa điều kiện trong cơ sở dữ liệu hướng đối tượng mờ
dựa trên đại số Gia Tử”, Tạp chí Khoa học Đại học Sư phạm Hà Nội 1, 7, 2015,
157-168
2
Nguyễn Tấn Thuận, Trần Thị Thúy Trinh, Đoàn Văn Ban, Trương Ngọc Châu,
“Analysis of fuzzy query processing and optimization in fuzzy object oriented
database”, Fair - Hội nghị khoa học Quốc Gia lần thứ IX về nghiên cứu cơ bản và
ứng dụng CNTT, Trường Đại học Cần Thơ , 2016, pp 24-31
3
Nguyễn Tấn Thuận, Trần Thị Thúy Trinh, Đoàn Văn Ban, Trương Ngọc Châu,
“Statistics-theoretical approach for evaluating the similarity of fuzzy objects in
fuzzyobject-oriented databases”, Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn
lọc của Công nghệ thông tin và truyền thông – Hà Nội, Trường Đại học Sư Phạm Hà
Nội 1-2/10/2016, 306-312
4 Thuan T.Nguyen , Ban D.Van, Chau N.Truong, “Qurey Processing and Optimazation
in Fuzzy Object Oriented Database”, LAP LAMBERT Academic Publishing, ISBN
6 Nguyen, T T., Van Doan, B., Truong, C N., & Tran, T T T “Clustering and Query
Optimization in Fuzzy Object-Oriented Database” International Journal of Natural
Computing Research (IJNCR), 8(1),2019, 1-17 (DBLP)
Trang 4MỞ ĐẦU
Ngày nay, tính khả thi và tính hữu ích của toán học mờ như lý thuyết xác suất, lý thuyết tập mờ, lý thuyết khả năng, quan hệ tương tự [1] - [6], , đã được minh chứng cho sự thành công trong một loạt các lĩnh vực gồm: kỹ thuật, khoa học máy tính, trí tuệ nhân tạo, xử lý thông tin và các hệ thống
cơ sở dữ liệu (CSDL) [7] - [11] Cùng với sự phát triển của toán học mờ, các mô hình CSDL hướng đối tượng đã được nghiên cứu và áp dụng rộng rãi trong việc phát triển các hệ thống phần mềm, nhiều hệ quản trị CSDL hướng đối tượng có tính thương mại đã được tạo ra như GEMSTONE, ORION, VBASE, OBJECTSTORE, POET,…
Thông qua các kết quả nghiên cứu trên, việc áp dụng lĩnh vực toán học mờ vào các mô hình
cơ sở dữ liệu truyền thống/hướng đối tượng, nhằm xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ là rất cần thiết Một số đề xuất và triển khai toán học mờ đẫ được áp dụng hiệu quả trên các hệ thống quản lý cơ sở dữ liệu nói chung như [12] - [15] và như vậy mô hình cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất trên cơ sở áp dụng toán học mờ [16] - [21]
Một số nghiên cứu liên quan về mô hình cơ sở dữ liệu hướng đối tượng mờ đã đề xuất như:
Các mô hình CSDL HĐT mờ: Mô hình cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất bởi M.Umano và các cộng sự [22] Mô hình với thông tin không chắc chắn được đề xuất bởi Gyseghem và Caluwe [23] Mô hình mở rộng dựa trêsn đồ thị do G Bordogna và các cộng sự [16], [21] Mô hình dựa trên quan hệ tương tự, phạm vi của các giá trị thuộc tính được sử dụng để biểu diễn tập các giá trị cho phép của một thuộc tính trong một lớp được trình bày trong [24] Mô hình dựa vào lý thuyết khả năng, tính mơ hồ được biểu diễn trong phân cấp lớp [25], [26] Mô hình dựa trên lý thuyết xác suất đầu tiên được nhóm tác giả Kornatzky và Shimony đề xuất năm 1994 [27] Bên cạnh đó một mô hình mới về xác suất
đã được B Ding và các cộng sự đề xuất [28]
Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ: Thuật toán GNP phân cụm cơ sở dữ liệu [29] Việc tối ưu hóa các cụm được thực hiện để các đối tượng có
độ tương tự cao được đưa vào cùng một cụm L Zhu và các cộng sự [30] Đề xuất mới của
M C Mouna và các cộng sự [31] về phương pháp tính toán tính tương tự để so sánh hai đối tượng mờ thông qua các thuộc tính mờ bằng cách sử dụng độ đo khoảng cách Euclide
A Mhedhbi và S Salihoglu [4] phát triển phép đo độ tương tự dựa trên mô hình đối sánh Tversky và áp dụng nó trên các tập mờ bằng cách sử dụng lý thuyết tập mờ và các phép toán của chúng
Xử lý và tối ưu hóa truy vấn: X Hu và các cộng sự phát triển [32] mô hình dữ liệu hướng đối tượng mờ mới (F-model) và định nghĩa đại số kết hợp mờ mở rộng (FA-algebra) Đề xuất [33] tối ưu hóa truy vấn dựa vào biểu thức đường dẫn và cách viết lại câu truy vấn
Tuy nhiên, trong các mô hình đề xuất trên còn thiếu định nghĩa chính thức một thiết kế kiến trúc, định nghĩa về các phép toán đại số đối tượng mờ và ngôn ngữ truy vấn Do đó cần có một đề xuất mới nhằm đảm bảo tính hệ thống cho mô hình cơ sở dữ liệu hướng đối tượng mờ hoạt động hiệu quả hơn
Mục tiêu của luận án là đề xuất đại số đối tượng mờ mới, kiến trúc xử lý truy vấn và phương pháp tối ưu hóa truy vấn dựa trên đại số đã đề xuất kết hợp với các giải pháp như phép biến đổi tương đương và giải thuật Heuristic
Các vấn đề liên quan đến mục tiêu nghiên cứu được trình bày trong luận án bao gồm
1 Nhằm tăng tính hiệu quả cho quá trình xử lý truy vấn dữ liệu có các đại diện thông tin là
mờ, luận án đề xuất phương pháp gom cụm và so sánh tính tương tự giữa hai đối tượng một cách tổng quát nhất, cụ thể hơn để so sánh tính tương tự giữa hai đối tượng luận án đã
Trang 5sử dụng các kỹ thuật khác nhau đó là: tính độ đo ngữ nghĩa, độ đo Euclidean Bên cạnh đó, luận án đề xuất thuật toán gom cụm EMC được cải tiến dựa trên thuật toán Expectation Maximization (EM) Để đảm bảo cho hệ thống thực hiện câu truy vấn linh động và tự nhiên hơn, luận án đề xuất phương pháp phân các khoảng mờ dựa trên kết quả của thuật toán gom cụm EMC
2 Thông qua các đề xuất đối sánh và gom cụm dữ liệu, luận án đã đề xuất các thuật toán xử
lý truy vấn mờ mới như: Thuật toán xử lý truy vấn đơn, đa điều kiện mờ FQSIMSC (Fuzzy Query Sim Single Condition) và FQSIMMC (Fuzzy Query Sim Multi-Condition) Hơn nữa, luận án cũng đã đề xuất thuật toán xử lý truy vấn trên các khoảng mờ FQINTERVAL (Fuzzy Query Interval), nhằm giúp người dùng thực hiện trích lọc dữ liệu tự nhiên hơn
3 Đề xuất đại số kết hợp mờ mới Trong đó luận án đã định nghĩa các phép toán kết hợp mờ như (Phép chọn mờ, phép nối mờ, phép chiếu mờ, phép chia mờ, phép trừ mờ, phép hợp
mờ và phép giao mờ làm cơ sở cho việc xây dựng đại số truy vấn mờ cho mô hình cơ sở
dữ liệu hướng đối tượng mờ
4 Luận án đề xuất kiến trúc xử lý và tối ưu hóa truy vấn mờ Cụ thể, luận án phát triển thuật toán heuristic tối ưu hóa đại số đối tượng mờ dựa trên các quy tắc của phép biến đổi tương đương Phân tích trên một số thử nghiệm sử dụng thuật toán đề xuất cho thấy hiệu suất xử
lý truy vấn tốt hơn, điều này chứng tỏ sự nâng cao hiệu quả của phương pháp đã đề xuất
Để thực hiện được các mục tiêu trên, luận án được tổ chức như sau: Luận án được chia thành
3 chương, trong đó:
Chương thứ nhất trình bày khái quát về cơ sở dữ liệu hướng đối tượng mờ Nội dung của chương
này bao gồm: các khái niệm, các phép toán cơ bản của lý thuyết tập mờ Trong chương này trình bày
cụ thể mô hình cơ sở dữ liệu hướng đối tượng với các khái niệm về đối tượng mờ, lớp mờ, phân cấp thừa kế mờ và mô hình lớp mờ và các quan hệ mờ
Chương thứ hai giới thiệu bốn thuật toán xử lý truy vấn mờ mới đó là FQSIMSC (Fuzzy Query Sim
Single Condition), FQSIMMC (Fuzzy Query Sim Multi-Condition), FQSEM (Fuzzy Query SEM)
và FQINTERVAL (Fuzzy Query Interval) nhằm tăng tính hiệu quả cho quá trình xử lý dữ liệu: Trong
đó ba thuật toán (FQSIMSC, FQSIMMC, FQSEM) sử dụng độ đo tương tự dựa vào các đại lượng tính toán của (SIM, SEM), thuật toán thứ tư FQINTERVAL xử lý truy vấn trực tiếp trên các khoảng
mờ dựa vào thuật toán gom cụm dữ liệu EMC được cải tiến từ thuật toán gom cụm dữ liệu cực đại hóa kỳ vọng (EM) được đề xuất trong chương này
Chương thứ ba giới thiệu các phép toán đại số đối tượng mới như (phép chiếu mờ, giao mờ, hợp
mờ, chọn mờ, trừ mờ, tích đề các mờ, nối mờ) và các phép biến đổi tương đương mờ Một chủ đề không thể thiếu đối với mọi hệ quản trị cơ sở dữ liệu đó là tối ưu hóa truy vấn bằng phương pháp Heuristic
Trang 6Chương 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ TRUY VẤN TRÊN MÔ HÌNH CƠ SỞ
DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 1.1 Giới thiệu bài toán
Trong thực tế, hệ thống thông tin chủ yếu sử dụng CSDL quan hệ [12], [14], [34] - [38], hoặc CSDL hướng đối tượng [39] - [42] để lưu trữ các tập hợp dữ liệu này Cả hai mô hình CSDL quan
hệ và CSDL hướng đối tượng có khả năng đủ để xử lý đối tượng phức tạp nhưng bị hạn chế đối với các đại diện dữ liệu không chính xác hoặc không chắc chắn Do đó, việc nghiên cứu ứng dụng cơ sở
dữ liệu mờ và xử lý truy vấn để giải quyết những hạn chế của cơ sở dữ liệu quan hệ/hướng đối tượng
rõ trong việc xử lý và lưu trữ các thông tin không chắc chắn, không đầy đủ trở thành một chủ đề nghiên cứu quan trọng được nhiều nhà khoa học tập trung nghiên cứu [2], [17], [30], [43] - [68]
1.2 Các nghiên cứu liên quan
Trong những năm qua đã có nhiều nghiên cứu liên quan về mô hình cơ sở dữ liệu hướng đối tượng
mờ theo các cách tiếp cận khác nhau và các kết quả đạt được trên các mô hình này là:
1.2.1 Mô hình CSDL HĐT mờ
Mô hình cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất dựa vào: thuộc tính có giá trị mờ
M.Umano và các cộng sự [22], quan hệ kế thừa và lý thuyết tập mờ Gyseghem và Caluwe [23], mở rộng mô hình đối tượng dựa trên đồ thị G Bordogna và các cộng sự [16], [21], quan hệ tương
tự [24], lý thuyết khả năng [25], [26], lý thuyết xác suất Kornatzky và Shimony đề xuất năm 1994 [27]
1.2.2 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mô hình CSDL HĐT mờ
Thuật toán phân cụm cơ sở dữ liệu sử dụng lập trình mạng di truyền (GNP), L Yan và Z M Ma
[29] Y Bashon và các cộng sự [31], so sánh hai đối tượng mờ thông qua các thuộc tính mờ bằng cách sử dụng độ đo khoảng cách Euclide Y Bashon và các cộng sự [4]
1.2.3 Xử lý và tối ưu hóa truy vấn mờ
S Na và S Park [32] đề xuất mô hình dữ liệu hướng đối tượng mờ mới (F-model) và định nghĩa đại
số kết hợp mờ mở rộng (FA-algebra) P K Panigrahi và A Goswami [19]
1.3 Các vấn đề nghiên cứu và giải pháp
1.3.1 Biểu diễn thông tin không hoàn hảo trong mô hình khái niệm dữ liệu mờ
1.3.2 Mô hình hóa UML của dữ liệu mờ
Phần này mở rộng biểu đồ lớp UML để biểu diễn thông tin mờ [3] Vì các cấu trúc của UML chứa lớp và các mối quan hệ, nên việc mở rộng các cấu trúc này được tiến hành dựa trên các tập mờ
1.3.3 Lớp mờ
Về mặt lý thuyết, một lớp có thể được xem xét từ hai quan điểm khác nhau: Một lớp mở rộng (kế thừa), trong đó lớp được xác định bởi danh sách các cá thể đối tượng, một lớp nguyên [3], trong đó lớp được xác định bởi một tập các thuộc tính và các giá trị có thể chấp nhận Theo Zvieli và Chen [6], một lớp có ba mức độ mờ 𝐷̃ = (𝐶̃, 𝐴̃, 𝑅̃, 𝑂̃): Mức lớp, mức đối tượng, mức giá trị thuộc tính Hình 1.1 mô tả lớp nhân viên trẻ mờ
Hình 1.1 Lớp mờ
Trang 71.3.4 Tổng quát hóa mờ
Kế thừa là một cơ chế quan trọng trong mô hình dữ liệu hướng đối tượng cho phép một lớp được gọi
là lớp con kế thừa các thuộc tính và phương thức từ một lớp khác được gọi là lớp cha Hình 1.2 mô
tả quan hệ tổng quát hóa mờ
Hình 1.5 Mối quan hệ phụ thuộc mờ
1.4 Ánh xạ mô hình dữ liệu UML mờ vào mô hình cơ sở dữ liệu hướng đối tượng mờ
1.4.1 Mô hình cơ sở dữ liệu hướng đối tượng mờ (FOODB)
Ma và cộng sự [73] đã phát triển một mô hình cơ sở dữ liệu hướng đối tượng mờ (FOODB) trong đó các lớp có thể mờ
1.4.2 Chuyển đổi biểu đồ lớp UML mờ
1.4.2.1 Chuyển đổi các lớp
Các lớp trong mô hình dữ liệu UML thường tương ứng với các lớp trong lược đồ cơ sở dữ liệu hướng đối tượng và các thuộc tính của các lớp trong mô hình dữ liệu UML tương ứng với các thuộc tính của các lớp trong lược đồ cơ sở dữ liệu hướng đối tượng Hình 1.6 biểu diễn chuyển đổi các lớp mờ
Nhân viên Dependent WITH 0.85 DEGREE Nhân viên WITH 0.85 DEGREE
Trang 8Hình 1.6.Chuyển đổi các lớp trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ Hình 1.7 cho thấy sự chuyển đổi của các lớp con trong mô hình dữ liệu UML mờ sang lược đồ cơ sở
dữ liệu hướng đối tượng mờ
Hình 1.7.Chuyển đổi các lớp con trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ
1.4.2.2 Chuyển đổi quan hệ kết tập
Tập hợp xác định mối quan hệ toàn bộ giữa các bộ phận cấu thành và tổng thể là một lớp đại diện cho tổng thể Trong mô hình dữ liệu UML mờ, tập hợp (mờ) có thể được chuyển đổi thành một lớp trong lược đồ cơ sở dữ liệu hướng đối tượng mờ, được gọi là lớp tổng hợp, theo sự biến đổi của các lớp đã cho ở trên Hình 1.8 cho thấy sự chuyển đổi các tập hợp trong mô hình dữ liệu UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ
Hình 1.8.Chuyển đổi các tập hợp trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ
Trang 91.4.2.3 Chuyển đổi quan hệ kết hợp
Quan hệ kết hợp trong mô hình dữ liệu UML được chuyển đổi thành quan hệ kết hợp trong lược đồ đối tượng, mô tả các thuộc tính trong một lớp kết hợp tham chiếu tường minh đến một lớp khác Trong mô hình dữ liệu UML mờ, có thể phân biệt ba loại kết hợp cơ bản, như sau: Các kết hợp không
có bất kỳ độ mờ nào, Các kết hợp chỉ có độ mờ ở cấp độ thứ hai, Các kết hợp chỉ có độ mờ ở cấp độ đầu tiên Hình 1.9 biểu diễn chuyển đổi quan hệ kết hợp mờ
Hình 1.9: Chuyển đổi các liên kết trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối tượng mờ
1.4.2.4 Chuyển đổi các quan hệ phụ thuộc
Trong mối quan hệ phụ thuộc mờ, lớp khách hàng phụ thuộc mờ vào lớp nhà cung cấp Có một số
kỹ thuật chung để biến đổi mối quan hệ phụ thuộc (mờ) Kỹ thuật thứ nhất là bàn về lớp độc lập Kỹ thuật thứ hai là bàn về mối quan hệ kết Kỹ thuật cuối cùng là bàn về sự kết hợp
1.4.3 Truy vấn mờ FOQL
1.5 Giải pháp cho bài toán
Luận án đề xuất ba giải pháp sau:
- Tiền xử lý dữ liệu: Luận án đề xuất phương pháp gom cụm và so sánh tính tương tự giữa hai đối
tượng
- Xử lý truy vấn mờ: Luận án đề xuất một số phương pháp xử lý truy vấn mới mới dựa vào độ đo
tương tự và gom cụm dữ liệu
- Đề xuất đại số kết hợp mờ mới Trong luận án đã định nghĩa các phép toán kết hợp mờ mới làm cơ
sở cho việc xây dựng đại số truy vấn mờ trên mô hình cơ sở dữ liệu hướng đối tượng mờ Luận án
đề xuất phương pháp xử lý và tối ưu hóa truy vấn mờ
1.6 Kết luận chương 1
Các mô hình trên đều dựa vào mô hình dữ liệu đối tượng chuẩn ODMG, đồng thời kết hợp ngôn ngữ mô hình hóa UML để biểu diễn trực quan hóa cho các khái niệm mờ như: Mức lược đồ mờ, mức thể hiện lớp mờ, mức thuộc tính mờ Bên cạnh đó các khái niệm mờ cũng
đã được áp dụng vào các mối quan hệ như: Tổng quát hóa mờ, kết tập mờ, kết hợp mờ và phụ thuộc mờ Các biểu diễn này nhằm mục đích mô hình hóa dưới các góc nhìn về mô hình hóa logic và vật lý để từ đó luận án đề xuất các phép toán đại số đối tượng mờ cho câu truy vấn và các phương pháp xử lý truy vấn dựa vào các khả năng của thuộc tính có thể biểu diễn các giá trị mờ nhằm thực hiện việc xử lý và trích rút dữ liệu/thông tin không chắc chắn, không đầy đủ trên FOODB sẽ được trình bày cụ thể trong chương 2 và 3
Trang 10Chương 2 CÁC PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỜ DỰA VÀO ĐỘ ĐO TƯƠNG
TỰ VÀ GOM CỤM DỮ LIỆU
Mô hình cơ sở dữ liệu hướng đối tượng mờ rất phức tạp vì các đối tượng lưu trữ và xử lý có thể là
mờ hoặc rõ phụ thuộc vào kiểu thuộc tính và giá trị của thuộc tính đó là không chắc chắn, không chính xác, mơ hồ, và có các mối quan hệ giữa các đối tượng là mờ [21], [74] - [77] Chính vì sự phức tạp của mô hình này mà cần phải có các hướng tiếp cận riêng cho một tập hợp của quá trình tiền xử
lý dữ liệu cho truy vấn mờ Chương này, giới thiệu phương pháp truy vấn dữ liệu mới dựa vào độ đo tương tự (SIM, SEM và DIS ) nhằm trích rút thông tin thỏa mãn các điều kiện về mức độ tương tự giữa các đối tượng có giá trị thuộc tính mờ hoặc rõ Đề xuất thuật toán xử lý truy vấn dựa vào thuật toán gom cụm dữ liệu cải tiến EMC và phân vùng mờ Các kết quả chính được trình bày trong chương này liên quan đến so sánh tính tương tự, gum cụm dữ liệu và xây dựng vùng mờ được công bố [CT3], [CT6]
2.1 Xử lý truy vấn mờ dựa vào độ đo tương tự
2.1.1 So sánh tính tương tự của hai đối tượng mờ
2.1.1.1 So sánh hai đối tượng dựa vào độ đo tương tự mờ
Khi so sánh hai đối tượng mờ, ta cần xem xét các trường hợp sau:
Trường hợp I: so sánh hai thuộc tính mờ
Trường hợp II: so sánh một thuộc tính rõ với một thuộc tính mờ và ngược lại
Trường hợp III: so sánh hai đối tượng có cùng thể hiện của một lớp
Trường hợp IV: so sánh hai đối tượng là thể hiện của hai lớp khác nhau
A So sánh hai thuộc mờ
Định nghĩa 2.1: Cho hai đối tượng 𝑜1 𝑣à 𝑜2 các tập các tập thuộc tính tương ứng như sau 𝑎𝑡𝑂1 ={𝑎1, 𝑎1, … , 𝑎𝑛} và 𝑎𝑡𝑂2 = {𝑏1, 𝑏1, … , 𝑏𝑛} Tính tương tự 𝑆: 𝑎𝑡𝑂1× 𝑎𝑡𝑂2 → [0; 1] giữa hai thuộc tính tương ứng với 𝑎𝑗, 𝑏𝑗 được định nghĩa như sau:
𝑆(𝑎𝑗, 𝑏𝑗) = 1 − 𝑑(𝑎𝑗, 𝑏𝑗)
1 + 𝑘 𝑗 𝑑(𝑎 𝑗 , 𝑏 𝑗 ); 𝑣ớ𝑖 𝑘𝑗≥ 0 (2.1)
Trong đó 𝑎𝑗 𝑣à 𝑏𝑗 là thuộc tính thứ j với j=1, 2,…, n, n là số thuộc tính và độ đo khoảng cách
metric d được biểu diễn bằng ánh xạ ⊕𝑗: [0; 1]𝑚𝑗 → [0; 1] như sau:
1 2 (2.3)
Khoảng cách 𝑑𝑖𝑠: 𝐹(𝑈𝑗) × 𝐹(𝑈𝑗) → [0; 1] mô tả sự khác biệt giữa các tập mờ và nó có thể được xác định trong hai trường hợp sau:
a) Nếu thuộc tính 𝑎𝑗 và 𝑏𝑗 là các giá trị ngôn ngữ và ngữ nghĩa của chúng được xác định bằng cách sử dụng các tập mờ được thể hiện bởi cùng một hàm thành viên (ví dụ: 𝜇𝐴𝑖𝑗(𝑥) =
𝜇𝐵𝑖𝑗(𝑥) với mọi 𝑥 ∈ 𝑈𝑗, ví dụ so sánh hai phòng học (xem Hình 2.1 trong ví dụ 2.1), sau đó:
𝑑𝑖𝑠(𝐴𝑖𝑗, 𝐵𝑖𝑗) = |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐴𝑖𝑗(𝑦)| ; với mọi 𝑥, 𝑦 ∈ 𝑈𝑗 (2.4)
b) Nếu các thuộc tính 𝑎𝑗, và 𝑏𝑗 là các giá trị ngôn ngữ được biểu diễn bằng các hàm thành viên khác nhau tương ứng với 𝜇𝐴 (𝑥), 𝜇𝐵 (𝑥) , ví dụ: so sánh hai phòng học (Hình 2.4), ta có:
Trang 11𝑑𝑖𝑠(𝐴𝑖𝑗, 𝐵𝑖𝑗) = |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐵𝑖𝑗(𝑦)| ; với mọi 𝑥, 𝑦 ∈ 𝑈𝑗 (2.5)
Định nghĩa độ tương tự được đề xuất trong phương trình (2.1) cho phép ta xác định mức độ của các thuộc tính của hai đối tượng là tương tự nhau Tham số 𝑘𝑗 trong phương trình (2.1) được sử dụng để
điều chỉnh độ tương tự bằng cách điều chỉnh sự đóng góp của khoảng cách d trong phép đo tương tự
Kết quả là, 𝑘𝑗 có thể được tính theo khoảng cách d thông qua ứng dụng của người dùng hoặc có thể được ước tính
Độ đo tương tự 𝑆𝑖𝑚(𝑜1, 𝑜2) giữa hai đối tượng mờ 𝑜1 và 𝑜2 là:
∑ 𝑛 𝛼𝑗𝑗=1
a) Tính phản xạ: 𝑆𝑖𝑚(𝑜1, 𝑜1) = 1, với mọi đối tượng 𝑜1
b) Tính tương tự: Sự giống nhau giữa hai đối tượng khác nhau 𝑜1 và 𝑜2 phải nhỏ hơn mức tương tự giữa đối tượng 𝑜1và chính nó: 𝑆𝑖𝑚(𝑜1, 𝑜2) ≤ 𝑆𝑖𝑚(𝑜1, 𝑜1)
c) Tính đối xứng: 𝑆𝑖𝑚(𝑜1, 𝑜2) = 𝑆𝑖𝑚(𝑜2, 𝑜1), với mọi hai đối tượng mờ 𝑜1 và 𝑜2
Hai trường hợp nêu trên có thể được minh họa bằng các ví dụ sau:
Ví dụ 2.1: Trường hợp I (a): Ta xem xét hai phòng Mỗi phòng được mô tả bởi chất lượng và giá
thuê phòng của như trong hình 2.1 Để biết hai phòng so sánh với nhau như thế nào, trước tiên ta sẽ xác định độ tương tự giữa chất lượng và giá thuê của cả hai phòng Hãy xác định miền đặc trưng cơ bản 𝐷𝑄 = [0; 1] của mỗi phòng thuộc trong đoạn [0; 1] Ta có thể xác định miền mờ của chất lượng phòng bằng cách xác định các tập con mờ 𝐹𝐷𝑄 = {𝑇ℎấ𝑝, 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, 𝐶𝑎𝑜}, trên miền cơ bản 𝐷𝑄
Ở đây ta giả định chỉ có ba tập con mờ (𝑚𝑗= 3)
Hình 2.1 Trường hợp I (a) so sánh hai phòng
Khi đó, chất lượng Phòng 1 và chất lượng của Phòng 2 được xác định như sau:
𝑄(𝑃ℎò𝑛𝑔 1) = {0.0 𝑇ℎấ𝑝⁄ , 0.198 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, 0.375 𝐶𝑎𝑜⁄ ⁄ } 𝑄(𝑃ℎò𝑛𝑔 2) = {0.0497 𝑇ℎấ𝑝⁄ , 0.667 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, 0.0 𝐶𝑎𝑜⁄ ⁄ }
Sử dụng hàm thành viên được trình bày trong hình 2.2 Tính toán độ đo tương tự giữa các thuộc tính này có thể được đo bằng:
𝑑(𝑎𝑗, 𝑏𝑗) = [∑ |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐴𝑖𝑗(𝑦)|
2
𝑚𝑗𝑖=1
1 2
; 𝑥, 𝑦 ∈ 𝐷𝑄 (2.9)
Cho hai thuộc tính 𝑎1 𝑣à 𝑏1 đại diện cho hai phòng 𝑄(𝑃ℎò𝑛𝑔1) và 𝑄(𝑃ℎò𝑛𝑔2), và cho 𝐴11, 𝐴21
và 𝐴31 tương ứng với Rẻ, Trung bình và Đắt Vậy ta có:
Trang 12ví dụ, khi 𝑘1= 1, ta nhận được: 𝑆(𝑎1, 𝑏1) ≅ 0.4836 và khi 𝑘1= 2, ta nhận được: 𝑆(𝑎1, 𝑏1) ≅0.4844 Tương tự, ta có thể đo tính tương tự giữa giá thuê của hai phòng Cho 𝐷𝑃 = [0,600] Miền
mờ 𝐹𝐷𝑃= {𝑅ẻ, 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ, Đắ𝑡} Giá cho Phòng 1 và Phòng 2 tương ứng:
𝑃(𝑃ℎò𝑛𝑔1) = {0.2353 𝑅ẻ⁄ , 0.726 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ⁄ , 0.0169 Đắ𝑡⁄ } 𝑃(𝑃ℎò𝑛𝑔2) = {0.0 𝑅ẻ⁄ , 0.2353 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ⁄ , 0.4868 Đắ𝑡⁄ }
Hình 2.2.Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai phòng (Sử dụng các hàm
thành viên khác nhau)
Cho P(Phòng 1) và P(Phòng 2) được biểu diễn bởi các thuộc tính tương ứng 𝑎2 và 𝑏2 Ta có 𝐴12,
𝐴22, và 𝐴32 tương ứng với Rẽ, Trung bình, và Đắt (Hình 2.2 cho thấy một đại diện mờ của chất lượng và giá cả cho hai phòng) Khoảng cách 𝑑(𝑎2, 𝑏2) ≅ 0.4151 Đối với 𝑘2= 1, ta nhận được: 𝑆(𝑎2, 𝑏2) ≅ 0.4133, và khi 𝑘2= 2, ta nhận được: 𝑆(𝑎2, 𝑏2) ≅ 0.3196 Do đó, Cách tính tương tự tổng quát: 𝑆𝑖𝑚(𝑜1, 𝑜2) = 𝑆𝑖𝑚(𝑃ℎò𝑛𝑔 1, 𝑃ℎò𝑛𝑔 2) = ⊕ (𝑆(𝑎1, 𝑏1), 𝑆(𝑎2, 𝑏2)) được tính như sau: 1) Trọng số trung bình các điểm tương tự của các thuộc tính: Giả sử rằng 𝛼1= 0.5 và 𝛼2=0.8 Khi 𝑘1= 𝑘2= 1 ta nhận được:
𝑆𝑖𝑚(𝑜 1 , 𝑜 2 ) =∑ 𝛼𝑗𝑆(𝑎𝑗, 𝑏𝑗)
2 𝑗=1
∑ 2 𝛼𝑗𝑗=1
Ví dụ 2.2: Trường hợp I (b): Trong trường hợp so sánh hai phòng ở được mô tả trong Hình 2.3, ví
dụ: khi các hàm thành viên của các tập mờ là khác nhau, ta có:
Hình 2.3: Trường hợp I (b) So sánh phòng
𝑑(𝑎 𝑗 , 𝑏 𝑗 ) = [
∑𝑚𝑗 |𝜇𝐴𝑖𝑗(𝑥) − 𝜇𝐵𝑖𝑗(𝑦)|2𝑖=1
𝑚 𝑗
]
1 2
; 𝑥, 𝑦 ∈ 𝐷 (2.10)
Điểm tương đồng 𝑆𝑖𝑚(𝑜1, 𝑜2) giữa hai phòng được tính như sau:
1) Điểm tương tự trung bình của các thuộc tính giống nhau: cho 𝛼1= 0.5 và 𝛼2= 0.8 Sau đó, khi 𝑘1 = 𝑘2= 1 ta nhận được: 𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.3902, và khi 𝑘1= 𝑘2= 2 ta nhận được: 𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.3090
Trang 132) Tối thiểu các điểm tương tự của các thuộc tính: khi 𝑘1= 𝑘2= 1 ta nhận
được:𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.2566, và khi 𝑘1 = 𝑘2= 2 ta nhận được:𝑆𝑖𝑚(𝑜1, 𝑜2) ≅ 0.1871
Hình 2.4: Trường hợp I (b) Đại diện mờ về chất lượng và giá cả của hai (Sử dụng các hàm thành
viên khác nhau)
Do đó, độ tương tự giữa các tập mờ được xác định bằng cách sử dụng cùng một hàm thuộc lớn hơn
độ tương tự giữa các tập mờ giống nhau được xác định bằng cách sử dụng các hàm thành viên khác nhau Điều này có nghĩa là việc đánh giá mức độ tương tự có liên quan đến việc xác định các hàm thuộc và biểu diễn các giá trị ngôn ngữ
B So sánh một thuộc tính rõ với một thuộc tính mờ và ngược lại
Trong phần này ta giải quyết trường hợp thứ hai: so sánh một giá trị thuộc tính rõ (số) của một đối tượng mờ (có nghĩa là một đối tượng có một hoặc nhiều thuộc tính mờ) với một thuộc tính mờ tương ứng của một đối tượng mờ khác Đầu tiên, ta làm mờ giá trị rõ thành mờ hoặc ngôn ngữ [68], sau
đó so sánh tương tự như trong trường hợp I Vì mục đích nhất quán, ta sử dụng (xem Hình 2.4 ở trên) hàm thành viên Gaussian nhằm đảm bảo tính tổng quát của đề xuất trên Điều này được minh họa bằng các ví dụ sau đây
Ví dụ 2.3: Trường hợp II: Ta xem xét hai phòng giống nhau trong Ví dụ 2.2, nhưng bây giờ giá trị
của thuộc tính Chất lượng của Phòng 1 và giá trị của thuộc tính Giá thuê Phòng 2 là rõ (xem Hình 2.5) Sau khi làm mờ hóa cho cả hai giá trị rõ giả định các hàm thành viên giống như trong ví dụ 2.2,
ta nhận được như sau:
Hình 2.5: Trường hợp II Các phòng được mô tả bởi các thuộc tính rõ và mờ
𝑄(𝑃ℎò𝑛𝑔 1) = 0.8 ≡ {0.0 𝑇ℎấ𝑝⁄ , 0.1979 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ⁄ , 0.3753 𝐶𝑎𝑜⁄ }
𝑄(𝑃ℎò𝑛𝑔 2) = 420 ≡ {0.0 𝑅ẽ⁄ , 0.2353 𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ⁄ , 0.4868 Đắ𝑡⁄ }
Sử dụng phương pháp trên, ta sẽ nhận được kết quả tương tự như trong Ví dụ 2.2
C So sánh tính tương tự của hai đối tượng có cùng một lớp
Để so sánh hai đối tượng mờ 𝑜1 𝑣à 𝑜2 và tính 𝜇(𝑜1, 𝑜2), trước tiên chúng ta so sánh các thuộc tính tương ứng của chúng Đối với mỗi một cặp giá trị của cùng một thuộc tính (𝑔𝑖ả 𝑠ử 𝐴𝑖(1 ≤ 𝑖 ≤ 𝑛))
ta cần tính được mức độ tương đương của chúng, biểu diễn bởi 𝜇𝐴𝑖(𝑜1, 𝑜2)(0 ≤ 𝜇𝐴𝑖(𝑜1, 𝑜2) ≤ 1)
Ở đây,
𝜇𝐴𝑖(𝑜1, 𝑜2) = 𝑆𝐸(𝑜1(𝐴𝑖), 𝑜2(𝐴𝑖)) (2.11)
Nhận xét rằng các thuộc tính khác nhau đóng các vai trò khác nhau trong việc so sánh đối tượng và một số có thể chiếm ưu thế và một số có thể không Trọng số 𝑤𝑖 được gán cho mỗi thuộc tính của C dựa trên tầm quan trọng của nó sao cho
0 ≤ 𝑤 𝑖 ≤ 1 𝑣à ∑ 𝑤 𝑖 = 1 (𝑖 = 1, 2, … , 𝑛) (2.12)
Về mặt hình thức, mức độ tương tự của 𝑜1 𝑣à 𝑜2, được tính bởi 𝜇(𝑜1, 𝑜2), được biểu diễn như sau
𝜇(𝑜1, 𝑜2) = ∑(𝜇𝐴𝑖(𝑜1, 𝑜2)) × 𝑤𝑖) (𝑖 = 1, 2, … , 𝑛) (2.13)
- Nếu 𝜇(𝑜1, 𝑜2) = 0, 𝑜1 𝑣à 𝑜2 không tham chiếu đến cùng đối tượng;
- Nếu 𝜇𝐴𝑖(𝑜1, 𝑜2) = 1, 𝑜1 𝑣à 𝑜2 cùng tham chiếu đến đối tượng thực