MÔ HÌNH CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ Sự kết hợp thông tin mờ trong các mô hình cơ sở dữ liệu đã trở thành một chủ đề nghiên cứu cơ sở dữ liệu quan trọng bởi vì thông tin như vậy thực tế tồn tại trong các ứng dụng tri thức và dữ liệu, trong đó dữ liệu mờ đóng vai trò là đầu vào về bản chất. Đã có nhiều tiếp cận khác nhau trong việc biểu diễn và xử lý dữ liệu mờ trong ngữ cảnh của cơ sở dữ liệu.
Trang 1ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN
TIỂU LUẬN
MÔN HỌC: LOGIC MỜ VÀ ỨNG DỤNG
Đề tài:
MÔ HÌNH CƠ SỞ DỮ LIỆU HƯỚNG
ĐỐI TƯỢNG MỜ
Nguyễn Thị Tố Châu Nguyễn Văn Đức Hoàng Minh Đức Phạm Thị Mỹ Linh
Trang 2MỤC LỤC
MỞ ĐẦU 3
NỘI DUNG 4
1.Giới thiệu 4
2 Mô hình cơ sở dữ liệu hướng đối tượng mờ (FOOD) 6
2.1 Tính không chắc chắn mức thuộc tính 6
2.2 Tính không chắc chắn mức đối tượng/lớp: 9
2.3 Tính không chắc chắn mức Lớp/Lớp con 12
3 Kết luận 12
TÀI LIỆU THAM KHẢO 13
Trang 3MỞ ĐẦU
Sự kết hợp thông tin mờ trong các mô hình cơ sở dữ liệu đã trở thành một chủ đề nghiên cứu cơ sở dữ liệu quan trọng bởi vì thông tin như vậy thực tế tồn tại trong các ứng dụng tri thức và dữ liệu, trong đó dữ liệu mờ đóng vai trò là đầu vào
về bản chất Đã có nhiều tiếp cận khác nhau trong việc biểu diễn và xử lý dữ liệu mờ trong ngữ cảnh của cơ sở dữ liệu Các mô hình cơ sở dữ liệu mờ đầu tiên chủ yếu chỉ được nghiên cứu đối với mô hình quan hệ Tuy nhiên mô hình cơ sở dữ liệu quan
hệ kinh điển và sự mở rộng mờ của nó không làm thỏa mãn nhu cầu mô hình hóa các đối tượng phức tạp với thông tin không chính xác và không chắc chắn Mô hình cơ
sở dữ liệu hướng đối tượng có thể biểu diễn các cấu trúc đối tượng phức tạp mà không có sự phân mảnh dữ liệu tổng hợp và các mối quan hệ mô hình phức tạp của các thuộc tính Các nỗ lực nghiên cứu hiện tại đã tập trung vào việc mở rộng cơ sở
dữ liệu hướng đối tượng để xử lý các đối tượng phức tạp cùng với thông tin không chính xác và không chắc chắn
Đã có nhiều mô hình cơ sở dữ liệu hướng đối tượng mờ được đề xuất trong hơn ba mươi năm qua, và nhiều kết quả thu được trong lĩnh vực này Một số vấn đề chủ yếu liên quan đến các mô hình này đã được nghiên cứu bao gồm: truy vấn và xử
lý dữ liệu, chuẩn hóa và phụ thuộc dữ liệu trong mô hình cơ sở dữ liệu hướng đối tượng, lập chỉ mục, thiết kế và thực thi…Tiểu luận này tập trung trình bày về một số khía cạnh chính của mô hình cơ sở dữ liệu hướng đối tượng mờ (FOOD)
Chúng em xin chân thành cảm ơn sự dạy bảo, định hướng nghiên cứu, cung cấp tài liệu và hướng dẫn của Thầy TS Nguyễn Công Hào đã giúp chúng em hoàn thành tiểu luận này Chúng em cũng xin chân thành cảm ơn các đồng nghiệp, anh chị
em học viên đã đóng góp ý kiến cho chúng em trong tiểu luận này Do thời gian cũng như kiến thức có hạn nên chắc chắn không tránh khỏi những thiếu sót, rất mong nhận được sự góp ý của Thầy và các anh chị em học viên trong lớp để tiểu luận này hoàn thiện hơn
NHÓM 1
Trang 4NỘI DUNG
1.Giới thiệu
Các mô hình dữ liệu kinh điển thường không có khả năng biểu diễn và thao tác các thông tin không chính xác và không chắc chắn mà có thể xuất hiện trong nhiều ứng dụng thế giới thực Kể từ đầu những năm 1980, lý thuyết logic mờ của Zadeh đã được sử dụng để mở rộng nhiều mô hình dữ liệu khác nhau Mục đích của việc giới thiệu logic mờ trong cơ sở dữ liệu là để nâng cao các mô hình kinh điển sao cho thông tin không chắc chắn và không chính xác có thể được biểu diễn và thao tác Điều này dẫn đến nhiều đóng góp, chủ yếu là đối với mô hình quan hệ hoặc dạng liên quan nào đó của nó
Ngoài ra các tiến bộ nhanh chóng về khả năng tính toán của máy tính đã mang lại cơ hội cho cơ sở dữ liệu trong các ứng dụng đang nổi lên (ví dụ, CAD / CAM, đa phương tiện và GIS) Các ứng dụng này đòi hỏi một cách đặc trưng việc mô hình hóa và thao tác các đối tượng phức tạp và các mối quan hệ ngữ nghĩa Người ta đã chứng minh rằng mô hình hướng đối tượng là rất tốt với các yêu cầu này Vì mô hình cơ sở dữ liệu quan hệ kinh điển và phần mở rộng mờ của nó không đáp ứng các nhu cầu mô hình hóa các đối tượng phức tạp với sự thiếu chính xác và không chắc chắn, nhiều nghiên cứu đã được tập trung vào các
mô hình cơ sở dữ liệu hướng đối tượng mờ để xử lý các đối tượng phức tạp cùng với thông tin không chắc chắn
Hơn ba mươi năm qua, đã có nhiều nghiên cứu trong lĩnh vực mô hình hóa
cơ sở dữ liệu mờ và đã thu được nhiều lợi ích và kết quả to lớn Nhiều mô hình
cơ sở dữ liệu mờ hướng đối tượng đã được đề xuất, và một số vấn đề chính liên
quan đến các mô hình này đã được nghiên cứu Dưới đây là một số mô hình cơ
sở dữ liệu hướng đối tượng mờ cơ bản được đề xuất.
- Mô hình FOOD dựa trên ODMG
Sự mở rộng ngữ nghĩa và cú pháp đối với mô hình đối tượng ODMG được
đề xuất để xử lý các đối tượng mờ và các vấn đề liên quan Cho đến khi FODMG được quan tâm, đã hình thành sự hợp tác nghiên cứu giữa các nhà
Trang 5nghiên cứu CSDL mờ để xây dựng các khái niệm và thuật ngữ chung, hình thức hóa và tích hợp nghiên cứu hiện tại về lĩnh vực CSDL HĐT mờ
Tre, Caluwe và Cruyssen đã đề xuất một framework để kết hợp tính không chắc chắn vào CSDL HĐT Framework này về cơ bản được phát triển bằng cách tích hợp các khía cạnh khác nhau từ CSDL HĐT dưới tiêu chuẩn trên thực tế của ODMG và lý thuyết đại số dựa trên ràng buộc
- Mô hình CSDL ngữ nghĩa mờ
Có nhiều đề xuất cho mô hình này trong đó trình bày các kỹ thuật để hình thức hóa và khái niệm hóa ngữ nghĩa và tính mờ của thế giới thực theo cách được chấp nhận đối với sự suy luận và nhận thức của con người, biểu diễn và
mô hình hóa sự mờ và sự không chắc chắn ở các mức độ khác nhau trong mô hình hóa hướng đối tượng
- Mô hình dựa trên đồ thị mờ
Mô hình này biểu diễn các đối tượng và các mối quan hệ mờ bằng đồ thị Miền giá trị mờ của các thuộc tính, quan hệ suy luận mờ, thể hiện mờ của mối quan hệ và các mối quan hệ mờ IS-A cũng được giải thích và thể hiện để tạo ra
mô hình này
- Mô hình CSDL HĐT mờ thông minh
Có nhiều đề xuất cho mô hình này, trong đó liên quan đến sự biểu diễn tri thức dựa trên tính toán với từ; xử lý sự mờ ở các mức thuộc tính, đối tượng/lớp, lớp/siêu lớp cùng các liên kết khác nhau giữa các lớp
- Mô hình dựa trên tập thô
Có hai đề xuất cho mô hình này, thứ nhất là mô hình dựa trên hệ thống kiểu đại số các ràng buộc được định nghĩa một cách hình thức Mô hình dự liệu này rất hữu ích trong việc biểu diễn các thực thể dữ liệu không gian và các mối quan
hệ giữa chúng Thứ hai, là tiếp cận tích hợp sự không chắc chắn vào cơ sở dữ liệu sử dụng quan hệ không phân biệt được và xấp xĩ trong lý thuyết tập thô
- Mô hình dựa trên UFO (Uncertainty and Fuzziness in an Object-oriented)
Trang 6Mô hình này cung cấp khả năng ngữ nghĩa nâng cao mô hình hướng đối tượng để hỗ trợ sự không chính xác về thông tin Sự không chính xác về thông tin như vậy được giải quyết bằng phân bố khả năng và được mô hình hóa bằng cách sử dụng khái niệm đối tượng vai trò Các đối tượng vai trò này mô hình hóa thông tin không chính xác cũng như các vai trò không chính xác
2 Mô hình cơ sở dữ liệu hướng đối tượng mờ (FOOD)
Mô hình FOOD được đề xuất lần đầu tiên là mô hình dữ liệu dựa trên sự tương tự (similitary-based) Có một tiếp cận khác của Yazici, R George và D.Aksoy đã mở rộng mô hình này để biểu diễn tốt hơn tính không chắc chắn
Mô hình FOOD trong được sử dụng trong tiếp cận này được sử dụng như là mô hình dữ liệu logic Phần tiếp theo đây sẽ trình bày tóm tắt mô hình FOOD
Mô hình FOOD chú ý đến việc biểu diễn thông tin mơ hồ, hay nói cách khác
sự mờ trong FOOD được thể hiện ở ba mức: mức thuộc tính, mức đối tượng/lớp
và mức lớp cha/lớp con
2.1 Tính không chắc chắn mức thuộc tính
FOOD giải quyết ba kiểu của tính không chắc chắn ở cấp thuộc tính:
a. Kiểu thứ nhất là kiểu không đầy đủ xảy ra khi giá trị của thuộc tính được xác định là một khoảng giá trị Ví dụ, Số lượng khán giả xem một trận bóng đá vào khoảng 10000-20000 người Kiểu không chắc chắn được gọi là "không đầy đủ."
b. Kiểu không chắc chắn thứ hai xảy ra khi giá trị của thuộc tính là chưa biết (unk), không tồn tại (dne) hoặc không có thông tin về giá trị thuộc tính có tồn tại hay không (ni) Ví dụ, mô tả của một video có thể chưa được biết (unk), mô tả cho một video có thể không tồn tại (dne) hoặc chúng ta có thể không biết liệu một mô tả cho một video có tồn tại hay không (ni) Kiểu không chắc chắn được gọi là "Null"
c. Kiểu thứ ba của tính không chắc chắn xảy ra khi giá trị của thuộc tính được xác định một cách mơ hồ Kiểu không chắc chắn này được gọi là
"mờ" Ví dụ, điều kiện thời tiết trong một trận đấu bóng đá có thể được đặc tả với một thuật ngữ mờ "rất nóng"
Trang 7Mỗi thuộc tính mờ có một miền giá trị (domain - tập hợp các giá trị mà thuộc tính có thể lấy) độc lập với lớp của nó Mỗi miền trị bao gồm các giá trị ngôn ngữ được gọi là từ ngữ mờ (fuzzy term) Phạm vi (range) của một thuộc tính mờ
là một tập con của miền trị thuộc tính đó, biểu diễn các giá trị lý tưởng mà nó có thể lấy nhưng thuộc tính này có thể lấy giá trị bất kỳ từ miền trị của nó FOOD cho phép định nghĩa độ phù hợp đối với các thuộc tính mờ, đó là một số thực giữa 0 và 1 phản ánh tầm quan trọng của định nghĩa phạm vi của thuộc tính mờ
đó trong việc xác định ranh giới của các lớp Phạm vi và sự phù hợp được sử dụng để tìm ra độ thuộc của một đối tượng vào các lớp của nó, và độ thuộc của một lớp vào các lớp cha của nó Chúng giống nhau cho mỗi thể hiện của một lớp
Một mối quan hệ tương tự hay quan hệ tương đương mờ, được biểu diễn bởi một ma trận tương tự, là cơ sở cho mô hình FOOD dựa trên sự tương tự
(similarity-based) Một ma trận tương tự định nghĩa sự tương tự giữa mỗi cặp
phần tử trong miền trị mờ Một ví dụ ma trận tương tự của một thuộc tính mờ
tuổi được đưa ra trong Bảng 2.1 Miền trị của thuộc tính tuổi là {rất già, già, trẻ,
rất trẻ, trẻ con}
Bảng 2.1: Ma trận tương tự đối với thuộc tính mờ tuổi
Tuổi Rất già Già Trẻ Rất trẻ Trẻ con Rất già 1.0 0.7 0.0 0.0 0.0
Rất trẻ 0.0 0.0 0.8 1.0 0.3
Trẻ con 0.0 0.0 0.1 0.3 1.0
Thuộc tính mờ là thuộc tính đa trị; do đó, nó có thể nhận một tập các giá trị
và các giá trị này được nối kết bởi một trong các thành phần ngữ nghĩa AND,
OR, XOR Các biểu diễn sau đây được sử dụng cho các thuộc tính đa trị:
Toàn tử logic
Biểu diễn AND <…>
Trang 8OR {…}
Giả sử thuộc tính thời tiết, có miền giá trị {có mây, nắng, dịu mát, lạnh,
nóng, có mây} Biểu diễn sau đây là hợp lệ:
AND: Giá trị của thuộc tính thời tiết là <có mây, lạnh>, có nghĩa là thời
tiết có nhiều mây và lạnh
OR: Giá trị của thuộc tính thời tiết là {dịu mát, nóng}, có nghĩa là thời tiết
ôn hòa hoặc nóng, hoặc có thể cả hai
XOR: Giá trị của thuộc tính thời tiết là [nóng, lạnh], có nghĩa là thời tiết
nóng hoặc lạnh, nhưng không phải cả hai.Ở đây, ý nghĩa của thành phần ngữ nghĩa XOR là khác với toàn tử logic XOR
Trong mô hình FOOD, ngữ nghĩa được xác định trong khi định nghĩa phạm vi của một thuộc tính mờ Ví dụ, hãy xem xét lớp C có các thuộc tính a, b
và c Các định nghĩa phạm vi có thể được như sau:
rngc(a) = {a1, a2, a3} trong đó domc(a) = {a1, a2, a3, a4, a5, …, ak} đối với ngữ nghĩa
OR
rngc(b) = <b1, b2> trong đó domc(b) = {b1, b2, b3, b4, b5, …, bk} đối với ngữ nghĩa AND
rngc(c) = [c1, c2, c3] trong đó domc(c) = {c1, c2, c3, c4, c5, …, ck} đối với ngữ nghĩa XOR
2.2 Tính k hông chắc chắn mức đối tượng/lớp:
Tính không chắc chắn ở mức đối tượng/lớp đề cập đến sự tồn tại của tính thuộc một phần của một đối tượng đến lớp của nó Trong mô hình FOOD, các ranh giới của một lớp có thể không chắc chắn vì nó có các thuộc tính mờ Phạm
vi của một thuộc tính mờ cho thấy biết các giá trị lý tưởng cho thuộc tính đó
Vì một thuộc tính mờ có thể lấy giá trị bất kỳ từ miền trị của nó bất kể định nghĩa phạm vi của nó, một số đối tượng là phần tử đầy đủ của các lớp của chúng với một độ thuộc là 1 trong khi một số đối tượng là phần tử của lớp với một độ thuộc thay đổi giữa 0 và 1 Các giá trị thuộc tính mờ của một đối tượng xác định
Trang 9độ thuộc của đối tượng đó đến các lớp của nó Giá trị các thuộc tính mờ của một đối tượng đối càng gần với các định nghĩa phạm vi, thì độ thuộc đối tượng đó càng cao hơn Mức độ phù hợp và tương tự giữa các giá trị thuộc tính mờ và các định nghĩa phạm vi của chúng xác định độ thuộc của một đối tượng đến lớp của
nó Để tìm độ thuộc đối tượng oj vào lớp C, sử dụng công thức sau đây:
Trong công thức:
- INC (rngC (ai) / oj (ai)) là độ bao hàm giá trị của thuộc tính ai đối
với phạm vi của nó Việc tính toán độ bao hàm phụ thuộc vào ngữ nghĩa của các thuộc tính mà có thể là một trong số các ngữ nghĩa AND, OR, XOR
- RLV (ai, C) là độ phù hợp của thuộc tính ai Trung bình trọng số
được sử dụng để tính toán độ thuộc của đối tượng
Công thức bao hàm đối với thuộc tính mờ:
Việc tính toán độ bao hàm đối với các ngữ nghĩa khác nhau được giải thích dưới đây:
1 – Ngữ nghĩa AND:
Ngữ nghĩa AND là mạnh vì khi nó yêu cầu tất cả các giá trị xuất hiện cùng một lúc Công thức ngữ nghĩa AND như sau:
INC(rngC(ai)/oj(ai))= Min[Min[Max(µS(x,y))],Min[Max(µS(z,w)]],
∀x ∈ rngC(ai), ∀y ∈ oj(ai), ∀z ∈ oj(ai), ∀w ∈ rngC(ai)
Trang 10Ví dụ: Xét lớp nhân viên được định nghĩa như sau:
class Nhanvien
{
FuzzyInteger tuoi;
FuzzyString maumat;
public nhanvien(tuoi){}
}
Cho độ phù hợp của các thuộc tính, định nghĩa khoảng giá trị của thuộc tính tuổi
và giá trị các đối tượng ở thuộc tính tuổi như sau :
RLV(tuoi,Nhanvien)=0.8, RLV(maumat, Nhanvien)=0.2
rngNhanvien(tuoi)=<gia, rat gia>
o1(tuoi)= <tre, gia>
o2(tuoi)= <gia>
Ma trận tương tự của thuộc tính mờ tuổi cho trong bảng dưới đây
Tuoi Rat gia Gia Tre Rat tre Tre con
Rat gia 1.0 0.7 0.0 0.0 0.0
Gia 0.7 1.0 0.0 0.0 0.0
Tre 0.0 0.0 1.0 0.8 0.1
Rat tre 0.0 0.0 0.8 1.0 0.3
Tre con 0.0 0.0 0.1 0.3 1.0
Trang 11Max(µ S (rat gia, tre), µ S (rat gia, gia))], Min[Max(µ S (tre, gia), µ S (tre, rat gia)), Max(µ S ( gia, gia), µ S (gia, rat
gia))]]=Min[Min[Max(0,1),Max(0,0.7)],Min[Max(0, 0)),Max(1,0.7)]]=0
- INC(rng nhanvien (tuoi)/o 2 (tuoi))= Min[Min[Max(µ S (gia,gia), Max(µ S (rat gia, gia)], Min[Max(µ S (gia, gia), Max(µ S (gia, rat gia)]]=Min[Min[Max(1), Max(0.7)],
Min[Max(1), Max(0.7)]]=0.7
2- Ngữ nghĩa OR:
Khi các giá trị của một thuộc tính trở nên khác nhau nhiều hơn, độ không chắc chắn tăng lên Công thức ngữ nghĩa OR như sau:
INC(rng C (a i )/o j (a i )) = Min[Max(µ S (x,z)),Threshold(o j (a i ))],
∀x ∈ o j (a i ),∀z ∈ rng C (a i )
Ở đây, giá trị ngưỡng chứng tỏ rằng mức tương tự tối thiểu giữa các giá trị của một thuộc tính và xây dựng như sau:
Threshold(o j (a i )) = Min[µS(x,z)], ∀x,∀z ∈ o j (a i )
Ví dụ: Xét lớp nhân viên và ma trận tương tự đã xét ở trên, và định nghĩa khoảng giá trị của thuộc tính tuổi và giá trị của hai đối tượng o1, o2 đối với thuộc tính tuổi như sau:
rngnhanvien(tuoi)={gia, rat gia}
o1(tuoi)={tre, gia}
o2(tuoi)={gia}
- Threshold(o 1 (tuoi)) = Min[µ S (tre,tre), µ S (gia,tre), µ S (gia,gia)]=Min[1,0,1]=0
- Threshold(o 2 (tuoi)) = 1
- INC(rng nhanvien (tuoi)/o 1 (tuoi))= Min[Max(µ S (tre,gia), µ S (tre,rat gia), µ S (gia,gia),
µ S (gia,rat gia)),Threshold(o 1 (tuoi))]=Min[Max(0,0,1, 0.7),0]=0
- INC(rng nhanvien (tuoi)/o 2 (tuoi))=
Trang 12Min[Max(µ S (gia,gia),µ S (gia,ratgia)),Threshold(o 2 (tuoi))]=Min[Max(1,0.7),1]=1
3- Ngữ nghĩa XOR:
Với ngữ nghĩa XOR, chỉ có một trong những giá trị thuộc tính tồn tại ở một thời điểm Giả sử xác suất bằng nhau cho các giá trị một thuộc tính, công thức ngữ nghĩa XOR là như sau:
INC(rng C (a i )/o j (a i )) = Avg[Max(µS(x,y))], ∀x ∈ o j (a i ),∀y ∈ rng C (a i )
Ví dụ: Xét lớp nhân viên và ma trận tương tự đã xét ở trên, định nghĩa khoảng giá trị của thuộc tính tuổi và giá trị của hai đối tượng o1, o2 đối với thuộc tính tuổi như sau:
rngnhanvien(tuoi)=[gia, rat gia]
o1(tuoi)=[tre, gia]
o2(tuoi)=[gia]
- INC(rng nhanvien (tuoi)/o 1 (tuoi))= Avg[Max(µ S (tre,gia), µ S (tre,rat
gia)),Max( µ S (gia, gia), µ S (gia,rat gia))]= Avg[Max(0,0), Max(1,0.7)]=0.5
- INC(rng nhanvien (tuoi)/o 2 (tuoi))= 1
Công thức Bao hàm đối với thuộc tính không đầy đủ
Miền trị và phạm vi của một thuộc tính không đầy đủ được định nghĩa bằng cách sử dụng khoảng giá trị được biểu diễn bởi hai giá trị như {100 - 10000} Xem xét giá trị một thuộc tính không đầy đủ, có năm trường hợp để tính toán độ bao hàm các giá trị phạm vi của thuộc tính Những trường hợp này được liệt kê dưới đây:
R [R1 R2] là phạm vi của thuộc tính
V [V1 V2] là giá trị của thuộc tính
D [D1 D2] là miền trị của thuộc tính
1 - Giá trị của thuộc tính nằm bên trong biên của phạm vi thuộc tính Trong