Lý thuyết chuẩn hóa của cơ sở dữ liệu mờ và ngôn ngữ SQL mờ

đề như: biểu diễn dữ liệu mờ, các phép toán trên quan hệ mờ, các phụ thuộc dữ liệu mờ, các dạng chuẩn mờ và ngôn ngữ hỏi mờ…Các phương pháp này thường hướng tới việc bảo toàn các tính ch

Trang 2

M Ụ C L Ụ C

MỤC LỤC 2

BẢNG KÝ HIỆU VÀ CHỮ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC CÁC HÌNH VẼ 7

MỞ ĐẦU 8

CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ 11

1.1 Kiến thức cơ sở 11

1.1.1 Tập mờ 11

1.1.2 Các kiểu hàm thuộc 12

1.1.3 Các phép toán trên tập mờ 15

1.1.4 Phân bố khả năng 20

1.1.5 Các toán tử so sánh trên tập mờ 21

1.2 Các mô hình cơ sở dữ liệu mờ 23

1.2.1 Mô hình tập con mờ 25

1.2.2 Mô hình dựa trên quan hệ tương tự 26

1.2.3 Mô hình dựa trên lý thuyết khả năng 27

1.3 Ngôn ngữ truy vấn dữ liệu mờ 29

1.4 Kết luận chương 1 30

CHƯƠNG 2 CƠ SỞ DỮ LIỆU MỜ DỰA TRÊN QUAN HỆ TƯƠNG TỰ 31

2.1 Cơ sở dữ liệu mờ dựa trên quan hệ tương tự 32

2.1.1 Cơ sở dữ liệu quan hệ mờ 32

2.1.2 Quan hệ tương tự 32

2.1.3 Cơ sở dữ liệu quan hệ mờ dựa trên quan hệ tương tự 33

2.2 Các dạng chuẩn mờ đối với các quan hệ mờ 33

2.2.1 Phụ thuộc hàm mờ (ffd) 34

2.2.2 Khoá mờ 42

2.2.3 Dạng chuẩn mờ thứ nhất 47

2.2.4 Dạng chuẩn mờ thứ hai 48

Trang 3

2.2.5 Dạng chuẩn mờ thứ ba 51

2.2.6 Dạng chuẩn mờ Boyce Codd 57

2.2.7 Kiểm tra tính bảo toàn phụ thuộc trong phép phân tách 59

2.2.8 Kiểm tra tính kết nối không mất thông tin trong phép phân tách 61

CHƯƠNG 3 NGÔN NGỮ SQL MỜ 67

3.1 Sơ lược về ngôn ngữ SQL 67

3.2 Ngôn ngữ SQL mờ 68

3.3 FSQL trên mô hình cơ sở dữ liệu rõ 68

3.3.1 Cơ sở 68

3.3.2 Ngôn ngữ thao tác dữ liệu (DML) trong SQL mở rộng (SQLEx) 73

3.4 FSQL trên mô hình cơ sở dữ liệu mờ 76

3.4.1 Dữ liệu mờ và các thuộc tính mờ 76

3.4.2 Ngôn ngữ thao tác dữ liệu (DML) của SQL mờ (FSQL) 79

3.4.3 Các toán tử so sánh mờ 85

3.4.4 Các ví dụ 90

CHƯƠNG 4 TRIỂN KHAI NGÔN NGỮ SQL MỜ 94

4.1 Ngôn ngữ SQL mờ trên cơ sở dữ liệu rõ 94

4.1.1 Kiến trúc tổng quát 94

4.1.2 Cấu trúc dữ liệu 95

4.1.3 Các hàm, thủ tục chính 97

4.1.4 Giao diện chương trình 98

KẾT LUẬN 100

TÀI LIỆU THAM KHẢO 102

Trang 4

B Ả NG KÝ HI Ệ U VÀ CH Ữ VI Ế T T Ắ T

π Possibility distribution Phân bố khả năng

X+ Transitive Closure of X Bao đóng bắc cầu của

thuộc tính X

BCNF Boyce Code Normal Form Dạng chuẩn Boyce Code

Trang 5

DANH M Ụ C CÁC B Ả NG

Bảng 1.1: Các hàm t-chuẩn f(x,y) =t(x, y) 17

Bảng 1.2: Các hàm s-chuẩn f(x,y) = s(x, y) 18

Bảng 1.3: Biểu diễn dữ liệu mờ trong mô hình Prade – Testemale 28

Bảng 2.1: Quan hệ tương tự đối với thuộc tính TÊN 35

Bảng 2.2: Quan hệ tương tự đối với thuộc tính NĂNG LỰC 35

Bảng 2.3: Quan hệ tương tự đối với thuộc tính THU NHẬP 36

Bảng 2.4: Các bộ dữ liệu đối với quan hệ NGƯỜI 36

Bảng 2.5: Các bộ dữ liệu mới đối với quan hệ NGƯỜI 38

Bảng 2.6: Bảng khởi tạo cho quan hệ R=(A, B, C, D, E, F) 63

Bảng 2.7: Bảng sau khi áp dụng bước thứ 3 của thuật toán kiểm tra kết nối không mất thông tin cho R 63

Bảng 2.8: Bảng khởi tạo cho quan hệ R = (A, B, C, D, E, F, G) 64

Bảng 2.9: Kết quả của bước thứ 3 trong thuật toán kiểm tra kết nối không mất thông tin 65

Bảng 2.10: Kết quả của bước thứ 4 trong thuật toán kiểm tra kết nối không mất thông tin của ffd đầu tiên của R 65

Bảng 2.11: Bảng cho R = (A, B, C, D, E, F, G) khi kết thúc thuật toán kiểm tra kết nối không mất thông tin 66

Bảng 3.1 Quan hệ tương tự giữa các nhãn đối với thuộc tính: MAU_TOC 79

Bảng 3.2: Các toán tử so sánh mờ 81

Trang 6

Bảng 3.3: Các hằng số mờ trong FSQL 82 Bảng 3.4: Cách tính hàm CDEQ với các toán tử logic trong FSQL 82 Bảng 3.5: Các bộ dữ liệu đối với quan hệ NHAN_VIEN 91

Trang 7

DANH M Ụ C CÁC HÌNH V Ẽ

Hình 1.1: Các tập mờ hình tam giác: a)Tổng quát và b) Đối xứng 13

Hình 1.2: Tập mờ Singleton 13

Hình 1.3: Tập mờ L (phải) 14

Hình 1.4: Tập mờ Gamma tuyến tính 14

Hình 1.5: Tập mờ hình thang 15

Hình 1.6: Phép giao, hợp cho tập mờ hình thang 19

Hình 3.1: Các nhãn ngôn ngữ đối với thuộc tính THU_NHAP 70

Hình 3.2: Phân bố khả năng đối với các nhãn của thuộc tính Tuổi 78

Hình 3.3: So sánh hai phân bố khả năng hình thang A và B 85

Trang 8

M Ở ĐẦ U

Mô hình quan hệ do Codd đề xuất năm 1970 đã đạt được những kết quả hết sức to lớn về phương diện lý thuyết và ứng dụng Mô hình quan hệ là một trong những mô hình dữ liệu có cơ sở lý thuyết được xây dựng vững chắc nhất và là cơ sở cho hầu hết các hệ quản trị cơ sở dữ liệu hiện nay Nhưng mô hình này chỉ biểu diễn được những dữ liệu với thông tin chính xác, đầy đủ và

có thể định lượng được

Tuy nhiên, trong thực tế đời sống, con người thường xuyên phải xử lý những dữ liệu với thông tin không đầy đủ và không rõ ràng Trong nhiều lĩnh vực như sinh vật học, di truyền học, các hệ thống thông tin địa lý, kinh tế và các hệ thống dự báo thời tiết v.v…, dữ liệu cũng thường không đầy đủ và rõ ràng Lớp dữ liệu con người nhận biết chắc chắn và có thể định lượng được là rất ít so với lớp dữ liệu mà con người nhận biết không chắc chắn, không rõ ràng Do đó, một cách tự nhiên cần mở rộng mô hình quan hệ để có thể biểu diễn được dữ liệu với thông tin không chắc chắn, không đầy đủ, gọi chung là

dữ liệu mờ (fuzzy data) Cơ sở dữ liệu mở rộng mô hình quan hệ truyền

thống, cho phép biểu diễn và xử lý dữ liệu mờ gọi là cơ sở dữ liệu quan hệ mờ (fuzzy relational database), hay cơ sở dữ liệu mờ

Việc nghiên cứu xây dựng mô hình cơ sở dữ liệu mờ đã và đang được rất nhiều các nhà khoa học quan tâm nghiên cứu nhằm đáp ứng được nhu cầu biểu diễn dữ liệu với thông tin không chắc chắn, không đầy đủ trong thực tế

Có nhiều mô hình cơ sở dữ liệu mờ đã được đề xuất theo nhiều cách tiếp cận

khác nhau Tiêu biểu là các mô hình như: mô hình tập con mờ, mô hình dựa

trên quan hệ tương tự, mô hình dựa trên lý thuyết khả năng Trong các nghiên

cứu mở rộng mô hình quan hệ, các tác giả thường quan tâm giải quyết các vấn

Trang 9

đề như: biểu diễn dữ liệu mờ, các phép toán trên quan hệ mờ, các phụ thuộc

dữ liệu mờ, các dạng chuẩn mờ và ngôn ngữ hỏi mờ…Các phương pháp này thường hướng tới việc bảo toàn các tính chất của mô hình quan hệ

Cùng với việc nghiên cứu xây dựng mô hình cơ sở dữ liệu mờ, vấn đề khai thác dữ liệu mờ trên các mô hình cơ sở dữ liệu cũng được rất nhiều tác giả quan tâm nghiên cứu Các nghiên cứu thường tập trung mở rộng những ngôn ngữ hỏi trên mô hình quan hệ như: đại số quan hệ, ngôn ngữ truy vấn dữ liệu có cấu trúc (SQL) sao cho có thể đáp ứng được nhu cầu khai thác dữ liệu phong phú và đa dạng của con người Trong đó việc mở rộng ngôn ngữ SQL chuẩn trong mô hình quan hệ được đặc biệt quan tâm nghiên cứu Bởi vì, ngôn ngữ SQL đã trở thành ngôn ngữ truy vấn chuẩn và được xem là một trong những yếu tố chính đem lại thành công cho các hệ thống cơ sở dữ liệu quan hệ thương mại hiện nay Tuy nhiên, ngôn ngữ SQL này chỉ cho phép thiết lập các câu truy vấn với các tiêu chuẩn chọn dữ liệu cứng nhắc và dữ liệu trả về phải chính xác với các tiêu chuẩn đó Nó không cho phép thiết lập các câu truy vấn với các tiêu chuẩn chọn dữ liệu là mơ hồ, còn gọi là tiêu chuẩn mơ hồ hay tiêu chuẩn mờ, và dữ liệu trả về là “gần” với tiêu chuẩn đó

Do đó, một cách tự nhiên, chúng ta cần phải mở rộng ngôn ngữ SQL chuẩn sao cho có thể thiết lập được các câu truy vấn mềm dẻo với các tiêu chuẩn

mờ Ngôn ngữ SQL mờ (fuzzy SQL) là một mở rộng của ngôn ngữ SQL và

cho phép thiết lập các câu truy vấn mềm dẻo với các tiêu chuẩn mờ

Luận văn này tập trung tìm hiểu trình bày một mô hình cơ sở dữ liệu

mờ dựa trên quan hệ tương tự Trình bày chi tiết về phụ thuộc hàm mờ, các dạng chuẩn mờ và phân tách bảo toàn phụ thuộc và có kết nối không mất thông tin trong mô hình cơ sở dữ liệu mờ này Đồng thời, luận văn cũng tìm hiểu trình bày về ngôn ngữ SQL mờ trên hai mô hình cơ sở dữ liệu: mô hình

cơ sở dữ liệu quan hệ truyền thống và mô hình cơ sở dữ liệu mờ

Trang 10

Luận văn gồm phần mở đầu, 4 chương nội dung, phần kết luận và tài liệu tham khảo

Chương 1 trình bày những kiến thức, khái niệm cơ sở dùng trong luận văn Giới thiệu tổng quan về các mô hình cơ sở dữ liệu mờ, ngôn ngữ SQL

mờ

Chương 2 trình bày về mô hình cơ sở dữ liệu mờ dựa trên quan hệ tương

tự Trình bày chi tiết về các phụ thuộc hàm mờ, khoá mờ, các dạng chuẩn mờ Vấn đề phân tách quan hệ đảm bảo tính bảo toàn phụ thuộc và có kết nối không mất thông tin cũng được tìm hiểu và xem xét

Chương 3 tập trung tìm hiểu về ngôn ngữ SQL mờ trên hai mô hình cơ

sở dữ liệu: mô hình quan hệ truyền thống và mô hình cơ sở dữ liệu mờ

Chương 4 trình bày về việc triển khai ngôn ngữ SQL mờ trên mô hình quan hệ truyền thống

Em xin chân thành gửi lời cảm ơn PGS TS Hồ Thuần, các thầy cô giáo của trường Đại học Công nghệ, các anh chị đồng nghiệp và các bạn cùng lớp

đã trang bị kiến thức và có nhiều đóng góp quý báu giúp em hoàn thành luận

văn

Trang 11

CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ

Chương này trình bày những kiến thức cơ sở được sử dụng cho luận văn, giới thiệu tổng quan về mô hình và một số kết quả nghiên cứu tiêu biểu về cơ

sở dữ liệu mờ

1.1 Kin thc c s

1.1.1 Tập mờ

Lý thuyết tập mờ dùng công cụ toán học để mô tả các khái niệm mơ hồ

thường gặp trong đời sống hàng ngày như “cao”, “thấp”, “nặng”, “nhẹ”,

“trẻ”, “già”,

Định nghĩa 1.1: Cho X là một tập vũ trụ các đối tượng Tập mờ A trên X là

một tập các cặp

[ ] { µA( ) / ∈ X , µA( ) ∈ 0 , 1 }

A

Trong đó µ A (x) là hàm từ X vào [0, 1] gán cho mỗi phần tử x thuộc X giá trị

µ A (x) phản ánh mức độ của x thuộc vào tập mờ A µ A (x) được gọi là độ thuộc của phần tử x vào tập mờ A Độ thuộc này là một số thực trong đoạn [0, 1]

• µ A (x) = 0 nghĩa là x không thuộc vào tập mờ A

• µ A (x) = 1 nghĩa là x hoàn toàn thuộc vào tập mờ A

µ A (x) còn được gọi là hàm đặc trưng hay hàm thuộc của tập mờ A

Nhãn ngôn ngữ (Linguistic label) là một từ, trong ngôn ngữ tự nhiên,

biểu diễn hoặc nhận biết một tập mờ mà có thể được định nghĩa hoặc không

Trang 12

Với định nghĩa này, trong cuộc sống hàng ngày, người ta thường sử dụng các nhãn ngôn ngữ để biểu diễn các khái niệm trừu tượng như: trẻ, già, nóng, lạnh, đắt, rẻ, v.v

Về trực giác, định nghĩa về các nhãn này không những biển đổi từ người này sang người khác và phụ thuộc vào từng thời điểm, mà còn biến đổi theo ngữ cảnh mà nó được áp dụng Ví dụ nhãn ngôn ngữ “cao” trong ngữ cảnh

một người cao và tòa nhà cao là khác nhau

1.1.2 Các kiểu hàm thuộc

Kiểu của tập mờ phụ thuộc vào các kiểu hàm thuộc khác nhau Đã có nhiều kiểu hàm thuộc khác nhau được đề xuất Dưới đây luận văn trình bày một số hàm thuộc tiêu biểu

1 Tam giác (Triangular): Định nghĩa bởi các cận dưới a, cận trên b và giá

trị m, a < m < b Chúng ta gọi giá trị b-m là biên (margin) nếu giá trị này bằng giá trị m-a (Hình 1.1)

m x nÕu

b x m nÕu m

b

x b

m x a nÕu a

m

a x

b x hoÆc a

x nÕu

(x)

1 0

A

Trang 13

Hình 1.1: Các tập mờ hình tam giác: a)Tổng quát và b) Đối xứng

2 Singleton (hình 1.2): Có giá trị 0 tại tất cả các điểm trong tập vũ trụ, ngoại

trừ tại điểm m có giá trị 1, dùng để biểu diễn các giá trị rõ

m x nÕu SG(x)

1 0

b x a nÕu a

b

x b

a x nÕu L(x)

0 1

Trang 14

Hình 1.3: Tập mờ L (phải)

tham số a và b theo cách sau:

b x nÕu

b x a nÕu a

b

a x

a x nÕu (x)

1 0

Hình 1.4: Tập mờ Gamma tuyến tính

5 Hàm hình thang (hình 1.5): được định nghĩa bởi bộ 4 giá trị a, b, c, d

theo công thức sau:

Trang 15

d x c nÕu c

d

x d

b x a nÕu a

b

a x

d x hoÆc a

x nÕu

T(x)

1 0

Hình 1.5: Tập mờ hình thang

1.1.3 Các phép toán trên tập mờ

Phần này trình bày các khái niệm và các phép toán cơ bản trên tập mờ

Định nghĩa 1.2: Cho A và B là 2 tập mờ trên X A bằng B nếu:

A=B ⇔ ∀x ∈ X, µ A (x) = µ B (x)

Định nghĩa 1.3: Cho A và B là 2 tập mờ trên X A chứa trong B nếu:

A ⊆ B ⇔ ∀x ∈ X, µ A (x) ≤ µ B (x)

Định nghĩa 1.4: Giá đỡ của tập mờ A trên tập X là tập các phần tử có độ

thuộc lớn hơn 0, được xác định như sau:

Supp (A) = {x ∈ X , µA( x) > 0}

Định nghĩa 1.5: Tập mức α của một tập mờ A, ký hiệu bởi Aα, được xác định như sau:

[ ] {x: x X, (x) , 0,1 }

Trang 16

Định nghĩa 1.6: Lõi (kernel) của tập mờ A, định nghĩa trên X , ký hiệu bởi

A = = µ

∈

∃ x X, x)

Định nghĩa 1.9: Lực lượng (Cardinality) của tập mờ A, trên tập vũ trụ X

được định nghĩa như sau:

x)

(

T-Chuẩn và T-Đối chuẩn

Định nghĩa 1.10: Dạng chuẩn tam giác, t-chuẩn, là ánh xạ nhị phân t: [0,

1]×[0, 1] → [0, 1] thoả mãn các tính chất sau:

1 Giao hoán: t(x, y) = t(y, x) với x, y ∈[0, 1]

2 Kết hợp: t(x, t(y, z)) = t(t(x, y), z) với x, y, z ∈[0, 1]

3 Đơn điệu: Nếu x ≤ y, và w ≤ z thì t(x, w) ≤ t(y, z)

4 Các điều kiện biên: t(x, 0) = 0, và t(x,1) = x với x ∈[0, 1]

Định nghĩa 1.11: Dạng đối chuẩn tam giác, t-đối chuẩn hay s-chuẩn, là ánh

xạ nhị phân s: [0, 1]×[0, 1] → [0, 1] thoả mãn các tính chất sau:

1 Giao hoán: s(x, y) = s(y, x) với x, y ∈[0, 1]

2 Kết hợp: s(x, s(y, z)) = s(s(x, y), z) với x, y, z ∈[0, 1]

3 Đơn điệu: Nếu x ≤ y, và w ≤ z thì s(x, w) ≤ s(y, z)

Trang 17

4 Các điều kiện biên: s(x, 0) = x, và s(x, 1) = 1 với x ∈[0, 1]

Mối quan hệ tồn tại giữa t-chuẩn và t-đối chuẩn là một mở rộng của luật De Morgan:

s(x, y)= 1 - t(1- x, 1-y) t(x, y)= 1 - s(1-x, 1-y)

Khi một t-chuẩn hoặc t-đối chuẩn tuân theo tính chất này, nó được gọi là liên hợp (conjugate) và đối ngẫu (dual)

Dưới đây trình bày một số hàm t-chuẩn (bảng 1.1) và một số hàm t-đối chuẩn (bảng 1.2) thường được sử dụng

0

1 x y

1 y xy

Bounded Product f(x,y)=max[0,(1+ p)(x+y-1)-pxy], p≥ -1

xy)yp)(x(1p

xy

≥

−+

−

Yager Family f(x,y)=1-min(1,[(1-x) p + (1-y) p]1/p ), p > 0

Dubois – Prade Family f(x,y)= p 1

p)y,max(x,

xy

≤

0,

Bảng 1.1: Các hàm t-chuẩn f(x,y) =t(x, y)

s-chuẩn (t-đối chuẩn) Biểu thức

Maximum f(x,y) = max(x, y)

Sum-Product f(x, y)=x + y - xy

Trang 18

Drastic Sum f(x, y)=

1

0 x y

0 y x

Bounded Sum f(x, y)=min(1, x + y + pxy), p≥ 0

Einstein Sum f(x, y)=

xy1

yx

++

Yager Family f(x, y)=min(1,[x p + y p]1/p) , p > 0

Dubois – Prade Family f(x, y)= p 1

p)y,-1x,-max(1

y)-x)(1-(1

≤

0,

Bảng 1.2: Các hàm s-chuẩn f(x,y) = s(x, y)

t-chuẩn và t-đối chuẩn không thể sắp xếp theo thứ tự lớn hơn hay nhỏ hơn Tuy nhiên có thể dễ dàng xác định giá trị nhỏ nhất và lớn nhất của t-chuẩn và t-đối chuẩn

• t-chuẩn lớn nhất: hàm Min

• t-chuẩn nhỏ nhất: hàm Drastic Product

• t-đối chuẩn lớn nhất: hàm Drastic Sum

• t-đối chuẩn nhỏ nhất: hàm Max

Các phép toán giao, hợp

Định nghĩa 1.12: Nếu A và B là hai tập mờ trên tập vũ trụ X, hàm thuộc của

hợp hai tập mờ A UB được xác định như sau:

µ A∪B (x)= f(µ A (x), µ B (x)), x ∈ X

Trong đó, f là t - đối chuẩn hay s-chuẩn (Schweizer và Skalar, 1983)[24]

Định nghĩa 1.13: A, B là hai tập mờ trên tập vũ trụ X, hàm thuộc của giao

hai tập mờ A ∩B được xác định như sau:

µ A∩B (x)= g(µ A (x), µ B (x)), x ∈ X

Trang 19

trong đó g là t-chuẩn (Schweizer và Skalar, 1983)[24]

Các kiểu hàm được sử dụng rộng rãi nhất đối với t-chuẩn là hàm Min (Minimum) và đối với t-đối chuẩn là hàm Max (Maximum) Hình 1.6 trình bày các phép giao, hợp lần lượt sử dụng các hàm Min và Max cho hai tập mờ dạng hình thang

Hình 1.6: Phép giao, hợp cho tập mờ hình thang Phần bù hay phép phủ định (negation)

Khái niệm phần bù được xây dựng bằng việc sử dụng khái niệm phủ

định mạnh của Trillass [26]

Định nghĩa 1.14: Một hàm C: [0, 1] → [0, 1] là một phủ định mạnh nếu nó thoả mãn đầy đủ các điều kiện sau:

1 Các điều kiện biên: C(0)=1 và C(1) =0

2 Đối hợp (involution): C(C(x)) = x

3 Đơn điệu (monotonicity) : C là không tăng

4 Tính liên tục (Continuity): C là liên tục

Có nhiều kiểu toán tử thoả mãn các điều kiện trên Dưới đây là định nghĩa về phần bù của Zadeh (1965) [32]

Trang 20

Cho tập mờ A trên tập vũ trụ X, phần bù của A được ký hiệu bởi ¬A, hoặc

A, là một tập mờ của X với hàm thuộc được định nghĩa như sau:

µA(x)= 1 - µA(x), x ∈X

Quan hệ mờ và tích đề các

Định nghĩa 1.15: (Quan hệ mờ) Cho X và Y là hai tập khác rỗng Một quan

hệ mờ R là một tập con mờ của X ×Y, tức là có một hàm thuộc:

µ R : X ×Y → [0, 1], ở đây µ R (x, y) = R(x, y) là độ thuộc của (x, y) vào quan hệ mờ R

Định nghĩa 1.16: (Tích đề các) Nếu A và B là hai tập mờ được định nghĩa lần

lượt trên các tập vũ trụ X và Y, tích đề các A ×B là một quan hệ mờ trên không gian tích X ×Y với hàm thuộc:

µ A ×B (x, y) = g(µ A (x), µ B (y)), trong đó g là t-chuẩn

1.1.4 Phân bố khả năng

Giả sử X là một biến lấy giá trị trên tập U Một phân bố khả năng

(possibility distribution) πx gắn với biến X là một hàm từ U vào [0, 1] Phân

bố khả năng πxdùng để mô tả hiểu biết của con người về giá trị của X, tức là tập các giá trị có thể của X Phân bố khả năng có thể dùng để biểu diễn những tri thức không chắc chắn, không đầy đủ

Nếu πx(u) = 0 nghĩa là u không thể là giá trị của X; Nếu πx(u) = 1 nghĩa là u hoàn toàn có thể là giá trị của X; πx(u) > πx(u') nghĩa là u có khả năng là giá trị của X nhiều hơn 'u Phân bố khả năng π trên U được gọi

là phân bố khả năng chuẩn nếu có u ∈U sao cho π(u) = 1

Trang 21

Theo cách tiếp cận của tập mờ, Zadeh [34] coi phân bố khả năng πxnhư một thu hẹp bởi tập mờ A trên miền trị U, có hàm thuộc µA Khi đó πx(u)=

µA(u), với mọi u ∈U

Ví dụ 1.1 Xét mệnh đề “A là một người trẻ”, với tập mờ trẻ xác định

trên tập cơ sở là đoạn [0, 150], và có hàm thuộc µtrẻ Khi đó phân bố khả năng biểu diễn tuổi của người A là πA(tuổi)(u)== µtrẻ(u), với mọi u ∈ [0, 150]

Theo cách tiếp cận của Zadeh, chúng ta có thể đánh giá khả năng của biến u là giá trị của (hoặc thuộc vào) một tập mờ A như là độ thuộc của u vào tập mờ A Các khái niệm về các tập mờ và hàm thuộc được xem như là các nhãn ngôn ngữ và phân bố khả năng Thay vì độ thuộc chúng ta có độ khả năng Các tập mờ được coi như là các phân bố khả năng và các tính chất của tập mờ cũng được áp dụng cho các phân bố khả năng

Trong luận văn này, khi sử dụng khái niệm phân bố khả năng A được

hiểu như là tập mờ A Độ đo khả năng của biến x đối với tập mờ A trên tập vũ trụ X, ký hiệu là A(x) được xem như là độ thuộc của x vào tập mờ A, nghĩa là A(x) = µA(x) với mọi x ∈ X

1.1.5 Các toán tử so sánh trên tập mờ

Các tập mờ, được định nghĩa bởi hàm thuộc, có thể được so sánh theo nhiều cách khác nhau Dưới đây luận văn trình bày một vài phương pháp so sánh tiêu biểu (Pedrycz & Gomide, 1998) [18]

1.1.5.1 Độ đo khoảng cách

Độ đo khoảng cách xem xét một hàm khoảng cách giữa hàm thuộc của

hai tập mờ trên cùng một tập vũ trụ Cách này cố gắng chỉ ra độ gần nhau

Trang 22

giữa hai tập mờ Một khoảng cách giữa hai tập mờ A và B trên cùng một tập

vũ trụ được định nghĩa theo (khoảng cách Minkowski) như sau:

p / 1

= ∫

x

dx (x) -

(x) B)

= ∫

x

dx(x)-

(x)B)

2 Khoảng cách Euclide(p=2)

2 / 1

= ∫

x

dx (x) -

(x) B)

d(A, A B 2

1.1.5.2 Độ đo khả năng và độ đo cần thiết

Định nghĩa 1.17: Độ đo khả năng của tập mờ A đối với tập mờ B, ký hiệu bởi

Poss(A, B), được định nghĩa như sau:

[ ( (x), (x))]sup

B)

X x

µµ

Trang 23

Độ đo khả năng xác định phạm vi giao nhau của A và B Độ đo khả năng

này có ý nghĩa là mức độ có thể đúng của mệnh đề “A là B”

Định nghĩa 1.18: Độ đo cần thiết của tập mờ A đối với tập mờ B, ký hiệu bởi

Nec(A, B), được định nghĩa như sau:

[( (x), - (x))]inf

B)

X x

Độ đo cần thiết mô tả mức độ B được bao gồm trong A Độ đo này có ý

nghĩa là mức độ nhất thiết đúng của mệnh đề “A là B”

Hai độ đo này được sử dụng khi đánh giá độ tin cậy của các điều kiện

mờ trong các ngôn ngữ truy vấn dữ liệu (SQL) trên mô hình cơ sở dữ liệu mờ

1.2 Các mô hình c s d liu m

Trong cuộc sống, con người thường xuyên phải xử lý các tình huống thông tin không đầy đủ, không chắc chắn – gọi chung là thông tin mờ Chẳng hạn như tuổi của người A là 20 nhưng khi trao đổi con người thường dùng

những từ như “khoảng 20”, “trẻ” để diễn đạt tuổi của người A Cơ sở dữ liệu

mô hình quan hệ do Codd đề xuất vào năm 1970 [12] chỉ cho phép lưu trữ và

xử lý những dữ liệu với thông tin chắc chắn và chính xác – gọi là dữ liệu rõ Tuy nhiên, trên thực tế khi cập nhật cơ sở dữ liệu không phải lúc nào chúng ta cũng có được những thông tin chắc chắn và chính xác của dữ liệu, mà thường gặp các tình huống sau:

− Dữ liệu với thông tin không đầy đủ: chẳng hạn ta đã biết đầy đủ các thông tin về người A nhưng không biết ngày sinh

Trang 24

− Dữ liệu với thông tin không chính xác, không chắc chắn: chẳng hạn ta biết người A có lương cao, nhưng không biết cụ thể là bao nhiêu

− Dữ liệu không xác định: Ví dụ như học sinh B không thể có lương vì còn đang đi học

− Dữ liệu hoàn toàn không có thông tin: không biết người A có lương hay không, nếu có là bao nhiêu

Tất cả các dạng dữ liệu trên, trong luận văn này gọi chung là dữ liệu mờ Như ta đã biết, mô hình quan hệ không cho phép lưu trữ và xử lý dữ liệu

mờ nên một cách tự nhiên xuất hiện nhu cầu mở rộng mô hình quan hệ Có hai cách mở rộng thường dùng:

1 Mở rộng khả năng khai thác dữ liệu rõ bằng cách sử dụng các yếu tố mờ Với cách mở rộng này, dữ liệu vẫn là dữ liệu rõ nhưng cho phép mở rộng khả năng khai thác cho phép trả lời các câu hỏi mờ, chẳng hạn có thể trả

lời những câu hỏi có dạng “cho biết những nhân viên có thu nhập cao”,

“có phải hầu hết những người có kinh nghiệm làm việc gần như nhau và

có thâm niên công tác xấp xỉ nhau thì có lương tương đương nhau”,

Với cách mở rộng này thì ta phải mô hình hóa các khái niệm mờ như

“cao” , “thấp” và cách gán chân lý cho những phép so sánh như “xấp xỉ nhau”, “gần nhau”, “tương đương”

2 Mở rộng miền trị thuộc tính Cách mở rộng này bổ sung cú pháp cho phép biểu diễn được nhiều dạng dữ liệu mờ Nhiều nhà nghiên cứu mở rộng theo cách này từ những năm 1970 và cho đến nay vẫn tiếp tục phát triển Nhiều công cụ toán học được sử dụng để mở rộng khả năng biểu diễn dữ liệu như: lý thuyết tập mờ, biến ngôn ngữ, lý thuyết khả năng, lý thuyết xác suất, Bên cạnh việc bổ sung cú pháp biểu diễn còn phải giải quyết

Trang 25

vấn đề ngữ nghĩa của các ký hiệu mới, những cơ sở tính toán, logic hỗ trợ cho việc xử lý dữ liệu với các ký pháp mở rộng

Có nhiều hướng tiếp cận mở rộng mô hình quan hệ theo hai cách trên Trong phần tiếp theo sẽ trình bày ba hướng tiếp cận chính được nhiều nhà nghiên cứu quan tâm phát triển

1.2.1 Mô hình tập con mờ

Mô hình này được đề xuất bởi Baldwin và Zhou vào năm 1984 (tham khảo trong [5],[17]) Cách tiếp cận này không mở rộng miền giá trị các thuộc tính mà mở rộng ngữ nghĩa của dữ liệu rõ bằng cách đưa ra độ đánh giá độ thuộc của mỗi bộ vào một quan hệ là một số thuộc [0, 1]

Một cách hình thức, một quan hệ mờ trên lược đồ R = {A1, A2, , An} là một tập con mờ của tích Đề-Các: D1 × D2 × × Dn được đặc trưng bởi một hàm thuộc µR : D1 × D2 × × Dn → [0, 1] Trong đó Di là miền trị của thuộc tính Ai

Về mặt biểu diễn, quan hệ mờ trong mô hình này giống như trong mô hình quan hệ nhưng thêm cột µ để lưu độ thuộc của mỗi bộ Như vậy một bộ của R có dạng (u1, u2, , un, µR(u1, u2, , un)), trong đó ui∈Di với i=1, 2, , n Kiểu biểu diễn dữ liệu này đi kèm với giả thiết khái niệm một bộ thuộc về một quan hệ là một khái niệm mờ trong khi các giá trị cụ thể của các thuộc tính lại là giá trị không mờ hoặc cũng có thể là một nhãn ngôn ngữ nhưng

được xử lý như một đơn giá trị

Các phép tính quan hệ như: Phép chiếu, hợp, giao, tích Đề-Các được thực hiện như các phép toán tương ứng trên tập mờ

Nhiều kết quả nghiên cứu về cơ sở dữ liệu mờ đã sử dụng mô hình này như: những kết quả về phụ thuộc hàm mờ, kết nối không tổn thất của Raju

Trang 26

([23], 1988), phụ thuộc đa trị mờ của Jyothi([17], 1997), xây dựng ngôn ngữ hỏi mềm dẻo trên cơ sở dữ liệu mờ của Kacpryk ([15], 1986), Những cài

đặt đầu tiên cho cơ sở dữ liệu mờ đều dùng mô hình này vì tận dụng được khả

năng lưu trữ dữ liệu của các hệ quản trị cơ sở dữ liệu đã có, chỉ bổ sung những mở rộng tính toán cần thiết, tiêu biểu là các hệ OMRON (1992), FQUERY (1996)[19]

1.2.2 Mô hình dựa trên quan hệ tương tự

Mô hình dựa trên quan hệ tương tự (hay còn gọi là mô hình Buckles – Petry) sử dụng quan hệ tương tự của Zadeh ([33]) được đề xuất đầu tiên bởi Buckles và Petry ([7][8][10]) Mô hình này mở rộng miền trị thuộc tính để cho phép biểu diễn dữ liệu với thông tin không chắc chắn, mơ hồ Trong mô hình này, giá trị của mỗi bộ tại một thuộc tính có thể là đa trị (một tập giá trị

có thể) Trên mỗi miền trị chứa dữ liệu mờ, một quan hệ tương tự được định

nghĩa để làm cơ sở đánh giá độ “gần nhau” giữa các giá trị

Quan hệ tương tự trên miền D là một ánh xạ s : D × D → [0, 1], với mọi

x, y, z ∈ D:

1 Phản xạ: s(x, x) = 1

2 Đối xứng: s(x, y)=s(y, x)

3 Max-min bắc cầu: s(x, z) ≥ max y ∈D {min (s(x, y), s(y, z))}

Trong mô hình này, một quan hệ mờ trên tập thuộc tính A1, A2, ,An

được định nghĩa như là một tập con của tích Đề - Các: 2D1 × 2D2 × ×2Dn Trong đó, Di là miền trị của các thuộc tính Ai Trên mỗi miền trị Di xác

định một quan hệ tương tự si , và có một ngưỡng tương tự αi ∈ [0, 1], với i = 1,2, , n

Nhiều nghiên cứu chọn mô hình này làm cơ sở phát triển và đạt được nhiều kết quả quan trọng, tiêu biểu là các kết quả của Sozat M I và Yazici A

Trang 27

([25]), của Yazici A và Cibiceli ([29]) Luận văn sẽ giới thiệu chi tiết một

mô hình cơ sở dữ liệu mờ dựa trên quan hệ tương tự là kết quả nghiên cứu của Bahar O và Yazici A [4] trong chương 2

1.2.3 Mô hình dựa trên lý thuyết khả năng

Mô hình này được đề xuất bởi Prade và Testemale ([21][22]) bằng cách

mở rộng miền trị thuộc tính, sử dụng phân bố khả năng để biểu diễn dữ liệu

mờ Giá trị của một n-bộ t tại thuộc tính A được biểu diễn bởi phân bố khả năng chuẩn πA(t) trên miền trị mở rộng D∪{e} Trong đó e là phần tử bổ sung vào mỗi miền trị, được sử dụng trong trường hợp thuộc tính A không áp dụng (inapplicable) cho bộ t

Một quan hệ mờ trên tập thuộc tính {A1, A2, , An} là một tập con của tích Đề-Các:

mô hình này được mô tả trong bảng sau:

Thông tin Mô hình Prade – Testemale

Dữ liệu rõ: c π A(x) (e)=0

π A(x) (c)=1

π A(x) (d)=0 ∀ d ∈ D, d ≠ c Không biết nhưng áp dụng

được

π A(x) (e)=0

π A(x) (d)=1 ∀ d ∈ D Không áp dụng được π A(x) (e)=1

π (d)=0 ∀ d ∈ D

Trang 28

Thông tin Mô hình Prade – Testemale

Hoàn toàn không biết π A(x) (d)=1 ∀ d ∈ D ∪ {e}

Khoảng [m, n] π A(x) (e)=0

là λ và trong trường hợp áp

dụng dữ liệu là µ a

π A(x) (e)= λ

π A(x) (d)= µ a (d) ∀ d ∈ D

Bảng 1.3: Biểu diễn dữ liệu mờ trong mô hình Prade – Testemale

Biểu diễn dữ liệu trong các tình huống cổ điển

a) Biết chắc chắn lương của T là 500: πL(T) (e) =0; πL(T) (500) =1;

d) Hoàn toàn không biết gì về thông tin lương của T (no-information):

πL(T) (e) =1; πL(T) (d ) = 1, ∀d ∈ D

Biểu diễn dữ liệu không chắc chắn, không chính xác

e) Không biết chính xác lương nhưng chắc chắn nằm trong khoảng từ

200 đến 300: πL(T) (e) =0; πL(T) (d ) = 1, nếu 200 ≤ d ≤ 300;

πL(T) (d ) = 0 nếu d < 200 và d > 300

f) Biết lương của T là cao Khi đó dùng tập mờ cao với hàm thuộc µcao

để biểu diễn πL(T) (e) =0; πL(T) (d ) = µcao (d), ∀d ∈ D

Trang 29

g) Ta biết những thông tin rời rạc về lương của T: πL(T) (e) =0;

πL(T)(di ) = ai, i = 1, 2, , m;πL(T) (d ) = 0, ∀d ∈ D – {d1, d2, , dn}

1.3 Ngôn ng truy vn d liu m

Ngày nay, ngôn ngữ truy vấn có cấu trúc (SQL) đã trở thành ngôn ngữ truy vấn chuẩn cho hầu hết hệ thống cơ sở dữ liệu thương mại Các câu truy vấn truyền thống thiết lập các tiêu chuẩn chọn dữ liệu cứng nhắc và dữ liệu trả về phải chính xác với các tiêu chuẩn đó Một câu truy vấn “mơ hồ” thiết lập các tiêu chuẩn chọn là mơ hồ - còn gọi là tiêu chuẩn mơ hồ hay tiêu chuẩn

mờ và dữ liệu trả về là “gần” với các tiêu chuẩn đó Hầu hết các hệ thống cơ

sở dữ liệu quan hệ truyền thống không thể xử lý các câu truy vấn “mơ hồ” với các tiêu chuẩn mơ hồ Do vậy, một cách tự nhiên, cần mở rộng ngôn ngữ SQL chuẩn sao cho có thể thiết lập được các câu truy vấn mềm dẻo với các tiêu

chuẩn mờ Ngôn ngữ SQL mờ (fuzzy SQL) là một mở rộng của ngôn ngữ

SQL và cho phép thiết lập các câu truy vấn mềm dẻo với các tiêu chuẩn mờ Ngôn ngữ SQL mờ có thể được xây dựng trên cơ sở dữ liệu truyền thống với

dữ liệu rõ hoặc trên cơ sở dữ liệu mờ với dữ liệu mờ

Hiện nay, có nhiều ngôn ngữ SQL mờ được phát triển và giới thiệu rộng rãi Chúng cho phép thiết lập các câu truy vấn mờ trong khi vẫn giữ nguyên các quy tắc đã được sử dụng trong ngôn ngữ SQL truyền thống Chẳng hạn như ngôn ngữ SQLf của Bosc và Pivert [6], trong đó, nguyên lý cơ bản của các ngôn ngữ SQL mờ là đưa các yếu tố mờ vào trong các khối SELECT-FROM-WHERE của SQL

Luận văn sẽ giới thiệu một ngôn ngữ SQL mở rộng (SQLEx) là một mở rộng của SQL chuẩn cho phép thiết lập các câu truy vấn mềm dẻo với các tiêu chuẩn mơ hồ và xây dựng một chương trình mô phỏng hỗ trợ thực hiện các câu truy vấn này trên mô hình cơ sở dữ liệu truyền thống Cơ sở dữ liệu được

Trang 30

sử dụng trong chương trình là hệ quản trị cơ sở dữ liệu SQL Server 2000 Người sử dụng có thể định nghĩa các nhãn ngôn ngữ trên mỗi thuộc tính và thực hiện các câu truy vấn với các tiêu chuẩn mờ Hơn nữa, luận văn cũng khảo sát, giới thiệu một ngôn ngữ SQL mờ trên mô hình cơ sở dữ liệu mờ gọi

là FSQL Các nội dung này được trình bày chi tiết trong chương 3 và chương

4

1.4 Kt lu n chưng 1

Chương này đã trình bày các kiến thức cơ bản sau:

Các kiến thức cơ sở về tập mờ, các phép toán trên tập mờ; Quan hệ tương tự; Phân bố khả năng và các độ đo khả năng và độ đo cần thiết

Tổng quát về các mô hình cơ sở dữ liệu đã và đang được phát triển bao gồm: mô hình tập con mờ, mô hình dựa trên quan hệ tương tự và mô hình dựa trên lý thuyết khả năng Đồng thời cũng giới thiệu về ý nghĩa và vai trò của ngôn ngữ truy vấn dữ liệu mờ

Trang 31

CHƯƠNG 2

CƠ SỞ DỮ LIỆU MỜ DỰA TRÊN QUAN HỆ TƯƠNG TỰ

Mô hình dữ liệu quan hệ do Codd đề xuất dựa trên lý thuyết tập hợp và

được sử dụng cho các ứng dụng với dữ liệu có thông tin chính xác, rõ ràng

Tuy nhiên, nhiều ứng dụng trong thực tế như sinh học, di truyền học, hệ thống thông tin địa lý, kinh tế học, hệ thống dự báo thời tiết, v.v… dữ liệu thường không rõ ràng, không chính xác và mơ hồ Để xử lý được nhiều kiểu dữ liệu khác nhau và hiểu được ngữ nghĩa của dữ liệu trong cơ sở dữ liệu, một vài mở rộng từ mô hình cơ sở dữ liệu truyền thống đã được đề xuất Đó là cách tiếp cận dựa trên lý thuyết tập mờ, cách tiếp cận dựa trên quan hệ tương tự, phương pháp tiếp cận dựa trên lý thuyết khả năng và dựa trên lý thuyết khả năng mở rộng

Chương này trình bày một phương pháp tiếp cận mở rộng mô hình cơ sở

dữ liệu quan hệ truyền thống thành mô hình cơ sở dữ liệu quan hệ mờ dựa trên quan hệ tương tự, với những nội dung chính sau:

− Các khái niệm về khoá mờ, phụ thuộc hàm mờ, phụ thuộc hàm mờ một phần

− Các dạng chuẩn mờ trong cơ sở dữ liệu mờ dựa trên quan hệ tương

tự

− Các thuật toán bảo toàn phụ thuộc và các phép phân tách có kết nối không mất thông tin

Trang 32

− Các ví dụ để minh hoạ cho sự chuẩn hoá, bảo toàn phụ thuộc và các phép phân tách có kết nối không mất thông tin dựa trên các phụ thuộc hàm mờ của quan hệ mờ

Nội dung chính của chương này được tham khảo trong tài liệu [4]

2.1 C s d liu m da trên quan h tưng t

Phần này trình bày các định nghĩa về cơ sở dữ liệu mờ, quan hệ tương tự theo định nghĩa của Zadeh và mô hình cơ sở dữ liệu mờ dựa trên quan hệ tương tự

2.1.1 Cơ sở dữ liệu quan hệ mờ

Mô hình quan hệ truyền thống được sử dụng rộng rãi hiện nay đã đạt

được nhiều kết quả to lớn về mặt lý thuyết và ứng dụng Tuy nhiên mô hình

này chỉ biểu diễn và xử lý được những dữ liệu với thông tin chính xác, đầy đủ

và có thể định lượng được – gọi chung dữ liệu rõ mà không biểu diễn và xử lý

được dữ liệu không chính xác và mờ

Mô hình cơ sở dữ liệu quan hệ mờ là cơ sở dữ liệu có thể biểu diễn và xử

lý được dữ liệu với thông tin không chính xác và mờ

2.1.2 Quan hệ tương tự

Quan hệ tương tự được sử dụng để mô tả thế nào là 2 phần tử tương tự

nhau trong cùng một miền trị Một quan hệ tương tự ([33], [7]), s(x, y) trên

miền trị cơ sở D (gọi tắt là miền), là một ánh xạ mọi cặp phần tử trong miền D vào khoảng đóng [0,1] Một quan hệ tương tự có tính phản xạ, đối xứng và Max - min bắc cầu

Định nghĩa 2.1 Quan hệ tương tự trên miền D là một ánh xạ s : D × D →

[0,1], với mọi x, y, z ∈D thoả mãn các tính chất:

Trang 33

1 Phản xạ: s(x, x) = 1

2 Đối xứng: s(x, y)=s(y, x)

3 Max-min bắc cầu: s(x, z) ≥ max y ∈D {min (s(x, y), s(y, z))}

2.1.3 Cơ sở dữ liệu quan hệ mờ dựa trên quan hệ tương tự

Mô hình cơ sở dữ liệu quan hệ mờ dựa trên quan hệ tương tự thực

tế là một tổng quát hoá của mô hình quan hệ truyền thống Nó cho phép giá trị tại mỗi thuộc tính có thể là đa trị (một tập giá trị có thể) và thay thế khái niệm

đồng nhất bằng khái niệm tương tự

Mô hình cơ sở dữ liệu dựa trên quan hệ tương tự cho phép giá trị tại mỗi thuộc tính là một tập giá trị và tất cả các giá trị đó phải nằm trong cùng một miền trị Do vậy, mô hình này vẫn giữ được các tính chất giá trị thuộc tính

định kiểu mạnh của mô hình quan hệ truyền thống Tính chất này rất có ích

cho việc xử lý truy vấn và các thao tác cập nhật Nếu giá trị thuộc tính là chính xác và rõ ràng, thì giá trị là đơn trị, nếu giá trị thuộc tính là không chính xác và mơ hồ, thì một tập các giá trị tương tự với giá trị này được xem xét Độ tương tự giữa các giá trị được định nghĩa bởi quan hệ tương tự trong miền trị thuộc tính

Mô hình truyền thống so sánh 2 giá trị thuộc tính bằng cách kiểm tra hai giá trị đó có bằng nhau hay không Quan hệ đồng nhất phản ánh điều này:

i(x,y)=1 nếu và chỉ nếu x=y và i(x, y)=0 trong trường hợp khác Mô hình

quan hệ tương tự so sánh 2 giá trị bằng cách đo sự gần nhau giữa 2 giá trị đó dựa trên quan hệ tương tự đã được mô tả trong miền trị thuộc tính

2.2 Các d ng chu n m đi vi các quan h m

Trong một thiết kế cơ sở dữ liệu logic, ràng buộc toàn vẹn có một vai trò rất quan trọng Một trong những ràng buộc toàn vẹn quan trọng nhất là phụ thuộc hàm Bởi vì, các phụ thuộc hàm phản ánh ngữ nghĩa về mối quan hệ

Trang 34

giữa các thuộc tính Chúng giúp loại bỏ các thông tin dư thừa của các quan hệ trong cơ sở dữ liệu

2.2.1 Phụ thuộc hàm mờ (ffd)

Các phụ thuộc hàm mờ (ffd) phản ánh ngữ nghĩa của các tập con thuộc tính trong thế giới thực.Các ffd được sử dụng để thiết kế các cơ sở dữ liệu

mờ, làm giảm dư thừa dữ liệu và các dị thường trong cập nhật

Trong mô hình truyền thống, một phụ thuộc hàm X→Y nói rằng các giá

trị bằng nhau của Y tương ứng với các giá trị bằng nhau của X Tuy nhiên,

định nghĩa về phụ thuộc hàm không được áp dụng trực tiếp tới cơ sở dữ liệu

mờ dựa trên quan hệ tương tự vì các khái niệm “bằng” không được áp dụng trực tiếp trong mô hình cơ sở dữ liệu mờ Trong mô hình quan hệ mờ, mức độ

“X xác định Y” có thể không nhất thiết là 1 như trong quan hệ rõ Một cách tự

nhiên, một giá trị trong khoảng [0,1] có thể được chấp nhận Trong trường

hợp này, định nghĩa của ffd trở thành “các giá trị tương tự của Y tương ứng với các giá trị tương tự của X”

Các phụ thuộc hàm mờ là các ràng buộc được xác định giữa các thuộc tính của lược đồ quan hệ mờ Các phụ thuộc hàm mờ được định nghĩa dựa trên khái niệm về sự phù hợp (conformance) giữa các bộ dữ liệu (sau đây gọi tắt là bộ) [25][30][31]

2.2.1.1 Sự phù hợp của các bộ

Quan hệ tương tự của các giá trị thuộc tính định nghĩa thế nào là sự phù hợp giữa 2 bộ trên thuộc tính đó Một định nghĩa chuẩn về sự phù hợp của các

bộ được đưa ra như sau:

Định nghĩa 2.2 [4] Sự phù hợp của thuộc tính A k được định nghĩa trên miền trị D k cho bất kỳ 2 bộ t 1 và t 2 trong quan hệ r, ký hiệu bởi C( A k [t 1 , t2] )

Trang 35

C(Ak[t1,t2]) = min {minx∈d 1{maxy∈d 2{s(x,y)}},minx ∈d 2{maxy∈d 1{s(x,y)}}}

Trong đó d 1 là tập giá trị của thuộc tính A k đối với bộ t 1 , d 2 là tập giá trị của thuộc tính A k đối với bộ t 2 , s(x, y) là một quan hệ tương tự của các giá trị x và

y, và s là một ánh xạ của mọi cặp phần tử trong miền D k vào đoạn [0, 1]

Ví dụ 2.1 Cho quan hệ mờ

NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP)

Các quan hệ tương tự của miền thuộc tính được cho trong các bảng sau:

TÊN Nam Hùng Quang Hà

Bảng 2.1: Quan hệ tương tự đối với thuộc tính TÊN

NĂNG LỰC Rất kém Kém Trung bình Tốt Xuất sắc

Bảng 2.2: Quan hệ tương tự đối với thuộc tính NĂNG LỰC

THU NHẬP Rất thấp Thấp Trung bình Cao Rất cao

Trang 36

THU NHẬP Rất thấp Thấp Trung bình Cao Rất cao

Bảng 2.3: Quan hệ tương tự đối với thuộc tính THU NHẬP

TÊN NĂNG LỰC THU NHẬP

t 1 {Nam} {Kém, rất kém} {rất thấp}

t 2 {Quang} {trung bình} {thấp, trung bình}

t 3 {Hùng} {trung bình, tốt} {thấp}

t 4 {Hà} {trung bình} {rất thấp}

Bảng 2.4: Các bộ dữ liệu đối với quan hệ NGƯỜI

Sự phù hợp đối với thuộc tính THU NHẬP cho các bộ t2 và t3 được tính như sau:

C(Thu nhập[t 2 , t 3 ]) = min{min {max {s(thấp, thấp )}, max{s(trung bình, thấp)}}, min {max{s( thấp, thấp), s( thấp, trung bình)}}}

= min {min {max{1}, max{0.2}}, min {max{1,0.2}}}

= min {min {1, 0.2}, min {1}}

= min {0.2, 1}

= 0.2

Trong mô hình dữ liệu quan hệ truyền thống, cả d1 và d2 là tập một phần

tử, và quan hệ tương tự giữa bất cứ bộ nào chỉ có thể là 0 hoặc 1 Ở đây, quan

hệ đồng nhất được thay thế bởi mô tả s(x, y) mà quan hệ đồng nhất là một

trường hợp đặc biệt Để mô tả sự gần nhau giữa 2 bộ trên một tập các thuộc tính, định nghĩa về sự phù hợp được mở rộng trong tài liệu tham khảo [30] như sau:

Định nghĩa 2.3 Sự phù hợp của tập thuộc tính X cho bất kỳ 2 bộ t 1 và t 2 trong quan hệ r, ký hiệu bởi C( X [t1, t2] )

Trang 37

C ( X [t1, t2] ) = minAk∈X {C( Ak [t1, t2] )}

2.2.1.2 Sự phù hợp với độ đo khả năng

Mô hình quan hệ dựa trên quan hệ tương tự cho phép giá trị tại mỗi thuộc tính là đa trị (một tập giá trị có thể) và có một quan hệ tương tự giữa các giá trị thuộc tính được định nghĩa trên miền trị thuộc tính Tuy nhiên trên thực tế dữ liệu thường có một độ chắc chắn thể hiện khả năng có thể xảy ra của dữ liệu Trong mô hình dựa trên lý thuyết khả năng, mỗi giá trị của thuộc tính thường được gắn với một độ đo khả năng thể hiện khả năng có thể xảy ra của dữ liệu đó Trong mô hình dựa trên quan hệ tương tự, mặc dù cho phép một tập các giá trị có thể tại mỗi thuộc tính nhưng nó không thể hiện được độ chắc chắn xảy ra của mỗi giá trị đó Để khắc phục, người ta thường kết hợp

độ đo khả năng của dữ liệu trong lý thuyết khả năng vào mô hình dựa trên

quan hệ tương tự Lúc này, mỗi giá trị trong mô hình dựa trên quan hệ tương

tự sẽ được gắn thêm một độ đo khả năng thể hiện khả năng có thể xảy ra của giá trị đó Độ đo khả năng này là một số thực nằm trong đoạn [0, 1]

Giả sử F là một tập giá trị trên một thuộc tính F có khuôn dạng như sau: F= {FPi | labelFi} với i=1,2, N

Trong đó, LabelFi là giá trị (nhãn ngôn ngữ) FPi là các độ đo khả năng xảy ra của giá trị, FPi nằm trong đoạn [0, 1] N là số lượng các cặp {FPi | labelFi}, N≥1

Ví dụ 2.2 Với quan hệ mờ NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP) được

định nghĩa bởi ví dụ 2.1

Theo định nghĩa mới, thuộc tính NĂNG LỰC sẽ có giá trị {0.8|kém,

0.3|rất kém}, nghĩa là giá trị kém có khả năng xảy ra cao hơn giá trị rất kém vì

có độ chắc chắn xảy ra là 0.8>0.3

Trang 38

Trên cơ sở định nghĩa mới về các bộ dữ liệu, luận văn đề xuất một định nghĩa mới về sự phù hợp giữa các bộ dữ liệu như sau:

Định nghĩa 2.4 Sự phù hợp của thuộc tính A k được định nghĩa trên miền trị

D k cho bất kỳ 2 bộ t 1 và t 2 trong quan hệ r, ký hiệu bởi C( A k [t1, t2] )

C(Ak[t1,t2]) = maxx∈d 1{maxy∈d 2{min {s(x,y),degx,degy}}},

trong đó d 1 là tập giá trị của thuộc tính A k đối với bộ t 1 , d 2 là tập giá trị của thuộc tính A k đối với bộ t 2 , s(x, y) là một quan hệ tương tự giữa giá trị x

và y, và s là một ánh xạ của mọi cặp phần tử trong miền D k vào đoạn [0, 1],

degx là độ đo khả năng xảy ra của giá trị x, degy là độ đo khả năng xảy ra của giá trị y

Độ phù hợp mới giữa hai giá trị được xây dựng dựa trên các tiêu chí về

quan hệ tương tự và độ đo khả năng xảy ra của dữ liệu

Ví dụ 2.3 Với quan hệ mờ NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP)

được định nghĩa bởi ví dụ 2.1 Lúc này các bộ dữ liệu mới đối với quan hệ

NGƯỜI được định nghĩa như sau:

TÊN NĂNG LỰC THU NHẬP

d 1 {Nam} {0.8/kém, 0.3/rất kém} {0.9/rất thấp}

d 2 {Quang} {0.9/trung bình} {0.8/thấp,0.3/trung bình}

d 3 {Hùng} {0.3/trung bình, 0.9/ tốt} {0.9/thấp}

d 4 {Hà} {0.8/trung bình} {0.8/rất thấp}

Bảng 2.5: Các bộ dữ liệu mới đối với quan hệ NGƯỜI

Quan hệ tương tự giữa các nhãn được định nghĩa như ở ví dụ 2.1

Theo định nghĩa mới, sự phù hợp đối với thuộc tính THU NHẬP của các

bộ d2 và d3 được tính như sau:

Trang 39

C(Thu nhập[d 2 , d 3 ]) = max {max {min {s(thấp, thấp ), 0.8, 0.9}},

max{min{s(trung bình, thấp),0.3, 0.9}}}

= max {max {min{1,0.8, 0.9}}, max{min{0.2, 0.3, 0.9}}}

= max {max {0.8}, max {0.2}}

= max {0.8, 0.2}

= 0.8

Định nghĩa 2.5 [4] Cho quan hệ mờ r là một thể hiện bất kỳ trên lược đồ

quan hệ R(A 1 ,… ,A n ), U là tập vũ trụ các thuộc tính A 1 ,…, A n và X, Y là tập con của U Quan hệ mờ r gọi là thoả mãn phụ thuộc hàm mờ, X → ϑ Y, nếu mọi cặp bộ t 1 và t 2 thuộc r, C(Y [ t1, t2]) ≥ min(ϑ, C(X [ t 1 , t 2 ])), trong đó ϑ

là số thực nằm trong đoạn [0, 1], mô tả độ mạnh ngôn ngữ

Các ffd cần được kiểm tra bất cứ khi nào các bộ được đưa vào cơ sở dữ liệu quan hệ mờ hoặc chúng được sửa đổi, sao cho các ràng buộc toàn vẹn

được áp đặt bởi các ffd không bị vi phạm

Ví dụ 2.4 Cho quan hệ mờ NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP)

được định nghĩa trong ví dụ 2.1

Ràng buộc toàn vẹn cho quan hệ “NGƯỜI” là “Năng lực làm việc của

nhân viên nhiều hay ít xác định thu nhập của họ”, ffd của quan hệ này là

NĂNG LỰC →0.6 THU NHẬP, ở đây 0.6 là độ mạnh của ngôn ngữ “nhiều

hay ít” Ffd này cần được kiểm tra bất cứ khi nào các bộ dữ liệu mới được thêm vào, để xem bộ mới này có vi phạm ffd không Dưới đây, một cặp bộ

được chèn vào để khảo sát sự phù hợp các bộ

Bước 1: Chèn vào bộ đầu tiên

Trang 40

({Nam},{kém, rất kém}, {rất thấp})

Bộ này không xung đột với ffd

Bước 2: Chèn vào bộ thứ hai

Ffd: NĂNG LỰC →0.6 THU NHẬP không bị vi phạm vì

C(Thu nhập[t 1 , t 2 ]) ≥ min(0.6, C(Năng lực[t 1 , t 2 ])), do vậy bộ này được chèn

vào Bây giờ chúng ta có 2 bộ phù hợp với quan hệ

mờ dựa quan hệ tương khái niệm “bằng” khơng áp dụng trực tiếp mơ hình sở liệu mờ Trong mơ hình quan hệ mờ, mức độ

“X xác định Y” khơng... mạnh ngôn ngữ

Các ffd cần kiểm tra đưa vào sở liệu quan hệ mờ chúng sửa đổi, cho ràng buộc toàn vẹn

được áp đặt ffd khơng bị vi phạm

Ví dụ 2.4 Cho quan hệ mờ NGƯỜI... quan hệ sở liệu

2.2.1 Phụ thuộc hàm mờ (ffd)

Các phụ thuộc hàm mờ (ffd) phản ánh ngữ nghĩa tập thuộc tính giới thực.Các ffd sử dụng để thiết kế sở liệu

Định dạng
Số trang	105
Dung lượng	745,47 KB