Tài liệu Một số mở rộng tổng kết dữ liệu trên cơ sở dữ liệu quan hệ mờ. potx

Trong bài báo này, chúng tôi trình bày một số mở rộng tính toán cho các luật tổng kết từ dữ liệu trên mô hình cơ sở dữ liệu quan hệ mờ.. Bài báo cũng đưa ra thuật toán xây dựng các luật

Trang 1

Tap chi Tin hoc và Điều khiển học, T 19, 5 2 (2003), 17-27

MỘT SỐ MỞ RỘNG TỔNG KẾT DỮ LIỆU TREN CO’ SO DU’ LIEU QUAN HE MO"

TRAN THIEN THANH Khoa Tin hoc, Truong Dai hoc Su pham Quy Nhon

Abstract In this paper, we present some extensions of data summaries on fuzzy relational databases based on a pattern matching process of D Dubois and H Prade An algorithm for discovering data rules based on hierarchical tree of template rules is given

Tóm tắt Trong bài báo này, chúng tôi trình bày một số mở rộng tính toán cho các luật tổng kết

từ dữ liệu trên mô hình cơ sở dữ liệu quan hệ mờ Các tính toán được xây dựng dựa trên đối sánh mẫu của D Dubois và H Prade Bài báo cũng đưa ra thuật toán xây dựng các luật tổng kết dữ liệu dựa trên cây phân cấp của các luật mẫu

1 ĐẶT VẤN ĐỀ

Việc phát hiện tri thức từ dữ liệu là một trong những hướng nghiên cứu đã tạo ra một cách nhìn mới về những dữ liệu được lưu trữ Cùng với sự phát triển các mô hình cơ sở dữ liệu quan hệ mờ (cơ sở dữ liệu quan hệ với dữ liệu mờ) đã cho phép thu thập nhiều thông tin va qua đó hỗ trợ nhiều cho việc phát hiện các tri thức Các tri thức phát hiện từ dữ liệu thường có dạng các luật dữ liệu bao gồm các yếu tố mờ như lượng từ mờ, tân từ mờ, các phép so sánh mờ, và các luật này có độ tin cậy là một giá trị trong đoạn [0,1] Tiêu biểu cho hướng nghiên cứu này là các kết quả của Yager |9, 10|, Kacprzyk [7], Cubero [3], Bosc

[1], Dubois, Prade |6],

Trong bài báo này, trên cơ sở đánh giá độ tin cây của luật có dang “Q r are P” của Dubois

và Prade [6], chúng tôi xây dựng cách đánh giá độ tin cậy cho các luật cé dang “Q P, r are P2”

và “Qx Hịr 9Q» Ð; r”, trong dé Q, Q1, Qas là các lượng từ mờ, r là một quan hệ mờ, Đị, ï›

la cdc tan từ mờ, Ø là toán tử so sánh mờ Cùng với cách đánh giá độ tin cậy, dựa vào thứ

tự phân cấp của các tập mờ, chúng tôi đưa ra thuật toán nhằm xây dựng tập các luật tổng

kết dữ liệu theo mẫu cho trước trên các dữ liệu có săn

Bài báo được tổ chức như sau: phần 2 trình bầy những kiến thức cơ sở gồm: mô hình

CSDLQH mờ dựa trên khả năng: đánh giá các tân từ mờ; biểu diễn các lượng từ ngôn ngữ bằng tập mờ; lực lượng tập mờ Phần 3 trình bày cách đánh giá các luật tổng kết dữ liệu

và một số tính chất liên quan Phần 4 trình bầy thuật toán xây dựng các luật theo mẫu dựa vào thứ tự phân cấp của các tập mờ Cuối cùng là kết luận và một số hướng nghiên cứu tiếp

theo

2 CÁC KIÊN THỨC CƠ SỞ

2.1 Mô hình cơ sở dữ liệu quan hệ mờ dựa trên khả năng

Bằng phân bố khả năng có thể biểu diễn dữ liệu của từng thuộc tính cho mỗi ø-bộ Giả sử 4 là một thuộc tính của lược đồ quan hệ, ? là miền trị của A Giá trị của một n-

bộ ¿ tại thuộc tính 4 được biểu diễn bởi phân bố khả năng chuẩn z4 trên miền trị mở rộng

* Công trình được hoàn thành với sự hỗtrợ kinh phí của Hội đòng khoa học tự nhiên.

Trang 2

D = DU{e}, trong đó e là phần tử bổ sung vào mỗi miền trị, được sử dụng trong trường

hợp thuộc tắnh 4 không áp dụng được cho bộ Ư (chỉ tiết xem trong |4|)

2.2 Tắnh toán trên các tân từ mờ

Cho X là một biến nhận giá trị trên miền D kết hợp với phân bo kha nang rx, F la một

tập mờ trên D Độ tương thắch của X với tập mờ #' được đánh giá trên hai độ đo khả năng

(H) và cần thiết (N) được xác định bởi:

Với ử là một phép so sánh mờ được xác định bởi hàm thuộc pe, mệnh đề Ộ X 6 FỢ duoc xem tương đương với mệnh đề * X ¡s oửỢ, với Foụ là phép hợp thành của một giá trị mờ

với một toán tử so sánh mờ ử được xác dinh béi: Vd Ạ D, đroƯ(đ) = sụp min( (d, đ), ur(4))

d'cpD

Độ thỏa mệnh đề ỘX ử Ợ được đánh giá như trong (2.1) và (2.2):

N(X9F) = Nx(F'o8) = inf max( /rop(0), 1Ở xx(0)) (2.4)

Dựa trên đánh giá của những tân từ nguyên tố, trong |4| đưa ra những công thức đánh giá cho tân từ kết hợp các tân từ nguyên tố bởi các phép toán logic not, and, or

2.3 Các lượng từ mờ

Trong [19| Zadeh đề xuất một cách biểu diễn lượng từ ngôn ngữ theo cách tiếp cận của

lý thuyết tập mờ, trong đó mỗi lượng từ @ được xem như một tập mờ trên tập cơ sở X

và được xác định qua hàm thuộc g@: X Ở [0,1], với X là tập số nguyên không âm hoặc

đoạn |0, 1] tuỳ thuộc vào loại lượng từ

Zadeh chia các lượng từ ngôn ngữ thành hai loại: lượng tt tuyét déi (absolute quantifiers)

và lượng tt ty lé (proportional quantifiers) Luong từ tuyệt đối dùng trong những mệnh đề

với số lượng xác định như : Ộkhoảng 2Ỗ, Ộnhiều hơn đồ, Lượng từ tuyệt đối được biểu diễn

bằng tập mờ trên tập cơ sở là tập các số nguyên không âm Lượng từ tỷ lệ thể hiện những

số lượng phụ thuộc vào số lượng tập các đối tượng mà nó thể hiện, như các lượng từ: Ộhầu hết", Ộkhoảng một mửa", Với những lượng từ này biểu diễn bằng tập mờ trên miền cơ sở

là đoạn |0,1]

Lượng từ @ gọi là đơn điệu tăng nếu với mọi z¡ > zƯ thÌ pe(x1) > đg(+a2) Chẳng hạn:

Ộat least 3Ợ, Ộalmost allỖ, ỘmostỢ

Luong tir Q gọi là đơn điệu giảm nếu véi moi x > x2 thi pe(x1) < we(x2) Chang han:

Ộat most 3Ợ, ỘfewỢ, Ộalmost noneỖ

Luong tir Q goi la long tt unimodal néu ton tai hai gid tri a, 6 v6i a <6 sao cho với moi ề<a thi @ 1a luong ttr don điệu tăng; với z>b thì @Q đơn điệu giảm và (+) = 1 v6i moi z Ạ |a, b|

Nhận xét 2.1 Với mọi lượng từ unimodal @ bao giờ cũng tim duoc hai luong tt Q, đơn điệu tăng và @QẤ đơn điệu giảm sao cho @Q Ở= QẤfự1a

Lượng từ phú định (negation) cia một lượng từ Q, ký hiệu Q, được xác định bởi ug(#) Ở= L~ nạ(Ủ) Vz Chăng hạn noơặ mang là lượng từ phủ định của lượng từ mứng

Trang 3

MOT SO MO RONG TONG KET DU LIEU 19

2.4 Lực lượng mờ

Có nhiều cách tiếp cận để định nghĩa lực lượng mờ, trong bài báo này chúng tôi dùng định nghĩa lực lượng mờ theo cách tiếp cận của Dubois và Prade |6|

Cho F la tap mo trén tap hữu hạn U = {úq,ua, -,u„} Đặt & = |ker(F)|, voi ker(F) = {u € U|uz(u) = 1} Lực lượng của tap mo F, ky hiéu |F|; (hoadc |F| néu khong

gây nhầm lẫn) là một phân bố khả năng chuẩn zịzị trên đoạn |0,n], được xác định như sau:

r(t)=0 voi 0<t<k,

wk) = 1, với 7>k thì xŒ) là giá trị lớn thứ 7 trong danh sách các giá trị ,(ui), ¿(ua), -, (tin) Nhận xét 2.2 Nếu “C7 thì với mọi ¡>k ta có mịzJ(9 < mịpi(, với k= |ker(Œ)|

3 TỔNG KẾT DỮ LIỆU

Trong phần này xây dựng các công thức tính độ tin cậy của một luật tổng kết dữ liệu

Độ tin cây được đánh giá trên hai độ đo khả năng và cần thiết

3.1 Dang Q r are P

Ménh dé “ Q r are P” có nghĩa là định lượng các bộ trong quan hệ z thỏa tân từ P ở

mức độ nào đó tương thích với lượng từ Q Chẳng hạn các mệnh đề :“Có # nhất ð người trong GSDL có lương cao” hay “Hầu hết những người trong GSDL là trể'

Độ tin cây của mệnh đề “@ r are P” được đánh giá như độ tin cậy của mệnh đề “|rp|z

lsẳ Q”, với rp là tập các bộ của quan hệ z thỏa tân từ P ở mức độ khả năng (hoặc cần

thiết) Theo công thức (2.1) và (2.2) trong trường hợp @ là lượng từ tuyệt đối ta có:

với ø là số bộ của quan hệ +, k=—= |ker(p)|

Nếu @ là lượng từ tỷ lệ, trong các công thức trên ta thay ,ạ() bởi ðv(/n)

Định nghĩa 3.1 Cho P và P' là hai lượng từ mờ áp dụng trên lược đồ quan hệ z Tân từ P! được gọi là yếu hơn tân từ P, ký hiệu P!€C P nếu với mọi quan hệ z của lược

đồ z thỏa IIŒ|P') <1IŒ|P) và NŒ|P) < N@|P), voi moi bo ter

Dựa vào công thức (3.1) và (3.2) ta dễ dàng chứng minh được hai bổ đề sau:

Bổ đề 3.1 a) Nếu Q_ là lượng từ don diéu tang thi Ng » ore P = MaQ(k)

b) Nếu Q là lượng tt don điệu giảm thi Ig > are P = UQ(k), ớt k = |ker(rp)|

Bổ đề 3.2 Với mợi lượng từ Q_ toà tân từ PL áp dụng trên quan hệ r, ta có

NS + are Pp =~ 1—-NQ vr are P UG NZ» are Pp —~ 1 Iq vr are P

Định lý 3.1 Nếu Q, Q! la cdc luong tu don diéu tang thoa Q' CQ va P, P' là các tân tir thoa P' CP thi voi moi quan hệ r, tacé Ilgr are p> Ur are p? ĐỀ ~=Nor are P=

Trang 4

Chứng mình Đặt k= |ker(rp)|, kí = |[ker(rp)| Vì PC Pnên k<k Từ Bổ đề 3.1 và do

@' C Q là các lượng từ đơn điệu tăng nên dễ dàng suy ra Ng rv are P = No’ r are P'-

Ta có:

lg yr are P= gax min (sg (i), mirp|()) va Ig > are Pi = mes min (nq (i), Iz„i(0)

Dễ thấy Ví, k<¡< n thì min(na(i), rire \(i)) > min (nq (i), I;„.I(9) và

Vi, MSF <k thì min(so(R), x„;|(E)) > min(wạ(2), mịy„40))

Tương tự, ta có định lý tương ứng cho các lượng từ đơn điệu giảm

Định lý 3.2 Nếu Q, Q! la các lượng từ dơn điệu giảm thỏa QC (Q*ˆ oà P, P' là các

tân từ thỏa PC D thì uới mọi quan hệ r, ta co:

HẠ + are P S l@/ + are Pr’ ua Ng vr are P < Na’ r are P’:

3.2 Dang Q Pi r are Py

Ménh dé “Q P, r are P;” có nghĩa là định lượng các bộ trong quan hệ rz thỏa tân từ

P, cing thỏa tân từ ạ tương thích với lượng từ @

Trường hợp @— là lượng từ tuyệt đối thì ta có sự tương đương về mặt ngữ nghĩa của

hai ménh dé “Q P, r are P” và “Q r are Pị and P” Do đó hoàn toàn có thể đánh giá theo

công thức (3.1) và (3.2) Chẳng hạn mệnh đề “Gó tt nhất š người tuổi cao trong cơ sở dt

liệu cũng có lương cao” tương đương với mệnh đề “Có #t nhất ð người trong cơ sở đữ liệu

có tuổi cao tà lương caở”

Trường hợp @ là lượng từ tỷ lệ, ta có thể xem mệnh đề “Q ị z are Ð;” tương đương với mệnh đề “Q zp, aze Ð;”, với rp, là những bộ của quan hệ z thỏa tân từ P,

Ký hiệu kị = |ker(rp,)|, d6 do khả năng thỏa mệnh đề “Q Pị r are Py” được xây dựng qua các bước như sau:

Bước 1 Với mỗi ¡¿ trong khoảng các giá trị có thể là lực lượng của quan hệ zp,, kị <i<n, gọi zÍ là quan hệ được chọn từ zp, gồm ¡ bộ có độ thỏa tân từ P¡ cao nhất Khi đó độ tin

cay cla ménh dé “Q rp, are P;” chính là độ tin cậy của ménh dé “Q r* are Pị and P;” được đánh giá theo công thức (3.1)

max, min(øa2(2/), Ty (0) V6i ko = |ker(rp,ap,)|

25554

Họ rt are Py and Pz — ĐỊịAP

k

Trong khi đó khả năng để quan hệ zp, có ¿ bộ là ZI„,j() nên độ đo khả năng thỏa ménh dé “Q rp, are Pÿ' trong trường hợp zp, có đúng ¿ bộ là:

Hg re, are Pali) = nin( max {min(uo(/2), xi; „ 0) Jnr)

`

Bước 2 Khả năng thỏa mệnh đề “@ ị r are Po” được đánh giá trong trường hợp thuận lợi

nhất, nên:

Họ Đị n are Pạ — _Max {Tle rp, are Pz (0}

kị <¿<n

— „max { min [max min (62/0) Irz,se,I(0))› Tre, \(i)| } (3.3)

Trang 5

MOT SO MO RONG TONG KET DU LIEU 21

Từ độ đo khả năng ta dễ dàng suy ra độ đo cần thiết là:

No Py r are Pz —~ min { max ( mịn max(na(i/i), 1— T )' 1— Tir», \(i) } (3.4)

kị <S¿<w baạ<j<¡

Một số kết quả sau thể hiện thứ tự của các độ đo tương ứng với thứ tự các lượng từ và tân từ mờ

Định lý 3.3 Nếu Q, Q! la các lượng từ tuyệt đối, dơn điệu tăng thỏa Q' CQ va Đị, DỊ,

Po, Ps la các tân từ thỏa DỊ CD, ĐC Đ thì uới mọi quan hệ r ta có:

Họ Pi r are P2 = HH, Pi r are Tạ Ua No Pi r are Po = Noa Pi r are P3:

Chứng mưnh VÀ Q, QƑ là các lượng ttr tuyét doi nen Ig p, » are p, =lIlQ r are P, and Py, Và

HH, Pị rare Đệ — HH, rare Pi and P3-

Tr Pi CP, va PC P suy ra Pị and Đ C Đị and Pị, theo kết quả Định lý 3.1 dé dàng suy ra Họ Pi r are Po = HH, Pi r are P3:

Hoàn toàn tương tự ta cũng chứng mình được Ñ@ pm r are Py = Ne Pl are P2: a

Kết quả tương tự cho các lượng từ tuyệt đối, đơn điệu giảm thể hiện qua định lý sau

Dinh ly 3.4 Nếu Q, Q' là các lượng từ tuyệt đối, đơn điệu giảm thỏa QC Q' oà Đị, PỊ,

ĐQạ, Hộ là các tân từ thỏa DỊ CD, H C Pạ thì ouới mọi quan hệ r ta có

Họ Pi r are P2 < HH, Pi r are Tạ Ua No Pi r are Po < Noa Pi r are P3:

Với lượng từ tỷ lệ, các kết quả có một số thay đổi, cụ thể như sau:

Định lý 3.5 Nếu Q, QJ' là các lượng từ tủ lệ, dơn điệu tang thoa Q! CQ va Po, Ps la các

tân từ thỏa P; C Dạ thì uới mọi quan hệ + ta có

Họ Pi r are P2 > HH, Pir are Ps UG No Pi r are Po > Noa Pir are P53:

Chứng mình Từ công thức (3.3) ta có:

Họ Pi r are Pạ — „max Họ rp, are Pz (2) VƠI Họ rp, are Pz (2) — min(Hạ Tí ane PỊ and Py: Tr», \(@)

1S?

`

va

Hạ; Đị mane Đị — max Hạ; rbị are Pý (2) VƠI Hạ; rbị are Pý (2) — min (Hạ; rt are Py and Pf Trp, \(i))

ky <i<n

‘Theo Dinh ly 3.1 ta có Họ rt are Dị and Pa > He; rt ae PỊị and Phy Vi, ky < 2 < m nên

Họ rp, are P2 (4) = HH, rp, are + (9)

Do đó Họ Pi r are Po > HH, Py r are P3-

Tương tự ta chứng mình được Ng Pp, r are P2 2 Nar Py r are Ph a Tương tự ta có định lý sau cho các lượng từ đơn điệu giảm

Dinh ly 3.6 Néu Q, Q! la các lượng từ tủ lệ, dơn điệu giảm thoa Q C Q! va Po, Ph la cdc tân từ thỏa Độ C Pa; thì uới mọi quan hệ r ta có:

Họ Pi r are Po < HH, Pi r are P; va No Pi r are P2 < Noa Pi r are P3:

Trang 6

3.3 Dạng Qi P, r@é Qo Po, T

Mệnh đề “Q1 Pị r9 Qạ Đ r” cĩ ý nghĩa là định lượng các bộ trong quan hệ z thỏa tân

từ ¡ cĩ quan hệ Ø với các bộ trong quan hệ z thỏa tân từ ạ ở mức độ của lượng từ Qs

là tương thích với lượng từ Q¡ Chẳng hạn “Hầu hết những người lớn tuổi trong ŒSDL cĩ lương cao hơn nhiều người trể'

Độ tin cây của mệnh đề dạng này được đánh giá qua các bước như sau:

Bước 1 Với mỗi bộ t¿ €r, ta tính độ tin cây của mệnh đề định lượng số bộ của quan hệ z thỏa tân từ ; cĩ quan hệ 0 với bộ t;¿, Ð = “ t; 0 Qo P2 r” được biểu diễn tương đương với

mệnh đề “Qs ạ r are t¿oØ” Do đĩ độ tin cây của mệnh đề P, được đánh giá theo cơng thức (3.3) và (3.4) :

Ip, = , max min (Hạ, rp) are 1.004) Tirny|(I)) (3.5)

Ne, = min max (No, rp, are t;00(j), 1 — I;z,I(2)) (3.6) v6i ky =|ker(rp,)|, Ha rp, are t:00(9), Q; rọy are t;ò(7) tương ứng là độ đo khả năng và cần

thiết của ménh dé “Qs rp, are t; 0 0” trong trường hợp rp, cĩ đúng 7 bộ của z cĩ độ thỏa

tân từ 7Ø; cao nhất

Bước 2 Ta xem “9 Q¿ Đ¿ r” là một tân từ mờ trên các bộ của quan hệ z, ký hiệu tấn từ này

là P Khi đĩ mệnh đề “@¡ Pị z 9 Q¿ P; r” được đưa về dạng tương đương “+1 Pị r are P”

Do đĩ độ tín cậy được đánh giá :

Họ, Pir @ Qo Po r = max, min(Ila, rp, are pli), Trp, \(i) (3.7)

Na, Pir @ Qo Po r = min max( Ne, rp, are p(t), 1- Tir», \(i) (3.8) với kị = |ker(rp,)|, Họ, rp, are p(t), Na, rp, are p( tương ứng là độ tin cậy khả năng và cần

thiết của mệnh đề “Q¡ zp, are P” trong trường hợp rp, cĩ đúng ¿ bộ được chon trong r

cĩ độ thỏa tân từ ¡ cao nhất

Dinh ly 3.7 Néu Qi, 1, Qa, Q5 là các lượng tt tuyét doi, don diệu tăng thỏa Q1 C Qì,

Q5 © Qe va P,, Pi, Po, Pj la các tân từ thỏa DỊ C P,, Pj C Py thi vdi moi quan hé r ta cĩ:

Ne, Pre Q2 Per Zila prrea per Ua Na, pro Q Pr 2 Nay Pre Qh Phe

Ching minh V6i moi t € r, goi P; lA ménh dé “Qs Py r are t;0 6”, P! là mệnh đề

“5 Py r are t,o” Vi Pj C Py nén theo dinh lý 3.3 ta cé Ip, > Ip: va Np, > Np:

Do đĩ nếu gọi P 1a tan tir “0 Qo Py vr” va P’ 1a tan tt “2 Q2 Đ; r” thì ta cĩ PC P Theo Định lý 3.3 suy ra

Ilo, Pi r are P > He Pir are P’ và Na Đị rareP > No: Pir are P’- |

Định lý sau cũng đúng cho các lượng từ tuyệt đối, đơn điệu giảm

Định lý 3.8 Nếu Q¡, Q1, Qa, Q5 là các lượng từ tuyệt đối, dơn điệu giảm thỏa Qì C QỊ,

Qo CQ va Pi, Pi, Po, PS la cdc tân từ thỏa DỊ C Dị, Đ Ca: thì uới mọi quan hệ m ta cĩ:

Ha, Pir 6 Qs Per Sg, pr rea por Để Nội Pr 6 Qo Par LNQ Pir 6 Qh Pr

Với các lượng từ tỷ lệ ta cĩ các kết quả sau:

Trang 7

MỘT SỐ MỞ RỘNG TÔNG KẾT DỮ LIỆU 23 Dinh lý 3.9 Néu Qi, QQ), Qe, Q5 là các lượng từ tủ lệ, dơn diệu tang thoa Qi C Qu,

QS © Qo thi voi moi quan hé r ta có:

Ila, Pir 6 Q Per Zila: Pre Qh mr Đô Nai Pir 0 Qo Po r 2 NQt Pi vr 0 Qh Por

Ching minh Ding két qua cia Dinh ly 3.5 với kỹ thuật chứng mình tương tự như chứng mình của Định lý 3.7 ta dễ dàng chứng minh được định lý này 1 Dinh lý 3.10 Nếu Q1, Q1, Qa, Q5 là các lượng từ tủ lệ, dơn điệu giảm thỏa Qì C QỊ, Q2 € QŠ thì uới mọt quan hệ r ta có:

a, Pr 0 Q Pr Sg Pre ag mr va Ng, Pir 6Q mr Na, Pre Qh Pr

4 XÂY DỰNG CÁC LUẬT TỪ DỮ LIỆU

Một trong những nội dung quan trọng đặt ra cho việc phát hiện các luật từ dữ liệu là cần

có những thuật toán tự động xây dựng các luật trên những dữ liệu cụ thể sao cho độ tin cay vượt mmột ngưỡng cho trước nào đó Tuy nhiên cho đến nay những thuật toán như vậy đều

cần thiết phải có sự hỗ trợ một phần của con người Trong phần tiếp theo chúng tôi trình

bày một cách tiếp cận cho việc tông kết dữ liệu tự động dựa theo mẫu và thứ tự phân cấp các tập mờ trong cùng miền trị

4.1 Phân cấp các tập mờ

Cho là một tập hữu hạn các tập mờ trên miền D, khi đó cùng với quan hệ C của

các tập mờ tạo thành một thứ tự phân cấp Với bất kỳ tập các tập mờ trên miền trị D ta bổ

sung một tập mờ đặc biệt none được xác định pnone(w) = 1, Vx € D De thay véi moi F €

ta có FC nơnc Tập mờ nơne được xem là gốc của cây thứ tự phân cấp các tập mờ

Ví dụ 4.1 Giả sử là tập các lượng từ tỷ lệ == { none, for all, there exists, most, at least half, as many as possible, many, at least 75%, about half, no more than half, not many, few} Cây thứ tự phân cấp các tập mờ trong như hình vẽ 1

none

as many as possible many for all

Hình 1 Cây phần cấp các lượng từ tỷ lệ 4.2 Luật mẫu và cây phân cấp

Tu cac dang luat duoc xem xét trong cac muc 3.1, 3.2, 3.3, voi mot quan he r cu the,

z z ^ x fe , ^ ` ^ nx z z

ta xem xét các luật mâu với các tân từ nguyên tô có các dạng sau:

Dang 1 “Q Ais F”

Dang 2 “Q Ais F also B is G”

Trang 8

Dang 3 “Q, Ais F 0 Qo B is G”

véi Q, Qi, Qo lA lrong tir mo, 4, Ø là các thuộc tính của lược đồ quan hệ R, r 1a một quan

hệ trên lược đô 8, Ƒ,G là các tập mờ tương ứng trên miền trị của thuộc tính A và B

Phần này chỉ trình bày các nội dung liên quan đến luật mau dang 1, các dạng còn lại có kết quả tương tư

Xét luật mẫu có dạng “Q 4A ¡s F”, trong đó @ là một lượng từ nhận các giá trị trong một tập các lượng từ cho trước, 4 là một thuộc tính của lược đồ quan hệ r, #' là một tập con mmờ nhận giá trị trong một tập các tập mờ trên miền trị của thuộc tính A4

Từ những kết quả trong phần 3, ta có kết quả sau thể hiện thứ tự phân cấp của các luật:

Hệ quả 4.1.Nếu Q, Q' là những lượng từ đơn điệu tang thoa Q'CQ vi F'CF thi

Ig aisP2Ug aise Đà NQ Aisr>NQ A¡s ri

Chứng mình Với mỗi bộ t € r, ký hiệu giá trị của bộ ¿ tại thuộc tính 4 là phân bố khả

năng TLA()-

Từ độ đo khả năng về tương thích của phân bố khả nang mq) v6i tap mo F, F"

HŒraœ)|) = sup min (1(u), za(o(w)) và II(œAq)|#”) = sup min ( (u), macey(u))

Do F’ C #' nên ta có HŒra@¿|f') > HŒra@|f”)

Tương tự, dễ dàng kiểm chứng N(za@|F) > NŒra@|F'9)

Néu xem P 1a tan ttr “Ais F” va P' là tan ttr “A is "” thì ta có thứ tự P'€ P

‘Theo Dinh ly 3.1 ta có Họ Ais F > Họ; Ais F’ va No Ais F > Na: A is F’- a

Từ hệ quả trên, khi Q va F lần lượt nhận các giá trị tương ứng trong „ (bập các lượng từ tăng) và với thứ tự phân cấp cho trước Khi đó các cặp (Q, F) tao ra mot cay

thứ tự phân cấp theo độ đo khả năng và cần thiết

Ví dụ 4.2 Với luật mẫu @ 4øe ¡s F, với Qc_ „ (tập các lượng từ tăng trong Ví dụ 4.1),

Fe = {none, young, old, middle, very young, very old, about 20, about 40, not young}

Một phần cấu trúc cây phân cấp của luật mẫu có dạng như Hình 2

Với lượng từ đơn điệu giảm ta cũng có kết quả tương tự dựa vào kết quả của Dinh lý 3.2 Từ đó ta có thuật toán xây dựng tập các luật cho luật mẫu dạng I ứng với tập lượng

từ đơn điệu (tăng hoặc giảm)

4.3 Thuật toán xây dựng luật từ dữ liệu

Thuật toán 4.1 Xây dựng tập các luật từ luật mẫu dạng 1 cho tập lượng từ đơn điệu lnput : z là một quan hệ mờ

Luat mau RL = “Q Ais F”

( , €) là tập các lượng từ mờ đơn điệu với thứ tự phân cấp

(_, €) là tập các tập mờ trên thuộc tính 4 với thứ tự phân cấp

Ngưỡng xác định độ tin cậy a, 3

Format : Rules(RL,, ,œe,ở)

Method:

H := (none, none);

CS := {H};

SS := 6:

While CS zZ 0 do

Trang 9

MỘT SỐ MỞ RỘNG TÔNG KẾT DỮ LIỆU 25

NextCS := 0,

For each H in C'S do

If Sat(H, a, 8) then

SS:— SSU{HI:

For each Hnext in Child(H) do

NextCS := NextC SU {Hneat};

EndFor

Endif EndFor

CS := NextCS;

EndWhile

Return SS;

Trong đó:

ŒS, SS, NcztŒS là các mảng chứa các cặp (Q, F)

Sat(H, œ,đ) là thủ tục kiểm tra bộ H = (Q,#Ƒ) có thỏa luật mẫu với ngưỡng a, 8 hay không

Child(H) là tập các nút con của nút #ƒ trong cây phân cấp của luật mẫu

Với các lượng từ unimodal ta có kết quả sau:

(none, none)

(there exists, young) (there exists, middle) (there exists, not young)

a“

_

a“

v

¬" (for all, about40) Hinh 2 Cay phan cap luat “Q Age is F”

Định lý 4.1 Néu Q la mot luang tt& unimodal duac phan tich thành hai lượng từ dơn

điệu Q = QaNQa, thi

Họ A is F(r) > a kha va cht khi Họ, A is F(r) > a va Io A is F(r) > a

No A is F(r) > ổ khi va cht khi No, A is F(r) > ổ va Nou A is F(r) > ổ

Trang 10

Cho tập các lượng từ „ta có thể phân hoạch thành 3tập „ là tập các lượng từ đơn điệu tăng, „ là tập các lượng từ giảm và „ là tập các lượng từ unimodal Giả thiết là tập các lượng từ đóng đối với các lượng từ unimodal, nghĩa là với mọi lượng từ Q@c_ „ đều

Từ định lý trên ta có thể hoàn chỉnh thuật toán xây dựng các luật dựa vào luật mẫu dang 1 cho cac luong ttr dang unimodal

Thuật toán 4.2 Xây dựng tập các luật từ luật mẫu dạng 1

lnput : z là một quan hệ mờ

Luật mẫu RL = “Q Ais ”

( , €) là tập các lượng từ mờ với thứ tự phân cấp

(_, €) là tập các tập mờ trên thuộc tính 4 với thứ tự phân cấp

Ngưỡng xác định độ tin cậy a, 3

Output: Tap các cặp (Q, ) thỏa Họ ais r(r) >a va No ais r(r)> 8B

Format : DataSummaryl(RL, , ,a,ở)

Method:

„=Rules(RL, „, ,a,đ);

a:=Rule(RL, «a, ,a,đ);

tFor each @=@„¿n@Qzin „ do

For each Fin do

If (Q.,F)¢€ «and (Qag,F)<¢ 4then

ui +% U{(@ F)};

EndIf

EndFor EndFor

= a U aU 4)

Return ;

Tương tự trên, các luật mẫu dạng 2 và 3 hoàn toàn có thể xây dựng thuật toán xây dựng

tập luật dựa vào thứ tự phân cấp các tập mờ Ngoài ra các kết quả trên vẫn còn đúng khi chúng ta mở rộng các tân từ nguyên tố bởi sư kết hợp các tân từ nguyên tố với phép toán

and

5 KẾT LUẬN

Với một số kết quả mở rộng tính toán về các luật tổng kết dữ liệu có yếu tố mờ đã cho phép chúng ta đánh giá được độ tin cậy của một số luật thường gặp trong thực tế và điều này là cần thiết cho các nghiên cứu tiếp theo Việc phát hiện các luật dữ liệu với sự hỗ trợ

của các chuyên gia đã được thực hiện bước đầu qua Thuật toán 4.1 và 4.2 và có thể mở rộng cho nhiều dạng luật khác Các nghiên cứu tiếp theo của chúng tôi sẽ hoàn chỉnh và bổ sung thêm các dạng luật khác Những kết quả tính toán sẽ được tiếp tục nghiên cứu để cài đặt trên mô hình CSDLQH mờ mà chúng tôi đã xây dựng trên PROLUOG

Loi cam ơn Tác giả xin chân thành cảm on PGS TS Hé Thuan va PGS TS Dang Huy Ruan đã đóng góp những ý kiến quý báu trong quá trình hoàn thành bài báo này.

Định dạng
Số trang	11
Dung lượng	875,11 KB