Trong bài báo này, chúng tôi trình bày một số mở rộng tính toán cho các luật tổng kết từ dữ liệu trên mô hình cơ sở dữ liệu quan hệ mờ.. Bài báo cũng đưa ra thuật toán xây dựng các luật
Trang 1Tap chi Tin hoc và Điều khiển học, T 19, 5 2 (2003), 17-27
MỘT SỐ MỞ RỘNG TỔNG KẾT DỮ LIỆU TREN CO’ SO DU’ LIEU QUAN HE MO"
TRAN THIEN THANH Khoa Tin hoc, Truong Dai hoc Su pham Quy Nhon
Abstract In this paper, we present some extensions of data summaries on fuzzy relational databases based on a pattern matching process of D Dubois and H Prade An algorithm for discovering data rules based on hierarchical tree of template rules is given
Tóm tắt Trong bài báo này, chúng tôi trình bày một số mở rộng tính toán cho các luật tổng kết
từ dữ liệu trên mô hình cơ sở dữ liệu quan hệ mờ Các tính toán được xây dựng dựa trên đối sánh mẫu của D Dubois và H Prade Bài báo cũng đưa ra thuật toán xây dựng các luật tổng kết dữ liệu dựa trên cây phân cấp của các luật mẫu
1 ĐẶT VẤN ĐỀ
Việc phát hiện tri thức từ dữ liệu là một trong những hướng nghiên cứu đã tạo ra một cách nhìn mới về những dữ liệu được lưu trữ Cùng với sự phát triển các mô hình cơ sở dữ liệu quan hệ mờ (cơ sở dữ liệu quan hệ với dữ liệu mờ) đã cho phép thu thập nhiều thông tin va qua đó hỗ trợ nhiều cho việc phát hiện các tri thức Các tri thức phát hiện từ dữ liệu thường có dạng các luật dữ liệu bao gồm các yếu tố mờ như lượng từ mờ, tân từ mờ, các phép so sánh mờ, và các luật này có độ tin cậy là một giá trị trong đoạn [0,1] Tiêu biểu cho hướng nghiên cứu này là các kết quả của Yager |9, 10|, Kacprzyk [7], Cubero [3], Bosc
[1], Dubois, Prade |6],
Trong bài báo này, trên cơ sở đánh giá độ tin cây của luật có dang “Q r are P” của Dubois
và Prade [6], chúng tôi xây dựng cách đánh giá độ tin cậy cho các luật cé dang “Q P, r are P2”
và “Qx Hịr 9Q» Ð; r”, trong dé Q, Q1, Qas là các lượng từ mờ, r là một quan hệ mờ, Đị, ï›
la cdc tan từ mờ, Ø là toán tử so sánh mờ Cùng với cách đánh giá độ tin cậy, dựa vào thứ
tự phân cấp của các tập mờ, chúng tôi đưa ra thuật toán nhằm xây dựng tập các luật tổng
kết dữ liệu theo mẫu cho trước trên các dữ liệu có săn
Bài báo được tổ chức như sau: phần 2 trình bầy những kiến thức cơ sở gồm: mô hình
CSDLQH mờ dựa trên khả năng: đánh giá các tân từ mờ; biểu diễn các lượng từ ngôn ngữ bằng tập mờ; lực lượng tập mờ Phần 3 trình bày cách đánh giá các luật tổng kết dữ liệu
và một số tính chất liên quan Phần 4 trình bầy thuật toán xây dựng các luật theo mẫu dựa vào thứ tự phân cấp của các tập mờ Cuối cùng là kết luận và một số hướng nghiên cứu tiếp
theo
2 CÁC KIÊN THỨC CƠ SỞ
2.1 Mô hình cơ sở dữ liệu quan hệ mờ dựa trên khả năng
Bằng phân bố khả năng có thể biểu diễn dữ liệu của từng thuộc tính cho mỗi ø-bộ Giả sử 4 là một thuộc tính của lược đồ quan hệ, ? là miền trị của A Giá trị của một n-
bộ ¿ tại thuộc tính 4 được biểu diễn bởi phân bố khả năng chuẩn z4 trên miền trị mở rộng
* Công trình được hoàn thành với sự hỗtrợ kinh phí của Hội đòng khoa học tự nhiên.
Trang 2D = DU{e}, trong đó e là phần tử bổ sung vào mỗi miền trị, được sử dụng trong trường
hợp thuộc tắnh 4 không áp dụng được cho bộ Ư (chỉ tiết xem trong |4|)
2.2 Tắnh toán trên các tân từ mờ
Cho X là một biến nhận giá trị trên miền D kết hợp với phân bo kha nang rx, F la một
tập mờ trên D Độ tương thắch của X với tập mờ #' được đánh giá trên hai độ đo khả năng
(H) và cần thiết (N) được xác định bởi:
Với ử là một phép so sánh mờ được xác định bởi hàm thuộc pe, mệnh đề Ộ X 6 FỢ duoc xem tương đương với mệnh đề * X ¡s oửỢ, với Foụ là phép hợp thành của một giá trị mờ
với một toán tử so sánh mờ ử được xác dinh béi: Vd Ạ D, đroƯ(đ) = sụp min( (d, đ), ur(4))
d'cpD
Độ thỏa mệnh đề ỘX ử Ợ được đánh giá như trong (2.1) và (2.2):
N(X9F) = Nx(F'o8) = inf max( /rop(0), 1Ở xx(0)) (2.4)
Dựa trên đánh giá của những tân từ nguyên tố, trong |4| đưa ra những công thức đánh giá cho tân từ kết hợp các tân từ nguyên tố bởi các phép toán logic not, and, or
2.3 Các lượng từ mờ
Trong [19| Zadeh đề xuất một cách biểu diễn lượng từ ngôn ngữ theo cách tiếp cận của
lý thuyết tập mờ, trong đó mỗi lượng từ @ được xem như một tập mờ trên tập cơ sở X
và được xác định qua hàm thuộc g@: X Ở [0,1], với X là tập số nguyên không âm hoặc
đoạn |0, 1] tuỳ thuộc vào loại lượng từ
Zadeh chia các lượng từ ngôn ngữ thành hai loại: lượng tt tuyét déi (absolute quantifiers)
và lượng tt ty lé (proportional quantifiers) Luong từ tuyệt đối dùng trong những mệnh đề
với số lượng xác định như : Ộkhoảng 2Ỗ, Ộnhiều hơn đồ, Lượng từ tuyệt đối được biểu diễn
bằng tập mờ trên tập cơ sở là tập các số nguyên không âm Lượng từ tỷ lệ thể hiện những
số lượng phụ thuộc vào số lượng tập các đối tượng mà nó thể hiện, như các lượng từ: Ộhầu hết", Ộkhoảng một mửa", Với những lượng từ này biểu diễn bằng tập mờ trên miền cơ sở
là đoạn |0,1]
Lượng từ @ gọi là đơn điệu tăng nếu với mọi z¡ > zƯ thÌ pe(x1) > đg(+a2) Chẳng hạn:
Ộat least 3Ợ, Ộalmost allỖ, ỘmostỢ
Luong tir Q gọi là đơn điệu giảm nếu véi moi x > x2 thi pe(x1) < we(x2) Chang han:
Ộat most 3Ợ, ỘfewỢ, Ộalmost noneỖ
Luong tir Q goi la long tt unimodal néu ton tai hai gid tri a, 6 v6i a <6 sao cho với moi ề<a thi @ 1a luong ttr don điệu tăng; với z>b thì @Q đơn điệu giảm và (+) = 1 v6i moi z Ạ |a, b|
Nhận xét 2.1 Với mọi lượng từ unimodal @ bao giờ cũng tim duoc hai luong tt Q, đơn điệu tăng và @QẤ đơn điệu giảm sao cho @Q Ở= QẤfự1a
Lượng từ phú định (negation) cia một lượng từ Q, ký hiệu Q, được xác định bởi ug(#) Ở= L~ nạ(Ủ) Vz Chăng hạn noơặ mang là lượng từ phủ định của lượng từ mứng
Trang 3MOT SO MO RONG TONG KET DU LIEU 19
2.4 Lực lượng mờ
Có nhiều cách tiếp cận để định nghĩa lực lượng mờ, trong bài báo này chúng tôi dùng định nghĩa lực lượng mờ theo cách tiếp cận của Dubois và Prade |6|
Cho F la tap mo trén tap hữu hạn U = {úq,ua, -,u„} Đặt & = |ker(F)|, voi ker(F) = {u € U|uz(u) = 1} Lực lượng của tap mo F, ky hiéu |F|; (hoadc |F| néu khong
gây nhầm lẫn) là một phân bố khả năng chuẩn zịzị trên đoạn |0,n], được xác định như sau:
r(t)=0 voi 0<t<k,
wk) = 1, với 7>k thì xŒ) là giá trị lớn thứ 7 trong danh sách các giá trị ,(ui), ¿(ua), -, (tin) Nhận xét 2.2 Nếu “C7 thì với mọi ¡>k ta có mịzJ(9 < mịpi(, với k= |ker(Œ)|
3 TỔNG KẾT DỮ LIỆU
Trong phần này xây dựng các công thức tính độ tin cậy của một luật tổng kết dữ liệu
Độ tin cây được đánh giá trên hai độ đo khả năng và cần thiết
3.1 Dang Q r are P
Ménh dé “ Q r are P” có nghĩa là định lượng các bộ trong quan hệ z thỏa tân từ P ở
mức độ nào đó tương thích với lượng từ Q Chẳng hạn các mệnh đề :“Có # nhất ð người trong GSDL có lương cao” hay “Hầu hết những người trong GSDL là trể'
Độ tin cây của mệnh đề “@ r are P” được đánh giá như độ tin cậy của mệnh đề “|rp|z
lsẳ Q”, với rp là tập các bộ của quan hệ z thỏa tân từ P ở mức độ khả năng (hoặc cần
thiết) Theo công thức (2.1) và (2.2) trong trường hợp @ là lượng từ tuyệt đối ta có:
với ø là số bộ của quan hệ +, k=—= |ker(p)|
Nếu @ là lượng từ tỷ lệ, trong các công thức trên ta thay ,ạ() bởi ðv(/n)
Định nghĩa 3.1 Cho P và P' là hai lượng từ mờ áp dụng trên lược đồ quan hệ z Tân từ P! được gọi là yếu hơn tân từ P, ký hiệu P!€C P nếu với mọi quan hệ z của lược
đồ z thỏa IIŒ|P') <1IŒ|P) và NŒ|P) < N@|P), voi moi bo ter
Dựa vào công thức (3.1) và (3.2) ta dễ dàng chứng minh được hai bổ đề sau:
Bổ đề 3.1 a) Nếu Q_ là lượng từ don diéu tang thi Ng » ore P = MaQ(k)
b) Nếu Q là lượng tt don điệu giảm thi Ig > are P = UQ(k), ớt k = |ker(rp)|
Bổ đề 3.2 Với mợi lượng từ Q_ toà tân từ PL áp dụng trên quan hệ r, ta có
NS + are Pp =~ 1—-NQ vr are P UG NZ» are Pp —~ 1 Iq vr are P
Định lý 3.1 Nếu Q, Q! la cdc luong tu don diéu tang thoa Q' CQ va P, P' là các tân tir thoa P' CP thi voi moi quan hệ r, tacé Ilgr are p> Ur are p? ĐỀ ~=Nor are P=
Trang 4Chứng mình Đặt k= |ker(rp)|, kí = |[ker(rp)| Vì PC Pnên k<k Từ Bổ đề 3.1 và do
@' C Q là các lượng từ đơn điệu tăng nên dễ dàng suy ra Ng rv are P = No’ r are P'-
Ta có:
lg yr are P= gax min (sg (i), mirp|()) va Ig > are Pi = mes min (nq (i), Iz„i(0)
Dễ thấy Ví, k<¡< n thì min(na(i), rire \(i)) > min (nq (i), I;„.I(9) và
Vi, MSF <k thì min(so(R), x„;|(E)) > min(wạ(2), mịy„40))
Tương tự, ta có định lý tương ứng cho các lượng từ đơn điệu giảm
Định lý 3.2 Nếu Q, Q! la các lượng từ dơn điệu giảm thỏa QC (Q*ˆ oà P, P' là các
tân từ thỏa PC D thì uới mọi quan hệ r, ta co:
HẠ + are P S l@/ + are Pr’ ua Ng vr are P < Na’ r are P’:
3.2 Dang Q Pi r are Py
Ménh dé “Q P, r are P;” có nghĩa là định lượng các bộ trong quan hệ rz thỏa tân từ
P, cing thỏa tân từ ạ tương thích với lượng từ @
Trường hợp @— là lượng từ tuyệt đối thì ta có sự tương đương về mặt ngữ nghĩa của
hai ménh dé “Q P, r are P” và “Q r are Pị and P” Do đó hoàn toàn có thể đánh giá theo
công thức (3.1) và (3.2) Chẳng hạn mệnh đề “Gó tt nhất š người tuổi cao trong cơ sở dt
liệu cũng có lương cao” tương đương với mệnh đề “Có #t nhất ð người trong cơ sở đữ liệu
có tuổi cao tà lương caở”
Trường hợp @ là lượng từ tỷ lệ, ta có thể xem mệnh đề “Q ị z are Ð;” tương đương với mệnh đề “Q zp, aze Ð;”, với rp, là những bộ của quan hệ z thỏa tân từ P,
Ký hiệu kị = |ker(rp,)|, d6 do khả năng thỏa mệnh đề “Q Pị r are Py” được xây dựng qua các bước như sau:
Bước 1 Với mỗi ¡¿ trong khoảng các giá trị có thể là lực lượng của quan hệ zp,, kị <i<n, gọi zÍ là quan hệ được chọn từ zp, gồm ¡ bộ có độ thỏa tân từ P¡ cao nhất Khi đó độ tin
cay cla ménh dé “Q rp, are P;” chính là độ tin cậy của ménh dé “Q r* are Pị and P;” được đánh giá theo công thức (3.1)
max, min(øa2(2/), Ty (0) V6i ko = |ker(rp,ap,)|
25554
Họ rt are Py and Pz — ĐỊịAP
k
Trong khi đó khả năng để quan hệ zp, có ¿ bộ là ZI„,j() nên độ đo khả năng thỏa ménh dé “Q rp, are Pÿ' trong trường hợp zp, có đúng ¿ bộ là:
Hg re, are Pali) = nin( max {min(uo(/2), xi; „ 0) Jnr)
`
Bước 2 Khả năng thỏa mệnh đề “@ ị r are Po” được đánh giá trong trường hợp thuận lợi
nhất, nên:
Họ Đị n are Pạ — _Max {Tle rp, are Pz (0}
kị <¿<n
— „max { min [max min (62/0) Irz,se,I(0))› Tre, \(i)| } (3.3)
Trang 5MOT SO MO RONG TONG KET DU LIEU 21
Từ độ đo khả năng ta dễ dàng suy ra độ đo cần thiết là:
No Py r are Pz —~ min { max ( mịn max(na(i/i), 1— T )' 1— Tir», \(i) } (3.4)
kị <S¿<w baạ<j<¡
Một số kết quả sau thể hiện thứ tự của các độ đo tương ứng với thứ tự các lượng từ và tân từ mờ
Định lý 3.3 Nếu Q, Q! la các lượng từ tuyệt đối, dơn điệu tăng thỏa Q' CQ va Đị, DỊ,
Po, Ps la các tân từ thỏa DỊ CD, ĐC Đ thì uới mọi quan hệ r ta có:
Họ Pi r are P2 = HH, Pi r are Tạ Ua No Pi r are Po = Noa Pi r are P3:
Chứng mưnh VÀ Q, QƑ là các lượng ttr tuyét doi nen Ig p, » are p, =lIlQ r are P, and Py, Và
HH, Pị rare Đệ — HH, rare Pi and P3-
Tr Pi CP, va PC P suy ra Pị and Đ C Đị and Pị, theo kết quả Định lý 3.1 dé dàng suy ra Họ Pi r are Po = HH, Pi r are P3:
Hoàn toàn tương tự ta cũng chứng mình được Ñ@ pm r are Py = Ne Pl are P2: a
Kết quả tương tự cho các lượng từ tuyệt đối, đơn điệu giảm thể hiện qua định lý sau
Dinh ly 3.4 Nếu Q, Q' là các lượng từ tuyệt đối, đơn điệu giảm thỏa QC Q' oà Đị, PỊ,
ĐQạ, Hộ là các tân từ thỏa DỊ CD, H C Pạ thì ouới mọi quan hệ r ta có
Họ Pi r are P2 < HH, Pi r are Tạ Ua No Pi r are Po < Noa Pi r are P3:
Với lượng từ tỷ lệ, các kết quả có một số thay đổi, cụ thể như sau:
Định lý 3.5 Nếu Q, QJ' là các lượng từ tủ lệ, dơn điệu tang thoa Q! CQ va Po, Ps la các
tân từ thỏa P; C Dạ thì uới mọi quan hệ + ta có
Họ Pi r are P2 > HH, Pir are Ps UG No Pi r are Po > Noa Pir are P53:
Chứng mình Từ công thức (3.3) ta có:
Họ Pi r are Pạ — „max Họ rp, are Pz (2) VƠI Họ rp, are Pz (2) — min(Hạ Tí ane PỊ and Py: Tr», \(@)
1S?
`
va
Hạ; Đị mane Đị — max Hạ; rbị are Pý (2) VƠI Hạ; rbị are Pý (2) — min (Hạ; rt are Py and Pf Trp, \(i))
ky <i<n
‘Theo Dinh ly 3.1 ta có Họ rt are Dị and Pa > He; rt ae PỊị and Phy Vi, ky < 2 < m nên
Họ rp, are P2 (4) = HH, rp, are + (9)
Do đó Họ Pi r are Po > HH, Py r are P3-
Tương tự ta chứng mình được Ng Pp, r are P2 2 Nar Py r are Ph a Tương tự ta có định lý sau cho các lượng từ đơn điệu giảm
Dinh ly 3.6 Néu Q, Q! la các lượng từ tủ lệ, dơn điệu giảm thoa Q C Q! va Po, Ph la cdc tân từ thỏa Độ C Pa; thì uới mọi quan hệ r ta có:
Họ Pi r are Po < HH, Pi r are P; va No Pi r are P2 < Noa Pi r are P3:
Trang 63.3 Dạng Qi P, r@é Qo Po, T
Mệnh đề “Q1 Pị r9 Qạ Đ r” cĩ ý nghĩa là định lượng các bộ trong quan hệ z thỏa tân
từ ¡ cĩ quan hệ Ø với các bộ trong quan hệ z thỏa tân từ ạ ở mức độ của lượng từ Qs
là tương thích với lượng từ Q¡ Chẳng hạn “Hầu hết những người lớn tuổi trong ŒSDL cĩ lương cao hơn nhiều người trể'
Độ tin cây của mệnh đề dạng này được đánh giá qua các bước như sau:
Bước 1 Với mỗi bộ t¿ €r, ta tính độ tin cây của mệnh đề định lượng số bộ của quan hệ z thỏa tân từ ; cĩ quan hệ 0 với bộ t;¿, Ð = “ t; 0 Qo P2 r” được biểu diễn tương đương với
mệnh đề “Qs ạ r are t¿oØ” Do đĩ độ tin cây của mệnh đề P, được đánh giá theo cơng thức (3.3) và (3.4) :
Ip, = , max min (Hạ, rp) are 1.004) Tirny|(I)) (3.5)
Ne, = min max (No, rp, are t;00(j), 1 — I;z,I(2)) (3.6) v6i ky =|ker(rp,)|, Ha rp, are t:00(9), Q; rọy are t;ò(7) tương ứng là độ đo khả năng và cần
thiết của ménh dé “Qs rp, are t; 0 0” trong trường hợp rp, cĩ đúng 7 bộ của z cĩ độ thỏa
tân từ 7Ø; cao nhất
Bước 2 Ta xem “9 Q¿ Đ¿ r” là một tân từ mờ trên các bộ của quan hệ z, ký hiệu tấn từ này
là P Khi đĩ mệnh đề “@¡ Pị z 9 Q¿ P; r” được đưa về dạng tương đương “+1 Pị r are P”
Do đĩ độ tín cậy được đánh giá :
Họ, Pir @ Qo Po r = max, min(Ila, rp, are pli), Trp, \(i) (3.7)
Na, Pir @ Qo Po r = min max( Ne, rp, are p(t), 1- Tir», \(i) (3.8) với kị = |ker(rp,)|, Họ, rp, are p(t), Na, rp, are p( tương ứng là độ tin cậy khả năng và cần
thiết của mệnh đề “Q¡ zp, are P” trong trường hợp rp, cĩ đúng ¿ bộ được chon trong r
cĩ độ thỏa tân từ ¡ cao nhất
Dinh ly 3.7 Néu Qi, 1, Qa, Q5 là các lượng tt tuyét doi, don diệu tăng thỏa Q1 C Qì,
Q5 © Qe va P,, Pi, Po, Pj la các tân từ thỏa DỊ C P,, Pj C Py thi vdi moi quan hé r ta cĩ:
Ne, Pre Q2 Per Zila prrea per Ua Na, pro Q Pr 2 Nay Pre Qh Phe
Ching minh V6i moi t € r, goi P; lA ménh dé “Qs Py r are t;0 6”, P! là mệnh đề
“5 Py r are t,o” Vi Pj C Py nén theo dinh lý 3.3 ta cé Ip, > Ip: va Np, > Np:
Do đĩ nếu gọi P 1a tan tir “0 Qo Py vr” va P’ 1a tan tt “2 Q2 Đ; r” thì ta cĩ PC P Theo Định lý 3.3 suy ra
Ilo, Pi r are P > He Pir are P’ và Na Đị rareP > No: Pir are P’- |
Định lý sau cũng đúng cho các lượng từ tuyệt đối, đơn điệu giảm
Định lý 3.8 Nếu Q¡, Q1, Qa, Q5 là các lượng từ tuyệt đối, dơn điệu giảm thỏa Qì C QỊ,
Qo CQ va Pi, Pi, Po, PS la cdc tân từ thỏa DỊ C Dị, Đ Ca: thì uới mọi quan hệ m ta cĩ:
Ha, Pir 6 Qs Per Sg, pr rea por Để Nội Pr 6 Qo Par LNQ Pir 6 Qh Pr
Với các lượng từ tỷ lệ ta cĩ các kết quả sau:
Trang 7MỘT SỐ MỞ RỘNG TÔNG KẾT DỮ LIỆU 23 Dinh lý 3.9 Néu Qi, QQ), Qe, Q5 là các lượng từ tủ lệ, dơn diệu tang thoa Qi C Qu,
QS © Qo thi voi moi quan hé r ta có:
Ila, Pir 6 Q Per Zila: Pre Qh mr Đô Nai Pir 0 Qo Po r 2 NQt Pi vr 0 Qh Por
Ching minh Ding két qua cia Dinh ly 3.5 với kỹ thuật chứng mình tương tự như chứng mình của Định lý 3.7 ta dễ dàng chứng minh được định lý này 1 Dinh lý 3.10 Nếu Q1, Q1, Qa, Q5 là các lượng từ tủ lệ, dơn điệu giảm thỏa Qì C QỊ, Q2 € QŠ thì uới mọt quan hệ r ta có:
a, Pr 0 Q Pr Sg Pre ag mr va Ng, Pir 6Q mr Na, Pre Qh Pr
4 XÂY DỰNG CÁC LUẬT TỪ DỮ LIỆU
Một trong những nội dung quan trọng đặt ra cho việc phát hiện các luật từ dữ liệu là cần
có những thuật toán tự động xây dựng các luật trên những dữ liệu cụ thể sao cho độ tin cay vượt mmột ngưỡng cho trước nào đó Tuy nhiên cho đến nay những thuật toán như vậy đều
cần thiết phải có sự hỗ trợ một phần của con người Trong phần tiếp theo chúng tôi trình
bày một cách tiếp cận cho việc tông kết dữ liệu tự động dựa theo mẫu và thứ tự phân cấp các tập mờ trong cùng miền trị
4.1 Phân cấp các tập mờ
Cho là một tập hữu hạn các tập mờ trên miền D, khi đó cùng với quan hệ C của
các tập mờ tạo thành một thứ tự phân cấp Với bất kỳ tập các tập mờ trên miền trị D ta bổ
sung một tập mờ đặc biệt none được xác định pnone(w) = 1, Vx € D De thay véi moi F €
ta có FC nơnc Tập mờ nơne được xem là gốc của cây thứ tự phân cấp các tập mờ
Ví dụ 4.1 Giả sử là tập các lượng từ tỷ lệ == { none, for all, there exists, most, at least half, as many as possible, many, at least 75%, about half, no more than half, not many, few} Cây thứ tự phân cấp các tập mờ trong như hình vẽ 1
none
as many as possible many for all
Hình 1 Cây phần cấp các lượng từ tỷ lệ 4.2 Luật mẫu và cây phân cấp
Tu cac dang luat duoc xem xét trong cac muc 3.1, 3.2, 3.3, voi mot quan he r cu the,
z z ^ x fe , ^ ` ^ nx z z
ta xem xét các luật mâu với các tân từ nguyên tô có các dạng sau:
Dang 1 “Q Ais F”
Dang 2 “Q Ais F also B is G”
Trang 8Dang 3 “Q, Ais F 0 Qo B is G”
véi Q, Qi, Qo lA lrong tir mo, 4, Ø là các thuộc tính của lược đồ quan hệ R, r 1a một quan
hệ trên lược đô 8, Ƒ,G là các tập mờ tương ứng trên miền trị của thuộc tính A và B
Phần này chỉ trình bày các nội dung liên quan đến luật mau dang 1, các dạng còn lại có kết quả tương tư
Xét luật mẫu có dạng “Q 4A ¡s F”, trong đó @ là một lượng từ nhận các giá trị trong một tập các lượng từ cho trước, 4 là một thuộc tính của lược đồ quan hệ r, #' là một tập con mmờ nhận giá trị trong một tập các tập mờ trên miền trị của thuộc tính A4
Từ những kết quả trong phần 3, ta có kết quả sau thể hiện thứ tự phân cấp của các luật:
Hệ quả 4.1.Nếu Q, Q' là những lượng từ đơn điệu tang thoa Q'CQ vi F'CF thi
Ig aisP2Ug aise Đà NQ Aisr>NQ A¡s ri
Chứng mình Với mỗi bộ t € r, ký hiệu giá trị của bộ ¿ tại thuộc tính 4 là phân bố khả
năng TLA()-
Từ độ đo khả năng về tương thích của phân bố khả nang mq) v6i tap mo F, F"
HŒraœ)|) = sup min (1(u), za(o(w)) và II(œAq)|#”) = sup min ( (u), macey(u))
Do F’ C #' nên ta có HŒra@¿|f') > HŒra@|f”)
Tương tự, dễ dàng kiểm chứng N(za@|F) > NŒra@|F'9)
Néu xem P 1a tan ttr “Ais F” va P' là tan ttr “A is "” thì ta có thứ tự P'€ P
‘Theo Dinh ly 3.1 ta có Họ Ais F > Họ; Ais F’ va No Ais F > Na: A is F’- a
Từ hệ quả trên, khi Q va F lần lượt nhận các giá trị tương ứng trong „ (bập các lượng từ tăng) và với thứ tự phân cấp cho trước Khi đó các cặp (Q, F) tao ra mot cay
thứ tự phân cấp theo độ đo khả năng và cần thiết
Ví dụ 4.2 Với luật mẫu @ 4øe ¡s F, với Qc_ „ (tập các lượng từ tăng trong Ví dụ 4.1),
Fe = {none, young, old, middle, very young, very old, about 20, about 40, not young}
Một phần cấu trúc cây phân cấp của luật mẫu có dạng như Hình 2
Với lượng từ đơn điệu giảm ta cũng có kết quả tương tự dựa vào kết quả của Dinh lý 3.2 Từ đó ta có thuật toán xây dựng tập các luật cho luật mẫu dạng I ứng với tập lượng
từ đơn điệu (tăng hoặc giảm)
4.3 Thuật toán xây dựng luật từ dữ liệu
Thuật toán 4.1 Xây dựng tập các luật từ luật mẫu dạng 1 cho tập lượng từ đơn điệu lnput : z là một quan hệ mờ
Luat mau RL = “Q Ais F”
( , €) là tập các lượng từ mờ đơn điệu với thứ tự phân cấp
(_, €) là tập các tập mờ trên thuộc tính 4 với thứ tự phân cấp
Ngưỡng xác định độ tin cậy a, 3
Format : Rules(RL,, ,œe,ở)
Method:
H := (none, none);
CS := {H};
SS := 6:
While CS zZ 0 do
Trang 9MỘT SỐ MỞ RỘNG TÔNG KẾT DỮ LIỆU 25
NextCS := 0,
For each H in C'S do
If Sat(H, a, 8) then
SS:— SSU{HI:
For each Hnext in Child(H) do
NextCS := NextC SU {Hneat};
EndFor
Endif EndFor
CS := NextCS;
EndWhile
Return SS;
Trong đó:
ŒS, SS, NcztŒS là các mảng chứa các cặp (Q, F)
Sat(H, œ,đ) là thủ tục kiểm tra bộ H = (Q,#Ƒ) có thỏa luật mẫu với ngưỡng a, 8 hay không
Child(H) là tập các nút con của nút #ƒ trong cây phân cấp của luật mẫu
Với các lượng từ unimodal ta có kết quả sau:
(none, none)
(there exists, young) (there exists, middle) (there exists, not young)
a“
_
a“
v
¬" (for all, about40) Hinh 2 Cay phan cap luat “Q Age is F”
Định lý 4.1 Néu Q la mot luang tt& unimodal duac phan tich thành hai lượng từ dơn
điệu Q = QaNQa, thi
Họ A is F(r) > a kha va cht khi Họ, A is F(r) > a va Io A is F(r) > a
No A is F(r) > ổ khi va cht khi No, A is F(r) > ổ va Nou A is F(r) > ổ
Trang 10Cho tập các lượng từ „ta có thể phân hoạch thành 3tập „ là tập các lượng từ đơn điệu tăng, „ là tập các lượng từ giảm và „ là tập các lượng từ unimodal Giả thiết là tập các lượng từ đóng đối với các lượng từ unimodal, nghĩa là với mọi lượng từ Q@c_ „ đều
tổn tại Q¿€© „và Qac „sao cho Q = Q„nQ¿
Từ định lý trên ta có thể hoàn chỉnh thuật toán xây dựng các luật dựa vào luật mẫu dang 1 cho cac luong ttr dang unimodal
Thuật toán 4.2 Xây dựng tập các luật từ luật mẫu dạng 1
lnput : z là một quan hệ mờ
Luật mẫu RL = “Q Ais ”
( , €) là tập các lượng từ mờ với thứ tự phân cấp
(_, €) là tập các tập mờ trên thuộc tính 4 với thứ tự phân cấp
Ngưỡng xác định độ tin cậy a, 3
Output: Tap các cặp (Q, ) thỏa Họ ais r(r) >a va No ais r(r)> 8B
Format : DataSummaryl(RL, , ,a,ở)
Method:
„=Rules(RL, „, ,a,đ);
a:=Rule(RL, «a, ,a,đ);
tFor each @=@„¿n@Qzin „ do
For each Fin do
If (Q.,F)¢€ «and (Qag,F)<¢ 4then
ui +% U{(@ F)};
EndIf
EndFor EndFor
= a U aU 4)
Return ;
Tương tự trên, các luật mẫu dạng 2 và 3 hoàn toàn có thể xây dựng thuật toán xây dựng
tập luật dựa vào thứ tự phân cấp các tập mờ Ngoài ra các kết quả trên vẫn còn đúng khi chúng ta mở rộng các tân từ nguyên tố bởi sư kết hợp các tân từ nguyên tố với phép toán
and
5 KẾT LUẬN
Với một số kết quả mở rộng tính toán về các luật tổng kết dữ liệu có yếu tố mờ đã cho phép chúng ta đánh giá được độ tin cậy của một số luật thường gặp trong thực tế và điều này là cần thiết cho các nghiên cứu tiếp theo Việc phát hiện các luật dữ liệu với sự hỗ trợ
của các chuyên gia đã được thực hiện bước đầu qua Thuật toán 4.1 và 4.2 và có thể mở rộng cho nhiều dạng luật khác Các nghiên cứu tiếp theo của chúng tôi sẽ hoàn chỉnh và bổ sung thêm các dạng luật khác Những kết quả tính toán sẽ được tiếp tục nghiên cứu để cài đặt trên mô hình CSDLQH mờ mà chúng tôi đã xây dựng trên PROLUOG
Loi cam ơn Tác giả xin chân thành cảm on PGS TS Hé Thuan va PGS TS Dang Huy Ruan đã đóng góp những ý kiến quý báu trong quá trình hoàn thành bài báo này.