NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG Tìm hiểu các vấn đề trong khai phá luật kết hợp đối với thuộc tính số, ĐSGT Tìm hiểu thuật toán khai phá luật kết hợp mờ tổng quát Nghiên cứu thuật toán khai phá luật kết hợp mờ tổng quát theo hướng tiếp cận ĐSGT
Trang 1BÁO CÁO LUẬN VĂN THẠC SỸ
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG
Học viên: Hoàng Hà Người hướng dẫn: TS Nguyễn Công Hào
Trang 2Nghiên cứu một số kỹ thuật khai phá
luật kết hợp mờ
Lý thuyết tập mờ
Đại số gia tử
Trang 3 Tìm hiểu các vấn đề trong khai phá luật kết hợp đối với thuộc tính số, ĐSGT
Tìm hiểu thuật toán khai phá luật kết hợp mờ tổng quát
Nghiên cứu thuật toán khai phá luật kết hợp mờ tổng quát theo hướng tiếp cận ĐSGT
3
Trang 4 Tìm hiểu các kiến thức liên quan
thuyết tập mờ
ĐSGT
Trang 5 Các vấn đề khi chuyển đổi thuộc tính số lượng sang thuộc tính nhị phân
5
Trang 6 A.v1, A.v2 ,…, A.vk : k đủ bé
A.vi bằng true nếu giá trị bản ghi tại thuộc tính A ban đầu
bằng vi
Ví dụ 1
Trang 7 <A:start1 end 1>, <A:startp end p>: p lớn
<A:starti end i> bằng true nếu bản ghi tại thuộc tính A ban
đầu nằm trong khoảng <A:starti end i>
Ví dụ 2
7
Trang 8 Khi rời rạc hóa theo khoảng đưa đến các vấn đề
Trang 10 Biến ngôn ngữ:
Khái niệm về ĐSGT: Miền giá trị của biến ngôn ngữ có thể
được biểu thị như một đại số gia tử (ĐSGT) X = (X, G, H, ),
G là tập các từ nguyên thủy được xem là các phần tử sinh
H là tập các từ nhấn gọi là các gia tử
H được chia làm hai phần rời rạc H + , H - lần lượt là tập các gia
tử dương và các gia tử âm
≤: là một quan hệ thứ tự có ngữ nghĩa trên X
Trong ĐSGT, mỗi phần tử x X đều mang dấu âm hay dương
(Sử dụng hàm Sign)
Trang 11 Với biến ngôn ngữ X chứa các giá trị ngôn ngữ mang một thông tin mờ nhất định gọi độ mờ của giá trị ngôn ngữ được
Omin,k(x) = Ik+1(h-1x) Ik+1(h1x) nếu k = j (1)
Omin,k(x) = Ij(x) nếu 1 k < j (2)
Omin,k(x) Ik+1(hmy) Ik+1(hny’) nếu j+ 1 k k* (3)
Trang 12 Suy ra, một biểu diễn khoảng cho x là:
Từ giả thiết trên ta có = 0.52, = 0.48
Xây dựng một biểu diễn khoảng cho giá trị ngôn ngữ x = rất
cao
Trang 13Giả sử ta phân mức với k = 2
Xét với k =1: Ta có fm(rất cao) = (rất)*fm(cao) = 0.2*.0.58
= 0.116 nên I(rất cao) = (0.884, 1] Suy ra Omin,1 (rất cao) = I(rất cao) = (0.884, 1].
Xét với k =2: Ta có fm(khá rất cao) = 0.032, fm(rất rất cao)= 0.023, fm(gần rất cao) = 0.031 nên I(khá rất cao) = (0.945, 0.977], I(rất rất cao) = ( 0.977, 1], I(gần rất cao) = (0.914,
0.945] Suy ra Omin,2 (rất cao) = I(gần rất cao) I(khá rất cao)
= (0.914, 0.977]
Trang 14 Đầu vào: CSDL n giao tác số
◦ Bước 1: Thêm các ance
◦ Bước 2: Chuyển các giá trị số v ij về dạng
fij1/Rj1 + fij2/Rj2 +…+ fijh/Rjh
Trang 15◦ Bước 3: Tính bản số vô hướng của mỗi vùng mờ R jl
◦ Bước 7: Đối với mỗi 2-itemset s với mục (s1, s2)
Tính toán lấy giá trị vùng mờ f is = min(f is1 , f is2 ).
Tính toán bản số vô hướng s trong CSDL giao tác
Trang 16◦ Bước 8: Nếu L2 ϴ thực hiện bước tiếp theo
◦ Bước 9: Đặt r = 2
◦ Bước 10: Tạo ra tập ứng viên Cr+1 từ L r
◦ Bước 11: Đối với mỗi (r+1)-itemset s, thì các bước tính toán cũng
được thực hiện như bước 7
◦ Bước 12: Nếu Lr+1 ϴ thì đặt r = r+1 và lặp lại các bước 10 đến
,
(
1 1
2 1
1
1
q k
is n
i
is is
n i
is
f f
f f
Trang 17 Đặt vấn đề:
◦ Việc xây dựng hàm thuộc cho các tập mờ
◦ Hướng tiếp cận theo ĐSGT
Đầu vào: CSDL n giao tác số
Phân cấp được định nghĩa trước,
minsup và minconf
Đầu ra: Tập các luật kết hợp tổng quát mờ
17
Trang 18Dựa vào tính chất về quan hệ thứ tự của gia tử h-q < h-q+1
<…<h -1 <h1<…<hp nên ta có I(hpc-) = [0, pw), I(hp-1c-) = [pw,
pw+p-1w),…., I(h-qc-) = [-q+1w, -q+1w+-qw)
Đặt = -q+1w+-qw
aj =
min max
min )
Trang 19◦ Tương tự ta tính I(h-qc+) = [, +-q(1-w)), I(h-q+1c+) = [ +
-q(1-w), +-q(1-w)+-q+1(1-w)), …, I(hpc+) = ( + -q(1-w)+-q+1(1-w)+ +p, 1];
◦ k=1, xác định các H(hx) để tính các lân cận tối thiểu
◦ H(hx) là tập các giá trị ngôn ngữ có kích thước khác nhau
chứa x
19
Trang 20 Các bước thực hiện như đối với thuật toán tương tự như đối với thuật toán đã trình bày ở trên
Khác biệt:
Bước 14 có 2 trường hợp xảy ra như sau:
Trường hợp thứ 1:Tìm ra được luật
Xét xem các giá trị độ tin cậy tìm ra được của luật tương ứng với giá trị ngôn ngữ thuộc vùng mờ nào.Sau đó gán k=k+1, quay lại bước 2
Trường hợp 2: Ngược lại thì thoát khỏi thuật toán
Trang 21 Ví dụ 4: Với bảng các giao tác sau:
21
Trang 22 Xsố lượng = (Xsố lượng, Gsố lượng, Hsố lượng, )
Trang 23 vì rất thấp < hơn thấp < thấp < khả năng thấp < ít thấp nên
I(rất thấp) = [0, 0.07), I(hơn thấp) = [0.07, 0.21), I(khả năng thấp) =
[0.21, 0.455), I(ít thấp) = [0.455, 0.7).
I(ít cao) = [0.7, 0.805), I(khả năng cao) = [0.805, 0.91), I(hơn cao) =
[0.91, 0.97), I(rất cao) = [0.97, 1].
Xét k = 1
Omin, 1(thấp) = I (khả năng thấp) I (hơn thấp)=[0.07, 0.455)
O min, 1(cao) = I (khả năng cao) I (hơn cao) = [0.805, 0.97)
O min, 1(khả năng thấp) = I (khả năng thấp)
Trang 24 Omin, 1(ít cao) = I (ít cao) = [0.7, 0.805)
Omin, 1(khả năng cao) = I (khả năng cao)=[0.805, 0.91)
Omin, 1(hơn cao) = I (hơn cao) = [0.91, 0.97)
Omin, 1(rất cao) = I (rất cao) = [0.97, 1]
Với k = 2 ta lần lượt tính các Omin,2 (x) với k = j = 2
Omin, 2(rất cao), Omin,2 (hơn cao), Omin, 2(khả năng cao), Omin,2 (ít
cao)…
Omin, 2(rất cao) = [0,982, 0.987)
tính các Omin,2 (x) với k < j = 3
Omin, 3(rất rất cao), Omin, 3(hơn rất cao), Omin, 3(khả năng rất
cao), Omin, 3(ít rất cao)
Omin, 3(rất rất cao) = [0.997, 1]
Trang 26 Kết quả thu được
Tính toán với mức k =1 ta thu được luật
If (T3 = ít cao) then (T2= ít cao) với độ tin cậy là cao
Tính toán với mức k =2 ta thu được luật
If (T3 = ít ít cao) then (T2= ít ít cao) với độ tin cậy là rất hơn
cao
Tính toán với mức k =3 ta thu được luật
If (T3 = ít ít ít cao) then (T2= ít ít ít cao) với độ tin cậy là rất
hơn cao
Trang 27 Kết quả thu được khi thực hiện với thuật toán áp dụng lý thuyết tập mờ với ví dụ trên ta thu được luật sau:
if (B = thấp) then (C = trung bình) với độ tin cậy 0.63
if (C = trung bình) then (T1 = thấp) với độ tin cậy 0.76
if (T1 = thấp) then (C = trung bình) với độ tin cậy 0.76
if (D = trung bình) then (T2 = cao) với độ tin cậy 0.857
if (E = trung bình) then (T1 = thấp) với độ tin cậy 0.66
if (E = trung bình) then (T2 = cao) với độ tin cậy 1
if (T2 = cao then T3 = cao) với độ tin cậy 0.65
if (T3 = cao then T2 = cao) với độ tin cậy 0.85
Trang 28 Thực hiện mô phỏng các thuật toán trên theo 3 cách đưa ra các tập mờ theo
Trang 29 Cho một ý tưởng về cách tính toán trực quan, rõ ràng.
Tập trung lựa chọn độ đo tính mờ của các gia tử, W, và chúng
sẽ trở thành tham số của phương pháp
Không cần phương pháp khử mờ
Qua thực nghiệm phương pháp này cho ra sai số nhỏ
29
Trang 30 Tìm hiểu và hệ thống về lý thuyết tập mờ, ĐSGT và khai phá dữ liệu.
Tìm hiểu về khai phá luật kết hợp mờ.
Nghiên cứu cách tiếp cận khai phá luật kết hợp mờ sử dụng ĐSGT.
Mô phỏng 2 thuật toán khai phá luật kết hợp mờ theo cách tiếp cận lý thuyết tập mờ và ĐSGT
Tìm một phương pháp tối ưu các tham số cho hàm định lượng ngữ nghĩa của ĐSGT
Xây dựng một ứng dụng thực tế để thực nghiệm thuật toán vừa đề xuất.
KẾT QUẢ ĐẠT ĐƯỢC
HƯỚNG PHÁT TRIỂN
Trang 31 Tiếng Việt
1 Bùi Công Cường, Nguyễn Doãn Phước (2001) Hệ mờ, mạng nơron và
ứng dụng, Nhà xuất bản khoa học và kỹ thuật.
2 Nguyễn Cát Hồ, Lê Xuân Vinh, Nguyễn Công Hào (2009), “Thống nhất
dữ liệu và xây dựng quan hệ tương tự trong cơ sở dữ liệu ngôn ngữ bằng
đại số gia tử”, Tạp chí Tin học và Điều khiển, trang 314-332.
Tiếng Anh
3 A.W C Fu, M.H Wong, S.C e al (1998) “Finding fuzzy sets for the
mining of fuzzy association rules for numerical attributes”, in Proc Int
Symp on Intelligent Data Engineering And Learning, pp 263-268
4 C M Kuok, A Fu, M H W (1998), “Mining Fuzzy Association Rules
in Databases”, in ACM SIGMOD Record, pp 41-46
5 C M Kuok, A Fu and M H Wong (1998) “Fuzzy association rules in
large databases with quantitative attributes”, in ACM SIGMOD Records
31
Trang 326 K C C Chan and W H Au (2001) “Mining fuzzy association
rules in database containing relational and transactional data”, in Data Mining and Computational Intelligence, pp 85-114
7 K C C Chan and W.-H Au (1997) “Mining fuzzy association
rules”, in Proc of 6 th Int Conf Information Knowledge Management, Las Vegas , pp 209-215
8 J H Lee and H L Kwang (1997), “An extension of association
rules using fuzzy sets”, in Proc of IFSA’97.
9 Piatetsky Shapiro, G Frawley, W.J (1991) “Knowledge discovery
in Database”, AAAI Press MIT Press, Menlo Park, Carliforna, USA
10 S F Lu, H Hu and F Li (2001) “Mining weighted association
rules”, Intelligent Data Analysis, pp 211-225
11 S.L Wang, C.Y Kuo, T.P Hong (2001) “Mining Similar
Association Rules from Transaction Databases”, in Proceeding of
Information Engineering System, pp 486-489.
12 R Srikant and R Agrawal (1995) “Mining Generalized Association Rules”, in Proceeding of the 21 th VLDB Conference Zurich
Trang 33CẢM ƠN QUÝ THẦY CÔ VÀ CÁC BẠN
ĐÃ LẮNG NGHE
33