1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG

33 886 2
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Một Số Kỹ Thuật Khai Phá Dữ Liệu Mờ Và Ứng Dụng
Tác giả Hoàng Hà
Người hướng dẫn TS. Nguyễn Công Hào
Trường học Viện Đại Học chất lượng cao, Đại Học Cần Thơ
Chuyên ngành Khoa Học Máy Tính
Thể loại báo cáo luận văn thạc sĩ
Thành phố Cần Thơ
Định dạng
Số trang 33
Dung lượng 3,69 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG Tìm hiểu các vấn đề trong khai phá luật kết hợp đối với thuộc tính số, ĐSGT Tìm hiểu thuật toán khai phá luật kết hợp mờ tổng quát Nghiên cứu thuật toán khai phá luật kết hợp mờ tổng quát theo hướng tiếp cận ĐSGT

Trang 1

BÁO CÁO LUẬN VĂN THẠC SỸ

NGHIÊN CỨU MỘT SỐ KỸ THUẬT

KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG

Học viên: Hoàng Hà Người hướng dẫn: TS Nguyễn Công Hào

Trang 2

Nghiên cứu một số kỹ thuật khai phá

luật kết hợp mờ

Lý thuyết tập mờ

Đại số gia tử

Trang 3

 Tìm hiểu các vấn đề trong khai phá luật kết hợp đối với thuộc tính số, ĐSGT

 Tìm hiểu thuật toán khai phá luật kết hợp mờ tổng quát

 Nghiên cứu thuật toán khai phá luật kết hợp mờ tổng quát theo hướng tiếp cận ĐSGT

3

Trang 4

 Tìm hiểu các kiến thức liên quan

thuyết tập mờ

ĐSGT

Trang 5

 Các vấn đề khi chuyển đổi thuộc tính số lượng sang thuộc tính nhị phân

5

Trang 6

 A.v1, A.v2 ,…, A.vk : k đủ bé

 A.vi bằng true nếu giá trị bản ghi tại thuộc tính A ban đầu

bằng vi

 Ví dụ 1

Trang 7

 <A:start1 end 1>, <A:startp end p>: p lớn

 <A:starti end i> bằng true nếu bản ghi tại thuộc tính A ban

đầu nằm trong khoảng <A:starti end i>

 Ví dụ 2

7

Trang 8

 Khi rời rạc hóa theo khoảng đưa đến các vấn đề

Trang 10

Biến ngôn ngữ:

Khái niệm về ĐSGT: Miền giá trị của biến ngôn ngữ có thể

được biểu thị như một đại số gia tử (ĐSGT) X = (X, G, H, ),

G là tập các từ nguyên thủy được xem là các phần tử sinh

H là tập các từ nhấn gọi là các gia tử

H được chia làm hai phần rời rạc H + , H - lần lượt là tập các gia

tử dương và các gia tử âm

≤: là một quan hệ thứ tự có ngữ nghĩa trên X

Trong ĐSGT, mỗi phần tử x X đều mang dấu âm hay dương

(Sử dụng hàm Sign)

Trang 11

 Với biến ngôn ngữ X chứa các giá trị ngôn ngữ mang một thông tin mờ nhất định gọi độ mờ của giá trị ngôn ngữ được

Omin,k(x) = Ik+1(h-1x)  Ik+1(h1x) nếu k = j (1)

Omin,k(x) = Ij(x) nếu 1 k < j (2)

Omin,k(x) Ik+1(hmy)  Ik+1(hny) nếu j+ 1 k k* (3)

Trang 12

 Suy ra, một biểu diễn khoảng cho x là:

Từ giả thiết trên ta có  = 0.52,  = 0.48

Xây dựng một biểu diễn khoảng cho giá trị ngôn ngữ x = rất

cao

Trang 13

Giả sử ta phân mức với k = 2

Xét với k =1: Ta có fm(rất cao) = (rất)*fm(cao) = 0.2*.0.58

= 0.116 nên I(rất cao) = (0.884, 1] Suy ra Omin,1 (rất cao) = I(rất cao) = (0.884, 1].

Xét với k =2: Ta có fm(khá rất cao) = 0.032, fm(rất rất cao)= 0.023, fm(gần rất cao) = 0.031 nên I(khá rất cao) = (0.945, 0.977], I(rất rất cao) = ( 0.977, 1], I(gần rất cao) = (0.914,

0.945] Suy ra Omin,2 (rất cao) = I(gần rất cao)  I(khá rất cao)

= (0.914, 0.977]

Trang 14

Đầu vào: CSDL n giao tác số

Bước 1: Thêm các ance

Bước 2: Chuyển các giá trị số v ij về dạng

 fij1/Rj1 + fij2/Rj2 +…+ fijh/Rjh

Trang 15

Bước 3: Tính bản số vô hướng của mỗi vùng mờ R jl

Bước 7: Đối với mỗi 2-itemset s với mục (s1, s2)

Tính toán lấy giá trị vùng mờ f is = min(f is1 , f is2 ).

 Tính toán bản số vô hướng s trong CSDL giao tác

Trang 16

Bước 8: Nếu L2 ϴ thực hiện bước tiếp theo

Bước 9: Đặt r = 2

Bước 10: Tạo ra tập ứng viên Cr+1 từ L r

Bước 11: Đối với mỗi (r+1)-itemset s, thì các bước tính toán cũng

được thực hiện như bước 7

Bước 12: Nếu Lr+1 ϴ thì đặt r = r+1 và lặp lại các bước 10 đến

,

(

1 1

2 1

1

1

q k

is n

i

is is

n i

is

f f

f f

Trang 17

Đặt vấn đề:

◦ Việc xây dựng hàm thuộc cho các tập mờ

◦ Hướng tiếp cận theo ĐSGT

Đầu vào: CSDL n giao tác số

Phân cấp được định nghĩa trước,

minsup và minconf

Đầu ra: Tập các luật kết hợp tổng quát mờ

17

Trang 18

Dựa vào tính chất về quan hệ thứ tự của gia tử h-q < h-q+1

<…<h -1 <h1<…<hp nên ta có I(hpc-) = [0, pw), I(hp-1c-) = [pw,

pw+p-1w),…., I(h-qc-) = [-q+1w, -q+1w+-qw)

Đặt  = -q+1w+-qw

aj =

min max

min )

Trang 19

Tương tự ta tính I(h-qc+) = [, +-q(1-w)), I(h-q+1c+) = [ + 

-q(1-w),  +-q(1-w)+-q+1(1-w)), …, I(hpc+) = ( + -q(1-w)+-q+1(1-w)+ +p, 1];

k=1, xác định các H(hx) để tính các lân cận tối thiểu

H(hx) là tập các giá trị ngôn ngữ có kích thước khác nhau

chứa x

19

Trang 20

 Các bước thực hiện như đối với thuật toán tương tự như đối với thuật toán đã trình bày ở trên

Khác biệt:

Bước 14 có 2 trường hợp xảy ra như sau:

Trường hợp thứ 1:Tìm ra được luật

Xét xem các giá trị độ tin cậy tìm ra được của luật tương ứng với giá trị ngôn ngữ thuộc vùng mờ nào.Sau đó gán k=k+1, quay lại bước 2

Trường hợp 2: Ngược lại thì thoát khỏi thuật toán

Trang 21

 Ví dụ 4: Với bảng các giao tác sau:

21

Trang 22

 Xsố lượng = (Xsố lượng, Gsố lượng, Hsố lượng,  )

Trang 23

vì rất thấp < hơn thấp < thấp < khả năng thấp < ít thấp nên

I(rất thấp) = [0, 0.07), I(hơn thấp) = [0.07, 0.21), I(khả năng thấp) =

[0.21, 0.455), I(ít thấp) = [0.455, 0.7).

I(ít cao) = [0.7, 0.805), I(khả năng cao) = [0.805, 0.91), I(hơn cao) =

[0.91, 0.97), I(rất cao) = [0.97, 1].

Xét k = 1

 Omin, 1(thấp) = I (khả năng thấp)  I (hơn thấp)=[0.07, 0.455)

 O min, 1(cao) = I (khả năng cao)  I (hơn cao) = [0.805, 0.97)

 O min, 1(khả năng thấp) = I (khả năng thấp)

Trang 24

 Omin, 1(ít cao) = I (ít cao) = [0.7, 0.805)

 Omin, 1(khả năng cao) = I (khả năng cao)=[0.805, 0.91)

 Omin, 1(hơn cao) = I (hơn cao) = [0.91, 0.97)

 Omin, 1(rất cao) = I (rất cao) = [0.97, 1]

Với k = 2 ta lần lượt tính các Omin,2 (x) với k = j = 2

Omin, 2(rất cao), Omin,2 (hơn cao), Omin, 2(khả năng cao), Omin,2 (ít

cao)…

Omin, 2(rất cao) = [0,982, 0.987)

tính các Omin,2 (x) với k < j = 3

Omin, 3(rất rất cao), Omin, 3(hơn rất cao), Omin, 3(khả năng rất

cao), Omin, 3(ít rất cao)

Omin, 3(rất rất cao) = [0.997, 1]

Trang 26

 Kết quả thu được

 Tính toán với mức k =1 ta thu được luật

If (T3 = ít cao) then (T2= ít cao) với độ tin cậy là cao

 Tính toán với mức k =2 ta thu được luật

If (T3 = ít ít cao) then (T2= ít ít cao) với độ tin cậy là rất hơn

cao

 Tính toán với mức k =3 ta thu được luật

If (T3 = ít ít ít cao) then (T2= ít ít ít cao) với độ tin cậy là rất

hơn cao

Trang 27

 Kết quả thu được khi thực hiện với thuật toán áp dụng lý thuyết tập mờ với ví dụ trên ta thu được luật sau:

if (B = thấp) then (C = trung bình) với độ tin cậy 0.63

if (C = trung bình) then (T1 = thấp) với độ tin cậy 0.76

if (T1 = thấp) then (C = trung bình) với độ tin cậy 0.76

if (D = trung bình) then (T2 = cao) với độ tin cậy 0.857

if (E = trung bình) then (T1 = thấp) với độ tin cậy 0.66

if (E = trung bình) then (T2 = cao) với độ tin cậy 1

if (T2 = cao then T3 = cao) với độ tin cậy 0.65

if (T3 = cao then T2 = cao) với độ tin cậy 0.85

Trang 28

 Thực hiện mô phỏng các thuật toán trên theo 3 cách đưa ra các tập mờ theo

Trang 29

 Cho một ý tưởng về cách tính toán trực quan, rõ ràng.

 Tập trung lựa chọn độ đo tính mờ của các gia tử, W, và chúng

sẽ trở thành tham số của phương pháp

 Không cần phương pháp khử mờ

 Qua thực nghiệm phương pháp này cho ra sai số nhỏ

29

Trang 30

 Tìm hiểu và hệ thống về lý thuyết tập mờ, ĐSGT và khai phá dữ liệu.

 Tìm hiểu về khai phá luật kết hợp mờ.

 Nghiên cứu cách tiếp cận khai phá luật kết hợp mờ sử dụng ĐSGT.

 Mô phỏng 2 thuật toán khai phá luật kết hợp mờ theo cách tiếp cận lý thuyết tập mờ và ĐSGT

 Tìm một phương pháp tối ưu các tham số cho hàm định lượng ngữ nghĩa của ĐSGT

 Xây dựng một ứng dụng thực tế để thực nghiệm thuật toán vừa đề xuất.

KẾT QUẢ ĐẠT ĐƯỢC

HƯỚNG PHÁT TRIỂN

Trang 31

Tiếng Việt

1 Bùi Công Cường, Nguyễn Doãn Phước (2001) Hệ mờ, mạng nơron và

ứng dụng, Nhà xuất bản khoa học và kỹ thuật.

2 Nguyễn Cát Hồ, Lê Xuân Vinh, Nguyễn Công Hào (2009), “Thống nhất

dữ liệu và xây dựng quan hệ tương tự trong cơ sở dữ liệu ngôn ngữ bằng

đại số gia tử”, Tạp chí Tin học và Điều khiển, trang 314-332.

Tiếng Anh

3 A.W C Fu, M.H Wong, S.C e al (1998) “Finding fuzzy sets for the

mining of fuzzy association rules for numerical attributes”, in Proc Int

Symp on Intelligent Data Engineering And Learning, pp 263-268

4 C M Kuok, A Fu, M H W (1998), “Mining Fuzzy Association Rules

in Databases”, in ACM SIGMOD Record, pp 41-46

5 C M Kuok, A Fu and M H Wong (1998) “Fuzzy association rules in

large databases with quantitative attributes”, in ACM SIGMOD Records

31

Trang 32

6 K C C Chan and W H Au (2001) “Mining fuzzy association

rules in database containing relational and transactional data”, in Data Mining and Computational Intelligence, pp 85-114

7 K C C Chan and W.-H Au (1997) “Mining fuzzy association

rules”, in Proc of 6 th Int Conf Information Knowledge Management, Las Vegas , pp 209-215

8 J H Lee and H L Kwang (1997), “An extension of association

rules using fuzzy sets”, in Proc of IFSA’97.

9 Piatetsky Shapiro, G Frawley, W.J (1991) “Knowledge discovery

in Database”, AAAI Press MIT Press, Menlo Park, Carliforna, USA

10 S F Lu, H Hu and F Li (2001) “Mining weighted association

rules”, Intelligent Data Analysis, pp 211-225

11 S.L Wang, C.Y Kuo, T.P Hong (2001) “Mining Similar

Association Rules from Transaction Databases”, in Proceeding of

Information Engineering System, pp 486-489.

12 R Srikant and R Agrawal (1995) “Mining Generalized Association Rules”, in Proceeding of the 21 th VLDB Conference Zurich

Trang 33

CẢM ƠN QUÝ THẦY CÔ VÀ CÁC BẠN

ĐÃ LẮNG NGHE

33

Ngày đăng: 07/08/2014, 22:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w