Tìm hiểu một số thuật toán khai phá luật kết hợp mờ

Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ th

Trang 1

-

LUẬN VĂN THẠC SĨ KHOA HỌC

TÌM HIỂU MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT

KẾT HỢP MỜ

NGÀNH: TOÁN TIN ỨNG DỤNG

MÃ SỐ:

ĐÀO XUÂN VIỆT

Người hướng dẫn khoa học: PGS.TSKH BÙI CÔNG CƯỜNG

HÀ NỘI 2008

Trang 2

LỜI CẢM ƠN

Trong quá trình tìm hiểu, nghiên cứu đề tài khoa học này, bản thân tôi gặp không ít những khó khăn cả về mặt kiến thức cũng như thời gian nghiên cứu, những lúc như vậy, tôi luôn nhận được sự động viên, khích lệ của thầy giáo, PGS-TSKH Bùi Công Cường Thầy đã giúp đỡ tôi rất nhiều trong quá trình nghiên cứu, hướng dẫn tận tình trong cách thức và phương pháp nghiên cứu khoa học cũng như đã hỗ trợ tôi trong quá trình tìm kiếm tài liệu

Để có những kết quả trong luận văn này, tôi xin được gửi lời cảm ơn sâu sắc đến thầy giáo, PGS-TSKH Bùi Công Cường, đồng thời cho tôi gửi lời cảm ơn đến các thầy cô giáo trong khoa Toán ứng dụng, trường Đại học Bách Khoa Hà Nội, gia đình và các bạn của tôi, những người đã động viên để tôi có được những kết quả này

Hà nội, ngày 26 tháng 11 năm 2008

Tác giả

Đào Xuân Việt

Trang 3

M ỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT 4

DANH MỤC CÁC HÌNH VẼ 5

DANH MỤC CÁC BẢNG 6

CHƯƠNG I 9

TỔNG QUAN VỀ LOGIC MỜ - HỆ MỜ 9

I LÝ THUYẾT TẬP MỜ 9

1.1 Tập mờ 9

1.2 Số mờ 10

1.3 Nguyên lý suy rộng của Zadeh 11

II QUAN HỆ MỜ VÀ SUY LUẬN XẤP XỈ, SUY DIỄN MỜ 18

2.1 Quan hệ mờ 18

2.2 Suy luận xấp xỉ và suy diễn mờ 20

III HỆ MỜ 24

3.1 Bộ mờ hóa 24

3.2 Hệ luật mờ 25

3.3 Động cơ suy diễn 25

3.4 Bộ giải mờ 26

CHƯƠNG II 28

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG KHAI THÁC LUẬT KẾT HỢP TRONG CSDL GIAO DỊCH 28

I KHAI PHÁ DỮ LIỆU 29

1.1 Gom dữ liệu (Gathering) 31

1.2 Trích lọc dữ liệu (Selection) 31

Trang 4

1.3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing,

Pre-processing and Preparation) 31

1.4 Chuyển đổi dữ liệu (Transformation) 31

1.5 Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery) 32 1.6 Đánh giá kết quả mẫu (Evaluation of Result) 32

II LUẬT KẾT HỢP-VẤN ĐỀ PHÁT HIỆN LUẬT KẾT HỢP 33

2.1 Mô hình hình thức của vấn đề phát hiện luật kết hợp 34

2.2 Một số tính chất liên quan đến các hạng mục phổ biến 39

2.3 Duyệt không gian tìm kiếm 41

2.4 Các giải thuật thông dụng 45

2.5 Thuật toán APRIORI 46

2.6 Thuật toán Eclat 53

III Khai phá luật kết hợp mờ 56

3.1 Luật kết hợp có thuộc tính số 56

3.2 Luật kết hợp mờ 61

CHƯƠNG III 66

CÀI ĐẶT PHẦN MỀM KHAI PHÁ LUẬT KẾT HỢP 66

I Mô tả bài toán và thiết kế phần mềm 66

Chương IV 73

KẾT LUẬN & HƯỚNG PHÁT TRIỂN 73

TÀI LIỆU THAM KHẢO 76

PHỤ LỤC 78

Trang 5

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Trang 6

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Hệ thống nhiều đầu vào, một đầu ra 11

Hình 1.2 Phép giao của hai tập mờ theo t-chuẩn T(x, y) = min(x, y) và T(x, y) = x.y 14

Hình 1.3 Phép hợp của hai tập mờ theo t-chuẩn S = max(x, y) và S = min(1, x + y), S = x + y – x.y 16

Hình 1.4 Cấu hình cơ bản của hệ mờ 24

Hình 2.1 Quy trình phát hiện tri thức 29

Hình 2.2 Quá trình khai phá dữ liệu 30

Hình 2.3 Dàn cho tập I = {1,2,3,4} 42

Hình 2.4 Cây cho tập I = {1,2,3,4} 43

Hình 2.5 Hệ thống hóa các giải thuật 46

Trang 7

DANH MỤC CÁC BẢNG

Bảng 1.1 Các cặp t-chuẩn và t-đối chuẩn 15

Bảng 1.2 Một số phép kéo theo mờ thông dụng 18

Bảng 2.1 Cơ sở dữ liệu tác vụ và được biểu diễn dưới dạng bảng 37

Bảng 2.2 Bảng tính độ tin cậy và độ hỗ trợ giao dịch 37

Bảng 2.3 Một số ký hiệu dùng trong thuật toán 46

Bảng 2.4 CSDL sử dụng minh hoạ thuật toán APRIORI 49

Bảng 2.5 Kết quả thực hiện thuật toán APRORI cho CSDL D 51

Bảng 2.6 Bảng cơ sở dữ liệu của ví dụ thuật toán Eclat 54

Bảng 2.7 CSDL khám và chuẩn đoán bệnh tim cho 18 bệnh nhân 57

Bảng 2.8 Rời rạc hoá thuộc tính Dạng đau ngực 59

Bảng 2.9 Rời rạc hoá thuộc tính Lưọng Cholesterol trong máu 59

Bảng 2.10 Rời rạc hoá thuộc tính Tuổi 60

Trang 8

MỞ ĐẦU

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế, xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày càng tích lũy nhiều lên Họ lưu trữ các dữ liệu này vì cho rằng trong

nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này là luôn được phân tích Mặt khác, trong môi trường cạnh tranh, người ta càng cần có nhiều thông tin với tốc độ nhanh

để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối dữ liệu khổng lồ đã có Với những

lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD – Knowledge Discovery and Data Mining)

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng Đặc biệt, trong những năm gần đây, cùng với sự phát triển của lý thuyết mờ, hai lĩnh vực này đã có sự kết hợp thông minh và hoàn hảo với nhau để giải quyết các bài toán thực tế Trong đó

phát hiện luật kết hợp từ những CSDL lần đầu tiên được giới thiệu vào năm 1993; được đặc biệt quan tâm và phát triển mạnh trong một vài năm gần đây

và hiện đã trở thành một trong những hướng nghiên cứu quan trọng của lĩnh vực phát hiện dữ liệu

Trang 9

Trong luận văn này, tác giả đề cập đến một số thuật toán khai phá luật kết hợp cũng như ứng dụng trong luật kết hợp mờ

Cấu trúc của luận văn bao gồm:

• Chương I: Tổng quan về Logic mờ-Hệ mờ Nghiên cứu các cơ sở của lý thuyết tập mờ và suy luận xấp xỉ, suy diễn mờ, cấu hình cơ bản và các thành phần của hệ mờ

• Chương II: Khai phá dữ liệu và ứng dụng khai thác luật kết hợp trong cơ sở dữ liệu giao dịch Nghiên cứu một số kiến thức cơ bản

về khai phá dữ liệu, luật kết hợp trong khai phá dữ liệu, một số thuật toán phát hiện luật kết hợp và ứng dụng luật kết hợp trong khai phá

dữ liệu giao dịch Cuối chương tập trung nghiên cứu thuật toán Apriori và Eclat

• Chương III: Cài đặt phần mềm khai phá luật kết hợp Cài đặt thử nghiệm thuật toán Apriori

• Chương IV: Kết luận Đưa ra kết luận và từ đó nhìn nhận lại các kết

quả đã đạt được

Trang 10

CHƯƠNG I

TỔNG QUAN VỀ LOGIC MỜ - HỆ MỜ

Trong những năm cuối thập kỷ XX, một ngành khoa học mới đã được hình thành và phát triển mạnh mẽ, đó là hệ mờ - Fuzzy System Đây là hệ thống làm việc với môi trường không hoàn toàn xác định, với các tham số, các chỉ tiêu kinh tế - kỹ thuật, các dự báo về môi trường sản xuất kinh doanh chưa hoặc khó có thể xác định một cách thật rõ ràng, chặt chẽ Năm 1965, giáo sư Lofti A.Zadeh - Đại học California, Mỹ là người đầu tiên tấn cống vào lĩnh vực khoa học rất mới mẻ này, và thực sự là người khai sinh một ngành khoa học mới là “lý thuyết tập mờ” và là tiền đề vững chắc để phát triển Logic mờ và hệ thống mờ sau này

1.1 Tập mờ

Cho U là không gian nền chẳng hạn:

U = tập các công ty niêm yết trên thị trường chứng khoán Việt nam

A1 = tập các công ty niêm yết trên sở giao dịch chứng khoán TP Hồ chí minh (HoSE)

Khi đó, A1 là một con rõ của U

A2 = tập các công ty kinh doanh tốt, niêm yết trên sàn HoSE

Khi đó, A2 là tập mờ trên U

Định nghĩa 1.1:

F là một tập mờ trên không gian nền U nếu F được xác định bởi hàm

Trang 11

) (

] 1 , 0 [ :

x x

Ví dụ 1.1: Hàm thuộc của tập mờ F “tập các số thực gần 1” được định

nghĩa như sau: ( 1 ) 2

x c a b

a x

x d a b

a x

) , ,

c x

e c x

Từ định nghĩa trên, ta có thể suy ra:

- tập mờ F là rỗng nếu và chỉ nếu hàm thuộc µF(x) = , 0 ∀x∈U

- tập mờ F là toàn phần nếu và chỉ nếu µF(x) = , 1 ∀x∈U

- hai tập mờ F và E bằng nhau nếu µF(x) = µE(x), ∀x∈U

1.2 Số mờ

Định nghĩa 1.2: Tập mờ F trên đường thẳng thực R1là một số mờ nếu:

a F chuẩn hóa, tức là có điểm x’ sao cho µF(x' ) = 1 ;

Trang 12

b Ứng với mỗi α 1

R

∈ , tập mức {x: µF(x) ≥ α } là đoạn đóng trên R1 ngưòi ta thường dùng số mờ dạng tam giác, dạng hinhg thang, và dạng hàm Gauss

1.3 Nguyên lý suy rộng của Zadeh

Định nghĩa 1.3: cho Ai là tập mờ với hàm thuộc µA i trên không gian nền

) ,

µ

µA x =Trong đó: x= (x1,x2, ,x n)

Để tìm hiểu về Nguyên lý suy rộng, ta xét hệ thống sau:

Hình 1.1 Hệ thống nhiều đầu vào, một đầu ra

• Nguyên lý suy rộng:

Giả sử mỗi biến vào xilấy giá trị là A1(i = 1, 2,…, n) với Ailà một tập mờ trên nền Xi với hàm thuộc A (x i)

i

µ Cho Y (Y ≠ φ) là không gian các biến đầu

ra Hàm f :X →Ychuyển các giá trị đầu vào Ai thành giá trị đầu ra B khi đó,

B sẽ là tập mờ trên Y với hàm thuộc µB (x) được tính theo công thức sau:

) (y) (f (y)}

f x : )) (x , ), (x ), (x {min(

max )

-1 -1

n A 2

A 1

φ

φ µ

µ µ

Trang 13

Áp dụng nguyên lý suy rộng ta có định nghĩa suy rộng phép cộng cho 2 số mờ bằng cách sử dụng hàm 2 biến:

z = f(x, y) = x + y

Định nghĩa1.4: cho M, N là hai số mờ có hàm thuộc µM(x), µN(x) Khi đó, cộng suy rộng M ⊕ N là tập mờ trên R1 có hàm thuộc xác định với mỗi số thực z cho bởi:

z}

y x : (y)) (x),

Để có thể tiến hành mô hình hóa các hệ thống và biểu diễn các quy luật vận hành trong các hệ thống này, trước tiên chúng ta cần tới suy rộng các phép toán logic cơ bản (logic connectives) các mệnh đề có giá trị chân lý v(P) trong đoạn [0, 1], (thay cho quy định v(P) chỉ nhận giá trị 0 hoặc 1 như trước đây)

Dưới đây là một số phép toán cơ bản của logic mờ

1.4.1 Phép phủ định

Phủ định là một trong những phép toán cơ bản để suy rộng chúng ta cần toán tử v(NOT P) xác định giá trị chân lý của NOT P đối với mỗi mệnh

đề P

Định nghĩa 1.5: Hàm n:[0, 1] → [0, 1] không tăng thỏa mãn các điều kiện

n(0) = 1, n(1) = 0 gọi là hàm phủ định (negation – hay là phép phủ định)

- hàm n là phủ định chặt (strict) nếu nó là hàm liên tục và giảm chặt

- hàm n là phép phủ định mạnh, nếu n giảm chặt và n(n(x)) = x với mỗi

x

Trang 14

Định nghĩa 1.6:

Hàm ϕ :[ ] [ ]a,b → a,b gọi là một tự đồng cấu (automorphism) của đoạn [a, b] nếu nó là hàm liên tục, tăng chặt và ϕ( )a =a, ϕ( )b =b

Định lý 1.2: Hàm n:[ ] [ ]0 , 1 → 0 , 1 là hàm phủ định mạnh khi và chỉ khi có một

tự đồng cấu ϕ của đoạn [0, 1] sao cho N( )x =Nϕ( )x = ϕ −1(1 − ϕ (x))

Định lý 1.3: Hàm n:[ ] [ ]0 , 1 → 0 , 1 là hàm phủ định chặt khi và chỉ khi có hai tự đồng cấu ψ,ϕ sao cho n( )x = ψ − ( 1 ϕ (x))

1.4.2 Phép hội

Phép hội (vẫn quen gọi là phép AND -conjunction) là một trong những phép toán logic đơn giản nhất Nó cũng là cơ sở để định nghĩa phép giao của hai tập hợp mờ

Định nghĩa 1.7: hàm T:[ ]0 , 12 →[ ]0 , 1 là một phép hội hay t-chuẩn (chuẩn tam giác hay t-norm) nếu thỏa mãn các điều kiện sau:

a T( )1 ,x =x với mọi 0≤ x≤ 1 ;

b T có tính chất giao hoán, tức là T( )x,y =T( )y,x

c T có tính không giảm theo nghĩa T( ) ( )x,y ≤T u,v với mọi

1 0

,

1

0 ≤x≤u≤ ≤ y≤v≤

d T có tính kết hợp T(x,T( )y,z )=T(T( )x,y ,z) với mọi 0 ≤x, y,z≤ 1

Từ những tính chất trên, chúng ta suy ra T( )0 ,x = 0 Hơn nữa, theo tiên đề d (T

có tính kết hợp) đảm bảo tính thác triển duy nhất cho hàm nhiều biến

Ví dụ 1.3: một vài ví dụ về t-chuẩn:

• Min (Zadeh 1965): T( )x, y = min(x,y)

• Dạng tích: T(x, y) = x.y

• T-chuẩn Lukasiewicz: T(x, y) = max{x + y - 1, 0}

• Min nilpotent (Fodor 1993): ( )

=

) 1 (

) , min(

) 1 (

0 ,

y x y x

y x y

x T

Trang 15

• t-chuẩn yếu nhất (drastic product):

) , min(

) 1 ) , (max(

0 ,

y x y

x

y x y

b S có tính chất giao hoán: S(x,y) =S(y,x) với mọi 0 ≤x, y≤ 1

c S không giảm: S(x,y) ≤S(u,v) với mọi 0 ≤ x≤u ≤ 1 , 0 ≤ y≤v≤ 1;

Trang 16

d S có tính kết hợp S(x,S( )y,z )=S(S( )x,y ,z) với mọi 0 ≤x, y,z≤ 1

Định lý 1.4: Cho n là phép phủ định mạnh, T là một t-chuẩn, khi đó hàm S

được xác định trên [0, 1]2 bằng biểu thức

S , = , với mọi 0 ≤ x, y≤ 1 là một t-đối chuẩn

chọn phép phủ định n(x) =1 - x ta có quan hệ giữa T và S như trong bảng dưới đây:

=

) 1 (

, min

) 1 (

0 ,

min0

y x y x

y x y

=

) 1 (

) , max(

) 1 (

1 ,

max1

y x y x

y x y

) , min(

) 1 ) , (max(

0 )

,

(

y x y

x

y x y

) , max(

) 0 ) , (min(

1 )

, ( '

y x y

x

y x y

x Z

Bảng 1.1 Các cặp t-chuẩn và t-đối chuẩn

Định nghĩa 1.10: Cho hai tập mờ A, B trên cùng không gian nền U với hàm

thuộc µA(x), µB(x) Cho S là phép tuyển, phép hợp của 2 tập mờ A, B là một tập mờ trên U với hàm thuộc cho bởi:

Trang 17

Hình 1.3 Phép hợp của hai tập mờ theo t-chuẩn S = max(x, y) và S = min(1, x + y), S = x + y – x.y

1.4.4 Luật DeMorgan

Trong lý thuyết tập hợp, luật DeMorgan được sử dụng phổ biến như sau:

Cho A, B là hai tập con của X, khi đó:

B A B

và ( )C C C

B A B

Có nhiều dạng suy rộng của hai đẳng thức này Dưới đây là một dạng suy rộng cho logic mờ:

Định nghĩa 1.11: cho T là t-chuẩn, S là t-đối chuẩn, n là phép phủ định chặt

ta nói bộ ba (T, S, n) là bộ ba DeMorgan nếu:

sẽ xét phép kéo theo như một mối quan hệ, một toán tử logic

Định nghĩa 1.12: phép kéo theo (implication) là một hàm số:

[ ]0 , 1 [ ]0 , 1

T thỏa mãn các điều kiện sau:

a nếu x≤ z thì I(x,y) ≥I(z,y) với mọi y ∈ [0, 1];

Trang 18

b nếu y≤u thì I(x,y) ≤I(x,u)với mọi x ∈ [0, 1];

Cho T là t-chuẩn, S là t-đối chuẩn, n là phép phủ định mạnh

Định nghĩa 1.13: dạng kéo theo thứ nhất Hàm IS( )x,y xác định trên [0, 1]2

bằng biểu thức IS( )x,y =S(n(x),y)

Định nghĩa 1.14: cho (T, S, n) là bộ ba DeMorgan với n là phép phủ định

mạnh, phép kéo theo thứ ba IS( )x,y xác định trên [0, 1]2 bằng biểu thức

Trang 19

y x if y

x I

0

1 ,

y x if y

x I

1 ,

Bảng 1.2 Một số phép kéo theo mờ thông dụng

2.1 Quan hệ mờ

Quan hệ mờ là cơ sở dùng để tính toán và suy diễn (suy luận xấp xỉ)

mờ Đây là một trong những vấn đề quan trọng trong các ứng dụng mờ đem lại hiệu quả lớn trong thực tế, mô phỏng được một phần ý nghĩ của con người Chính vì vậy mà các phương pháp được nghiên cứu và phát triển mạnh mẽ

Tuy nhiên, chính do logic mờ mở rộng từ logic đa trị nên đã nẩy sinh rất nhiều quan hệ mờ từ các toán tử kéo theo, nhiều cách hợp thành của các quan

hệ mờ, nhiều cách định nghĩa các toán tử t-chuẩn, t-đối chuẩn cũng như các phương pháp mờ hóa, khử mờ khác nhau…Sự đa dạng này đòi hỏi người ứng dụng phải tìm hiểu kỹ để chọn phương pháp thích hợp nhất cho ứng dụng của mình

2.1.1 Khái niệm quan hệ mờ

Trang 20

Định nghĩa 1.15: cho X, Y là hai không gian nền, R gọi là một quan hệ mờ

trên X x Y nếu R là một tập mờ trên X x Y , tức là có một hàm thuộc

[ ]

1 , 0 :

y x R y x y

Y× hợp thành R 1 R2 của quan hệ mờ R1, R2 là quan hệ mờ trên X×Z

a Hợp thành max-min (max-min composition) được xác định bởi

Định nghĩa 1.18: Cho R1, R2 là quan hệ mờ trên X x X, phép T - tích hợp

thành cho một quan hệ R1 R2 trên X x X xác định bởi

1 T 2 ( , ) supy X ( 1 ( , ), 2 ( , ))

Định lý 1.5: Cho R1, R2, R3là những quan hệ mờ trên X x X, khi đó:

Trang 21

a.R1T(R2 T R3) =R1T R2 T R3

b Nếu R1 ⊆ R2 thì R1 TR3 ⊆ R2 TR3 và R3 TR1⊆R3 TR2

2.1.3 Tính chuyển tiếp (bắc cầu)

Định nghĩa 1.19: Quan hệ mờ R trên X x X gọi là:

a min - chuyển tiếp nếu min {R(x,y), R(y,z)}≤ R (x,z) ∀x,y,z∈X

b chuyển tiếp yếu nếu ∀x,y,z∈X có

R (x,y) > R (y,x) và R(y,z) > R (z,y) thì R (x,z)> R (z,x)

c chuyển tiếp tham số nếu có một số θ∈(0,1) sao cho:

Nếu R(x,y) > θ > R (y,x) và R(y,z) >θ > R (z,y)

2.2 Suy luận xấp xỉ và suy diễn mờ

Suy luận xấp xỉ - hay còn gọi là suy luận mờ - đó là quá trình suy ra những kết luận dưới dạng các mệnh đề mờ trong điều kiện các quy tắc, các luật, các

dữ liệu đầu vào cho trước cũng không hoàn toàn xác định

Trong giải tích toán học, chúng ta sử dụng mô hình sau để lập luận :

Định lý : "Nếu một hàm số là khả vi thì nó liên tục"

Trang 22

Sự kiện : Hàm f là khả vi

Kết luận : Hàm f là liên tục

Đây là dạng suy luận dựa vào luật Modus Ponens Căn cứ vào mô hình này ta

sẽ diễn đạt cách suy luận trên dưới dạng sao cho có thể suy rộng cho logic

Xét luật mờ dạng : "If P then Q" sẽ được biểu diễn thành một quan hệ

mờ R của phép kéo theo P⇒Q với hàm thuộc của R trên không gian nền UxV được cho bởi phép kéo theo mà ta định sử dụng :

R(A,B)(u,v) = RP⇒Q (u,v)= I (A(u), B(v)) với mọi (u,v)∈UxV

Bây giờ, quy trình suy diễn mờ đã có thể xác định:

Luật (tri thức): P =>Q với quan hệ mờ cho bởi I (A(u), B(v))

Sự kiện: P’={x=A’}, xác định bởi tập mờ A’ trên U

Trang 23

Kết luận: Q’ = {y=B’}

Sau khi đã chọn phép kéo theo I xác định quan hệ mờ R(A,B), B’ là một tập mờ trên V với hàm thuộc của B’ được tính bằng phép hợp thành B’=A’°R(A,B)’cho bởi công thức:

B’(v) = maxu∈U {min(A’(u), B(v)} với mỗi v ∈V

Xét luật mờ dạng “If P then Q else Q1” Có thể chọn những cách khác nhau để biểu diễn mệnh đề này, sau đó tìm hàm thuộc của biểu thức tương ứng

Chẳng hạn, ta chọn:

“If P then Q else Q1” = (P∧Q) ∨(P∧Q 1 )

Thông thường Q và Q1 là những mệnh đề trong cùng một không gian nền Giả thiết Q và Q1 được biểu diễn bằng các tập mờ B và B1 trên cùng

không gian nền V, với các hàm thuộc tương ứng B: V→ [0,1] và B 1 : V→ [0,1]

Nếu Q và Q1 không cùng không gian nền thì cũng sẽ xử lý tương tự nhưng với công thức phức tạp hơn

Kí hiệu R(P,Q,Q’) = R(A,B,B1) là quan hệ mờ trên UxV với hàm thuộc

cho bởi biểu thức:

(R(u,v) = max{min(A(u), B(v)), min (1-A(u)-B1(v))} với mọi (u,v)∈UxV

Tiếp tục quy trình này ta có thể xét những quy tắc lấy quyết định phức tạp hơn Chẳng hạn ta xét một quy tắc trong hệ thống mờ có hai biến đầu vào và một đầu ra dạng:

If A1 and B1 then C1

Trang 24

Else If A2 and B2 then C2

Else

Một dạng suy rộng khác trong cơ sở tri thức của nhiều hệ mờ thực tiễn

có thể phát biểu dưới dạng sau:

Cho x1, x2, , xm là các biến vào của hệ thống, y là biến ra Các tập Aij,

Bj với i = 1, , m; j = 1, , n là các tập mờ trong các không gian nền tương ứng của các biến vào và biến ra đang được sử dụng của hệ thống, các Rj là các suy diễn mờ (các luật mờ) dạng “Nếu thì ” (dạng If then )

ở đây e1*, , em* là các giá trị đầu vào hay sự kiện (có thể mờ hoặc giá trị rõ)

Để giải bài toán này ta sẽ phải thực hiện qua các bước sau:

1 Xác định các tập mờ của các biến đầu vào

2 Xác định độ liên thuộc các tập mờ tương ứng

3 Xác định các quan hệ mờ

4 Xác định phép hợp thành R (A,B) (u,v)

Trang 25

Tính B’ theo công thức B’ = A°R (A,B) (u,v)

III HỆ MỜ

Kiến trúc cơ bản của một hệ mờ gồm 04 thành phần chính: bộ mờ hóa,

hệ luật mờ, động cơ suy diễn mờ và bộ giải mờ như hình 1.4 dưới đây

Hình 1.4 Cấu hình cơ bản của hệ mờ Không làm mất tính tổng quát ở đây ta chỉ xét hệ mờ nhiều đầu vào, một đầu ra ánh xạ tập compac S ⊂ Rn vào R Các thành phần của hệ mờ được miêu tả như sau:

3.1 Bộ mờ hóa

Thực hiện việc ánh xạ từ không gian đầu vào S vào các tập mờ xác định trong S được cho bởi hàm thuộc µ: S→ [0,1] Bộ phận này có chức

Hệ luật mờ (Fuzzy Rule Base

B ộ mờ hóa (Fuzzifier)

B ộ giải mờ (Defuzifier)

Động cơ suy diễn mờ (Fuzzy Inference Engine) Các t ập mờ

Đầu vào rõ

Trang 26

năng chính dùng để chuyển 1 giá trị rõ x ∈ X thành 1 giá trị mờ trong S ∈ U

(U là không gian nền) Có hai phương pháp mờ hóa như

IF < tập các điều kiện được thỏa mãn > THEN < tập các hệ quả>

Giả sử hệ luật gồm M luật Rj (j = 1 M) dạng:

Trong đó: xi (i=1 n) là các biến đầu vào hệ mờ, y là biến đầu ra của hệ mờ các biến ngôn ngữ, 1

j

A và Bj là các tập mờ trong các tập đầu vào X và các tập đầu ra Y - các giá trị của biến ngôn ngữ (ví dụ : "nhỏ", "trung bình", "lớn",

"rất lớn") đặc trưng bởi các hàm thuộc µA j và µB j Khi đó R1là một quan hệ

mờ từ các tập mờ đầu vào X = X1 + X2 x x Xn tới các tập mờ đầu ra Y

3.3 Động cơ suy diễn

Đây là bộ phận logic đưa ra quyết định sử dụng hệ mờ để thực hiện ánh

xạ từ các tập mờ trong không gian đầu vào S thành tập mờ trong không gian đầu ra R

Trang 27

Khi Rj(j = 1,2, m) là một quan hệ mờ, thì Rj có thể là một tập con của tích Decart X x Y = {{( , ) :x y x∈X y, ∈Y} với x

=(x1,x2, ,xn)T

Vì vậy quan hệ

Rjlà một hàm ánh xạ từ tập mờ trong X tới tập mờ trong Y

Giả sử A là một tập mờ trong S, và là đầu vào của bộ suy diễn Khi đó, mỗi luật Rj tạo ra một tập mờ Bj trong Y như sau :

Bj = A°Rj = sup (A*Rj) (1.27)

với * là một toán tử t- chuẩn n biến được định nghĩa như sau :

Đây là một ánh xạ từ các tập mờ trong R thành các giá trị rõ trong R

Có nhiều phép giải mờ, với mỗi ứng dụng sẽ có một phương thức giải mờ

Trang 28

khác nhau tùy thuộc vào yêu cầu của ứng dụng Dưới đây sẽ liệt kê một số phương thức mờ thông dụng :

j B i

y x

y

µ µ

với j là chỉ số luật y-j là điểm có độ liên thuộc lớn nhất trong tập mờ đầu

ra B’jthứ j, và µB’j(y-j) được tính theo công thức (1.26) như sau :

1

( ) / ( )

j j B

( )

N

i B i i

B i i

y x

y

µ µ

- Phương pháp các tập của tâm (Center - of - Sets): trong phương pháp

này mỗi luật được thay thế bởi tập singleton tâm cj

1 1 os

1 1

( ) ( )

n

i A i i

µ µ

Trang 29

CHƯƠNG II

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG KHAI THÁC LUẬT KẾT HỢP TRONG CSDL GIAO DỊCH

Trong kỷ nguyên Internet, Warehouse, đã mở ra nhiều cơ hội cho

những nhà doanh nghiệp trong việc thu thập và xử lý thông tin Hơn nữa, các công nghệ lưu trữ và phục hồi dữ liệu phát triển nhanh chóng vì thế cơ sở dữ liệu ở các cơ quan, doanh nghiệp, đơn vị ngày càng phong phú và đa dạng

Cơ sở dữ liệu trong các doanh nghiệp thì dữ liệu giao dịch đóng một vai trò rất quan trọng cho việc hoạch định kế hoạch kinh doanh trên thương

trường vào những năm tiếp theo Hiện tại, việc sử dụng các dữ liệu này tuy đã đạt được một số kết quả nhất định song vẫn còn một số vấn đề tồn đọng như :

1 Dựa hoàn toàn vào dữ liệu, không sử dụng tri thức có sẵn trong lĩnh vực, kết quả phân tích khó có thể làm rõ được

2 Phải có sự hướng dẫn của người dùng có để xác định phân tích dữ liệu

như thế nào và ở đâu

Trong điều kiện và yêu cầu của thương trường, đòi hỏi phải có những phương pháp nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được những thông tin có giá trị Các tri thức chiết xuất được từ cơ sở dữ liệu trên sẽ

là một tài liệu hỗ trợ cho lãnh đạo trong việc lên kế hoạch hoạt động, hoặc trong việc ra quyết định sản xuất kinh doanh Vì vậy, tính ứng dụng của khai thác luật kết hợp từ cơ sở dữ liệu giao dịch là một vấn đề đang được quan tâm

Trang 30

I KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập

kỹ 1980 Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở

dữ liệu và có thể xem như là một bước trong quá trình khám phá tri thức Data Mining là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở

dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh

Hình 2.1 Quy trình phát hiện tri thức Data mining là quá trình tìm kiếm các mẫu mới, những thông tin tiềm

ẩn mang tính dự đoán trong các khối dữ liệu lớn Những công cụ data mining

có thể phát hiện những xu hướng trong tương lai, các tri thức mà data mining mang lại có thể ra quyết định kịp thời Với ưu điểm trên, Data mining đã chứng tỏ tính hữu dụng của nó trong môi trường kinh doanh và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, y học, giáo dục…

Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô Trong ví dụ này, cây kim là một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống

cỏ khô là một kho cơ sở dữ liệu rộng lớn Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ được chiết xuất ra và sử dụng một cách hữu

Trang 31

Pattern Discovery Transformed

Data

Cleansed Preprocessed Preparated

Data

Target Data

Envalution of

Internet,

ích nhờ khai phá dữ liệu Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và phân tích các liên kết Năm 1989 Fayyad, Smyth và Piatestsky-Shapiro đã dùng khái niệm Phát hiện tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD) Trong đó, khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm

ra các mẫu từ dữ liệu

Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 2.2:

Hình 2.2 Quá trình khai phá dữ liệu Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình,.v.v

Trang 32

1.1 Gom dữ liệu (Gathering)

Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây

là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web

1.2 Trích lọc dữ liệu (Selection)

Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người có tuổi đời từ 25 – 35 và có trình

độ đại học

1.3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing,

Pre-processing and Preparation)

Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẻ, logíc Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu Ví dụ: tuổi = 673 Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng

1.4 Chuyển đổi dữ liệu (Transformation)

Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng

và điều khiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác

Trang 33

1.5 Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)

Đây là bước mang tính tư duy trong khai phá dữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các

mô hình dữ liệu tuần tự, v.v

1.6 Đánh giá kết quả mẫu (Evaluation of Result)

Đây là giai đoạn cuối trong quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra

Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5

là giai đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining

Một số hướng tiếp cận chính của Khai phá dữ liệu là:

- Phân lớp và dự đoán (classification & prediction): xếp đối tượng vào một trong các lớp đã biết trước Hướng tiếp cận phân lớp có giám sát (supervised learning) thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng noron nhân tạo (neural network)…

- Luật kết hợp (association rules): là dạng biểu diễn tri thức ở dạng tương đối đơn giản

- Khai thác mẫu tuần tự (sequential/temporal patterns): tương tự như khai thác luật kết hợp nhung có thêm tính thứ tự và tính thời gian Hướng

tiếp cận này có tính dự báo cao

- Phân cụm (clustering/segmentation): sắp xếp các đối tượng theo từng

cụm (số lượng cụm chưa biết) Các đối tượng gom cụm sao cho mức độ tương tự là lớn nhất, và mứuc độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhở nhất

Trang 34

II LUẬT KẾT HỢP-VẤN ĐỀ PHÁT HIỆN LUẬT KẾT HỢP

Được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận được rất nhiều sự quan tâm của nhiều nhà khoa học Ngày nay việc khai thác các luật như thế vẫn là một trong những phương pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai thác dữ liệu

Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thường mua loại TV 21 inches” Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể

Đó chính là nhiệm vụ khai phá luật kết hợp

Luật kết hợp là những luật có dạng “80 % khách hàng mua máy điện thoại di động thì mua thêm simcard, 30 % có mua cả máy điện thoại di động lẫn simcard” hoặc “75 % khách hàng gọi điện liên tỉnh và sống ở các huyện thì gọi điện thoại IP 171 liên tỉnh, trong đó 25% số khách hàng vừa gọi liên tỉnh, sống ở các huyện vừa gọi điện thoại IP 171 liên tỉnh” “mua máy điện thoại di động” hay gọi liên tỉnh và sống ở các huyện” ở đây được xem là các

vế trái (tiền đề) của luật, còn “mua simcard” hay “gọi điện thoại IP 171 liên tỉnh” là vế phải (kết luận) của luật Các con số 30%, 25% là độ hỗ trợ của luật (support - số phần trăm các giao dịch chứa cả vế trái và vế phải), còn 80%, 75% là độ tin cậy của luật (confidence - số phần trăm các giao dịch thoả mãn

vế trái thì cũng thoả mãn vế phải)

Độ hỗ trợ (support) và độ tin cậy (confidence) là hai thước đo cho một luật kết hợp Độ hỗ trợ bằng 25% có nghĩa là “Trong các khách hàng có sử dụng điện thoại thì có 25% khách hàng sử dụng điện thoại ID liên tỉnh và điện

Trang 35

thoại IP 171” Độ tin cậy bằng 75% có nghĩa là “Trong các khách hàng có sử dụng điện thoại liên tỉnh thì có 75% khách hàng sử dụng điện thoại IP 171” Giả sử chúng ta có một CSDL D Luật kết hợp cho biết phạm vi mà trong đó

sự xuất hiện của tập các mục S nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những mục U cũng trong những bản ghi đó Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ Mỗi tỉ lệ hỗ trợ được biểu diễn bằng

tỉ lệ % những bản ghi trong D chứa cả S và U

Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợθ

và độ tin cậy β Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn θ và β tương ứng

Giả thiết D là CSDL giao dịch và với θ = 40%, β = 90% Vấn đề phát hiện luật kết hợp được thực hiện như sau:

Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và

độ tin cậy lớn hơn 90%

Hãy tưởng tượng, một công ty bán hàng qua mạng Internet Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách hàng Giả sử công ty quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp và sản phẩm" Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất, thoả mãn một ngưỡng nào đó ?

2.1 Mô hình hình thức của vấn đề phát hiện luật kết hợp

Ký hiệu I = {i1, i2,…,im} là tập các thuộc tính nhị phân (mỗi thuộc tính nhị phân biểu thị một mặt hàng được bán trong siêu thị và được gọi là một mục dữ liệu) X ⊆ I được gọi là tập mục dữ liệu(itemset); TID là tập định

Trang 36

danh của các tác vụ (mỗi vụ mua hàng được xem là một tác vụ ) Quan hệ nhị phân D ⊂ I x TID được gọi là cơ sở dữ liệu Mỗi tác vụ t có thể được biểu diễn như một vectơ nhị phân, với t[k] = 1 nếu t mua mặt hàng ik, ngược lại t[k]=0 Một t được gọi là chứa tập mục dữ liệu X nếu X ⊂ t Chẳng hạn ở CSDL D được minh họa ở dưói thì I = {A,C,D,T,W} và TID={1,2,3,4,5,6}, tác vụ chứa tập X = {A, C,T,W}

Định nghĩa 2.1: Độ hỗ trợ (support):

Cho một tập mục X ∈ I Ký hiệu s(X) là Độ hỗ trợ của một tập mục X trong

cơ sở dữ liệu D – là tỷ lệ phần trăm số giao dịch trong CSDL D chứa X trên tổng số các giao dịch trong CSDL D

s(X) = Card(X)/Card(D)(%)

Định nghĩa 2.2: Độ hỗ trợ cực tiểu (minsupp)

MinSupp là giá trị nào đó mà người sử dụng đưa vào và được gọi là độ hỗ trợ cực tiểu minsupp∈ (0, 1]

Định nghĩa 2.3: Tập phổ biến

Một tập mục X được gọi là một tập phổ biến theo ngưỡng minsupp nếu và chỉ nếu độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng minsup: s(X)≥minsupp

Định nghĩa 2.4: Luật kết hợp

Luật kết hợp biểu thị mối quan hệ giữa tập con của các tập mục dữ liệu Một luật kết hợp được biểu diễn ở dạng X → Y, (X được gọi tiền đề, Y được gọi là hệ quả) với X, Y là các tập mục dữ liệu và X ∩Y = Ø Luật kết hợp (X → Y) được nói có độ tin cậy c% trong D nếu có c% của các tác vụ chứa X cũng chứa Y Kí hiệu: conf(X → Y)

conf(X → Y) = s(X ∪Y)/s(X)

Về mặt xác suất, độ tin cậy c của một luật kết hợp là xác suất (có điểu kiện) xảy ra Y với điều kiện đã xảy ra X

Trang 37

Định nghĩa 2.5: Độ tin cậy cực tiểu (minConf )

MinConf là giá trị nào đó mà người sử dụng đưa vào và được gọi là độ tin cậy cực tiểu

Định nghĩa 2.6: Luật kết hợp tin cậy

Một luật được xem là tin cậy nếu độ tin cậy c của nó lớn hơn hoặc bằng một ngưỡng minconf ∈ (0, 1] nào đó do người dùng xác định Ngưỡng minconf phản ánh mức độ xuất hiện của Y khi cho trước X (( c ≥ minconf) (minimum Confidence))

Luật kết hợp tin cậy r = (X → Y) được gọi là luật chính xác nếu Conf(r) = 1

và được gọi là xấp xỉ nếu conf(r)<1

Ví dụ 2.1: Bảng 1 dưới đây mô tả CSDL tác vụ (hay nhị phân), trong đó

A,B,C,D là các mục ; Ti (Ti = 1,2,3,4,5,6) là các tác vụ mỗi giá trị của mục

dữ liệu (item) thể hiện thuộc tính xuất hiện, hay không xuất hiện (nhận giá trị 0) trong tác vụ

Trang 38

T4 1 1 1 0 1

Bảng 2.1 Cơ sở dữ liệu tác vụ và được biểu diễn dưới dạng bảng

Ví dụ 2.2: Trong cơ sỏ dữ liệu cho trong bảng 1 tất cả các tập phổ biến với độ

hỗ trợ cực tiểu là 0,5 (hay 50%) và tất cả các luật với độ tin cậy cực tiểu là 0,8(80%) được cho trong bảng 2 dưới đây

Độ hỗ trợ Tập mục Độ tin cậy Tập tất cả các luật

100%(6)

83%(5)

50%(3)

C W,CW A,D,T,AC,AW, CD,CT,ACW AT,DW,TW,ACT, ATW,CTW,CDW, ACTW

1,0 (100%)

0,8 (80%)

Các luật chính xác

A→C(4/4),A→CW(4/4), A→W(4/4),D→C(4/4), T→C(4/4),AC→W(4/4), W→C(5/5),AW→C(4/4) AT→C(3/3),AT→W(3/3), DW→C(3/3),TW→A(3/3), TW→C(3/3),AT→CW(3/3)TW→AC(3/3),ACT→W(3/3) ATW→C(3/3),CTW→A(3/3)

Các luật kết hợp xấp xỉ

W→A(4/5),C→W(5/6), W→AC(4/5)

Bảng 2.2 Bảng tính độ tin cậy và độ hỗ trợ giao dịch

Ngữ nghĩa của luật kết hợp: Luật kết hợp r=X→Y có độ hỗ trợ α và độ tin

cậy β, qui ước viết gọn dưới dạng X→Y (α;β) có nghĩa là đối với cơ sở dữ liệu đã cho có α% các tác vụ chứa cả 2 tập mục dữ liệu X,Y; trong đó có β % các tác vụ chứa tập mục dữ liệu X cũng sẽ chứa tập mục dữ liệu Y

theo ngữ nghĩa này : ký hiệu “→” không được hiểu là phép kéo theo logic

Trang 39

Ví dụ 2.3: Xét luật AW→C trong ví dụ 2 thì tập mục dữ liệu ACW có độ hỗ

trợ là 67% và luật này có độ tin cậy là 100% nên có thể viết luật này dưới dạng AW → C (0,67;1,0)

Trong lĩnh vực bán hàng có thể diễn giải như sau:

Có 67% những vụ mua sắm mua cả 3 mặt hàng A,C,W

100% những vụ mua sắm có mua A,W, cũng mua C

Việc tìm ra các luật kết hợp như vậy sẽ tăng cường các chức năng truy vấn cơ

sở dữ liệu và kết xuất thông tin, tri thức từ dữ liệu, chẳng hạn:

Nhận diện được tất cả các luật chứa mặt hàng C như là hệ quả Các luật này giúp cửa hàng xây dựng nội dung và thực hiện kế hoạch quảng cáo cho việc bán mặt hàng C

Nhận diện được tất cả các luật có các mặt hàng A<C<W ở trong tiền đề Các luật này giúp xác định được những mặt hàng nào sẽ bị ảnh hưởng và tồn đọng khi cửa hàng ngừng không bán các mặt hàng A, W

Nhận diện tất cả các luật có A<W trong phần tiền đề, C nằm trong phần hệ quả Các luật này giúp cửa hàng xác định được những mặt hàng cần bổ sung thêm để nó cùng được bán với các mặt hàng A<W trong khi vẫn tôn trọng mong muốn là mặt hàng loại C cũng sẽ được bán

Nhận diện được tất cả các luật liên quan đến các mặt hàng bố trí ở mỗi gian hàng trong cửa hàng Các luật này giúp bố trí sắp xếp cửa hàng sao cho việc bán các mặt hàng trong gian này cũng thúc đẩy việc bán các mặt hàng trong gian kia

Tìm k luật tốt nhất có một số mặt hàng xác định nào đó (chẳng hạn như A, C) nằm trong phần hệ quả Các luật này rất hữu ích giúp cửa hàng xác định các biện pháp cần thiết để có thể bán nhanh được các mặt hàng nào đó

Cơ sở lý thuyết

Trang 40

Tuy nhiên, không phải bất cứ luật kết hợp nào có mặt trong tập các luật có thể được sinh ra cũng đều có ý nghĩa trên thực tế Mà các luật đều phải thoả mãn một ngưỡng hỗ trợ và tin cậy cụ thể Thực vậy, cho một tập các giao dịch

D, bài toán phát hiện luật kết hợp là sinh ra tất cả các luật kết hợp mà có độ tin cậy conf lớn hơn độ tin cậy tối thiểu minconf và độ hỗ trợ sup lớn hơn độ

hỗ trợ tối thiểu minsup tương ứng do người dùng xác định Khai phá luật kết hợp được phân thành hai bài toán con:

Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến

Bài toán 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:

) sup(

AB

ABCD conf =

Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến)

2.2 Một số tính chất liên quan đến các hạng mục phổ biến

2.2.1 Với tập mục phổ biến, có 3 tính chất sau

Tính chất 1 (Độ hỗ trợ của tập con):

Với A và B là tập các mục, nếu A ⊆ B thì sup(A) ≥ sup(B)

Điều này là rõ ràng vì tất cả các giao tác của D hỗ trợ B thì cũng hỗ trợ A

Tính chất 2:

Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến Nếu một mục trong B không có độ hỗ trợ tối thiểu trên D nghĩa là sup(B)<

Định dạng
Số trang	84
Dung lượng	838 KB