BÀI BÁO CÁO-TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN

MỤC ĐÍCH CỦA GOM CỤM• Mục đích của gom cụm dữ liệu là nhằm khám phá ra cấu trúc dữ liệu thành lập các tập dữ liệu từ các nhóm dữ liệu lớn... YÊU CẦU CỦA GOM CỤM DỮ LIỆU• Khả năng gom cụm

Trang 1

TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN

Trang 2

GOM CỤM DỮ LIỆU

• Gom cụm dữ liệu là một tác vụ trong khai phá dữ liệu.

• Gom cụm dữ liệu giúp ta có thể hệ thống lại dữ liệu làm cho chúng không bị rời rạc

• Với một cơ sở dữ liệu lớn và rời rạc thì việc gom cụm rất cần thiết và hầu

như là không thể thiếu

Trang 3

MỤC ĐÍCH CỦA GOM CỤM

• Mục đích của gom cụm dữ liệu là nhằm khám phá ra cấu trúc dữ liệu thành lập các tập dữ liệu từ các nhóm dữ liệu lớn

Trang 4

YÊU CẦU CỦA GOM CỤM DỮ LIỆU

• Gom cụm dữ liệu là làm cho các dữ liệu trong cụm thì “tương tự” nhau Còn

các phần tử khác cụm thì “không tương tư” nhau

• Độ tương tự giữa các cụm dữ liệu do người dùng định nghĩa Được xác định dựa trên các đối tượng thuộc tính mô tả đối tượng Thường ta đo khoản cách giữa các đối tượng

Trang 5

• Khả năng co giãn về tập dữ liệu.

• Khả năng xử lý nhiều thuộc tính khác nhau

• Khả năng khám phá các cụm với hình dạng tùy ý

• Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định thông số nhập

• Khả năng xử lý dữ liệu có nhiễu

Trang 6

• Khả năng gom cụm tăng dần độc lập với dữ liệu nhập

• Khả năng xử lý dữ liệu đa chiều

• Khả năng gom cụm dựa trên ràng buộc

• Khả diển và khả dụng

Trang 7

PHÂN LOẠI CÁC PHƯƠNG PHÁP GOM CỤM

• Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí nào đó.

• Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó.

• Dựa trên mật độ (density-based): dựa trên connectivity and density functions.

• Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.

• Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm; sau

đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất.

Trang 8

PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU

• Đánh giá ngoại (external validation)

• Đánh giá kết quả gom cụm dựa vào cấu trúc được chỉ định trước cho tập dữ liệu

• Độ đo : Rand statistic, Jaccard coefficient, Folkes and Mallows index

• Đánh giá nội (internal validation)

• Đánh giá kết quả gom cụm theo số lượng các vector của chính tập dữ liệu (ma trận gần – proximity matrix)

• Độ đo : :Hubert’s statistic, Silhouette index, Dunn’s index, …

• Đánh giá tương đối (relative validation)

• Đánh giá kết quả gom cụm bằng việc so sánh các kết quả gom cụm khác ứng với các bộ trị thông số khác nhau

 Tiêu chí cho việc đánh giá và chọn kết quả gom cụm tối ưu

- Độ nén (compactness): các đối tượng trong cụm nên gần nhau.

- Độ phân tách (separation): các cụm nên xa nhau.

Trang 9

PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU

i

ij i

i

ij j

i

ij i

n

n n

n p

p p

I

Trang 10

CÁC VẤN ĐỀ CẦN GIẢI QUYẾT

• Biểu Diển Kiểu Dữ Liệu

+ Ta chỉ quan tâm đến những kiểu mà cần thiết cho việc gom cụm mà thôi

+ Ta định nghĩa d(i,j) là khoản cách giữa 2 đối tượng i và j.

Trang 11

• Đối tượng i,j được biểu diển bởi vector x,y

• Độ tương tự (similarity) giữa i và j dược tính theo công thức

• x = (x1, …, xp)

• y = (y1, …, yp)

• s(x, y) = (x1*y1 + … + xp*yp)/((x12 + … + xp2)1/2*(y12+ … + yp2)1/2)

Trang 12

|

| (|

2 1

1

nf f

Trang 13

+ Độ đo khoảng cách Minkowski

+ Độ đo khoản cách Manhattan

+ Độ đo khoản cách Euclidean

|

| ) ,

(

2 2

1

1 x j x i x j x ip x jp

i

x j

|

| (|

) ,

2 2

2 1

1 x j x i x j x ip x jp

i

x j

i

Trang 14

b c a sum

d c d

c

b a b

a

sum

+ +

+

0 1

Hệ số so trùng đơn giản (nếu đối xứng):

Hệ số so trùng Jaccard (nếu bất đối xứng):

d c

b

j i d

+ +

=

) , (

c b

j i d

+

=

) , (

Trang 15

• Variables/attributes of mixed types

)

(1

)()

(1

) ,

ij

p f

f ij

p

j i

Nếu xif hoặc xjf bị thiếu (missing) thì

f (variable/attribute): binary (nominal)

dij (f) = 0 if xif = xjf , or dij(f) = 1 otherwise

f : interval-scaled (Minkowski, Manhattan, Euclidean)

f : ordinal or ratio-scaled

tính ranks rif và zif trở thành interval-scaled 1

Trang 17

Ý NGHĨA CỦA VIỆC PHÂN CỤM

• Phân cụm ta có thể đi sâu vào phân tích nghiên cứu từng cụm dữ liệu nhằm khám phá và tìm kiếm các thông tin ẩn nhằm hỗ trợ cho việc ra quyết định

Trang 18

CÁC GIẢI THUẬT GOM CỤM DỮ LIỆU

• Trong gom cụm dữ liệu có nhiều giải thuật , tiêu biểu là giải thuật k-mean và

giải thuật gom cụm phân cấp nhóm

• Chúng ta sẽ tìm hiểu giải thuật K-Mean trong gom cụm dữ liệu

Trang 19

GIẢI THUẬT K-MEANS

• INPUT: Một CSDL gồm n đối tượng và số các cụm k

• OUTPUT: Các cụm Ci (i=1, ,k) sao cho hàm tiêu chuẩn E đạt giá trị tối thiểu

• Bước 1: Khởi tạo

Chọn k đối tượng mj (j=1 k) là trọng tâm ban đầu của k cụm từ tập dữ liệu (việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm)

• Bước 2: Tính toán khoảng cách

Đối với mỗi đối tượng Xi (1 <i <n) , tính toán khoảng cách từ nó tới mỗi

trọng tâm mj với j=1, ,k, sau đó tìm trọng tâm gần nhất đối với mỗi đối tượng

• Bước 3: Cập nhật lại trọng tâm

Đối với mỗi j=1, ,k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng của các vector đối tượng dữ liệu

• Bước 4: Điều kiện dừng

Lặp các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi

Trang 20

• Độ phức tạp dữ liệu được tính là O(n.k.d.t.T)

Trong đó : n là số đối tượng dữ liệu

Trang 21

• Ưu điểm :K-Means phân tích phân cụm đơn giản nên có thể áp dụng với tập

dữ liệu lớn

• Nhược điểm: K-Means chỉ áp dụng với dữ liệu có thuộc tính số và khám phá

ra các cụm có dạng hình cầu, k-means còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Ngoài ra còn phụ thuộc nhiều vào các thông

số đầu vào

Trang 22

• Trong trường hợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế người ta chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất

Trang 23

• Đến nay, đã có rất nhiều thuật toán kế thừa tư tưởng của thuật toán k-means áp dụng trong khai phá dữ liệu để giải quyết tập dữ liệu có kích thước rất lớn đang được áp dụng rất hiệu quả và phổ biến như thuật toán k-medoid, PAM, CLARA, CLARANS, k- prototypes, …

Định dạng
Số trang	23
Dung lượng	188,98 KB