MỤC ĐÍCH CỦA GOM CỤM• Mục đích của gom cụm dữ liệu là nhằm khám phá ra cấu trúc dữ liệu thành lập các tập dữ liệu từ các nhóm dữ liệu lớn... YÊU CẦU CỦA GOM CỤM DỮ LIỆU• Khả năng gom cụm
Trang 1TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN
Trang 2GOM CỤM DỮ LIỆU
• Gom cụm dữ liệu là một tác vụ trong khai phá dữ liệu.
• Gom cụm dữ liệu giúp ta có thể hệ thống lại dữ liệu làm cho chúng không bị rời rạc
• Với một cơ sở dữ liệu lớn và rời rạc thì việc gom cụm rất cần thiết và hầu
như là không thể thiếu
Trang 3MỤC ĐÍCH CỦA GOM CỤM
• Mục đích của gom cụm dữ liệu là nhằm khám phá ra cấu trúc dữ liệu thành lập các tập dữ liệu từ các nhóm dữ liệu lớn
Trang 4YÊU CẦU CỦA GOM CỤM DỮ LIỆU
• Gom cụm dữ liệu là làm cho các dữ liệu trong cụm thì “tương tự” nhau Còn
các phần tử khác cụm thì “không tương tư” nhau
• Độ tương tự giữa các cụm dữ liệu do người dùng định nghĩa Được xác định dựa trên các đối tượng thuộc tính mô tả đối tượng Thường ta đo khoản cách giữa các đối tượng
Trang 5YÊU CẦU CỦA GOM CỤM DỮ LIỆU
• Khả năng co giãn về tập dữ liệu.
• Khả năng xử lý nhiều thuộc tính khác nhau
• Khả năng khám phá các cụm với hình dạng tùy ý
• Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định thông số nhập
• Khả năng xử lý dữ liệu có nhiễu
Trang 6YÊU CẦU CỦA GOM CỤM DỮ LIỆU
• Khả năng gom cụm tăng dần độc lập với dữ liệu nhập
• Khả năng xử lý dữ liệu đa chiều
• Khả năng gom cụm dựa trên ràng buộc
• Khả diển và khả dụng
Trang 7PHÂN LOẠI CÁC PHƯƠNG PHÁP GOM CỤM
• Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí nào đó.
• Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó.
• Dựa trên mật độ (density-based): dựa trên connectivity and density functions.
• Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.
• Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm; sau
đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất.
Trang 8PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU
• Đánh giá ngoại (external validation)
• Đánh giá kết quả gom cụm dựa vào cấu trúc được chỉ định trước cho tập dữ liệu
• Độ đo : Rand statistic, Jaccard coefficient, Folkes and Mallows index
• Đánh giá nội (internal validation)
• Đánh giá kết quả gom cụm theo số lượng các vector của chính tập dữ liệu (ma trận gần – proximity matrix)
• Độ đo : :Hubert’s statistic, Silhouette index, Dunn’s index, …
• Đánh giá tương đối (relative validation)
• Đánh giá kết quả gom cụm bằng việc so sánh các kết quả gom cụm khác ứng với các bộ trị thông số khác nhau
Tiêu chí cho việc đánh giá và chọn kết quả gom cụm tối ưu
- Độ nén (compactness): các đối tượng trong cụm nên gần nhau.
- Độ phân tách (separation): các cụm nên xa nhau.
Trang 9PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU
i
ij i
i
i
ij j
i
ij i
n
n n
n n
n p
p p
p p
I
Trang 10CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
• Biểu Diển Kiểu Dữ Liệu
+ Ta chỉ quan tâm đến những kiểu mà cần thiết cho việc gom cụm mà thôi
+ Ta định nghĩa d(i,j) là khoản cách giữa 2 đối tượng i và j.
Trang 11CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
• Đối tượng i,j được biểu diển bởi vector x,y
• Độ tương tự (similarity) giữa i và j dược tính theo công thức
• x = (x1, …, xp)
• y = (y1, …, yp)
• s(x, y) = (x1*y1 + … + xp*yp)/((x12 + … + xp2)1/2*(y12+ … + yp2)1/2)
Trang 12|
| (|
2 1
1
nf f
Trang 13CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
+ Độ đo khoảng cách Minkowski
+ Độ đo khoản cách Manhattan
+ Độ đo khoản cách Euclidean
|
|
|
|
|
| ) ,
(
2 2
1
1 x j x i x j x ip x jp
i
x j
|
|
| (|
) ,
2 2
2 1
1 x j x i x j x ip x jp
i
x j
i
Trang 14b c a sum
d c d
c
b a b
a
sum
+ +
+
+
0 1
0 1
Hệ số so trùng đơn giản (nếu đối xứng):
Hệ số so trùng Jaccard (nếu bất đối xứng):
d c
b
j i d
+ +
=
) , (
c b
j i d
+
=
) , (
Trang 15CÁC VẤN ĐỀ CẦN GIẢI QUYẾT
• Variables/attributes of mixed types
)
(1
)()
(1
) ,
ij
p f
f ij
f ij
p
j i
Nếu xif hoặc xjf bị thiếu (missing) thì
f (variable/attribute): binary (nominal)
dij (f) = 0 if xif = xjf , or dij(f) = 1 otherwise
f : interval-scaled (Minkowski, Manhattan, Euclidean)
f : ordinal or ratio-scaled
tính ranks rif và zif trở thành interval-scaled 1
Trang 17Ý NGHĨA CỦA VIỆC PHÂN CỤM
• Phân cụm ta có thể đi sâu vào phân tích nghiên cứu từng cụm dữ liệu nhằm khám phá và tìm kiếm các thông tin ẩn nhằm hỗ trợ cho việc ra quyết định
Trang 18CÁC GIẢI THUẬT GOM CỤM DỮ LIỆU
• Trong gom cụm dữ liệu có nhiều giải thuật , tiêu biểu là giải thuật k-mean và
giải thuật gom cụm phân cấp nhóm
• Chúng ta sẽ tìm hiểu giải thuật K-Mean trong gom cụm dữ liệu
Trang 19GIẢI THUẬT K-MEANS
• INPUT: Một CSDL gồm n đối tượng và số các cụm k
• OUTPUT: Các cụm Ci (i=1, ,k) sao cho hàm tiêu chuẩn E đạt giá trị tối thiểu
• Bước 1: Khởi tạo
Chọn k đối tượng mj (j=1 k) là trọng tâm ban đầu của k cụm từ tập dữ liệu (việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm)
• Bước 2: Tính toán khoảng cách
Đối với mỗi đối tượng Xi (1 <i <n) , tính toán khoảng cách từ nó tới mỗi
trọng tâm mj với j=1, ,k, sau đó tìm trọng tâm gần nhất đối với mỗi đối tượng
• Bước 3: Cập nhật lại trọng tâm
Đối với mỗi j=1, ,k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng của các vector đối tượng dữ liệu
• Bước 4: Điều kiện dừng
Lặp các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi
Trang 20GIẢI THUẬT K-MEANS
• Độ phức tạp dữ liệu được tính là O(n.k.d.t.T)
Trong đó : n là số đối tượng dữ liệu
Trang 21GIẢI THUẬT K-MEANS
• Ưu điểm :K-Means phân tích phân cụm đơn giản nên có thể áp dụng với tập
dữ liệu lớn
• Nhược điểm: K-Means chỉ áp dụng với dữ liệu có thuộc tính số và khám phá
ra các cụm có dạng hình cầu, k-means còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Ngoài ra còn phụ thuộc nhiều vào các thông
số đầu vào
Trang 22GIẢI THUẬT K-MEANS
• Trong trường hợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế người ta chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất
Trang 23GIẢI THUẬT K-MEANS
• Đến nay, đã có rất nhiều thuật toán kế thừa tư tưởng của thuật toán k-means áp dụng trong khai phá dữ liệu để giải quyết tập dữ liệu có kích thước rất lớn đang được áp dụng rất hiệu quả và phổ biến như thuật toán k-medoid, PAM, CLARA, CLARANS, k- prototypes, …