1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng khai phá dữ liệu chương 5 phan mạnh thường

22 294 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 691,53 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

thuật toán clustering đang tồn tại không thể duy trì tốtcác nhóm, cụm cluster trong một môi trường như thế trong hệ thống mỗi khi thông tin được cập nhật thay vìphải thường xuyên cluster

Trang 2

7/12/2014 www.l hu.edu.vn

phương tiện và WWW

nhóm, gom cụm (clustering) ra đời để làm tăng tốc độtìm kiếm thông tin

thuật toán clustering đang tồn tại không thể duy trì tốtcác nhóm, cụm (cluster) trong một môi trường như thế

trong hệ thống mỗi khi thông tin được cập nhật thay vìphải thường xuyên clustering lại toàn bộ dữ liệu?

Giới thiệu

Trang 3

 Gom cụm (clustering) là quá trình nhóm tập đối tượng thành các cụm (cluster) có các đối tượng giống nhau.

 Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom cụm là bài toán xác định ánh xạ f : Dg{1,…,k}

sao cho mỗi ti được gán vào một cụm (lớp) Kj,

1 <= j <= k

 Không giống bài toán phân lớp, các cụm không được biết trước.

Giới thiệu

Trang 4

Dựa trên kích thước Dựa trên khoảng cách điạ lý

Ví dụ gom cụm các ngôi nhà

Trang 5

… In

0.5 0.2 0.3

Giới thiệu

Trang 6

 Phương pháp gom cụm tốt là phương pháp sẽ

tạo các cụm có chất lượng :

Sự giống nhau giữa đối tượng trong cùng một cụm cao.

Giữa các cụm thì sự giống nhau thấp.

 Chất lượng của kết quả gom cụm dựa trên 2

yếu tố

Độ đo sự giống nhau dùng trong phương pháp gom cụm và

Sự thi hành nó.

 Chất lượng của phương pháp gom cụm còn

được đo bằng khả năng phát hiện một số hay tất cả các mẫu bị ẩn, bị dấu.

Tiêu chuẩn gom cụm

Trang 7

Tiếp thị: khám phá các nhóm khách hàng phân biệt

trong CSDL mua hàng

Sử dụng đất: nhận dạng các vùng đất sử dụng giống

nhau khi khảo sát CSDL quả đất

Bảo hiểm: nhận dạng các nhóm công ty có chính

sách bảo hiểm mô tô với chi phí đền bù trung bình cao

Hoạch định thành phố: nhận dạng các nhóm nhà

cửa theo loại nhà, giá trị và vị trí địa lý

Dự báo động đất: dựa trên các kết quả gom cụm các

vết đứt gãy của địa tầng

 …

Ứng dụng của gom cụm

Trang 8

khác nhau hay giống nhau giữa hai đối tượng.

p p

q q

j

x i

x j

x i

x j

x i

x j

i

d ( , ) (| | | | | | )

2 2

1

với i = (xi1, xi2, …, xip) và j =(xj1, xj2, …, xjp):

hai đối tượng p-chiều và q là số nguyên dương

|

|

|

|

|

| ) ,

(

2 2

1

1 x j x i x j x ip x jp

i

x j

i

Độ đo khoảng cách

Trang 9

Nếu q=2, d là khoảng cách Euclid :

)

|

|

|

|

| (|

) ,

2 2

2 1

1 x j x i x j x ip x jp

i

x j

Trang 10

 Không gian dữ liệu có n

điểm (đối tượng)

Trang 11

1 Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu của

k cụm

2 Gán (hoặc gán lại) từng điểm vào cụm có trọng tâm gần điểm đang xét nhất

• Vì không có phép gán lại nào có nghĩa là các cụm đã ổn định và thuật toán không thể cải thiện làm giảm độ phân biệt hơn được nữa.

3 Tính lại trọng tâm cho từng cụm

4 Quay lại bước 2

Thuật toán gom cụm K-Means (1)

Trang 12

Đầu vào của thuật toán: số cụm k, và CSDL có n

đối tượng

1 Phân hoạch đối tượng thành k tập con/cụm khác

rỗng

2 Tính các điểm hạt giống làm centroid (trung bình

của các đối tượng của cụm) cho từng cụm trong cụm hiện hành

3 Gán từng đối tượng vào cụm có centroid gần nhất

4 Quay về bước 2, chất dứt khi không còn phép

gán mới

Thuật toán gom cụm K-Means (2)

Trang 13

Thuật toán gom cụm K-Means

Trang 15

 Kết quả chạy

thử nghiệm

k-means

C1 10267 3536.60 328.27 2050.35 3087.74 C1 10255 2490.50 717.83 1004.25 2041.64 C2 10273 2037.28 1486.25 1171.05 551.03 1588.42 C2 10263 1873.80 1334.53 387.55 1424.94 C2 10249 1863.40 1344.93 377.15 1414.54 C2 10258 1614.88 1593.45 128.63 1166.02 C2 10250 1552.60 1655.73 66.35 1103.74 C2 10260 1504.65 1703.68 18.40 1055.79 C2 10272 1456.00 1752.33 30.25 1007.14 C2 10253 1444.80 1763.53 41.45 995.94 C2 10270 1376.00 1832.33 110.25 927.14 C2 10277 1200.80 2007.53 285.45 751.94 C2 10265 1176.00 2032.33 310.25 727.14 C2 10257 1119.90 2088.43 366.35 671.04 C2 10268 1101.20 2107.13 385.05 652.34 C3 10264 695.62 448.86 2512.71 790.63 246.76 C3 10251 654.06 2554.27 832.19 205.20 C3 10269 642.20 2566.13 844.05 193.34 C3 10262 584.00 2624.33 902.25 135.14 C3 10254 556.62 2651.71 929.63 107.76 C3 10274 538.60 2669.73 947.65 89.74 C3 10256 517.80 2690.53 968.45 68.94 C3 10261 448.00 2760.33 1038.25 0.86 C3 10248 440.00 2768.33 1046.25 8.86 C3 10276 420.00 2788.33 1066.25 28.86 C3 10266 346.56 2861.77 1139.69 102.30 C3 10275 291.84 2916.49 1194.41 157.02

Trang 17

x x x x

Trang 18

x x x x

Trang 19

x x x x

Trang 20

Ví dụ về K-Means

x1={1,3} ={x11,x12}; x2={1.5 , 3.2 }={x21,x22}x3 ={1.3 ,2.8}={x31,x32}; x4={3, 1}={x41,x42}Dùng K-Mean để gom nhóm (K=2)

X1(4,1) ; X2(5,1) ; X3(5,2) ; X4(1,4) ;

X5(1,5) ; X6(2,4) ; X7(2,5)

Dùng K-Mean để gom nhóm (K=2)

Trang 21

 Tương đối nhanh

• n: số điểm trong không gian dữ liệu

• k: số cụm cần phân hoạch

• t: số lần lặp (t << n)

 K-Means phù hợp với các cụm có dạng hình cầu

Ưu điểm của K-means

Trang 22

 Không đảm bảo đạt được tối ưu toàn cục

 Cần phải xác định trước số cụm k

 Khó xác định số cụm thực sự mà không gian dữ liệu

có thể có

 Khó phát hiện các loại cụm có hình dạng phức tạp và nhất là các dạng cụm không lồi

 Không thể xử lý nhiễu và biệt lệ

 Chỉ có thể áp dụng khi tính được trọng tâm

Nhược điểm của K-means

Ngày đăng: 03/12/2015, 05:46

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm