Chương 6 Gom cụmtượng thành các cụm cluster có các đối tượng giống nhau... Dựa trên kích thước Dựa trên khoảng cách điạ lýVí dụ gom cụm các ngôi nhà Chương 6 Gom cụm... Dự báo động đất
Trang 1Simple Perceptron
● Simplest output function
● Used to classify patterns said to be linearly separable
Trang 2Linearly Separable
Trang 3Linearly Separable
The bias is proportional to the offset of the plane from the origin
The weights determine the slope of the line
The weight vector
is perpendicular to
the plane
Trang 4Perceptron Learning Algorithm
● We want to train the perceptron to classify inputs correctly
● Accomplished by adjusting the connecting weights and the bias
● Can only properly handle linearly separable sets
Trang 5Perceptron Learning Algorithm
● We have a “training set” which is a set of input vectors used to train the perceptron.
● During training both wi and θ (bias) are modified
for convenience, let w0 = θ and x0 = 1
number (small steps lessen the possibility of
destroying correct classifications)
● Initialise wi to some values
Trang 6Perceptron Learning Algorithm
1 Select random sample from training set as input
2 If classification is correct, do nothing
3 If classification is incorrect, modify the weight
Trang 70 = w0w1 x1w2 x2
Trang 8Learning Example
η = 0.2
1 0.5
x1 = 1, x2 = 1
wTx > 0
Correct classification,
no action
Trang 9Learning Example
η = 0.2
1 0.5
x1 = 2, x2 = -2
Trang 14Learning Example
η = 0.2
0.2 1.1
x1 = -2, x2 = 1
Trang 15Learning Example
η = 0.2
0.2 1.1
x1 = 1.5, x2 = -0.5
Trang 18Chương 6 Gom cụm
phương tiện và WWW
thuật toán clustering đang tồn tại không thể duy trì tốt
phải thường xuyên clustering lại toàn bộ dữ liệu?
Giới thiệu
Trang 19Chương 6 Gom cụm
tượng thành các cụm (cluster) có các đối tượng giống nhau.
<= j <= k
được biết trước.
Giới thiệu
Trang 20Dựa trên kích thước Dựa trên khoảng cách điạ lý
Ví dụ gom cụm các ngôi nhà
Chương 6 Gom cụm
Trang 21… In
0.5 0.2 0.3
Giới thiệu
Chương 6 Gom cụm
Trang 22 Phương pháp gom cụm tốt là phương pháp sẽ
tạo các cụm có chất lượng :
yếu tố
và
được đo bằng khả năng phát hiện một số hay tất cả các mẫu bị ẩn, bị dấu.
Tiêu chuẩn gom cụm
Chương 6 Gom cụm
Trang 23 Tiếp thị: khám phá các nhóm khách hàng phân biệt
trong CSDL mua hàng
Sử dụng đất: nhận dạng các vùng đất sử dụng giống
nhau khi khảo sát CSDL quả đất
Bảo hiểm: nhận dạng các nhóm công ty có chính
sách bảo hiểm mô tô với chi phí đền bù trung bình cao
Hoạch định thành phố: nhận dạng các nhóm nhà
cửa theo loại nhà, giá trị và vị trí địa lý
Dự báo động đất: dựa trên các kết quả gom cụm các
vết đứt gãy của địa tầng
Ứng dụng của gom cụm
Chương 6 Gom cụm
Trang 24 Độ đo khoảng cách thường dùng để xác định sự
khác nhau hay giống nhau giữa hai đối tượng.
p p
q q
j
x i
x j
x i
x j
x i
x j
i
2 2
1
với i = (xi1, xi2, …, xip) và j =(xj1, xj2, …, xjp):
hai đối tượng p-chiều và q là số nguyên dương
|
|
|
|
|
| ) ,
(
2 2
1
i
x j
i
Độ đo khoảng cách
Chương 6 Gom cụm
Trang 25 Nếu q=2, d là khoảng cách Euclid :
)
|
|
|
|
| (|
) ,
2 2
2 1
1 x j x i x j x ip x jp
i
x j
Trang 26 Không gian dữ liệu có n
điểm (đối tượng)
Trang 271 Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu của
k cụm
2 Gán (hoặc gán lại) từng điểm vào cụm có trọng tâm gần điểm đang xét nhất
• Vì không có phép gán lại nào có nghĩa là các cụm đã ổn định và thuật toán không thể cải thiện làm giảm độ phân biệt hơn được nữa.
3 Tính lại trọng tâm cho từng cụm
4 Quay lại bước 2
Thuật toán gom cụm K-Means (1)
Chương 6 Gom cụm
Trang 28 Đầu vào của thuật toán: số cụm k, và CSDL có n
đối tượng
Thuật toán gồm 4 bước:
rỗng
của các đối tượng của cụm) cho từng cụm trong cụm hiện hành
gán mới
Thuật toán gom cụm K-Means (2)
Chương 6 Gom cụm
Trang 29Thuật toán gom cụm K-Means
Chương 6 Gom cụm
Trang 30 Giả sử có 4 sinh viên A, B, C, D Mỗi sinh viên được biểu diễn bởi hai đặc trưng X, Y.
Mục đích là nhóm các sinh viên đã cho vào 2 nhóm/phòng
Bước 1 Khởi tạo tâm cho 2 nhóm Giả sử chọn A là tâm
của nhóm thứ nhất (tọa độ tâm nhóm thứ nhất c1(1,1)) và B
Chương 6 Gom cụm
Ví dụ về K-Means
Trang 31Bước 2 Tính khoảng cách từ các đối tượng đến
tâm của các nhóm (Khoảng cách Euclidean)
Chương 6 Gom cụm
2 )
1 , 2 (
1 )
1 , 1 ( 24
4 83 2 0 1
5 61
3 1 0
2
1 0
group C
D
Trang 32Ví dụ, khoảng cách từ đối tượng C=(4,3) đến tâm c1(1,1) là 3.61 và đến tâm c2(2,1) là 2.83 được tính như sau:
Bước 3 Nhóm các đối tượng vào nhóm gần nhất
Ta thấy rằng nhóm 1 sau vòng lặp thứ nhất gồm có 1 đối tượng A và nhóm 2 gồm các đối tượng còn lại B,C,D.
Chương 6 Gom cụm
Trang 33Bước 4 Tính lại tọa độ các tâm cho các nhóm mới dựa vào tọa độ của
các đối tượng trong nhóm Nhóm 1 chỉ có 1 đối tượng A nên tâm nhóm 1 vẫn không đổi, c1(1,1) Tâm nhóm 2 được tính như sau:
Bước 5 Tính lại khoảng cách từ các đối tượng đến tâm mới
Vấn đề chọn số cụm k
Chương 6 Gom cụm
2 )
3
8 , 3
11 (
1 )
1 , 1 ( 89
1 47 0 36 2 14 3
5 61
3 1
0
2
1 1
group C
D
Trang 34Chương 6 Gom cụm
Bước 6 Nhóm các đối tượng vào nhóm
Bước 7 Tính lại tâm cho nhóm mới
) 5 3 , 5 4 (
) 2
4
3 , 2
5
4 ( )
1 , 5 1 (
) 2
1
1 , 2
Trang 35Bước 8 Tính lại khoảng cách từ các đối tượng đến tâm
mới
Bước 9 Nhóm các đối tượng vào nhóm
Ta có G2 = G1 nên thuật toán dừng và kết quả phân nhóm như sau:
2 )
5 3 , 5 4 (
1 )
1 , 5 1 ( 71
0 71 0 54 3 30 4
61 4 20 3 50 0 50 0
2
1 2
group C
D
Chương 6 Gom cụm
Trang 36Chương 6 Gom cụm
Bài tập về K-Means
Bài 1 : Cho tập điểm
x1={1,3} ={x11,x12}; x2={1.5 , 3.2 }={x21,x22}x3 ={1.3 ,2.8}={x31,x32}; x4={3, 1}={x41,x42}Dùng K-Mean để gom nhóm (K=2)
Bài 2 : Cho tập điểm
Trang 37 Tương đối nhanh
• n: số điểm trong không gian dữ liệu
• k: số cụm cần phân hoạch
• t: số lần lặp (t << n)
Ưu điểm của K-means
Chương 6 Gom cụm
Trang 38 Không đảm bảo đạt được tối ưu toàn cục
Nhược điểm của K-means
Chương 6 Gom cụm
Trang 42BÀI TẬP MẪU MÔN HỌC DATA MINING
Gom cụm theo thuật toán k-means
Dùng k-means để gom cụm với k = 2
Bước 1 : Khởi tạo ma trận phân hoạch U có 4 cột ứn g với 4
điểm và 2 dòng ứng với 2 cụm,
Bước 2: U=(mij) , 1 i 2 và 1 j 4
Cho n= 0 ( số lần lặp), tạo U0
x1 x2 x3 x4 U0= c1 1 0 0 0
c2 0 1 1 1
Lưu ý mỗi cột chỉ có 01 bit 1
Bước 3: Tính vector trọng tâm:
Do có hai cụm C1,C2 nên có hai vector trọng tâm v1,v2
Các tính vector trọng tâm:
Với vector v1 cho cụm 1:
14 13 12 11
41
* 14 31
* 13 21
* 12 11
* 11
11
m m m m
x m x m x m x m
0 0 1
3
* 0 3 1
* 0 5 1
* 0 1
42
* 14 32
* 13 22
* 12 12
* 11
12
m m m m
x m x m x m x m
0 0 1
1
* 0 8 2
* 0 2 3
* 0
41
* 24 31
* 23 21
* 22 11
* 21
21
m m m m
x m x m x m x m
8 5 1
1 1 0
3
* 3 1 1 5 1
* 1 1
Trang 4324 23 22 21
42
* 24 32
* 23 22
* 22 12
*
21
22
m m m m
x m x m x m x
7 1
1 1
0
1
* 1 8 2
* 2
Gom các đối tượng vào cụm
a) Tính khoảng cách Euclide từ từng điểm đến cụm c1, c2 chọn cụm
có khoảng cách gần nhất để đ ưa đối tượng vào cụm
2 2
) 12 12 ( ) 11 11 (
) 22 12 ( ) 21 11 ( )
c2 0 0 0 1
Lặp cho đến khi | Un – Un-1| < epsilon thì dừng , nếu sai thì quay về bước 3.