Đối tượng tương tự và không tương tự Các loại dữ liệu trong phân tích bằng gom cụm Gom cụm: Gom các đối tượng dữ liệu o Tương tự với một đối tượng khác trong cùng cụm o Không tư
Trang 1Gom cụm (clustering)
Phân tích bằng gom cụm
Phân tích bằng gom cụm là gì ?
Đối tượng tương tự và không tương tự
Các loại dữ liệu trong phân tích bằng gom cụm
Gom cụm: Gom các đối tượng dữ liệu
o Tương tự với một đối tượng khác trong cùng cụm
o Không tương tự với các đối tượng trong các cụm khác
(Tức là thực hiện gom các đối tượng có cùng tính chất hay có các tính chấtgần giống nhau thành nhóm)
o Ví dụ: Phân loại học sinh trong một lớp theo điểm số thành 5 nhóm giỏi, khá, trung bình khá, trung bình, yếu Những học sinh có điểm từ 8-10 phân vào nhóm giỏi, từ 7-8 phân vào nhóm khá, 6-7 phân vào nhóm trung bình khá, 5-6 nhóm TB, 5 trở xuống vào nhóm yếu
Mục tiêu của gom cụm:
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối
tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng
Ứng dụng của gom cụm:
o Kinh doanh: phát hiện ra nhóm khách hàng Ví dụ Trong tiếp thị mỹ phẩm
có thể phân nhóm khách hang ưa chuộng mỹ phẩm Hàn Quốc, nhóm khách hang ưa chuộng Mỹ phẩm pháp…
o Sinh học: phân loại động, thực vật, phân loại gen
o Địa lí: nhận ra các vùng đất giống nhau dựa vào CSDL quan sát trên tráiđất, phân nhóm nhà,…
Trang 2o Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao
o Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị
và vị trí địa lý
o Một công cụ độc lập để xem xét phân bố dữ liệu
o Làm bước tiền xử lý cho các thuật toán khác
Thế nào là gom cụm tốt
− Một phương pháp tốt sẽ tạo ra các cụm có chất lượng cao với:
o Tương tự cao cho trong lớp (intra-class)
o Tương tự thấp giữa các lớp (inter-class)
o Tức là những đối tượng cùng một nhóm có sự giống nhau hoặc gần giống nhau càng nhiều thì chất lượng gom cụm sẽ càng cao
− Chất lượng của kết quả gom cụm phụ thuộc vào:
o Độ đo tương tự sử dụng
o Cài đặt độ đo tương tự
Các yêu cầu của gom cụm trong khai phá dữ liệu.
Scalability: Có thể thay đổi kích cỡ
Khả năng làm việc với các loại thuộc tính khác nhau
Khám phá ra các cụm có hình dạng bất kì
Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers)
Tương tự và bất tương tự giữa hai đối tượng (1)
− Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu
− Định nghĩa về tương tự và bất tượng tự giữa các đối tượng tùy thuộc vào
o Loại dữ liệu khảo sát
o Loại tương tự cần thiết
− Tương tự /Bất tượng tự giữa đối tượng thường được biểu diễn qua độ đo khoảng cách d(x,y)
− Lý tưởng, mọi độ đo khoảng cách phải là một và phải thỏa các điều kiện sau:
),(),(),(
4
),(),(
3
iff0),(
2
0),(
1
z y d y x d z x d
x y d y x d
y x y
x d
y x d
Trang 3II)Loại dữ liệu trong phân tích cụm
Định nghĩa: Biến trị khoảng là các phép đo liên tục của các thang đo tuyến tính, thô Ví
dụ: trọng lượng, chiều cao, chiều ngang, chiều dọc, tuổi, nhiệt độ thời tiết
Một nhóm các độ đo khoảng cách phổ biến cho biến tỉ lệ theo khoảng là khoảng cách Minkowski
)
|
|
|
|
|(|
)
,
jp ip
q j i
q j
Nếu q = 1, độ đo khoảng cách là Manhattan
Nếu q = 2, độ đo khoảng cách là khoảng cách Euclidean
Các biến nhị phân (1)
Biến nhị phân chỉ có hai trạng thái là 0 hay 1
Bảng contingency table cho dữ liệu nhị phân:
|
|
| (|
)
,
2 2
2 1
i x j
i
p d
b c a sum
d c d
c
b a b
a
sum
+ +
+
+ 0
1
0 1
|
|
|
|
|
| )
,
(
2 2
1
i x j
i
Trang 4 Hệ số Jaccard coefficient (tương tự không bất biến, nếu biến nhị phân là bất đối
xứng):
− Biến nhị phân đối xứng và bất đối xứng
o Một biến nhị phân là đối xứng nếu đồng thời các trạng thái của nó có tầm quan
trọng như nhau và mang cùng một trọng số Do đó, không có sự ưu tiên khi kếtquả đưa ra phải được mã hoá là 0 hoặc 1 Ví dụ thuộc tính giới tính có 2 trạng thái
là male và female Tính tương tự giữa các biến nhị phân đối xứng được gọi là tínhtương tự bất biến, trong đó kết quả không thay đổi khi 1 hoặc tất cả các biến nhịphân được mã hoá khác nhau Với các tính giống nhau bất biến, một hệ số đượcbiết đến nhiều nhất để xác định sự khác nhau giữa đối tượng i và j là hệ số đốisánh đơn giản, được định nghĩa như sau:
- Một biến nhị phân làkhông đối xứng nếu các kết quả của các trạng thái không có tầm quan trọng như nhau.Chẳng hạn kết quả âm tính và dương tính khi khám bệnh Theo thói quen, chúng ta sẽ mãhoá kết quả quan trọng nhất, thường là kết quả ít xẩy ra bằng 1 (HIV dương tính) và bằng
0 cho kết quả khác (HIV âm tính) Tính tương tự giữa các biến này được gọi là tương tựkhông bất biến Với sự tương tự không bất biến, hệ số được biết đến nhiều nhất là hệ sốJaccard trong đó số phép so sánh phủ định coi như không quan trọng và do đó được bỏqua khi tính toán
c b a
c b j i d
++
+
=),(
Ví dụ: Bảng hồ sơ bệnh nhân
Name(tên) Gender(giớ Fever(ho) Cough(sốt Test-1 Test-2 Test-3 Test-4
d c b a
c b j
i d
+ + +
+
=
) , (
Trang 5i tính) )
Có 8 thuộc tính Name, Gender, Fever, Cough, Test-1, Test-2, Test-3, Test-4 trong đó:
Gender là thuộc tính nhị phân đối xứng
Các thuộc tính còn lại là nhị phân bất đối xứng
Ta gán các trị Y và P bằng 1 và trị N được gán bằng 0 Tính khoảng cách giữa cácbệnh nhân dựa vào các bất đối xứng dùng hệ số Jacard ta có bảng giá trị như sau:
Trang 7D(jack,jim)=1 1 1
11++
+ =0.67
+ Tính d(jim,marry):
Bảng dữ liệu nhị phân:
maryJim
21++
+
=0,75Như vậy, theo tính toán trên Jim và Marry có khả năng mắc bệnh giống nhau nhiều nhất
vì
d(jim, marry)=0.75 là lớn nhất
Các biến định danh ( nominal variables)
Định nghĩa: Biến định danh là mở rộng của biến nhị phân với nhiều hơn hai trạng
thái Ví dụ: thuộc tính màu sắc: đỏ, vàng, xanh, lục
Có hai phương pháp để tính toán sự tương tự giữa hai đối tượng:
• Phương pháp 1: Đối sánh đơn giản với m là số lần đối sáng, p là tổng số cácbiến
p
m p j i
),(
• Phương pháp 2: Dùng một số lượng lớn các biến nhị phân
Trang 8 Tạo biến nhị phân mới cho từng trạng thái định danh.
Các biến thứ tự :có thể là liên tục hay rời rạc
Thứ tự của các trị là quan trọng, ví dụ hạng
Có thể xử lý như tỉ lệ khoảng như sau:
- Thay thế xif bởi hạng của chúng
- ánh xạ phạm vi của từng biến vào đoạn [0,1] bằng cách thay thếđối tượng i trong biến thứ f bởi r if ∈ 1, ,M f}
- Tính sự khác nhau dùng các phương pháp cho biến tỉ lệ theokhoảng
r z
Các biến thang đo tỉ lệ
Định nghĩa: Là các biến có độ đo dương trên thang phi tuyến, xấp xỉ thang đo mũ Ví
dụ: AeBt hay Ae-Bt
Các phương pháp tính độ tương tự:
Xử lý chúng như các biến thang đo khoảng
áp dụng các biến đổi logarithmic
Xử lý chúng như dữ liệu thứ tự liên tục
Xử lý chúng theo hạng như thang đo khoảng
p f
f ij
f
ij d j
i
d
1 ) ( 1
) ( ) (
Trang 9hoặc xif =xjf =0trường hợp khác f =1
ij
δ
Đóng góp của biến f vào khoảng cách d(i,j):
- Nếu f là biến nhị phân hay định danh:
- Nếu f là dựa trên khoảng cách: dùng khoảng cách được chuẩn hoá.
- Nếu f là thứ tự thang đo tỉ số tính các hạng rif và xử lý zif như thang đo khoảng
M
r z
Các biến tỉ lệ
o Độ đo dương trên thang phi tuyến, xấp xỉ thang đo mũ
o Ví dụ AeBt hay Ae-Bt
o Các phương pháp:
xử lý chúng như các biến thang đo khoảng không phải là lựa chọn tốt !
áp dụng biến đổi logarithmic yif = log(xif)
xử lý chúng như dữ liệu thứ tự liên tục và xử lý chúng theo hạng như thang đo khoảng
Các biến có kiểu hỗn hợp
o CSDL Có thể chứa cả sáu loại biến
o Có thể dùng công thức được gán trọng để kết hợp các hiệu quả:
)(1
)()(1)
,
ij
p f
f ij
f ij
p
j i d
δ
δ
=
=Σ
Σ
=
1 otherwise
; 0
or
missing, is
or if 0
) (
jf if
jf if
f ij
x x
x x
δ
Trang 10Đóng góp của biến f vào khoảng cách d(i,j):
- Nếu f là biến nhị phân hay định danh:
- Nếu f là dựa trên khoảng cách: dùng khoảng cách được chuẩn hoá.
- Nếu f là thứ tự thang đo tỉ số tính các hạng rif và xử lý zif như thang đo khoảng
Các phương pháp dựa trên phân hoạch
III.1 Phương pháp phân cấp ( Hierachical methods):
Phân cấp: Tạo phân cấp cụm chứ không phải phân hoạch các đối tượng Khác với
phân hoạch, phân cấp không cần số cụm k ở đầu vào và dùng ma trận khoảng cách làmtiêu chuẩn gom cụm Trong phương pháp phân cấp có thể dùng điều kiện dừng Ví dụ: sốcụm
Cây các cụm
Phân cấp cụm thường được biểu diễn dưới dạng cây của các cụm Trong đó:
Trang 11- Các lá của cây biểu diễn từng đối tượng
- Các nút trong biểu diễn các cụm
Có hai phương pháp tạo cây phân cấp: từ trên xuống và tù dưới lên:
Phương pháp phân cấp từ trên xuống:
Bắt đầu từ cụm lớn nhất chứa tất cả các đối tượng Chia cụm phân biệt nhất thành cáccụm nhỏ hơn và tiếp diễn cho đến khi có n cụm thoả mãn điều kiện dừng
Phương pháp từ dưới lên:
+ Loại các hàng và cột tương ứng với các nhóm u,v
+Thêm một hàng và một cột để lưu khoảng cách của nhóm uv với các nhómcòn lại
B4: Lặp lại các bước 2 và bước 3 cho đến khi chọn được k nhóm thích hợp nhất cho
bài toán hoặc chỉ có một nhóm duy nhất
Step 4 Step 3 Step 2 Step 1 Step 0
Trang 12Phương pháp này đưa tới bài toán nhỏ hơn : Tìm khoảng cách giữa hai nhóm
Các phương pháp tính khoảng cách giữa hai nhóm là:
1 Phương pháp kết nối đơn: Trong phương pháp kết nối đơn điều kiện ở đây là
khoảng cách giữa hai cụm là khoảng cách ngắn nhất từ một thành viên của nhómtới thành viên của nhóm khác
d(C1,C2) = min(drs), với r thuộc C1; s thuộc C2 (*)
Ví dụ: Cho 5 đối tượng.Với khoảng cách giữa các đối tượng được cho như sau:
+ xoá cột 1 và dòng 1 của nhóm 1 Xoá cột 2 và dòng 2 của nhóm 2
+ Để thêm một cột và một dòng đẻ lưư khoảng cách của nhom (12) đến cácnhóm còn lại ta tính theo công thức (*)
D(12,3)= min(drs) với r thuộc nhóm (12), và s thuộc nhóm 3
D(1,3)=6, d(2,3)=5 vậy nên d(12,3)=5
Hoàn toàn tương tự ta tính được d(12,5)=8, d(12,4)=9
Trang 13Khi đó ta thu được ma trận khoảng cách mới D1 là
- Lặp lại bước 2, khoảng cách của nhóm 5 và nhóm 4 là nhỏ nhất d(5,4)=3
- Lặp lại bước 3, Ta sẽ gộp nhóm 4 và 5 thành một nhóm Khi đó ta sẽ cập nhật lại
ma trận khoảng cách mới là D2
+ xoá cột 4 và dòng 4 của nhóm 4 Xoá cột 5 và dòng 5 của nhóm 5
+ Thêm một dòng và một cột để lưư khoảng cách của nhóm (45) tớ các nhómkhác Ta tính theo công thức (*)
D(45, 12)=min(drs) với r thuộc (45), s thuộc (12)
D(4,1)=10, d(4,2)=9, d(5,1)=9, d(5,2)=8
vậy d(45,12)=8
Hoàn toàn tương tự ta tính đựoc d(45,3)=4
Khi đó ta thu được ma trận khoảng cách mới D2 là:
Trang 14+ Thêm một dong f và một cột đẻ lưư khoảng cách của nhóm mơid này đến các nhómkhác ta sẽ tính khoảng cách theo công thức (*)
D(345,12)= min( drs) với r thuộc (345) và s thuộc(12)
Cuối cùng nhóm thu đựoc sẽ là nhóm (12543)
Sơ đồ mô tả các bước:
B0 B1 B2 B3 B4
2.Phương pháp kết nối đầy đủ:
d(C1,C2) = max(drs), với r thuộc C1; s thuộc C2
45
345
12345
Trang 153.Phương pháp kết nối trung bình:
Khoảng cách giữa một cluster này và một cluster khác là tương đương khoảngcách trung bình từ một vài thành viên của một nhóm này đến một vài thành viêncủa nhóm khác
) ( 2
1
1 )
2 ,
n C
- Các phương pháp phân cấp có ưu điểm lớn là: khái niệm đơn giản, lý thuyết tốt.
Khi cụm được trộn tách, quyết định là vĩnh cửu, vì vậy số các phương án khác cầnxem xét bị rút giảm
- Điểm yếu của phương pháp phân cấp: Do việc trộn tách các cụm là vĩnh cửu nên quyết định sai là không thể khắc phục được Các phương pháp phân chia cần thời gian tính toán và không thể scalable cho tập dữ liệu lớn
III.2 Các phương pháp dựa trên phân hoạch
a Mô tả phương pháp
Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân hoạch thành tập có k cụm sao cho:
- Mỗi cụm chứa ít nhất một đối tượng
- Mỗi đối tượng thuộc về một cụm duy nhất
- Cho trị k, tìm phân hoạch có k cụm sao cho tối ưu hoá tiêu chuẩn phân hoạch được chọn
b Các phương pháp
b.1.Phương pháp gom cụm k-mean
Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng.
Trang 16Output: k cụm đã được gom.
Thuật giải: gồm 4 bước
- Bước1: Phân hoạch đối tượng thành k tập con ( cụm) ngẫu nhiên
- Bước 2: Tính các tâm ( trung bình của các đối tượng trong cụm) cho từng cụm trongphân hoạch hiện hành
- Bước 3: Gán mỗi đối tượng cho cụm tâm gần nhất
- Bước 4: Nếu cụm không có sự thay đổi thì dừng, ngược lại quay lại bước 2
Ví dụ về thuật toán k-mean, n=10, k=2
Trang 17Bước 2: Để xác định các điểm hạt giống ta đi tìm toạ độ của nó bằng cách tính hoành độ và tung
3+ + + + +
= 3.671
y =
6
87654
1+ + + + +
=5.172
x =
4
877
5+ + +
= 6.752
y =
4
554
Khoảng cách đếncentroid 2 (6.75, 4.25)
Thuộccụm 1
Thuộc cụm2
Trang 18Bước 4: Các đối tượng trong các cụm có sự thay đổi nên quay lại bước 2.
Bước 2: Tính toạ độ các điểm centroid mới
1
x =
6
54433
5+ + +
= 6.752
y =
4
543
1+ + +
= 3.25Bước 3: Tính khoảng cách từ các centroid đến các điểm
STT Toạ độ
các điểm
Khoảng cách đếncentroid 1 (3.67, 5.17)
Khoảng cách đếncentroid 2 (6.75, 4.25)
Thuộccụm 1
Thuộc cụm2
Nhận xét: Sau khi thực hiện bước 3 các cụm không có sự thay đổi nên dừng tại đây
Điểm mạnh của phương pháp gom cụm k- means
- Hiệu suất tương đối: O(nkt) với n là số đối tượng, k là số cụm, t là số lần lặp.
Thông thường k, t << n
Trang 19- Thuật toán này có ưu điểm là rõ ràng, dễ dàng cài đặt.
Điểm yếu của phương pháp k- means
- Có thể áp dụng chỉ khi xác định được trị trung bình
- Cần chỉ định trước số các cụm- k.
- Không thể xử lý nhiễu và outliers
b.1.2 Thuật toán k-medoid
Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng.
Output: k cụm đã được gom.
Thuật toán:
Bước 1: Chọn k đối tượng ngẫu nhiên làm tâm của nhóm
Bước 2: Gán từng đối tượng còn lại vào cụm có tâm gần nhất
Bước 3: Chọn ngẫu nhiên 1 đối tượng không là đối tượng tâm, và thay một trongcác tâm đó bằng nó nếu nó làm thay đổi đối tượng trong cụm(gán đối tượng chocụm có tâm gần nhất)
Bước 4: Nếu gán tâm mới thì quay lại bước 2, ngược lại thì dừng
Trang 20Ví dụ thuật toán k-medoid, n=10, k=2.
Trang 21Gán mỗi đối tượng còn lại
vào cụm có tâm mới
• Bước 1: Chọn 2 điểm có toạ độ K1 (3,8) và K2(6,4) làm tâm của 2 cụm
• Bước 2: Gán từng đối tượng còn lại vào cụm có tâm gần đối tượng nhất
Trang 22Khoảng cáchđến K2 (7,6)
Thuộc cụmk1
Thuộc cụmk2
Trang 23STT Tọa độ các
điểm
Khoảng cách đếnK1 (3,8)
Khoảng cáchđến K2 (8,5)
Thuộc cụmk1
Thuộc cụmk2
Trang 24 Phân tích gom cụm các đôi tượng dựa trên sự tương tự