UӝQJ các nhóm cho ÿӃQ khi PұW ÿӝ FӫD ÿӕL WѭӧQJGӳ OLӋX trong vùng lân FұQ YѭӧW qua QJѭӥQJ.. Khái QLӋP Fѫ EҧQ : Hai tham Vӕ do QJѭӡL dùng xác ÿӏQK Eps: Bán kínhOӟQ QKҩW FӫD vùng lân FұQ Mi
Trang 4Customer Age Income
Distance from Nellie
Trang 7UӝQJ các nhóm cho ÿӃQ khi PұW ÿӝ FӫD ÿӕL WѭӧQJ
Gӳ OLӋX trong vùng lân FұQ YѭӧW qua QJѭӥQJ
7KXͅW toán :
DBSCAN
OPTICS (Ordering Points To Identify the
Clustering structure)
DENCLUE (DENsity- based CLUstEring)
CLIQUE (Clustering In QUEst)
Trang 83+ѬѪ1*3+È3'Ӵ$75Ç10Ұ7ĈӜ
2 Khái QLӋP Fѫ EҧQ :
Hai tham Vӕ do QJѭӡL dùng xác ÿӏQK
Eps: Bán kínhOӟQ QKҩW FӫD vùng lân FұQ
MinPts : 6ӕ QKӓ QKҩW các ÿӕL WѭӧQJ trong vùng lân FұQ
QKL͙X K˿Q QJ́QJ MinPts trong bán kính Eps.
ĈӕL WѭӧQJ biên (border point): Vӕ ÿӕL WѭӧQJ trong
bán kính Eps ít KѫQ MinPts QKѭQJ YүQ QҵP trong
Trang 93+ѬѪ1*3+È3'Ӵ$75Ç10Ұ7ĈӜ
2 .KiLQLӋPFѫEҧQ
0ӝW ÿӕL WѭӧQJ p là ÿӕL WѭӧQJ có PͅW ÿͱ ÿ̹W
ÿ́ͻF WUΉF WL͗S (directly density_reachable)
Wӯ ÿӕL WѭӧQJ q theo Eps, MinPts QӃX :
p WKXӝF Neps(q)
|Neps(q)| >= MinPts
pq
MinPts = 5 Eps = 1 cm
Trang 10Spatial Clustering of Application with
Trang 15z 9tGөYӅFiELӋW
z Trong PӝW WұS Gӳ OLӋX OѭX OҥL YLӋF Vӱ GөQJ WKҿ tín
GөQJ có PӝW OҫQ mua YӟL Vӕ OѭӧQJ FӵF OӟQ so YӟL
các OҫQ mua ÿӅX ÿһQ WUѭӟF ÿy
z /ҫQ mua này WҥR nên Vӵ nghi QJӡ Vӱ GөQJ WKҿ tín
Trang 16z 3KѭѫQJ pháp này GӵD vào sai Vӕ trong mô hình KӗL qui WX\ӃQ
tính FӫD WұS Gӳ OLӋX.
z Các SKҫQ Wӱ có sai Vӕ OӟQ QKҩW là các cá ELӋW
z +RһF GӵD vào phân Eӕ FKXҭQ ÿѭӧF WҥR Wӯ WұS Gӳ OLӋX.
z 3KѭѫQJ pháp này tìm các cá ELӋW FөF Eӝ GӵD trên PұW ÿӝ FөF
z Phân WұS Gӳ OLӋX thành WӯQJ OӟS (layer), EҵQJ cách WҥR các
bao OӗL YӟL FKLӅX sâu khác nhau.
z Các OӟS có FKLӅX sâu QKӓ có NKҧ QăQJ FKӭD các cá ELӋW
z .ӃW TXҧ SKө FӫD các WKXұW toán gom FөP ( DBSCAN, ROCK,
Trang 170.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Complete Link
Trang 18z ĈiQK giá FK̽W ÓͻQJ nhóm là QKL͟P Yͽ
khó NKăQ và SKF W̹S QK̽W trong phân
z ĈiQK giá NӃW TXҧ gom nhóm không dùng
thông tin bên ngoài : FKӍ Vӱ GөQJ DL
z External index : ÿR PӭF ÿӝ các nhãn OӟS
WѭѫQJ ÿӗQJ YӟL các nhãn OӟS bên ngoài ÿm
cung FҩS VҹQ.
z Entropy
z Internal Index : ÿR FKҩW OѭӧQJ FӫD FҩX trúc
nhóm không dùng các thông tin bên ngoài
z SSE
z Relative Index : dùng ÿӇ so sánh 2 SKѭѫQJ
pháp gom nhóm KRһF so sánh các nhóm
Trang 191 2 3 4 5 6 7 8 9 10
z Internal Index : SSE
Công WKӭF tính Bình SḰ˿QJ sai ( Sum
of Squared Error - SSE)
SSE
1
2
) , (
Trang 20m p
log2
1
ij L
j
e m
m e
1
Trang 21m purity
Natio nal Sports
Trang 22Các WKXͅW toán gom nhóm chính chia
thành : phân KR̹FK phân F̽S GΉD trên
PͅW ÿͱ GΉD trên ÓͳL và GΉD trên mô hình
Bài toán xác ÿӏQK cá ELӋW là PӝW ӭQJ GөQJ
quan WUӑQJ FӫD phân tích nhóm.
ĈiQK giá FK̽W ÓͻQJ nhóm là OƭQK YΉF F̿Q
WͅS trung nghiên FX.
7Ï07Ҳ7
7¬,/,ӊ87+$0.+Ҧ2
Concepts and Techniques
http://www.cs.sfu.ca/~han/dmbook
http://www-faculty.cs.uiuc.edu/~hanj/bk2/slidesindex.html : 2 nd
2. P.-N Tan, M Steinbach, V Kumar, &KѭѫQJ 8
-Introduction to Data Mining
http://www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf
http://ifsc.ualr.edu/xwxu/publications/kdd-96.pdf
Trang 23Q & A
45
1. ChoWұS DL PӝW FKLӅX: {6, 12, 18, 24, 30, 42, 48}
ÿҫX tiên GӵD k-mean(k=2) Tính ÿӝ ÿR SSE cho WӯQJ
WұS 2 nhóm So sánh NӃW TXҧ
¾ m1 = 18, m2 = 45
¾ m1 = 15, m2 = 40
QKѭ WKӃ nào ?
%¬,7Ұ3
Trang 24Natio nal
gom nhóm.
b) 7ҥR ma WUұQ KӛQ ORҥQ (so YӟL FӝW response) và tính ÿӝ ÿR
entropy và purity cho 2 nhóm WҥR ra Wӯ câu a).