Gom nhóm dữ liệu
Trang 2Cho CSDL D={t 1 ,t 2 ,…,t n } và số nguyên k, gom nhóm là bài toán xác định ánh xạ f : D{1,…,k}
sao cho mỗi t i được gán vào một nhóm (lớp) K j ,
1 ≤≤≤≤ j ≤≤≤≤ k
Không ging bài toán phân lp, các
Trang 3PHÂN LỚP <> GOM NHÓM
Phân lớp : học có giám sát (Supervised learning)
Tìm phương pháp để dự đoán lớp của mẫu mới từ các mẫu đã gán nhãn lớp (phân lớp) trước
Gom nhóm : học không giám sát (Unsupervised learning )
Tìm các nhóm/cụm/lớp “tự nhiên” của các mẫu chưa được gán nhãn
PHÂN LỚP <> GOM NHÓM
Trang 4Giảm kích thước dữ liệu lớn
Sun-DOWN
Technology1-DOWN
2 Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN
Technology2-DOWN
3 Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN
4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Oil-UP
GIỚI THIỆU
Trang 5GIỚI THIỆU
trong CSDL khách hàng để xây dựng chương trình tiếp thị có mục tiêu
Đ t đai : xác định các vùng đất trồng trọt
giống nhau trong CSDL quan sát trái đất
Bo him : tìm nhóm khách hàng có khả
năng hay gặp tai nạn
Nghiên cu đ ng đt : gom nhóm các
tâm chấn động đất quan sát được theo vết nứt lục địa
VÍ DỤ : Gom nhóm các ngôi nhà
Dựa trên khoảng cách địa lý
Trang 6VÍ DỤ : Gom nhóm các ngôi nhà
Dựa trên kích thước
VÍ DỤ : Gom nhóm
Trang 7… In 0.5 0.2 0.3
GIỚI THIỆU
2 Tiêu chuẩn gom nhóm :
Phương pháp gom nhóm tốt là phương pháp sẽ tạo các nhóm có chất lượng :
S ging nhau gia đi tng trong cùng m t nhóm cao Gia các nhóm thì s ging nhau thp.
Khoảng cách giữa các nhóm là max
Khoảng cách
bên trong nhóm
là min
Trang 8GIỚI THIỆU
2. Tiêu chuẩn gom nhóm (tt):
Chất lượng của kết quả gom nhóm dựa trên 2 yếu tố :
Đ đo s ging nhau dùng trong phơng pháp gom nhóm và
q q
j
x i
x j
x i
x j
x i x j
i
d ( , ) (| | | | | | )
2 2 1
|
|
|
| ) ,
(
2 2 1
i x j
i
Trang 9|
|(|
)
,
2 2
2 1
1 x j x i x j x i p x j p
i x j
Các kiểu dữ liệu khác nhau yêu cầu độ
đo sự khác nhau cũng khác nhau.
Các biến tỷ lệ theo khoảng : Khoảng cách Euclide
Trang 10Phương pháp dựa trên mật độ
Phương pháp dựa trên lưới
Phương pháp dựa trên mô hình
Trang 11PHƯƠNG PHÁP PHÂN HOẠCH
1. Khái niệm cơ bản :
Phương pháp phân hoạch : xây dựng k (k<n) phân hoạch của CSDL D gồm n đối tượng Mỗi phân hoạch
– 1 nhóm/cụm
Cho số k, cần tìm k nhóm thỏa mãn tiêu chuẩn phân hoạch đã chọn ( ví dụ độ đo bình phương sai - SSE nhỏ nhất).
Biểu diễn mỗi nhóm bằng giá tr trung bình của dữ liệu trong nhóm đó : thut toán K-means (1967)
Biểu diễn nhóm bằng một đi tng nằm gần trung tâm của nhóm : thut toán k-medoids, PAM (1987)
22
PHƯƠNG PHÁP PHÂN HOẠCH
1 Khái niệm cơ bản (tt):
Công thức tính Bình phơng sai ( Sum of Squared Error - SSE)
Vi x là m t đim DL trong nhóm C i và m i là đim đi din cho nhóm (đim TB nhóm hoc đim trung tâm nhóm), K-s nhóm dist (): khong cách Euclide
1
2
) , (
Ví dụ : ta có 2 nhóm/cụm với các trung tâm tương ứng
m 1 =3, m 2 =4
K 1 ={2,3}, K 2 ={4,10,12,20,30,11,25}
SSE = 1 2 +0+0+6 2 +8 2 +16 2 +26 2 +7 2 +21 2 =1523
Trang 12PHƯƠNG PHÁP PHÂN HOẠCH
2. Thuật toán k-means :
Cho s k, mi nhóm đc biu di n b!ng giá tr TB c"a DL trong nhóm
B1: Chọn ngẫu nhiên k đối tượng như là những trung tâm
của các nhóm
B2 : Gán t#ng đi tng còn li vào nhóm có trung tâm nhóm g$n nó nht (da trên đ đo khong cách Euclide)
B3 : Tính lại giá trị trung tâm của từng nhóm
Di chuyển trung tâm nhóm về = giá trị TB mới của nhóm
Cho nhóm K i ={t i1 ,t i2 ,…,t im }, giá tr trung bình c"a nhóm là
Trang 13k1
k2
k3X
Trang 16Thuật toán K-means
Ư u điểm :
Đơn giản, dễ hiểu, tương đối hiệu quả.
nhóm.
Thường đạt được tối ưu cục bộ.
Trang 17PHƯƠNG PHÁP PHÂN HOẠCH
3. Thuật toán k-medoids : PAM
Cho s k, mi nhóm đc biu di n b!ng m t trong các đối tượng gần trung tâm nhóm nht
B1: Chọn ngẫu nhiên k đối tượng như là
Trang 18PHƯƠNG PHÁP PHÂN HOẠCH
3. Thuật toán k-medoids (tt):
Trang 194
5 6
Hai loại phân cấp chính :
Tích tụ : từ dưới lên trên, mỗi đối tượng là một nhóm Chia nhỏ : từ trên xuống, tất cả các đối tượng là 1 nhóm
Thut toán :
AGNES, DIANA
BIRCH (Balance Iterative Reducing & Clustering using Hierachies)
CURE (Clustering Using Representative)
ROCK (Robust Clustering using linKs)
CHAMELEON
Trang 20Step 2
Step 3
Step 4
Step 2
Step 1
Step 0
Tích t ụụụụ
(agglomerative)
(divisive)
Trang 21B3 : Nếu thu được nhóm “toàn bộ” thì dừng, ngược lại quay lại B2.
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
0 2 3 4 6 7 9 10
0 1 2 3 4 5 6 7 8 9 10
Trang 22VÍ DỤ : THUẬT TOÁN AGNES
Xây dựng ma trận khoảng cách (độ đo Euclide) giữa các điểm
Trang 23• Trong số các nhóm gồm một điểm thì dist(3,6) - min
nên gộp điểm P3 và P6 với nhau thành một nhóm
Trang 24Sơ đồ hình cây
Trang 25Không thể quay lui về bước trước
Khó xác định phương pháp tích tụ hay chia nhỏ
Nhạy cảm với nhiễu, cá biệt
hình dáng l,i
Có xu hng phân chia các nhóm DL ln
phơng pháp phân hoch (da trên khong cách) : BIRCH, CURE, CHAMELEON
Trang 26TÀI LIỆU THAM KHẢO
1. J.Han, M.Kamber, Chương 8 – Data mining : Concepts and Techniques
http://www.cs.sfu.ca/~han/dmbook
http://www-faculty.cs.uiuc.edu/~hanj/bk2/slidesindex.html : 2 nd
3. P.-N Tan, M Steinbach, V Kumar, Chương 8
- Introduction to Data Mining
2. Thế nào là gom nhóm? Trình bày chi tiết phương pháp phân hoạch, phân cấp Cho ví
dụ cụ thể từng phương pháp So sánh ưu, khuyết điểm của 2 phương pháp
BÀI TẬP
Trang 27– Ba trung tâm của nhóm sau vòng lặp thi hành đầu tiên Tính
độ đo SSE cho các nhóm.
– Ba nhóm kết quả cuối cùng Tính độ đo SSE cho các nhóm.
tng đã cho S1 dng k-mean (k=3) đ xác đnh các
Complete link đ xác đnh 3 nhóm t# DL trên V2 sơ đ, hình cây tơng ng
b) Chuẩn hóa CSDL vàgom cụm với k = 2 hoặc 3
So sánh kết quả với câu a).c) So sánh thành phần cụm (2-mean) với hai lớp trong bài tập 3 –Bài 4 – Phần 2
Trang 28Bài tập
5 Cho tập DL gồm 5
điểm trong không
gian 2 chiều với ma
trận khoảng cách đã
cho Sử dụng thuật
toán AGNES lần lượt
với Single Link và
Complete link để gom
P5
0.76 0.00 0.44 0.47 0.55
P4
0.85 0.44 0.00 0.64 0.41
P3
0.98 0.47 0.64 0.00 0.10
P2
0.35 0.55 0.41 0.10 0.00
P1
P5 P4 P3 P2 P1
Trang 29Q & A
57