1. Trang chủ
  2. » Công Nghệ Thông Tin

Gom nhóm dữ liệu

29 874 8
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Gom Nhóm Dữ Liệu
Tác giả Nguyễn Hoàng Tú Anh
Trường học Trường Đại Học
Chuyên ngành Khoa Học Dữ Liệu
Thể loại Bài
Định dạng
Số trang 29
Dung lượng 761,22 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Gom nhóm dữ liệu

Trang 2

Cho CSDL D={t 1 ,t 2 ,…,t n } và số nguyên k, gom nhóm là bài toán xác định ánh xạ f : D{1,…,k}

sao cho mỗi t i được gán vào một nhóm (lớp) K j ,

1 ≤≤≤≤ j ≤≤≤≤ k

Không ging bài toán phân lp, các

Trang 3

PHÂN LỚP <> GOM NHÓM

Phân lớp : học có giám sát (Supervised learning)

Tìm phương pháp để dự đoán lớp của mẫu mới từ các mẫu đã gán nhãn lớp (phân lớp) trước

Gom nhóm : học không giám sát (Unsupervised learning )

Tìm các nhóm/cụm/lớp “tự nhiên” của các mẫu chưa được gán nhãn

PHÂN LỚP <> GOM NHÓM

Trang 4

Giảm kích thước dữ liệu lớn

Sun-DOWN

Technology1-DOWN

2 Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN

Technology2-DOWN

3 Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN

4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Oil-UP

GIỚI THIỆU

Trang 5

GIỚI THIỆU

trong CSDL khách hàng để xây dựng chương trình tiếp thị có mục tiêu

Đ t đai : xác định các vùng đất trồng trọt

giống nhau trong CSDL quan sát trái đất

Bo him : tìm nhóm khách hàng có khả

năng hay gặp tai nạn

Nghiên cu đ ng đ t : gom nhóm các

tâm chấn động đất quan sát được theo vết nứt lục địa

VÍ DỤ : Gom nhóm các ngôi nhà

Dựa trên khoảng cách địa lý

Trang 6

VÍ DỤ : Gom nhóm các ngôi nhà

Dựa trên kích thước

VÍ DỤ : Gom nhóm

Trang 7

… In 0.5 0.2 0.3

GIỚI THIỆU

2 Tiêu chuẩn gom nhóm :

Phương pháp gom nhóm tốt là phương pháp sẽ tạo các nhóm có chất lượng :

S ging nhau gia đi tng trong cùng m t nhóm cao Gia các nhóm thì s ging nhau th p.

Khoảng cách giữa các nhóm là max

Khoảng cách

bên trong nhóm

là min

Trang 8

GIỚI THIỆU

2. Tiêu chuẩn gom nhóm (tt):

Chất lượng của kết quả gom nhóm dựa trên 2 yếu tố :

Đ đo s ging nhau dùng trong phơng pháp gom nhóm và

q q

j

x i

x j

x i

x j

x i x j

i

d ( , ) (| | | | | | )

2 2 1

|

|

|

| ) ,

(

2 2 1

i x j

i

Trang 9

|

|(|

)

,

2 2

2 1

1 x j x i x j x i p x j p

i x j

Các kiểu dữ liệu khác nhau yêu cầu độ

đo sự khác nhau cũng khác nhau.

 Các biến tỷ lệ theo khoảng : Khoảng cách Euclide

Trang 10

Phương pháp dựa trên mật độ

Phương pháp dựa trên lưới

Phương pháp dựa trên mô hình

Trang 11

PHƯƠNG PHÁP PHÂN HOẠCH

1. Khái niệm cơ bản :

Phương pháp phân hoạch : xây dựng k (k<n) phân hoạch của CSDL D gồm n đối tượng Mỗi phân hoạch

– 1 nhóm/cụm

Cho số k, cần tìm k nhóm thỏa mãn tiêu chuẩn phân hoạch đã chọn ( ví dụ độ đo bình phương sai - SSE nhỏ nhất).

Biểu diễn mỗi nhóm bằng giá tr trung bình của dữ liệu trong nhóm đó : thut toán K-means (1967)

Biểu diễn nhóm bằng một đi tng nằm gần trung tâm của nhóm : thut toán k-medoids, PAM (1987)

22

PHƯƠNG PHÁP PHÂN HOẠCH

1 Khái niệm cơ bản (tt):

Công thức tính Bình phơng sai ( Sum of Squared Error - SSE)

Vi x là m t đim DL trong nhóm C i và m i là đim đi din cho nhóm (đim TB nhóm hoc đim trung tâm nhóm), K-s nhóm dist (): khong cách Euclide

1

2

) , (

 Ví dụ : ta có 2 nhóm/cụm với các trung tâm tương ứng

m 1 =3, m 2 =4

 K 1 ={2,3}, K 2 ={4,10,12,20,30,11,25}

 SSE = 1 2 +0+0+6 2 +8 2 +16 2 +26 2 +7 2 +21 2 =1523

Trang 12

PHƯƠNG PHÁP PHÂN HOẠCH

2. Thuật toán k-means :

Cho s k, mi nhóm đc biu di n b!ng giá tr TB c"a DL trong nhóm

 B1: Chọn ngẫu nhiên k đối tượng như là những trung tâm

của các nhóm

 B2 : Gán t#ng đi tng còn li vào nhóm có trung tâm nhóm g$n nó nh t (da trên đ đo khong cách Euclide)

 B3 : Tính lại giá trị trung tâm của từng nhóm

 Di chuyển trung tâm nhóm về = giá trị TB mới của nhóm

 Cho nhóm K i ={t i1 ,t i2 ,…,t im }, giá tr trung bình c"a nhóm là

Trang 13

k1

k2

k3X

Trang 16

Thuật toán K-means

Ư u điểm :

 Đơn giản, dễ hiểu, tương đối hiệu quả.

nhóm.

 Thường đạt được tối ưu cục bộ.

Trang 17

PHƯƠNG PHÁP PHÂN HOẠCH

3. Thuật toán k-medoids : PAM

Cho s k, mi nhóm đc biu di n b!ng m t trong các đối tượng gần trung tâm nhóm nh t

 B1: Chọn ngẫu nhiên k đối tượng như là

Trang 18

PHƯƠNG PHÁP PHÂN HOẠCH

3. Thuật toán k-medoids (tt):

Trang 19

4

5 6

Hai loại phân cấp chính :

Tích tụ : từ dưới lên trên, mỗi đối tượng là một nhóm Chia nhỏ : từ trên xuống, tất cả các đối tượng là 1 nhóm

Thut toán :

AGNES, DIANA

BIRCH (Balance Iterative Reducing & Clustering using Hierachies)

CURE (Clustering Using Representative)

ROCK (Robust Clustering using linKs)

CHAMELEON

Trang 20

Step 2

Step 3

Step 4

Step 2

Step 1

Step 0

Tích t ụụụụ

(agglomerative)

(divisive)

Trang 21

B3 : Nếu thu được nhóm “toàn bộ” thì dừng, ngược lại quay lại B2.

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

0 2 3 4 6 7 9 10

0 1 2 3 4 5 6 7 8 9 10

Trang 22

VÍ DỤ : THUẬT TOÁN AGNES

 Xây dựng ma trận khoảng cách (độ đo Euclide) giữa các điểm

Trang 23

• Trong số các nhóm gồm một điểm thì dist(3,6) - min

nên gộp điểm P3 và P6 với nhau thành một nhóm

Trang 24

Sơ đồ hình cây

Trang 25

Không thể quay lui về bước trước

Khó xác định phương pháp tích tụ hay chia nhỏ

Nhy cảm với nhiễu, cá biệt

hình dáng l,i

Có xu hng phân chia các nhóm DL ln

phơng pháp phân hoch (da trên khong cách) : BIRCH, CURE, CHAMELEON

Trang 26

TÀI LIỆU THAM KHẢO

1. J.Han, M.Kamber, Chương 8 – Data mining : Concepts and Techniques

http://www.cs.sfu.ca/~han/dmbook

http://www-faculty.cs.uiuc.edu/~hanj/bk2/slidesindex.html : 2 nd

3. P.-N Tan, M Steinbach, V Kumar, Chương 8

- Introduction to Data Mining

2. Thế nào là gom nhóm? Trình bày chi tiết phương pháp phân hoạch, phân cấp Cho ví

dụ cụ thể từng phương pháp So sánh ưu, khuyết điểm của 2 phương pháp

BÀI TẬP

Trang 27

– Ba trung tâm của nhóm sau vòng lặp thi hành đầu tiên Tính

độ đo SSE cho các nhóm.

– Ba nhóm kết quả cuối cùng Tính độ đo SSE cho các nhóm.

tng đã cho S1 dng k-mean (k=3) đ xác đnh các

Complete link đ xác đnh 3 nhóm t# DL trên V2 sơ đ, hình cây tơng ng

b) Chuẩn hóa CSDL vàgom cụm với k = 2 hoặc 3

So sánh kết quả với câu a).c) So sánh thành phần cụm (2-mean) với hai lớp trong bài tập 3 –Bài 4 – Phần 2

Trang 28

Bài tập

5 Cho tập DL gồm 5

điểm trong không

gian 2 chiều với ma

trận khoảng cách đã

cho Sử dụng thuật

toán AGNES lần lượt

với Single Link và

Complete link để gom

P5

0.76 0.00 0.44 0.47 0.55

P4

0.85 0.44 0.00 0.64 0.41

P3

0.98 0.47 0.64 0.00 0.10

P2

0.35 0.55 0.41 0.10 0.00

P1

P5 P4 P3 P2 P1

Trang 29

Q & A

57

Ngày đăng: 31/08/2012, 16:13

HÌNH ẢNH LIÊN QUAN

Sơ đồ hình cây - Gom nhóm dữ liệu
Sơ đồ h ình cây (Trang 7)
Hình cây ti mc thích hp. - Gom nhóm dữ liệu
Hình c ây ti mc thích hp (Trang 19)
Sơ đồ hình cây - Gom nhóm dữ liệu
Sơ đồ h ình cây (Trang 24)

TỪ KHÓA LIÊN QUAN

w