1. Trang chủ
  2. » Cao đẳng - Đại học

Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 4

21 19 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 1,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Gom cụm dữ liệu Gom cụm: Clustering  Dữ liệu phát sinh trong quá trình tác nghiệp gọi là dữ liệu thô,  Để có thể khai phá các khía cạnh khác của dữ liệu chúng cần phải biến đổi về d

Trang 1

Chương 4 Khai phá dữ liệu

cuu duong than cong com

Trang 2

Nội dung

1. Tiền xử lý dữ liệu.

2. Phương pháp khai phá bằng luật kết hợp.

3. Phương pháp cây quyết định.

Trang 3

Gom cụm dữ liệu

cuu duong than cong com

Trang 4

Gom cụm dữ liệu

4

cuu duong than cong com

Trang 5

Gom cụm dữ liệu

 Gom cụm: Clustering

 Dữ liệu phát sinh trong quá trình tác nghiệp gọi

là dữ liệu thô,

 Để có thể khai phá các khía cạnh khác của dữ

liệu chúng cần phải biến đổi về dạng thích hợp,

cuu duong than cong com

Trang 6

Độ đo trong gom cụm dữ liệu

Xét hai đối tượng dữ liệu (bản ghi) ri và rj , mỗi đối tượng có

2 2

2 1

( )

,

jn in

j i

j i

Trang 7

Độ đo trong gom cụm dữ liệu

Trọng tâm cụm ( mean / centroid ):

i

i m

2 1

1, , , 1

cuu duong than cong com

Trang 8

Một số thuật giải gom cụm dữ liệu

 Hierarchical Agglomerative Clustering (HAC)

Trang 9

Một số thuật giải gom cụm dữ liệu

cuu duong than cong com

Trang 10

Một số thuật giải gom cụm dữ liệu

 Gán mỗi đối tượng ri cho cụm mà khoảng cách từ đối

tượng đến trọng tâm cụm là nhỏ nhất trong số k cụm;

 Xác định lại trọng tâm cho mỗi cụm dựa trên các đối

tượng được gán cho cụm;

End; CuuDuongThanCong.com https://fb.com/tailieudientucntt 10

cuu duong than cong com

Trang 11

Một số thuật giải gom cụm dữ liệu

 Giải thuật hội tụ: không còn sự phân chia lại các đối

không đổi Lúc đó tổng các tổng khoảng cách từ các đối tượng thuộc cụm đến trọng tâm cụm là cực tiểu:

min )

d J

cuu duong than cong com

Trang 12

Một số thuật giải gom cụm dữ liệu

liên tục thay đổi Khi này có các lựa chọn:

 Dừng giải thuật khi số lượng vòng lặp vượt quá một

ngưỡng nào đó định trước

 Dừng giải thuật khi giá trị J nhỏ hơn một ngưỡng nào

đó định trước

 Dừng giải thuật khi hiệu giá trị của J trong hai vòng

lặp liên tiếp nhỏ hơn một ngưỡng nào đó định trước:

12

cuu duong than cong com

Trang 13

 Phân dữ liệu sau thành 2 cụm (K=2).

Thuật giải K-means

cuu duong than cong com

Trang 14

Bước 1: Chọn tâm ban đầu

Bước 2: Tính lại tâm mới của cụm

Bước 3: Lặp lại các Bước 1 và Bước 2

B c

, A

c1  2 

} {

8 )

1 3 ( ) 2 4 ( )

, (

13 )

1 3 ( ) 1 4 ( )

, (

} {

18 )

1 4 ( ) 2 5 ( )

, (

5 )

1 4 ( ) 1 5 ( )

, (

2 2

2

2 2

1

2 2

2

2 2

1

B C

c C d

c C d

B D

c D d

c D d

 Dùng công thức tính khoảng cách (Euclidean) để lần lượt

tính khoảng cách từ các tâm đến từng đối tượng

 Gán đối tượng vào cụm mà khoảng cách từ đối tượng đến

tâm là gần hơn

Thuật giải K-means

cuu duong than cong com

Trang 15

Ý tưởng: tích lũy từ dưới lên

1 Ban đầu, mỗi đối tượng (bản ghi) dữ liệu được coi là

một cụm

lớn hơn với yêu cầu là khoảng cách giữa các đối

tượng trong nội bộ cụm là nhỏ

muốn, hoặc chỉ còn một cụm duy nhất chứa tất cả

Thuật giải HAC (Hierarchical

Agglomerative Clustering)

cuu duong than cong com

Trang 16

G : tập các cụm.

D : tập các đối tượng (bản ghi) dữ liệu cần phân cụm.

k : số lượng cụm mong muốn.

d0: ngưỡng khoảng cách giữa 2 cụm.

1 G = {{r} | r ∈ D }; //Khởi tạo G là tập các cụm chỉ gồm 1 đối tượng

2 Nếu | G | = k thì dừng thuật toán; //Đạt số lượng cụm mong muốn

3 Tìm hai cụm Si , Sj ∈ G có khoảng cách d (Si, Sj) là nhỏ nhất;

4 Nếu d (Si, Sj) > do thì dừng thuật toán; //Khoảng cách 2 cụm gần

nhất đã lớn hơn ngưỡng cho phép

Trang 17

 Single Link (đo khoảng cách gần nhất):

đó

Thuật giải HAC (Hierarchical

Agglomerative Clustering)

),(min

),

(

2

1 , 2

S r S

S S

Trang 18

 Complete Link (đo khoảng cách xa nhất):

Thuật giải HAC (Hierarchical

Agglomerative Clustering)

),(max

),

(

2

1 , 2

S r S

S S

Trang 19

 Centroid Link (đo khoảng cách trọng tâm):

Thuật giải HAC (Hierarchical

Agglomerative Clustering)

),

()

,(S1 S2 d m i m j

cuu duong than cong com

Trang 20

 Group Average Link (đo khoảng cách trung bình nhóm):

đó

Thuật giải HAC (Hierarchical

Agglomerative Clustering)

),

,(

2

1 , 2

1

2

S r S r

r r

d S

S

S S d

j i

Trang 21

Một số thuật giải gom cụm dữ liệu

 Ứng dụng:

 Hierarchical Agglomerative Clustering (HAC)

 Tạo ra cây phân cấp ngay trong quá trình

Ngày đăng: 18/09/2021, 17:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w