1. Trang chủ
  2. » Công Nghệ Thông Tin

THUậT TOÁN KMEAN và ỨNG DụNG

28 854 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

PHÂN CụM Quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn:  Các đối tượng trong 1 cụm “tương tự” nhau..  Giải quyết vấn đề tìm kiếm, phát hiện các cụm, các mẫu

Trang 1

THUậT TOÁN K-MEAN

VÀ ỨNG DụNG

GVHD: CN.Trần Nam Khánh SV: Phạm Huyền Trang

Trang 2

NộI DUNG CHÍNH

I. Phân cụm

II. Thuật toán K-Mean

1 Khái quát về thuật toán

2 Các bước của thuật toán

3 Ví dụ minh họa – Demo thuật toán

4 Đánh giá thuật toán

5 Tổng quát hóa và Các biến thể

I. Ứng dụng của thuật toán K-Mean

Trang 3

I PHÂN CụM

 Quá trình phân chia 1 tập dữ liệu ban đầu thành các

cụm dữ liệu thỏa mãn:

 Các đối tượng trong 1 cụm “tương tự” nhau.

 Các đối tượng khác cụm thì “không tương tự” nhau.

 Giải quyết vấn đề tìm kiếm, phát hiện các cụm, các

mẫu dữ liệu trong 1 tập hợp ban đầu các dữ liệu không

Trang 6

I PHÂN CụM

 Xác định được bản chất của việc nhóm các đối tượng

trong 1 tập dữ liệu không có nhãn

 Phân cụm không dựa trên 1 tiêu chuẩn chung nào, mà

dựa vào tiêu chí mà người dùng cung cấp trong từng

Trang 7

I PHÂN CụM

 Phân cụm phân hoạch

 Phân cụm phân cấp

 Phân cụm dựa trên mật độ

 Phân cụm dựa trên lưới

 Phân cụm dựa trên mô hình

Trang 8

II.PHÂN CụM PHÂN HOạCH

 Phân 1 tập dữ liệu có n phần tử cho trước thành k tập

con dữ liệu (k ≤ n), mỗi tập con biểu diễn 1 cụm

 Các cụm hình thành trên cơ sở làm tối ưu giá trị hàm đo

độ tương tự sao cho:

 Các đối tượng trong 1 cụm là tương tự.

 Các đối tượng trong các cụm khác nhau là không tương tự

nhau.

 Đặc điểm:

 Mỗi đối tượng chỉ thuộc về 1 cụm.

 Mỗi cụm có tối thiểu 1 đối tượng.

 Một số thuật toán điển hình : K-mean, PAM, CLARA,…

Trang 9

II.2 Thuật toán K-Means

 Input

 Tập các đối tượng X = {xi| i = 1, 2, …, N},

 Số cụm: K

 Output

 Các cụm Ci ( i = 1 ÷ K) tách rời và hàm tiêu chuẩn E đạt

giá trị tối thiểu

d i

Trang 10

II.1 KHÁI QUÁT Về THUậT TOÁN

 Thuật toán hoạt động trên 1 tập vectơ d chiều, tập dữ liệu

Trang 11

II.1 KHÁI QUÁT Về THUậT TOÁN

 Hàm đo độ tương tự sử dụng khoảng cách Euclidean

E =

trong đó cj là trọng tâm của cụm Cj

 Hàm trên không âm, giảm khi có 1 sự thay đổi trong 1

trong 2 bước: gán dữ liệu và định lại vị trí tâm

2 1

Trang 12

II.2 CÁC BƯớC CủA THUậT TOÁN

 Bước 1 - Khởi tạo

Chọn K trọng tâm {ci} (i = 1÷K)

 Bước 2 - Tính toán khoảng cách

= { for all = 1, …, k}

 Bước 3 - Cập nhật lại trọng tâm

 Bước 4 – Điều kiện dừng

Lặp lại các bước 2 và 3 cho tới khi không có sự thay đổi

Trang 13

II.2. CÁC B Ướ C C A THU T TOÁN ủ ậ

K t thúc ế

+ -

Trang 16

II.3 VÍ D  MINH H A ụ ọ

B ướ c 2: Tính toán kho ng cáchả

 d(C, c1)   = 

       = 13d(C, c2)   =

       = 8 d(C, c1)  >  d(C, c2)     C thu c c m 2ộ ụ

  d(D, c1)  = 

       = 25d(D, c2)   =

        = 18d(D,c1)  >  d(D, c2)   D thu c c m 2ộ ụ

Trang 17

2 4 5 1 3 4 ( , )

Trang 19

II.3 VÍ Dụ MINH HọA

B ướ c 4­2: L p l i b c 3­C p nh t tr ng tâmặ ạ ướ ậ ậ ọ

Trang 20

II.3 VÍ Dụ MINH HọA

B ướ c 4­3: L p l i b c 2ặ ạ ướ

Trang 22

II.4 ĐÁNH GIÁ THU T TOÁN –  U  ậ Ư

5. Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu

6. Các cụm không phân cấp và không bị chồng chéo dữ

liệu lên nhau

7. Mọi thành viên của 1 cụm là gần với chính cụm đó hơn

Trang 23

II.4 ĐÁNH GIÁ THUậT TOÁN – NHƯợC

ĐIểM

1 Không có khả năng tìm ra các cụm không lồi hoặc các

cụm có hình dạng phức tạp.

2 Khó khăn trong việc xác định các trọng tâm cụm ban đầu

- Chọn ngẫu nhiên các trung tâm cụm lúc khởi tạo

- Độ hội tụ của thuật toán phụ thuộc vào việc khởi tạo các vector trung tâm cụm

3 Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu,

mà phải qua nhiều lần thử để tìm ra được số lượng cụm

tối ưu.

4 Rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ

liệu.

5 Không phải lúc nào mỗi đối tượng cũng chỉ thuộc về 1

cụm, chỉ phù hợp với đường biên giữa các cụm rõ. 23

Trang 24

II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể

B. Các bi n thế ể

1. Thu t toán K­medoid: ậ

T ng t   thu t toán K­meanươ ự ậ

M i  c m  đ c  đ i  di n  b i  m t  trong  các ỗ ụ ượ ạ ệ ở ộ

đ i t ng c a c m.ố ượ ủ ụ

Ch n  đ i  t ng    g n  tâm  c m  nh t  làm ọ ố ượ ở ầ ụ ấ

Trang 25

II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể

2 Thu t toán Fuzzy c­mean (FCM): ậ

 Chung chi n l c phân c m v i K­mean ế ượ ụ ớ

 N u K­mean là phân c m d  li u c ng (1 đi m d   ế ụ ữ ệ ứ ể ữ

li u ch  thu c v  1 c m) thì FCM là phân c m d   ệ ỉ ộ ề ụ ụ ữ

li u m  (1 đi m d  li u có th  thu c v  nhi u h n  ệ ờ ể ữ ệ ể ộ ề ề ơ

1 c m v i 1 xác su t nh t đ nh) ụ ớ ấ ấ ị

 Thêm y u t  quan h  gi a các ph n t  và các c m  ế ố ệ ữ ầ ử ụ

d  li u thông qua các tr ng s  trong ma tr n bi u  ữ ệ ọ ố ậ ể

bi n b c c a các thành viên v i 1 c m ễ ậ ủ ớ ụ

 FCM kh c ph c đ c các c m d  li u ch ng nhau  ắ ụ ượ ụ ữ ệ ồ

trên các t p d  li u có kích th c l n h n, nhi u  ậ ữ ệ ướ ớ ơ ề chi u  và  nhi u  nhi u,  song  v n  nh y  c m  v i  ề ề ễ ẫ ạ ả ớ nhi u và các ph n t  ngo i lai ễ ầ ử ạ 25

Trang 26

III ứNG DụNG CủA THUậT TOÁN

 Phân cụm tài liệu web

1. Tìm kiếm và trích rút tài liệu

2. Tiền xử lý tài liệu: Quá trình tách từ và vecto hóa tài

liệu: tìm kiếm và thay thế các từ bới chỉ số của từ đó

trong từ điển.Biểu diễn dữ liệu dưới dạng vectơ

Trang 27

TÀI LIệU THAM KHảO

Tài liệu chính: [WKQ08] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep

Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip

S Yu , Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg (2008) Top 10

algorithms in data mining, Knowl Inf Syst (2008) 14:1–37

 Pavel Berkhin () Survey of Clustering Data Mining Techniques

Ngày đăng: 18/10/2014, 21:30

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w