THUẬT TOÁN CHAMELEON DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON

THUẬT TOÁN CHAMELEON DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON. PowerPoint Presentation THUẬT TOÁN CHAMELEON DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON Giới thiệu Giới thiệu Thuật toán chameleon nguyên bản Thuật toán đề xuất Đánh giá hiệu suất K.

Trang 1

THUẬT TOÁN CHAMELEON DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC

CỤM CON

Trang 2

Giới thiệu

Giới thiệu

Thuật toán chameleon nguyên bản

Thuật toán đề xuất

Đánh giá hiệu suất

Kết luận

Trang 3

Giới thiệu

Phân cụm dữ liệu (Clustering):

Công cụ quan trọng của công nghệ khai thác dữ liệu và là một trong những phương pháp phân tích dữ liệu phổ biến nhất

Phân chia các trường hợp tương tự vào cùng một cụm theo các đặc điểm của dữ liệu đối tượng, trong khi mức độ tương tự của các cá thể giữa các cụm khác nhau là rất thấp

Phân thành 5 lớp: phân cụm dựa trên phân vùng, phân cụm dựa trên mật độ, phân cụm dựa trên lưới, phân cụm dựa trên mô hình, phân cụm phân cấp

Trang 4

Giới thiệu

Nhược điểm của phân cụm truyền thống:

 Nhiều thuật toán không tạo ra kết quả phân cụm hơn con người

Một số gán các nhãn chính xác cho một cụm, trong khi nhiều thuật toán khác chấp nhận gán mờ cho nhiều cụm khác

Nhược điểm chính của các phương pháp phân cụm dựa trên nguyên mẫu là gán các điểm dữ liệu cho centroid gần nhất, các phương pháp như vậy không thể phát hiện ra các cụm không phải hình cầu.

Trang 5

Giới thiệu

Phân cụm phân cấp (Hierarchical clustering):

 Là một trong những thuật toán phân cụm phổ biến nhất

 Biểu diển phổ biến:

 BIRCH: Lặp lại cân bằng giảm và phân cụm bằng cách sử dung cấu trúc phân cấp

 CURE: Phân cụm dựa vào đại diện, sử dụng trung điểm dựa vào trọng tâm và điểm toàn phần cực trị

 ROCK: Phân cụm mạnh mẽ dựa vào các liên kết, cân nhắc sự giống nhau giữa một cặp dữ liệu đối tượng

Vấn đề phân cấp gặp phải là cần lựa chọn đại lượng c cẩn thận trước khi thực hiện hợp nhất hoặc phân tách cụm bởi khi hai cụm được hợp nhất thành một cụm mới hoặc một cụm được phân tách thành hai cụm mới, quá trình xử lý tiếp theo sẽ hoạt động trên cụm mới

và quá trình xử lý trước đó không thể bị thu hồi.

Trang 6

Giới thiệu

Thuật toán Chameleon:

Là một thuật toán phân cụm dựa trên đồ thị, cố gắng khắc phục những hạn chế của phương pháp phân cụm truyền thống

Hoạt động bằng cách kết nối các điểm dữ liệu gần nhau cũng như có tính đến thuộc tính các cụm bên trong khi hợp nhất chúng với nhau

Không giống các thuật toán khác, Chameleon tạo ra kết quả giống con người nhất có thể

Trang 9

Thuật toán Chameleon nguyên bản

 Hoạt động trên biểu đồ biểu diễn dữ liệu

 Thuật toán Chameleon gồm 3 bước:

 Bước 1: Xây dựng đồ thị kNN cho tập điểm dữ liệu (nếu đồ thị đã có,

bỏ qua bước này).

 Bước 2: Phân rã đồ thị được tạo ra thành các phân vùng nhỏ có kích thước gần bằng nhau bởi thuật toán hMetis, giảm thiểu số lượng cạnh

bị cắt (với cạnh bị cắt là cạnh có trọng số nhỏ, bằng với đảo ngược khoảng cách của 2 điểm) Sau khi phân vùng, nhiều cụm nhỏ có kết nối cao được hình thành

 Bước 3: Hợp nhật là bước cuối cùng và quan trọng nhất, nếu không được chọn lựa tốt nó có thể trực tiếp dẫn đến kết quả phân cụm kém Thuật toán xem xét tới độ tương đồng giữa từng cặp cụm (bao gồm tính liên kết tương đối và tính gần gũi tương đối).

Trang 10

Thuật toán Chameleon nguyên bản

Trang 13

Thuật toán đề xuất

Thuật toán chameleon dựa trên cải thiện biểu đồ lân cận tự nhiên tạo các cụm con (INNGS Chameleon):

 Phương pháp lân cận tự nhiên tạo một biểu đồ có thể áp dụng theo các tính năng cục bộ của các loại tập dữ liệu

 Để áp dung tốt hơn cho thuật toán chameleon, một thuật toán lân cận

tự nhiên được cải tiến để xây dựng biểu đồ lân cận tự nhiên và áp dụng trong giai đoạn thưa thớt

 Sau đó, một phương pháp tạo ra các cụm con trên cải thiện đồ thị vùng lân cận tự nhiên được áp dụng cho giai đoạn thứ hai của thuật toán

 Phương pháp này tạo thành các cụm trên mối quan hệ lân cận giữa

dữ liệu và tận dụng tốt biểu đồ lân cận tự nhiên để xác định các cụm

cơ bản, đặc biệt là cụm phổ biến và nhiễu

Trang 14

Quy trình chính của Chameleon INNGS

Dữ liệu đầu vào: Tập dữ liệu mẫu X và số lượng cụm m

Dữ liệu đầu ra: Kết quả phân cụm

Các bước thực hiện:

Bước 1: Xây dựng đồ thị lân cận tự nhiên GINN theo thuật toán 1

Bước 2: Sinh các cụm theo thuật toán 2

Bước 3: Tính độ tương đồng giữa các cụm theo công thức 3

Bước 4: Chọn hai cụm con có giá trị tương đồng cao nhất để hợp nhất và kết quả được hợp nhất sẽ được sử dụng như một cụm mới

Bước 5: Lặp lại bước 3-4 cho đến khi hợp nhất thành m cụm

Trang 15

Xây dựng đồ thị GINN

Trang 16

Trang 17

Bước 3: Đánh giá số thành phần liên thông c của đồ thị có lớn hơn số cụm m Nếu c <= m tới bước 4, ngược lại tiếp tục tìm kiếm và tăng r lên thành r + 1

Bước 4: Thêm các cạnh giữa các điểm dữ liệu là lân cận tự nhiên của nhau

Bước 5: Trả về kết quả đồ thị GINN

Trang 18

Bước 5: Xác định tâm của cụm tiếp theo

Thuật toán được sử dụng xác định tâm các cụm ở đây là k-mean++

Trang 19

Bước 8: Gán các đối tượng không phải tâm với tâm gần nhất

Bước 9: Trả về kết quả là các cụm mới

Trang 20

Ví dụ từng bước cho thuật toán

Giả sử với toạ độ điểm như trên,

kết quả đầu ra là 3 cụm con

Trang 21

Trang 22

Trang 23

Trang 24

Trang 25

Trang 26

Đánh giá hiệu suất

Trang 29

Kết luận

 Chameleon lần đầu tiên sử dụng ý tưởng áp dung lân cận tự nhiên và đã chứng minh được khả năng xây dựng biểu đồ thưa thớt tránh các giá trị nhiễu

 Áp dụng phương pháp tạo cụm con phân vùng đồ thị mới, đơn giản hơn

 Chứng minh được hiệu quả của thuật toán có kết quả tốt hơn thuật toán Chameleon truyền thống và Achameleon

 Có thể áp dung cho các tập dữ liệu có nhiều hình dạng và mật độ khác nhau và có thể đạt được trạng thái bão hoà

 Có chi phí về thời gian cao trong xử lý dữ liệu lớn nhiều chiều mà đây cũng là khuyết điểm của các thuật toán phân cụm phân cấp do đó để áp dụng vào dữ liệu lớn đa chiều cần phải được nghiên cứu kỹ lưỡng hơn.

Trang 30

Cảm ơn Trân trọng

Định dạng
Số trang	30
Dung lượng	3,02 MB