THUẬT TOÁN CHAMELEON DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON. PowerPoint Presentation THUẬT TOÁN CHAMELEON DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON Giới thiệu Giới thiệu Thuật toán chameleon nguyên bản Thuật toán đề xuất Đánh giá hiệu suất K.
Trang 1THUẬT TOÁN CHAMELEON DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC
CỤM CON
Trang 2Giới thiệu
Giới thiệu
Thuật toán chameleon nguyên bản
Thuật toán đề xuất
Đánh giá hiệu suất
Kết luận
Trang 3Giới thiệu
Phân cụm dữ liệu (Clustering):
Công cụ quan trọng của công nghệ khai thác dữ liệu và là một trong những phương pháp phân tích dữ liệu phổ biến nhất
Phân chia các trường hợp tương tự vào cùng một cụm theo các đặc điểm của dữ liệu đối tượng, trong khi mức độ tương tự của các cá thể giữa các cụm khác nhau là rất thấp
Phân thành 5 lớp: phân cụm dựa trên phân vùng, phân cụm dựa trên mật độ, phân cụm dựa trên lưới, phân cụm dựa trên mô hình, phân cụm phân cấp
Trang 4Giới thiệu
Nhược điểm của phân cụm truyền thống:
Nhiều thuật toán không tạo ra kết quả phân cụm hơn con người
Một số gán các nhãn chính xác cho một cụm, trong khi nhiều thuật toán khác chấp nhận gán mờ cho nhiều cụm khác
Nhược điểm chính của các phương pháp phân cụm dựa trên nguyên mẫu là gán các điểm dữ liệu cho centroid gần nhất, các phương pháp như vậy không thể phát hiện ra các cụm không phải hình cầu.
Trang 5Giới thiệu
Phân cụm phân cấp (Hierarchical clustering):
Là một trong những thuật toán phân cụm phổ biến nhất
Biểu diển phổ biến:
BIRCH: Lặp lại cân bằng giảm và phân cụm bằng cách sử dung cấu trúc phân cấp
CURE: Phân cụm dựa vào đại diện, sử dụng trung điểm dựa vào trọng tâm và điểm toàn phần cực trị
ROCK: Phân cụm mạnh mẽ dựa vào các liên kết, cân nhắc sự giống nhau giữa một cặp dữ liệu đối tượng
Vấn đề phân cấp gặp phải là cần lựa chọn đại lượng c cẩn thận trước khi thực hiện hợp nhất hoặc phân tách cụm bởi khi hai cụm được hợp nhất thành một cụm mới hoặc một cụm được phân tách thành hai cụm mới, quá trình xử lý tiếp theo sẽ hoạt động trên cụm mới
và quá trình xử lý trước đó không thể bị thu hồi.
Trang 6Giới thiệu
Thuật toán Chameleon:
Là một thuật toán phân cụm dựa trên đồ thị, cố gắng khắc phục những hạn chế của phương pháp phân cụm truyền thống
Hoạt động bằng cách kết nối các điểm dữ liệu gần nhau cũng như có tính đến thuộc tính các cụm bên trong khi hợp nhất chúng với nhau
Không giống các thuật toán khác, Chameleon tạo ra kết quả giống con người nhất có thể
Trang 9Thuật toán Chameleon nguyên bản
Hoạt động trên biểu đồ biểu diễn dữ liệu
Thuật toán Chameleon gồm 3 bước:
Bước 1: Xây dựng đồ thị kNN cho tập điểm dữ liệu (nếu đồ thị đã có,
bỏ qua bước này).
Bước 2: Phân rã đồ thị được tạo ra thành các phân vùng nhỏ có kích thước gần bằng nhau bởi thuật toán hMetis, giảm thiểu số lượng cạnh
bị cắt (với cạnh bị cắt là cạnh có trọng số nhỏ, bằng với đảo ngược khoảng cách của 2 điểm) Sau khi phân vùng, nhiều cụm nhỏ có kết nối cao được hình thành
Bước 3: Hợp nhật là bước cuối cùng và quan trọng nhất, nếu không được chọn lựa tốt nó có thể trực tiếp dẫn đến kết quả phân cụm kém Thuật toán xem xét tới độ tương đồng giữa từng cặp cụm (bao gồm tính liên kết tương đối và tính gần gũi tương đối).
Trang 10Thuật toán Chameleon nguyên bản
Trang 13Thuật toán đề xuất
Thuật toán chameleon dựa trên cải thiện biểu đồ lân cận tự nhiên tạo các cụm con (INNGS Chameleon):
Phương pháp lân cận tự nhiên tạo một biểu đồ có thể áp dụng theo các tính năng cục bộ của các loại tập dữ liệu
Để áp dung tốt hơn cho thuật toán chameleon, một thuật toán lân cận
tự nhiên được cải tiến để xây dựng biểu đồ lân cận tự nhiên và áp dụng trong giai đoạn thưa thớt
Sau đó, một phương pháp tạo ra các cụm con trên cải thiện đồ thị vùng lân cận tự nhiên được áp dụng cho giai đoạn thứ hai của thuật toán
Phương pháp này tạo thành các cụm trên mối quan hệ lân cận giữa
dữ liệu và tận dụng tốt biểu đồ lân cận tự nhiên để xác định các cụm
cơ bản, đặc biệt là cụm phổ biến và nhiễu
Trang 14Thuật toán đề xuất
Quy trình chính của Chameleon INNGS
Dữ liệu đầu vào: Tập dữ liệu mẫu X và số lượng cụm m
Dữ liệu đầu ra: Kết quả phân cụm
Các bước thực hiện:
Bước 1: Xây dựng đồ thị lân cận tự nhiên GINN theo thuật toán 1
Bước 2: Sinh các cụm theo thuật toán 2
Bước 3: Tính độ tương đồng giữa các cụm theo công thức 3
Bước 4: Chọn hai cụm con có giá trị tương đồng cao nhất để hợp nhất và kết quả được hợp nhất sẽ được sử dụng như một cụm mới
Bước 5: Lặp lại bước 3-4 cho đến khi hợp nhất thành m cụm
Trang 15Xây dựng đồ thị GINN
Trang 16Xây dựng đồ thị GINN
Trang 17Xây dựng đồ thị GINN
Bước 3: Đánh giá số thành phần liên thông c của đồ thị có lớn hơn số cụm m Nếu c <= m tới bước 4, ngược lại tiếp tục tìm kiếm và tăng r lên thành r + 1
Bước 4: Thêm các cạnh giữa các điểm dữ liệu là lân cận tự nhiên của nhau
Bước 5: Trả về kết quả đồ thị GINN
Trang 18Bước 5: Xác định tâm của cụm tiếp theo
Thuật toán được sử dụng xác định tâm các cụm ở đây là k-mean++
Trang 19Bước 8: Gán các đối tượng không phải tâm với tâm gần nhất
Bước 9: Trả về kết quả là các cụm mới
Trang 20Thuật toán đề xuất
Ví dụ từng bước cho thuật toán
Giả sử với toạ độ điểm như trên,
kết quả đầu ra là 3 cụm con
Trang 21Thuật toán đề xuất
Ví dụ từng bước cho thuật toán
Trang 22Thuật toán đề xuất
Ví dụ từng bước cho thuật toán
Trang 23Thuật toán đề xuất
Ví dụ từng bước cho thuật toán
Trang 24Thuật toán đề xuất
Ví dụ từng bước cho thuật toán
Trang 25Thuật toán đề xuất
Ví dụ từng bước cho thuật toán
Trang 26Đánh giá hiệu suất
Trang 29Kết luận
Chameleon lần đầu tiên sử dụng ý tưởng áp dung lân cận tự nhiên và đã chứng minh được khả năng xây dựng biểu đồ thưa thớt tránh các giá trị nhiễu
Áp dụng phương pháp tạo cụm con phân vùng đồ thị mới, đơn giản hơn
Chứng minh được hiệu quả của thuật toán có kết quả tốt hơn thuật toán Chameleon truyền thống và Achameleon
Có thể áp dung cho các tập dữ liệu có nhiều hình dạng và mật độ khác nhau và có thể đạt được trạng thái bão hoà
Có chi phí về thời gian cao trong xử lý dữ liệu lớn nhiều chiều mà đây cũng là khuyết điểm của các thuật toán phân cụm phân cấp do đó để áp dụng vào dữ liệu lớn đa chiều cần phải được nghiên cứu kỹ lưỡng hơn.
Trang 30Cảm ơn Trân trọng