Mục đích của Clustering Mục đích chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tươn
Trang 1Sinh Viên thực hiện:
1 Lê Thị Châu Tra
2 Nguyễn Thị Hạnh
3 Lê Thị Thanh Nga
4 Nguyễn Văn Mẫn
5 Vũ Thành Hưng
Trang 2I Giới thiệu về Clustering
1 Clustering là gì?
Thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành
nhóm
Nếu nhìn từ góc độ tự nhiên là một việc hết sức
bình thường mà chúng ta vẫn làm và thực hiện
hàng ngày Ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…
Trang 3I Giới thiệu về Clustering
2 Mục đích của Clustering
Mục đích chính của phương pháp phân cụm
dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng
thuộc cùng một lớp là tương đồng còn các đối
tượng thuộc các cụm khác nhau sẽ không tương đồng
Trang 4II Nội Dung
1 Ứng dụng của Clustering
- Kinh doanh
- Sinh học
- Địa lý
- Bảo hiểm
- Hoạch định thành phố
- Một công cụ độc lập để xem xét phân bố dữ liệu
- Làm bước tiền xử lý cho các thuật toán khác
Trang 5II Nội Dung
2 Một số yêu cầu của Clustering
Các yêu cầu của gom cụm trong khai phá dữ liệu:
- Scalability: Có thể thay đổi kích cỡ
- Khả năng làm việc với các loại thuộc tính khác nhau
- Khám phá ra các cụm có hình dạng bất kì
- Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers)
Trang 6II Nội Dung
3 Các loại dữ liệu trong Clustering
Các biến khoảng tỷ lệ: Biến trị khoảng là các
phép đo liên tục của các thang đo tuyến tính, thô Ví dụ: trọng lượng, chiều cao, chiều ngang, chiều dọc, tuổi, nhiệt
độ thời tiết.
Các biến nhị phân: Biến nhị phân chỉ có hai trạng
thái là 0 hay 1
Các biến định danh: Biến định danh là mở rộng
của biến nhị phân với nhiều hơn hai trạng thái
Các biến thứ tự :có thể là liên tục hay rời rạc
Trang 7II Nội Dung
Các biến thang đo tỉ lệ: Là các biến có độ đo
dương trên thang phi tuyến, xấp xỉ thang đo mũ
Các biến có kiểu hỗn hợp: Một cơ sở dữ liệu
có thể chứa đồng thời cả sáu loại biến Khi đó có thể dùng công thức được gán trọng để kết hợp các hiệu quả.
Các kiểu dữ liệu phức tạp: Tất cả các đối
tượng được xem xét a trong KPDL là không quan hệ
=> Loại dữ liệu phức tạp.
3 Các loại dữ liệu trong Clustering
Trang 8II Nội Dung
4 Các phương pháp Clustering chủ yếu
a Phân cấp: Tạo phân cấp cụm chứ
không phải phân hoạch các đối tượng Khác với phân hoạch, phân cấp không cần số cụm k ở
đầu vào và dùng ma trận khoảng cách làm tiêu chuẩn gom cụm Trong phương pháp phân cấp
có thể dùng điều kiện dừng
Trang 9II Nội Dung
* Mô tả phương pháp
Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân hoạch thành tập có k cụm sao cho:
- Mỗi cụm chứa ít nhất một đối tượng
- Mỗi đối tượng thuộc về một cụm duy nhất
- Cho trị k, tìm phân hoạch có k cụm sao cho tối ưu hoá tiêu chuẩn phân hoạch được chọn
4 Các phương pháp Clustering chủ yếu
b Phương pháp dựa trên phân hoạch:
Trang 10II Nội Dung
* Các phương pháp
Phương pháp gom cụm k-mean
- Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng
- Output:k cụm đã được gom
- Thuật giải
4 Các phương pháp Clustering chủ yếu
b Phương pháp dựa trên phân hoạch:
Trang 11II Nội Dung
4 Các phương pháp Clustering chủ yếu
b Phương pháp dựa trên phân hoạch:
Thuật toán k-medoid
- Input: Số các cụm k cần gom và cơ sở
dữ liệu chứa n đối tượng
- Output: k cụm đã được gom
- Thuật toán
Trang 12II Kết Luận
- Phân tích gom cụm các đối tượng dựa trên sự tương tự
- Phân tích gom cụm có phạm vi ứng dụng to lớn
- Có thể tính độ đo tương tự cho nhiều loại dữ liệu khác nhau
- Việc lựa chọn độ đo tương tự tùy thuộc vào dữ liệu được dùng và loại tương tự cần tìm.
- Các phương pháp gom cụm.
+ Các phương pháp phân cấp.
+ Các phương pháp dựa trên phân hoạch
Trang 13Link Tài Liệu Tham Khảo
http://donghoqualac.wordpress.com/2011/06/24/t%E1%BB%9 3ng-quan-v%E1%BB%81-cong-ngh%E1%BB%87-clustering/
https://sites.google.com/site/chungdb/home/clustering
http://www.ebook.edu.vn/?page=1.5&tag=clustering
http://vi.wikipedia.org/wiki/Ph%C3%A2n_nh%C3%B3m_d
%E1%BB%AF_li%E1%BB%87u
http://luanvan.co/luan-van/de-tai-nghien-cuu-gom-cum-clustering-trong-khai-pha-du-lieu-35312/