1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm Hiểu Về Clustering Trong Khai Phá Dữ Liệu

14 1,3K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 0,98 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục đích của Clustering Mục đích chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tươn

Trang 1

Sinh Viên thực hiện:

1 Lê Thị Châu Tra

2 Nguyễn Thị Hạnh

3 Lê Thị Thanh Nga

4 Nguyễn Văn Mẫn

5 Vũ Thành Hưng

Trang 2

I Giới thiệu về Clustering

1 Clustering là gì?

Thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành

nhóm

Nếu nhìn từ góc độ tự nhiên là một việc hết sức

bình thường mà chúng ta vẫn làm và thực hiện

hàng ngày Ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện…

Trang 3

I Giới thiệu về Clustering

2 Mục đích của Clustering

Mục đích chính của phương pháp phân cụm

dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng

thuộc cùng một lớp là tương đồng còn các đối

tượng thuộc các cụm khác nhau sẽ không tương đồng

Trang 4

II Nội Dung

1 Ứng dụng của Clustering

- Kinh doanh

- Sinh học

- Địa lý

- Bảo hiểm

- Hoạch định thành phố

- Một công cụ độc lập để xem xét phân bố dữ liệu

- Làm bước tiền xử lý cho các thuật toán khác

Trang 5

II Nội Dung

2 Một số yêu cầu của Clustering

Các yêu cầu của gom cụm trong khai phá dữ liệu:

- Scalability: Có thể thay đổi kích cỡ

- Khả năng làm việc với các loại thuộc tính khác nhau

- Khám phá ra các cụm có hình dạng bất kì

- Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers)

Trang 6

II Nội Dung

3 Các loại dữ liệu trong Clustering

Các biến khoảng tỷ lệ: Biến trị khoảng là các

phép đo liên tục của các thang đo tuyến tính, thô Ví dụ: trọng lượng, chiều cao, chiều ngang, chiều dọc, tuổi, nhiệt

độ thời tiết.

Các biến nhị phân: Biến nhị phân chỉ có hai trạng

thái là 0 hay 1

Các biến định danh: Biến định danh là mở rộng

của biến nhị phân với nhiều hơn hai trạng thái

Các biến thứ tự :có thể là liên tục hay rời rạc

Trang 7

II Nội Dung

Các biến thang đo tỉ lệ: Là các biến có độ đo

dương trên thang phi tuyến, xấp xỉ thang đo mũ

Các biến có kiểu hỗn hợp: Một cơ sở dữ liệu

có thể chứa đồng thời cả sáu loại biến Khi đó có thể dùng công thức được gán trọng để kết hợp các hiệu quả.

Các kiểu dữ liệu phức tạp: Tất cả các đối

tượng được xem xét a trong KPDL là không quan hệ

=> Loại dữ liệu phức tạp.

3 Các loại dữ liệu trong Clustering

Trang 8

II Nội Dung

4 Các phương pháp Clustering chủ yếu

a Phân cấp: Tạo phân cấp cụm chứ

không phải phân hoạch các đối tượng Khác với phân hoạch, phân cấp không cần số cụm k ở

đầu vào và dùng ma trận khoảng cách làm tiêu chuẩn gom cụm Trong phương pháp phân cấp

có thể dùng điều kiện dừng

Trang 9

II Nội Dung

* Mô tả phương pháp

Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân hoạch thành tập có k cụm sao cho:

- Mỗi cụm chứa ít nhất một đối tượng

- Mỗi đối tượng thuộc về một cụm duy nhất

- Cho trị k, tìm phân hoạch có k cụm sao cho tối ưu hoá tiêu chuẩn phân hoạch được chọn

4 Các phương pháp Clustering chủ yếu

b Phương pháp dựa trên phân hoạch:

Trang 10

II Nội Dung

* Các phương pháp

Phương pháp gom cụm k-mean

- Input: Số các cụm k cần gom và cơ sở dữ liệu chứa n đối tượng

- Output:k cụm đã được gom

- Thuật giải

4 Các phương pháp Clustering chủ yếu

b Phương pháp dựa trên phân hoạch:

Trang 11

II Nội Dung

4 Các phương pháp Clustering chủ yếu

b Phương pháp dựa trên phân hoạch:

Thuật toán k-medoid

- Input: Số các cụm k cần gom và cơ sở

dữ liệu chứa n đối tượng

- Output: k cụm đã được gom

- Thuật toán

Trang 12

II Kết Luận

- Phân tích gom cụm các đối tượng dựa trên sự tương tự

- Phân tích gom cụm có phạm vi ứng dụng to lớn

- Có thể tính độ đo tương tự cho nhiều loại dữ liệu khác nhau

- Việc lựa chọn độ đo tương tự tùy thuộc vào dữ liệu được dùng và loại tương tự cần tìm.

- Các phương pháp gom cụm.

+ Các phương pháp phân cấp.

+ Các phương pháp dựa trên phân hoạch

Trang 13

Link Tài Liệu Tham Khảo

http://donghoqualac.wordpress.com/2011/06/24/t%E1%BB%9 3ng-quan-v%E1%BB%81-cong-ngh%E1%BB%87-clustering/

https://sites.google.com/site/chungdb/home/clustering

http://www.ebook.edu.vn/?page=1.5&tag=clustering

http://vi.wikipedia.org/wiki/Ph%C3%A2n_nh%C3%B3m_d

%E1%BB%AF_li%E1%BB%87u

http://luanvan.co/luan-van/de-tai-nghien-cuu-gom-cum-clustering-trong-khai-pha-du-lieu-35312/

Ngày đăng: 06/04/2015, 20:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w