1. Trang chủ
  2. » Romance

Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu

20 39 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 1,54 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Intra-cluster distances are minimized..[r]

Trang 1

1

Học kỳ 1 – 2011-2012

Cao Học Ngành Khoa Học Máy Tính

Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu

(chauvtn@cse.hcmut.edu.vn)

Trang 2

2

Tài liệu tham khảo

‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and

Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006

‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data

Mining”, MIT Press, 2001

‡ [3] David L Olson, Dursun Delen, “Advanced Data Mining

Techniques”, Springer-Verlag, 2008

‡ [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,

Methodology, Techniques, and Applications”, Springer-Verlag, 2006

‡ [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and

Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis

Group, LLC, 2009

‡ [6] Daniel T Larose, “Data mining methods and models”, John Wiley

& Sons, Inc, 2006

‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine

learning tools and techniques”, Second Edition, Elsevier Inc, 2005

‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,

“Successes and new directions in data mining”, IGI Global, 2008

‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge

Discovery Handbook”, Second Edition, Springer Science + Business

Media, LLC 2005, 2010

Trang 3

3

Nội dung

‡ Chương 5: Gom cụm dữ liệu

dữ liệu

‡ Ch ương 9: Các đề tài nghiên cứu trong khai phá

dữ liệu

‡ Chương 10: Ôn tập

Trang 4

4

Chương 5: Gom cụm dữ liệu

‡ 5.1 Tổng quan về gom cụm dữ liệu

‡ 5.2 Gom cụm dữ liệu bằng phân hoạch

‡ 5.3 Gom cụm dữ liệu bằng phân cấp

‡ 5.4 Gom cụm dữ liệu dựa trên mật độ

‡ 5.5 Gom cụm dữ liệu dựa trên mô hình

‡ 5.6 Các phương pháp gom cụm dữ liệu khác

‡ 5.7 Tóm tắt

Trang 5

5

Chương 5: Gom cụm dữ liệu

Phần 1

Trang 6

6

5.0 Tình huống 1 – Outlier detection

Người đang sử dụng thẻ ID = 1234 thật

sự là chủ nhân của thẻ hay là một tên trộm?

Trang 7

7

5.0 Tình huống 2 - Làm sạch dữ liệu

‡ Nhận diện phần tử biên (outliers) và giảm

thiểu nhiễu (noisy data)

„ Giải pháp giảm thiểu nhiễu

‡ Phân tích cụm (cluster analysis)

Trang 8

8

5.0 Tình huống 3

Trang 9

9

5.0 Tình huống 3

Trang 10

10

5.0 Tình huống 3

Trang 11

11

5.0 Tình huống 3

Trang 12

12

5.0 Tình huống 3

Trang 13

13

5.0 Tình huống 3

Trang 14

14

5.0 Tình huống 3

Trang 15

15

5.0 Tình huống 4

Gom cụm ảnh

http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.data.html

Trang 16

16

5.0 Tình huống …

Gom cụm

Trang 17

17

5.0 Tình huống …

‡ Hỗ trợ giai đoạn tiền xử lý dữ liệu (data

preprocessing)

‡ Mô tả sự phân bố dữ liệu/đối tượng (data

distribution)

‡ Nhận dạng mẫu (pattern recognition)

‡ Phân tích dữ liệu không gian (spatial data analysis)

‡ Xử lý ảnh (image processing)

‡ Phân mảnh thị trường (market segmentation)

‡ Gom cụm tài liệu ((WWW) document clustering)

‡ …

Trang 18

18

5.1 Tổng quan về gom cụm dữ liệu

‡ Gom cụm

„ Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các

lớp/cụm

„ Các đối tượng trong cùng một cụm tương tự với nhau hơn

so với đối tượng ở các cụm khác.

hơn so với tương tự Obj3.

Gom cụm

Trang 19

19

5.1 Tổng quan về gom cụm dữ liệu

‡ Gom cụm

„ Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các

lớp/cụm

„ Các đối tượng trong cùng một cụm tương tự với nhau hơn

so với đối tượng ở các cụm khác.

hơn so với tương tự Obj3.

Inter-cluster distances are maximized.

Intra-cluster

distances are

minimized.

Trang 20

20

5.1 Tổng quan về gom cụm dữ liệu

‡ Gom cụm

„ Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các

lớp/cụm

„ Các đối tượng trong cùng một cụm tương tự với nhau hơn

so với đối tượng ở các cụm khác.

hơn so với tương tự Obj3.

Inter-cluster distances are maximized.

Intra-cluster

distances are

minimized.

High

intra-cluster/class

similarity

Low inter-cluster/class similarity

Ngày đăng: 09/03/2021, 04:10

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm