Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Intra-cluster distances are minimized..[r]
Trang 11
Học kỳ 1 – 2011-2012
Cao Học Ngành Khoa Học Máy Tính
Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu
(chauvtn@cse.hcmut.edu.vn)
Trang 22
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006
[5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009
[6] Daniel T Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010
Trang 33
Nội dung
Chương 5: Gom cụm dữ liệu
dữ liệu
Ch ương 9: Các đề tài nghiên cứu trong khai phá
dữ liệu
Chương 10: Ôn tập
Trang 44
Chương 5: Gom cụm dữ liệu
5.1 Tổng quan về gom cụm dữ liệu
5.2 Gom cụm dữ liệu bằng phân hoạch
5.3 Gom cụm dữ liệu bằng phân cấp
5.4 Gom cụm dữ liệu dựa trên mật độ
5.5 Gom cụm dữ liệu dựa trên mô hình
5.6 Các phương pháp gom cụm dữ liệu khác
5.7 Tóm tắt
Trang 55
Chương 5: Gom cụm dữ liệu
Phần 1
Trang 66
5.0 Tình huống 1 – Outlier detection
Người đang sử dụng thẻ ID = 1234 thật
sự là chủ nhân của thẻ hay là một tên trộm?
Trang 77
5.0 Tình huống 2 - Làm sạch dữ liệu
Nhận diện phần tử biên (outliers) và giảm
thiểu nhiễu (noisy data)
Giải pháp giảm thiểu nhiễu
Phân tích cụm (cluster analysis)
Trang 88
5.0 Tình huống 3
Trang 99
5.0 Tình huống 3
Trang 1010
5.0 Tình huống 3
Trang 1111
5.0 Tình huống 3
Trang 1212
5.0 Tình huống 3
Trang 1313
5.0 Tình huống 3
Trang 1414
5.0 Tình huống 3
Trang 1515
5.0 Tình huống 4
Gom cụm ảnh
http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.data.html
Trang 1616
5.0 Tình huống …
Gom cụm
Trang 1717
5.0 Tình huống …
Hỗ trợ giai đoạn tiền xử lý dữ liệu (data
preprocessing)
Mô tả sự phân bố dữ liệu/đối tượng (data
distribution)
Nhận dạng mẫu (pattern recognition)
Phân tích dữ liệu không gian (spatial data analysis)
Xử lý ảnh (image processing)
Phân mảnh thị trường (market segmentation)
Gom cụm tài liệu ((WWW) document clustering)
…
Trang 1818
5.1 Tổng quan về gom cụm dữ liệu
Gom cụm
Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các
lớp/cụm
Các đối tượng trong cùng một cụm tương tự với nhau hơn
so với đối tượng ở các cụm khác.
hơn so với tương tự Obj3.
Gom cụm
Trang 1919
5.1 Tổng quan về gom cụm dữ liệu
Gom cụm
Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các
lớp/cụm
Các đối tượng trong cùng một cụm tương tự với nhau hơn
so với đối tượng ở các cụm khác.
hơn so với tương tự Obj3.
Inter-cluster distances are maximized.
Intra-cluster
distances are
minimized.
Trang 2020
5.1 Tổng quan về gom cụm dữ liệu
Gom cụm
Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các
lớp/cụm
Các đối tượng trong cùng một cụm tương tự với nhau hơn
so với đối tượng ở các cụm khác.
hơn so với tương tự Obj3.
Inter-cluster distances are maximized.
Intra-cluster
distances are
minimized.
High
intra-cluster/class
similarity
Low inter-cluster/class similarity