Tiếp cận mờ trong phân cụm dữ liệu

Độ nén chỉ ra mức độ tương đồng của các đối tượng dữ liệu trong một cụm và được tính toán dựa trên giá trị hàm liên thuộc của các đối tượng dữ liệu.. Độ chồng nhau chỉ ra mức độ chồng nh

Trang 1

Nguyễn Trung Đức

Khoa Luật Trường Đại học Công nghệ Đại học Quốc gia Hà Nội

Luận văn ThS Công nghệ thông tin: 60 48 05 Người hướng dẫn : TS Hoàng Xuân Huấn

Năm bảo vệ: 2013

62 tr

Abstract Trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ dựa trên hai thuật

toán C-means mờ (FCM) và Gustafson – Kessel (GK) Đặc biệt đi sâu vào kỹ thuật đánh giá số cụm nhờ hàm chỉ số Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm mới cho phân cụm mờ nhờ kết hợp ưu điểm của chỉ độ nén (compactness) và độ chồng nhau (overlap) Độ nén chỉ ra mức độ tương đồng của các đối tượng dữ liệu trong một cụm và được tính toán dựa trên giá trị hàm liên thuộc của các đối tượng dữ liệu Độ chồng nhau chỉ ra mức độ chồng nhau giữa các cụm mờ và thu được bởi tính toán tỷ lệ trùng lặp của các đối tượng dữ liệu thuộc ở hai hay nhiều cụm Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi

so sánh với các chỉ số điển hình hiện có, đặc biệt là trong trường hợp các cụm khác nhau về kích thước và mật độ, cũng như trong trường hợp các cụm chồng nhau

Keywords.Hệ thống thông tin ; Phân cụm dữ liệu; Phân cụm mờ

Content

Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu Nó có nhiệm vụ tổ chức một tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương tự” nhau

Phương pháp phân cụm dữ liệu truyền thống (PCDL rõ) chia một tập dữ liệu ban đầu thành các cụm dữ liệu và mỗi đối tượng chỉ thuộc về một cụm Nhưng trong thực

tế ranh giới giữa các cụm thường không rõ ràng, một đối tượng dữ liệu có thể thuộc về nhiều cụm khác nhau, do đó phương pháp này không mô tả được dữ liệu thực Để tăng

Trang 2

hiệu quả và tính chính xác cho kết quả phân cụm, người ta đã áp dụng lý thuyết tập mờ vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ

Hiện nay, phân cụm dữ liệu mờ vẫn là bài toán đang được nhiều người quan tâm nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực: nghiên cứu thị trường, nhận dạng, xử lý ảnh, tìm kiếm thông tin… Các thuật toán phân cụm mờ rất đa dạng như: means mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic C-Means (FPCM), -Insensitive Fuzzy C-means ( FCM), Tuy nhiên, trong các thuật toán, thường yêu cầu người dùng xác định trước số lượng cụm Số cụm là một tham số quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định kết quả phân cụm nào là tốt nhất hay số lượng cụm tối ưu là gì?

Luận văn này trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ Đặc biệt,

đi sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm chỉ số Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén (compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29] Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi so sánh với các chỉ số điển hình hiện có

Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:

Chương 1: Tổng quan về phân cụm dữ liệu

Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận trong Data Mining Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải thuật điển hình của mỗi phương pháp phân cụm

Chương 2: Phân cụm dữ liệu mờ

Để làm rõ hơn kỹ thuật PCDL mờ, chương 2 trình bày một số khái niệm cơ bản của lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ và phân cụm mờ, trình bày hai thuật toán phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó

là thuật toán Gustafson-Kessel (viết tắt là GK)

Chương 3: Số cụm và chỉ số đánh giá

Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm trong bài toán phân cụm Phân tích một số hàm chỉ số thông dụng để đánh giá chất lượng phân hoạch được tạo ra bởi các thuật toán phân cụm mờ, nhờ đó xác định số cụm tối ưu cho tập dữ liệu được xét

Trang 3

Chương 4: Một chỉ số đánh giá số cụm mới cho phân cụm mờ

Chương 4, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp độ nén

và độ chồng nhau của các cụm Tiến hành thực nghiệm trên nhiều bộ dữ liệu nhân tạo

và bộ dữ liệu thực đã cho thấy ưu điểm nổi trội của chỉ số mới so với các chỉ số điển hình hiện có trong quá trình tìm kiếm số cụm tối ưu cho một tập dữ liệu

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Nguyễn Như Hiền, Lại Khắc Lãi (2007), Hệ mờ & nơnon trong kỹ thuật điều

khiển, Nhà xuất bản Khoa học tự nhiên và công nghệ, Hà Nội

[2] Hoàng Xuân Huấn (2011), Giáo trình Nhận dạng mẫu, Đại học Công nghệ - Đại

học Quốc gia Hà Nội

[3] Hoàng Xuân Huấn, Nguyễn Trung Thông (2005), Phân cụm nửa giám sát với mô

hình phân cấp, Kỷ yếu hội thảo khoa học quốc gia lần thứ hai: Nghiên cứu cơ

bản và ứng dụng công nghệ thông tin

[4] Bùi Ngọc Thăng (2007), Một thuật toán phân cụm mờ khi số cụm không xác

định, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ

[5] Hà Quang Thụy và cộng sự (2009), Giáo trình khai phá dữ liệu web, Nhà xuất

bản Giáo dục Việt Nam, Hà Nội

[6] Hoàng Hải Xanh (2005), Về các kỹ thuật phân cụm dữ liệu trong Data mining,

Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ

[7] Trần Thị Yến (2009), Phân cụm dữ liệu trừ mờ và ứng dụng, Đại học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên, luận văn thạc sĩ

Tiếng anh

[8] Chen Duo, Li Xue, Cui Du-Wu (2007), An adaptive cluster validity index for the

Fuzzy C-means, IJCSNS International Journal of Computer Science and Network

Security, Vol.7 No.2, pp 146-156

[9] D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of

the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025

[10] G Grekousis, H Thomas (2012), Comparison of two fuzzy algorithms in

geodemographic segmentation analysis: The Fuzzy C-Means and GustafsoneKessel methods, Applied Geography 34, pp 125-136

Trang 4

[11] J.C Bezdek, R Ehrlich, W Full (1984), FCM: The fuzzy c-Means clustering

algorithm, Computers & Geosciences Vol 10, No 2-3, pp 191-203

[12] János Abonyi, Balázs Feil (2007), Cluster Analysis for Data Mining and system

identification, Birkhäuser Basel – Boston – Berlin, pp 17-28

[13] Jiawei Han, Micheline Kamber (2006), Data Mining : Concepts and Techniques,

Morgan Kaufmann Publishers, 2nd edition

[14] Jiawei Han, Micheline Kamber, Jian Pei (2011), Data Mining : Concepts and

Techniques, Morgan Kaufmann Publishers, 3rd edition

[15] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity

with applications to web usage mining, School of Electrical Engineering and

Computer Science, Australia

[16] K.L.Wu, M.S.Yang (2005), A cluster validity index for fuzzy clustering, Pattern

Recognition Lett 26, pp 1275–1291

[17] K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of

different sizes and densities, Pattern Recognition 43, pp 3374-3390

[18] M D Mahecha, A Martinez, H.Lange, Markus Reichstein, Erwin Beck (2009),

Identification of characteristic plant co-occurrences in neotropical secondary montane forests, Journal of Plant Ecology, vol 2, no 1, pp 31-41

[19] M Halkidi, Y Batistakis, M Vazirgiannis (2001), On clustering validation

techniques, Journal of Intelligent Information Systems, 17:2/3, pp 107–145

[20] M Ramze Rezaee, B.P.F Lelieveldt, J.H.C Reiber (1998), A new cluster validity

index for the fuzzy c-mean, Pattern Recognition Letters 19, pp 237–246.

[21] N R Pal, J C Bezdek (1995), On cluster valitidy for the fuzzy c-means model,

IEEE Transactions on fuzzy system, vol 3, no 3, pp 370-379

[22] Q Zhao (2012), Cluster validity in clustering methods, Publications of the

University of Eastern Finland

[23] Roburt Babuska (2004), Fuzzy and neural control, DISC Course Lecture Notes,

pp 59-72

[24] R.N Dave (1996), Validating fuzzy partition obtained through c-shells

clustering, Pattern Recognition Lett 17, pp 613–623

[25] R.Suganya, R.Shanthi (2012), Fuzzy C-Means Algorithm- A Review, International

Journal of Scientific and Research Publications, Volume 2, pp 2250 – 3153

[26] S Ghosh, S.K Dubey (2013), Comparative Analysis of K-Means and Fuzzy

C-Means Algorithms, International Journal of Advanced Computer Science and

Applications, Vol 4, No.4, pp 35-39

Trang 5

[27] S.H Kwon (1998), Cluster validity index for fuzzy clustering, Electron Lett 34

(22), pp 2176–2177

[28] X.L Xie, G Beni (1991), A validity measure for fuzzy clustering, IEEE Trans

Pattern Anal Mach Intell 13, pp 841–847

[29] Y.HUI, Ch Zuo, Y Yag, F Qu (2011), A cluster validity index for fuzzy c-means

clustering, Interational Conference on System Science, Engineering Design and

Manufacturing Informatization, 2011 Int Conf (vol.2), pp 263 – 266

[30] W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol

158, pp 2095-2117

Một số trang web

[31] http://archive.ics.uci.edu/ml/

[32]

[33] http://www.stat.columbia.edu/~madigan/W2025/notes/clustering.pdf

Định dạng
Số trang	5
Dung lượng	294,44 KB