Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu Chế Thị Hằng Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS.TS.. Dữ liệu;
Trang 1Ứng dụng kỹ thuật đa mục tiêu vào phân cụm
dữ liệu
Chế Thị Hằng
Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS.TS Hoàng Xuân Huấn
Năm bảo vệ: 2014
Keywords Dữ liệu; Phân cụm dữ liệu; Kỹ thuật đa mục tiêu; Công nghệ thông tin
Content
Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu Nó có nhiệm vụ tổ chức một tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương tự” nhau
Trong cuộc sống, một cá nhân, hay một tổ chức thường bị đặt vào tình huống phải lựa chọn phương án tối ưu để giải quyết một vấn đề nào đó Khi ấy chúng ta phải tiến hành thu thập, phân tích và chọn lựa thông tin nhằm tìm ra một giải pháp tốt nhất để hành động Các phương án đề xuất ấy có thể giải quyết một hay nhiều vấn đề cùng một lúc tùy thuộc vào tình huống và yêu cầu đặt ra của chúng ta Trong toán học có rất nhiều lý thuyết cơ sở làm nền tảng giúp tìm ra một phương án tối ưu để giải quyết vấn đề như: lý thuyết thống kê, lý thuyết quyết định, lý thuyết tối
ưu, vận trù học,…Do tính ưu việt và hiệu quả, tối ưu hóa nhiều mục tiêu là một trong những lý thuyết toán học ngày càng được ứng dụng rộng rãi trên nhiều lĩnh vực như: kỹ thuật công nghệ, hàng không, thiết kế, tài chính,…
Tối ưu hóa nhiều mục tiêu có nghĩa là tìm phương án tốt nhất theo một nghĩa nhất định nào
đó để đạt được (cực đại hay cực tiểu) nhiều mục tiêu cùng một lúc và một phương án như vậy thì
ta gọi là phương án lý tưởng Trong một bài toán tối ưu nhiều mục tiêu thường thì các mục tiêu xung đột với nhau nên việc cố gắng làm “tăng” giá trị cực đại hay cực tiểu một mục tiêu có thể
sẽ làm “giảm” gía trị cực đại hay cực tiểu của các mục tiêu khác nên việc tồn tại phương án lý tưởng là rất hiếm Vì vậy cách tốt nhất là tìm một phương án nhằm thỏa mãn tất cả các yêu cầu các mục tiêu trong một mức độ chấp nhận được và phương án như thế gọi là phương án thỏa hiệp của các hàm mục tiêu
Có rất nhiều định nghĩa khác nhau đề cập đến phương án/nghiệm tối ưu như: Pareto, Borwein, Benson, Geoffrion, Kuhn – Tucker,… Các định nghĩa này thường có sự tương quan với nhau và chúng được biểu hiện cụ thể thông qua các định lý, mệnh đề và tính chất Như chúng
ta đã biết một trong những cơ sở để định nghĩa về nghiệm tối ưu là quan hệ thứ tự trong không gian nhất là quan hệ hai ngôi
Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:
Trang 2Chương 1: Phân cụm dữ liệu
Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận trong Data Mining Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải thuật điển hình của mỗi phương pháp phân cụm
Chương 2:Phân cụm dữ liệu đa mục tiêu và một số kỹ thuật tối ưu hóa cụm
Để làm rõ hơn kỹ thuật PCDL đa mục tiêu, chương 2 trình bày một số khái niệm cơ bản và
sự khác biệt cơ bản của phân cụm dữ liệu một mục tiêu và phân cụm dữ liệu đa mục tiêu Và trình bày một số kỹ thuật tối ưu hóa cụm đặc biệt tìm hiểu về kỹ thuật tối ưu hóa cụm theo kỹ thuật SA - Thuật toán tối ưu hóa AMOSA theo khoảng cách đối xứng mới
Chương 3:Thuật toán VAMOSA - Thuật toán phân cụm dựa trên tính đối xứng
Trong chương 3 tìm hiểu rõ kỹ thuật phân cụm đa mục tiêu dựa trên thuật toán VAMOSA được đề xuất sử dụng thuật toán mô phỏng luyện kim (SA) dựa trên cơ sở phương pháp tối ưu đa mục tiêu như một chiến lược tối ưu hóa cơ bản Hai chỉ số đánh giá phân cụm [3.4.3]: Chỉ số XB
- chỉ số dựa trên khoảng cách Euclidean [14] Chỉ số Sym - chỉ số dựa trên khoảng cách đối xứng [15, 11] Hai chỉ số này được tối ưu hóa đồng thời để xác định chính xác số phân cụm trong bộ
dữ liệu Do vậy, kỹ thuật này có thể phát hiện được số cụm thích hợp và phân vùng phù hợp từ các bộ dữ liệu
Chương 4: Kết quả thử nghiệm
Chương 4, tiến hành cài đặt thuật toán và thử nghiệm trên ba bộ dữ liệu trong đó có bộ dữ liệu thực tế và rút ra được kết quả nhất định Thuật toán đưa ra kết quả số cụm phù hợp với bộ dữ liệu đưa vào
Cuối cùng là kết luận, hướng phát triển, tài liệu tham khảo và phụ lục Phần kết luận trình bày tóm tắt kết quả thu được và đề xuất hướng nghiên cứu tiếp theo
References
Tiếng việt
1 PGS.TS Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học công
nghệ - Đại Học Quốc Gia Hà Nội
2 Đỗ Thị Hòa (2011, Tóm tắt dữ liệu quan hệ sử dụng thuật toán di truyền nửa giám sát
dựa trên kỹ thuật phân cụm, Trường Đại học công nghệ - Đại Học Quốc Gia Hà Nội,
Luận văn thạc sỹ
Tiếng anh
3 Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data
4 Jiawei Han, Micheline Kamber and Anthony K H Tung, Spatial Clustering Methods In
Data Mining: A Survey, Natural Science and Engineering Research Council of Canada
5 Kuo-Lung Wu, Miin-Shen Yang, Alternative c-means clustering algorithms, Pattern
Recognition 35 (2002) 2267–2278
6 Sriparna Saha, Sanghamitra Bandyopadhyay, A symmetry based multiobjective clustering
technique for automatic evolution of clusters, Pattern Recognition 43(3): 738-751 (2010)
7 B Suman, Study of self-stopping PDMOSA and performance measure in multiobjective
optimization, Computers and Chemical Engineering, vol 29, no 5, pp 1131-1147, 15 April
2005
8 K Smith, R Everson, and J Fieldsend, Dominance measures for multi-objective simulated
annealing, in Proceedings of the 2004 IEEE Congress on Evolutionary Computation
Trang 3(CEC'04), 2004, pp 23-30
9 Garcia Najera, Abel (2010) Multi-Objective evolutionary algorithms for vehicle routing
problems Ph.D thesis, University of Birmingham
10 Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”,
Hacours Science and Technology Company, USA
11 S Bandyopadhyay, S Saha, A point symmetry based clustering technique for
automatic evolution of clusters, IEEE Transactions on Knowledge and Data
Engineering 20 (11) (2008) 1–17
12 Handl, J Knowles, An evolutionary approach to multiobjective clustering,
IEEE Transactions on Evolutionary Computation 11 (1) (2007) 56–76
13 K Deb, Multi-Objective Optimization Using Evolutionary Algorithms, Wiley,
England, 2001
14 X.L Xie, G Beni, A validity measure for fuzzy clustering, IEEE Transactions on
Pattern Analysis and Machine Intelligence 13 (1991) 841–847
15 S Saha, S Bandyopadhyay, Application of a new symmetry based cluster validity
index for satellite image segmentation, IEEE Geoscience and Remote Sensing
Letters 5 (2) (2008) 166–170
16 S Bandyopadhyay, S Saha, GAPS: a clustering method using a new point
symmetry based distance measure, Pattern Recognition 40 (2007) 3430–3451
17 S Bandyopadhyay, S Saha, U Maulik, K Deb, A simulated annealing
based multi-objective optimization algorithm: AMOSA, IEEE Transactions on
Evolutionary Computation 12 (3) (2008) 269–283
18 S Bandyopadhyay, U Maulik, Genetic clustering for automatic evolution of
clusters and application to image classification, Pattern Recognition 2 (2002)
1197–1208