Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu

Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu Chế Thị Hằng Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS.TS.. Dữ liệu;

Trang 1

Ứng dụng kỹ thuật đa mục tiêu vào phân cụm

dữ liệu

Chế Thị Hằng

Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05

Người hướng dẫn: PGS.TS Hoàng Xuân Huấn

Năm bảo vệ: 2014

Keywords Dữ liệu; Phân cụm dữ liệu; Kỹ thuật đa mục tiêu; Công nghệ thông tin

Content

Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu Nó có nhiệm vụ tổ chức một tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương tự” nhau

Trong cuộc sống, một cá nhân, hay một tổ chức thường bị đặt vào tình huống phải lựa chọn phương án tối ưu để giải quyết một vấn đề nào đó Khi ấy chúng ta phải tiến hành thu thập, phân tích và chọn lựa thông tin nhằm tìm ra một giải pháp tốt nhất để hành động Các phương án đề xuất ấy có thể giải quyết một hay nhiều vấn đề cùng một lúc tùy thuộc vào tình huống và yêu cầu đặt ra của chúng ta Trong toán học có rất nhiều lý thuyết cơ sở làm nền tảng giúp tìm ra một phương án tối ưu để giải quyết vấn đề như: lý thuyết thống kê, lý thuyết quyết định, lý thuyết tối

ưu, vận trù học,…Do tính ưu việt và hiệu quả, tối ưu hóa nhiều mục tiêu là một trong những lý thuyết toán học ngày càng được ứng dụng rộng rãi trên nhiều lĩnh vực như: kỹ thuật công nghệ, hàng không, thiết kế, tài chính,…

Tối ưu hóa nhiều mục tiêu có nghĩa là tìm phương án tốt nhất theo một nghĩa nhất định nào

đó để đạt được (cực đại hay cực tiểu) nhiều mục tiêu cùng một lúc và một phương án như vậy thì

ta gọi là phương án lý tưởng Trong một bài toán tối ưu nhiều mục tiêu thường thì các mục tiêu xung đột với nhau nên việc cố gắng làm “tăng” giá trị cực đại hay cực tiểu một mục tiêu có thể

sẽ làm “giảm” gía trị cực đại hay cực tiểu của các mục tiêu khác nên việc tồn tại phương án lý tưởng là rất hiếm Vì vậy cách tốt nhất là tìm một phương án nhằm thỏa mãn tất cả các yêu cầu các mục tiêu trong một mức độ chấp nhận được và phương án như thế gọi là phương án thỏa hiệp của các hàm mục tiêu

Có rất nhiều định nghĩa khác nhau đề cập đến phương án/nghiệm tối ưu như: Pareto, Borwein, Benson, Geoffrion, Kuhn – Tucker,… Các định nghĩa này thường có sự tương quan với nhau và chúng được biểu hiện cụ thể thông qua các định lý, mệnh đề và tính chất Như chúng

ta đã biết một trong những cơ sở để định nghĩa về nghiệm tối ưu là quan hệ thứ tự trong không gian nhất là quan hệ hai ngôi

Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:

Trang 2

Chương 1: Phân cụm dữ liệu

Chương 1 tập trung trình bày tổng quan về PCDL, đây là một hướng tiếp cận trong Data Mining Trong đó đi sâu phân tích chi tiết các vấn đề cơ bản: khái niệm PCDL và ý nghĩa của nó trong thực tiễn; trình bày một số phương pháp PCDL và giải thuật điển hình của mỗi phương pháp phân cụm

Chương 2:Phân cụm dữ liệu đa mục tiêu và một số kỹ thuật tối ưu hóa cụm

Để làm rõ hơn kỹ thuật PCDL đa mục tiêu, chương 2 trình bày một số khái niệm cơ bản và

sự khác biệt cơ bản của phân cụm dữ liệu một mục tiêu và phân cụm dữ liệu đa mục tiêu Và trình bày một số kỹ thuật tối ưu hóa cụm đặc biệt tìm hiểu về kỹ thuật tối ưu hóa cụm theo kỹ thuật SA - Thuật toán tối ưu hóa AMOSA theo khoảng cách đối xứng mới

Chương 3:Thuật toán VAMOSA - Thuật toán phân cụm dựa trên tính đối xứng

Trong chương 3 tìm hiểu rõ kỹ thuật phân cụm đa mục tiêu dựa trên thuật toán VAMOSA được đề xuất sử dụng thuật toán mô phỏng luyện kim (SA) dựa trên cơ sở phương pháp tối ưu đa mục tiêu như một chiến lược tối ưu hóa cơ bản Hai chỉ số đánh giá phân cụm [3.4.3]: Chỉ số XB

- chỉ số dựa trên khoảng cách Euclidean [14] Chỉ số Sym - chỉ số dựa trên khoảng cách đối xứng [15, 11] Hai chỉ số này được tối ưu hóa đồng thời để xác định chính xác số phân cụm trong bộ

dữ liệu Do vậy, kỹ thuật này có thể phát hiện được số cụm thích hợp và phân vùng phù hợp từ các bộ dữ liệu

Chương 4: Kết quả thử nghiệm

Chương 4, tiến hành cài đặt thuật toán và thử nghiệm trên ba bộ dữ liệu trong đó có bộ dữ liệu thực tế và rút ra được kết quả nhất định Thuật toán đưa ra kết quả số cụm phù hợp với bộ dữ liệu đưa vào

Cuối cùng là kết luận, hướng phát triển, tài liệu tham khảo và phụ lục Phần kết luận trình bày tóm tắt kết quả thu được và đề xuất hướng nghiên cứu tiếp theo

References

Tiếng việt

1 PGS.TS Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học công

nghệ - Đại Học Quốc Gia Hà Nội

2 Đỗ Thị Hòa (2011, Tóm tắt dữ liệu quan hệ sử dụng thuật toán di truyền nửa giám sát

dựa trên kỹ thuật phân cụm, Trường Đại học công nghệ - Đại Học Quốc Gia Hà Nội,

Luận văn thạc sỹ

Tiếng anh

3 Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data

4 Jiawei Han, Micheline Kamber and Anthony K H Tung, Spatial Clustering Methods In

Data Mining: A Survey, Natural Science and Engineering Research Council of Canada

5 Kuo-Lung Wu, Miin-Shen Yang, Alternative c-means clustering algorithms, Pattern

Recognition 35 (2002) 2267–2278

6 Sriparna Saha, Sanghamitra Bandyopadhyay, A symmetry based multiobjective clustering

technique for automatic evolution of clusters, Pattern Recognition 43(3): 738-751 (2010)

7 B Suman, Study of self-stopping PDMOSA and performance measure in multiobjective

optimization, Computers and Chemical Engineering, vol 29, no 5, pp 1131-1147, 15 April

2005

8 K Smith, R Everson, and J Fieldsend, Dominance measures for multi-objective simulated

annealing, in Proceedings of the 2004 IEEE Congress on Evolutionary Computation

Trang 3

(CEC'04), 2004, pp 23-30

9 Garcia Najera, Abel (2010) Multi-Objective evolutionary algorithms for vehicle routing

problems Ph.D thesis, University of Birmingham

10 Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”,

Hacours Science and Technology Company, USA

11 S Bandyopadhyay, S Saha, A point symmetry based clustering technique for

automatic evolution of clusters, IEEE Transactions on Knowledge and Data

Engineering 20 (11) (2008) 1–17

12 Handl, J Knowles, An evolutionary approach to multiobjective clustering,

IEEE Transactions on Evolutionary Computation 11 (1) (2007) 56–76

13 K Deb, Multi-Objective Optimization Using Evolutionary Algorithms, Wiley,

England, 2001

14 X.L Xie, G Beni, A validity measure for fuzzy clustering, IEEE Transactions on

Pattern Analysis and Machine Intelligence 13 (1991) 841–847

15 S Saha, S Bandyopadhyay, Application of a new symmetry based cluster validity

index for satellite image segmentation, IEEE Geoscience and Remote Sensing

Letters 5 (2) (2008) 166–170

16 S Bandyopadhyay, S Saha, GAPS: a clustering method using a new point

symmetry based distance measure, Pattern Recognition 40 (2007) 3430–3451

17 S Bandyopadhyay, S Saha, U Maulik, K Deb, A simulated annealing

based multi-objective optimization algorithm: AMOSA, IEEE Transactions on

Evolutionary Computation 12 (3) (2008) 269–283

18 S Bandyopadhyay, U Maulik, Genetic clustering for automatic evolution of

clusters and application to image classification, Pattern Recognition 2 (2002)

1197–1208

Định dạng
Số trang	3
Dung lượng	200,51 KB