KHÁI QUÁT PHÂN CỤM DỮ LIỆU VÀ DỮ LIỆU BẢN ĐỒ VÉC TƠ
Khái niệm và mục tiêu của phân cụm dữ liệu
Phân cụm dữ liệu là quá trình nhóm các đối tượng tương tự trong tập dữ liệu thành các cụm, với mục tiêu là các đối tượng trong cùng một cụm có độ tương đồng cao, trong khi các đối tượng thuộc các cụm khác nhau lại không tương đồng Đây là một phương pháp học không có thầy, không yêu cầu định nghĩa trước các mẫu dữ liệu huấn luyện, và có thể được coi là học bằng quan sát Bên cạnh đó, phân cụm dữ liệu còn đóng vai trò quan trọng trong việc tiền xử lý cho các thuật toán khai phá dữ liệu khác như phân loại và mô tả đặc điểm, giúp phát hiện các cụm trong dữ liệu.
Hình 1.1 Mô tả tập dữ liệu vay nợ đƣợc phân thành 3 cụm
Phân cụm đóng vai trò quan trọng trong hoạt động của con người, bắt đầu từ việc phân biệt giữa mèo và chó, động vật và thực vật ngay từ khi còn nhỏ Nó được ứng dụng rộng rãi trong nhiều lĩnh vực như nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh và nghiên cứu thị trường Với chức năng khai phá dữ liệu, phân tích phân cụm trở thành công cụ độc lập giúp quan sát đặc trưng của từng cụm trong phân bố dữ liệu, từ đó tập trung vào các cụm riêng biệt để nâng cao hiệu quả phân tích.
Một vấn đề phổ biến trong phân cụm là dữ liệu thường chứa nhiễu do quá trình thu thập không chính xác hoặc thiếu đầy đủ Do đó, cần xây dựng chiến lược tiền xử lý dữ liệu để khắc phục hoặc loại bỏ nhiễu trước khi tiến hành phân tích cụm Nhiễu được hiểu là các đối tượng dữ liệu không chính xác, không rõ ràng hoặc thiếu thông tin về một số thuộc tính Một kỹ thuật phổ biến để xử lý nhiễu là thay thế giá trị thuộc tính của đối tượng nhiễu bằng giá trị tương ứng Bên cạnh đó, việc phát hiện phần tử ngoại lai cũng là một hướng nghiên cứu quan trọng trong phân cụm, nhằm xác định các đối tượng dữ liệu khác thường không tuân theo hành vi hoặc mô hình dữ liệu, từ đó tránh ảnh hưởng tiêu cực đến quá trình và kết quả phân cụm.
Mục tiêu của phân cụm là xác định bản chất của các nhóm trong tập dữ liệu chưa có nhãn Để tạo thành một cụm tốt, cần có tiêu chuẩn đánh giá, nhưng không tồn tại tiêu chuẩn tuyệt đối nào cho sự "tốt" của cụm, mà điều này phụ thuộc vào kết quả phân cụm Do đó, người sử dụng cần cung cấp tiêu chuẩn để đảm bảo rằng kết quả phân cụm đáp ứng yêu cầu của họ.
Theo các nghiên cứu, hiện nay chưa có phương pháp phân cụm tổng quát nào giải quyết triệt để tất cả các cấu trúc cơ sở dữ liệu (CSDL) Các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của CSDL, và mỗi cách thức sẽ tương ứng với một thuật toán phân cụm phù hợp Do đó, phân cụm dữ liệu vẫn là một vấn đề khó khăn và mở, cần giải quyết nhiều vấn đề cơ bản một cách toàn diện, đặc biệt đối với dữ liệu hỗn hợp ngày càng gia tăng trong các hệ quản trị dữ liệu, đây là một thách thức lớn trong lĩnh vực khai phá dữ liệu (KPDL).
Các ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu có thể đƣợc ứng dụng trong nhiều lĩnh vực nhƣ:
Thương mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trưng tương đồng và những đặc tả họ từ các bản ghi mua bán trong CSDL
Sinh học: Phân loại các gen với các chức năng tương đồng và thu được các cấu trúc trong mẫu
Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung cấp cho độc giả
Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao, nhận dạng gian lận thương mại
Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí, nhằm cung cấp thông tin cho quy hoạch đô thị
Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm
WWW là nơi lý tưởng để khám phá các nhóm tài liệu quan trọng, mang nhiều ý nghĩa trong môi trường trực tuyến Những lớp tài liệu này hỗ trợ hiệu quả cho quá trình khai phá thông tin từ dữ liệu.
Các yêu cầu của phân cụm dữ liệu
Phân cụm là một thách thức trong nghiên cứu, với những ứng dụng tiềm năng được xác định từ các yêu cầu đặc thù của nó Dưới đây là những yêu cầu cơ bản của phân cụm trong KPDL.
Khả năng mở rộng của các thuật toán phân cụm là một yếu tố quan trọng, đặc biệt khi làm việc với các tập dữ liệu lớn chứa hàng triệu đối tượng Nhiều thuật toán phân cụm truyền thống thường chỉ hiệu quả với các tập dữ liệu nhỏ hơn 200 đối tượng Do đó, phát triển các thuật toán phân cụm có khả năng mở rộng cao là cần thiết để đảm bảo kết quả chính xác khi xử lý các cơ sở dữ liệu lớn.
Nhiều thuật toán phân cụm dữ liệu chủ yếu được thiết kế cho kiểu khoảng, nhưng thực tế, nhiều ứng dụng cần phân cụm với các kiểu dữ liệu đa dạng như kiểu nhị phân, kiểu tường minh (định danh - không thứ tự), và dữ liệu có thứ tự hoặc hỗn hợp của các kiểu này Việc phát triển khả năng thích nghi với các thuộc tính khác nhau là rất quan trọng trong lĩnh vực phân tích dữ liệu.
Khám phá các cụm với hình dạng bất kỳ là một nhiệm vụ quan trọng trong lĩnh vực phân cụm Nhiều thuật toán hiện tại sử dụng các phép đo khoảng cách Euclidean và Manhattan để xác định các cụm, thường tìm kiếm các cụm hình cầu với mật độ và kích thước tương tự Tuy nhiên, các cụm có thể có nhiều hình dạng khác nhau, do đó, việc phát triển các thuật toán có khả năng phát hiện các cụm với hình dạng đa dạng là cần thiết.
Để xác định các tham số đầu vào cho thuật toán phân cụm, người dùng cần có tối thiểu một lượng tri thức nhất định, như số lượng cụm mong muốn Kết quả phân cụm thường nhạy cảm với các tham số này, và việc xác định chúng trở nên khó khăn, đặc biệt với các tập dữ liệu lớn Điều này không chỉ gây khó khăn cho người dùng mà còn ảnh hưởng đến khả năng điều chỉnh chất lượng của phân cụm.
Khả năng thích nghi với dữ liệu nhiễu là một yếu tố quan trọng trong các cơ sở dữ liệu thực, vì chúng thường chứa dữ liệu ngoại lai, lỗi, chưa biết hoặc sai Nhiều thuật toán phân cụm có thể bị ảnh hưởng bởi loại dữ liệu này, dẫn đến chất lượng phân cụm thấp Bên cạnh đó, một số thuật toán cũng nhạy cảm với thứ tự của dữ liệu đầu vào, có thể tạo ra các cụm khác nhau chỉ với sự thay đổi thứ tự Do đó, việc phát triển các thuật toán phân cụm ít nhạy cảm với thứ tự dữ liệu là rất cần thiết để cải thiện độ chính xác và tính ổn định của kết quả phân cụm.
Số chiều lớn trong cơ sở dữ liệu hoặc kho dữ liệu có thể chứa nhiều thuộc tính, và nhiều thuật toán phân cụm hoạt động hiệu quả với dữ liệu có từ hai đến ba chiều Đánh giá chất lượng phân cụm trở nên tốt hơn khi áp dụng cho dữ liệu từ ba chiều trở lên Tuy nhiên, việc phân cụm dữ liệu trong không gian có số chiều lớn là một thách thức, do các không gian này thường thưa thớt và có độ nghiêng cao.
Phân cụm ràng buộc là một kỹ thuật quan trọng trong nhiều ứng dụng thực tế, nơi cần xác định các nhóm dữ liệu với trạng thái phân cụm tối ưu, đồng thời đáp ứng các loại ràng buộc khác nhau Nhiệm vụ này tập trung vào việc tìm kiếm những nhóm dữ liệu phù hợp với yêu cầu phân cụm và các tiêu chí ràng buộc đã đặt ra.
Người dùng mong đợi kết quả phân cụm rõ ràng và dễ hiểu, với khả năng giải thích ý nghĩa và ứng dụng một cách minh bạch.
Nghiên cứu phân tích phân cụm của chúng tôi bắt đầu bằng việc khảo sát các kiểu dữ liệu khác nhau và ảnh hưởng của chúng đến các phương pháp phân cụm Tiếp theo, chúng tôi đưa ra một phân loại chung cho các phương pháp phân cụm Sau đó, chúng tôi đi sâu vào từng phương pháp cụ thể, bao gồm phân hoạch, phân cấp và các phương pháp dựa trên mật độ Cuối cùng, chúng tôi cũng xem xét sự phân cụm trong không gian đa chiều cùng với các biến thể của các phương pháp khác.
Hệ thống thông tin địa lý
Từ viết tắt GIS có nhiều cách diễn giải khác nhau, nhưng tất cả đều liên quan đến việc nghiên cứu thông tin địa lý và các khía cạnh liên quan như pháp lý và kinh tế.
1.4.1 Một số định nghĩa về hệ thống thông tin địa lý
Hệ thống thông tin địa lý (GIS) có khả năng nhập, tìm kiếm và quản lý dữ liệu lưu trữ, cung cấp thông tin cần thiết cho người dùng GIS cho phép lập bản đồ bằng máy tính, cải thiện việc biểu diễn dữ liệu so với phương pháp truyền thống Dưới đây là một số định nghĩa phổ biến về GIS.
Định nghĩa của dự án The Geographer's Craft, Khoa Địa lý, Trường Đại học Texas
GIS là một cơ sở dữ liệu số chuyên dụng, sử dụng hệ trục tọa độ không gian làm phương tiện tham chiếu chính Nó bao gồm các công cụ phục vụ cho nhiều công việc khác nhau trong quản lý và phân tích dữ liệu không gian.
- Nhập dữ liệu từ bản đồ giấy, ảnh vệ tinh, ảnh máy bay, số liệu điều tra và các nguồn khác
- Lưu trữ dữ liệu, khai thác, truy vấn cơ sở dữ liệu
- Biến đổi dữ liệu, phân tích, mô hình hóa, bao gồm cả dữ liệu thống kê và dữ liệu không gian
- Lập báo cáo, bao gồm bản đồ chuyên đề, bảng biểu, biểu đồ và kế hoạch
GIS là một công nghệ tích hợp liên quan đến cơ sở dữ liệu, trong đó thông tin được liên kết với tham chiếu không gian, cho phép lưu trữ và truy cập hiệu quả Nó cung cấp khả năng phân tích đa dạng như phân tích ảnh máy bay, ảnh vệ tinh, tạo lập mô hình thống kê và vẽ bản đồ Hơn nữa, GIS đóng vai trò quan trọng trong việc hỗ trợ quyết định, với cách thức nhập, lưu trữ và phân tích dữ liệu phải phản ánh chính xác nhu cầu sử dụng thông tin trong các quyết định và nghiên cứu cụ thể.
Định nghĩa của Viện Nghiên cứu Hệ thống Môi trường ESRI, Mỹ
GIS là một công cụ máy tính quan trọng cho việc lập bản đồ và phân tích các đối tượng cũng như sự kiện trên Trái đất Công nghệ GIS kết hợp chức năng cơ sở dữ liệu như truy vấn và thống kê với khả năng hiển thị và phân tích bản đồ Điều này giúp phân biệt GIS với các hệ thống thông tin khác Mặc dù có nhiều chương trình máy tính sử dụng dữ liệu không gian như AutoCAD và các phần mềm thống kê, nhưng chúng không được coi là GIS vì thiếu khả năng thực hiện các thao tác không gian.
Định nghĩa của David Cowen, NCGIA, Mỹ
Hệ thống GIS bao gồm phần cứng, phần mềm và quy trình được phát triển nhằm thu thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị dữ liệu không gian Mục tiêu của GIS là giải quyết các vấn đề phức tạp trong quản lý và lập kế hoạch.
Một cách đơn giản, có thể hiểu GIS nhƣ một sự kết hợp giữa bản đồ (map) và cơ sở dữ liệu (database)
GIS = Bản đồ + Cơ sở dữ liệu
Bản đồ trong GIS là công cụ quan trọng giúp xác định vị trí địa điểm cụ thể Khi kết hợp với cơ sở dữ liệu, người dùng có thể truy cập thông tin chi tiết về các đối tượng tương ứng với vị trí trên bản đồ Chẳng hạn, khi xem bản đồ thành phố, người dùng có thể lựa chọn một thành phố để tìm hiểu thêm về diện tích, dân số, thu nhập bình quân và số quận/huyện của thành phố đó.
1.4.2 Các lĩnh vực sử dụng
Ngày nay, Hệ thống Thông tin Địa lý (GIS) đã khẳng định ưu thế của mình nhờ khả năng tích hợp dữ liệu không gian và phi không gian từ nhiều nguồn khác nhau trong phân tích dữ liệu GIS được phát triển dựa trên kiến thức từ nhiều lĩnh vực khoa học khác nhau.
- Ngành địa lý: ngành liên quan mật thiết đến việc hiểu thế giới và vị trí của con người trong thế giới
Ngành bản đồ (cartography) đóng vai trò quan trọng trong hệ thống thông tin địa lý (GIS) vì thông tin địa lý là dữ liệu tham chiếu không gian Dữ liệu đầu vào của GIS chủ yếu được xây dựng từ các bản đồ tuân theo tiêu chuẩn của ngành bản đồ, giúp cải thiện khả năng phân tích và hiển thị thông tin không gian.
Công nghệ viễn thám là kỹ thuật thu thập và xử lý dữ liệu từ mọi vị trí trên trái đất thông qua ảnh vệ tinh và ảnh máy bay Dữ liệu này có thể được tích hợp với các lớp dữ liệu trong hệ thống thông tin địa lý (GIS) để phục vụ cho nhiều mục đích khác nhau.
Ảnh máy bay cung cấp dữ liệu chính xác về độ cao trái đất cho hệ thống GIS thông qua kỹ thuật đo lường từ thiết bị trên máy bay.
- Bản đồ địa hình: Cung cấp dữ liệu có chất lƣợng cao về vị trí của ranh giới đất đai, nhà cửa,
Khoa đo đạc, ngành thống kê, khoa học tính toán và toán học đóng vai trò quan trọng trong việc hỗ trợ tính toán, phân tích và hiển thị dữ liệu trong hệ thống thông tin địa lý (GIS).
Công nghệ GIS được ứng dụng rộng rãi trong nhiều lĩnh vực như bản đồ học, đầu tư, quản lý tài nguyên, khảo cổ học, phân tích dân số, đánh giá tác động môi trường, quy hoạch đô thị và nghiên cứu tội phạm Hệ thống GIS giúp trích xuất thông tin từ dữ liệu địa lý thông qua các câu hỏi cơ bản.
Nhận diện là quá trình xác định tên hoặc thông tin khác của một đối tượng thông qua việc chỉ ra vị trí của nó trên bản đồ, chẳng hạn như xác định các yếu tố có mặt tại tọa độ (X, Y).
Vị trí là yếu tố quan trọng, cung cấp thông tin về một hoặc nhiều địa điểm đáp ứng yêu cầu cụ thể Điều này có thể được thể hiện qua tọa độ hoặc bản đồ xác định vị trí của một đối tượng nhất định, hoặc toàn bộ đối tượng Ví dụ, việc xác định vị trí các văn phòng của một công ty trong thành phố giúp người dùng dễ dàng tìm kiếm và tiếp cận dịch vụ.
Cấu trúc dữ liệu bản đồ véc tơ
Các đối tượng không gian trong cấu trúc dữ liệu vector được tổ chức thành các điểm, đường và vùng, và được biểu diễn trên hệ thống tọa độ Đối với các đối tượng trên mặt phẳng, điểm được xác định bằng cặp tọa độ (x, y), trong khi đường được tạo thành từ chuỗi các điểm (vertex) và các đoạn thẳng (segment) nối giữa chúng, với điểm bắt đầu và kết thúc được gọi là nút (node) Đối tượng vùng được xác định bởi các đường khép kín.
1.5.2.Kiểu đối tƣợng điểm (Points) Điểm đƣợc xác định bởi cặp giá trị điểm Các đối tƣợng đơn, thông tin về địa lý chỉ gồm cơ sở vị trí sẽ đƣợc phản ánh là đối tƣợng điểm Các đối tƣợng kiểu điểm có đặc điểm:
+Không cần thể hiện chiều dài và diện tích
Hình 1.17 Số liệu vector được biểu thị dưới dạng điểm (Point)
Trên bản đồ tỷ lệ lớn, các đối tượng được thể hiện dưới dạng vùng, trong khi trên bản đồ tỷ lệ nhỏ, chúng có thể chỉ được biểu thị dưới dạng điểm Do đó, đối tượng điểm và vùng có thể phản ánh lẫn nhau trong việc thể hiện thông tin địa lý.
Đường (Arcs) được định nghĩa là một tập hợp các điểm liên kết, mô tả các đối tượng địa lý dạng tuyến Các đặc điểm chính của đường bao gồm khả năng thể hiện hình dạng và hướng đi của các đối tượng này trong không gian địa lý.
+ Là một dãy các cặp toạ độ
+ Một arc bắt đầu và kết thúc bởi node
+ Các arc nối với nhau và cắt nhau tại node
+ Hình dạng của arc đƣợc định nghĩa bởi các điểm vertices
+ Độ dài chính xác bằng các cặp toạ độ
Hình 1.18 Số liệu vector được biểu thị dưới dạng Arc
1.5.4.Kiểu đối tƣợng vùng (Polygons)
Vùng được xác định bởi các ranh giới đường thẳng, trong đó các đối tượng địa lý có diện tích và được bao quanh bởi một đường được gọi là đối tượng vùng polygons Các đối tượng này có những đặc điểm riêng biệt, giúp phân loại và nhận diện chúng trong không gian địa lý.
Polygons được mô tả bằng tập các đường (arcs) và điểm nhãn (label points)
Một hoặc nhiều arc định nghĩa đường bao của vùng
Một điểm nhãn label points nằm trong vùng để mô tả, xác định cho mỗi một vùng
Hình 1.19 Số liệu vector được biểu thị dưới dạng vùng (Polygon) 1.5.5 Cấu trúc dữ liệu véctơ
Dữ liệu ở dạng véc tơ đƣợc tổ chức ở hai mô hình: Mô hình Spaghetti và mô hình quan hệ không gian Topology
Trong cấu trúc dữ liệu Spaghetti, đối tượng cơ bản là các cặp tọa độ trong không gian địa lý Cụ thể, mỗi đối tượng điểm được xác định qua một cặp tọa độ (x, y), đối tượng đường được biểu diễn bằng chuỗi các cặp tọa độ (xi, yi), và đối tượng vùng được mô tả bằng chuỗi các cặp tọa độ (xj, yj) với điểm đầu và điểm cuối trùng nhau.
Hình 1.20 Minh họa dữ liệu Spaghetti Đặc trƣng Vị trí Điểm A (xA, yA) Điểm B (x B , y B )
Vùng a (xA, yA), (xa1, ya1), …, (x a5 , ya5) , (xB, yB), (xA, yA)
Cấu trúc Spaghetti không ghi nhận đặc trưng kề nhau giữa hai vùng lân cận, tức là mỗi vùng sẽ có hai cạnh chung độc lập Chẳng hạn, trong ví dụ vùng a và vùng b có cạnh chung AB, nhưng cạnh này vẫn được coi là độc lập với các cạnh khác của từng vùng.
Dữ liệu topology được xây dựng từ các đối tượng hình học cơ bản và có mối quan hệ với nhau, với mức độ quan hệ phụ thuộc vào cấp độ topology Một thách thức lớn trong việc phát triển các ứng dụng dựa trên dữ liệu topology là nguồn dữ liệu này thường không có sẵn Để có dữ liệu topology, chúng ta cần chuyển đổi từ dữ liệu hình học cơ bản sang dữ liệu topology, nhưng các phương pháp và công cụ hỗ trợ cho việc chuyển đổi này vẫn còn hạn chế.
Kỹ thuật tiếp cận trong phân cụm dữ liệu
Phân cụm là một kỹ thuật quan trọng trong khai phá dữ liệu, thuộc phương pháp Unsupervised Learning trong Machine Learning Kỹ thuật này chủ yếu nhằm mục đích nhóm các đối tượng thành các cụm (clusters) sao cho các đối tượng trong cùng một cụm có sự tương đồng (similar) cao, trong khi các đối tượng thuộc các cụm khác lại có sự khác biệt (dissimilar) rõ rệt.
Phân cụm nhằm khám phá bản chất bên trong các nhóm dữ liệu thông qua các thuật toán phân cụm, tạo ra các cụm Tuy nhiên, không có tiêu chí nào được coi là tốt nhất để đánh giá hiệu quả của phân tích phân cụm, vì điều này phụ thuộc vào mục đích cụ thể như giảm kích thước dữ liệu, phát hiện cụm tự nhiên, tạo ra các cụm hữu ích và phát hiện ngoại lệ.
Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực nhƣ:
Trong lĩnh vực marketing, việc xác định các nhóm khách hàng như khách hàng tiềm năng và khách hàng giá trị là rất quan trọng Phân loại và dự đoán hành vi khách hàng giúp doanh nghiệp tối ưu hóa chiến lược kinh doanh, từ đó nâng cao hiệu quả sử dụng sản phẩm và dịch vụ.
+ Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng;
+ Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…;
Bảo hiểm và tài chính có thể được phân nhóm theo các đối tượng sử dụng khác nhau, giúp dự đoán xu hướng của khách hàng và phát hiện gian lận tài chính Việc xác định các nhóm đối tượng này không chỉ nâng cao hiệu quả cung cấp dịch vụ mà còn gia tăng khả năng phát hiện các hành vi gian lận, từ đó cải thiện tính minh bạch và bảo mật trong ngành.
+ WWW: Phân loại tài liệu (document classification); phân loại người dùng web (clustering weblog);…
CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU
Giới thiệu về phân cụm dữ liệu bản đồ véctơ
Phân cụm (clustering) là một quá trình tự nhiên và thường xuyên diễn ra trong thực tế, như việc phân loại sinh viên theo học lực, phân loại đất đai theo chất lượng, hay phân loại các trạm rút tiền theo vị trí cụ thể Quá trình này nhằm gom nhóm các đối tượng có tính chất tương đồng hoặc gần giống nhau.
Kỹ thuật phân cụm dữ liệu trong khai phá dữ liệu có nguồn gốc từ toán học thống kê và phân tích số, được áp dụng trong máy học để tìm ra các mẫu ẩn thông qua phương pháp học không giám sát Phân cụm khác với phân loại, vì phân loại yêu cầu xác định trước số lượng lớp và nhãn của các đối tượng, trong khi đó phân cụm không cần thông tin này.
2.1.1.Phân cụm dữ liệu và một số khái niệm liên quan
Phân cụm (clustering) là quá trình chia tập dữ liệu thành các nhóm đối tượng tương tự, giúp tổ chức thông tin một cách hiệu quả Mỗi nhóm bao gồm các đối tượng có đặc điểm chung, trong khi không giống nhau với các nhóm khác Việc nhóm các đối tượng dữ liệu thành cụm là cần thiết trong nhiều ứng dụng, vì nó cho phép biểu diễn dữ liệu theo cách dễ hiểu hơn so với việc hiển thị toàn bộ thông tin chi tiết.
Phân cụm dữ liệu là một phương pháp quan trọng trong khai phá dữ liệu, được ứng dụng rộng rãi trong nhiều lĩnh vực như khoa học, trích xuất thông tin, nhận dạng mẫu, và quản lý quan hệ khách hàng Trong thương mại, các nhà phân tích thị trường sử dụng phân cụm để xác định và mô tả các nhóm khách hàng khác nhau, chẳng hạn như nhóm có chính sách bảo hiểm ôtô với chi phí bồi thường cao Trong sinh học, phân cụm hỗ trợ phân loại thực vật, động vật và gen có chức năng tương đồng Ngoài ra, trong quản lý môi trường, phương pháp này giúp nhận diện các vùng đất tương tự dựa trên dữ liệu quan sát, cũng như phân loại tài liệu trên Web để phát hiện xu hướng thông tin.
Phân tích phân cụm là công cụ quan trọng giúp quan sát đặc trưng của từng cụm trong phân bố dữ liệu, từ đó tạo điều kiện cho việc phân tích dễ dàng hơn Nó có thể được sử dụng như một bước tiền xử lý cho các thuật toán khác, chẳng hạn như phân loại và mô tả đặc điểm, đồng thời hỗ trợ hiệu quả trong việc phát hiện các cụm.
Một phương pháp phân cụm được coi là tốt khi nó tạo ra các cụm chất lượng cao, thể hiện qua ba yếu tố chính Thứ nhất, các đối tượng trong cùng một cụm có độ tương tự cao, trong khi độ tương tự giữa các đối tượng thuộc các cụm khác lại thấp Thứ hai, chất lượng của phương pháp phụ thuộc vào đơn vị đo độ tương tự và quy trình thực hiện Cuối cùng, phương pháp này cần có khả năng phát hiện một số hoặc tất cả các mẫu ẩn trong dữ liệu.
Khi xác định các đặc tính của dữ liệu, cần có phương pháp thích hợp để tính khoảng cách, hay còn gọi là phép đo tương tự, giữa các đối tượng dữ liệu Hàm đo sự giống nhau giữa các cặp đối tượng cho phép tính độ tương tự hoặc phi tương tự Giá trị lớn của hàm cho thấy các đối tượng giống nhau hơn Trong toán học, khoảng cách thể hiện độ gần nhau giữa hai đối tượng, trong khi trong các lĩnh vực khác, khái niệm tương tự lại quan trọng hơn Việc lựa chọn phương pháp tính khoảng cách ảnh hưởng lớn đến kết quả và phụ thuộc vào loại thuộc tính dữ liệu cần phân tích.
Nhìn chung, khoảng cách dij giữa 2 điểm bất kỳ trong không gian nhiều chiều có thể đƣợc tính bằng công thức do Minkowski đƣa ra: n p i p jk ik ij x x d
Trong đó k là chỉ số tọa độ và p xác định kiểu khoảng cách
- Nếu p = 1 và dùng trên biến khoảng hoặc liên tục thì là khoảng cách Manhattan
- Nếu p = 1 và dùng trên thuộc tính kiểu nhị phân thì là khoảng cách Hamming (xác định số các bit 1 giống nhau giữa 2 dãy giá trị nhị phân)
- Nếu p = 2 thì chính là khoảng cách Euclidean
Khoảng cách Euclidean là phương pháp phổ biến để đo độ tương tự giữa các đối tượng Cần lưu ý rằng các dạng khác của công thức Minkowski không xem xét sự khác biệt trong hệ đo của các chiều Do đó, việc quy đổi các chiều về cùng một tỷ lệ trước khi tính toán là cần thiết để đảm bảo độ chính xác của kết quả.
2.1.2.Phân cụm dữ liệu bản đồ
Trong cộng đồng dữ liệu địa lý, khai phá dữ liệu mang lại nhiều công cụ hữu ích, đặc biệt là công cụ phân cụm dữ liệu bản đồ Những công cụ này giúp xác định các vùng đất sử dụng tương tự dựa trên dữ liệu trái đất và hợp nhất các khu vực có kiểu thời tiết giống nhau Mặc dù phân cụm chỉ là một nhánh nhỏ trong khai phá dữ liệu, nhưng với nhiều ứng dụng phong phú, công cụ này đã phát triển mạnh mẽ.
Phân cụm không gian véctơ là quá trình nhóm các đối tượng không gian thành các lớp tương đồng, trong đó các đối tượng trong cùng một nhóm có sự tương tự cao, trong khi các đối tượng thuộc nhóm khác thì không Việc phân nhóm này có thể dựa trên các thuộc tính phi không gian cũng như thuộc tính không gian, với sự chú ý đến sự lân cận và gần gũi của các đối tượng hoặc sự kiện trong không gian, thời gian và không gian thời gian.
Việc chọn lựa thuật toán phân cụm phù hợp cho việc khai phá dữ liệu phụ thuộc vào loại ứng dụng và kiểu dữ liệu Các yếu tố quan trọng cần xem xét bao gồm khả năng xử lý các loại thuộc tính khác nhau, tính thích hợp với tập dữ liệu lớn, khả năng làm việc với dữ liệu nhiều chiều, khả năng nhận diện các cụm có hình dạng đặc biệt, và khả năng xử lý dữ liệu nhiễu Hơn nữa, trong quá trình lựa chọn thuật toán, cần cân nhắc một số yếu tố khác để đảm bảo hiệu quả tối ưu.
2.1.2.1 Mục tiêu của ứng dụng
Mục tiêu ứng dụng ảnh hưởng lớn đến loại thuật toán phân cụm được lựa chọn Chẳng hạn, một chuỗi siêu thị muốn xác định vị trí tối ưu cho kho hàng và siêu thị cần phân cụm khách hàng để giảm thiểu tổng khoảng cách đến trung tâm cụm Trong trường hợp này, nếu khoảng cách đến trung tâm là tiêu chí chính, các thuật toán phân đoạn như k-means và k-medoids sẽ là lựa chọn phù hợp.
Ứng dụng phân tích dữ liệu ảnh raster và nhận dạng ảnh hiện nay đang chú trọng vào việc tìm kiếm các cụm tự nhiên, tương tự như cách nhận biết đám đông bằng mắt thường Việc này bao gồm việc xác định các cụm dựa trên tính đồng đều về mật độ, màu sắc, hình khối hoặc kích thước Do đó, thuật toán phân cụm dựa trên mật độ là sự lựa chọn tối ưu cho quá trình này.
2.1.2.2 Cân đối giữa chất lƣợng và tốc độ
Người dùng luôn quan tâm đến việc so sánh tốc độ và chất lượng của thuật toán phân cụm Để một thuật toán phân cụm phù hợp với ứng dụng, nó cần đáp ứng cả yêu cầu về chất lượng lẫn tốc độ Kích thước dữ liệu cần phân cụm thường là yếu tố quan trọng ảnh hưởng đến thời gian thực hiện thuật toán.
Một thuật toán phân cụm có thể đạt chất lượng tốt trên tập dữ liệu nhỏ, tuy nhiên, không đảm bảo hiệu suất tương tự khi áp dụng cho tập dữ liệu lớn.
2.1.2.3 Đặc tính của dữ liệu
Các phương pháp phân cụm dữ liệu bản đồ véc tơ
2.2.1 Phương pháp phân cụm phân hoạch
Kỹ thuật phân hoạch dữ liệu chia một tập hợp n phần tử thành k nhóm đã được xác định trước, đặc biệt hiệu quả trong việc tìm các cụm hình cầu trong không gian Euclidean Phương pháp này dựa vào khoảng cách giữa các điểm để xác định mối quan hệ gần gũi hoặc xa cách giữa chúng Tuy nhiên, nó gặp khó khăn trong việc xử lý các cụm có hình dạng kỳ quặc hoặc mật độ điểm dày đặc Độ phức tạp của các thuật toán phân hoạch dữ liệu rất cao khi phải tìm kiếm nghiệm tối ưu toàn cục, do đó, thường áp dụng giải pháp tối ưu cục bộ bằng cách sử dụng hàm tiêu chuẩn để đánh giá chất lượng cụm và hướng dẫn quá trình tìm kiếm Ý tưởng chính của thuật toán là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm.
2.2.2 Phương pháp phân cụm phân cấp
Phương pháp này tạo ra một phân cấp dựa trên các đối tượng dữ liệu đang được xem xét, sắp xếp một tập dữ liệu thành cấu trúc hình cây thông qua kỹ thuật đệ quy Hai cách tiếp cận phổ biến của kỹ thuật này là
* Hòa nhập nhóm, thường được gọi là tiếp cận Bottom-Up
* Phân chia nhóm, thường được gọi là tiếp cận Top-Down
Hình 2.1 Các chiến lƣợc phân cụm phân cấp
Trong thực tế, nhiều trường hợp đã áp dụng kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, cho phép cải thiện kết quả của phân cụm phân cấp thông qua bước phân cụm phân hoạch Hai phương pháp này là những kỹ thuật phân cụm dữ liệu cổ điển, và hiện nay đã có nhiều thuật toán cải tiến dựa trên chúng được sử dụng rộng rãi trong khai thác dữ liệu.
2.2.3 Phương pháp phân cụm dựa trên mật độ
Kỹ thuật phân cụm dựa trên mật độ nhóm các đối tượng dữ liệu bằng cách xác định hàm mật độ, trong đó mật độ phản ánh số lượng đối tượng lân cận của một đối tượng dữ liệu Khi một đối tượng đã được xác định, nó có thể phát triển thêm các đối tượng dữ liệu mới nếu số lượng lân cận vượt qua một ngưỡng nhất định Phương pháp này cho phép phát hiện các cụm dữ liệu với hình dạng đa dạng và có khả năng xử lý tốt các phần tử ngoại lai hoặc giá trị nhiễu Tuy nhiên, việc xác định các tham số mật độ cho thuật toán là thách thức lớn, vì chúng có ảnh hưởng đáng kể đến kết quả phân cụm.
2.2.4 Phương pháp phân cụm dựa trên lưới
Kỹ thuật phân cụm dựa trên lưới là phương pháp hiệu quả cho dữ liệu nhiều chiều, tập trung vào việc phân cụm trong không gian dữ liệu Phương pháp này chuyển đổi dữ liệu thành các ô trong cấu trúc lưới, cho phép thao tác phân cụm chỉ với các đối tượng trong từng ô, thay vì toàn bộ dữ liệu Điểm nổi bật của phương pháp này là không di chuyển các đối tượng mà xây dựng các cấp độ phân nhóm trong mỗi ô, tương tự như phân cụm phân cấp nhưng không trộn lẫn các ô Phương pháp này giải quyết vấn đề mà các kỹ thuật phân cụm dựa trên mật độ không thể làm được, đồng thời có ưu điểm về thời gian xử lý nhanh và tính độc lập với số lượng đối tượng dữ liệu ban đầu, chỉ phụ thuộc vào số ô trong mỗi chiều của không gian lưới.
Hình 2.2 Cấu trúc phân cấp 2.2.5 Phương pháp phân cụm dựa trên mô hình
Phương pháp phân cụm dựa trên mô hình tìm cách tối ưu hóa các tham số mô hình để phù hợp tốt nhất với dữ liệu Chúng sử dụng các chiến lược phân cụm như phân hoạch hoặc phân cấp, dựa trên cấu trúc giả định về tập dữ liệu Phương pháp này giả định rằng dữ liệu được sinh ra từ hỗn hợp các phân phối xác suất cơ bản và có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Mặc dù tương tự như phương pháp phân cụm dựa trên mật độ, phương pháp này không luôn bắt đầu với một số cụm cố định và không áp dụng cùng một khái niệm mật độ cho các cụm.
2.2.6 Phương pháp phân cụm có dữ liệu ràng buộc
Sự phát triển của PCDL không gian trên CSDL lớn đã mang lại nhiều công cụ hữu ích cho phân tích thông tin địa lý Tuy nhiên, hầu hết các thuật toán hiện có lại thiếu khả năng cho phép người dùng xác định các ràng buộc thực tiễn cần được thỏa mãn trong quá trình phân cụm Để nâng cao hiệu quả của PCDL không gian, cần thực hiện thêm các nghiên cứu nhằm cung cấp cho người dùng khả năng tích hợp các ràng buộc vào thuật toán phân cụm.
Hình 2.3 Các cách mà các cụm có thể đƣa ra
Hiện nay, các phương pháp phân cụm đang được phát triển và áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, dẫn đến sự hình thành của một số nhánh nghiên cứu mới dựa trên các phương pháp này.
Phân cụm thống kê là một nhánh nghiên cứu dựa trên các khái niệm phân tích hệ thống, sử dụng các độ đo tương tự để phân chia các đối tượng Tuy nhiên, phương pháp này chỉ áp dụng cho các dữ liệu có thuộc tính số.
Kỹ thuật phân cụm khái niệm được phát triển nhằm áp dụng cho dữ liệu hạng mục, cho phép phân nhóm các đối tượng dựa trên các khái niệm mà chúng xử lý.
Phân cụm mờ là một kỹ thuật quan trọng trong phân tích dữ liệu, cho phép xử lý các dữ liệu thực không chắc chắn Các thuật toán phân cụm mờ cung cấp lược đồ phân cụm phù hợp cho nhiều hoạt động trong đời sống hàng ngày, giúp tối ưu hóa việc khai thác thông tin từ dữ liệu.
Phân cụm mạng Kohonen là một phương pháp dựa trên mạng nơron, bao gồm tầng nơron vào và tầng nơron ra Mỗi nơron trong tầng vào đại diện cho một thuộc tính của bản ghi, và tất cả các nơron trong tầng vào đều kết nối với các nơron của tầng ra Mỗi liên kết giữa các nơron được gán một trọng số, giúp xác định vị trí của nơron ra tương ứng.
Thuật toán phân cụm dữ liệu bản đồ không gian véc tơ
Thuật toán phân đoạn là một phương pháp phân cụm đã tồn tại lâu đời và phổ biến trước khi khai phá dữ liệu xuất hiện Mặc dù các thuật toán biểu diễn các cụm dữ liệu khác nhau, nhưng chúng đều có cách tiếp cận chung trong việc tính toán giải pháp Ý tưởng chính của thuật toán phân đoạn là tổ chức n đối tượng trong không gian n chiều thành k cụm, sao cho tổng độ lệch chuẩn từ trọng tâm của cụm đến các đối tượng là nhỏ nhất Độ lệch chuẩn có thể được tính toán theo nhiều cách khác nhau, nhưng chung quy lại được gọi là hàm tương tự (similarity function).
Phương pháp này yêu cầu số cụm được xác định trước, phù hợp cho việc phân đoạn dữ liệu trong không gian 2D Nó xem xét khoảng cách giữa các điểm dữ liệu để xác định mối quan hệ gần gũi hoặc không gần gũi giữa chúng.
Phương pháp này có nhược điểm là yêu cầu xác định tham số k và không phù hợp với bộ dữ liệu có hình dạng phức tạp hoặc mật độ phân bố dày đặc Hơn nữa, độ phức tạp tính toán của thuật toán cao khi cần tìm kiếm kết quả tối ưu Một số thuật toán tiêu biểu trong phương pháp này bao gồm k-means, PAM (Partitioning Around Medoids), CLARA (Clustering LARge Application) và CLARANS (Clustering Large Applications based upon RANdomized Search).
EM (Expectation Maximization), … Dưới đây mô tả vài thuật toán điển hình trong phương pháp phân đoạn
Thuật ngữ “k-means” được J MacQueen giới thiệu vào năm 1967, phát triển từ ý tưởng của H Steinhaus vào năm 1956 Thuật toán này sử dụng giá trị trung bình của các đối tượng trong cụm làm trung tâm của cụm, và tổng giá trị trung bình về độ lệch giữa các đối tượng với trung tâm cụm được gọi là hàm tiêu chuẩn (criterion function).
Trong đó, x là một điểm/ đối tƣợng trong không gian véctơ, mi là giá trị trung bình của cụm Ci
Thuật toán k-means hoạt động với đầu vào là số cụm k và một cơ sở dữ liệu chứa n đối tượng Mục tiêu của thuật toán là tạo ra k cụm sao cho giá trị hàm tiêu chuẩn E đạt mức tối thiểu.
B1: Khởi tạo k điểm trung tâm cụm bằng cách chọn k đối tƣợng tùy ý
B2.1 Gán mỗi đối tƣợng vào cụm có trung tâm gần đối tƣợng đó nhất, hình thành một tập các cụm mới
B2.2 Tính lại giá trị E của mỗi cụm theo các đối tƣợng mới thu được sau bước B2.1
B3 Thuật toán dừng khi giá trị E không thay đổi
Trong bước 1, chọn ngẫu nhiên k điểm từ cơ sở dữ liệu làm điểm trung tâm cho k cụm Sau đó, tính khoảng cách từ điểm trung tâm đến các điểm khác và gán các điểm gần hơn vào cụm tương ứng Tiếp theo, tính lại giá trị hàm tiêu chuẩn E; nếu giá trị mới nhỏ hơn giá trị cũ, thì cập nhật giá trị E Thuật toán sẽ lặp lại cho đến khi giá trị E không thay đổi Khoảng cách giữa điểm trung tâm và các điểm được tính bằng độ đo khoảng cách Euclidean.
Thuật toán k-means thuộc loại bài toán NP và thường được cải tiến bằng cách kết hợp với các phương pháp phỏng đoán (heuristic) Một trong những nhược điểm chính của thuật toán là độ nhạy với các yếu tố ngoại lai, nhiễu và các phần tử cận biên của cụm, điều này có thể làm sai lệch giá trị trung bình Chất lượng cụm cũng bị ảnh hưởng bởi việc lựa chọn tập điểm trung tâm ban đầu Để tăng tốc độ tìm kiếm trong quá trình xử lý, dữ liệu được tổ chức theo cấu trúc cây K-D Thuật toán k-means được sử dụng rộng rãi trong nhiều công cụ phân cụm phổ biến, phục vụ cho các ứng dụng trong lĩnh vực khoa học và công nghiệp.
Mỗi cụm được đại diện bởi một điểm hoặc đối tượng thuộc cụm đó, tạo ra một giải pháp đơn giản phù hợp với mọi kiểu thuộc tính Khi chọn một đối tượng làm trọng tâm, cụm được định nghĩa là tập hợp các điểm gần gũi với trọng tâm đó Mục tiêu là tính toán khoảng cách trung bình hoặc áp dụng hàm tính độ tương tự giữa các đối tượng và trọng tâm của chúng.
Các bước trong thuật toán k-medoids gần giống như thuật toán k-means, trong đó giá trị k chính là k đối tƣợng đƣợc chọn ngẫu nhiên làm trọng tâm cụm
Phiên bản điển hình cho k-medoids là thuật toán PAM (Partitioning Around Medoids) gồm các bước như sau
B1: Lấy ngẫu nhiên k đối tƣợng tùy ý làm trọng tâm của k cụm
B2.1 Gán các đối tượng vào cụm mà có độ tương tự gần với trọng tâm của cụm đó
B2.2 Chọn ngẫu nhiên đối tƣợng O’ thuộc n-k
B2.3 Tính tổng chi phí S để chuyển từ điểm trọng tâm cũ sang
B2.4 Nếu S