GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU
Khái niệm khai phá dữ liệu
Khai phá dữ liệu là quá trình tự động tìm kiếm và trích xuất thông tin hữu ích từ các cơ sở dữ liệu lớn, giúp các tổ chức và doanh nghiệp khám phá tri thức tiềm ẩn.
Quá trình này liên quan đến việc trích xuất và tạo ra những thông tin hoặc mẫu không rõ ràng nhưng có giá trị từ các cơ sở dữ liệu lớn.
Khai phá tri thức là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và triển vọng, với những ứng dụng thành công trong việc phát hiện tri thức Nó cho thấy ưu thế vượt trội so với các công cụ tìm kiếm truyền thống trong việc phân tích dữ liệu.
Khai phá dữ liệu là giai đoạn quan trọng trong quá trình khám phá tri thức, sử dụng các thuật toán chuyên dụng để phát hiện mẫu và mô hình trong dữ liệu, đồng thời tuân thủ các quy định về hiệu quả tính toán.
Khai phá dữ liệu là quá trình tìm kiếm và phát hiện tri thức mới, hữu ích từ các cơ sở dữ liệu lớn Nó bao gồm việc lọc và sản sinh những tri thức hoặc mẫu tiềm ẩn, giúp khai thác thông tin hữu ích chưa được biết đến.
Kiến trúc của một hệ thống khai phá dữ liệu
Khai phá dữ liệu là quá trình rút trích thông tin giá trị từ các kho dữ liệu lớn, đóng vai trò quan trọng trong việc khai thác tri thức từ cơ sở dữ liệu.
Kiến trúc của một hệ thống khai phá dữ liệu có các thành phần nhƣ sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 1.1: Kiến trúc một hệ thống khai phá dữ liệu
CSDL, hay còn gọi là kho dữ liệu, là tập hợp các cơ sở dữ liệu và kiểu dữ liệu đa dạng, nơi lưu trữ thông tin Việc áp dụng các kỹ thuật làm sạch và tích hợp dữ liệu là cần thiết để đảm bảo tính chính xác và đồng nhất của thông tin lưu trữ.
Cơ sở tri thức là miền tri thức quan trọng dùng để tìm kiếm và đánh giá mức độ quan trọng của các mẫu kết quả Nó bao gồm một hệ thống phân cấp khái niệm, giúp tổ chức các thuộc tính và giá trị thuộc tính ở nhiều mức độ trừu tượng khác nhau.
Công cụ khai thác dữ liệu là một hệ thống quan trọng, bao gồm nhiều công cụ cần thiết để thực hiện quá trình khai phá Những công cụ này tích hợp các mô-đun chức năng cho phép thực hiện các nhiệm vụ như kết hợp, phân lớp và phân cụm dữ liệu.
Mẫu ước lượng là một thành phần quan trọng trong việc tương tác với các Modul khai phá dữ liệu, giúp tập trung vào việc tìm kiếm các mẫu có độ quan tâm cao Nó cho phép lọc các mẫu đã khám phá dựa trên các ngưỡng về độ quan tâm Ngoài ra, Modul đánh giá mẫu có thể được tích hợp trực tiếp vào Modul khai phá dữ liệu, tùy thuộc vào cách cài đặt của phương pháp khai phá dữ liệu được sử dụng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Dữ liệu thực: là kết quả cuối cùng của quá trình khai phá, phù hợp với yêu cầu người sử dụng.
Các giai đoạn của quá trình khai phá
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức
Giai đoạn này là cơ hội duy nhất để khám phá thông tin mới và tiềm ẩn trong cơ sở dữ liệu, chủ yếu phục vụ cho việc mô tả và dự đoán.
Mô tả dữ liệu là một quá trình tổng hợp và diễn đạt các đặc điểm chung của các thuộc tính dữ liệu trong kho dữ liệu, giúp con người dễ dàng hiểu và tiếp cận thông tin.
Dự đoán dựa trên dữ liệu hiện tại để phát hiện các quy luật từ mối liên hệ giữa các thuộc tính, từ đó chiết xuất mẫu và dự đoán giá trị chưa biết hoặc giá trị tương lai của các biến quan tâm.
Quá trình khai phá dữ liệu đƣợc thể hiện nhƣ hình sau:
Hình 1.2: Quá trình khai phá dữ liệu
Xác định nhiệm vụ: xác định chính xác các vấn đề cần giải quyết
Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp
Thu thập và tiền xử lý dữ liệu là bước quan trọng trong khai thác dữ liệu, giúp chuẩn bị thông tin liên quan để thuật toán có thể hiểu và xử lý Quá trình này thường gặp nhiều thách thức và yêu cầu sự chính xác cao.
Số hóa tại Trung tâm Học liệu - Đại học Thái Nguyên gặp nhiều khó khăn như yêu cầu sao chép dữ liệu thành nhiều bản, quản lý tập dữ liệu phức tạp và cần lặp lại toàn bộ quy trình nhiều lần.
Quá trình khai phá dữ liệu trải qua ba bước:
Bước đầu tiên trong quá trình tiền xử lý dữ liệu là lọc dữ liệu, bao gồm việc tích hợp và chỉnh sửa Dữ liệu thu thập từ nhiều nguồn có thể chứa sai sót, dư thừa và trùng lặp Lọc dữ liệu giúp loại bỏ những phần dư thừa, tạo ra định dạng thống nhất Sau khi được lọc và chỉnh sửa, kích thước dữ liệu sẽ nhỏ hơn, giúp quá trình xử lý trở nên nhanh chóng hơn.
Bước 2: Khai phá dữ liệu là công việc chính, sử dụng các thuật toán khác nhau để khai phá các kiến thức tiềm ẩn trong dữ liệu
Bước 3: Quá trình ước lượng kết quả khai phá dựa trên yêu cầu của người dùng Các kết quả này được xác định theo những quy tắc nhất định Nếu kết quả cuối cùng không đáp ứng yêu cầu, cần áp dụng kỹ thuật khác cho đến khi đạt được kết quả mong muốn.
Các phương pháp khai phá dữ liệu
Khai phá dữ liệu nhằm mục đích chiết xuất tri thức có lợi cho kinh doanh và nghiên cứu khoa học, với hai mục tiêu chính là mô tả và dự đoán Dự đoán liên quan đến việc sử dụng các biến trong cơ sở dữ liệu để phát hiện mẫu và dự đoán giá trị chưa biết hoặc giá trị tương lai Trong khi đó, mô tả tập trung vào việc tìm kiếm các mẫu dữ liệu dễ hiểu cho con người Để đạt được những mục tiêu này, người ta thường áp dụng các phương pháp khai phá dữ liệu khác nhau.
Luật kết hợp (Association rules)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Mô hình ràng buộc (Dependency modeling)
Biểu diễn mô hình (Model Evaluation)
Phân tích sự phát triển và độ lệch (Evolution and deviation analyst)
Phương pháp tìm kiếm (Search method)
Trong các phương pháp khai phá dữ liệu, ba phương pháp phổ biến nhất là Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu.
Phân lớp dữ liệu, theo Han và Kamber (2000), là quá trình xây dựng mô hình nhằm phân chia các đối tượng thành các lớp khác nhau Mục tiêu của phân lớp dữ liệu là dự đoán giá trị bị thiếu trong một số thuộc tính của dữ liệu hoặc dự đoán giá trị của dữ liệu sẽ xuất hiện trong tương lai.
Quá trình phân lớp dữ liệu được thực hiện qua 2 bước:
Dựa trên tập dữ liệu huấn luyện, quá trình xây dựng mô hình nhằm mô tả các đặc trưng của lớp dữ liệu hoặc khái niệm cụ thể được gọi là học có giám sát, trong đó mô hình học theo các mẫu đã được cung cấp trước.
Từ những lớp dữ liệu hoặc những khái niệm được xác định trước, dự đoán giá trị của những đối tƣợng quan tâm
Kỹ thuật phân lớp dữ liệu được Han và Kamber giới thiệu là cây quyết định, trong đó mỗi nút của cây thể hiện một quyết định dựa trên giá trị của thuộc tính tương ứng.
Phân nhóm dữ liệu là một kỹ thuật khai phá dữ liệu tương tự như phân lớp, nhưng khác biệt ở chỗ đây là quá trình học không giám sát Quá trình này nhóm các đối tượng vào những lớp tương đương, trong đó các đối tượng trong cùng một nhóm phải có sự tương đồng và khác biệt với các nhóm khác Trong phân nhóm đối tượng, các đối tượng được nhóm lại dựa trên sự giống nhau, được xác định thông qua các chức năng tương đồng Thông thường, sự giống nhau này được đo lường bằng các chỉ số định lượng như khoảng cách, và các tiêu chí này thường được xác định bởi các chuyên gia trong lĩnh vực.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Luật kết hợp là phương pháp khai thác dữ liệu nhằm phát hiện các mẫu, mối tương quan và quan hệ nhân quả giữa các đối tượng trong cơ sở dữ liệu giao dịch và thông tin khác Đầu vào của quá trình này là các cơ sở dữ liệu giao dịch, trong khi đầu ra là việc xác định các mối quan hệ quan trọng giữa các mục trong những cơ sở dữ liệu này.
Sự hiện diện của một số mục trong giao dịch đồng nghĩa với việc sẽ có sự hiện diện của các mục khác trong cùng giao dịch đó.
Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu
Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau:
Cơ sở dữ liệu quan hệ hiện nay là hình thức lưu trữ dữ liệu phổ biến, với cấu trúc cao và dữ liệu được tổ chức thành các bảng với các thuộc tính rõ ràng Việc khai phá dữ liệu trong các cơ sở dữ liệu này chủ yếu tập trung vào việc phát hiện các mẫu thông tin.
Cơ sở dữ liệu giao tác là tập hợp các bản ghi giao dịch, chủ yếu phản ánh hoạt động của doanh nghiệp và tổ chức Khai phá dữ liệu trên nền tảng này tập trung vào việc khám phá luật kết hợp và tìm kiếm mối tương quan giữa các mục dữ liệu trong bản ghi giao dịch.
Cơ sở dữ liệu không gian bao gồm dữ liệu quan hệ và thông tin định vị Luật kết hợp trong cơ sở dữ liệu không gian mô tả mối quan hệ giữa các đặc trưng, với dạng X -> Y, trong đó X và Y là tập hợp vị từ không gian Các thuật toán khai phá luật kết hợp không gian tương tự như khai phá luật kết hợp, nhưng có thêm yếu tố vị từ không gian.
Cơ sở dữ liệu có yếu tố thời gian bao gồm hai phần chính: dữ liệu quan hệ (hay giao tác) và thông tin liên quan đến thời gian.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên cung cấp thông tin quan trọng về các luật kết hợp thời gian, cho thấy rằng chúng chứa nhiều thông tin hơn so với các luật kết hợp cơ bản.
Cơ sở dữ liệu đa phương tiện đang phát triển mạnh mẽ do số lượng trang Web bùng nổ và thông tin trên Web gia tăng nhanh chóng Khai thác thông tin trên Web (Web mining) đã trở thành một lĩnh vực nghiên cứu quan trọng trong khai phá dữ liệu Web mining được chia thành ba phạm trù chính: khai thác cách sử dụng Web (Web usage mining), khai thác cấu trúc Web (Web structure mining) và khai thác nội dung Web (Web content mining) Trong đó, khai thác cách sử dụng Web tập trung vào việc phân tích thông tin từ người truy cập.
Các ứng dụng của khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực mới nhưng đang ngày càng thu hút sự chú ý của nhiều nhà nghiên cứu, nhờ vào những ứng dụng thực tiễn phong phú mà nó mang lại.
Phân tích dữ liệu và hỗ trợ ra quyết định
Phân lớp văn bản, tóm tắt văn bản, phân lớp các trang Web và phân cụm ảnh màu
Chuẩn đoán triệu chứng, phương pháp trong điều trị y học
Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền trong sinh học
Phân tích tình hình tài chính, thị trường, dự báo giá cổ phiếu trong tài chính, thị trường và chứng khoán
Phân tích dữ liệu marketing, khách hàng
Điều khiển và lập lịch trình
Bảo hiểm, Giáo dục, Y tế……
Các thách thức và khó khăn trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực quan trọng, nhưng cũng đối mặt với nhiều thách thức trong các ngành khác nhau Những khó khăn này ngày càng gia tăng và cần được chú ý để tìm ra giải pháp hiệu quả.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Các cơ sở dữ liệu lớn thường chứa các tập dữ liệu có kích thước khổng lồ, thường đạt đến mức terabyte, đòi hỏi quy trình xử lý đặc biệt.
Mức độ nhiễu cao hoặc dữ liệu bị thiếu
Số chiều các thuộc tính lớn
Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp
Quan hệ giữa các trường phức tạp
Việc giao tiếp với người sử dụng và kết hợp các tri thức
Tích hợp với các hệ thống khác
Cơ sở dữ liệu có thể rất lớn với nhiều bản ghi và thuộc tính Để giải quyết vấn đề này, cần thiết lập ngưỡng cho cơ sở dữ liệu thông qua các phương pháp như chiết xuất mẫu, xấp xỉ hoặc xử lý song song Để đối phó với sự thay đổi dữ liệu theo thời gian, việc chuẩn hóa, cải tiến và nâng cấp các mẫu và mô hình là cần thiết, đồng thời xem những thay đổi này như mục tiêu của quá trình khai phá và tìm kiếm mẫu.
Sự thiếu vắng dữ liệu do thuộc tính không phù hợp và các bộ giá trị không đầy đủ được xem như là giá trị ẩn, chưa biết Những giá trị này có thể được dự đoán thông qua một số phương pháp nhất định.
Các mối quan hệ phức tạp giữa các thuộc tính trong cơ sở dữ liệu (CSDL) yêu cầu các giải pháp và kỹ thuật phù hợp để nhận diện và áp dụng trong quá trình khai thác dữ liệu.
Mạng nơron cho khai phá dữ liệu
Mạng nơron nhân tạo là công cụ mạnh mẽ để giải quyết các bài toán phi tuyến và phức tạp, đặc biệt khi mối quan hệ giữa các quá trình khó xác định Trong số các loại mạng nơron, mạng nơron Kohonen nổi bật với nhiều ưu điểm, trở thành công cụ hữu ích trong khai thác dữ liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Thuật toán SOM tạo ra hàm phân bố xác suất cho dữ liệu ban đầu, giúp dễ dàng giải thích và trực quan hóa hiệu quả Các chuyên gia khai phá dữ liệu có thể lựa chọn phương pháp phân tích phù hợp với vấn đề cụ thể Phương pháp SOM cho phép thực hiện nhiều nhiệm vụ đồng thời, mang lại kết quả tương đương với sự kết hợp của nhiều phương pháp khác SOM rất hiệu quả trong việc phân cụm và giảm kích thước dữ liệu, và sẽ được nghiên cứu và áp dụng trong các chương tiếp theo của luận văn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Khái niệm và mục tiêu của phân cụm dữ liệu
2.1.1 Khái niệm về phân cụm dữ liệu
Phân cụm dữ liệu là quá trình tổ chức các đối tượng tương tự trong một tập dữ liệu thành các nhóm, hay còn gọi là cụm Mục tiêu của phân cụm là đảm bảo rằng các đối tượng trong cùng một cụm có sự tương đồng cao, trong khi các đối tượng thuộc các cụm khác nhau lại có sự khác biệt rõ rệt.
Phân cụm dữ liệu là một kỹ thuật quan trọng trong Khai phá dữ liệu, giúp phát hiện các cụm và mẫu dữ liệu tự nhiên trong tập dữ liệu lớn Kỹ thuật này cung cấp thông tin tri thức hữu ích, hỗ trợ quá trình ra quyết định hiệu quả.
Phân cụm dữ liệu khác với phân lớp dữ liệu ở chỗ không cần định nghĩa trước các mẫu huấn luyện Điều này cho phép phân cụm dữ liệu được xem như một phương pháp học qua quan sát, trong khi phân lớp dữ liệu dựa trên việc học từ các ví dụ cụ thể.
Phân cụm dữ liệu không chỉ là một kỹ thuật độc lập mà còn đóng vai trò quan trọng trong quá trình tiền xử lý cho các thuật toán khai phá dữ liệu khác như phân loại và mô tả đặc điểm Điều này giúp phát hiện các cụm dữ liệu hiệu quả Tuy nhiên, phân cụm dữ liệu vẫn là một thách thức lớn do sự cần thiết phải giải quyết nhiều vấn đề cơ bản liên quan đến dữ liệu, chẳng hạn như nhiễu từ quá trình thu thập không chính xác, thiếu minh bạch, hoặc các đối tượng dữ liệu thiếu thông tin về một số thuộc tính Hơn nữa, sự gia tăng của dữ liệu hỗn hợp trong các hệ quản trị dữ liệu càng làm cho vấn đề này trở nên phức tạp hơn.
2.1.1.1 Mục tiêu của phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là xác định bản chất của các nhóm trong tập dữ liệu chưa có nhãn Không tồn tại tiêu chuẩn tuyệt đối nào cho kết quả phân cụm, do đó người sử dụng cần phải xác định rõ ràng tiêu chí phân cụm để đảm bảo rằng kết quả đạt yêu cầu.
Hiện tại, chưa có phương pháp phân cụm tổng quát nào có khả năng giải quyết hoàn toàn tất cả các loại cấu trúc dữ liệu Thêm vào đó, các phương pháp phân cụm hiện có vẫn gặp nhiều hạn chế.
Cần có một phương pháp biểu diễn cấu trúc dữ liệu để áp dụng các thuật toán phân cụm tương ứng Mỗi cách biểu diễn khác nhau sẽ yêu cầu một thuật toán phân cụm phù hợp nhằm tối ưu hóa hiệu quả xử lý và phân tích dữ liệu.
2.1.1.2 Các yêu cầu đối với kỹ thuật phân cụm dữ liệu
Phân cụm là một thách thức trong nghiên cứu, với tiềm năng ứng dụng lớn nhưng cũng đi kèm với những yêu cầu đặc biệt Dưới đây là các yêu cầu cơ bản của phân cụm trong KPDL.
Nhiều thuật toán phân cụm dữ liệu thường chỉ hiệu quả với các tập dữ liệu nhỏ, dưới 200 đối tượng, trong khi các cơ sở dữ liệu lớn có thể chứa hàng triệu đối tượng Việc phân cụm trên các tập dữ liệu lớn có thể ảnh hưởng đến kết quả Do đó, cần phát triển các thuật toán phân cụm có khả năng mở rộng cao để xử lý hiệu quả các cơ sở dữ liệu lớn.
Nhiều thuật toán phân cụm dữ liệu thường chỉ phù hợp với kiểu khoảng (kiểu số), nhưng thực tế, nhiều ứng dụng yêu cầu khả năng phân cụm với nhiều kiểu dữ liệu khác nhau, bao gồm kiểu nhị phân, kiểu tường minh (định danh - không thứ tự), và dữ liệu có thứ tự hoặc dạng hỗn hợp.
Khám phá các cụm với hình dạng bất kỳ là một thách thức quan trọng trong lĩnh vực phân cụm Nhiều thuật toán hiện tại sử dụng các phép đo khoảng cách Euclidean và Manhattan, thường chỉ tìm kiếm các cụm hình cầu với mật độ và kích cỡ tương đồng Tuy nhiên, thực tế cho thấy rằng các cụm có thể có nhiều hình dạng khác nhau Vì vậy, phát triển các thuật toán mới có khả năng nhận diện và phân tích các cụm với hình dạng đa dạng là cần thiết để cải thiện hiệu quả phân tích dữ liệu.
Để xác định các tham số đầu vào trong phân tích phân cụm, người dùng cần có một lượng tri thức tối thiểu Nhiều thuật toán phân cụm yêu cầu người dùng chỉ định các tham số như số lượng cụm mong muốn, và kết quả phân cụm thường nhạy cảm với những tham số này Việc xác định các tham số này có thể trở nên khó khăn, đặc biệt khi làm việc với các tập dữ liệu phức tạp.
Số hóa tại Trung tâm Học liệu – Đại học Thái Nguyên có một số lượng đối tượng lớn, gây khó khăn cho người dùng và làm giảm khả năng điều chỉnh chất lượng phân cụm.
Khả năng thích nghi với dữ liệu nhiễu là yếu tố quan trọng trong các cơ sở dữ liệu thực, nơi thường chứa dữ liệu ngoại lai, lỗi hoặc không chính xác Nhiều thuật toán phân cụm có thể bị ảnh hưởng tiêu cực bởi những loại dữ liệu này, dẫn đến chất lượng phân cụm kém Hơn nữa, một số thuật toán cũng nhạy cảm với thứ tự của dữ liệu đầu vào; điều này có thể khiến các cụm được tạo ra khác nhau ngay cả khi sử dụng cùng một tập dữ liệu Do đó, việc phát triển các thuật toán phân cụm ít nhạy cảm với thứ tự dữ liệu đầu vào là rất cần thiết để nâng cao hiệu quả phân tích.
Số chiều lớn trong cơ sở dữ liệu hoặc kho dữ liệu đề cập đến việc chứa nhiều thuộc tính Các thuật toán phân cụm thường hoạt động hiệu quả với dữ liệu có từ hai đến ba chiều, nhưng được đánh giá có chất lượng tốt khi áp dụng cho dữ liệu từ ba chiều trở lên Tuy nhiên, việc phân cụm trong không gian có số chiều lớn là một thách thức, do các không gian này có thể rất thưa và có độ nghiêng lớn.
Một số thuật toán trong phân cụm dữ liệu
2.2.1 Các thuật toán trong phân cụm phân hoạch Ý tưởng chung của thuật toán trong phân cụm phân cụm phân hoạch: phân một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu một phần tử dữ liệu Thuật toán phân cụm phân hoạch tối ƣu cục bộ là sử dụng chiến lƣợc ăn tham để tìm kiếm nghiệm
Dưới đây là một số thuật toán được sử dụng rộng rãi:
Thuật toán K-Means: Ý tưởng : dựa trên độ đo khoảng cách của các đối tƣợng dữ liệu trong cụm
Thực tế, nó đo khoảng cách tới giá trị trung bình của các đối tƣợng dữ liệu trong cụm
Nó được coi là trung tâm của cụm, khởi tạo một tập hợp các cụm trung tâm ban đầu Qua đó, nó lặp lại các bước gán mỗi đối tượng vào các cụm tương ứng.
Quá trình số hóa được thực hiện bởi Trung tâm Học liệu - Đại học Thái Nguyên, trong đó xác định cụm trung tâm gần nhất và tính toán tại từng trung tâm dựa trên việc gán mới cho các đối tượng Quá trình lặp lại sẽ kết thúc khi các trung tâm hội tụ.
Hình 2.5: Thiết lập để xác định danh giới các cụm ban đầu
Mục đích: sinh ra k cụm dữ liệu {C 1 ,C 2 …, C k } từ một tập dữ liệu ban đầu gồm n đối tƣợng trong không gian d chiều Xi = (x i1 ,x i2, …, x id ) )(i=1 n), sao cho hàm tiêu chuẩn:
1 2 ( ) đạt giá trị tối thiểu
Với m i là trọng tâm của cụm C i , D là khoảng cách giữa hai đối tƣợng
Hình 2.6: Tính toán trọng tâm các cụm mới
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Thuật toán K-means, được đề xuất bởi MacQueen vào năm 1967, là một phương pháp phân cụm trong thống kê Mục tiêu của thuật toán này là tạo ra k cụm dữ liệu {C1, C2, …, Ck} từ một tập dữ liệu có n đối tượng trong không gian d chiều, với mỗi đối tượng được biểu diễn bởi các đặc trưng Xi = (xi1, xi2, …, xid) (với i = 1, n) Hàm tiêu chuẩn của thuật toán nhằm tối ưu hóa việc phân chia các đối tượng thành các cụm sao cho các đối tượng trong cùng một cụm có sự tương đồng cao.
K-means là một thuật toán phân cụm nhằm đạt giá trị tối thiểu, trong đó trọng tâm của mỗi cụm được xác định bởi trung bình cộng của các thành phần tương ứng trong các đối tượng vectơ dữ liệu Khoảng cách giữa các đối tượng được tính bằng khoảng cách Euclide Thuật toán yêu cầu đầu vào là số cụm k và đầu ra là các trọng tâm của các cụm dữ liệu Các bước cơ bản của K-means bao gồm việc xác định trọng tâm và phân nhóm các đối tượng dữ liệu dựa trên khoảng cách đến trọng tâm.
InPut : Số cụm k và các trọng tâm cụm {mj} k j=1 ;
C 1, và hàm tiêu chuẩn E đạt giá trị tối thiểu
Bước 1: Khởi tạo :Chọn k trọng tâm {mj} k j=1 ban đầu trong không gian R d (d là số chiều của dữ liệu, việc chọn có thể ngẫu nhiên hoặc theo kinh nghiệm)
Bước 2 : Tính toán khoảng cách : Đối với mỗi điểm X i (1