đề tài thay thế đồ án PHÂN TÍCH DỮ LIỆU SẢN PHẨM ĐỂ TỐI ƯU HÓA DANH MỤC HÀNG HÓA THÔNG QUA VIỆC PHÂN NHÓM CÁC SẢN PHẨM THEO ĐẶC ĐIỂM VÀ DOANH SỐ BÁN HÀNG ĐỂ CẢI THIỆN QUẢN LÝ KHO
GIỚI THIỆU VỀ BÀI TOÁN VÀ CÁC HƯỚNG GIẢI QUYẾT PHỔ BIẾN
Giới thiệu bài toán
Trong quản lý kho và kinh doanh, tối ưu hóa danh mục hàng hóa là yếu tố quan trọng giúp doanh nghiệp quản lý hiệu quả hàng tồn kho, cải thiện chiến lược tiếp thị và tăng doanh thu Phân tích dữ liệu sản phẩm để xác định các nhóm sản phẩm có đặc điểm và doanh số bán hàng tương đồng là một phương pháp hiệu quả Việc phân nhóm này cho phép doanh nghiệp xây dựng các chiến lược nhập hàng, định giá và tiếp thị phù hợp hơn với từng nhóm sản phẩm.
Xu hướng hiện nay cho thấy việc sử dụng dữ liệu trong ra quyết định là một lợi thế cạnh tranh quan trọng Doanh nghiệp có thể khai thác dữ liệu để hiểu nhu cầu khách hàng và xu hướng mua sắm, từ đó tối ưu hóa tồn kho, giảm thiểu rủi ro dư thừa hoặc thiếu hụt hàng hóa Hơn nữa, phân tích dữ liệu còn giúp xác định sản phẩm tiềm năng tăng trưởng, cho phép doanh nghiệp tập trung vào những mặt hàng có giá trị cao hơn.
Mô tả bài toán
Bài toán là áp dụng phương pháp phân tích dữ liệu để xác định các nhóm sản phẩm có đặc điểm tương đồng, dựa trên các yếu tố như tính năng, giá cả và nhu cầu thị trường.
Giá cả: Các sản phẩm có giá gần nhau thường có nhóm khách hàng mục tiêu giống nhau.
Loại sản phẩm: Phân nhóm sản phẩm theo danh mục hàng hóa giúp dễ dàng quản lý hơn.
Doanh số bán hàng: Những sản phẩm có doanh số cao có thể được quản lý theo một chiến lược riêng so với sản phẩm bán chậm.
Mức độ tiêu thụ: Xác định các sản phẩm có tần suất bán cao để ưu tiên dự trữ kho.
Tính thời vụ: Một số sản phẩm có doanh số thay đổi theo mùa, cần được phân nhóm để tối ưu nhập hàng theo thời gian.
Phân nhóm sản phẩm giúp doanh nghiệp:
Xây dựng chiến lược nhập hàng hợp lý. Định giá tối ưu hơn cho từng nhóm sản phẩm.
Cá nhân hóa chiến lược tiếp thị, quảng cáo hiệu quả hơn.
Giảm tồn kho dư thừa, tối ưu hóa không gian lưu trữ.
Mục tiêu bài toán
Bài toán này hướng đến các mục tiêu sau:
Phân tích dữ liệu sản phẩm để xác định các nhóm sản phẩm có đặc điểm và doanh số tương đồng.
Hỗ trợ nhà quản lý kho trong việc ra quyết định về nhập hàng, phân bổ không gian lưu trữ và tối ưu hóa danh mục sản phẩm.
Giúp doanh nghiệp cải thiện chiến lược tiếp thị thông qua việc cá nhân hóa khuyến mãi, tập trung quảng cáo vào các nhóm sản phẩm cụ thể.
Giảm thiểu hàng tồn kho không hiệu quả, hạn chế việc dự trữ những sản phẩm ít được mua, tối ưu hóa nhập hàng.
Hỗ trợ dự báo nhu cầu là một yếu tố quan trọng, giúp doanh nghiệp xác định nhóm sản phẩm có doanh số cao theo từng giai đoạn Điều này cho phép doanh nghiệp xây dựng kế hoạch sản xuất và nhập hàng một cách hiệu quả, đảm bảo đáp ứng nhu cầu thị trường.
Tăng hiệu suất kinh doanh bằng cách tập trung nguồn lực vào các sản phẩm có tiềm năng tăng trưởng cao.
Xây dựng chiến lược giá tối ưu, giúp định giá sản phẩm dựa trên nhóm khách hàng mục tiêu.
Đặc điểm dữ liệu và thách thức
Dữ liệu sản phẩm thường chứa nhiều yếu tố khác nhau như:
Giá cả: Biến động theo thời gian, ảnh hưởng đến phân nhóm sản phẩm.
Danh mục sản phẩm: Có nhiều loại hàng hóa khác nhau với các thuộc tính riêng biệt.
Doanh số bán hàng: Thay đổi theo mùa, chiến dịch khuyến mãi hoặc xu hướng tiêu dùng.
Mức độ tiêu thụ theo thời gian: Có những sản phẩm chỉ bán chạy trong một khoảng thời gian nhất định.
Nguồn dữ liệu đa dạng: Dữ liệu có thể đến từ nhiều nguồn như hệ thống ERP, CRM, hoặc các nền tảng thương mại điện tử.
Một số thách thức chính trong bài toán này bao gồm:
Xử lý dữ liệu thiếu hoặc không đồng nhất: Dữ liệu có thể bị thiếu thông tin về giá, doanh số, hoặc không đồng nhất về định dạng.
Lựa chọn tiêu chí phân nhóm sản phẩm là rất quan trọng, không phải tất cả các thuộc tính đều có giá trị như nhau Cần xác định những tiêu chí có ảnh hưởng lớn nhất để đảm bảo hiệu quả trong quá trình phân nhóm.
Để xác định số lượng cụm tối ưu cho bài toán, cần cân nhắc giữa số lượng cụm quá ít, có thể làm mất đi sự khác biệt giữa các nhóm sản phẩm, và số lượng cụm quá nhiều, khiến việc phân tích trở nên phức tạp Bên cạnh đó, xu hướng thị trường và sự thay đổi liên tục trong thị hiếu của khách hàng yêu cầu cập nhật mô hình phân cụm thường xuyên nhằm đạt hiệu quả cao nhất.
Lựa chọn thuật toán phân cụm phù hợp với đặc điểm dữ liệu là một thách thức quan trọng, ảnh hưởng trực tiếp đến độ chính xác của kết quả phân nhóm Việc tính toán và triển khai mô hình thích hợp sẽ giúp cải thiện hiệu quả phân tích dữ liệu.
Mô hình phân cụm cần có khả năng mở rộng để xử lý hiệu quả dữ liệu lớn khi lượng sản phẩm tăng lên theo thời gian.
Các phương pháp phân nhóm phổ biến
1.5.1 Phân cụm dựa trên phân vùng (Partition-based Clustering)
Hình 1: Phân cụm phân vùng
Phương pháp này chia dữ liệu thành các cụm riêng biệt dựa trên khoảng cách giữa các điểm dữ liệu Thuật toán tiêu biểu:
K-Means: Chia dữ liệu thành K cụm dựa trên vị trí trung tâm cụm
(centroid). Ưu điểm: Hiệu quả với dữ liệu lớn, dễ triển khai.
Nhược điểm: Cần xác định trước số cụm K, dễ bị ảnh hưởng bởi điểm dữ liệu ban đầu.
1.5.2 Phân cụm dựa trên mật độ (Density-based Clustering)
Hình 2: Phân cụm mật độ
Phương pháp này xác định các cụm dựa trên mật độ dữ liệu Thuật toán tiêu biểu:
DBSCAN là một thuật toán mạnh mẽ trong việc phát hiện các cụm có hình dạng bất kỳ và xử lý hiệu quả dữ liệu nhiễu Một trong những ưu điểm nổi bật của DBSCAN là không cần xác định số lượng cụm trước, giúp nó linh hoạt trong việc phát hiện các cấu trúc trong dữ liệu Hơn nữa, thuật toán này còn có khả năng phát hiện tốt các điểm ngoại lai, làm tăng độ chính xác trong việc phân tích dữ liệu.
Nhược điểm: Gặp khó khăn khi dữ liệu có mật độ thay đổi mạnh.1.5.3 Phân cụm dựa trên phân cấp (Hierarchical Clustering)
Hình 3: Phân cụm phân cấp
Phương pháp này xây dựng một cấu trúc phân cấp giữa các cụm, có thể biểu diễn dưới dạng cây (dendrogram) Các kỹ thuật tiêu biểu:
Agglomerative Clustering là phương pháp phân cụm bắt đầu từ từng điểm dữ liệu riêng lẻ và dần dần kết hợp chúng thành các cụm lớn hơn Ưu điểm của phương pháp này là không cần xác định số lượng cụm trước, điều này giúp người dùng hiểu rõ hơn về cấu trúc của dữ liệu.
Nhược điểm: Chi phí tính toán cao, không phù hợp với dữ liệu lớn.1.5.4 Phân cụm dựa trên mô hình (Model-based Clustering)
Hình 2: Phân cụm dựa trên mô hình
Phương pháp này giả định rằng dữ liệu được sinh ra từ một số mô hình thống kê cụ thể Thuật toán tiêu biểu:
Mô hình hỗn hợp Gaussian (GMM) giả định rằng dữ liệu được hình thành từ nhiều phân phối Gaussian chồng chéo Một trong những ưu điểm nổi bật của GMM là không yêu cầu các cụm phải có hình dạng tròn, đồng thời cho phép ước lượng xác suất mà một điểm thuộc về cụm nào.
Nhược điểm: Mất nhiều thời gian tính toán, dễ bị ảnh hưởng bởi nhiễu.
QUY TRÌNH KHAI PHÁ DỮ LIỆU VÀ MÔ HÌNH LỰA CHỌN
Giới thiệu về WEKA và Cài đặt
WEKA (Waikato Environment for Knowledge Analysis) là phần mềm mã nguồn mở hỗ trợ khai thác dữ liệu và học máy Công cụ này giúp người dùng dễ dàng áp dụng các thuật toán phân tích dữ liệu một cách trực quan mà không cần kiến thức lập trình phức tạp.
Một số tính năng chính của WEKA:
Hỗ trợ nhiều thuật toán học máy như phân loại, phân cụm, hồi quy và tiền xử lý dữ liệu.
Giao diện thân thiện với người dùng, giúp dễ dàng thao tác trên dữ liệu.
Hỗ trợ trực quan hóa kết quả để phân tích dữ liệu hiệu quả hơn.
Hỗ trợ đa dạng định dạng dữ liệu như CSV, ARFF, JSON, Excel.
Có thể mở rộng thông qua lập trình Java để phát triển các thuật toán tùy chỉnh.
Các thành phần chính của WEKA:
Explorer: Công cụ chính giúp thực hiện tiền xử lý dữ liệu, phân loại, phân cụm, khai phá luật kết hợp và giảm chiều dữ liệu.
Experimenter: Cho phép đánh giá hiệu suất của các mô hình trên nhiều tập dữ liệu khác nhau.
Knowledge Flow: Giao diện kéo-thả giúp xây dựng mô hình xử lý dữ liệu mà không cần viết mã.
Simple CLI: Giao diện dòng lệnh dành cho người dùng có kinh nghiệm để thực hiện thuật toán nhanh chóng.
Các bước cài đặt WEKA:
- Bước 1: Truy cập trang wesite https://weka.vi.softonic.com để tải Weka
Hình 5.trang web cài đặt
- Bước 2: Download và mở file đã tải
- Bước 3: Sau khi cài đặt Weka thì mở phần mềm với giao diện Weka
Hình 6.Giao diện Weka
- Bước 4: Ấn Exporer vào thực hiện bài toán hoàn tất cài đặt
Hình 7 Giao diện thực hành phân cụm
Quy trình khai phá dữ liệu
Trong khai phá dữ liệu, nhiễu có thể làm giảm độ chính xác của mô hình phân cụm Nhiễu bao gồm giá trị không hợp lệ, dữ liệu ngoại lai và dữ liệu trùng lặp Loại bỏ nhiễu là cần thiết để nâng cao chất lượng dữ liệu đầu vào và cải thiện độ chính xác trong quá trình phân tích.
Các loại nhiễu trong dữ liệu
Giá trị không hợp lệ: Bao gồm các giá trị không hợp lý như giá bán âm, số lượng sản phẩm quá lớn so với thực tế.
Dữ liệu ngoại lai (Outliers): Các điểm dữ liệu có giá trị chênh lệch lớn so với phần còn lại của tập dữ liệu.
Dữ liệu trùng lặp: Những bản ghi xuất hiện nhiều lần trong dữ liệu, gây sai lệch kết quả phân cụm.
Các bước thực hiện loại bỏ nhiễu
Xác định dữ liệu nhiễu
Kiểm tra các giá trị không hợp lệ bằng cách lọc dữ liệu có giá trị bất thường
Tìm các giá trị ngoại lai bằng phương pháp IQR (Interquartile
Phát hiện dữ liệu trùng lặp bằng cách kiểm tra các bản ghi giống hệt nhau.
Loại bỏ dữ liệu nhiễu
Xóa các dòng có giá trị không hợp lệ.
Loại bỏ các giá trị ngoại lai nếu chúng gây ảnh hưởng tiêu cực đến mô hình.
Xóa các bản ghi trùng lặp để tránh ảnh hưởng đến kết quả phân cụm.
Kiểm tra lại sau khi loại bỏ nhiễu
Xác nhận dữ liệu đã sạch bằng cách kiểm tra lại tập dữ liệu.
Kiểm tra tỷ lệ dữ liệu bị loại bỏ để đảm bảo không ảnh hưởng đến chất lượng mô hình.
Lợi ích của việc loại bỏ nhiễu
Cải thiện độ chính xác của phân cụm, giúp các nhóm sản phẩm được phân loại rõ ràng hơn.
Tối ưu hóa hiệu suất thuật toán giúp giảm thời gian xử lý, đồng thời đảm bảo mô hình phản ánh chính xác dữ liệu thực tế, từ đó hỗ trợ doanh nghiệp đưa ra quyết định chính xác hơn.
2.2.2.Loại bỏ giá trị thiếu (Missing Values)
- Bước 1: Mở Weka Explorer → Chọn tab Preprocess.
- Bước 2: Chọn Open File để tải tập dữ liệu vào.
Hình 9: Mở File dữ liệu đã tải
- Trong phần Attributes, kiểm tra cột nào có giá trị thiếu (? trong Weka) Missing: 0 (0%) thể hiện tỷ lệ giá trị thiếu là không có.
2.2.3 Xử lý dữ liệu ngoại lai (Outliers)
Dữ liệu ngoại lai có thể làm sai lệch kết quả của mô hình, vì vậy cần thiết phải loại bỏ hoặc điều chỉnh chúng Việc sử dụng bộ lọc (Filter) là một phương pháp hiệu quả để phát hiện và loại bỏ các giá trị ngoại lai.
InterquartileRange (để xác định ngoại lai dựa trên IQR).
Hình 10: Thay các số liệu trong ô để loại bỏ điểm ngoại lai
Chuẩn hóa dữ liệu
Phù hợp với thuật toán K-Means:
Mô hình khi chưa chuẩn hóa dữ liệu
Hình 11: Mô hình khi chưa chuẩn hóa dữ liệu
- Bước 1: Vào tab Preprocess → Chọn Filter.
- Bước 2: Chọn unsupervised.attribute.Normalize.
- Bước 3: Nhấn Apply để chuẩn hóa dữ liệu về khoảng [0,1].
Mô hình sau khi chuẩn hóa dữ liệu
Hình 12: Mô hình sau chuẩn hóa dữ liệu
2.3.2 Kiểm tra dữ liệu sau khi tiền xử lý
- Sau khi áp dụng các bước trên ta kiểm tra lại dữ liệu bằng Visualize
- Đảm bảo dữ liệu không còn giá trị bị thiếu, dữ liệu ngoại lai đã được loại bỏ hoặc điều chỉnh.
Hình 13: Kiểm tra dữ liệu sau khi tiền sử lý
Mô hình lựa chọn
Để tối ưu hóa danh mục hàng hóa dựa trên dữ liệu bán hàng trực tuyến, cần áp dụng một mô hình khai phá dữ liệu phù hợp, đáp ứng các tiêu chí cần thiết.
Phương pháp học không giám sát là lựa chọn lý tưởng để phát hiện các nhóm sản phẩm có đặc điểm tương đồng, đặc biệt khi dữ liệu đầu vào không có sẵn nhãn phân loại.
Phân cụm sản phẩm dựa trên đặc trưng mua sắm giúp nhóm các sản phẩm có đặc điểm tương đồng, từ đó hỗ trợ chiến lược kinh doanh, quản lý kho hiệu quả và tối ưu hóa doanh thu.
Mô hình được chọn để triển khai trên WEKA cần phải dễ dàng thiết lập, có tính trực quan trong việc phân tích kết quả và cho phép điều chỉnh linh hoạt các tham số để phù hợp với dữ liệu thực tế.
Phân cụm giúp doanh nghiệp nhận diện các nhóm sản phẩm bán chạy, ít phổ biến hoặc theo mùa, từ đó hỗ trợ ra quyết định trong quản lý hàng hóa và xây dựng chiến lược kinh doanh hiệu quả.
Giới thiệu các thuật toán phân cụm
Có nhiều phương pháp phân cụm dữ liệu, mỗi phương pháp có ưu và nhược điểm riêng Ba thuật toán phổ biến gồm:
K-Means: Dựa trên trung tâm cụm, thuật toán này có tốc độ xử lý nhanh và phù hợp với dữ liệu lớn Tuy nhiên, nó yêu cầu xác định trước số cụm K và có thể bị ảnh hưởng bởi giá trị khởi tạo.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán phân cụm dựa trên mật độ, không cần xác định số lượng cụm trước và có khả năng phát hiện điểm nhiễu hiệu quả Tuy nhiên, thuật toán này gặp khó khăn khi xử lý dữ liệu có mật độ không đồng nhất.
Agglomerative Hierarchical Clustering là một thuật toán phân cụm phân cấp không yêu cầu người dùng chỉ định số lượng cụm trước, đồng thời có khả năng biểu diễn dữ liệu dưới dạng cây phân cấp Mặc dù vậy, thuật toán này có chi phí tính toán cao và không thích hợp cho việc xử lý dữ liệu lớn.
2.4.1 Mô hình lựa chọn: K-Means Clustering
K-Means là phương pháp lý tưởng cho việc phân nhóm sản phẩm nhằm tối ưu hóa danh mục hàng hóa, nhờ khả năng phát hiện các nhóm sản phẩm có đặc điểm tương đồng Điều này hỗ trợ doanh nghiệp trong việc phân tích hành vi mua sắm, xác định sản phẩm chủ lực và xây dựng chiến lược kinh doanh hiệu quả hơn.
Phù hợp với dữ liệu bán hàng
K-Means giúp chia sản phẩm thành từng nhóm dựa trên tiêu chí như tần suất mua hàng, doanh số, danh mục sản phẩm, từ đó xác định các nhóm sản phẩm có xu hướng bán chạy hoặc cần cải thiện.
Tính đơn giản và hiệu quả cao
K-Means là thuật toán phân cụm phổ biến, có hiệu suất tốt khi xử lý tập dữ liệu lớn, đồng thời dễ triển khai và diễn giải kết quả.
Khả năng ứng dụng trên WEKA
WEKA hỗ trợ K-Means với giao diện trực quan, giúp người dùng dễ dàng điều chỉnh số cụm, thực hiện phân nhóm và đánh giá kết quả trực tiếp.
Linh hoạt và có thể mở rộng
K-Means có thể áp dụng cho nhiều tiêu chí phân nhóm khác nhau, chẳng hạn như:
1 Doanh số bán hàng: Xác định sản phẩm bán chạy hoặc chậm.
2 Mức độ phổ biến: Phân nhóm sản phẩm theo tần suất mua hàng.
3 Xu hướng theo thời gian: Nhận diện sản phẩm theo mùa hoặc theo sự kiện đặc biệt.
Cách hoạt động của K-Means
1 Người dùng lựa chọn số lượng cụm phù hợp với tập dữ liệu.
2 Chọn ngẫu nhiên K điểm dữ liệu ban đầu làm tâm cụm
Phân chia dữ liệu vào cụm
Tính khoảng cách từ từng điểm dữ liệu đến tất cả các tâm cụm bằng công thức khoảng cách Euclidean:
(x,c)=∑i=1n(xi−ci)2d(x, c) = \sqrt{\sum_{i=1}^{n} (x_i - c_i)^2}d(x,c)=i=1∑n(xi−ci)2
Mỗi điểm dữ liệu được gán vào cụm có tâm gần nhất.
Cập nhật lại tâm cụm
Sau khi thực hiện phân nhóm, bước tiếp theo là tính toán lại tâm cụm mới bằng cách sử dụng giá trị trung bình của tất cả các điểm trong cụm Cụ thể, tâm cụm mới \( c_j \) được xác định bằng công thức: \( c_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i \), trong đó \( |C_j| \) là số lượng điểm trong cụm \( C_j \) và \( x_i \) là các điểm thuộc cụm đó.
1 CjC_jCj là tập hợp các điểm thuộc cụm j.
2 cjc_jcj là tọa độ tâm cụm mới.
Tiếp tục lặp lại cho đến khi hội tụ
Lặp lại các bước trên cho đến khi không có sự thay đổi đáng kể về tâm cụm hoặc đạt ngưỡng hội tụ mong muốn.
THỰC HIỆN KHAI PHÁ DỮ LIỆU,KẾT QUẢ THU ĐƯỢC VÀ KẾT LUẬN
Thực hiện khai phá dữ liệu
Sau khi hoàn tất chuẩn bị và tiền xử lý dữ liệu, thuật toán K-Means được sử dụng để phân nhóm sản phẩm theo đặc điểm và doanh số Phân cụm này giúp xác định các nhóm sản phẩm có xu hướng tiêu thụ tương tự, từ đó tối ưu hóa quản lý kho và chiến lược kinh doanh.
Thực hiện phân cụm với K-Means trên WEKA
Mở dữ liệu trong WEKA
Mở phần mềm WEKA và chọn Explorer.
Nhấn Open file, sau đó chọn tập dữ liệu processed_online_sales.csv.
Hình 14.File dữ liệu sau khi được mở
Chuyển sang tab Cluster để thực hiện phân cụm.
Nhấn Cluster mode, chọn Use training set, sau đó nhấn vào
SimpleKMeans để mở cài đặt.
Hình 15.Chọn thuật toán kmeans
Cấu hình tham số K-Means
NumClusters: Nhập số lượng cụm mong muốn (ví dụ: 3 hoặc 4 cụm).
MaxIterations: Giữ giá trị mặc định là 500 hoặc điều chỉnh nếu cần.
DistanceFunction: Chọn Euclidean Distance để đo khoảng cách giữa các điểm dữ liệu.
Bỏ chọn "Preserve Instances Order" nếu không cần giữ nguyên thứ tự dữ liệu gốc.
Hình 16.Cấu hình của k-means
Nhấn Start để thực hiện phân cụm.
Sau khi hoàn tất quá trình phân tích, kết quả sẽ được hiển thị bao gồm số lượng cụm và tọa độ trung tâm của từng cụm, số lượng sản phẩm thuộc mỗi cụm, cùng với các đặc điểm chính của từng nhóm sản phẩm.
Kết quả thu được và phân tích
Hình 16.Kết quả khi chạy mô hình mình với phân cụm 3
Thông tin chung về mô hình
Tổng lỗi bình phương trong cụm (WCSS): 150029.92
Thời gian xây dựng mô hình: 0.72 giây
Phân bố sản phẩm trong các cụm
Dữ liệu sản phẩm được chia thành X cụm, với phân bố như sau:
Dựa trên đặc điểm trung bình của từng cụm, ta có:
1 Cụm 0: Sản phẩm có xu hướng thuộc danh mục Phụ kiện (Accessories), giá trung bình cao hơn so với cụm khác.
2 Cụm 1: Bao gồm các mặt hàng như Văn phòng phẩm (Stationery), thanh toán chủ yếu qua PayPal, khách hàng đến từ Ý (Italy).
3 Cụm 2: Tập trung vào Quần áo (Apparel), khách hàng chủ yếu từ Bồ Đào
Nha (Portugal). Đánh giá chất lượng phân cụm
1 Độ chênh lệch giữa các cụm
Đánh giá khoảng cách giữa các cụm để đảm bảo rằng các nhóm sản phẩm có sự khác biệt rõ ràng.
Nếu khoảng cách giữa các cụm thấp, có thể cần tăng số cụm để phân loại tốt hơn.
2 Tổng lỗi bình phương trong cụm (WCSS - Within-Cluster Sum of
WCSS = 150029.92 (theo kết quả mô hình).
Giá trị này càng nhỏ, các điểm dữ liệu trong cụm càng gần nhau, nghĩa là phân cụm có độ chính xác cao hơn.
Có thể thử nghiệm với số cụm khác nhau bằng phương pháp Elbow
Method để tối ưu số cụm.
3 Đánh giá số cụm tối ưu
Nếu số cụm hiện tại chưa phân loại rõ ràng, có thể chạy thử nghiệm với số lượng cụm khác (k=2,3,4 ) để xác định số cụm tối ưu.
Elbow Method hoặc Silhouette Score có thể được sử dụng để xác định số cụm hợp lý.
4 Phân bố sản phẩm trong các cụm
Các cụm có phân bố tương đối đồng đều, cho thấy dữ liệu không bị lệch về một nhóm cụ thể.
5 Kiểm tra tính hợp lý của trung tâm cụm (Centroids)
Cụm 0: Sản phẩm có mức giá trung bình cao hơn và được thanh toán chủ yếu qua Bank Transfer.
Cụm 1: Gồm sản phẩm có mức giá trung bình thấp hơn và phần lớn được mua trực tiếp tại cửa hàng (In-store).
Cụm 2: Các sản phẩm có tính mùa vụ cao, chủ yếu được mua online.
6 Đánh giá theo thực tế kinh doanh
Nếu cụm nào có quá nhiều sản phẩm nhưng đặc điểm không rõ ràng, có thể cần tinh chỉnh lại dữ liệu đầu vào.
Nếu các sản phẩm trong cụm có sự chồng chéo, có thể cần điều chỉnh tiêu chí phân cụm (ví dụ: thêm thuộc tính về xu hướng tiêu dùng).