Dữ liệu nghiên cứu Nghiên cứu thu thập thông tin của 272 khách hàng tại điểm bán hàng của công ty Trường Hải Auto, các thông tin được tập hợp gồm 6 cột: mã khách hàng ID,Chủng loại xe q
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
Nguyễn Trọng Hiếu Đan :11201490
Hoàng Văn Trung :11200895
Hà Nội - 2023
Trang 2Hiện nay, có nhiều phương pháp giúp doanh nghiệp thực hiện việc phân cụmkhách hàng mục tiêu dựa trên những hiểu biết về hành vi (behavior), thói quen(habits), sở thích (preferences) của khách hàng tiềm năng như KMeans, Mean-Shift, Density-Based Spatial, Expectation-Maximization, AgglomerativeHierarchical Clustering (Chen et al., 2012) Trong phạm vi nghiên cứu, các tác giảlựa chọn phương pháp phân cụm theo thuật toán K-Means, đây là thuật toán quantrọng và được sử dụng phổ biến trong các nghiên cứu hiện nay (Chapman and Feit2019) Bài báo thu thập số liệu từ 272 khách hàng tại showroom ô tô với các thôngtin thu thập về dòng xe quan tâm, kênh tiếp cận khách hàng, độ tuổi, thu nhập bình
1
Trang 3quân và điểm chi tiêu để thực hiện phân cụm theo thuật toán K-Means
1.2 Phương pháp nghiên cứu
Phương pháp thống kê: Thu thập và xử lý số liệu, điều tra chọn mẫu đượcnhóm tác giả sửdụng để có được hình ảnh tổng quát về mẫu nghiên cứu
- Phương pháp phân cụm K-means: Thuật toán K-Means là tìm cách phânnhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinhtrước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đốitượng đến tâm nhóm (centroid ) là nhỏ nhất
Thuật toán K-Means thực hiện qua các bước chính sau
1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đượcđại diện bằng các tâm của cụm Trong nghiên cứu, để xác định được sốcụm tối ưu nhóm sử dụng phương pháp Elbow Tiến hành chạy phân cụmtrên tập dữ liệu cho một phạm vi giá trị của k (k từ 1 đến 10), tại vị trí knào tạo thành khúc cua khuỷa tay thì chọn ra k tối ưu (Shmueli et al.,2017)
2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thườngdùng khoảng cách Euclidean)
3 Nhóm các đối tượng vào nhóm gần nhất
4 Xác định lại tâm mới cho các nhóm
5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào củacác đối tượng
2
Trang 41.3 Dữ liệu nghiên cứu
Nghiên cứu thu thập thông tin của 272 khách hàng tại điểm bán hàng của công
ty Trường Hải Auto, các thông tin được tập hợp gồm 6 cột: mã khách hàng ID,Chủng loại xe quan tâm, Kênh thông tin phản hồi, độ tuổi, thu nhập bìnhquân/tháng và điểm chi tiêu
1 …0648
MORNING-1.25
SI-AT-Showroo
m
3
Trang 5m
5 …6487
SEDONA-DAT
2.2-Điệnthoạ
i
a, Mô tả độ tuổi của nhóm khách hàng
Độ tuổi bình quân của khách hàng là 36,1 tuổi, khách hàng có tuổi lớn nhất là
52 tuổi, nhỏ nhất là 20 tuổi, với độ lệnh chuẩn là 6,7 tuổi
Min 1stQu Median Mean 3 Qu r Max Std 20.00 33.00 35.00 36.06 40.00 52.00 6.72281
3
Hình 2 và 3 thể hiện phân bố độ tuổi qua biểu đồ cột và biểu đồ hộp VớiHình 2 cho thấy độ tuổi chủ yếu là từ 33 đến 40 tuổi, Hình 3 thể hiện độ tuổitrung bình, trung vị, bách phân vị 25% và 75%, biểu đồ cho thấy có 4 giá trịngoại vi
4
Trang 6b, Mô tả thu nhập của khách hàng
Thu nhập bình quân của khách hàng là 9,95 triệu đồng/tháng, trong đó ngườithấp nhất là 7,5 triệu đồng/tháng và cao nhất là 14 triệu đồng/tháng Nhìnchung, nhóm khách hàng quan tâm đến mua xe có mức thu nhập trung bìnhkhá trở lên Thu nhập của khách hàng không có giá trị nào nằm ngoài khoảngbách phân vị 25% và 75% thể hiện tại
Hình 4 Hình 5 cho thấy rõ về phân bố thu nhập của khách hàng tập trung ởmức từ 8 triệu đồng/tháng đến mức 11 triệu đồng/tháng Mức thu nhập trên 12triệu đồng/tháng cũng tương đối nhiều khách hàng
c, Mô tả điểm chi tiêu
Điểm chi tiêu cho biết mức độ chi tiêu so với thu nhập của từng khách hàng,được đánh giá từ 0 đến 100 điểm Với dữ liệu, Hình 7 thể hiện khách hàng cóđiểm chi tiêu cao nhất là 95 điểm, thể hiện mức sẵn sàng chi tiêu rất cao Kháchhàng thấp nhất là 17 điểm và trung bình là 66,28 điểm, điểm trung vị là 70,5điểm thể hiện tại Hình 6 Nhìn chung, nhóm khách hàng có điểm chi tiêu ở mứctrên trung bình so với thu nhập bình quân chung
5
Trang 7CLB KỸ NĂNG Doanh NHÂN DNTS2021 ĐỀ…Quản trị
61
Bai tap N1 - Bài tập Lập Báo cáo lưu…Quản trị
7
Chính sách mua CPQ của Techcombank…Quản trị tài
25
Phân Tích Tình Hình Tài Chính Tại Công…
45
Trang 81.4 Kết quả nghiên cứu
1 Bằng phương pháp Elbow Method: Nghiên cứu xác định số cụm tối ưu đểphân bổ khách hàng là 2 cụm Hình 8a và 8b Đây là số cụm nên phân bổ theophương pháp này (Shmueli et al., 2017) Tuy nhiên, nếu cần doanh nghiệp cóthể phân cụm với k=3, k=4,…
2 Sau khi xác định được số lượng cụm tối ưu là 2, nhóm nghiên cứu thực hiệnphân vùng ngẫu nhiên khác nhau 50 lần (Chapman and Feit, 2019)
47
Trang 91 37.63953 8.753607 41.41860
2 35.32258 10.506385 77.76882
Kích thước cụm 1 là 186 đối tượng và cụm 2 là 86 đối tượng quan sát Tâm điểm cụm 1 (centroid cluster 1): độ tuổi 37,6 tuổi; thu nhập 8,75 triệuđồng/tháng; điểm chi tiêu 41,4 điểm
Tâm điểm cụm 2 (centroid cluster 2): độ tuổi 35,3 tuổi, thu nhập 10,5 triệuđồng/táng; điểm chi tiêu 77,7 điểm
Within cluster sum of squares by cluster:
Trang 10Qua Hình 9 cho thấy 2 cụm khách hàng khách nhau về thu nhập và điểm chitiêu: Cụm 1: Cụm khách hàng màu đỏ thuộc nhóm khách hàng cóđiểm chi tiêu cao (trên 60 điểm) và có thu nhập từ 7,5 triệu đồng đến 14 triệuđồng/tháng Cụm 2: Cụm khách hàng màu xanh thuộc nhóm cóđiểm chi tiêu thấp (dưới 60 điểm) và có thu nhập tập trung từ 7,5 đến 10triệu đồng/tháng
8
Trang 11Hình 10, nhóm tác giả phân 2 cụm khách hàng theo tiêu thức điểm chitiêu và độ tuổi.
Cụm 1: Cụm khách hàng màu đỏ thuộc nhóm khách hàng có điểm chitiêu cao (trên 60 điểm) và độ tuổi không tập trung
Cụm 2: Cụm khách hàng màu xanh thuộc nhóm có điểm chitiêu thấp (dưới 60 điểm) và độ tuổi không tập trung
Thực tế tại đơn vị kinh doanh này, việc phân cụm khách hàng thườngđược phân loại thành 3 loại: khách hàng nóng, khách hàng ấm, kháchhàng lạnh Nhóm nghiên cứu tiếp tục tiến hành thử phân cụm với k=3, dùkhông đồng nhất với các phân loại của đơn vị, cũng cho công ty này cáinhìn tốt hơn, Hình 11
9
Trang 12Như vậy, với các đặc điểm của nhóm khách hàng, thì việc phân cụm theođiểm chi tiêu và thu nhập cho doanh nghiệp thấy rõ ràng hơn cụm khách hàngmục tiêu, và theo thuật toán K-Means thì việc phân thành 2 cụm khách hàng làtối ưu
1.5 Kết luận
Với sự trợ giúp của việc phân cụm, chúng ta có thể hiểu cácthông tin khách hàng tốt hơn nhiều, giúp bộ phận chăm sóc khách hàng đưa raquyết định cẩn thận Ngoài ra, với việc xác định khách hàng, các công ty có thểđưa ra các sản phẩm và dịch vụ nhằm mục tiêu khách hàng dựa trên một sốthông số như thu nhập, tuổi tác, mô hình chi tiêu, Tuy nhiên, việc phân cụmtheo thuật toán KMeans cần xác định rõ số lượng cụm cần phân bố ngay từ banđầu, đây cũng gây khó khăn khi thực hiện phương pháp này Bên cạnh đó,nghiên cứu sẽ đầy đủ hơn nếu được thu thập các thông tin về hành vi, thói quen
10
Trang 13và sở thích của khách hàng
2 Ứng dụng thuật toán k-Means Clustering để dự đoán kết quả học tập của học sinh
Tên đề tài: Application of k-Means Clustering algorithm for prediction of
Students’ Academic Performance
Tác giả: Oyelade, Oladipupo, Obagbuwa
Tạp chí: (IJCSIS) International Journal of Computer Science and InformationSecurity, Vol 7, o 1, 2010
1 Đặt vấn đề
Điểm trung bình (GPA) là một chỉ số thường được sử dụng để đánh giá kết quảhọc tập Nhiều trường đại học đặt điểm trung bình tối thiểu để đạt đủ điều kiệntiếp tục theo học tại trường Ở một số trường Đại học, yêu cầu điểm trung bìnhtối thiểu của sinh viên là 1,5 Tuy nhiên, đối với bất kỳ chương trình sau đạihọc nào điểm trung bình từ 3.0 trở lên được coi là một chỉ số về thành tích họctập tốt Do đó, GPA vẫn là yếu tố phổ biến nhất được các nhà hoạch định sửdụng để đánh giá sự tiến bộ trong môi trường học thuật Nhiều yếu tố có tácđộng đến sinh viên để họ có thể duy trì điểm trung bình cao từ đó phản ánh kếtquả học tập chung trong thời gian học tại trường Đại học Các yếu tố này cóthể được các giảng viên xem xét nghiên cứu nhằm hướng tới trong việc pháttriển các chiến lược để cải thiện việc học tập của sinh viên và cải thiện kết quảhọc tập của họ thông qua tiến trình nghiên cứu, theo dõi
Vì vậy, đánh giá thành tích là một trong những cơ sở để theo dõi tiến độ họctập của học sinh ở cấp cao hơn Tổ chức học tập Dựa trên vấn đề quan trọngnày, việc phân nhóm các học sinh thành các tổ theo hiệu suất đã trở thành mộtnhiệm vụ phức tạp Với phương pháp truyền thống có thể nhóm học sinh dựatrên điểm số trung bình của, nhưng lại khó đem lại một cái nhìn toàn diện về
11
Trang 14hiệu suất học tập của sinh viên và các yếu tố chi tiết trong quá trình học tậpcủa sinh viên
2.2 Mục đích nghiên cứu
Phân cụm các sinh viên có thành tích và hiệu suất học tập giống nhau từ phục
vụ các tổ chức đưa chính sách nhằm cải thiện chất lượng học tập của sinh viêndựa trên kết quả nghiên cứu
2.3 Phương pháp nghiên cứu
Áp dụng thuật toán K- means cho bộ dữ liệu kết quả học tập của 1 kỳ tại 1trường đại học ở Nigeria của 79 sinh viên, dữ liệu bao gồm 2 thuộc tính là idsinh viên và chỉ số về hiệu suất học tập Chỉ số về hiệu suất học tập được biểudiễn theo các mức độ trong bảng
12
Trang 15-Với số cụm k =4, kết quả cho ra 24 học sinh nằm trong vùng có chỉ số học lực
“Tốt” trong bảng 1 trên (50,08%), còn 16 học sinh có kết quả học tập ở vùng
“Rất tốt” (65,00%) 30 sinh viên xếp loại Khá (58,89%) và có 9 học sinh đạtxếp loại Khá (43,65%)
- Với số cụm k = 5, Có 19 học sinh vượt qua vùng học lực Khá (49,85%), 17 họcsinh đạt học lực Khá (60,97%) 9 học sinh đạt học lực Khá (43,65%), 14 học sinhđạt học lực Khá (64,93%) và 20 học sinh còn lại đạt học lực Khá (55,79%) Nhìn chung, thuật toán phân cụm được ứng dụng khá tốt để theo dõi sự tiến bộcủa hiệu suất học tập của sinh viên Nó cũng nâng cao khả năng đưa ra quyếtđịnh bởi các nhà hoạch định học thuật để theo dõi hiệu suất học tập nhờ đó cóthể cải thiện hiệu suất học tập của sinh viên trong tương lai qua các chính sáchgiáo dục mới
3.Ứng dụng thuật toán K-Means Clustering để phân cụm các tỉnh tại Indonesia
Tên đề tài: Using K-Means Clustering to Cluster Provinces in Indonesia
Tác giả: Ansari Saleh Ahmar1,2*, Darmawan Napitupulu3 , Robbi Rahim4 ,Rahmat Hidayat5 , Yance Sonatha6 , and Meri Azmi7
Tạp chí: IOP Conf Series: Journal of Physics: Conf Series 1028 (2018)
012006
1 Đặt vấn đề
Một trong những vấn đề lớn nhất ở Indonesia là các vấn đề liên quan đến dân
số Dựa trên Ủy ban Tự do Tôn giáo Quốc tế của Hoa Kỳ, Indonesia năm 2017
là quốc gia có dân số đông nhất thế giới và là một trong những quốc gia có dân
số theo đạo Hồi lớn nhất thế giới Chúng ta không thể tự hào nếu chính phủkhông lường trước được những vấn đề liên quan đến dân số Hệ thống quản lý
ở Indonesia thường được chia thành 3 cấp chính quyền, cụ thể là chính quyềntrung ương, chính quyền cấp tỉnh và chính quyền huyện/thành phố Mỗi cấp
13
Trang 16chính quyền có thẩm quyền riêng Căn cứ vào các cấp chính quyền mà việcquản lý vùng cũng được phân tầng theo cấp độ Để giúp chính phủ khắc phụcvấn đề dân số thì cách tốt nhất có thể thực hiện được là nhóm các tỉnh ởIndonesia lại thành các cụm từ đó có thể dễ dàng quản lý khi có sự cố xảy ra Trong nghiên cứu , việc phân cụm các tỉnh ở Indonesia dựa trên mật độ dân số,
tỷ lệ đi học 13-15, chỉ số phát triển con người và tỷ lệ thất nghiệp mở Việc lựachọn các biến này dựa trên lý do là các biến này ảnh hưởng đến vấn đề dân số
ở Indonesia
2 Mục đích nghiên cứu
Phân cụm các tỉnh có các đặc tính giống nhau từ đó giúp chính quyền địaphương dễ dàng quản lý và đưa ra các chính sách nhằm nâng cao chấtlượng đời sống nhân dân
3 Phương pháp nghiên cứu
Dữ liệu được sử dụng trong nghiên cứu này là mật độ dân số, tỷ lệ đi học từ13-15, chỉ số phát triển con người và tỷ lệ thất nghiệp của một tỉnh ở Indonesiabao gồm 34 tỉnh Trong nghiên cứu này, các tỉnh của Indonesia sẽ được nhómlại dựa trên dữ liệu mật độ dân số, tỷ lệ đi học từ 13-15, chỉ số phát triển conngười và tỷ lệ thất nghiệp mở Nhóm tỉnh này sẽ sử dụng phương pháp phâncụm K-Means
4 Kết quả nghiên cứu
Dựa trên phân cụm dữ liệu về dữ liệu mật độ dân số, tỷ lệ đi học 13-15, chỉ
số phát triển con người, tỷ lệ thất nghiệp mở theo tỉnh sử dụng phân cụm Means thu được 5 cụm với mỗi cụm như sau: cụm 1 gồm 12 tỉnh (Aceh, TâySumatera, Riau, Jambi, Nam Sumatera, Bengkulu, Quần đảo Bangka Belitung,Đông Nusa Tenggara, Nam Kalimantan, Đông Nam Sulawesi, Gorontalo, TâySulawesi), cụm 2 gồm 6 tỉnh (Bắc Sumatra, Lampung, Quần đảo Riau, TâyNusa Tenggara , Bắc Sulawesi, Nam Sulawesi), cụm 3 gồm 1 tỉnh (DKI
K-14
Trang 17Jakarta), cụm 4 gồm 6 tỉnh (Tây Java, Trung Java, DI Yogyakarta, Đông Java,Banten, Bali), cụm 5 gồm 9 tỉnh (Tây Kalimantan, Trung Kalimantan, ĐôngKalimantan, Bắc Kalimantan, Trung Sulawesi, Maluku, Bắc Maluku, TâyPapua, Papua)
Việc phân nhóm tỉnh dựa trên khoảng cách giữa các tỉnh khác với các tỉnh trungtâm: 1 (Nam Sumatra), 2 (Lampung), 3 (DKI Jakarta), 4 (Trung Java) và
5 (Tây Kalimantan)
Dựa trên kết quả phân cụm từ K-Means Clustering, người ta thấy rằng cácnhóm tỉnh dựa trên mật độ dân số, tỷ lệ đi học là 13-15, chỉ số phát triểncon người và tỷ lệ thất nghiệp mở là 5 cụm tập trung ở Nam Sumatera,Lampung, DKI Jakarta, Các tỉnh miền Trung Java, và Tây Kalimantan
Phần II Ứng dụng thuật toán Kmeans trong phân cụm các loại rượu vang Ý
2.1 Giới thiê bu bô b dd liê bu
Bô • dữ liê •u Wines có chứa kết quả của mô •t cuô •c phân tích các chất hóahọc có trong rượu vang cùng được trồng trên 1 vùng ở Italya nhưng có nguồngốc từ 3 giống khác nhau Mô •t cuô •c phân tích trên 178 loại rượu vang • từ 3giống khác nhau tiến hành 13 phép đo Số liê •u này thường được sử dụng đểkiểm tra và so sánh thực hiê •n các thuâ •t toán phân loại khác nhau Các phântích xác định ảnh hưởng của 13 thành phần được tìm thấy trong ba loại rượuvang
Gồm có: Alcohol (nồng độ cồn), Malic acid (tạo độ chua), Ash (hàm lượngtro xác định bay hơi của rượu), Alcalinity of ash (độ kiềm ),Magnesium(Magie), Total phenols(phenol), Flavanoids(tác động đến thần
15
Trang 18kinh), Nonflavanoid phenols(tạo màu,vị đắng), Proanthocyanins(nồng độ),Color Intensity(cường độ màu), Hue(tạo màu,vị cay), OD280(enzym),Proline(tạo hương vị)
2.2 Mục tiêu nghiên cứu
Mục tiêu đề tài là phân cụm các loại rượu vang để từ đó có thể phân loại theo
sở thích của người dùng từ đó đề xuất ra những giải pháp nhằm nâng cao chất lượng hương vị cũng như cải thiện các phương pháp trong quá trình sản xuất như chưng cất, lên men, trồng và chăm sóc nho,…
2.3 Xử lý dd liệu
2.3.2 Chọn biến
Do bộ dữ liệu ban đầu đã được kiểm định và thực hiện nhiều các phép đo khácnhau nên nhóm quyết định đưa cả 13 biến vào mô hình phân tích
2.3.3 Đánh giá sự phù hợp của dd liệu dùng để phân cụm
Hệ số Hopkín được sử dụng để đánh giá mức độ phù hợp của phân cụm dữliệu Hệ số hopkins đo lường mức độ tập trung dữ liệu trong phân cụm Nếu hệ
số hopkins cao (>0.5) sẽ phản ánh mức độ tập trung của dữ liệu lớn hơn trung
bình và việc sử dụng phương pháp phân cụm cho bộ dữ liệu là phù hợp
Kết quả tính hệ số Hopkin bằng phần mềm R trong trường hợp số cụm có thểhình thành là 178 ( trong số 178 loại rượu) là 0.714 >0.5 Kết quả phản ánh dữ
16