TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG KHOA QU N TR KINH DOANH ẢỊBÀI BÁO CÁO GIỮA KỲPHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K-MEAN H c ph n : ọầPhân tích kinh doanh trong môi trường sốGV
Trang 1
TRUONG DAI HOC KINH TE - ĐẠI HỌC DA NANG KHOA QUAN TRI KINH DOANH
#&»&„#-Elaase&se
University of Economics
BÀI BÁO CÁO GIỮA KỲ PHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K-MEAN
Học phần : Phân tích kinh doanh trong môi trường số
GVHD : TS Hoàng Văn Hải Sinh viên: Đoàn Thị Uyên Vui MSSV: 211121302348 Lớp sinh hoạt: 47K02.3
Trang 2MỤC LỤC
DANH MỤC BIẾU ĐÔ G1 121 2111111112112 11 1111011151 11111 11111115 1101211 TH H115 neng 2 DANH MỤC BẢNG BIÊU Q2 21211521121 15155 112111111 211111 8101211111 111111501 11x 2 DANH MỤC HÌNH ẢNH - 122 222122121121 2212712121 7T111212111117111117121217121121 1.1 e 2 LỜI MỞ ĐẦU - - CS 2211231112125 111 E1 111111111 211115 110101115 11101 1115111111112 1x TE H11 3 PHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K- MEAN ¿5¿Sccccccscrcrrrea 4 PHÂN I PHƯƠNG PHÁP PHÂẦN TÍCH - 522252 32t St 2232323235323 cxe 4
1 Phương pháp thống kê: - ¿c2 + 3121212111 1E1212153 1211111512111 21110111 1111011111111 1E E1 4
2 Ky thuat phan son ©G 0 .aăằăằă 4
1 Làm sạch dữ liệU: TL c1 101 HS HT ghế 5
2 Mô tả giới tính của nhóm khách hàng: - - 5.7 C20011 1221220111111 11v ng key 6
3 Mô tá độ tuôi của nhóm khách hàng: . 5c S131 1311321111111 11 1111 111111111111 ng 7
4 Mô tá thu nhập khách hàng: - 2-0 0022001111112 1v ng T ng khen re 7
5 Mô tả chỉ tiêu của khách hàng: 0 0000 122010111221 201 11111190111 11g vn, 8
PHAN III ỨNG DỤNG PHƯƠNG PHÁP K-MEAN Q0 22 2121 21211 111221111 81 rrre 9
1 Phương pháp Elbow Method : cc ch ng kh 9
2 Chuẩn hóa dữ liệU: 1 c1 11 11111111111 E111 11155E 1111111111111 KT TH TH TH ay 10
3 Khởi tạo Centroid và tính khoảng cách ccc TT nnSnnnnnnn Tnhh th 10
4 Nhóm các đối tượng vào nhóm gần nhất 2 22 S121 3322 EE2 121232511 1E1511 11 21x see 11
E.:›° me 6 (/d4 - 11
(l“àaiađaddddỎOỎỎẢỎÔẢÔÊẢỔỐ 12 Z8 2= AR ẠR 12
BS CUI n sa 13 cmdllyadddttỔtOO Ầ 14
=_ ˆnä§g,Ậ8ẬỪ 15
PHÂN V KÉT LUẬN - G2 2212123 1112325 1155711111 8111 211111 1121115 010111111011 1x g1 ưng 15
Trang 3DANH MỤC BIEU ĐỎ Biểu đồ 1 Box-Whisker phân bó độ tuôi, thu nhập và chỉ tiêu của KH cc ca 6 Biểu đô 2 Giới tính khách hàng - c2 E23 512125113 2525115 11111211115 111101115 87011111118 11kg rrêi 6 Biểu đỗ 3 Độ tuôi khách hàng - 1 S2 1221515315121 23 11111 1115 1215115115 111101111101 11 E011 1 trệt 7 Biểu đỗ 4 Độ tuôi khách hàng - 1222112212113 E5121 2511511 111511215 111115 1111111110111 01511 rệt 7 Biểu đô 5 Số lượng khách hàng theo từng mức thu nhập - L5 22122 2 SE22E5E 2E 11212 Erre 8 Biểu đỏ 6 Số lượng khách hàng theo từng mức chỉ tiêu . - S2 2222113 2221238211 2512325 1122 xe 9
Biêu đồ 7 Chọn K cụm theo phương pháp EÏboww .- 22c S223 3222123 152 1212211112151 xe 9 Biêu đồ 8 Phân nhóm khách hàng theo phương pháp K-Means - 252cc Scccsecsxsxexsee 11
Bidu dd 9 CIUStOr 1c cccccecccscstesecscesevesasesevesssesesasssssssasesssssasssssesassseseseseseseeeseseissesesesseeeesseeees 12 Bidu dd 10 CIUSter 20 cccccccccccstesecscsnevesasesevesasesesesasesssasesssesasesssesessseiesessieseessieueseseieessseneeeesees 12
DANH MUC BANG BIEU
Table 1 Bảng xử lý số liệu theo tứ phân VỊ - E2 12125113 52512511111 212115 1111211118111 ke 5 Table 2 Thông kê mô tả độ tuôi của khách hàng .- - 5 2S 2E23E132222E25E5E112312325 E122 xceer 7 Table 3 Thông kê mô tả thu nhập của khách hàng - G5 2222 2523 E53EEE2E25E5E5E2E2E25E2E22E xe 7
Table 4 Bảng thống kê mô tả chỉ tiêu của khách hàng .- - 5-2 221 22E2325E5E232E25 5112 EEzxrd 8 Table 5 (009 0s s:vcìnn s9 1n tia 11
Table 6 Thong kê mô tả khách hàng Cluster 1 .cccccccceccccescesescsccesceceecscertevsresteteneseeneatereanes 12 Table 7 Thong ké m6 ta Cluster 2 0.cccceccccccceccscesescecesceceseeseseesatescaceceusereevstrsatsreetnnseesteneateres 13 Table 8 Thong ké m6 ta Cluster 3 oo cceccccccccecescecescesesceceseeceseeseteeeeseseetercevstersatreatnnneeteneateees 13 Table 9 Thong ké m6 ta Cluster 4 oo ccecccccccceccececescecesceceeceesseesateesasesusercevseersatrestnnneesteseateees 14 Table 10 Thong ké m6 ta Cluster 5 L1 +2 12321113 E52515511313 212121111 27115 1111111111101 1x0 15
DANH MỤC HÌNH ÁNH
Hình 1 Các bước thực hiện K-Means LH HT TH n TT TT KH ng nen EEEK: 4 Hình 2 Thao tác xóa dữ liệu trùng lặp trong Excel - c1 1112222 2221111 112011111 1n key 5
Hình 3 Chuẩn hóa dữ liệu thu nhập C C1 1111113211111 11 11 1111111111151 HH ty 10
Hình 4 Khởi tạo Centroid và tính khoảng cách - - - - 20 111111111111 11111 nh kg 10
Trang 4Too long to read on your phone? Save to read later on your
thành công hay thất bại của một chiến lược kinF
chính của doanh nghiệp mà còn là nguồn thông t , - 7- - - -~ ~~r = g
nhu cầu thị trường Do đó, phân tích khách hàng trở thành một công việc cực kỳ quan trọng để
tạo ra sự cạnh tranh và tạo dựng được Sự tương tác tốt với khách hàng
Có nhiều phương pháp để phân tích khách hàng như K-Mean, Mean-shift, Density- Based Spatial, Tuy nhiên phương pháp phân tích theo K-Mean có lẽ là kỹ thuật cơ bản và được sử
dụng phô biến nhát Phương pháp K-Mean ( phân cụm khách hàng thành K cụm) là quá trình phân chia khách hàng thành nhiều cụm / nhóm có chung sự tương đồng về những tiêu chí như giới tính, tuôi tác, sở thích, thu nhập, thói quen chỉ tiêu để từ đó doanh nghiệp có những phương thức tiếp
thị hiệu quả cho từng nhóm khách hàng Khi thực hiện phân cụm khách hàng sẽ giúp doanh nghiệp
có thê tăng lợi nhuận, tăng sự hài lòng khách hàng hay thu hút nhiều khách hàng tiềm năng mà
lâu nay chưa phát hiện
Trong bài báo cáo này, em ứng dụng phương pháp K-Mean cùng với các công cụ hỗ trợ trong quá trình phân tích khách hàng từ Excel dựa từ mẫu dữ liệu được cung cấp từ GVHD Bài phân tích này nhằm mục đích giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và đưa ra khuyến
nghị cho nhà quán trị các hành động cần thiết đẻ giữ chân khách hàng của doanh nghiệp Bài báo cáo này là kết quá của quá trình nghiên cứu và phân tích của chính bản thân em Với kiến
thức và thời gian còn khá hạn chê nên bài báo cáo của em sẽ không tránh khỏi những sai sót, em
rất mong sẽ được thầy góp ý đề có thê rút kinh nghiệm và làm tốt hơn để bài báo cáo cudi ky Qua đây, em cũng xin gửi lời cảm ơn chân thành đến thầy TS Hoàng Văn Hải - GVHD hoc phan Phân tích kinh doanh trong môi trường sô đã hướng dẫn tận tình để chúng em có bài báo cáo tốt nhất, cảm ơn bộ môn đã xây dựng kiên thức rất bỏ ích phù hợp đối với thời đại 4.0 hiện nay
Trang 5PHÂN TÍCH KHÁCH HÀNG THEO PHƯƠNG PHÁP K- MEAN
PHAN | PHUONG PHAP PHAN TICH
1 Phương pháp thống kê:
Phương pháp thông kê được sử dụng dữ liệu dé tìm hiểu rõ hơn về tính chất của dữ liệu, đặc điểm cũng như môi quan hệ giữa chúng Đây cũng là bước quan trọng dé xác định các biến có sự khác biệt dang ké trong tông thẻ, xác định sự khác biệt giữa các nhóm dữ liệu Điều này giúp xác định được tính hợp lý hay bát hợp lý của việc sử dụng phân cụm cho dữ liệu cụ thê Hơn nữa, phân tích thống kê còn được sử dụng để đánh giá kết quả trong quá trình phân cụm
2 Kỹ thuật phân cụm (K-Mean):
Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đổi tượng đã cho vào K cụm (với K là số cụm được xác định trước, K là một số nguyên dương), sao cho tông bình phương khoảng cách giữa các đối tượng và tâm của cụm tương ứng là nhỏ nhất
centroids
Hình 1 Các bước thực hiện K-Means Thuật toán K-Means thực hiện qua các bước chính sau: (BlS, 2019)
Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm
Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)
Bước 3: Nhóm các đôi tượng vào nhóm gần nhất
Bước 4: Xác định lại tâm mới cho các nhóm.
Trang 6Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đôi nhóm nào của các đối tượng
PHAN II DU LIỆU NGHIÊN CỨU
1 Làm sạch dữ liệu:
Mẫu dữ liệu ban đầu được cung cấp gồm 794 khách hàng được cung cấp dựa trên 4 tiêu thức gồm
mã khách hàng, giới tính, độ tuôi, thu nhập và mức chỉ tiêu Đây chỉ là dữ liệu thô chưa được xử
lý nên cần phái trai qua qua trình làm sạch
Đầu tiên, xử lý các dữ liệu trùng lặp bang cách chọn lệnh Data trên màn hình excel, chọn Remove
Duplicates và tiền hành chọn tát cá các tiêu thức theo quy trình như ảnh sau
° 8
Hình 2 Thao tác xóa dữ liệu trùng lặp trong Excel
Kết quá thao tác trên cho ra kết quá 593 dữ liệu được loại bỏ do trùng lặp, giữ lại 201 dữ liệu Tiếp tục với bước loại bỏ dữ liệu ngoại lai bằng việc sử dụng biểu đồ Box — Whisker Tién hanh
xác định giá trị QI và Q3 của các tiêu thức bằng hàm excel: Q = QUARTILE.EXC( ARRAY; QUART) Xác dinh tu phan vi IQR = Q3-Q1 va xac định giới hạn trên = Q3+1,5*IQR và giới han
dudi = Q1-1,5*IQR Và được kết quả như sau:
Q1 | 20,25 | 40,5 34,25
Q3 49 78 73
IQR 20,75 | 37,5 -38,75
Giới hạn trên 80,13 134,3 131,13
Giới hạn dưới -2,86 | -15,75 -23,86
Table 1 Bang xr ly sé liéu theo ti phan wi.
Trang 7Sử dụng công cụ excel đê vẽ biêu đồ Box — Whisker và cho ra biêu đô dưới đây:
140
120
100
80
60
40
20
Wi tudi BR Thu nhập theo năm (10009) II Mức chỉ tiêu (100$)
Biểu đô 1 Box-Whisker phân bố đá tuổi, thu nhép và chỉ tiêu c¿a KH
Dựa vào biểu đồ trên, ta thấy có xuất hiện giá trị ngoại lai ở tiêu thức Thu nhập theo năm với giá
trị là 137.000 Do đó, ta tiến hành loại bỏ dữ liệu nay dé dam bao sự chính xác, tránh sự sai lệch trong các ước lượng thông kê Sau khi đã hoàn tất quá trình làm sạch, dữ liệu hiện còn lại là 198
2 Mô tả giới tính của nhóm khách hàng:
Trong 198 dữ liệu đại diện phân lớn có giới tính là nữ với số lượng là 112 người chiếm tỷ lệ 57% Còn lại nam là 86 người chiếm tỷ lệ ít hơn, chiếm 43% Điều này cho thầy khách hàng nam và nữ xắp xi cân bằng nhau nhưng hơi thiên về khách hàng nữ nhiều hơn
Giới tính
mNữ “Nam
Biể» đô 2 Giới tính khách hàng
6
Trang 83 Mô tả độ tuôi của nhóm khách hàng:
Độ tuôi bình quân của khách hàng là 38,93 tuổi, khách hàng có tuổi lớn nhát là 70 tuổi, nhỏ nhát là 18 tuôi và độ lệch chuân là 14,2 tuôi
Minimum Median Mean Mode Standard Maximum
18 36 38,93 32 14,02 70
Table 2 Thống kê mô t¿ độ tuổi c¿a khách hàng Biểu đồ hộp 3 và biểu đồ cột 4 dưới đây thê hiện sự phân bó theo độ tuổi của khách hàng
26, 24
48
38 |
28 |
18
Qua biểu đô trên cho thấy được độ tuôi tập trung từ 28 đến 48 tuôi Biêu đồ 1 thể hiện số lượng khách hàng trong từng nhóm tuôi cụ thẻ, biểu đồ 2 thẻ hiện mức độ tập trung, độ
tuổi trung bình, trung vị và bách phân vị 25% và 75% và không có giá trị ngoại vi
4 Mô tả thu nhập khách hàng:
Sau khi thông kê mô tả dữ liệu thu nhập khách hàng thì cho ra kết quả sau đây:
Minimum Median Mean Mode Skewness Maximum
15 61 59,79 54 0,17 126
Table 3 Thống kê mô t¿ thu nháp cửa khách hàng
Tir bang trén ta thay hé s6 mean, mode va meadian không bằng nhau cùng với Skewness bằng 0,17 lớn hơn 0 nên có thê kết luận thu nhập của khách hàng phan phối xap xi chuan, hơi lệch phải ( 0<skewness<0,5) Điều này cho tháy rằng dữ liệu có một phân lớn giá trị thu nhập tập
trung ở mức cao Vì vậy, mức thu nhập trung bình của khách hang 1a 61.000$/ nam, trong đó
người thấp nhất có thu nhập thấp nhất là 15.000%/ năm và cao nhát là 126.000%/ năm Biểu đồ dưới đây thê hiện só lượng khách hàng trong từng mức thu nhập cụ thẻ
Trang 9Thu nhập của khách hàng
[15, 27] (27, 39] (39, 51] (51, 63] (63, 75] (75, 87] (87,99] (99,111] (111,123] (123, 135]
Biéu do 5 S6 long khách hang theo ting mic thu nhp Qua biêu đồ trên, ta thấy khách hàng của doanh nghiệp phân lớn có thu nhập từ 15.000 —
87.0008
5 M6 ta chỉ tiêu của khách hàng:
Kết quá thông kê như sau
Minimum Median Mean Mode Skewness Maximum
1 50 50,2 54 -0,04 99
Table 4 Bang thống kê mô t¿ chỉ tiêu ca khách hàng
Theo bang trên, mặc dù chỉ số Mean, mode và median không băng nhau nhưng độ lệch của
nó không lớn cùng với trị tuyệt đối của skewness bằng 0,04 thì rất nhỏ Vì vậy, có thê nói rang mức chỉ tiêu có phân phối chuẩn Dựa vào đó ta có thể nhận xét được rằng, khách
hàng của doanh nghiệp sẽ chi trung bình một người là 5.020$, người có mức chỉ tiêu cao
nhát là 9.900$ và thấp nhất là 100$ Biểu đồ dưới đây thể hiện số lượng khách hàng trong từng mức chỉ tiêu cụ thẻ
Trang 10Chi tiêu của khách hàng
45
{1, 11] (11, 21] (21, 31] (31, 41] (41, 51] (51, 61] (61, 71] (71, 81] (81,91] (91, 101]
Bi» đô 6 Số lượng khách hàng theo từng mức chỉ tiêu
Qua biểu đồ trên ta thấy khách hàng của doanh nghiệp chỉ tiêu nhiều nhất từ 4.100$ đến
6.100$/nam
PHAN IIL UNG DUNG PHUONG PHAP K-MEAN
1 Phương pháp Elbow Method :
Xác định s6 cum (K cụm) tôi ưu bằng phương pháp Elbow đề phân bố khách hàng là 5 cum Bang phương pháp thử K = 3, 4, 5, 6 thì kết quá cho như biểu đồ dưới đây:
K cụm
150
140
130
120
110
100
90
30
0 1 2 3 4 5 6 7
Biể» đô 7 Chon K cum theo phirong phap Elbow