Dữ liệu đầu vào Dữ liệu đầu vào là bảng dữ liệu thông tin và mức độ đồng ý của khách hàng về các nhân tố ảnh hưởng đến quyết định lựa chọn sản phẩm tại Adidas.. 2 Mục tiêu của bài toán T
Trang 1TRƯỜNG ĐẠI HỌC THƯƠNG MẠI KHOA: HTTT KINH TẾ VÀ THƯƠNG MẠI ĐIỆN TỬ
ĐỀ TÀI THẢO LUẬN
MÔN: KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
Đề tài: Khai phá dữ liệu cho cơ sở dữ liệu khách hàng quyết định lựa chọn sản phẩm tại
Trang 2Người thực hiện: 9
BẢNG PHÂN CÔNG NHIỆM VỤ VÀ DANH SÁCH THÀNH VIÊN NHÓM 7
55 Đỗ Hải Nam(nhóm trưởng)
18D190152 -Phân tích mô hình hồi quy-Tổng hợp word
- Tìm nút gốc
- Thuyết trình
60 Trần Vũ Thảo Nhi 18D190095 - Tìm nút lá cho nút gốc- Cây quyết định tổng quát
61 Nguyễn Thị Nhung 18D190055 - Kiểm định độ tin cậy thang đoCronbach’s Alpha
62 Trịnh Hoa Niên 18D190036 - Phân tích nhân tố khám phá EFA- Tương quan Pearson
63 Nguyễn Tiến Phú 18D190096 Lời mở đầu, kết luận, Xử lý sốliệu
Trang 3Mục lục
CHƯƠNG I: KHẢO SÁT DỰ ÁN 5
CHƯƠNG II: KẾT QUẢ NGHIÊN CÚU 8
1 Mô tả thống kê 8
2 Phân tích độ tin cậy qua hệ số Cronbach’s Alpha 8
3 Kết quả phân tích nhân tố khám phá EFA 11
4 Tương quan pearson 16
5 Phân tích hồi quy đa biến 16
CHƯƠNG III: XÂY DỰNG CÂY QUYẾT ĐỊNH 18
CHƯƠNG IV: GIẢI PHÁP 28
Trang 4LỜI MỞ ĐẦU
Những năm gần đây, khi nền kinh tế đất nước phát triển, chất lượng đời sống củangười dân Việt Nam đặc biệt là ở khu vực thành thị ngày càng nâng cao Cùng với nhu
cầu “ăn ngon mặc đẹp” là nhu cầu có được một sức khỏe tốt, thân hình dẻo dai, cân đối
Để thỏa mãn các nhu cầu trên thì việc có được đôi giày thể thao đẹp, phù hợp với các loại
hình thể thao là một điều cần thiết
Hàng loạt các thương hiệu giày thể thao quốc tế lớn như Nike, Adidas vàReebok… có nhà sản xuất gia công phần mềm của giày dép tại Việt Nam, đồng thời các
sản phẩm chính hãng cũng tham gia vào thị trường giày dép của Việt Nam Nổi bật trong
đó là Adidas Là thương hiệu nổi tiếng toàn cầu, Adidas tham gia thị trường dụng cụ thể
thao Việt Nam từ rất lâu Năm 1993, Adidas đã có mặt tại Việt Nam nhưng phải đến năm
2009 Adidas mới chính thức thành lập Công ty Adidas Việt Nam, được sở hữu 100% vốn
bởi Adidas International B.V (Amsterdam, Hà Lan)
Adidas phát triển nhanh và mạnh tại thị trường Việt Nam Chỉ sau 2 năm hoạtđộng chính thức, Adidas đã mở tổng cộng 50 cửa hàng tại các thành phố lớn, trải dài từ
Bắc vào Nam Adidas hiện đang có khoảng 80.000 lao động tại Việt Nam
Để gia tăng khả năng khai thác thị trường sản phẩm giày thể thao, Adidas đã thựchiện các chiến dịch marketing với quy mô lớn nhằm tác động đến hành vi mua của người
tiêu dùng Thông qua việc chứng minh những ưu thế về tính năng sản phẩm, chất lượng
dịch vụ, làm gia tăng lợi ích về mặt tâm lí, xã hội cho người sử dụng,… Công ty kì vọng
những giá trị vượt trội đó sẽ gia tăng lượng khách hàng về cho công ty Đây chính là
nguyên nhân chúng tôi chọn đề tài nghiên cứu: “Nghiên cứu yếu tố ảnh hưởng đến việc
lựa chọn sản phẩm tại adidas”
Trang 5
1 Dữ liệu đầu vào
Dữ liệu đầu vào là bảng dữ liệu thông tin và mức độ đồng ý của khách hàng về các
nhân tố ảnh hưởng đến quyết định lựa chọn sản phẩm tại Adidas
2 Mục tiêu của bài toán
Từ những lựa chọn của khách hàng, xác định sự tương quan của các yếu tố ảnh hưởng tới quyết định lựa chọn sản phẩm của Adidas Từ đó thấy được mức độ ảnh hưởng
của các yếu tố và sự đưa ra quyết định mua các sản phẩm của Adidas
3 Mẫu phiếu điều tra
Bảng câu hỏi khảo sát về các nhân tố ảnh hưởng đến quyết định mua sản phẩm của
Adidas
BẢNG CÂU HỎI KHẢO SÁT VỀ CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN VIỆC
LỰA CHỌN SẢN PHẨM TẠI ADIDAS
Xin chào các bạn! Chúng tôi là nhóm nghiên cứu của trường đại học Thương Mạiđang thực hiện việc khảo sát về "các yếu tố ảnh hưởng đến quyết định lựa chọn sảnphẩm tại Adidas" Rất mong các bạn dành thời gian để trả lời một số câu hỏi khảo sátcủa chúng tôi dưới đây
Xin chân thành cảm ơn!
A Giới thiệu chungGiới thiệu đôi nét về bản thân bạn
Trang 6B Các yếu tố ảnh hưởng đến việc lựa chọn Adidas
1 Bạn thường chọn giày theo tiêu chí gì?
Trang 74 Bạn biết Adidas qua đâu ?
o Được bạn bè, người thân giới thiệuNgười bán hàng trên FB
o Thường xuyên xuất hiện trên tivi, mạng xã hội
o Được thấy từ nhiều người sử dụng
1 Giày có nhiều màu sắc, mẫu
mã đa dang để lựa chọn
1 Thái độ nhân viên vui vẻ,
thân thiện và An ninh trật tựtốt
2 Các cửa hàng phân phối giày
rộng rãi, mạng lưới đại lýrộng khắp nên dễ dàng tìmmua sản phẩm
3 Dịch vụ hậu mãi ở cửa hàng
tốt, chế độ bảo hành tốt và cónhiều đợt sale
4 Khách hàng được cung cấp
nhiều thông tin về sản phẩm
Trang 83 Có nhiều mức giá để lựa chọn
4 Có giá cả hợp lý với mỗi
Trang 9 Số người chi dưới 1 triệu cho 1 đôi giày adidas có 52 người chiếm 35,37%, từ
1 đến 2 triệu có 65 người chiếm 44,2% , trên 2 triệu có 22 người chiếm 15%, mục khác có 8 người chiếm 5,44%
Số người mua giày từ website có 30 người chiếm , số người mua gìay từ cửa hàng có 50 người chiếm, số người mua giày từ các sàn thương mại điện tử có
19 người chiếm 12,92%, số người mua giày từ người bán hàng trên facebook
có 43 người chiếm 29,25%, mục khác có người mua giày từ các đơn vị bán hàng khác hoặc chưa mua bao giờ có 5 người chiếm 3,4%
2 Phân tích độ tin cậy qua hệ số Cronbach’s Alpha
- Ta quy ước như sau:
HTCLSP1: Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn
HTCLSP2: Giày có đầy đủ kích cỡ phù hợp vs người mua
HTCLSP3: Giày êm ái khi di chuyển
HTCLSP4: Giày có độ bền cao
CLDV1: Thái độ nhân viên vui vẻ, thân thiện và an ninh trật tự tốt
CLDV2: Các cửa hàng phân phối giày rộng rãi, mạng lưới đại lý rộng khắp
CLDV3: Dịch vụ hậu mãi ở cửa hàng tốt, chế độ bảo hành tốt và có nhiều đợt sale
CLDV4: Khách hàng được cung cấp nhiều thông tin về sản phẩm
TH1: Adidas là một thương hiệu lớn
TH2: Adidas là một thương hiệu uy tín
TH3: Mọi người xung quanh đều sử dụng
GC1: Giày có giá cả cạnh tranh trên thị trường
GC2: Giá có tương xứng với chất lượng
GC3: Có nhiều mức giá để lựa chọn
GC4: Có giá cả hợp lý với mỗi người tiêu dùng
- Hình thức chất lượng sản phẩm:
Reliability Statistics
Cronbach'sAlpha ItemsN of
Item-Total Statistics
Trang 10Scale Mean
if ItemDeleted
ScaleVariance ifItemDeleted
CorrectedItem-TotalCorrelation
Cronbach'sAlpha ifItemDeletedHTCLSP
- Chất lượng dịch vụ:
Reliability Statistics
Cronbach'sAlpha ItemsN of
Item-Total Statistics
Scale Mean
if ItemDeleted
ScaleVariance ifItem Deleted
CorrectedItem-TotalCorrelation
Cronbach'sAlpha ifItem DeletedCLDV
Trang 11Kết quả kiểm định cho thấy hệ số Cronbach’ Alpha chung = 0.757 > 0.6, hệ số tương quan biến-tổng của các biến quan sát đều đạt yêu cầu (> 0.3).
- Thương hiệu:
Reliability Statistics
Cronbach'sAlpha ItemsN of
Item-Total Statistics
Scale Mean
if ItemDeleted
ScaleVariance ifItemDeleted
CorrectedItem-TotalCorrelation
Cronbach'sAlpha ifItemDeleted
Item-Total Statistics
Scale Mean
if ItemDeleted
ScaleVariance ifItemDeleted
CorrectedItem-TotalCorrelation
Cronbach'sAlpha ifItemDeleted
Trang 12 Kết luận: Sau khi tiến hành phân tích độ tin cậy bằng phương pháp
Cronbach’s Alpha, 15 biến quan sát rút lại còn 13 biến quan sát, loại bỏ cácbiến quan sát là: “Giày có nhiều màu sắc, mẫu mã đa dang để lựa chọn”,
“Mọi người xung quanh đều sử dụng”
3 Kết quả phân tích nhân tố khám phá EFA 3.1 Kiểm định KMO và Bartlett’s Test
- Yêu cầu+ Hệ số KMO ≥ 0.5+ Sig < 0.005
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy .858 Bartlett's Test of Sphericity Approx Chi-Square 866.753
Bảng giải thích tổng phương saiExtraction Method: Principal Component Analysis
Total Variance Explained
Nhận xét: Tiêu chuẩn của phương pháp phân tích nhân tố là chỉ số KMO phải lớn
hơn 0.5 (Garson, 2003) và kiểm định Barlett’s có mức ý nghĩa sig < 0.05 để chứng tỏ
dữ liệu dùng phân tích nhân tố là thích hợp và giữa các biến có tương quan với nhau
Giá trị Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO)=0.858
Kết quả phân tích nhân tố cho thấy chỉ số KMO là 0.858> 0.5, điều này chứng tỏ dữ liệu dùng để phân tích nhân tố là hoàn toàn thích hợp
Kết quả kiểm định Barlett’s là 866.753 với mức ý nghĩa Sig = 0.000< 0.05,lúc này bác bỏ giả thuyết H0: các biến quan sát không có tương quan với nhau trong tổng thể
Trang 13Như vậy giả thuyết về ma trận tương quan giữa các biến là ma trận đồng nhất bị bác
bỏ, tức là các biến có tương quan với nhau và thỏa điều kiện phân tích nhân tố
3.2 Eigenvalues và phương sai trích
Nhận xét: Thực hiện phân tích nhân tố theo Principal components với phép quay
Varimax
Kết quả cho thấy 13 biến quan sát ban đầu được nhóm thành 3 nhóm
Giá trị tổng phương sai trích = 62.401% > 50%: đạt yêu cầu; khi đó có thể nói rằng 3 nhân tố này giải thích 62.401% biến thiên của dữ liệu
Giá trị hệ số Eigenvalues của các nhân tố đều cao (>1), nhân tố thứ 3 có Eigenvalues thấp nhất là 1.015> 1
Total Variance Explained
Trang 1411 287 2.210 96.303
12 280 2.158 98.461
13 200 1.539 100.000 Extraction Method: Principal Component Analysis.
3.3 Ma trận xoay nhân số
Theo Hair & công sự (1998), Factor loading (hệ số tải nhân tố hay trọng số nhântố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của EFA
Có 3 loại biến xấu:
+ Biến xấu 1 : Hệ số tải Factor Loading nhỏ hơn hệ số tải tiêu chuẩn
+ Biển xấu 2 : Tải lên 2 hay nhiều nhóm nhân tố và chênh lệch hệ số tải nhỏ hơn 0.5
+ Biến xấu 3 : Nằm tách biệt duy nhất ở một nhân tố
Từ bảng trên ta thấy loại 2 biến xấu: CLDV3, GC1
Rotated Component Matrix a
Component
HTCLSP3 819 HTCLSP4 710 HTCLSP2 689
Extraction Method: Principal Component Analysis
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 7 iterations.
Ta bỏ các biến trên và thực hiện lại ta được:
Trang 15KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy .842 Bartlett's Test of Sphericity Approx Chi-Square 671.126
Ta thấy hệ số KMO của bài là 0.842 > 0.5 đủ để phân tích nhân tố là phù hợp
Kiểm định Bartlett có ý nghĩa thống kê Sig < 0.05, chứng tỏ các biến quan sát cótương quan với nhau trong nhân tố
Total Variance Explained
Extraction Method: Principal Component Analysis.
Nhận xét: Thực hiện phân tích nhân tố theo Principal components với phép quay
Varimax
Trang 16Kết quả cho thấy 11 biến quan sát ban đầu được nhóm thành 2 nhóm.
Giá trị tổng phương sai trích = 56.419% > 50%: đạt yêu cầu; khi đó có thể nói rằng 3 nhân tố này giải thích 56.419% biến thiên của dữ liệu
Giá trị hệ số Eigenvalues của các nhân tố đều cao (>1), nhân tố thứ 3 có Eigenvalues thấp nhất là 1.167> 1
a Rotation converged in 3 iterations.
Qua bảng trên ta không còn thấy biến xấu nào để loại bỏ nữa Kết thúc phân tích EFA
Vậy sau khi phân tích nhân tố khám phá EFA ta loại 2 biến xấu: CLDV3,
GC1
4 Tương quan pearson
Correlations
F_GC F_CLDV F_GC Pearson Correlation 1 620 **
Trang 17F_CLDV Pearson Correlation 620 1
Sig (2-tailed) 000
** Correlation is significant at the 0.01 level (2-tailed).
Nhận xét: Sig kiểm định tương quan Pearson các giữa 2 biến độc lập F_GC,
F_CLDV đều nhỏ hơn 0.05 Như vậy, có mối liên hệ tuyến tính giữa 2 biến F_GC và F_CLDV
5 Phân tích hồi quy đa biến
Model Summary b
Model R R Square
Adjusted R Square
Std Error of the Estimate Durbin-Watson
Trang 18B Std Error Beta Tolerance VIF
Trang 19- Giá cả trung bình Mean = -4.43E -16 gần bằng 0, độ lệch chuẩn là 0.990 gần bằng
1, như vậy có thể nói, phân phối phần dư xấp xỉ chuẩ Do đó, có thể kết luận rằng:
Giả thiết phân phối chuẩn của phần dư không bị vi phạmPhương trình hồi quy chuẩn hoá là
Trang 20Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là T2, T3, T4, T5
Child node ứng với Hình thức chất lượng = 2 và = 3 có Entropy = 0 do tất cả các giá trị
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là C2, C3, C4, C5
Child node ứng với Chất lượng dịch vụ = 2 và = 3 có Entropy = 0 do tất cả các giá trị đều
1.3 Xét thuộc tính Thương hiệu
Thuộc tính này nhận 1 trong 5 giá trị là 1,3,4,5
Gọi tập hợp điểm trong mỗi child node này là A1, A3, A4, A5
Child node ứng với Thương hiệu = 1 và = 3 có Entropy = 0 do tất cả các giá trị đều là
Trang 21Entropy(A5) = −257 log2572 −5557log25557=0,2192
=> Entropy(TH,S) = 1472 H ( A 1)+ 13147 H (A 3)+ 75147H (A 4)+ 57147H ( A 5)=0,2085
1.4 Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 2,3,4,5
Gọi tập hợp điểm trong mỗi child node này là G2, G3, G4, G5
Child node ứng với Thương hiệu = 2 và = 3 và = 4 có Entropy = 0 do tất cả các giá trị đều
Ta thấy Entropy (CLDV, S) = 0,2072 là nhỏ nhất vì thế nên ta chọn Chất lượng dịch vụ
làm node đầu tiên
Với Chất lượng dịch vụ = 2 và Chất lượng dịch vụ = 3 tất cả các giá trị đều là YES vì
vậy ta thu được node YES ở nhánh 2 và 5
Trang 22Entropy(T2) = 0Entropy(T3) = 0Entropy(T4) = −128log2281 − 2728log22728=0,2222
Entropy(T5) = −222log2222 − 2022log22022=0,4394
Entropy(HTCL,S) = 531 H (T 2)+ 253H (T 3)+ 2853H (T 4)+ 2253H (T 5)=0,2997
2.2 Xét thuộc tính Thương hiệu
Thuộc tính này nhận 1 trong 5 giá trị là 3,4,5Gọi tập hợp điểm trong mỗi child node này là A3, A4, A5Child node ứng với Thương hiệu = 3 có Entropy = 0 do tất cả các giá trị đều là YESEntropy(A3) = 0
Entropy(A4) = −128 log2281 − 2728log22728=0,2222
Entropy(G3) = 0Entropy(G4) = 0Entropy(G5) = −347 log2473 − 4447log24447=0,3424
Entropy(GC,S) = 532 H (G 3)+ 453H (G 4)+ 4753H (G5)=0,3036
Ta thấy, Entropy (TH, S) = 0,2814 là nhỏ nhất Ta chọn Node tiếp theo là Thương hiệu
Trang 232.4 Với Thương hiệu = 4
a Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 4,5Gọi tập hợp điểm trong mỗi child node này là T4, T5Child node ứng với Hình thức chất lượng = 4 có Entropy = 0 do tất cả các giá trị đều là YES
Entropy(T4) = 0Entropy(T5) = −211log2112 − 911log2119 =0,684
Trang 242.5 Với Thương hiệu = 5
a Xét thuộc tính Hình thức chất lượng
Thuộc tính này nhận 1 trong 5 giá trị là 3,4,5Gọi tập hợp điểm trong mỗi child node này là T3, T4, T5Child node ứng với Hình thức chất lượng = 3 và = 5 có Entropy = 0 do tất cả các giá trị đều là YES
Entropy(T3) = 0Entropy(T5) = 0
Trang 25Entropy(T4) = −117 log2171 −1617log21617=0,3227
Entropy(HTCL,S) = 282 H (T 3)+ 1728H (T 4)+ 928H (T 5)=0,1959
b Xét thuộc tính Giá cả
Thuộc tính này nhận 1 trong 5 giá trị là 3, 4, 5Gọi tập hợp điểm trong mỗi child node này là G3, G4, G5Child node ứng với Hình thức chất lượng = 3 và = 4 có Entropy = 0 do tất cả các giá trị đều là YES
Entropy(G3) = 0Entropy(G4) = 0Entropy(G5) = −125 log2251 − 2425log22425=0,2422Entropy(GC,S) = 282 H (G 3)+ 128H (G 4)+ 2528H (G 5)=0,2162
Ta thấy, Entropy (HTCL, S) = 0,1959 là nhỏ nhất Ta chọn Node tiếp theo là Hình thứcchất lượng
Trang 26Làm tương tự với các nhánh còn lại Ta có cây quyết định cuối cùng sau:
3 Kiểm tra độ chính xác của cây quyết định vừa vẽ
Lấy 30% dữ liệu phần cuối trong file kết quả thu được từ phiếu khảo sát ta áp dụng vàocây quyết định để tính độ chính xác của cây ta thu được bảng kết quả như sau:
STT Hình thức chất lượng Chất lượng dịch
vụ Thương hiệu Giá cả
Sự hài lòng của khách hàng
98 Đồng ý Rất đồng ý Rất đồng ý Rất đồng ý Yes (TP)
99 Rất đồng ý Rất đồng ý Rất đồng ý Rất đồng ý Yes (TP)
100 Đồng ý Phân vân Phân vân Phân vân Yes (FN)
101 Không đồng ý Không đồng ý Rất khôngđồng ý Không đồng ý Yes (FN)
Trang 27128 Rất đồng ý Phân vân Đồng ý Rất đồng ý Yes (TP)
129 Không đồng ý Không đồng ý Rất không
140 Đồng ý Rất đồng ý Phân vân Đồng ý Yes (TN)
141 Đồng ý Đồng ý Phân vân Rất đồng ý Yes (TP)