Mục lục I. Phương pháp phân tích cụm – Clustering. 3 1. Nội dung, đặc điểm và ứng dụng. 3 2. Kiểm định Cluster. 3 II. Phương pháp phân tích nhân tố khám phá EFA 17 1. Các tham số thống kê trong phân tích nhân tố 17 2. Nội dung, đặc điểm và ứng dụng. 18 3. Mô hình phân tích nhân tố. 19 4. Các kiểm định trong EFA. 19 5. Mô hình hồi quy OLS. 20 6. TIẾN HÀNH PHÂN TÍCH NHÂN TỐ KHÁM PHÁ 21 6.1 Kiểm tra sự tương quan giữa các mục hỏi và tính toán Cronbach Alpha 21 6.2 Đánh giá độ tương quan giữa các item trong cùng 1 nhân tố ( Factor ). 22 6.3 Thực hiện mô hình EFA, nhằm loại các item không phù hợp và xác định các Factor do các item tạo thành dựa trên Factor loadings. 25 6.4 Đo lại các Factor mới bằng Cronbach Alpha 30 6.5 Xây dựng ma trận tương quan, KMO và kiểm định Barlett’s test 35 6.6 Xác định số nhân tố và eigen value 36 6.7 Tính toán và đặt tên các Factor 38 6.8 Phân tích nhân tố đối với Factor Loyalty 41 6.9 Chạy mô hình hồi quy OLS 45 I. Phương pháp phân tích cụm – Clustering. 1. Nội dung, đặc điểm và ứng dụng. Phân tích cụm là nhận diện và phân loại các đối tượng hay các biến sao cho các đối tượng trong cùng một cụm tương tự nhau xét theo các đặc tính lựa chọn để nghiên cứu. Phân tích cụm phân loại theo các mối quan hệ tự nhiên nên có nhiều tên gọi : phân tích Q, phân tích phân loại, phân tích kĩ thuật định lượng. Phân tích cluster sẽ có hiệu quả tốt nếu như người nghiên cứu thực hiện được trong 1 cluster chứa các đối tượng có quan hệ mật thiết và giống nhau (homogenous), và nhóm cluster này và nhóm cluster khác thì có sự phân biệt, có sự khác biệt (herogenous). Trong thực tế, phân tích Cluster được ứng dụng rất nhiều trong các lĩnh vực :nghiên cứu hành vi, xã hội, tâm lí, kinh doanh : - Trong kinh doanh : Trong nghiên cứu thị trường, phân tích cụm được sử dụng để phân đoạn thị trường và xác định thị trường mục tiêu… - Trong sinh học : Trong biểu diễn dữ liệu gene dùng để nhóm các mẫu gen giống nhau, nhóm các mẫu khác nhau trên các hồ sơ tương ứng - Sức khỏe tâm lí : Phân tích cụm được sử dụng để xác định các nhóm của người dân mà có thể được hưởng lợi từ các dịch vụ y tế - Marketing : cluster giúp nhận diện các phân khúc thị trường, tìm hiểu hành vi khách hang, nhận dạng các cơ hội cho sản phẩm mới hay lựa chọn thị trường để thử nghiệm các chiến lược khác nhau…
Trang 1TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINHMÔN : KINH TẾ LƯỢNG TRONG QUẢN TRỊ KINH DOANH
TIỂU LUẬN
Giảng viên : Đỗ Hoàng Oanh
Nhóm thực hiện : 19 Đỗ Quốc Hưng 0908335437
62 Nguyễn Đình Hoàng Tín 0388670503
TP HỒ CHÍ MINH THÁNG 5 NĂM 2019
Trang 2Mục lục
I. Phương pháp phân tích cụm – Clustering
1. Nội dung, đặc điểm và ứng dụng
Phân tích cụm là nhận diện và phân loại các đối tượng hay các biến sao chocác đối tượng trong cùng một cụm tương tự nhau xét theo các đặc tính lựa chọn đểnghiên cứu
Phân tích cụm phân loại theo các mối quan hệ tự nhiên nên có nhiều tên gọi :phân tích Q, phân tích phân loại, phân tích kĩ thuật định lượng
Phân tích cluster sẽ có hiệu quả tốt nếu như người nghiên cứu thực hiệnđược trong 1 cluster chứa các đối tượng có quan hệ mật thiết và giống nhau(homogenous), và nhóm cluster này và nhóm cluster khác thì có sự phân biệt, có sựkhác biệt (herogenous)
Trong thực tế, phân tích Cluster được ứng dụng rất nhiều trong các lĩnhvực :nghiên cứu hành vi, xã hội, tâm lí, kinh doanh :
- Trong kinh doanh : Trong nghiên cứu thị trường, phân tích cụm được sửdụng để phân đoạn thị trường và xác định thị trường mục tiêu…
- Trong sinh học : Trong biểu diễn dữ liệu gene dùng để nhóm các mẫu gengiống nhau, nhóm các mẫu khác nhau trên các hồ sơ tương ứng
- Sức khỏe tâm lí : Phân tích cụm được sử dụng để xác định các nhóm củangười dân mà có thể được hưởng lợi từ các dịch vụ y tế
- Marketing : cluster giúp nhận diện các phân khúc thị trường, tìm hiểu hành
vi khách hang, nhận dạng các cơ hội cho sản phẩm mới hay lựa chọn thịtrường để thử nghiệm các chiến lược khác nhau…
Trang 32. Kiểm định Cluster.
2.1. Các bước tiến hành
Bước 1 : Xác định vấn đề nghiên cứu.
Thước đo khoảng cách cho biết mức độ giống nhau của các đối tượng đượcphân cụm (khoảng cách ngắn thì đối tượng sẽ giống nhau nhiều hơn) Các cụmđược tạo thành phải được giải thích trên cơ sở các biến được sử dụng phân cụm.Chọn lựa các biến để phân cụm, nên chọn tập hợp biến có khả năng mô tảđược sự giống nhau giữa các đối tượng theo mục đích nghiên cứu
Các biến này có thể được chọn trên cơ sở phân tích lý thuyết, kết quả nghiêncứu trong quá khứ, hay xem xét các giả thuyết có liên quan để được kiểm định
Bước 2 :Chọn thước đo khoảng cách (Squared Euclidean distance)
- Khoảng cách Euclid bình phương
Căn bậc 2 của tổng các độ lệch bình phương của các giá trị trên từng biếncủa 2 đối tượng
- Phân cụm thứ bậc (hierarchical clustering) :
Phân cụm thứ bậc là thủ tục được xây dựng theo một cấu trúc thứ bậcdạng hình cây Tiến hành theo cách tích tụ lại (agglomerative) hay phânchia ra (divisive)
o Phân cụm phân chia: phân chia một cụm duy nhất chứa tất cả đốitượng thành các cụm nhỏ cho đến khi mỗi đối tượng là một cụmriêng
o Phân cụm tích tụ: tích tụ mỗi cụm là một đối tượng riêng lẽ chođến khi tất cả các đối tượng nằm trong một cụm duy nhất
Các phương pháp phân cụm tích tụ dựa vào các khoảng cách liên kết
o Phương pháp khoảng cách liên kết đơn dựa vào khoảng cách gần
B1: Nhập 2 đối tượng này vào 1 cụmB2: Khoảng cách ít thứ nhì Nhập tiếp đối tượng thứ 3 vào 1 đối
Trang 4tượng khác(hay 1 cụm) Nếu là cụm này với cụm khác thì dựa vàokhoảng cách đơn của 1đối tượng trong cụm này với cụm khác là
B3: Làm cho đến khi tất cả đều nằm trong 1 cụm lớn duy nhất
o Phương pháp khoảng cách liên kết hoàn toàn: giống khoảng cáchliên kết đơn, nhưng dựa vào khoảng cách xa nhất giữa 2 đối tượng.B1: Nhập 2 đối tượng này vào 1 cụmB2: Khoảng cách xa thứ nhì Nhập tiếp đối tượng thứ 3 vào 1 đốitượng khác (hay 1 cụm) Nếu là cụm này với cụm khác thì dựa vàokhoảng cách đơn của 1 đối tượng trong cụm này với cụm khác là
B3: Làm cho đến khi tất cả đều nằm trong 1 cụm lớn duy nhất
o Phương pháp khoảng cách liên kết trung bình: khoảng cách giữahai cụm là khoảng cách trung bình của tất cả các cặp phần tử giữahai cụm => phổ biến hơn 2 cách trên
Phương pháp phân cụm tích tụ dựa vào phương sai theo thủ tục Ward(Ward’s method)
o Tính giá trị trung bình tất cả các biến cho từng cụm một
o Tính khoảng cách Euclid bình phương giữa các phần tử trongcụmvới trị trung bình của cụm
o Tổng tất cả các khoảng cách bình phương
Phương pháp phân cụm tích tụ dựa vào khoảng cách trung tâm
o Cứ mỗi lần các đối tượng được nhóm lại thì phải tính lại các trungtâm cụm Trung tâm của cụm được tính bằng cách lấy trung bìnhcủa tất cả các biến Khi tạo ra được 1 cụm mới thì tính lại trungtâm của cụm lần nữa
Trong số các phương pháp phân tích cụm tích tụ thì phương phápkhoảng cách trung tâm và thủ tục Ward đã được chứng minh là cókết quả tốt hơn các phương pháp khác
Đọc bảng :
o Dendrogram
Trang 5Vị trí của đường kẻ dọc trên thang đo rescaled distance cluster combine cho biếtkhoảng cách giữa các cụm khi được nhập với nhau.
Ta đọc từ phải sang trái, đặt thanh dọc ở vị trí 15 ta phân tích thành 3 cụm :
o Vertical Icicle
Trang 6Nhìn dạng sơ đồ cột, ta đọc từ dưới lên trên Cột có tô màu đại diện cho cụm, còncột khoảng trắng đại diện cho sự tách biệt giữa các cụm Các con số trên đầu bảngcase cho biết đối tượng nào được nhóm với đối tượng nào Các dòng cho biết sốcụm được gom từ dưới lên
Nhìn hình, đặt thanh ngang ở vị trí số 10, ta phân thành 10 cụm :
Stage
Cluster CombinedCluster 1
Trang 8- Phân tích cụm không thứ bậc (K-Means Cluster)
Phương pháp bắt đầu tuần tự (sequential threshold): quá trình bắt đầu từmột hạt giống cụm được chọn và tất cả các đối tượng cách hạt giống nàytrong một khoảng cách đã được định trước sẽ nhập vào cụm này
Phương pháp bắt đầu song song (parallel threshold): tương tự nhưphương pháp ở trên nhưng có nhiều hạt giống được chọn và quá trìnhđược tiến hành song song
Phương pháp phân chia tối ưu (optimizing partitioning): thủ tục này khácvới hai phương pháp trên ở chỗ các đối tượng sau khi phân vào một cụmnào đó sẽ có thể được phân lại vào cụm khác để thỏa một tiêu chuẩn tối
Sau đó, cụm và các trung tâm cụm của kết quả này được sử dụnglàm thôngtin ban đầu để áp dụng phương pháp phân chia tối ưu
Đọc bảng :
• Cluster MembershipCluster Membership
Trang 9Number Cluster
Distance
Cột 1 : quan sát, cột 2 : Cụm mà quan sát được phân vào
Bảng Cluster Membership trong K-means cho thấy từng quan sát thuộc về cụm nào
và khoảng cách giữa từng quan sát với trung tâm của nó
Dòng 1 : Quan sát 1 được phân vào cụm 3, khoảng cách giữa quan sát 1 và trungtâm của nó là 1.414
• Distance between Final Cluster CentersDistances between Final Cluster Centers
Trang 10• AnovaANOVA
MeanSquare df
MeanSquare df
ket hop mua sam voi an uong 31.392 2 833 17 37.670 000tim mua nhung gi dang mua
khong quan tam viec di mua
co the tiet kiem nhieu khi so
Trang 11H0 : Sự khác biệt giữa các cụm chỉ mang tính ngẫu nhiên ( nghĩa là giữa các cụm này khôngkhác biệt nhau)
H1 : Sự khác biệt giữa các cụm này không mang tính tự nhiên ( nghĩa là giữa các cụm nàykhác biệt nhau)
Sig ( Có bn sig thì có bấy nhiêu H0, có bấy nhiêu kết luận ) = P-Value
P-value < : bỏ H0, chấp nhận H1 ( phân cụm được)
Cụm 2 : đi mua sắm là không vui
Cụm 3 : đi mua sắm là vui
Cluster
mua + Tiết kiệm
Trang 12 Chia dữ liệu ra làm 2 phần =>thực hiện phân tích cụm riêng cho mỗi tập dữ liệu con
=> so sánh các trung bình cụm giữa 2 tập dữ liệu con này
Bỏ bớt một vài biến => thực hiện phân tích cụm trên tập hợp các biến còn lại => sosánh kết quả này với kết quả khi sử dụng hết các biến cần thiết
Thực hiện phân tích cụm không thứ bậc nhiều lần với nhiều thứ tự khác nhau => kếtquả ổn định
II. Phương pháp phân tích nhân tố khám phá EFA
1. Các tham số thống kê trong phân tích nhân tố
Bartlett’s test of sphericity: đại lượng Bartlett là một đại lượng thống kê dùng để
xem xét giả thuyết các biến không có tương quan trong tổng thể
Correlation matrix: cho biết hệ số tương quan giữa tất các cặp biến trong phân
tích
Communality: là lượng biến thiên của một biến được giải thích chung với các
biến khác được xem xét trong phân tích
Eigenvalue: đại diện cho phần biến thiên được giải thích bởi mỗi nhân tố.
Factor loadings (hệ số tải nhân tố): là những hệ số tương quan đơn giữa các biến
và các nhân tố
Factor matrix (ma trận nhân tố): chứa các hệ số tải nhân tố của tất cả các biến
đối với các nhân tố được rút ra
Factor scores: là các điểm số nhân tố tổng hợp được ước lượng cho từng quan sát
trên các nhân tố được rút ra Còn được gọi là nhân số
KMO: là chỉ số để xem xét sự thích hợp của phân tích nhân tố, nếu KMO lớn hơn
hoặc bằng 0.5 là điều kiện đủ để phân tích nhân tố là thích hợp
Percentage of variance: phần trăm phương sai toàn bộ được giải thích bởi từng
nhân tố Nghĩa là coi biến thiên là 100% thù giá trị này cho biết phân tích nhân tố
cô đọng được bao nhiêu % và bị thất thoát bao nhiêu %
Residuals: là chênh lệch giữa các hệ số tương quan trong ma trận tương quan đầu
vào và các hệ số tương quan sau khi phân tích được ước lượng từ ma trận nhân tố
2. Nội dung, đặc điểm và ứng dụng
Trang 13Phương pháp phân tích nhân tố EFA thuộc nhóm phân tích đa biến phụ thuộc lẫnnhau (interdependence techniques), nghĩa là không có biến phụ thuộc và biến độclập mà nó dựa vào mối tương quan giữa các biến với nhau (interrelationships).EFA dùng để rút gọn một tập k biến quan sát thành một tập F (F<k) các nhân tố có
ý nghĩa hơn Cơ sở của việc rút gọn này dựa vào mối quan hệ tuyến tính của cácnhân tố với các biến nguyên thủy (biến quan sát X)
Khác với hồi quy bội, 1 biến được xem là biến phụ thuộc và các biến khác được
Phân tích nhân tố khám phá (EFA) không có sự phân biệt này EFA là 1 kỹ thuậtphụ thuộc lẫn nhau (interdependence technique) trong đó, toàn bộ các mối liên hệphụ thuộc lẫn nhau sẽ được nghiên cứu
Ứng dụng :
Trong kinh doanh, EFA được ứng dụng trong các trường hợp:Phân tích nhân tố có thể được sử dụng trong phân khúc thị trường để nhận ra cácbiến quan trọng dùng để phân nhóm người tiêu dùng Những người mua xe có thểđược nhóm theo sự chú trọng tượng đối về kinh tế, tiện nghi, tính năng, và sangtrọng
Và kết quả là có 4 phân khúc: những khách hàng tìm kiếm tính kinh tế, nhữngkhách hàng tìm kiếm tiện nghi, những khách hàng tìm kiếm tính năng và nhữngkhách hàng tìm kiếm sự sang trọng
Trong nghiên cứu sản phẩm, ta có thể sử dụng phân tích nhân tố để xác định cácthuộc tính nhãn hiệu có ảnh hưởng đến sự lựa chọn của người tiêu dùng, Ví dụ nhưcác nhãn hiệu kem đánh răng có thể được đánh giá theo khả năng bảo vệ chống sâurăng, trắng răng, mùi vị, hơi thở thơm tho, và giá cả
Trong nghiên cứu quảng cáo, phân tích nhân tố có thể dùng để hiểu thói quen sửdụng phương tiện truyền thông của thị trường mục tiêu
Trong nghiên cứu định giá, ta có thể sử dụng phân tích nhân tố để nhận ra các đặctrưng của những người nhạy cảm với giá Ví dụ những người tiêu dùng nhạy cảmvới giá có thể là những người có tính ngăn nắp, có suy nghĩ tiết kiệm và thường ởtrong nhà nhiều hơn là đi ra ngoài
3. Mô hình phân tích nhân tố
Mô hình nhân tố được thể hiện bằng phương trình:
Trang 14Xi = Ai1F1 + Ai2 F2 + Ai3 F3 + + AimFm + ViUi
Trong đó:
Xi : biến thứ i chuẩn hóa
Ai1 : hệ số hồi quy bội chuẩn hóa của nhân tố j đối với biến i
F : các nhân tố chung
Vi : hệ số hồi quy chuẩn hóa của nhân tố đặc trưng i đối với biến i
Ui : nhân tố đặc trưng của biến i
VẬY TỪ KMO VÀ BARTLETT CÓ THỂ KẾT LUẬN BẢNG THIẾT
KẾ CÂU HỎI VÀ DATA PHÙ HỢP ĐỂ THỰC HIỆN PHƯƠNGPHÁP EFA
Nhược điểm : Khi quy mô mẫu lớn n > 200 , có nhiều khả năng
sẽ có nhiều nhân tố thỏa mãn mức ý nghĩa thống kê Tuy nhiên, thật ra có
được một phần nhỏ của toàn bộ biến thiên
5. Mô hình hồi quy OLS
Trang 15Y : Biến phụ thuộc
Yi : Giá trị cụ thể của biến phụ thuộc
X : Biến độc lập
Xi : Giá trị cụ thể của biến độc lập
Ui : Sai số ngẫu nhiên ứng với quan sát thứ i
β1 : Tung độ gốc của hàm hồi quy tổng thể, là giá trị trung bình của biến phụthuộc Y khi biến độc lập X nhận giá trị bằng 0
β2 : Độ dốc của hàm hồi quy tổng thể , là lượng thay đổi trung bình của Y khi Xthay đổi 1 đơn vị
6. TIẾN HÀNH PHÂN TÍCH NHÂN TỐ KHÁM PHÁ
Nhóm chúng em sẽ thực hiện bài tập kiểm định với sự loại bỏ đi 15 quan sát từ 95đến 109
6.1 Kiểm tra sự tương quan giữa các mục hỏi và tính toán Cronbach Alpha
_ Mục đích: Kiểm tra xem mục hỏi nào có đóng góp cho việc lí giải một kháiniệm, lý thuyết mà ta đang nghiên cứu và xét xem những mục hỏi nào không lýgiải cho một khái niệm, lý thuyết mà ta đang nghiên cứu
_ Hệ số α của Cronbach là 1 phép kiểm định thống kê thể hiện mức độ chặt chặtchẽ mà các mục hỏi trong thang đo tương quan với nhau
_ Công thức của hệ số Cronbach α là:
_ Lưu ý: Cronbach Alpha không phải là 1 kiểm định thống kê, nó chỉ là một hệ sốtin cậy
Lưu ý kí hiệu: Cronbach Alpha = CrAl
_ Kết quả khi thực hiện chạy dữ liệu để tính CrAl sẽ cho ra những bảng kết quảsau:
Trang 16Reliability Statistics
Cronbach's
Alpha
N ofItems
Theo bang Reliability Statistics, ta có CrAl = 0.914 > 0.600, nên các item tươngquan với nhau
6.2 Đánh giá độ tương quan giữa các item trong cùng 1 nhân tố ( Factor )
_ Đánh giá độ tương quan giữa các item trong Factor Work :
Reliability Statistics
Cronbach's
Alpha
N ofItems
Trang 17Theo bang Reliability Statistics, ta có CrAl = 0.421 < 0.600, nên các item ít tươngquan với nhau chặt chẽ, nên ta sẽ dùng bảng Item-Total Statistics để loại bỏ đinhững item xấu, nhằm làm cho các item còn lại tương quan chặt chẽ với nhau hơn.Item-Total Statistics
Scale Mean
if Item
Deleted
ScaleVariance ifItem
Deleted
CorrectedItem-TotalCorrelation
Cronbach'sAlpha ifItem
_ Nhìn bản Item-Total Statistics ta thấy :
Khi loại bỏ item env1 thì các item còn lại tương quan với nhau với hệ số CrAl =0.307
Khi loại bỏ item env2 thì các item còn lại tương quan với nhau với hệ số CrAl =0.321
Khi loại bỏ item env3 thì các item còn lại tương quan với nhau với hệ số CrAl =0.408
Khi loại bỏ item env4 thì các item còn lại tương quan với nhau với hệ số CrAl =0.330
_ Ở đây ta thấy, không thể bỏ đi bất kỳ item env nào làm cho hệ số CrAl mới lớnhơn hoặc bằng 0.600 nên nhóm chọn loại bỏ cả 4 item env này, vì chúng có thể làmbài phân tích cồng kềnh và phức tạp thêm
_ Vậy Factor này sẽ không được dùng ở các phân tích kiểm định sau
_ Đánh giá độ tương quan giữa các item trong Factor Cow :
Reliability Statistics
Cronbach's
Alpha
N ofItems
Trang 18Reliability Statistics
Cronbach's
Alpha
N ofItems
_ Thường ta sẽ chọn Factor Loading lớn hơn hoặc bằng 0.500
Rotated Component Matrixa
Trang 19Extraction Method: Principal Component Analysis
Rotation Method: Varimax with Kaiser Normalization
a Rotation converged in 9 iterations
Theo bảng Rolated Component Matix ( với hệ số Factor Loading được hiện thị
lớn hơn 0.300 ) Ta thấy có 2 item :
• Sup2 xấp xĩ 0.5 ở Factor 1 và nhỏ hơn 0.5 ở Factor 2
• Sup1 thì nhỏ hơn 0.5 ở cả 2 Factor 1 và 6
_ Nên ta sẽ chọn loại bỏ Sup1 trước vì ta sẽ ưu tiên loại những items tương quanvới Factor kém nhất trước
Chạy lại mô hình khi không có Sup1 :
Rotated Component Matrixa
Trang 20Extraction Method: Principal Component Analysis
Rotation Method: Varimax with Kaiser Normalization
a Rotation converged in 7 iterations
Theo bảng Rolated Component Matix ta thấy, item Sup2 có hệ số Factor loading <0.5 ở cả 2 Factor 1 và 2, nên ta loại tiếp item Sup2 và chạy lại mô hình
Chạy lại mô hình khi không có Sup2 :
Rotated Component Matrixa