Phân tích bộ dữ liệu từ Kaggle về đánh giá nhân viên tại IBM, bao gồm tổ chức dữ liệu, thống kê mô tả, kiểm định giả thuyết, phương trình hồi quy, phân tích phương sai bằng phần mềm SPSS, Excel, Tableau
Trang 1ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC KINH TẾ
BÀI THI KẾT THÚC HỌC PHẦN
PHÂN TÍCH DỮ LIỆU BẰNG PHẦN MỀM THỐNG KÊ
MÃ HỌC PHẦN: STA3004 Người thực hiện: Nguyễn Thị Trúc Xinh
STT: 115 Lớp: 43k22
Đà Nẵng, ngày 6 tháng 1 năm 2021
Trang 2MỤC LỤC
MỤC LỤC 2
1 TỔ CHỨC DỮ LIỆU 3
1.1 Cách download và lưu trữ dữ liệu 3
1.2 Import dữ liệu vào Tableau, SPSS 5
1.2.1 Import dữ liệu vào Tableau: 5
1.2.2 Import dữ liệu vào SPSS: 6
1.2.3 Thiết kế và chuyển đổi dữ liệu trong SPSS 7
2 THỐNG KÊ MÔ TẢ BẰNG TABLEAU 9
2.1 Mô tả độ tuổi của nhân viên tại IBM 9
2.2 Mô tả mức thu nhập của nhân viên 10
2.3 Mô tả mức độ hài lòng của nhân viên 11
2.4 Mô tả mức thu nhập của nhân viên với mức độ hài lòng công việc 11
3 KIỂM ĐỊNH GIẢ THUYẾT BẰNG SPSS 13
3.1 Kiểm định sự khác biệt trung bình: 13
3.2 Kiểm định sự khác biệt tỉ lệ 14
3.3 Kiểm định tương quan Pearson 16
4 PHÂN TÍCH HỒI QUY 19
4.1 Hồi quy tuyến tính bội (đa biến) 19
4.1.1 Các bước thực hiện 19
4.1.2 Phân tích kết quả 20
4.2 Hồi quy nhị phân 23
4.2.1 Các bước thực hiện 23
4.2.2 Phân tích kết quả 24
5 PHÂN TÍCH PHƯƠNG SAI 25
5.1 Phân tích phương sai 1 yếu tố: 25
5.1 Phân tích phương sai 2 nhân tố: 26
PHỤ LỤC 29
Danh mục hình, biểu đồ, bảng 29
Trang 31 TỔ CHỨC DỮ LIỆU
Dữ liệu tiến hành phân tích là bộ dữ liệu liên quan về nhân viên làm việc tại công ty IBM do các nhà khoa học dữ liệu của IBM tạo ra, nhằm khám phá các yếu tố ảnh hưởng đến hài lòng công việc
1.1 Cách download và lưu trữ dữ liệu
Trang 51.2 Import dữ liệu vào Tableau, SPSS
Dữ liệu gồm có 413 dòng và 21 cột được tiến hành import vào Tableau và SPSS như sau: 1.2.1 Import dữ liệu vào Tableau:
Khởi động phần mềm Tableau Connect to file - MS Excel chọn tên file
Trang 6Hình 7: Màn hình làm việc của Tableau
1.2.2 Import dữ liệu vào SPSS:
Hình 8:
Khởi động phần mềm SPSS File Open Data Chọn file Open
Hình 9: Xuất hiện cửa sổ phạm vi dữ liệu OK
Trang 71.2.3 Thiết kế và chuyển đổi dữ liệu trong SPSS
a Mã hóa biến:
+ Các biến EnvironmentSatisfaction, JobInvolvement, JobSatisfaction, PerformanceRating, RelationshipSatisfaction, WorkLifeBalance: gồm có 4 giá trị: Low, Medium, High, Very high được mã hóa tương tứng là 1, 2, 3, 4
+ Biến BusinessTravel: gồm có 3 giá trị: Non-Travel, Travel_Rarely,
Travel_Frequently được mã hóa tương tứng là 1, 2, 3
+ Biến Department gồm có 3 giá trị: Human Resources, Research & Development,
Sales được mã hóa tương tứng là 1, 2, 3
+ Biến EducationField gồm có 6 giá trị: Human Resources, Life Sciences, Marketing,
Medical, Technical Degree, Other được mã hóa tương tứng là 1, 2, 3, 4, 5, 6
+ Biến Gender gồm có 2 giá trị: Female, Male được mã hóa tương tứng là 0, 1
+ Biến MaritalStatus gồm có 3 giá trị: Single, Married, Divorced được mã hóa tương
tứng là 1, 2, 3
+ Biến OverTime gồm có 2 giá trị: No, Yes được mã hóa tương tứng là 0, 1
Hình 10: Thiết kế dữ liệu ở Variable view
Trang 8Hình 11: Dữ liệu chƣa mã hóa
Hình 12: Dữ liệu đã đƣợc mã hóa
b Kiểm tra missing value bằng cách sử dụng bảng tần số:
Thực hiện: Analys Descriptive Statistics Frequencies Chọn tất cả các biến
Nhấn OK
Hình 13: Tạo bảng tần số
Hình 14: Kiểm tra missing value Nhận xét: Dữ liệu đã đảm bảo điều kiện để tiến hành các phân tích thống kê.
Trang 92 THỐNG KÊ MÔ TẢ BẰNG TABLEAU
2.1 Mô tả độ tuổi của nhân viên tại IBM
B1: Tạo khoảng cách (bước nhảy) cho tuổi là 2 tuổi, ta được một trường mới là
Age(bin)
Kích phải chuột trường Age Create Bin OK
Hình 15: Tạo khoảng cách tuổi
B2: Kéo thả các trường vào hàng, cột để mô tả biểu đồ
Hình 16: Mô tả về tuổi của nhân viên IBM theo phòng ban
Thực hiện: 1 Kéo thả trường Age(bin) vào Columns, kéo trường Age vào Rows rồi kích
phải chuột Measure count
2 Kéo thả trường Department vào ô Color , kéo thả trường Age vào ô Lable rồi kích phải chuột Measure count
3 Kéo thả trường Gender vào ô Filters Kích phải chuột Show filter
2
3
1
Trang 10Hình 17: Mô tả về tuổi của nhân viên IBM theo giới tính
Nhận xét: Độ tuổi chiếm tần số nhiều nhất là từ 28 38 Chiếm nhiều nhất là độ tuổi 34
Số lượng nhân viên của phòng nghiên cứu và phát triển chiếm số lượng lớn nhất,
số lượng ít nhất là phòng nhân sự
Nhân viên Nam chiếm tỉ trọng nhiều hơn nhân viên Nữ
2.2 Mô tả mức thu nhập của nhân viên
Hình 18: Biểu đồ mô tả mức thu thập trung bình theo ngành đào tạo
Thực hiện: 1 Kéo thả trường Overtime vào Columns, MonthlyIncome vào Columns rồi
kích phải chuột Measure Average, kéo trường EducationField vào Rows
2 Kéo thả trường EducationField vào ô Color , kéo thả MonthlyIncome vào
ô Lable rồi kích phải chuột Measure Average
1
2
Trang 11Nhận xét: Theo biểu đồ cho thấy, mức thu nhập trung bình của Marketing là cao nhất, Technical Degree là thấp nhất
Khi nhân viên làm overtime, Marketing và Human Resources đều có thu nhập trung bình cao hơn, riêng Technical Degree và Other có thu nhập trung bình giảm
2.3 Mô tả mức độ hài lòng của nhân viên
Hình 19: Biểu đồ mô tả mức độ hài lòng công việc của nhân viên
Thực hiện: Kéo thả trường JobSatisfaction vào ô Color;
Kéo thả JobSatisfaction vào ô Lable rồi kích phải Measure count
Kéo thả JobSatisfaction vào Angle kích phải Continuous
Kéo thả trường JobSatisfaction vào ô Color;
Nhận xét: Theo biểu đồ cho thấy, mức độ hài lòng về công việc khá cao, mức độ hài lòng thấp chỉ chiếm 20,4 %; mức độ hài lòng cao và rất cao chiếm 59%
2.4 Mô tả mức thu nhập của nhân viên với mức độ hài lòng công việc
Thực hiện:
B1: Thực hiện rời rạc biến MonthlyIncome thành các khoảng giá trị:
<=5000: Low, <=10000: Medium, <=15000 :High, >15000: Very high
Vào Analysis Create calculates field xuất hiện cửa sổ sau:
Trang 12Hình 20: Tạo biến rời rạc Income
B2: Thực hiện kéo thả các trường:
1 Kéo thả JobSatisfaction vào Columns
2 Kéo thả JobSatisfaction vào size kích phải chọn measurecount
Kéo thả JobSatisfaction vào lable kích phải chọn measurecount
Kéo thả JobSatisfaction vào Detail kích phải chọn measurecount
Kéo thả Incomevào lable và Color
3 Vào Analysis percentage of Columns
Hình 21: Mô tả mức thu nhập của nhân viên với mức độ hài lòng công việc Nhận xét: Theo biểu đồ cho thấy, mức thu nhập của nhân viên tăng lên khi mức độ hài
lòng công việc tăng lên Cụ thể, ở mức độ hài lòng công việc là 1, thì tỷ lệ thu nhập Very
high là 4 786%, còn ở mức hài lòng công việc là 4 thì tỷ lệ thu nhập Very high là 9.24%,
tăng gần gấp đôi Tỉ lệ mức thu nhập Medium và high cũng tăng nhẹ, mức thu nhập Low
giảm đáng kể khi mức độ hài lòng công việc tăng lên
Trang 133 KIỂM ĐỊNH GIẢ THUYẾT BẰNG SPSS
3.1 Kiểm định sự khác biệt trung bình:
a Giả thuyết đưa ra:
H0: Thu nhập trung bình của nhân viên từ các phòng ban khác nhau là có sự khác biệt
H1: Thu nhập trung bình của nhân viên từ các phòng ban khác nhau là không có sự khác biệt
b Thực hiện: Do biến Department có 3 giá trị, nên ta sử dụng phương pháp phân tích
OneWay Anova để kiểm định giả thuyết trên
Vào Analysis Compare Means One-Way Anova xuất hiện cửa sổ sau OK
Hình 22: Phương pháp phân tích OneWay Anova
Trang 14Hình 23: Kết qủa phân tích OneWay Anova
a Giả thuyết đƣa ra:
H0: Tỉ lệ nhân viên Nam và Nữ là bằng 0.5
H1: Tỉ lệ nhân viên Nam và Nữ là khác 0.5
b Thực hiện: Sử dụng phương pháp One-Sample T Test để thực hiện kiểm định tỷ lệ
Vào Analysis Compare Means One-Sample T Test xuất hiện cửa sổ, chọn biến Gender, Test value=0.5, độ tin cậy 95% OK
1
2
Trang 15Hình 24: Thực hiện kiểm định tỷ lệ One-Sample T Test
c Giải thích kết quả: Ở bảng One-Sample T Test, Giá trị sig=0.000 < 0.05 nên ta không
có cơ sở để bác bỏ giả thuyết tại mức ý nghĩa 5% Nghĩa là chấp nhận giải thuyết H0, tỷ lệ nhân viên Nam và Nữ là có thể khác nhau
Hình 25: Kết quả kiểm định tỷ lệ One-Sample T Test
Trang 163.3 Kiểm định tương quan Pearson
Để thực hiện kiểm định tương quan Peason, trước hết lựa chọn biến độc lập, và biến phụ thuộc để đưa vào mô hình như sau:
a Giả thuyết đưa ra:
H0: Các biến EnvironmentSatisfaction, RelationshipSatisfaction,
JobInvolvement, MonthlyIncome, PercentSalaryHike, YearsAtCompany có ảnh
hưởng đến biến JobSatisfaction
H1: Các biến EnvironmentSatisfaction, RelationshipSatisfaction,
JobInvolvement, MonthlyIncome, PercentSalaryHike, YearsAtCompany không
có ảnh hưởng đến biến JobSatisfaction
Hình 26: Mô hình Mối quan hệ giữa các biến
Trang 18c Giải thích kết quả:
Correlations
Environment Satisfaction
Relationship Satisfaction
Job Involvement
Monthly Income
PercentSalary Hike
YearsAt Company Environment
** Correlation is significant at the 0.01 level (2-tailed)
* Correlation is significant at the 0.05 level (2-tailed)
Hình 28: Bảng kết quả phân tích tương quan Pearson.
Kết luận :Theo ma trận tương quan, giá trị sig (màu cam) < 0.05 và R (màu xanh) > 0
nghĩa là giữa các biến độc lập với biến phụ thuộc có tương quan tuyến tính thuận; ngoại
trừ biến “Relationship Satisfaction” do có sig > 0.05 Cụ thể, các biến “Environment
Satisfaction”, “JobInvolvement”, “MonthlyIncome” và “PercentSalaryHike” và
“YearsAtCompany” đều có mối tương quan với biến “JobSatisfaction”
Trong đó:
Biến “EnvironmentSatisfaction”, có tương quan tuyến tính yếu với biến phụ thuộc
nhưng mạnh nhất so với các biến còn lại, với hệ số tương quan 0 < R=0.171 <0.50
Biến “YearsAtCompany” có tương quan tuyến tính yếu nhất, với hệ số tương quan
0< R= 0.1< 0.50
Trang 194 PHÂN TÍCH HỒI QUY
4.1 Hồi quy tuyến tính bội (đa biến)
Dựa vào kết quả phân tích tương quan Pearson, đã tìm ra được 5 biến độc lập có mối quan
hệ tuyến tính với biến phụ thuộc đã nêu Vậy mô hình hồi quy sẽ được tiến hành phân tích bao gồm:
5 biến độc lập: “Environment Satisfaction”, “Job Involvement”, “MonthlyIncome”
Trang 202 Đối với hệ số Durbin-Watson bằng 0.105 giá trị này gần bằng 0 cho thấy phần sai số
có tương quan chuỗi bậc nhất với nhau, nghĩa là mô hình được xây dựng không được tốt, mức độ tương quan giữa các biến trong mô hình yếu
3 Tuy nhiên trong bảng ANOVA, Sig < 0.05 nên ta kết luận mô hình hồi quy tuyến tính bội này phù hợp và có thể áp dụng cho cả tổng thể
4 Từ bảng kết quả trên ta thấy biến “YearsAtCompany” có giá trị sig > 0.05 nên biến này không có ý nghĩa với mô hình Do đó biến này sẽ bị loại khỏi mô hình hồi quy
3
4
Trang 21 Tiến hành thực hiện lại mô hình hồi quy với 4 biến độc lập và 1 biến phụ thuộc Kết quả thu được như sau:
Hình 31: Kết quả phân tích hồi quy sau khi loại biến
Giải thích:
1 Với R bình hiệu chỉnh bằng 0.080 ~ 8% cho thấy 4 biến độc lập của mô hình ảnh hưởng đến biến phụ thuộc 8%, còn lại là 92% là do sai số ngẫu nhiên và các biến ngoài
mô hình
2 Đối với hệ số Durbin-Watson bằng 0.104 giá trị này gần bằng 0 cho thấy phần sai số
có tương quan chuỗi bậc nhất với nhau, nghĩa là mô hình được xây dựng không được tốt, mức độ tương quan giữa các biến trong mô hình yếu
3 Tuy nhiên trong bảng ANOVA, Sig < 0.05 nên ta kết luận mô hình hồi quy tuyến tính bội này phù hợp và có thể áp dụng cho cả tổng thể
4 Các giá trị sig đều nhỏ hơn 0.05 cho thấy 4 biến trên đều có ý nghĩa với mô hình
5 Các hệ số Beta chuẩn hóa của mô hình lần lượt 4 yếu tố là 0.162; 0.152; 0.158;
0.098 Trong đó biến “Environment Satisfaction” có hệ số lớn nhất, nghĩa là biến naỳ
Trang 22có ảnh hưởng nhiều nhất đến biến phụ thuộc, ngược lại biến “PercentSalaryHike” có
hệ số Beta nhỏ nhất, nên biến này có ảnh hưởng ít nhất đến biến phụ thuộc
Phương trình hồi quy như sau:
JobSatisfaction = 0.162* Environment Satisfaction + 0.152*Job Involvement +
0.158 * MonthlyIncome + 0.098* PercentSalaryHike
Ngoài ra, biểu đồ P-P Plot cho thấy các điểm tập trung thành một đường chéo (đường kỳ
vọng), như vậy không vi phạm giả định phân phối chuẩn của phần dư Nghĩa là tập dữ liệu
nghiên cứu tốt, phần dư chuẩn hóa không liên hệ gì với biến phụ thuộc
Hình 32: Phần dƣ chuẩn hóa Normal P-P Plot
Trang 234.2 Hồi quy nhị phân
Thực hiện phép phân tích hồi quy nhị nhân để dự đoán khả năng làm thêm giờ của nhân
viên Biến phụ thuộc là Overtime mang 2 giá trị: 0 là không làm thêm giờ, 1 có làm thêm giờ Xét 3 biến gồm: độ tuổi Age, tình trạng hôn nhân MarialStatus, và mức thu nhập
Trang 244.2.2 Phân tích kết quả
Hình 34: Kết quả hồi quy nhị phân
Giải thích : 1 Mô hình có giá trị sig>0.05 nên mô hình hồi quy này không mang ý nghĩa
thống kê, nghĩa là các biến độc lập trên không có ảnh hưởng đến việc làm thêm giờ của nhân viên tại IBM
1
Trang 255 PHÂN TÍCH PHƯƠNG SAI
5.1 Phân tích phương sai 1 yếu tố:
a Giả thuyết đưa ra:
Kiểm tra mức độ tham gia công việc của nhân viên đến từ các phòng ban khác nhau liệu có khác nhau
b Thực hiện: Sử dụng phương pháp phân tích OneWay Anova để kiểm định giả thuyết
trên
Vào Analysis Compare Means One-Way Anova xuất hiện cửa sổ sau OK
Hình 35: Phương pháp phân tích OneWay Anova
Trang 26Hình 36: Kết qủa phân tích OneWay Anova
5.1 Phân tích phương sai 2 nhân tố:
a Giả thuyết đưa ra:
Kiểm tra mối quan hệ giữa giới tính và tình trạng hôn nhân có ảnh hưởng đến mức độ cân bằng cuộc sống cuả nhân viên hay không
b Thực hiện: Sử dụng phương pháp phân tích để kiểm định giả thuyết trên
Vào Analysis General Liner Moder Univariate xuất hiện cửa sổ sau OK
1
2
Trang 27Hình 37: Phương pháp phân tích phương sai 2 nhân tố
c Giải thích kết quả:
Hình 38: Kết quả phân tích phương sai 2 nhân tố
Trang 28 Giá trị Sig Gender 0.981> 0.05 Không có sự khác biệt về mức độ cân bằng cuộc
sống giữa nam và nữ
Giá trị Sig MaritalStatus 0 089 > 0.05 Không có sự khác biệt về mức độ cân
bằng cuộc sống giữa tình trạng hôn nhân
Giá trị Sig sự tương tác giữa Giới tính và Tình trạng hôn nhân 0.705 > 0.05
Sự tương tác giữa giới tính và tình trạng hôn nhân không ảnh hưởng đến Mức độ
cân bằng cuộc sống của nhân viên
-Hết -
Trang 29PHỤ LỤC
Danh mục hình, biểu đồ, bảng
Hình 1: Dữ liệu trên Kaggle.com - 3
Hình 2: Download dữ liệu - 3
Hình 3: Đổi tên và lưu với đuôi xlsx - 4
Hình 4: Dữ liệu được mở bằng MS Execl - 4
Hình 5: Connect dữ liệu từ MS Excel vào Tableau - 5
Hình 6: Connect dữ liệu thành công - 5
Hình 7: Màn hình làm việc của Tableau - 6
Hình 8: Khởi động phần mềm SPSS File Open Data Chọn file Open - 6
Hình 9: Xuất hiện cửa sổ phạm vi dữ liệu OK - 6
Hình 10: Thiết kế dữ liệu ở Variable view - 7
Hình 11: Dữ liệu chưa mã hóa - 8
Hình 12: Dữ liệu đã được mã hóa - 8
Hình 13: Tạo bảng tần số - 8
Hình 14: Kiểm tra missing value - 8
Hình 15: Tạo khoảng cách tuổi - 9
Hình 16: Mô tả về tuổi của nhân viên IBM theo phòng ban - 9
Hình 17: Mô tả về tuổi của nhân viên IBM theo giới tính - 10
Hình 18: Biểu đồ mô tả mức thu thập trung bình theo ngành đào tạo - 10
Hình 19: Biểu đồ mô tả mức độ hài lòng công việc của nhân viên - 11
Hình 20: Tạo biến rời rạc Income - 12
Hình 21: Mô tả mức thu nhập của nhân viên với mức độ hài lòng công việc - 12
Hình 22: Phương pháp phân tích OneWay Anova - 13
Hình 23: Kết qủa phân tích OneWay Anova - 14
Hình 24: Thực hiện kiểm định tỷ lệ One-Sample T Test - 15
Hình 25: Kết quả kiểm định tỷ lệ One-Sample T Test - 15
Hình 26: Mô hình Mối quan hệ giữa các biến - 16
Hình 27: Thực hiện phân tích tương quan Pearson - 17
Hình 28: Bảng kết quả phân tích tương quan Pearson - 18
Hình 29: Tiến hành phân tích hồi quy - 19
Hình 30: Kết quả hồi quy - 20
Hình 31: Kết quả phân tích hồi quy sau khi loại biến - 21
Hình 32: Phần dư chuẩn hóa Normal P-P Plot - 22
Hình 33: Thực hiện Hồi quy nhị phân - 23
Hình 34: Kết quả hồi quy nhị phân - 24
Hình 35: Phương pháp phân tích OneWay Anova - 25
Hình 36: Kết qủa phân tích OneWay Anova - 26
Hình 37: Phương pháp phân tích phương sai 2 nhân tố - 27