ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KÊĐỒ ÁN KHOA HỌC DỮ LIỆU ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÂN TÍCH VIỆC RỜI ĐI HOẶC KHÔNG CỦA NHÂN VIÊN TRONG VÒNG 2 NĂM TỚI... Nhưng vì nhiều lý do
Trang 1ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KÊ
ĐỒ ÁN KHOA HỌC DỮ LIỆU
ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÂN TÍCH VIỆC RỜI
ĐI HOẶC KHÔNG CỦA NHÂN VIÊN TRONG VÒNG 2 NĂM TỚI
Trang 2L ỜI CẢM ƠN
B ộ môn Khoa học dữ liệu là một bộ môn không mấy thích thú với chúng em, nhưng qua quá trình h ọc, chúng em cũng đã dần nhận ra được vai trò quan trọng của Khoa
h ọc dữ liệu trong thời đại công nghệ số ngày nay Bộ môn đã trang bị cho chúng em
nh ững kiến thức nền tảng và cơ bản nhất để chúng em có thể tự tìm tòi hoặc học sâu hơn về kiến thức chuyên ngành Khoa học dữ liệu trong tương lai
Nhóm chúng em xin chân thành gửi lời cảm ơn đến thầy Nguyễn Mạnh Tuấn, giảng viên đảm nhiệm bộ môn Khoa học dữ liệu của nhóm em Dù chỉ tiếp xúc ngắn với nhau qua vài buổi học nhưng chúng em thật sự cảm thấy quý mến tấm lòng, sự nhiệt tình trong việc giảng dạy của thầy Nhóm em xin kính chúc thầy thật nhiều sức khỏe
và sẽ luôn đạt được những thành công, những mong đợi của bản thân trên con đường giảng dạy
Xin chân thành cảm ơn thầy!
Nhóm 9
Trang 3M ỤC LỤC
CHƯƠNG 1: TỔNG QUAN 6
I Lý do ch ọn đề tài 6
II M ục tiêu nghiên cứu 6
1 M ục tiêu tổng quát 6
2 M ục tiêu cụ thể 6
III Đối tượng nghiên cứu 6
1 Gi ới thiệu, mô tả dữ liệu 6
1.2 Ti ền xử lý 8
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 8
1 BÀI TOÁN 1: PHÁT HI ỆN ĐIỂM ĐẶC THÙ CỦA DỮ LIỆU 8
1.1 Mô t ả bài toán 8
1.2 Ch ạy mô hình và kết quả 8
1.3 K ết luận thông qua các kết quả đạt được 14
2 BÀI TOÁN 2: D Ự ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG TY HAY KHÔNG 15
2.1 Mô t ả bài toán 15
2.2 Xây d ựng mô hình 15
2.3 Đánh giá và kết quả 16
3 BÀI TOÁN 3: PHÂN C ỤM/ NHÓM NHÂN VIÊN LỰA CHỌN RỜI KH ỎI CÔNG TY 18
3.1 Mô t ả bài toán 18
3.2 Xây d ựng mô hình 19
3.3 Đánh giá và kết luận 20
CHƯƠNG 3: KẾT LUẬN 27
DANH M ỤC THAM KHẢO 29
Trang 4DANH M ỤC HÌNH ẢNH
Hình 1 Ti ền xử lý dữ liệu
Hình 2 Mô hình phân l ớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở công
ty trong hai năm tới hay không
Hình 3 K ết quả Logistic Regression
Hình 9 Kết quả Silhouette Plot
Hình 10 Phân bố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng
Hình 11 Phân bố nhóm nhân viên rời đi theo Trình độ học vấn
Hình 12 Phân bố nhóm nhân viên rời đi theo Giới tính
Hình 13 Phân bố nhóm nhân viên rời đi theo Đã từng ở trạng thái dự bị
Hình 14 Phân bố nhóm nhân viên rời đi theo Năm gia nhập công ty
Hình 15 Phân b ố nhóm nhân viên rời đi theo Bậc lương
Hình 16 Phân b ố nhóm nhân viên rời đi theo Tuổi
Hình 17 K ết quả của Feature Statistic
Trang 5DANH M ỤC BIỂU ĐỒ
Bi ểu đồ 1 Trình độ học vấn
Bi ểu đồ 2 Năm gia nhập công ty
Bi ểu đồ 3 Thành phố nơi đặt văn phòng
Trang 6Mức độ liên quan đến chuyên ngành: Không liên quan
CHƯƠNG 1: TỔNG QUAN
I Lý do ch ọn đề tài
Tài sản lớn nhất mà một công ty có được không phải là tiền mặt, chứng khoán, lợi thế thương mại hoặc mạng lưới khách hàng , mà đó chính là đội ngũ nhân viên Các nhân viên trong công ty làm việc để mở đường cho sự thành công của công ty và tất cả các quản trị cần thiết để điều hành công ty Nhưng vì nhiều lý do nhân viên không hài lòng với công việc hoặc công ty mà họ đang làm việc và điều này có xu hướng hoặc kết quả là họ rời bỏ công ty hoặc tìm kiếm một công ty mới Đó là một trong những khó khăn quan trọng nhất
mà chủ sở hữu công ty phải đối mặt khi tổ chức của họ mất đi những nhân viên xuất sắc Một nhân viên giỏi luôn là tài sản quý giá của công ty, và sự rời đi của họ có thể dẫn đến nhiều vấn đề khác nhau, bao gồm tổn thất tài chính, hiệu suất tổng thể kém và mất tích lũy chuyên môn Hơn nữa, so với đào tạo, nâng cao tay nghề, chuyên môn của nhân viên hiện
tại, việc tuyển dụng nhân sự mới gây ra những chi phí tốn kém, mất thời gian đáng kể và đôi khi không đạt được hiệu quả như mong muốn
Vì thế, nhóm nghiên cứu chúng em muốn cung cấp một hệ thống để dự đoán một nhân viên
sẽ ở lại hay rời bỏ công ty trong tương lai trong vòng 2 năm tới thông qua nhiều yếu tố Nhóm nghiên cứu hy vọng thông qua bài phân tích dữ liệu mà nhóm thực hiện sẽ trả lời được một số câu hỏi về việc làm thế nào các yếu tố mục đích ảnh hưởng đến sự tiêu hao của nhân viên và xác định nguyên nhân góp phần vào quyết định của người lao động để rời khỏi một công ty Từ đó, những kết quả từ nghiên cứu có thể giúp doanh nghiệp, công ty kịp thời đưa ra những chính sách, biện pháp để giảm thiểu tối đa việc các nhân viên có chuyên môn, tay nghề cao rời bỏ công ty
II M ục tiêu nghiên cứu
1 M ục tiêu tổng quát
Phân tích, xác định được các đặc điểm đặc trưng của một nhân viên có ý định rời khỏi công
ty để kịp thời đưa ra các chính sách, giải pháp, những đề nghị mới để có thể hạn chế tối đa việc thiếu hụt nhân lực
2 M ục tiêu cụ thể
Bài toán 1: Phát hiện điểm đặc thù của dữ liệu
Bài toán 2: Dự đoán khả năng nhân viên sẽ rời bỏ công ty hay không
Bài toán 3: Phân cụm/ nhóm nhân viên có khả năng cao sẽ rời đi khỏi công ty
III Đối tượng nghiên cứu
1 Gi ới thiệu, mô tả dữ liệu
Nguồn dữ liệu được lấy từ Kaggle Đây là bộ dữ liệu từ bộ phận HR của một công ty muốn
dự đoán xem trong vòng 2 năm tới, một nhân viên sẽ chọn rời đi hay ở lại công ty thông
Trang 7qua những thông tin, đặc điểm của nhân viên mà công ty thu thập được
https://www.kaggle.com/datasets/tejashvi14/employee-future-prediction?fbclid=IwAR1o5LdmenJYFwStRSmBUwORQnmbexxbRgfzlPnlQbJ9z5RxVDqXwFXC7qA
Dữ liệu gồm: 4653 dòng (đối tượng) và 9 cột thuộc tính như sau:
STT Tên bi ến Mô t ả biến Ki ểu dữ liệu
1 Trình độ học vấn Cử Nhân, Thạc sĩ, Tiến sĩ Trình độ học vấn: String
2 Năm Gia Nhập Công Ty Năm tham gia công ty:
Integer
5 Tuổi Tuổi tác của nhân viên: Từ 22 đến 41 tuổi Integer
6 Giới Tính Giới tính nhân viên: _Nam
_1 = Nhân viên s ẽ rời công
ty trong 2 năm tới
_0 = Nhân viên s ẽ không rời công ty trong 2 năm tới
Integer
Trang 8B ảng 1 Phân tích thông tin dữ liệu
_Phân tách dữ liệu (để phù hợp với cấu hình hiện tại của laptop): Từ file dữ liệu gốc, nhóm
sử dụng chức năng Data Sample để tách dữ liệu thành 2 file riêng biệt như sau: 25 phần trăm (%) dữ liệu từ dữ liệu gốc được tách ra thành dữ liệu để huấn luyện mô hình phân lớp (Employee_Training), 5 phần trăm (%) từ dữ liệu còn lại để làm dữ liệu báo cáo cho mô hình (Employee_Forecast)
Hình 1 Ti ền xử lý dữ liệu
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
1.1 Mô t ả bài toán
_Sử dụng các hàm thống kê thông dụng, công cụ, lược đồ, biểu đồ của Excel để phát hiện các điểm đặc thù của dữ liệu
1.2 Ch ạy mô hình và kết quả
• Trình độ học vấn
Trang 9Bi ểu đồ 1 Trình độ học vấn
Dựa vào biểu đồ ta có thể thấy có sự tương đồng giữa trình độ Cử Nhân và Tiến Sĩ với việc Rời Đi hay Ở Lại công ty trong 2 năm, số lượng nhân viên ở lại gấp hơn 2 lần số lượng nhân viên rời đi trong khi đó ở trình độ Thạc Sĩ thì lượng nhân viên lại xấp xỉ nhau Số lượng nhân viên rời đi nhiều nhất là ở bậc Cử Nhân, có thể là do họ muốn tìm
cơ hội việc làm tốt hơn ở thi trường
0 500 1000 1500 2000 2500 3000
Trang 10• Năm gia nhập công ty
Bi ểu đồ 2 Năm gia nhập công ty
Số lượng nhân viên rời đi hay ở lại trong các năm không ổn định, lên xuống liên tục nhưng đa phần số lượng rời đi lớn hơn rất nhiều so với số lương ở lại (Ngoại trừ năm
2018 chỉ có 5 nhân viên rời đi) Điều này có nghĩa là dù gia nhập trong năm nào thì nhân viên vẫn có thể đưa ra quyết định rời đi hay ở lại
• Thành phố
Bi ểu đồ 3 Thành phố nơi đặt văn phòng
Tỷ lệ rời đi và ở lại của Bangalore và New Delhi đều tương tự nhau ở mức hơn gấp đôi trong khi đó tại Pune thì tỷ lệ này lại bằng nhau Có thể do lý giải cho tỷ lệ này như sau:
0 100 200 300 400 500 600 700 800 900
NĂM GIA NHẬP CÔNG TY
0 200 400 600 800 1000 1200 1400 1600 1800
Trang 11Tại 3 thành phố thì Bangalore có dân cư và diện tích lớn nhất nên số lượng nhân viên lựa chọn ở lại là nhiều nhất trong khi Pune thì lại có diện tích và lượng người dân không bằng 2 nơi còn lại nên nhân viên đắn đo giữa việc rời đi hay ở lại
• Bậc lương
Bi ểu đồ 4 Bậc lương
Ở mức lương bậc 3 (Thấp nhất) có tỷ lệ nhân viên ở lại là cao nhất trong khi đó tại bậc 2 (Trung bình) tỷ lệ nhân viên rời đi cao hơn gần 2 lần so với ở lại và tại mức lương bậc 1 (Cao nhất) thì lượng nhân viên ở lại cao hơn hẳn rời đi Có thể thấy rằng ở mức lương 1
và 3 nhân viên muốn có sự ổn định về tài chính nhiều hơn nên chọn ở lại và tại mức lương 2 nhân viên cảm thấy giá trị năng lực làm việc của mình còn hơn thế nữa nên quyết định rời đi
0 500 1000 1500 2000 2500 3000
Trang 12• Tuổi
Bi ểu đồ 5 Độ tuổi
Có đặc điểm chung ở cả 4 nhóm tuổi đó là tỷ lệ nhân viên chọn ở lại cao hơn nhiều so với rời đi Nhìn chung thì ở độ tuổi nào cũng mong muốn sự ổn định trong công việc nhưng vẫn có một số ngoại lệ muốn thử thách bản thân ở nhũng công việc mới nên chọn rời đi
• Giới tính
Bi ểu đồ 6 Giới tính
Có sự khác biệt rõ rệt giữa nhóm nam và nhóm nữ Ở nữ tỷ lệ rời đi hay ở lại xấp xỉ nhau,
có thể là do nữ giới thường nhạy cảm hơn so với nam giới về môi trường làm việc, văn hóa nơi công sở, mức độ thăng tiến trong công việc… Trong khi đó nam giới thì lại đơn giản hơn là họ có sức chịu đựng mạnh hơn nữ giới hoặc cũng có thể là họ cảm thấy đủ điều kiện để phát huy năng lực bản thân tại đây
0 200 400 600 800 1000 1200 1400
Trang 13• Đã từng ở trạng thái dự bị
Bi ều đồ 7 Đã từng ở trạng thái dự bị
Đa số nhân viên chưa từng ở trạng thái dự bị sẽ lựa chọn ở lại trong khi những nhân viên
đã ở trạng thái dự bị thì với họ việc rời đi hay ở lại là như nhau nên mới có tỷ lệ rời đi hoặc ở lại là xấp xỉ những người chưa từng ở trạng thấy dự bị sẽ không thấy được nguy
cơ của bản thân nên đa phần lựa chọn ở lại Ngược lại những người từng ở trạng thái dự
bị cảm thấy được nguy cơ của bản thân nên phân vân giữa quyết định tiếp tục ở lại hay tìm kiếm cơ hội việc làm mới
• Kinh nghiệm trong lĩnh vực hiện tại
Bi ểu đồ 8 Kinh nghiệm trong lĩnh vực hiện tại
0 500 1000 1500 2000 2500 3000
Trang 14Điểm tương đồng dễ dàng thấy được trong biểu đồ này đó là tỷ lệ nhân viên ở lại đều cao hơn xấp xỉ 2 lần so với lượng nhân viên rời đi Tỷ lệ rời đi ở các năm cũng tăng giảm không đồng đều cho thấy tuy nhân viên ở lại tuy nhiều nhưng cũng có một bộ phận do có
thể cảm thấy không phù hợp với công việc hay có định hướng khác trong cuộc sống nên muốn thử sức ở lĩnh vực khác
• Rời đi hoặc ở lại
Bi ểu đồ 9 Tỷ lệ quyết định rời đi hay ở lại
Tỷ lệ rời đi chiếm 1/3 và tỷ lệ ở lại chiếm 2/3 trong tổng số nhân viên cho thấy công ty vẫn
có thể giữ chân nhân viên và nếu công ty thay đổi các chế độ như tiền thưởng, môi
trường, văn hóa… thì chắc chắn tỷ lệ nhân viên ở lại sẽ tăng thêm
1.3 K ết luận thông qua các kết quả đạt được
K ẾT LUẬN VỀ BÀI TOÁN 1:
Thông qua các hàm thống kê và các lượt đồ, ta thấy rằng những nhân viên có ý định rời công ty đa số là Cử Nhân, gia nhập công ty vào năm 2015, 2017-2018, làm việc tại văn phòng Bangalore, Pune, có mức lương 3, độ tuổi từ 22-31, giới tính nữ, chưa từng ở trạng thái dự bị, kinh nghiệm trong lĩnh vực hiện tại 2 năm,…
Thông qua các đặc thù, đặc trưng cơ bản này thì có thể giúp cho đơn vị biết được nhân viên nào rời đi hay có quyết định rời đi trong 2 năm nhanh hơn Tỷ lệ nhân viên rời đi hay ở lại không chỉ phụ thuộc vào một yếu tố riêng lẻ nào mà nó phụ thuộc vào tất cả các dữ liệu được đưa ra Ngoài ra còn có những tác động của ngoại cảnh mà dữ liệu không thể thu thập
được Dữ liệu có trong bài chỉ mang tính chất đặc trưng
66%
34%
RỜI ĐI HAY Ở LẠI
Ở Lại Rời Đi
Trang 152 BÀI TOÁN 2: D Ự ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG
TY HAY KHÔNG
2.1 Mô t ả bài toán
Bước 1: Chọn dữ liệu File “Employee_Training” và chọn cột “Rời đi hoặc ở lại” làm Target
Bước 2: Mở File “Data” → Nối File và 3 phương pháp SVM, Neural Network và Logistic Regression với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn
Bước 3: Liên kết phương pháp tốt nhất và File “Employee_Forecast” với Predictions để
đánh giá và phân loại dữ liệu đầu vào
Bước 4: Xuất kết quả dự báo qua Data Table, nhận xét và đánh giá
2.2 Xây d ựng mô hình
Hình 2 Mô hình phân l ớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở
công ty trong hai năm tới hay không
Trang 162.3 Đánh giá và kết quả
2.3.1 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:
Hình 3 K ết quả Logistic Regression
Hình 4 K ết quả SVM
Trang 17Hình 5 K ết quả Tree Sai l ầm loại 2: Dự đoán là không có người rời đi nhưng thực tế là họ rời đi vì nhiều lý do
như không hài lòng với chính sách làm việc hiện tại, bất mãn với cấp trên, … Nếu sai lầm này càng nhiều thì công ty khó đưa ra các giải pháp kịp thời nhằm giải quyết các vấn đề giữa nhân viên và công ty, từ đó có thể khiến công ty rơi vào tình trạng thiếu nguồn nhân
lực trầm trọng
Tree = 125 < SVM = 172 < LR = 229
→ Sai lâm loại 2 của phương pháp Tree = 125 là nhỏ nhất trong ba phương pháp trên
⇒ Sử dụng phương pháp Tree và không cần xét đến Test and Score
2.3.2 K ết quả dự báo
Trang 18Hình 6 K ết quả dự báo nhân viên sẽ rời đi hay ở lại trong vòng 2 năm tới của
công ty
K ẾT LUẬN VỀ BÀI TOÁN 2:
_Theo bảng đánh giá kết quả, ma trận nhầm lẫn của phương pháp Tree có sai lầm loại 2
bằng 125 là nhỏ nhất trong ba phương pháp: Logistics Regression, SVM, Tree
_Việc mà nhân viên rời khỏi công ty là điều không thể tránh khỏi đối với công ty mà họ đang làm việc bởi họ bất mãn về những chính sách mà công ty đề ra Tuy nhiên, thông qua kết quả dự báo, chúng ta có thể biết được vấn đề về nguồn nhân lược mà công ty gặp phải và đề ra những biện pháp để giảm thiểu việc các nhân viên rời bỏ công ty một cách
tối ưu nhất có thể
CÔNG TY
3.1 Mô t ả bài toán
Bước 1: Chọn file “Employee.xlsx” và để tất cả các biến đều là Feature
Bước 2: Sử dụng chức năng Select Rows, chọn ra các nhân viên có quyết định rời khỏi công ty
Trang 19Bước 3: Dùng phương pháp K-means, thực hiện phân làm từ 2 đến 7 nhóm, xem xét phân làm bao nhiêu cụm thì tối ưu nhất
Bước 4: Dùng Silhouette Plot để minh họa dữ liệu Dữ liệu từ Silhouette được minh họa trên Data table
Bước 5: Tìm đặc điểm của các nhóm nhân viên rời đi
Bước 6: Đánh giá và kết luận
3.2 Xây d ựng mô hình
Hình 7 Xây d ựng mô hình phân cụm số nhân viên có quyết định rời khỏi công ty
Hình 8 K ết quả phương pháp K-means
⇒Nên chọn phân tách thành 2 nhóm vì chỉ số Silhouette score của 2 nhóm tiến gần đến 1
Trang 20Hình 9 K ết quả Silhouette Plot
3.3 Đánh giá và kết luận
Từ các kết quả của Distribution, ta có thể thấy:
Hình 10: Phân b ố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng
_Các nhân viên rời đi ở 2 nhóm chủ yếu tập trung ở Bangalore đối với nhóm C2 và ở Puneđối với nhóm C1 Cụ thể là nhân viên thuộc nhóm C2 ở văn phòng Bangalore là hơn
500 nhân viên và nhân viên thuộc nhóm C1 ở Pune hơn 400 nhân viên
Trang 21_Đồng thời số nhân viên thuộc 2 nhóm C1, C2 còn phân bố với số lượng vừa và nhỏ ở các thành phố khác, cụ thể:
• Nhân viên thuộc nhóm C1 tại văn phòng Bangalore ít hơn 100 nhân viên, tại văn phòngNew Delhi khoảng 100-200 nhân viên
• Nhân viên thuộc nhóm C2 tại văn phòng New Delhi với số lượng khoảng 200 người
và ở Pune với số lượng gần bằng ở New Delhi
Hình 11: Phân b ố nhóm nhân viên rời đi theo Trình độ học vấn
Đối với thuộc tính Trình độ học vấn, các nhân viên rời đi ở nhóm C2 và C1 chủ yếu là
Cử nhân
_Đối với bậc Thạc Sĩ:
• Khoảng 100-200 người ở nhóm C1 và hơn 200 người ở nhóm C2 muốn rời đi _Đối với bậc Tiến Sĩ: dưới 100 nhân viên thuộc nhóm C1, C2 muốn rời đi