1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đồ án khoa học dữ liệu ứng dụng khoa học dữ liệu vào phân tích việc rời đi hoặc không của nhân viên trong vòng 2 năm tới

29 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đồ Án Khoa Học Dữ Liệu Ứng Dụng Khoa Học Dữ Liệu Vào Phân Tích Việc Rời Đi Hoặc Không Của Nhân Viên Trong Vòng 2 Năm Tới
Tác giả Trần Thị Quỳnh Mai, Lê Thảo Na, Lê Nguyễn Ngọc Trâm, Trần Huyền Anh, Nguyễn Ngọc Đăng Vy
Người hướng dẫn ThS. Nguyễn Mạnh Tuấn
Trường học Trường Công Nghệ Và Thiết Kế Khoa Công Nghệ Thông Tin Kinh Doanh - Đại Học UEH
Chuyên ngành Khoa học dữ liệu
Thể loại đề án khoa học dữ liệu
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 29
Dung lượng 1,42 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KÊĐỒ ÁN KHOA HỌC DỮ LIỆU ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÂN TÍCH VIỆC RỜI ĐI HOẶC KHÔNG CỦA NHÂN VIÊN TRONG VÒNG 2 NĂM TỚI... Nhưng vì nhiều lý do

Trang 1

ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KÊ

ĐỒ ÁN KHOA HỌC DỮ LIỆU

ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÂN TÍCH VIỆC RỜI

ĐI HOẶC KHÔNG CỦA NHÂN VIÊN TRONG VÒNG 2 NĂM TỚI

Trang 2

L ỜI CẢM ƠN

B ộ môn Khoa học dữ liệu là một bộ môn không mấy thích thú với chúng em, nhưng qua quá trình h ọc, chúng em cũng đã dần nhận ra được vai trò quan trọng của Khoa

h ọc dữ liệu trong thời đại công nghệ số ngày nay Bộ môn đã trang bị cho chúng em

nh ững kiến thức nền tảng và cơ bản nhất để chúng em có thể tự tìm tòi hoặc học sâu hơn về kiến thức chuyên ngành Khoa học dữ liệu trong tương lai

Nhóm chúng em xin chân thành gửi lời cảm ơn đến thầy Nguyễn Mạnh Tuấn, giảng viên đảm nhiệm bộ môn Khoa học dữ liệu của nhóm em Dù chỉ tiếp xúc ngắn với nhau qua vài buổi học nhưng chúng em thật sự cảm thấy quý mến tấm lòng, sự nhiệt tình trong việc giảng dạy của thầy Nhóm em xin kính chúc thầy thật nhiều sức khỏe

và sẽ luôn đạt được những thành công, những mong đợi của bản thân trên con đường giảng dạy

Xin chân thành cảm ơn thầy!

Nhóm 9

Trang 3

M ỤC LỤC

CHƯƠNG 1: TỔNG QUAN 6

I Lý do ch ọn đề tài 6

II M ục tiêu nghiên cứu 6

1 M ục tiêu tổng quát 6

2 M ục tiêu cụ thể 6

III Đối tượng nghiên cứu 6

1 Gi ới thiệu, mô tả dữ liệu 6

1.2 Ti ền xử lý 8

CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 8

1 BÀI TOÁN 1: PHÁT HI ỆN ĐIỂM ĐẶC THÙ CỦA DỮ LIỆU 8

1.1 Mô t ả bài toán 8

1.2 Ch ạy mô hình và kết quả 8

1.3 K ết luận thông qua các kết quả đạt được 14

2 BÀI TOÁN 2: D Ự ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG TY HAY KHÔNG 15

2.1 Mô t ả bài toán 15

2.2 Xây d ựng mô hình 15

2.3 Đánh giá và kết quả 16

3 BÀI TOÁN 3: PHÂN C ỤM/ NHÓM NHÂN VIÊN LỰA CHỌN RỜI KH ỎI CÔNG TY 18

3.1 Mô t ả bài toán 18

3.2 Xây d ựng mô hình 19

3.3 Đánh giá và kết luận 20

CHƯƠNG 3: KẾT LUẬN 27

DANH M ỤC THAM KHẢO 29

Trang 4

DANH M ỤC HÌNH ẢNH

Hình 1 Ti ền xử lý dữ liệu

Hình 2 Mô hình phân l ớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở công

ty trong hai năm tới hay không

Hình 3 K ết quả Logistic Regression

Hình 9 Kết quả Silhouette Plot

Hình 10 Phân bố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng

Hình 11 Phân bố nhóm nhân viên rời đi theo Trình độ học vấn

Hình 12 Phân bố nhóm nhân viên rời đi theo Giới tính

Hình 13 Phân bố nhóm nhân viên rời đi theo Đã từng ở trạng thái dự bị

Hình 14 Phân bố nhóm nhân viên rời đi theo Năm gia nhập công ty

Hình 15 Phân b ố nhóm nhân viên rời đi theo Bậc lương

Hình 16 Phân b ố nhóm nhân viên rời đi theo Tuổi

Hình 17 K ết quả của Feature Statistic

Trang 5

DANH M ỤC BIỂU ĐỒ

Bi ểu đồ 1 Trình độ học vấn

Bi ểu đồ 2 Năm gia nhập công ty

Bi ểu đồ 3 Thành phố nơi đặt văn phòng

Trang 6

Mức độ liên quan đến chuyên ngành: Không liên quan

CHƯƠNG 1: TỔNG QUAN

I Lý do ch ọn đề tài

Tài sản lớn nhất mà một công ty có được không phải là tiền mặt, chứng khoán, lợi thế thương mại hoặc mạng lưới khách hàng , mà đó chính là đội ngũ nhân viên Các nhân viên trong công ty làm việc để mở đường cho sự thành công của công ty và tất cả các quản trị cần thiết để điều hành công ty Nhưng vì nhiều lý do nhân viên không hài lòng với công việc hoặc công ty mà họ đang làm việc và điều này có xu hướng hoặc kết quả là họ rời bỏ công ty hoặc tìm kiếm một công ty mới Đó là một trong những khó khăn quan trọng nhất

mà chủ sở hữu công ty phải đối mặt khi tổ chức của họ mất đi những nhân viên xuất sắc Một nhân viên giỏi luôn là tài sản quý giá của công ty, và sự rời đi của họ có thể dẫn đến nhiều vấn đề khác nhau, bao gồm tổn thất tài chính, hiệu suất tổng thể kém và mất tích lũy chuyên môn Hơn nữa, so với đào tạo, nâng cao tay nghề, chuyên môn của nhân viên hiện

tại, việc tuyển dụng nhân sự mới gây ra những chi phí tốn kém, mất thời gian đáng kể và đôi khi không đạt được hiệu quả như mong muốn

Vì thế, nhóm nghiên cứu chúng em muốn cung cấp một hệ thống để dự đoán một nhân viên

sẽ ở lại hay rời bỏ công ty trong tương lai trong vòng 2 năm tới thông qua nhiều yếu tố Nhóm nghiên cứu hy vọng thông qua bài phân tích dữ liệu mà nhóm thực hiện sẽ trả lời được một số câu hỏi về việc làm thế nào các yếu tố mục đích ảnh hưởng đến sự tiêu hao của nhân viên và xác định nguyên nhân góp phần vào quyết định của người lao động để rời khỏi một công ty Từ đó, những kết quả từ nghiên cứu có thể giúp doanh nghiệp, công ty kịp thời đưa ra những chính sách, biện pháp để giảm thiểu tối đa việc các nhân viên có chuyên môn, tay nghề cao rời bỏ công ty

II M ục tiêu nghiên cứu

1 M ục tiêu tổng quát

Phân tích, xác định được các đặc điểm đặc trưng của một nhân viên có ý định rời khỏi công

ty để kịp thời đưa ra các chính sách, giải pháp, những đề nghị mới để có thể hạn chế tối đa việc thiếu hụt nhân lực

2 M ục tiêu cụ thể

Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Bài toán 2: Dự đoán khả năng nhân viên sẽ rời bỏ công ty hay không

Bài toán 3: Phân cụm/ nhóm nhân viên có khả năng cao sẽ rời đi khỏi công ty

III Đối tượng nghiên cứu

1 Gi ới thiệu, mô tả dữ liệu

Nguồn dữ liệu được lấy từ Kaggle Đây là bộ dữ liệu từ bộ phận HR của một công ty muốn

dự đoán xem trong vòng 2 năm tới, một nhân viên sẽ chọn rời đi hay ở lại công ty thông

Trang 7

qua những thông tin, đặc điểm của nhân viên mà công ty thu thập được

https://www.kaggle.com/datasets/tejashvi14/employee-future-prediction?fbclid=IwAR1o5LdmenJYFwStRSmBUwORQnmbexxbRgfzlPnlQbJ9z5RxVDqXwFXC7qA

Dữ liệu gồm: 4653 dòng (đối tượng) và 9 cột thuộc tính như sau:

STT Tên bi ến Mô t ả biến Ki ểu dữ liệu

1 Trình độ học vấn Cử Nhân, Thạc sĩ, Tiến sĩ Trình độ học vấn: String

2 Năm Gia Nhập Công Ty Năm tham gia công ty:

Integer

5 Tuổi Tuổi tác của nhân viên: Từ 22 đến 41 tuổi Integer

6 Giới Tính Giới tính nhân viên: _Nam

_1 = Nhân viên s ẽ rời công

ty trong 2 năm tới

_0 = Nhân viên s ẽ không rời công ty trong 2 năm tới

Integer

Trang 8

B ảng 1 Phân tích thông tin dữ liệu

_Phân tách dữ liệu (để phù hợp với cấu hình hiện tại của laptop): Từ file dữ liệu gốc, nhóm

sử dụng chức năng Data Sample để tách dữ liệu thành 2 file riêng biệt như sau: 25 phần trăm (%) dữ liệu từ dữ liệu gốc được tách ra thành dữ liệu để huấn luyện mô hình phân lớp (Employee_Training), 5 phần trăm (%) từ dữ liệu còn lại để làm dữ liệu báo cáo cho mô hình (Employee_Forecast)

Hình 1 Ti ền xử lý dữ liệu

CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ

1.1 Mô t ả bài toán

_Sử dụng các hàm thống kê thông dụng, công cụ, lược đồ, biểu đồ của Excel để phát hiện các điểm đặc thù của dữ liệu

1.2 Ch ạy mô hình và kết quả

• Trình độ học vấn

Trang 9

Bi ểu đồ 1 Trình độ học vấn

Dựa vào biểu đồ ta có thể thấy có sự tương đồng giữa trình độ Cử Nhân và Tiến Sĩ với việc Rời Đi hay Ở Lại công ty trong 2 năm, số lượng nhân viên ở lại gấp hơn 2 lần số lượng nhân viên rời đi trong khi đó ở trình độ Thạc Sĩ thì lượng nhân viên lại xấp xỉ nhau Số lượng nhân viên rời đi nhiều nhất là ở bậc Cử Nhân, có thể là do họ muốn tìm

cơ hội việc làm tốt hơn ở thi trường

0 500 1000 1500 2000 2500 3000

Trang 10

• Năm gia nhập công ty

Bi ểu đồ 2 Năm gia nhập công ty

Số lượng nhân viên rời đi hay ở lại trong các năm không ổn định, lên xuống liên tục nhưng đa phần số lượng rời đi lớn hơn rất nhiều so với số lương ở lại (Ngoại trừ năm

2018 chỉ có 5 nhân viên rời đi) Điều này có nghĩa là dù gia nhập trong năm nào thì nhân viên vẫn có thể đưa ra quyết định rời đi hay ở lại

• Thành phố

Bi ểu đồ 3 Thành phố nơi đặt văn phòng

Tỷ lệ rời đi và ở lại của Bangalore và New Delhi đều tương tự nhau ở mức hơn gấp đôi trong khi đó tại Pune thì tỷ lệ này lại bằng nhau Có thể do lý giải cho tỷ lệ này như sau:

0 100 200 300 400 500 600 700 800 900

NĂM GIA NHẬP CÔNG TY

0 200 400 600 800 1000 1200 1400 1600 1800

Trang 11

Tại 3 thành phố thì Bangalore có dân cư và diện tích lớn nhất nên số lượng nhân viên lựa chọn ở lại là nhiều nhất trong khi Pune thì lại có diện tích và lượng người dân không bằng 2 nơi còn lại nên nhân viên đắn đo giữa việc rời đi hay ở lại

• Bậc lương

Bi ểu đồ 4 Bậc lương

Ở mức lương bậc 3 (Thấp nhất) có tỷ lệ nhân viên ở lại là cao nhất trong khi đó tại bậc 2 (Trung bình) tỷ lệ nhân viên rời đi cao hơn gần 2 lần so với ở lại và tại mức lương bậc 1 (Cao nhất) thì lượng nhân viên ở lại cao hơn hẳn rời đi Có thể thấy rằng ở mức lương 1

và 3 nhân viên muốn có sự ổn định về tài chính nhiều hơn nên chọn ở lại và tại mức lương 2 nhân viên cảm thấy giá trị năng lực làm việc của mình còn hơn thế nữa nên quyết định rời đi

0 500 1000 1500 2000 2500 3000

Trang 12

• Tuổi

Bi ểu đồ 5 Độ tuổi

Có đặc điểm chung ở cả 4 nhóm tuổi đó là tỷ lệ nhân viên chọn ở lại cao hơn nhiều so với rời đi Nhìn chung thì ở độ tuổi nào cũng mong muốn sự ổn định trong công việc nhưng vẫn có một số ngoại lệ muốn thử thách bản thân ở nhũng công việc mới nên chọn rời đi

• Giới tính

Bi ểu đồ 6 Giới tính

Có sự khác biệt rõ rệt giữa nhóm nam và nhóm nữ Ở nữ tỷ lệ rời đi hay ở lại xấp xỉ nhau,

có thể là do nữ giới thường nhạy cảm hơn so với nam giới về môi trường làm việc, văn hóa nơi công sở, mức độ thăng tiến trong công việc… Trong khi đó nam giới thì lại đơn giản hơn là họ có sức chịu đựng mạnh hơn nữ giới hoặc cũng có thể là họ cảm thấy đủ điều kiện để phát huy năng lực bản thân tại đây

0 200 400 600 800 1000 1200 1400

Trang 13

• Đã từng ở trạng thái dự bị

Bi ều đồ 7 Đã từng ở trạng thái dự bị

Đa số nhân viên chưa từng ở trạng thái dự bị sẽ lựa chọn ở lại trong khi những nhân viên

đã ở trạng thái dự bị thì với họ việc rời đi hay ở lại là như nhau nên mới có tỷ lệ rời đi hoặc ở lại là xấp xỉ những người chưa từng ở trạng thấy dự bị sẽ không thấy được nguy

cơ của bản thân nên đa phần lựa chọn ở lại Ngược lại những người từng ở trạng thái dự

bị cảm thấy được nguy cơ của bản thân nên phân vân giữa quyết định tiếp tục ở lại hay tìm kiếm cơ hội việc làm mới

• Kinh nghiệm trong lĩnh vực hiện tại

Bi ểu đồ 8 Kinh nghiệm trong lĩnh vực hiện tại

0 500 1000 1500 2000 2500 3000

Trang 14

Điểm tương đồng dễ dàng thấy được trong biểu đồ này đó là tỷ lệ nhân viên ở lại đều cao hơn xấp xỉ 2 lần so với lượng nhân viên rời đi Tỷ lệ rời đi ở các năm cũng tăng giảm không đồng đều cho thấy tuy nhân viên ở lại tuy nhiều nhưng cũng có một bộ phận do có

thể cảm thấy không phù hợp với công việc hay có định hướng khác trong cuộc sống nên muốn thử sức ở lĩnh vực khác

• Rời đi hoặc ở lại

Bi ểu đồ 9 Tỷ lệ quyết định rời đi hay ở lại

Tỷ lệ rời đi chiếm 1/3 và tỷ lệ ở lại chiếm 2/3 trong tổng số nhân viên cho thấy công ty vẫn

có thể giữ chân nhân viên và nếu công ty thay đổi các chế độ như tiền thưởng, môi

trường, văn hóa… thì chắc chắn tỷ lệ nhân viên ở lại sẽ tăng thêm

1.3 K ết luận thông qua các kết quả đạt được

K ẾT LUẬN VỀ BÀI TOÁN 1:

Thông qua các hàm thống kê và các lượt đồ, ta thấy rằng những nhân viên có ý định rời công ty đa số là Cử Nhân, gia nhập công ty vào năm 2015, 2017-2018, làm việc tại văn phòng Bangalore, Pune, có mức lương 3, độ tuổi từ 22-31, giới tính nữ, chưa từng ở trạng thái dự bị, kinh nghiệm trong lĩnh vực hiện tại 2 năm,…

Thông qua các đặc thù, đặc trưng cơ bản này thì có thể giúp cho đơn vị biết được nhân viên nào rời đi hay có quyết định rời đi trong 2 năm nhanh hơn Tỷ lệ nhân viên rời đi hay ở lại không chỉ phụ thuộc vào một yếu tố riêng lẻ nào mà nó phụ thuộc vào tất cả các dữ liệu được đưa ra Ngoài ra còn có những tác động của ngoại cảnh mà dữ liệu không thể thu thập

được Dữ liệu có trong bài chỉ mang tính chất đặc trưng

66%

34%

RỜI ĐI HAY Ở LẠI

Ở Lại Rời Đi

Trang 15

2 BÀI TOÁN 2: D Ự ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG

TY HAY KHÔNG

2.1 Mô t ả bài toán

Bước 1: Chọn dữ liệu File “Employee_Training” và chọn cột “Rời đi hoặc ở lại” làm Target

Bước 2: Mở File “Data” → Nối File và 3 phương pháp SVM, Neural Network và Logistic Regression với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn

Bước 3: Liên kết phương pháp tốt nhất và File “Employee_Forecast” với Predictions để

đánh giá và phân loại dữ liệu đầu vào

Bước 4: Xuất kết quả dự báo qua Data Table, nhận xét và đánh giá

2.2 Xây d ựng mô hình

Hình 2 Mô hình phân l ớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở

công ty trong hai năm tới hay không

Trang 16

2.3 Đánh giá và kết quả

2.3.1 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:

Hình 3 K ết quả Logistic Regression

Hình 4 K ết quả SVM

Trang 17

Hình 5 K ết quả Tree Sai l ầm loại 2: Dự đoán là không có người rời đi nhưng thực tế là họ rời đi vì nhiều lý do

như không hài lòng với chính sách làm việc hiện tại, bất mãn với cấp trên, … Nếu sai lầm này càng nhiều thì công ty khó đưa ra các giải pháp kịp thời nhằm giải quyết các vấn đề giữa nhân viên và công ty, từ đó có thể khiến công ty rơi vào tình trạng thiếu nguồn nhân

lực trầm trọng

Tree = 125 < SVM = 172 < LR = 229

→ Sai lâm loại 2 của phương pháp Tree = 125 là nhỏ nhất trong ba phương pháp trên

⇒ Sử dụng phương pháp Tree và không cần xét đến Test and Score

2.3.2 K ết quả dự báo

Trang 18

Hình 6 K ết quả dự báo nhân viên sẽ rời đi hay ở lại trong vòng 2 năm tới của

công ty

K ẾT LUẬN VỀ BÀI TOÁN 2:

_Theo bảng đánh giá kết quả, ma trận nhầm lẫn của phương pháp Tree có sai lầm loại 2

bằng 125 là nhỏ nhất trong ba phương pháp: Logistics Regression, SVM, Tree

_Việc mà nhân viên rời khỏi công ty là điều không thể tránh khỏi đối với công ty mà họ đang làm việc bởi họ bất mãn về những chính sách mà công ty đề ra Tuy nhiên, thông qua kết quả dự báo, chúng ta có thể biết được vấn đề về nguồn nhân lược mà công ty gặp phải và đề ra những biện pháp để giảm thiểu việc các nhân viên rời bỏ công ty một cách

tối ưu nhất có thể

CÔNG TY

3.1 Mô t ả bài toán

Bước 1: Chọn file “Employee.xlsx” và để tất cả các biến đều là Feature

Bước 2: Sử dụng chức năng Select Rows, chọn ra các nhân viên có quyết định rời khỏi công ty

Trang 19

Bước 3: Dùng phương pháp K-means, thực hiện phân làm từ 2 đến 7 nhóm, xem xét phân làm bao nhiêu cụm thì tối ưu nhất

Bước 4: Dùng Silhouette Plot để minh họa dữ liệu Dữ liệu từ Silhouette được minh họa trên Data table

Bước 5: Tìm đặc điểm của các nhóm nhân viên rời đi

Bước 6: Đánh giá và kết luận

3.2 Xây d ựng mô hình

Hình 7 Xây d ựng mô hình phân cụm số nhân viên có quyết định rời khỏi công ty

Hình 8 K ết quả phương pháp K-means

⇒Nên chọn phân tách thành 2 nhóm vì chỉ số Silhouette score của 2 nhóm tiến gần đến 1

Trang 20

Hình 9 K ết quả Silhouette Plot

3.3 Đánh giá và kết luận

Từ các kết quả của Distribution, ta có thể thấy:

Hình 10: Phân b ố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng

_Các nhân viên rời đi ở 2 nhóm chủ yếu tập trung ở Bangalore đối với nhóm C2 và ở Puneđối với nhóm C1 Cụ thể là nhân viên thuộc nhóm C2 ở văn phòng Bangalore là hơn

500 nhân viên và nhân viên thuộc nhóm C1 ở Pune hơn 400 nhân viên

Trang 21

_Đồng thời số nhân viên thuộc 2 nhóm C1, C2 còn phân bố với số lượng vừa và nhỏ ở các thành phố khác, cụ thể:

• Nhân viên thuộc nhóm C1 tại văn phòng Bangalore ít hơn 100 nhân viên, tại văn phòngNew Delhi khoảng 100-200 nhân viên

• Nhân viên thuộc nhóm C2 tại văn phòng New Delhi với số lượng khoảng 200 người

và ở Pune với số lượng gần bằng ở New Delhi

Hình 11: Phân b ố nhóm nhân viên rời đi theo Trình độ học vấn

Đối với thuộc tính Trình độ học vấn, các nhân viên rời đi ở nhóm C2 và C1 chủ yếu là

Cử nhân

_Đối với bậc Thạc Sĩ:

• Khoảng 100-200 người ở nhóm C1 và hơn 200 người ở nhóm C2 muốn rời đi _Đối với bậc Tiến Sĩ: dưới 100 nhân viên thuộc nhóm C1, C2 muốn rời đi

Ngày đăng: 22/06/2023, 20:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w