BÁO CÁO BÀI TẬP LỚN PHÂN TÍCH NGHIỆP VỤ THÔNG MINH ĐỀ TÀI DỰ ĐOÁN KHẢ NĂNG NGHỈ VIỆC CỦA NHÂN VIÊN TRONG CÔNG TY

Mô hình Gradient BoostingĐặc điểm: • Boosting là một quá trình tuần tự, không thể xử lý song song Thời gian train tương đối lâu • Sau mỗi vòng lặp, error có thể giảm theo cấp số nhân •

Trang 2

BÁO CÁO BÀI TẬP LỚN PHÂN TÍCH NGHIỆP VỤ THÔNG MINH

Trang 3

ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG NGHỈ

VIỆC

CỦA NHÂN VIÊN TRONG CÔNG TY

Giáo viên hướng dẫn: TS Nguyễn Bình Minh

Sinh viên thực hiện: Nguyễn Hoàng

Nguyễn Đức Thắng 2019417

0 Phạm Văn Nam 2018359

8

Trang 4

1 Giới thiệu đề tài

Trang 5

1 Giới thiệu đề tài

Nhân viên nghỉ việc là một vấn đề

gây nhiều hao tổn cho công ty

Theo thống kê, các công ty thường

phải trả khoảng 1/5 tiền lương để

thay thế một nhân viên

Nắm bắt được tại sao và khi nào

nhân viên có khả năng nghỉ việc

cao có thể giúp nhà quản lý đưa ra

các phương án hành động phù hợp

Trang 6

2 Mô hình đề xuất

Mô hình sử dụng:

• Mô hình hồi quy tuyến tính

• Mô hình SVM

• Mô hình Gradient Bootsting

• Mô hình rừng ngẫu nhiên

Trang 7

3.1 Mô hình hồi quy tuyến tính

3.2 Support Vector Machine - SVM 3.3 Mô hình Gradient Boosting

3.4 Rừng ngẫu nhiên

3 Cơ sở lý thuyết

Trang 8

Mục tiêu: Tìm một ánh xạ từ

không gian dữ liệu đầu vào sang

không gian dữ liệu nhãn đầu ra:

hay

Với hồi quy tuyến tính thì là

một hàm tuyến tính

•

Trang 9

Giả sử : vector hàng của input data

vector cột trọng số cần tìm

nhãn dữ liệu đầu ra

Khi đó hàm có dạng:

•

Trang 10

Hàm mất mát:

• L1 – Least absolute deviations:

• L2 – Least absolute deviations:

•

Trang 11

3.2 Support Vector Machine - SVM

SVM là thuật toán thuộc nhóm

Supervised Learning

Mục tiêu: Tìm ra một siêu phẳng trong

không gian N chiều chia dữ liệu thành

hai phần tương ứng với lớp của nó

Tối ưu trong SVM: Siêu phẳng tìm

được phải có lề cực đại, khoảng cách

tới các điểm của hai lớp là lớn nhất

Trang 12

Giả sử:

• Các cặp dữ liệu của training set:

• và thể hiện đầu vào và nhãn của điểm dữ liệu

• với điểm thuộc class 1, với điểm thuộc class 2

Cần tìm một siêu phẳng có phương trình

•

Trang 13

Khoảng cách từ điểm bất kỳ tới mặt phân chia:

Margin là khoảng cách gần nhất từ một điểm tới mặt đó:

•

Trang 14

Bài toán tối ưu SVM là tìm và sao cho margin cực đại:

Nếu bài toán thỏa mãn tiêu chuẩn Slater, nghiệm của bài toán chính là nghiệm của hệ điều kiện KKT

•

Trang 15

3.3 Mô hình Gradient Boosting

Là một mô hình tạo ra một loạt

các mô hình phân loại yếu

Mô hình sinh ra sau sẽ được học

để hạn chế các sai lầm của mô

hình sinh ra trước

Gồm 2 loại Boosting: Adaptive

Boosting và Gradient Boosting

Trang 16

Đặc điểm:

• Boosting là một quá trình tuần tự, không thể xử lý song song Thời gian train tương đối lâu

• Sau mỗi vòng lặp, error có thể giảm theo cấp số nhân

• Boosting sẽ hoạt động tốt nếu base learner không quá phức tạp cũng như error không thay đổi quá nhanh

• Boosting giúp giảm giá trị bias cho các model base learner

•

Trang 17

Mô hình Boosting được phát biểu bằng bài toán tối ưu sau:

Trang 18

Công thức cập nhật tham số theo hướng giảm của đạo hàm:

Áp dụng tương tự cho phương pháp Gradient Boosting:

•

Trang 19

Trang 20

Cây quyết định là một cây phân cấp có cấu trúc được dùng

để phân lớp các đối tượng dựa vào dãy các luật

Trang 21

Rừng ngẫu nhiên là một thuật toán học máy có giám sát, sử dụng các cây quyết định làm nền tảng

Trang 23

4.1 Giới thiệu về bộ dữ liệu

4.2 Phân tích bộ dữ liệu

4.3 Tiền xử lý dữ liệu

4.4 Kết quả

4 Kết quả thực nghiệm

Trang 24

4.1 Giới thiệu về bộ dữ liệu

File csv gồm 1470 điểm dữ liệu, công bố trên cuộc thi Kaggle:

https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset

Chứa thông tin về các nhân viên làm việc cho công ty gồm: bằng cấp, mức độ hài lòng với môi trường, công việc, lương,

…

Mục tiêu của cuộc thi yêu cầu cần dự đoán chính xác một nhân viên của công ty có quyết định nghỉ việc hay không

Trang 25

Bộ dữ liệu gồm 1470 dòng và 35 cột, tương ứng với 1470 bản ghi và 35 trường:

Trang 26

Thống kê về số giá trị duy nhất của từng cột:

Trang 27

Biểu đồ phân phối số tuổi của nhân viên:

Trang 28

Một số biểu đồ phân phối khác:

Trang 29

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo giới tính:

Trang 30

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo tình trạng hôn nhân:

Trang 31

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo sự cân bằng giữa công việc và cuộc sống:

Trang 32

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo sự hài lòng về môi trường làm việc:

Trang 33

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo sự hài lòng về công việc:

Trang 34

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo thứ bậc công việc:

Trang 35

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo tần suất đi công tác:

Trang 36

Biểu đồ số nhân viên nghỉ và không nghỉ việc theo các ban chuyên môn:

Trang 37

Loại bỏ đi các trường ‘StandardHours’ ‘EmployeeCount’,

‘EmployeeNumber’, ‘MonthlyRate’, ‘Over18’ do có quá nhiều hoặc quá ít giá trị khác nhau

Thêm cột TotalSatisfaction có ý nghĩa là tổng cộng các mức

độ hài lòng của một nhân viên

TotalSatisfation là tổng các cột: ‘EnvironmentSatisfaction’,

‘JobInvolvement’, ‘JobSatisfaction’, ‘RelationshipSatisfaction’,

‘WorkLifeBalance’

Trang 40

Visualize ma trận tương quan giữa các cột sau khi mã hóa:

Trang 41

 Từ biểu đồ ta thấy có thể bỏ đi một số cột do tương quan rất cao với một hay nhiều cột khác:

• Bỏ ‘Education’ do tương quan rất cao với ‘EducationYear’

• Bỏ ‘YearsInCurrentRole’ do tương quan rất cao với ‘YearsAtCompany’

• Bỏ ‘Department_1’ do tương quan rất cao với ‘Department_2’

• Bỏ ‘JobLevel’ do tương quan rất cao với ‘MonthlyIncome’

Trang 44

Kết quả cho thấy mô hình Gradient Boosting với việc lọc bỏ

dữ liệu dư thừa cho kết quả tốt nhất

Trong tương lai, nhóm sẽ tiếp tục cải thiện mô hình bằng cách thử nghiệm mô hình hồi quy dựa trên XGBoost

Trang 45

THANK YOU

!

Tiêu đề	Dự Đoán Khả Năng Nghỉ Việc Của Nhân Viên Trong Công Ty
Tác giả	Nguyễn Hoàng Thuận, Nguyễn Đức Thắng, Phạm Văn Nam, Chu Thành Đô
Người hướng dẫn	TS. Nguyễn Bình Minh
Trường học	Trường Đại Học
Thể loại	báo cáo
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	45
Dung lượng	2,46 MB