GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI
Giới thiệu về Khoa học dữ liệu
1.1.1 Sơ lược về dữ liệu
Dữ liệu là các giá trị thông tin định lượng hoặc định tính liên quan đến các sự vật và hiện tượng trong cuộc sống Trong khoa học dữ liệu, dữ liệu được sử dụng để biểu diễn thông tin về các sự kiện và hiện tượng, phù hợp với yêu cầu truyền tải, thể hiện và xử lý qua máy tính.
Dữ liệu có 2 loại chính là:
- Structured data (Dữ liệu có cấu trúc)
- Unstructured data (Dữ liệu không có cấu trúc)
Dữ liệu là nguồn thông tin không thể thiếu trong lĩnh vực khoa học dữ liệu.
Nó thể hiện các thông tin, sự kiện và thuộc tính của các đối tượng trong thế giới thực hoặc trong một hệ thống
Dữ liệu đóng vai trò thiết yếu trong mọi lĩnh vực, cung cấp thông tin và kiến thức cần thiết cho phân tích, nghiên cứu và ra quyết định Nó không chỉ giúp phát hiện xu hướng mà còn tìm ra mối quan hệ giữa các biến và xây dựng các mô hình dự đoán hiệu quả.
Trong lĩnh vực khoa học dữ liệu (KHDL), dữ liệu đóng vai trò then chốt trong nghiên cứu Khoa học dữ liệu tập trung vào việc thu thập, lưu trữ, xử lý và phân tích dữ liệu nhằm phát hiện thông tin giá trị và các mô hình ẩn Để thực hiện điều này, KHDL thường áp dụng các phương pháp và công cụ như khai phá dữ liệu, học máy, trí tuệ nhân tạo và thống kê để tối ưu hóa việc khám phá và sử dụng dữ liệu.
Trong khoa học dữ liệu, dữ liệu được thu thập từ nhiều nguồn như cơ sở dữ liệu, tệp tin, hệ thống cảm biến, mạng xã hội và các nguồn trực tuyến khác Dữ liệu này thường có kích thước lớn, phức tạp và đa dạng, yêu cầu các phương pháp xử lý và phân tích mạnh mẽ để trích xuất thông tin hữu ích và thực hiện các phân tích sâu sắc.
1.1.2 Khái quát về khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực nghiên cứu và ứng dụng các phương pháp, công cụ và kỹ thuật nhằm trích xuất, xử lý và phân tích dữ liệu Nó kết hợp toán học, thống kê, khoa học máy tính và tri thức kinh doanh để khám phá thông tin ẩn trong dữ liệu, từ đó tạo ra kiến thức hữu ích cho quyết định và dự đoán.
Trong thời đại số hóa, dữ liệu được tạo ra nhanh chóng từ nhiều nguồn như mạng xã hội, cảm biến, máy móc và giao dịch điện tử Khoa học dữ liệu đóng vai trò quan trọng trong việc khám phá, phân tích và hiểu dữ liệu nhằm tạo ra giá trị.
Các bước chính trong quá trình khoa học dữ liệu bao gồm:
(1) Thu thập dữ liệu: Đây là quá trình thu thập dữ liệu từ các nguồn khác nhau như cơ sở dữ liệu, tệp tin, website hoặc API.
Tiền xử lý dữ liệu là bước quan trọng trong phân tích, nhằm làm sạch, chuyển đổi và chuẩn hóa dữ liệu không hoàn hảo, có lỗi, thiếu sót hoặc nhiễu Quá trình này đảm bảo rằng dữ liệu được sử dụng có chất lượng cao và phù hợp cho các phân tích tiếp theo.
Phân tích dữ liệu là quá trình khám phá và hiểu biết về dữ liệu thông qua việc sử dụng các phương pháp thống kê, khai phá dữ liệu và học máy Mục tiêu chính của phân tích dữ liệu là phát hiện các mẫu, xu hướng và thông tin giá trị từ tập dữ liệu.
Dựa trên kết quả phân tích dữ liệu, có thể xây dựng các mô hình dự đoán để đưa ra quyết định hiệu quả Việc này thường bao gồm việc áp dụng các thuật toán máy học, bao gồm học có giám sát, học không giám sát và học tăng cường.
Triển khai và tối ưu hóa mô hình là bước quan trọng sau khi hoàn thành xây dựng Quá trình này không chỉ bao gồm việc áp dụng mô hình vào sản phẩm hoặc quy trình thực tế mà còn yêu cầu kiểm tra và đánh giá hiệu suất Để đạt được kết quả tốt nhất, cần tối ưu hóa các tham số và quy trình liên quan.
Hình 1.1: Hình minh hoà tổng quan các giai đoạn chính của khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực then chốt trong kỷ nguyên số, tập trung vào việc khám phá và phân tích dữ liệu để tạo ra thông tin giá trị Quy trình này bao gồm thu thập, tiền xử lý, phân tích và xây dựng mô hình, giúp phát hiện thông tin tiềm ẩn trong dữ liệu Đồng thời, nó cũng bao gồm các bước làm sạch, chuẩn hóa và tối ưu hóa dữ liệu để đảm bảo tính chính xác và độ tin cậy của kết quả.
1.1.3 Sự phát triển của khoa học dữ liệu
Sự phát triển của khoa học dữ liệu trong thập kỷ qua đã tạo ra nhiều cơ hội và thách thức, đồng thời làm cho cuộc sống trở nên dễ dàng và thuận tiện hơn.
Sự phát triển nhanh chóng của công nghệ tính toán, bao gồm đám mây và xử lý song song, đã nâng cao khả năng tính toán, cho phép xử lý và phân tích dữ liệu lớn một cách hiệu quả và nhanh chóng Điều này giúp xử lý các tập dữ liệu phức tạp và lớn một cách mạnh mẽ hơn.
Mở nguồn dữ liệu: Sự phát triển của Internet, truyền thông xã hội và các
Thiết bị di động đã tạo ra một lượng dữ liệu khổng lồ, tạo điều kiện cho việc phân tích và khai thác thông tin từ các nguồn này Sự mở rộng nguồn dữ liệu công cộng và các dự án dữ liệu mở đã mang lại cơ hội lớn cho sự phát triển của khoa học dữ liệu Tiến bộ trong kỹ thuật và công nghệ đã cải thiện đáng kể các phương pháp trong khoa học dữ liệu, với sự phát triển của các thuật toán học máy và học sâu, cùng với các công cụ phân tích dễ sử dụng, giúp giảm độ phức tạp và thời gian triển khai Khoa học dữ liệu cũng đã thúc đẩy sự phát triển của học máy và trí tuệ nhân tạo, cho phép hệ thống tự học và tự động hóa thông qua việc áp dụng các thuật toán vào phân tích dữ liệu, từ đó tạo ra các ứng dụng thông minh trong nhiều lĩnh vực như xe tự lái, robot hội thoại và chẩn đoán y tế.
Xử lý dữ liệu thời gian thực đã trở thành hiện thực nhờ sự phát triển của khoa học dữ liệu, cho phép phân tích và trích xuất thông tin từ dữ liệu liên tục Sử dụng công nghệ như xử lý dữ liệu đám mây, cơ sở dữ liệu phân tán và hệ thống xử lý phân tán, các ứng dụng theo thời gian thực như giám sát và dự đoán có thể được triển khai hiệu quả.
Giới thiệu về đề tài
1.2.1 Giới thiệu về đề tài
Hiểu và dự đoán Attrition là yếu tố quan trọng trong quản lý nhân sự, vì việc mất nhân sự có thể ảnh hưởng tiêu cực đến tài chính và hoạt động của tổ chức Phân loại và dự đoán Attrition giúp phát hiện các yếu tố tiềm ẩn dẫn đến sự ra đi của nhân viên, từ đó xây dựng các biện pháp giữ chân nhân tài hiệu quả Đề tài "Phân lớp bộ dữ liệu Attrition - Train" tập trung vào việc phân loại và dự đoán tình trạng Attrition trong tổ chức, nơi nhân viên rời bỏ hoặc chấm dứt mối quan hệ làm việc trong một khoảng thời gian nhất định.
Trong bài viết này, chúng ta sẽ sử dụng phần mềm Orange, một công cụ phân tích dữ liệu mạnh mẽ và dễ sử dụng, để phân loại dữ liệu Attrition Quy trình sẽ bao gồm việc thu thập dữ liệu nhân viên, xử lý và tiền xử lý dữ liệu, lựa chọn và áp dụng các thuật toán phân loại, cùng với việc đào tạo mô hình và đánh giá hiệu suất dự đoán.
Hình 1.3: Minh hoạ về Attrition là vấn đề nan giải đặt ra của các doanh nghiệp
1.2.2 Lý do chọn đề tài
Phân lớp bộ dữ liệu Attrition là một chủ đề quan trọng trong quản lý nhân sự và phân tích dữ liệu, giúp dự đoán khả năng giữ chân nhân viên trong tổ chức Chủ đề này mang đến cho sinh viên cơ hội học hỏi các kiến thức và kỹ năng cần thiết trong việc phân loại và dự đoán, từ đó nâng cao khả năng phân tích dữ liệu trong lĩnh vực nhân sự.
Dự án phân loại bộ dữ liệu Attrition yêu cầu sinh viên nghiên cứu và phân tích dữ liệu nhân sự, áp dụng các kỹ thuật phân loại và đánh giá mô hình Qua đó, sinh viên sẽ phát triển kỹ năng làm việc với dữ liệu thực tế và giải quyết các vấn đề phân loại Mặc dù có các nghiên cứu quy mô lớn hơn, nhưng sinh viên sẽ dựa vào kiến thức từ học phần khoa học dữ liệu của UEH để thực hiện bài tập, với mục đích luyện tập và tạo ra sản phẩm phục vụ cho việc tham khảo học tập.
TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
Các phương pháp của Excel dùng để khai thác dữ liệu
Excel là phần mềm bảng tính thuộc bộ Microsoft Office, nổi bật với khả năng tính toán, lưu trữ và quản lý dữ liệu Trong lĩnh vực Khoa học Dữ liệu, Excel đóng vai trò quan trọng trong việc phân tích dự báo, thống kê mô tả và lưu trữ thông tin.
2.1.1 Phương pháp thống kê mô tả a) Thống kê bằng dụng cụ Descriptive Statistics
Bước 1: Chọn bảng số liệu cần thống kê
Bước 2: Nhấn chọn Data Data Analysis Descriptive Statistics, hộp thoại Descriptive Statistics xuất hiện.
Bước 3: Các thông số Input được khai báo, chọn các thông số Output Options.
Ví dụ: Thống kê mô tả cho thịt heo được bán tại siêu thị ABC trong tháng 3
Hình 2.1: Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại
In the Descriptive Statistics dialog box, select the Output Range for the data output and the Input Range for the column containing the meat data Set the Confidence Level for the Mean to 95% This will generate a results table that includes the standard error (SE) and various mean values.
Hình 2.2: Bảng kết quả thống kê bằng công cụ Descriptive Statistics b) Báo cáo tổng hợp nhóm với Subtotal
Bước 1: Chọn cột muốn gom nhóm rồi xếp dữ liệu vào
Bước 2: Nhấp chuột vào ô bất kỳ trên dữ liệu hay chọn toàn bộ
Bước 3: Ta chọn Data Outline Subtotal, hộp thoại Subtotal xuất hiện.
Ví dụ: Thống kê tổng tất cả tiền mỗi một nhân viên
Hình 2.3: Bảng dữ liệu của nhân viên
In the Subtotal dialog box, select the column to group by, which is Salesperson, choose the Sum function for statistical analysis, and specify Order Amount as the value to summarize This process will yield the results shown below.
Hình 2.5: Bảng tổng hợp số tiền mỗi nhân viên thực hiện c) Hợp nhất dữ liệu với Consolidate
Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.
Bước 2: Chọn Data Data Tools Consolidate, xuất hiện hộp thoại Consolidate.
Ví dụ: Hợp nhất doanh thu 3 cửa hàng
Hình 2.6: Doanh thu của cửa hàng số 1
Hình 2.7: Doanh thu của cửa hàng số 2
Hình 2.8: Doanh thu của cửa hàng số 3
In the Consolidate dialog box, select the "Sum" function and specify the reference area where the results will be displayed Ensure that all necessary data from Store 1, Store 2, and Store 3 is included in the "All references" section to obtain the final result.
Hình 2.10: Bảng hợp nhất doanh thu của 3 cửa hàng d) Tổng hợp dữ liệu đa chiều với Pivot Table
Bước 1: Trên cơ sở dữ liệu, chọn bất kỳ ô nào
Bước 2: Nhấp chọn Insert Pivot Table
Bước 3: Một hộp thoại Create PivotTable xuất hiện, chọn nơi chứa Pivot Table và dữ liệu nguồn, click nút Ok
Bước 4: Drag Pivot Table Fields vào 4 khu: FILTERS, ROWS, COLUM, VALUES
Hình 2.11: Tổng hợp dữ liệu đa chiều với Pivot Table
Hình 2.12: Hộp thoại Create Pivot Table
Hình 2.13: Kết quả tổng hợp đa chiều với Pivot Table
2.1.2 Phương pháp về phân tích dự báo a) Phương pháp trung bình trượt ( Moving Average )
Bước 1: Cần có một bảng số liệu để dự báo
Bước 2: Nhấp chọn Data Data Analysis Moving Average, hộp thoại Moving Average xuất hiện
Bước 3: Khai báo Output Options và thông số Input
Ví dụ: Dự báo số liệu bán thịt bò của siêu thị ABC
Hình 2.14: Số liệu bán và hộp thoại Moving Average
Sau khi xác định vùng dữ liệu cần dự báo trong Input Range, hãy chọn số kỳ trước cần ước tính trong Interval; trong ví dụ này, giá trị được chọn là 3, tức là dự báo cho 3 kỳ tiếp theo của số liệu thịt bò Cuối cùng, hãy chỉ định vùng hiển thị kết quả tại ô Output Range Phương pháp sử dụng trong trường hợp này là san bằng mũ.
Bước 1: Ta cần có một bảng số liệu để dự báo
Bước 2: Chọn Data Data Analysis Exponential Smoothing, hộp thoại Exponential Smoothing xuất hiện
Bước 3: Khai báo Output Options và thông số Input
Ví dụ: Dự báo số liệu bán thịt bò của siêu thị ABC có hệ số điều chỉnh bằng 0.3
Hình 2.15: Số liệu bán thịt bò và hộp thoại Exponential Smoothing
The Input Range represents the data column that requires forecasting The Damping Factor is set at a = 0.7, resulting in a correction factor of 0.3 (1-a = 0.3) On the 17th, the amount of beef was recorded at 29.88 kg, utilizing the Regression method for analysis.
*Cách thức hiện bằng đồ thị:
Bước 1: Ta cần có một bảng số liệu để dự báo
Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc lập X
Bước 3: Vẽ đồ thị dạng Scatter
Bước 4: Click chuột phải vào data series, chọn Add Trendline
Bước 5: Tùy chọn hiển thị trong Trendline Options
*Cách thức hiện bằng công cụ Regression:
Bước 1: Ta cần có một bảng số liệu để dự báo
Bước 2: Chọn Data Data Analysis Regression, hộp thoại Regression xuất hiện
Bước 3: Khai báo Output Options và thông số Input
Ví dụ: Tác động của chi phí lên doanh thu
Hình 2.16: Bảng dữ liệu doanh thu-chi phí năm 2016
Hình 2.17: Hộp thoại của Regression
Input Y Range là cột Doanh thu, Input Y Range là cột Chi phí Độ tin cậy hồi quy Confidence Level là 95% Kết quả a = 1.791, b = 3.813
Hình 2.18: Bảng kết quả hồi quy
2.1.3 Phương pháp phân tích tối ưu
*Khảo sát một tình huống như sau:
Người phụ trách dự án nông nghiệp cần xác định số lượng tấn lúa mì và lúa gạo trồng để tối ưu hóa lợi nhuận Việc lựa chọn phương án trồng trọt dựa trên các số liệu cụ thể sẽ giúp đảm bảo hiệu quả kinh tế cho dự án.
Số liệu đầu vào đối với một đơn vị sản phẩm
Loại sản phẩm Khả năng lớn nhất của các nguồn tài nguyên sẵn có
Diện tích đất (ha/tấn) 2 3 50 ha
Nhân công (người/tấn) 15 12 250 người
Bảng 2.1: Bảng tóm tắt bài toán tối đa hóa lợi nhuận
Các bước lập mô hình:
Bước 1: Biến quyết định được định
Gọi x2, x1 lần lượt là lượng lúa mì, lúa gạo ( tấn ) phải sản xuất Bước 2: Hàm mục tiêu được xác định Để tối đa hóa lợi nhuận, ta có:
P= P (lúa mì) + P (lúa gạo) = 36x1 + 42x2 MAX
Bước 3: Hệ ràng buộc được xác định
Ràng buộc về nguồn tài nguyên:
*Sử dụng công cụ SOLVER để giải mô hình kinh tế
Bước 1: Thiết lập bảng tính
Hình 2.19: Thiết lập bảng tính
Giả sử biến x1 và x2 bằng 1, hãy nhập các hệ ràng buộc tương ứng về diện tích, mức lương và nhân công Sau đó, sử dụng hàm SUMPRODUCT để tính toán các giá trị ở phía trái dựa trên các biến khởi tạo.
Bước 2: Chọn lệnh Data Analysis Solver
Hình 2.20: Hộp thoại Solver Parameters
Để tối đa hóa lợi nhuận, nhập ô chứa hàm mục tiêu Set Objectives là ô E5 với giá trị tối đa Nhập các ô biến quyết định C4 và D4 trong phần "By changing Variable Cells" Để thiết lập các ràng buộc, nhấn nút Add trong mục "Subject to the Constraints".
Bước 3: Nhấn nút Solve để giải mô hình, chọn Sensitivity và nhấn OK để xem kết quả
Hình 2.21: Kết quả tính lợi nhuận tối đa
Ta được lợi nhuận tối đa là 378 đô la để thỏa mãn các điều kiện ràng buộc
Phần mềm Orange
2.2.1 Tổng quan về phần mềm Orange
Orange là hệ điều hành dựa trên Linux, thuộc dòng Minimal X của OpenSUSE, được thiết kế cho kiến thức x86 (32-bit) và tương thích với bộ vi xử lý Intel và AMD Nền tảng này hỗ trợ xây dựng các đường ống học máy thông qua giao diện đồ họa người dùng (GUI), giúp người dùng không có kỹ năng lập trình dễ dàng thực hiện các nhiệm vụ từ chuẩn bị dữ liệu đến đánh giá mô hình mà không cần viết mã Orange là công cụ trực quan lý tưởng cho nghiên cứu thuật toán machine learning và thực hành data mining, cung cấp giải pháp khai thác dữ liệu cho các doanh nghiệp, từ nhỏ đến lớn, nhằm tạo quy trình phân tích và trực quan hóa dữ liệu hiệu quả với các phép chiếu tuyến tính, bản đồ nhiệt, MDS, và cây quyết định.
Orange có các công cụ như:
Visualize: biểu diễn biểu đồ, dữ liệu được quan sát một cách tốt nhất
Model: bao gồm những hàm phân lớp dữ liệu ( Tree, Logictis Regression, SVM, )
Evaluate: đánh giá từng mô hình
Unsupervised: Gom dữ liệu qua các : Distance, K-means,
Add ons: Phân tích mạng xã hội, mở rộng các chức năng nâng cao,
2.2.2 Phương pháp phân cụm dữ liệu a) Định nghĩa Đó là một quá trình gom nhóm/ cụm của các đối dữ liệu/ đối tượng có những điểm giống nhau vào nhóm/ cụm tương ứng
Hình 2.22: Minh họa của phương pháp phân cụm
Hình 2.23 : Mô hình quá trình phân cụm dữ liệu b) Đặc điểm của phân cụm dữ liệu
Tìm, đo sự khác biệt giữa những đối tượng dữ liệu
Vì lí do số nhóm không được biết trước nên đây là một phương pháp học không được giám sát
Một phương pháp phân cụm tạo cụm chất lượng khi:
Bên trong cụm có độ tươg đồng cao
Giữa các cụm có độ tương tự thấp c) Các ứng dụng của phương pháp phân cụm
Nghiên cứu hành vi của người dùng
Ngiên cứu hành vi của khách hàng
Nghiên cứu xu việc chọn dịch vụ, cạnh tranh của những nhà cung cấp
Nghiên cứu tính sản phẩm của dịch vụ
Đánh giá, nhận xét kết quả của hoạt động kinh doanh d) Các phương pháp phân cụm
* Phân cụm phân cấp ( Hierarchical approach )
Là xây dựng cây phân cấp cho dữ liệu cần gom cụm dựa vào:
Ma trận khoảng cách giữa phần tử (similarity matrix or dissimilarity matrix)
Độ đo khoảng cách giữa những cụm (single link, complete link )
Biểu diễn kết quả gom cụm Đánh giá kết quả gom cụm
* Phân cụm phân hoạch ( Partitioning Clustering )
Là phân tập dữ liệu có n phần tử cho trước thành k tập con (k ≤ n), mỗi tập con biểu diễn một cụm
Cụm hình thành qua cơ sở tối ưu hóa giá trị hàm độ đo phân cụm, sao cho:
Mỗi đối tượng thuộc duy nhất 1 cụm, phần tử trong cụm tương tự nhau
Mỗi cụm có ít nhất 1 phần tử.
Một số thuật toán phân cụm tiêu biểu bao gồm Fuzzy C-means, K-mediods và K-means Để đánh giá kết quả phân cụm dữ liệu, có ba phương pháp chính: đánh giá ngoài (external validation) dựa vào cấu trúc phân cụm đã được chỉ định trước; đánh giá nội bộ (internal validation) không sử dụng thông tin bên ngoài, chủ yếu dựa vào các vector chính của dữ liệu qua ma trận xấp xỉ; và đánh giá tương đối (relative validation) so sánh kết quả phân cụm với các bộ trị thông số khác nhau và với kết quả của các phương pháp phân cụm khác.
2.2.3 Phương pháp phân lớp dữ liệu a) Định nghĩa Đó là một quá trình bắt đầu phân một đối tượng của dữ liệu vào một lớp hoặc nhiều lớp đã cho trước nhờ có mô hình phân lớp Nhờ có dữ liệu được gán nhãn trước mà xây dựng được mô hình b) Quá trình phân lớp dữ liệu
Hình 2.24: Mô hình phân lớp
Quá trình phân lớp dữ liệu là quá trình gán nhãn cho đối tượng Có 2 bước:
Bước 2.1: Mô hình được đánh giá
Bước 2.2: Dữ liệu mới được phân lớp c) Các ứng dụng của phương pháp phân lớp trong kinh tế
Dự đoán giá chứng khoán
Xếp hàn, loại tín dụng
Đánh giá những rủi ro tài chính
Dự đoán khách hàng trung thành
Dự đoán kinh tế bị khủng hoảng
Dự đoán cầu cung d) Một số phương pháp phân lớp
Phương pháp hồi quy logistic (Logistic Regression) là một mô hình thống kê được sử dụng để dự đoán xác suất của các giá trị đầu ra rời rạc dựa trên tập hợp các giá trị đầu vào.
Kết quả của phương pháp này là một giá trị nhị phân bất kỳ.
Hình 2.25: Minh họa của phương pháp Hồi quy logistic
Phương pháp cây quyết định (Decision Tree) là một công cụ hữu ích trong quản trị, giúp hỗ trợ quá trình ra quyết định thông qua đồ thị thể hiện các quyết định và kết quả liên quan Trong lĩnh vực khai thác dữ liệu, cây quyết định được sử dụng như một phương pháp phân loại, mô tả và tổng quát, nhằm tổ chức và phân loại dữ liệu một cách hiệu quả.
Hình 2.26: Minh họa về mô hình cây quyết định đơn giản Ưu điểm:
Không yêu cầu việc chuẩn hóa dữ liệu
Trên những kiểu dữ liệu khác nhau đều xử lý được
Trong một khoảng thời gian ngắn vẫn giải quyết được lượng dữ liệu lớn
Trong trường hợp dữ liệu phải lệ thuộc thời gian, rất khó giải quyết
Mô hình này có chi phí xây dựng cao
Phương pháp SVM (Support Vector Machine) là một thuật toán giám sát, trong đó dữ liệu được xem như các vector SVM xây dựng một mặt phẳng trong không gian để phân cách và phân loại dữ liệu thành các lớp khác nhau.
Phương pháp đánh giá mô hình phân lớp là cách thức kiểm tra hiệu quả của mô hình dựa trên dữ liệu cụ thể, giúp đưa ra quyết định về việc sử dụng mô hình đó.
Ma trận nhầm lẫn (Confusion Matrix) là công cụ giúp xác định dữ liệu thuộc lớp nào và số lượng điểm dữ liệu trong mỗi lớp cụ thể Ma trận này có kích thước k x k, với k là số lượng lớp của dữ liệu.
Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu acc= ( TP+ n TN) =¿ Error rate=1−acc là độ lỗi của mô hình.
Đường cong ROC (Receiver Operating Characteristic) là một công cụ phổ biến trong việc đánh giá các mô hình Nó thể hiện mối quan hệ giữa tỷ lệ dự báo dương thực tế (TPR) và tỷ lệ dự báo dương giả (FPR) tại các ngưỡng khác nhau, giúp người dùng hiểu rõ hơn về hiệu suất của mô hình.
AUC (Area Under the Curve): là diện tích nằm dưới đường cong ROC Giá trị này (số dương >1) càng lớn thì mô hình càng tốt
Precision (độ chính xác): Chúng ta có thể biết được tỷ lệ bao nhiêu mẫu đúng trong số n mẫu đã được phân vào lớp i
(TP + FP) Recall (độ phủ): còn được gọi là TPR hay độ nhạy
F1-score: trị giá trung bình của hai độ đo Precision và Recall
F 1=2 ( TP+ TP FP × TP TP + FN )
( TP+ TP FP + TP+ TP FN )
* Phương pháp phân chia dữ liệu Hold-out
Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệ nhất định.
Phương pháp trên phù hợp với những tập dữ liệu vừa nhỏ
Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kích thước ( gọi là fold ).
Một số fold được sử dụng làm tập huấn luyện, phần còn lại được sử dụng làm tập dữ liệu đánh giá.
Quá trình trên được lặp đi lặp lại mãi đến khi các fold được dùng làm tập dữ liệu để đánh giá.
ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ
Phân tích dữ liệu Attrition-Train
3.1.1 Tiền xử lý dữ liệu Attrition-Train
Ta tiền xử lý dữ liệu Attrition-Train trên phần mềm Orange
Hình 3.1: Các bước tiến hành xử lý dữ liệu
Nạp dữ liệu Attrition-Train ta mở Datasets chọn Attrition-Train
Hình 3.2: Nạp dữ liệu Attrition-Train vào Datasets
Kết nối Dataset với Data Table để sử dụng dữ liệu quan sát, sau đó nhấp chuột vào Data Table để xem dữ liệu Vì không có dữ liệu thiếu, bước tiền xử lý dữ liệu có thể được bỏ qua.
Hình 3.3: Dữ liệu Attrition-Train trong Data Table
Lưu dữ liệu và xuất dữ liệu ra file Excel mới với tên dữ liệu Attrition- Train.xlsx
3.1.2 Mô tả dữ liệu Attrition-Train
Thông tin dữ liệu Attrition-Train
Khám phá các yếu tố gây ra sự tiêu hao của nhân viên là rất quan trọng Nghiên cứu các câu hỏi như "phân tích khoảng cách từ nhà theo vai trò công việc và sự tiêu hao" hay "so sánh thu nhập trung bình hàng tháng theo trình độ giáo dục và sự tiêu hao" sẽ giúp hiểu rõ hơn về vấn đề này Dữ liệu được sử dụng trong nghiên cứu là bộ dữ liệu hư cấu do các nhà khoa học dữ liệu của IBM tạo ra.
Bảng 3.1 Bảng mô tả biến
2 Business Travel Tần suất đi công tác
3 Department Bộ phận làm việc
4 Distance From Home Khoảng cách từ nhà đến nơi làm việc
5 Education Trình độ học vấn
7 Job level Cấp độ công việc
8 Job Role Vai trò công việc
9 Job Satisfaction Mức độ hài lòng trong công việc
10 Marital Status Tình trạng hôn nhân
11 Monthly Income Thu nhập hàng tháng
12 Overtime Làm việc ngoài giờ
13 Percent Salary Hike Phần trăm tăng lương
14 Performance Rating Đánh giá hiệu quả
15 Stock Option Level Mức quyền chọn cổ phiếu
16 Total Working Years Tổng số năm làm việc
17 Years At Company Số năm làm việc tại công ty
18 Years Since Last Promotion Số năm kể từ lần tăng lương cuối cùng
Bảng 1.3 Bảng mô tả các biến của bộ dữ liệu Attrition-Train
Bằng cách phân tích bộ dữ liệu Attrition - Train, chúng ta có thể dự đoán tình trạng hao mòn nhân lực trong công ty và đánh giá khả năng đào tạo nhân viên thay thế, từ đó đưa ra những kết luận và hướng phát triển phù hợp.
3.1.3 Thống kê mô tả dữ liệu
Tỷ lệ trình độ học vấn của các nhân viên
Hình 3.4: Biểu đồ tỷ lệ phần trăm trình độ học vấn của các nhân viên
Dữ liệu từ bộ Attrition - Train cho thấy trình độ học vấn của 1470 người rất đa dạng Cụ thể, 39% có học vấn trung bình 3.0, 27% có trình độ khá 4.0, trong khi 19% có học vấn thấp 2.0 và 12% ở mức 1.0 Chỉ có 3% người có học vấn giỏi, cho thấy tỷ lệ này khá khiêm tốn trong tổng số.
Hình 3.5: Biểu đồ tình trạng hôn nhân của các nhân viên
Trong tổng số 1470 người khảo sát, 46% đã kết hôn, tương đương với 673 người Tỷ lệ người độc thân là 32%, với 470 người, trong khi đó, số người đã ly hôn chiếm 22%, tức 327 người, cho thấy một con số đáng chú ý.
Hình 3.6: “Hình ảnh biểu đồ khoảng cách địa lý”
Biểu đồ minh họa số lượng nhân viên có khoảng cách từ nhà đến nơi làm việc dưới 35 km, với khoảng cách gần nhất là 12 km Một số ít nhân viên có khoảng cách từ 60 đến 90 km, trong khi có hai trường hợp có khoảng cách xa nhất là 208 km và 211 km.
Hình 3.7: Hình ảnh biểu đồ độ tuổi Độ tuổi của nhân viên trong khoảng từ 31-40 là chiếm số lượng đông nhất là
619 người Nhân viên từ 18-30 với 41-50 có số lượng hơn 300 người Và những nhân viên tron lứa tuổi 51-60 có số lượng ít nhất với 143 người.
Hình 3.8: Hình ảnh biểu đồ giới tính
Qua biểu đồ trên, ta có thể thấy số lượng nhân viên nam chiếm số lượng đông hơn số nhân viên nữ.
Số lần đi công tác của nhân viên
Hình 3.9: Hình ảnh biểu đồ số lần đi công tác
Biểu đồ cho thấy rằng hầu hết nhân viên hiếm khi có cơ hội đi công tác, với chỉ 277 người thường xuyên được cử đi Đặc biệt, có đến 150 người chưa từng được đi công tác.
Mức độ hài lòng trong công việc
Hình 3.10: Hình ảnh biểu đồ mức độ hài lòng với công việc
Mức độ hài lòng với công việc của nhân viên chủ yếu nằm ở mức 3 và 4, trong đó mức 4 chiếm ưu thế Mặc dù có một số lượng đáng kể nhân viên ở mức 1 và 2, nhưng tổng cộng, tỷ lệ hài lòng chưa đạt 50%.
Phân lớp dữ liệu Attrition - Train
Bước 1: Xây dựng mô hình
Sử dụng Data Sampler lấy mẫu dữ liệu
Lấy 30% mẫu đã được tiền xử lý trước đó Sau đó chọn Data Save để lưu thành file Excel tên Du_Lieu_Thu_Nghiem_30%.xlsx
Hình 3.12: Lấy mẫu từ dữ liệu 1
Dữ liệu sau khi lấy mẫu sẽ có 441 quan sát, 18 biến và không có dữ liệu bị lỗi
Tiếp tục sử dụng Data Sampler để lấy mẫu dữ liệu từ File Du_Lieu_Thu_Nghiem_30%.xlsx để phục vụ cho việc phân lớp dữ liệu
Lấy tập dữ liệu huấn luyện
Hình 3.14: Lấy tập dữ liệu huấn luyện
Hình 3.15: Mẫu dữ liệu huấn luyện
Dữ liệu huấn luyện bao gồm 309 quan sát và 18 biến, hoàn toàn không có dữ liệu bị lỗi Sau khi xử lý, hãy chọn Data Save để lưu trữ với tên file là Du_Lieu_Huan_Luyen_30%_70%.
Lấy tập dữ liệu thử nghiệm
Hình 3.16: Lấy mẫu dữ liệu thử nghiệm
In the Fixed sample size option, select 100 random samples from the dataset Du_Lieu_Thu_Nghiem_30%.xlsx Then, choose Sample Data and select DataTable to export the new data.
Hình 3.17: Mẫu dữ liệu mới trên DataTable
Tập dữ liệu mới bao gồm 100 quan sát và 18 biến, hoàn toàn không có dữ liệu bị lỗi Để lưu trữ, hãy chọn Data Save và lưu tập tin với tên Attrition-Train_Forecast.xlsx.
Hình 3.18: Mô hình lấy tập dữ liệu mới
Bước 2: Sử dụng mô hình
Các dữ liệu sau khi lấy mẫu đã đạt và không bị lỗi nên ta bỏ qua bước tiền xử lý dữ liệu
Dùng Test and Score để so sánh và đánh giá các thuật toán từ đó đưa ra thuật toán chính xác nhất, tối ưu nhất cho việc dự báo
Sử dụng tập dữ liệu Du_Lieu_Huan_Luyen_30%_70%.xlsx để dự báo với biến Attrition là biến phụ thuộc (target)
Hình 3.19: Tập dữ liệu huấn luyện
Hình 3.20: Mô hình các thuật toán
Tại bảng Test and Score, chọn chia tỷ lệ mẫu, chọn tỷ lệ lấy mẫu tại Cross Validation hoặc Random Sampling để được chỉ số đẹp nhất
Chọn tỷ lệ lấy mẫu Cross Validation
Hình 3.21: Kết quả chia mẫu dữ liệu thành 5 phần
Hình 3.22: Kết quả chia mẫu dữ liệu thành 10 phần
Chọn tỷ lệ Random Sampling
Hình 3.23: Kết quả khi chia mẫu dữ liệu thành 50- 90%
Hình 3.24: Kết quả khi chia mẫu dữ liệu thành 20-70%
Hình 3.25: Kết quả khi chia mẫu dữ liệu thành 50-66%
Kết quả đánh giá cho thấy mô hình Hồi quy Logistic (Logistic Regression) đạt hiệu suất cao nhất so với SVM (Support Vector Machines) và Cây quyết định (Decision Tree) Qua việc phân tích các chỉ số từ việc chọn ngẫu nhiên, chúng ta nhận thấy rằng phương pháp Hồi quy Logistic khi áp dụng với tỷ lệ chia mẫu dữ liệu từ 50% đến 90% mang lại kết quả tốt nhất.
Giá trị trung bình điều hòa (F1): 81.7% Độ chính xác (Precision): 81.7% Độ phủ (Recall): 82.6%
Diện tích đường cong (AUC): 0.760 là là số liệu tốt nhất trong các trường hợp ngẫu nhiên
Ma trận nhầm lẫn (Confusion Matrix)
Hình 3.26: Kết quả ma trận nhầm lẫn của Hồi quy logistic
Hình 3.27: Kết quả ma trận nhầm lẫn của SVM
Hình 3.28: Kết quả ma trận nhầm lẫn của Cây quyết định
Trong ma trận nhầm lẫn, việc theo dõi tỷ lệ sai lầm loại 1 và loại 2 là rất quan trọng Mô hình tối ưu là mô hình có tỷ lệ sai lầm loại 2 thấp nhất Qua các ví dụ, mô hình hồi quy Logistic cho thấy tỷ lệ sai lầm loại 2 chỉ 12,4% và tỷ lệ sai lầm loại 1 là 71,9% Do đó, hồi quy Logistic được xác định là phương pháp tốt nhất.
Hình 3.29: Đường cong của ROC với biến y là no
Hình 3.30: Đường cong của ROC với biến y là yes
Mô hình có FRP cao và TPR thấp, hoặc đường cong ROC gần tiệm cận với điểm (0;1) trong đồ thị, cho thấy hiệu quả cao Khi so sánh đường cong ROC của biến Attrition, phương pháp Hồi quy Logistic (Logistic Regression) thể hiện đường cong gần tiệm cận với (0;1) nhất, chứng tỏ đây là mô hình hiệu quả nhất.
Kết luận: phương pháp hồi quy Logistic (Logistic Regression) là phương pháp tốt nhất
Phương pháp này có AUC (Area Under the Curve) hay diện tích nằm dưới đường cong ROC lớn nhất suy ra mô hình này tốt nhất
Tính chính xác (CA): cao
Phương pháp này có sai lầm loại 2 và sai lầm loại 1 nhỏ nhất
Phương pháp có đường cong ROC gần tiệm cận với điểm (0;1) nhất
Hình 3.31: Đánh giá mô hình phân lớp dữ liệu 2
Sau khi áp dụng các phương pháp đánh giá mô hình phân lớp, chúng tôi đã quyết định sử dụng Hồi quy Logistic để dự đoán 100 mẫu ngẫu nhiên.
Hình 3.32: Tập dữ liệu thử nghiệm
Sử dụng Prediction để dự báo dữ liệu theo phương pháp Hồi quy Logistic (Logistic Regression)
Hình 3.33: Mô hình dự báo dữ liệu Attrition-Train
Mô hình dự báo 100 mẫu bất kỳ
Hình 3.34: Kết quả dự báo của mô hình
ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH
Đánh giá kết quả mô hình
Chương này tổng kết kết quả của đồ án và đánh giá mô hình phân lớp dữ liệu Attrition-Train Đồng thời, bài viết cũng đưa ra các kiến nghị thực tế nhằm phát triển phù hợp cho doanh nghiệp.
Mục tiêu chính của nhóm là nghiên cứu các yếu tố gây ra sự tiêu hao nhân viên thông qua bộ dữ liệu hư cấu Attrition-Train do IBM phát triển Nhóm sẽ lựa chọn 100 mẫu để dự đoán tình hình hao hụt nhân lực trong tập dữ liệu này, đồng thời áp dụng các lý thuyết đã học trong chương trình.
II, các kết quả từ đồ án này có độ tin cậy cao
Mô hình Hồi quy Logistic, thông qua các thuật toán phân lớp dữ liệu, đã được xác định là phương pháp tốt nhất dựa trên các kết quả kiểm tra của nó.
Kết quả dữ liệu chia mẫu thành 5 phần, 10 phần, 50-90%, 20-70% và 50- 66% cho thấy phương pháp Hồi quy Logistic là lựa chọn tốt nhất với các chỉ số trong khoảng 0.7 đến 0.85.
Kết quả của ma trận nhầm lẫn với tỉ lệ FP (False Positive - Type 1 Error) và
FN (False Negative - Type 2 Error) nhỏ nhất trong cả 3 mô hình ( FP = 71.9% và FN = 12.4%)
=> Phương pháp Logistic là phương pháp phù hợp nhất để phân tích và dự báo bộ dữ liệu này.
Kết quả dự báo từ 100 mẫu bất kỳ bằng phương pháp Hồi quy Logistic cho thấy rằng có ít sự tiêu hao nhân lực do các yếu tố đã được xác định Tuy nhiên, cần lưu ý các yếu tố này khi tiến hành khảo sát và thu thập dữ liệu trong các tình huống thực tế.
Kết luận và hướng phát triển
Mô hình này giúp doanh nghiệp giảm thiểu tình trạng hao hụt lao động bằng cách xác định các yếu tố gây ra sự ra đi của nhân viên, từ đó xây dựng kế hoạch giữ chân người tài Đặc biệt trong các ngành dịch vụ, sự tiêu hao nhân lực là một rủi ro lớn, vì nhân viên là nguồn lực quý giá, đã được đào tạo và tích lũy kinh nghiệm Việc mất mát này không chỉ là sự thất thoát tài sản mà còn có thể dẫn đến tổn thất nghiêm trọng cho doanh nghiệp khi nhân viên chuyển sang công ty khác với những kỹ năng và kiến thức đã học được.
Bộ dữ liệu này chứa các biến độc lập phản ánh nguyên nhân thực tế gây ra sự hao hụt nhân viên trong tổ chức Nhờ vào mô hình này, bộ phận Nhân sự có thể áp dụng vào dữ liệu thực tế của doanh nghiệp để nghiên cứu và tìm ra giải pháp hiệu quả cho vấn đề tiêu hao nhân lực tại nơi làm việc.
Qua quá trình phân tích và dự báo bộ dữ liệu Attrition-Train, nhóm đã đưa ra một số kiến nghị nhằm giảm tình trạng hao hụt nhân viên, bao gồm cải thiện môi trường làm việc, tăng cường giao tiếp giữa các bộ phận, và thực hiện các chương trình đào tạo phát triển nghề nghiệp cho nhân viên.
Doanh nghiệp nên khuyến khích nhân viên đi công tác thường xuyên, mặc dù điều này có thể mang lại rủi ro nhất định Tuy nhiên, việc này giúp nâng cao năng lực của nhân viên và tạo ra cơ hội hấp dẫn để giữ chân họ.
Để giữ chân những nhân viên có kinh nghiệm và kỹ năng chuyên môn, doanh nghiệp cần tạo cơ hội thăng tiến và tăng lương cho những người đã gắn bó lâu năm Việc này không chỉ giúp tăng cường sự hài lòng của nhân viên mà còn giảm thiểu tình trạng hao hụt nhân tài trong tổ chức.
Đầu tư vào phương tiện di chuyển là cần thiết để hỗ trợ nhân viên ở xa nơi làm việc, giúp họ dễ dàng di chuyển Theo thống kê ở chương trước, số lượng nhân viên có khoảng cách từ nhà đến nơi làm việc xa chiếm một tỷ lệ đáng kể.
Xem xét giảm bớt chế độ tăng ca để nhân viên giảm cảm giác căng thẳng, áp lực với chế độ làm việc của doanh nghiệp.