GIỚI THIỆU
Lý do chọn đề tài
Trong những năm gần đây, các Cục Thi hành án dân sự (THADS) trên toàn quốc đã trải qua nhiều biến động nhân sự không mong muốn, dẫn đến việc không hoàn thành nhiệm vụ Những thay đổi này cũng ảnh hưởng đến việc bố trí và cấp phát ngân sách cho toàn hệ thống, gây ra vấn đề về hiệu quả và không đạt được mục tiêu đề ra Mặc dù có tiến hành dự đoán nhân sự, nhưng chủ yếu vẫn là định tính và chưa thực sự khoa học.
AI [1] cụ thế là học máy (ML) đang phát triển hoàn toàn có the đáp ứng công tác dự báo cho công việc này.
Biến động nhân sự trong các tổ chức, đặc biệt là cơ quan nhà nước, là một hệ thống phức tạp và khó dự đoán Việc xác định sự thiếu hụt nhân sự không chỉ phụ thuộc vào các yếu tố thường xuyên như nghỉ hưu mà còn chịu ảnh hưởng từ nhiều yếu tố khách quan như hội nhập kinh tế và giá trị sống Do đó, việc dự đoán thị trường lao động trở nên hấp dẫn đối với các nhà nghiên cứu Để dự đoán xu hướng của thị trường này, cần nhận diện các quy luật cơ bản có thể lặp lại trong dữ liệu lịch sử, mà từ góc độ toán học, chúng là các hàm quan hệ Mô hình LSTM đã được chứng minh là một phương pháp hiệu quả trong việc dự đoán dữ liệu chuỗi thời gian phi tuyến tính, và tuy nhiều nghiên cứu hiện nay đã được thực hiện, nhưng chưa có nhiều phân tích từ khía cạnh toán học cho thị trường lao động, dẫn đến việc cơ sở toán học của phương pháp này chưa được công khai và nhân rộng.
Đề tài nghiên cứu luận văn "Dự báo biến động nhân sự của các Cục Thi hành Án Dân sự ở Việt Nam sử dụng phương pháp học máy" là rất cần thiết, nhằm đáp ứng những yêu cầu cấp bách trong việc quản lý và dự đoán tình hình nhân sự tại các cơ quan này.
Mục tiêu đề tài
Dựa trên lý do chọn đề tài, trong nghiên cứu này luận văn hướng đến các mục tiêu chính sau:
Thiết lập giải pháp hỗ trợ lập quy hoạch cán bộ cho các Cục THADS trên toàn quốc bằng phương pháp khoa học, thay thế các phương pháp định tính truyền thống, sẽ tạo tiền đề vững chắc cho các công tác lập kế hoạch khác.
• Tiếp cận cơ sở lý thuyết về mô hình học máy Long short term memory (LSTM).
• ứng dụng mô hình LSTM vào dự báo, sử dụng ngôn ngữ python.
• Đánh giá kết quả từ mô hình LSTM trước khi đưa ra kết luận và kiến nghị.
Đối tượng và phạm vi nghiên cứu
Mô hình dự báo và đánh giá biến động nhân sự của các Cục Thi hành Án Dân sự ở Việt Nam được xây dựng dựa trên dữ liệu chuỗi thời gian Ứng dụng mô hình học sâu, cụ thể là Long Short Term Memory (LSTM), giúp cải thiện độ chính xác trong việc phân tích và dự đoán xu hướng biến động nhân sự trong lĩnh vực thi hành án.
Đề tài “Dự báo biến động nhân sự tại các Cục Thi hành Án Dân sự ở Việt Nam sử dụng phương pháp học máy” được thực hiện dựa trên các báo cáo định kỳ hàng năm của các Cục THADS trên toàn quốc, theo thông tin công bố của Tổng cục THADS Dữ liệu từ năm 2012 đến 2021 được sử dụng để kiểm tra mô hình, cùng với các chỉ số đánh giá có ảnh hưởng đến đặc thù ngành THADS theo ý kiến chuyên gia, nhằm dự báo và phân tích độ biến động nhân sự theo nhu cầu.
CHÌ T1ÈU TIẾP NHẬN CÕNG CHỨC CÁC cơ QUAN THADS NÁM 2020
(Kèm theo Thông báo số 298/TB-TCTHADS ngày 19/11/2020 của Tồng cục THADS)
Chuyên viên làm công tác THADS
Nhãn viên Thù kho, Thù quỹ
1 An Giang 2 2 0 0 0 í í Chl cục THADS huyện Thoại Sơn 1 1 0 0 0
1.2 Chi cục THADS huyện Chợ Mới 1 1 0 0 0
2.2 Chi cục THADS huyện Vỉnh Lợi 1 1 0 0 0
2.3 Chi cục THADS huyện Hồng Dãn 1 1 0 0 0
Hình 1.1 Cúc hùn nội dung tuyên dụng của Tông cục THADS dăng tải
Nghiên cứu dự báo biến động nhân sự của các Cục Thi hành Án Dân sự tại Việt Nam đóng vai trò quan trọng trong việc đánh giá tác động của dữ liệu đầu vào Phương pháp truyền thống hiện tại còn nhiều hạn chế, do đó việc áp dụng các công nghệ khoa học và công nghệ tiên tiến là cần thiết Nghiên cứu này sử dụng dữ liệu về nhân sự kết hợp với các thuật toán và mô hình trí tuệ nhân tạo, máy học để đưa ra dự báo chính xác Ngoài ra, việc phối hợp với các công cụ số hóa và chính sách chính phủ điện tử cũng góp phần nâng cao hiệu quả trong dự báo nhân sự.
TIẾP CẬN Cơ SỞ LÝ THUYẾT
Học máy (Machine Learning)
Máy học là một lĩnh vực khoa học phát triển các thuật toán và mô hình thống kê cho phép hệ thống máy tính thực hiện các tác vụ dựa trên khuôn mẫu và suy luận mà không cần hướng dẫn cụ thể Các hệ thống này sử dụng thuật toán máy học để xử lý khối lượng lớn dữ liệu trong quá khứ, từ đó xác định các khuôn mẫu dữ liệu Điều này giúp chúng dự đoán kết quả chính xác hơn từ cùng một tập dữ liệu đầu vào.
Máy học đang được áp dụng phổ biến trong nhiều lĩnh vực như chẩn đoán y tế, phân loại hình ảnh, nhận dạng vật thể, nhận dạng giọng nói và chữ viết, phân tích câu, dịch tự động, trò chơi, ô tô tự lái và tư vấn bán hàng.
Học máy được chia thành bốn phương pháp chính: học có giám sát, học không giám sát, học nửa giám sát và học tăng cường Luận văn này tập trung vào mạng nơ-ron nhân tạo để giải quyết bài toán phân loại gán nhãn, chủ yếu chú trọng vào hình thức học có giám sát và ít quan tâm đến các hình thức học khác.
2.1.2 Các phương pháp học máy
2.1.2.1 Học có giám sát (Supervised Learning) Đây là một phương pháp máy học có thế giài quyết đề bài dự đoán mục tiêu cho một đầu vào nhất định Với mục tiêu được gọi là “nhãn” (label) và thường được biếu thị bằng y Dữ liệu đầu vào thường được biểu diễn bàng X Mồi một cặp x,y được gọi là một mầu và được cung cấp cho quy trình huấn luyện mô hình Tóm lại: học có giám sát là hình thức học trong đó dữ liệu được sử dụng đồ xây dựng mô hình được gán nhãn từ trước.
Chúng ta có một tập hợp các dữ liệu đầu vào {x(l), ,x(m)} và các đầu ra tương ứng {y(l), ,y(m)} Mục tiêu của chúng ta là phát triển một bộ phân loại có khả năng dự đoán giá trị y từ các giá trị X.
- Các loại mô hình dự đoán được tong kết trong bàng bên dưới:
- Các mô hình khác nhau được tổng kết trong băng bên dưới:
Hồi quy Phân loại Đầu ra Liên tục Lớp
Các ví dụ Hồi quy tuyến tính
Hồi quy Logistic, SVM, Naive Bayes
Mô hình phân biệt Mô hình sinh Mục tiêu Ước lượng trực tiếp Ạrl.v) Ước lượng XẠ) để tiếp tục suy luận X.vlx)
Những gì học dưọc Biên quyết định Phân bố xác suất của dừ liệu
Các ví dụ Hồi quy, SVMs GDA, Naive Bayes
Thư viên Trường Đại học Mở Hà Nội
Phương pháp học có giám sát được ứng dụng trong nhiều lĩnh vực, bao gồm dự đoán tình trạng bệnh của bệnh nhân dựa trên các giá trị đo được, phân loại email thành thư rác hoặc không, dự đoán giá chứng khoán dựa trên lịch sử giá, và phân loại hình ảnh lũ lụt từ dữ liệu vệ tinh.
Hình 2.1 Minh họa học máy có giám sát
Học có giám sát được ứng dụng trong một số bài toán :
Hồi quy (regression) là bài toán tối ưu nhằm tìm nghiệm gần đúng cho một số thực, thể hiện mối quan hệ giữa giá trị đầu vào và kết quả thông qua hàm số y = f(x), thường là tuyến tính hoặc logistic Mục tiêu của bài toán là xác định nghiệm y ~ ỹ = f(x) với y(x) = w1x1 + w2x2 + + wn Hai hàm mất mát phổ biến trong hồi quy là /(y, ỹ) = Σ|yi - ỹi| và í(y, ỹ) = Σ(yi - ỹi)², với giả định dữ liệu tuân theo phân phối Gauss Một ứng dụng thực tiễn của hồi quy là dự đoán giá đất.
Phân loại là quá trình dự đoán nhãn cho các lớp hiện có dựa trên dữ liệu đã được gán nhãn trước Mô hình phân loại sẽ xuất ra một mảng xác suất cho các lớp tương ứng với giá trị đầu vào, với hàm mất mát phổ biến là entropy chéo Bài toán phân lớp có thể được chia thành phân lớp nhị phân (đúng hoặc sai), phân lớp đa lớp và phân lớp đa trị Ví dụ, khi đưa hình ảnh của một chú chim vào mô hình phân loại giữa các lớp {chó, mèo, gà, chim}, kết quả trả về sẽ là xác suất cho từng lớp, như {0.2, }.
0.1,0.2,0.^ĩỊlir viện Trường Đại học Mở Hà Nội
2.1.2.2 Học không giám sát (Unsupervised Learning) Đây là phương pháp học máy mà ta không biết được mục tiêu của bài toán đang nham đến hay là nhãn có trong bài toán mà chi có dừ liệu đầu vào Học không giám sát sử dụng những thông tin chưa được gán nhãn đê suy ra được moi quan hệ Phương pháp này thường được ứng dụng đế tìm ra được cấu trúc của tập dữ liệu đầu vào Tuy nhiên lại thiếu đi phương pháp đánh giá cấu trúc được tìm ra là đúng hay sai.
Các bài toán học không giám sát được phân ra làm hai loại:
• Phân cụm: phân tập hợp dữ liệu thành k cụm với k là cho trước dựa theo mối quan hệ giữa các dữ liệu trong mồi nhóm.
Luật kết hợp là một phương pháp phân tích nhằm khám phá các quy tắc từ tập dữ liệu có sẵn Ví dụ, nó giúp xác định mối liên hệ giữa việc khách hàng mua xà phòng và dầu gội đầu với khả năng họ cũng mua kem đánh răng.
2.1.2.3 Nhận xét un nhược điêm cùa học có giám sát và không giám sát
Với hai dạng học máy đã được tìm hiểu ở trên thi chúng ta có thể đưa ra sự giống và khác nhau giữa chúng như trong bàng sau:
Bàng 2 ỉ So sánh học có giám sát với học không giám sát
Phuong pháp u’u điểm Nhược điêm
• Học có giám sát dựa theo nhãn và có mục tiêu cụ thể.
• Cho phép thu thập thông tin hoặc tạo ra đầu ra với kinh nghiệm được tiếp thu trước đó.
• Giái quyết vấn đề tính toán trong thời gian thế giới.
• Phương pháp đơn giản dề ứng dụng.
• Ket quá đầu ra có thể cho ra kết quả với độ chính xác khá cao.
• Dữ liệu cần đế mô hình đào tạo phái đạt nhiều yêu cầu cần thiết: đủ nhãn cho từng lớp, bị nhiễu ít, đầu ra phải chuấn xác.
• Phân loại dữ liệu lớn có ' |\/|(Ỵ thể là một thử thách lớn.
• Cần nhiều thời gian và công nghệ đê tính toán.
• Tìm ra được mối liên kết ẩn trong dữ liệu.
• Tìm ra những đặc trưng đế phân thế loại dữ liệu.
• Xừ lý trong khoảng thời gian thực, dừ liệu đau vào được phân tích và
• Cần một tập dữ liệu đầu vào đủ lớn để có thể phân loại chính xác.
• Chẳng thể đo lường độ tin cậy của kết quã đưa ra.
• Không biết được số lớp
Việc thu thập thông tin chưa gán nhãn dễ dàng hơn so với thông tin đã gán nhãn Để giải quyết bài toán dự báo biến động nhân sự, phương pháp học máy không có giám sát là lựa chọn phù hợp, nhờ vào những ưu điểm đã được nêu Ngoài ra, bài toán còn có mục tiêu cụ thể cho đầu ra của mô hình, đó là kết quả dự báo mà mô hình tính toán được.
RMSE (Root Mean Square Error) là một chỉ số quan trọng trong việc đánh giá độ chính xác của mô hình dự báo Nó đo lường sự chênh lệch trung bình giữa giá trị dự báo và giá trị thực tế Công thức tính RMSE bao gồm việc lấy căn bậc hai của trung bình các sai số bình phương, giúp phản ánh rõ ràng hiệu suất của mô hình dự báo.
Trong đó: fl là giá trị ước lượng; yi là biến độc lập; n=(N - k - 1);
N : số tổng lượng quan sát;
RMSE là một chỉ số phổ biến trong các mô hình dự báo như hồi quy tuyến tính và phân tích chuỗi thời gian Chỉ số này dễ hiểu và tính toán, đồng thời phản ánh chính xác mức độ sai lệch giữa giá trị dự báo và giá trị thực tế.
Để đánh giá chất lượng dự báo của mô hình trong quá trình đào tạo và huấn luyện mạng, hệ số RSR (tỷ lệ giữa RMSE và độ lệch chuẩn của các quan sát) được sử dụng Hệ số RSR là một chỉ số thống kê so sánh sai số bình phương (RMSE) với độ lệch chuẩn của chuỗi số liệu tính toán.
Bàng 2.2 Tiêu chi đánh giá chát lượng dự hảo (WMO, 2012) xếploại I RSR
Tốt 0.5