Hiện nay khoa học dữ liệu đã được rất nhiều doanh nghiệp sử dụng vì nó giúp cho doanh nghiệp phân tích và nắm bắt được những thông tin cần thiết mà không mất quá nhiều thời gian và chi p
Trang 1ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN CÔNG NGHỆ THÔNG TIN
BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU
Đề tài: PHÂN LỚP VÀ DỰ BÁO BỘ DỮ LIỆU EMPLOYEE ATTRITION DỰA
Lê Hà Thương
Lê Mỹ Duyên
TP Hồ Chí Minh, Tháng 10/2022
Trang 2MỤC LỤC
DANH M ỤC HÌNH ẢNH 4
DANH M ỤC BẢNG BIỂU 6
L ỜI MỞ ĐẨU 7
B ẢNG PHÂN CÔNG CÁC THÀNH VIÊN 8
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 9
1.1 GI ỚI THIỆU VỀ KHOA HỌC DỮ LIỆU 9
1.1.1 D ữ liệu 9
1.1.2 T ổng quan về Khoa học dữ liệu 10
1.1.3 Ứng dụng thực tế của Khoa học dữ liệu 11
1.2 GI ỚI THIỆU ĐỀ TÀI 11
1.2.1 Lý do ch ọn đề tài 11
1.2.2 Khái ni ệm employee attrition 12
1.2.3 M ục tiêu nghiên cứu 12
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP S Ử DỤNG 13
2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU 13
2.1.1 Các hàm th ống kê thông dụng 13
2.1.2 Các phương pháp thống kê mô tả 15
2.1.2.1 Thống kê bằng công cụ Descriptive statistics 15
2.1.2.2 Báo cáo tổng hợp nhóm với Subtotal 17
2.1.2.3 Hợp nhất dữ liệu với công cụ Consolidate 18
2.1.2.4 Tổng hợp dữ liệu đa chiều với Pivot Table 19
2.1.3 Phân tích d ự báo 21
2.1.3.1 Phương pháp trung bình trượt (Moving Average) 21
2.1.3.2 Phương pháp san bằng mũ (Exponential Smoothing) 22
2.1.3.3 Phương pháp Hồi quy Regression 23
2.1.3.4 Phân tích tối ưu 25
2.2 PH ẦN MỀM ORANGE 27
2.2.1 T ổng quan về phần mềm Orange 27
2.2.2 Phương pháp phân cụm dữ liệu 27
2.2.2.1 Định nghĩa 27
2.2.2.2 Đặc điểm của phân cụm dữ liệu 28
2.2.2.3 Các ứng dụng của phương pháp phân cụm 28
2.2.2.4 Các phương pháp phân cụm 28
2.2.2.4.1 Phân cụm dựa trên phân cấp (Hierarchical approach) 28
Trang 32.2.2.4.2 Phân cụm dựa trên phân hoạch (Partitionting Clustering) 29
2.2.2.4.3 Các phương pháp đánh giá phân cụm dữ liệu 29
2.2.3 Phương pháp phân lớp dữ liệu 29
2.2.3.1 Định nghĩa 29
2.2.3.2 Quá trình phân lớp dữ liệu 29
2.2.3.3 Một số phương pháp phân lớp 31
2.2.3.3.1 Phương pháp Hồi quy Logistic (Logistic Regression) 31
2.2.3.3.2 Phương pháp cây quyết định (Decision Tree) 31
2.2.3.3.3 Phương pháp SVM (Support Vector Machine) 32
2.2.3.4 Các phương pháp đánh giá mô hình phân lớp 32
2.2.3.4.1 Ma trận nhầm lẫn (Confusion Matrix) 32
2.2.3.4.2 Phương pháp phân chia dữ liệu Hold-out 34
2.2.3.4.3 K-cross validation 34
2.2.3.5 Các ứng dụng phân lớp ứng dụng trong kinh tế 34
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 36
3.1 PHÂN TÍCH D Ữ LIỆU EMPLOYEE ATTRITION 36
3.1.1 N ạp dữ liệu Employee Attrition 36
3.1.2 Mô t ả dữ liệu Employee Atttrition 36
3.1.3 Th ống kê mô tả dữ liệu Employee Attrition 39
3.2 PHÂN L ỚP VÀ DỰ BÁO DỮ LIỆU EMPLOYEE ATTRITION 43
3.2.1 M ột số phương pháp phân lớp dữ liệu 43
3.2.2 K ết quả mô hình phân lớp dữ liệu 43
3.2.3 K ết quả mô hình dự báo dữ liệu 55
Chương 4: ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH 57
K ẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59
NH ỮNG CÔNG VIỆC ĐÃ THỰC HIỆN 59
Tóm t ắt 59
K ết luận 59
GI ẢI PHÁP 59
TÀI LI ỆU THAM KHẢO 60
Trang 4DANH M ỤC HÌNH ẢNH
Hình 2.1 Hộp thoại Descriptive Statistics 16
Hình 2.2 Hộp thoại Subtotal 17
Hình 2.3 Hộp thoại Consilidate 18
Hình 2.4 Hộp thoại Create PivotTable 20
Hình 2.5 Hướng dẫn hiệu chỉnh Pivot Table 20
Hình 2.6 Hướng dẫn hiệu chỉnh Pivot Table 21
Hình 2.7 Hướng dẫn hiệu chỉnh Pivot Table 21
Hình 2.8 Kết quả dự báo bằng đồ thị 24
Hình 2.9 Kết quả dự báo bằng công cụ Regression 25
Hình 2.10 Hộp thoại Solver 26
Hình 2.11 Kết quả mô hình kinh tế tối ưu 26
Hình 2.12 Minh họa phương pháp phân cụm 27
Hình 2.13 Quá trình phân lớp dữ liệu - Xây dựng mô hình phân lớp 30
Hình 2.14 Quá trình phân lớp dữ liệu - Đánh giá mô hình 30
Hình 2.15 Quá trình phân lớp dữ liệu - Phân lớp dữ liệu mới 30
Hình 2.16 Minh họa về phương pháp Hồi quy Logistic 31
Hình 2.17 Minh họa một mô hình cây quyết định đơn giản 31
Hình 2.18 Minh họa phương pháp SVM 32
Hình 2.19 Minh họa phương pháp đánh giá mô hình phân lớp 32
Hình 2.20 Minh họa ma trận nhầm lẫn 33
Hình 2.21 Minh họa đường cong ROC 34
Hình 2.22 Minh họa AUC 34
Hình 3.1 Nạp dữ liệu Employee Attrition từ Datasets 36
Hình 3.2 Quan sát dữ liệu Employee Attrition trong Data table 36
Hình 3.3 Biểu đồ thống kê độ tuổi và chức vụ 40
Hình 3.4 Biểu đồ thể hiện tình trạng hôn nhân 40
Hình 3.5 Biểu đồ thể hiện mức độ hài lòng của nhân viên 41
Hình 3.6 Biểu đồ thể hiện số lượng công ty mà nhân viên đã từng làm việc 41
Hình 3.7 Biểu đồ thể hiện mức thu nhập hàng tháng của nhân viên 42
Hình 3.8 Biểu đồ thể hiện thời gian nhân viên đã làm việc tại công ty 42
Hình 3.9 Biểu đồ thể hiện sự tiêu hao nguồn nhân lực 43
Hình 3.10 Quá trình phân lớp dữ liệu 43
Hình 3.11 Lấy bộ dữ liệu Employee attrition trong Datasets 44
Hình 3.12 Mẫu dữ liệu Employee attrition 44
Hình 3.13 Lấy dữ liệu huấn luyện 45
Hình 3.14 Mẫu dữ liệu huấn luyện 45
Hình 3.15 Mô hình lấy mẫu dữ liệu huấn luyện 45
Hình 3.16 Lấy mẫu dữ liệu thử nghiệm 46
Hình 3.17 Mẫu dữ liệu thử nghiệm 46
Hình 3.18 Mô hình lấy mẫu dữ liệu thử nghiệm 46
Hình 3.19 Tập dữ liệu huấn luyện 47
Hình 3.20 Mô hình so sánh các thuật toán 48
Hình 3.21 Kết quả khi chia mẫu dữ liệu 2 phần 48
Hình 3.22 Kết quả khi chia mẫu dữ liệu 3 phần 49
Hình 3.23 Kết quả khi chia mẫu dữ liệu 5 phần 49
Kết quả khi chia mẫu dữ liệu 10 phần 50
Trang 5Hình 3.25 Kết quả khi chia kiểu dữ liệu 20 phần 50
Hình 3.26 Kết quả khi chia mẫu dữ liệu 90% 51
Hình 3.27 Kết quả khi chia mẫu dữ liệu 70% 51
Hình 3.28 Kết quả khi chia mẫu dữ liệu 66% 52
Hình 3.29 Kết quả ma trận nhầm lẫn của phương pháp Cây quyết định Tree 53
Hình 3.30 Kết quả ma trận nhầm lẫn của phương pháp SVM 53
Hình 3.31 Kết quả ma trận nhầm lẫn của phương pháp Hồi quy Logistic 53
Hình 3.32 Đường cong ROC của không có hao mòn lao động (Attrition là No) 54
Hình 3.33 Đường cong ROC của có hao mòn lao động (Attrion là Yes) 54
Hình 3.34 Đánh giá mô hình phân lớp 55
Hình 3.35 Tập dữ liệu thử nghiệm 55
Hình 3.36 Mô hình dự báo dữ liệu 56
Hình 3.37 Kết quả dự báo dữ liệu 56
Trang 6DANH M ỤC BẢNG BIỂU
Bảng 2.1 Bảng thống kê số lượng hàng trong ngày 1/11/2010 của xưởng JJK 16
Bảng 2.2 Kết quả thống kê bằng công cụ Descriptive Statistics 16
Bảng 2.3 Bảng thông tin nhân viên 17
Bảng 2.4 Bảng kết quả thống kê tổng số tiền của nhân viên 18
Bảng 2.5 Bảng doanh thu năm 2014 của 3 cửa hàng trong công ty ABC 18
Bảng 2.6 Kết quả hợp nhất doanh thu của 3 cửa hàng ttrong công ty ABC 19
Bảng 2.7 Kết quả tổng hợp dữ liệu của công cụ Pivot Table 19
Bảng 2.8 Kết quả tổng hợp dữ liệu của ví dụ được thể hiện ở bảng dưới đây 20
Bảng 2.9 Kết quả dự báo bằng phương pháp trung bình trượt 22
Bảng 2.10 Kết quả dự báo bằng phương pháp san bằng mũ 23
Bảng 2.11 Bảng thiết lập mô hình kinh tế 26
Bảng 4.1 Bảng so sánh các chỉ tiêu của phương pháp K-fold của mô hình Hồi quy Logistic 57
Bảng 4.2 Bảng so sánh các chỉ tiêu của phương pháp Hold-out của mô hình Hồi quy Logistic 57
Bảng 4.3 So sánh tỷ lệ sai lầm của 3 mô hình bằng ma trận nhầm lẫn 58
Trang 7L ỜI MỞ ĐẨU
Để bắt đầu vào bài, trước hết chúng em xin gửi lời cảm ơn chân thành đến thầy
TS Nguyễn Quốc Hùng, giảng viên bộ môn Khoa học dữ liệu Nhờ vào những kiến thức
mà thầy đã truyền đạt trong những tiết học đã giúp cho nhóm chúng em tiếp thu được nhiều kiến thức để từ đó vận dụng và sử dụng thành thạo các phần mềm khoa học cụ thể hơn đó chính là Excel và Orange Từ đó giúp cho chúng em hiểu rõ được hơn về vai trò của bộ môn Khoa học dữ liệu muốn truyền tải Cùng với đó là chính là sự đoàn kết và tương tác làm việc năng suất cùng nhau của 5 thành viên nhóm 4 trong quá trình thực hiện đồ án Sau quá trình tích lũy những kiến thức và kỹ năng, chúng em xin được trình bày những điều đó thông qua đồ án này
Sẽ có những khuyết điểm trong quá trình hoàn thành đồ án nên vì vậy nhóm 4 chúng em rất mong sẽ nhận lại được những lời phản hồi, đánh giá cũng như góp ý để nhóm chúng em có thể hoàn thiện được đồ án một cách tốt nhất Chúng em xin gửi lời cảm ơn đến thầy
Trong bối cảnh thời đại công nghệ 4.0 hiện nay, công nghệ điện tử chính là một thứ không thể thiếu Công nghệ giúp nâng cao năng suất làm việc của con người một cách tối ưu và tận dụng tối đa mọi lợi ích mà nó mang lại trong mọi lĩnh vực của cuộc sống Và chúng ta không thể không nhắc đến vai trò của hệ thống thông tin trong việc quản lý doanh nghiệp, nó có vai trò to lớn và vô cùng quan trọng Hệ thống thông tin quản lý, cung cấp thông tin trong các doanh nghiệp một cách nhanh chóng và chính xác
Từ đó mà mang lại cho doanh nghiệp những ưu điểm và lợi thế trong cạnh tranh trên thị trường
Thuật ngữ “Khoa học dữ liệu” đầu tiên được xuất hiện vào khoảng thập niên 60, với tên gọi khác đó chính là thống kê Thuật ngữ này đã được các chuyên gia khoa học máy tính chính thức hoá vào cuối thập niên 90 Hiện nay khoa học dữ liệu đã được rất nhiều doanh nghiệp sử dụng vì nó giúp cho doanh nghiệp phân tích và nắm bắt được những thông tin cần thiết mà không mất quá nhiều thời gian và chi phí, từ đó đẩy mạnh
và nhanh các hoạt động kinh doanh, giúp cho doanh nghiệp phát triển thịnh vượng
Trang 8B ẢNG PHÂN CÔNG CÁC THÀNH VIÊN STT Họ và tên Công việc phụ trách Mức độ hoàn thành
1 Lưu Hữu Trung
100%
Hằng
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Các phương pháp của Excel dùng để khai phá dữ liệu
100%
Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.2 Phần mềm Orange
100%
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 3.1 Phân tích dữ liệu Employee Attrition
100%
Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ 3.2 Phân lớp và dự báo dữ liệu Employee Attrition, Chương 4:
ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH, Tổng hợp và chỉnh sửa hình thức trình bày Word
100%
Trang 9Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
Nội dung trong chương 1 mà nhóm làm là giới thiệu tổng quát về dữ liệu, khoa học dữ liệu và giới thiệu đề tài mà nhóm đã chọn là “Phân lớp và dự báo bộ dữ liệu Employee Attrition”
1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
1.1.1 Dữ liệu
Dữ liệu (Data) là một tập hợp các thông tin bao gồm chữ, số, hình ảnh, Qua đó
nó có thể giúp cho chúng ta hình dung được tổng quát sự việc Dữ liệu được dùng để ứng dụng nhiều trong các ngành như công nghệ, kỹ thuật và khoa học Ngoài ra, dữ liệu còn được dùng trong chế tạo điện thoại thông minh, giúp lưu trữ tất cả các video, văn bản, và những thanh âm đa dạng
Dữ liệu được chia ra làm 2 loại: Dữ liệu có cấu trúc (Structured Data) và dữ liệu không có cấu trúc (Unstructured Data)
- Dữ liệu có cấu trúc (Structured Data) được xác định là nhóm dữ liệu mà nó hoạt động chính chủ yếu với vai trò là lưu trữ thông tin và truyền đạt những thông tin theo một cấu trúc được xác định
Dữ liệu có cấu trúc có các đặc trưng sau:
• Ta có thể gọi với tên khác là dữ liệu định lượng
• Đưa ra các dữ liệu và số liệu một cách khách quan
• Biểu thị chủ yếu dưới dạng số hoặc chữ
• Chủ yếu lưu trữ trong các công cụ như Google Sheet, SQL, Excel
• Thu thập, truy xuất, sắp xếp thông tin một cách dễ dàng
• Thông tin được trích xuất một cách đơn giản
Ví dụ: Địa chỉ giao dịch, ngày tháng giao dịch, họ và tên của người giao dịch, mã giao dịch,
- Dữ liệu không có cấu trúc (Unstructured Data) được biết đến chính là dữ liệu tập hợp các cấu trúc dữ liệu phức tạp, khó nhận biết và chưa được sắp đặt và tổ chức đúng theo một trình tự cho sẵn
Dữ liệu phi cấu trúc có các đặc trưng sau:
• Dữ liệu định tính là tên gọi khác của dữ liệu không có cấu trúc
• Thường ở dưới dạng văn bản thể hiện quan điểm, ý kiến hoặc đánh giá thương hiệu
• Những công cụ dùng để lưu trữ là Solr, Elasticsearch và Word
• Khó thu thập, khó truy xuất, lưu trữ và sắp xếp thông tin
• Dữ liệu phi có cấu trúc không thể được tìm kiếm bởi các công cụ phân tích dữ liệu
Ví dụ: Những phản hồi, ý kiến của khách hàng trên các trang mạng xã hội hoặc Email
Sự cần thiết của Data với doanh nghiệp:
• Định hướng quyết định cho doanh nghiệp
• Cập nhật thường xuyên
• Cải thiện hoạt động nội bộ
• Cải thiện quản lý tài chính
Big Data là sự tập hợp của tất cả các dữ liệu có quy mô cực kỳ lớn, mang tính đa dạng và biến động nhanh Tính đến thời điểm hiện tại, không có một công cụ quản lý
dữ liệu truyền thống nào quản lý Big Data
Trang 10Trong một xã hội ngày càng phát triển, con người nói chung và nền kinh tế nói riêng đều phải cần đến sự ứng dụng của công nghệ Mà công nghệ lại gắn liền, đi đôi với việc thu nhập thông tin Thông qua các thông tin đã được thu thập, các tổ chức đa kênh mới có cơ hội thuận lợi để có thể tạo nên được những đột phá mang tính cách mạng, thúc đẩy sự gia tăng năng suất của doanh nghiệp, công ty
Thông thường, Big Data được ứng dụng nhiều trong các ngành nghề như là thương mại, y tế, marketing, ngân hàng, … Nhiệm vụ chính của Big Data trong các ngành nghề đó chính là làm công cụ phân tích, đánh giá nhận xét, lưu trữ thông tin, chẩn đoán và bảo đảm an ninh,
Thời điểm mà các doanh nghiệp làm chủ được tập hệ thống dữ liệu lớn này mới chính là thời điểm thật sự thành công của doanh nghiệp trong chiến trường làm ăn đầy cạnh tranh này
Trong kinh doanh, Big Data được các doanh nghiệp sử dụng trong nhiều lĩnh vực, bao gồm:
• Nâng cao trải nghiệm của khách hàng bằng cách kiểm tra và quản lý tất cả những thông tin, dữ liệu liên quan đến khách hàng Từ đó mà có thể đưa ra những giải pháp, phương hướng để giữ chân khách hàng
• Nâng cao hiệu suất làm việc, vận hành có tổ chức và hiệu quả hơn nhờ vào quá trình phân tích các hoạt động doanh nghiệp của Big Data
• Những rủi ro trong làm ăn sẽ được giảm thiểu đi nhờ vào phân tích, quản lý và phát hiện các hành động gian lận
• Giá cả và doanh thu được tối ưu hoá
Như vậy, Big Data có thể được coi là chìa khóa để mở lối đi đến thành công dành cho các doanh nghiệp lớn trong thời đại ngày nay, thời đại công nghiệp hóa, hiện đại hóa
1.1.2 Tổng quan về Khoa học dữ liệu
Nhiều doanh nghiệp hiện nay đều dựa vào việc thu thập và phân tích dữ liệu để
có thể nắm bắt được những đặc điểm của khách hàng bởi vì trong thời đại ngày nay, khi
mà tất cả mọi thứ đang dần số hóa đi, thì đó cũng chính là lúc mà khách hàng càng có nhiều sự tương tác với mạng Internet Chính vì vậy mà từ đó doanh nghiệp có thể nắm bắt lấy cơ hội để đổi mình và phát triển, để từ đó có thể rút ngắn quá trình đổi mới
Khoa học dữ liệu ra đời với sứ mệnh để giúp chúng ta có thể dễ dàng hơn trong
việc khai thác được giá trị thật sự của dữ liệu Việc chúng ta thu thập dữ liệu không phải
là một vấn đề khó, nhưng để thực sự có thể biến những dữ liệu đó trở nên có giá trị thì mới là vấn đề quan trọng, việc này đòi hỏi nhiều kỹ năng của người dùng Vì vậy, sự có mặt của KHOA HỌC DỮ LIỆU là vô cùng quan trọng, giúp biến những chữ viết thô, những con số thành những kế hoạch, ý tưởng, sản phẩm, dịch vụ có ích và có ý nghĩa
Khoa học dữ liệu (Data Science) là lĩnh vực nghiên cứu dữ liệu nhằm mục đích khai thác những thông tin chuyên sâu có ý nghĩa đối với hoạt động kinh doanh.”Đây là một phương thức tiếp cận đa ngành, kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu.“Nội dung phân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mục đích gì.””
Khoa học dữ liệu (Data science) bao gồm 3 phần chính:
• Tạo và quản trị dữ liệu
Trang 11• Phân tích dữ liệu: toán học (thống kê toán học – Mathematical Statistics), công nghệ thông tin (máy học – Machine Learning) và tri thức của lĩnh vực ứng dụng
cụ thể
• Áp dụng kết quả phân tích thành những hành động có giá trị
Khoa học dữ liệu được sử dụng để nghiên cứu dữ liệu theo 4 phương pháp chính:”
• Phân loại
• Hồi quy
• Phân nhóm
Các công nghệ phức tạp mà các nhà khoa học dữ liệu cũng đã sử dụng như:
• Trí tuệ nhân tạo (AI)
• Điện toán đám mây
• Internet vạn vật
• Máy tính lượng tử
Vai trò của khoa học dữ liệu:
- Hỗ trợ đưa ra quyết định: Khoa học dữ liệu giúp cho con người phân tích,
mô tả, chẩn đoán, dự đoán dựa trên những dữ liệu đã có Từ đó có thể dễ dàng đưa ra đề xuất những hành động và những quyết định mang tính hiệu quả cao
- Áp dụng vào doanh nghiệp: Khoa học dữ liệu giúp cho doanh nghiệp phân tích kinh doanh dựa trên số liệu đã thu thập được ở các bảng phân tích như phân tích khuyến cáo, phân tích dự báo và phân tích mô tả Từ đó doanh nghiệp có thể dễ dàng hơn trong việc quản lý nhân sự, nắm bắt tâm lý khách hàng và xem xét rõ hơn để đưa ra quyết định nên đầu tư hay tài trợ vào thị trường
- 6 bài toán của doanh nghiệp: Khoa học dữ liệu thể hiện rõ nhất vai trò của mình trong lĩnh vực kinh tế thông qua 6 bài toán doanh nghiệp như tài chính, khách hàng, bán hàng, thị trường, nhân sự và cuối cùng là vận hành sản xuất
1.1.3 Ứng dụng thực tế của Khoa học dữ liệu
- Trong y tế: Hệ thống trợ lý ảo được xây dựng để chăm sóc sức khoẻ ảo trên máy điện thoại như Iphone, …
- Trong thương mại điện tử và dịch vụ số: Mua sắm online trên Shopee, Lazada và các sàn thương mại điện tử khác
- Trong tìm kiếm thông tin: Google, …
1.2 GIỚI THIỆU ĐỀ TÀI
PHÂN LỚP VÀ DỰ BÁO BỘ DỮ LIỆU EMPLOYEE ATTRITION DỰA TRÊN
ỨNG DỤNG ORANGE
1.2.1 Lý do chọn đề tài
Ngày nay, vấn đề nhân sự ở các doanh nghiệp đang là điều được mọi người quan tâm Nhân sự chính là nguồn lực để quyết định sự thành công hay thất bại của một doanh nghiệp, vì vậy công tác quản lý nhân sự là một điều hết sức quan trọng đối với một doanh nghiệp Trong bộ dữ liệu Employee Attrition nghiên cứu về các thuộc tính của nhân sự, chọn lọc ra những thông tin, những đặc điểm hữu ích nhất liên quan đến nhân
Trang 12viên Từ đó rút ra những kinh nghiệm, giúp cho doanh nghiệp sửa chữa những khuyết điểm và phát huy những ưu điểm để thu hút nhân viên tiếp tục làm việc, phát triển nhân
sự ở mức tối đa
1.2.2 Khái niệm employee attrition
Attrition trong tiếng Anh có nghĩa là sự tiêu hao Ở đây, ta hiểu “Employee Attrtion” trong nền kinh tế có nghĩa là sự hao mòn nhân viên, sự tiêu hao dần lực lượng lao động khi mà doanh nghiệp có nhân viên nghỉ việc hoặc nghỉ hưu
Các doanh nghiệp để tính toán Employee Attrition thường dựa vào Attrition Rate (tỷ lệ tiêu hao lực lượng lao động) Attrition Rate càng thấp đồng nghĩa với việc nhân viên hài lòng với rất nhiều yếu tố như mức lương, các khoản đãi ngộ, công việc, … của doanh nghiệp
Vì vậy, để tránh Attrition Rate cao, công ty, doanh nghiệp cần có sự định hướng
rõ ràng, nâng cao bộ phận nhân sự, có các khoản ưu đãi, đãi ngộ đối với các nhân viên của mình
1.2.3 Mục tiêu nghiên cứu
1 Nghiên cứu các thuộc tính của nhân viên
2 Dự báo sự ảnh hưởng đối với lực lượng lao động từ đó đưa ra hướng phát triển
Trang 13Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
PHƯƠNG PHÁP SỬ DỤNG
Nội dung chương này, trình bày tổng quan về các phương pháp sử dụng đến đề tài bao gồm: trong Excel sử dụng các phương pháp thống kê mô tả, phân tích dự báo, phân tích tối ưu; trong Orange sử dụng các phương pháp phân cụm dữ liệu, phân lớp dữ
liệu và đánh giá mô hình
2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU
Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office Phần mềm này giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn Và trong học phần Khoa học dữ liệu ta dùng Excel để thống kê mô tả, dự báo và phân tích tối ưu các dữ liệu
2.1.1 Các hàm thống kê thông dụng
Hàm trả về giá trị nhỏ nhất trong tập giá trị cho trước
Hàm trả về giá trị lớn nhất trong tập giá trị cho trước
Hàm trả về số lượng ô trong danh sách
Hàm trả kết quả về số lượng các ô có nội dung khác rỗng trong danh sách
COUNTBLANK COUNTBLANK(danh-sách): trả kết quả về số lượng các ô
rỗng trong danh sách COUNTIF COUNTIF(vùng-chứa-điều-kiện, điều-kiện): trả kết quả về
số lượng các ô trong vùng-chứa-điều-kiên đã thỏa điều-kiện COUNTIFS COUNTIFS(vùng-chứa-điều-kiện-1, điều-kiện-1, [vùng-
chứa-điều-kiện-2, điều-kiện-2], ): trả kết quả về số lượng các ô nằm trong vùng-chứa-điều-kiên-1 thỏa điều-kiện-1 và các ô trong vùng-chứa-điều-kiện-2 đã thỏa điều-kiện-2, RANK RANK(ô,vùng,kiểu): trả kết quả về thứ tự xếp hạng của các
ô nằm trong vùng; kiểu=1: xếp theo kiểu tăng dần, kiểu=0 hoặc lờ đi: xếp theo kiểu giảm dần
AVERAGE(danh-sách): trả kết quả về giá trị trung bình của các số trong danh-sách
AVERAGEIF AVERAGEIF(vùng-chứa-điều-kiện, điều-kiện,
[vùng-tính-trung-bình]): trả kết quả về giá trị trung bình của các ô trong vùng-tính-trung-bình đúng theo sắp xếp thứ tự với các ô nằm trong vùng-chứa-điều-kiện đã thỏa điều-kiện Nếu lờ đi tham
số bình thì đồng nghĩa với bình=vùng-chứa-điều-kiện
vùng-tính-trung-AVERAGEIFS AVERAGEIS(vùng-tính-trung-bình,vùng-chứa-điều-kiện-1,
điều-kiện-1, [vùng-chứa-điều-kiện-2, điều-kiện-2], ): trả kết quả về giá trị trung bình của các ô trong vùng-tính-trung-bình xếp đúng theo thứ tự với các ô trong vùng-chứa-điều-kiên-1
Trang 14thỏa điều-kiện-1 và các ô trong vùng-chứa-điều-kiện-2 đã thỏa điều-kiện-2,
SUM SUM(x1,x2, ,xn): trả về tổng các sô x1,x2, xn
SUMIF SUMIF(vùng-chứa-điều-kiện, điều kiện,[vùng-tính-tổng]):
trả kết quả về giá trị trung bình của các ô nằm trong tính-tổng tương ứng theo thứ tự với các ô trong vùng-chứa-điều-kiện thỏa điều-kiện Nếu lờ đi tham số của vùng-tính-tổng thì đồng nghĩa với việc vùng-tính-tổng=vùng-chứa-điều-kiện
vùng-SUMIFS SUMIFS(vùng-tính-tổng,vùng-chứa-1,
điều-kiện-1, [vùng-chứa-điều-kiện-2, điều-kiện-2], ): trả kết quả về tổng của các nằm ô trong vùng-tính-tổng tương ứng theo thứ
tự với các ô nằm trong vùng-chứa-điều-kiên-1 đáp ứng thỏa điều-kiện-1 và các ô trong vùng-chứa-điều-kiện-2 đã thỏa điều-kiện-2,
Số trung vị Số trung vị của một dãy số là giá trị ở vị trí chính giữa khi
dãy số đó được sắp xếp theo thứ tự tăng dần (hoặc ngược lại),
• Nếu phần tử N của dãy số là lẻ thì số trung vị là số ở
• hàm MODE.MULT tương tự hàm mode
• hàm MODE.SNGL được dùng khi dãy số có nhiều số
yếu vị Kết thúc hàm bằng tổ hợp phím Ctrl+Shift+Enter
Ví dụ:
= MODE(1,3,2,5,2,3)→ Kết quả là 3 ( dãy số có số 2 vá số 3 xuất hiện 2 lần nhưng số 3 xuất hiện trước)
Trang 15= MODE.MULT(1,3,2,5,2,3)→ Kết quả là 3,2 Phương sai Tính phương sai của mẫu(sample)
• Nếu các đối số có chứa gía trị logic (True/False) hoặc
chuỗi thì dùng hàm VARA Khi đó True=1, False=0
• Nếu các đối số có chứa gía trị logic (True/False) hoặc
chuỗi thì dùng hàm VARPA Khi đó True=1, False=0
và giá trị chuỗi=0
Độ lệch hàm Độ lệch chuẩn là căn bậc hai của phương sai
Tính độ lệch chuẩn của mẫu(sample)
• Nếu các đối số có chứa gía trị logic (True/False) hoặc
chuỗi thì dùng hàm STDEVA Khi đó True=1,
False=0 và giá trị chuỗi=0
Tính độ lệch chuẩn của tổng thể (population)
thì dùng hàm STDEVPA Khi đó True=1, False=0 và giá trị
chuỗi=0
2.1.2 Các phương pháp thống kê mô tả
2.1.2.1 Thống kê bằng công cụ Descriptive statistics
Cách thực hiện:
- Bước 1: Chuẩn bị bảng số liệu cần thống kê
- Bước 2: Chọn lệnh Data→ Data Analysis→ Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics
Trang 16- Bước 3: Khai báo các thông tin số Input và lựa chọn các thông số Output Options
Ví dụ: Thống kê mô tả cho số lượng hàng nhập trong ngày 1/11/2010 của xưởng JJK
Bảng 2.1 Bảng thống kê số lượng hàng trong ngày 1/11/2010 của xưởng JJK
Sau khi có bảng thống kê ta mở hộp thoại Descriptive Statistics, nhập Input là cột chứa số lượng hàng (tấn), chọn ô chứa khi có kết quả (Output Range) Sau đó nhấn chọn Summary statistics và Confident Level for Mean là 95%, cuối cùng nhấn OK
Hình 2.1 Hộp thoại Descriptive Statistics
Bảng mô tả dữ liệu sẽ xuất hiện để mô tả cho dữ liệu ta vừa chọn trong bảng 2.1 trên như sau:
B ảng 2.2 Kết quả thống kê bằng công cụ Descriptive Statistics
Ta có thể thấy trong bảng trên có hiện những gíá trị như: Mean: giá trị trung bình, Standard Error: sai số chuẩn, Median: trung vị, Mode: yếu vị, Standard Deviation:
độ lệch chuẩn, Sample Variance: phương sai mẫu, Kurtosis: độ nhọn, Skewness: độ bất đối xứng (đọ nghiêng), Range: khoảng biến thiên (Max-Min), Minimum: số nhỏ nhất, Maximum: số lớn nhất, Sum: tổng, Count:số lượng phần tử,Confidence Level: độ tin cậy
Trang 172.1.2.2 Báo cáo tổng hợp nhóm với Subtotal
Chức năng của Subtotal
- Cho phép được tổng hợp từng nhóm dữ liệu của các cột kiểu số nằm trong
cơ sở dữ liệu như: tìm tổng (SUM), số lớn nhất (MAX), số nhỏ nhất (MIN), số trung bình (AVERAGE),
- Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
Ví d ụ: Cần thống kê tổng số tiền mà nhân viên đã thực hiện trong bảng dưới đây:
Bảng 2.3 Bảng thông tin nhân viên
Các bước để thực hiện yêu cầu như sau:
- Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm (Salesperson)
- Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên
• At each change in: chọn cột gom nhóm (Salesperson)
• Use function: chọn hàm thống kê sử dụng trong việc tổng hợp dữ liệu (Sum)
• Add subtotal to: chọn cột thống kê giá trị (Order Amount)
• Replace current subtotals: chọn để thay thế kết quả thống kê trước đó
• Page break between group: chọn để ngắt trang giữa các nhóm với nhau, lúc
in ra giấy thì mỗi nhóm sẽ ở một trang giấy
• Summary below data: chọn để kết quả tổng hợp ở dưới mỗi nhóm
• Remove All: sử dụng để xóa bỏ các kết quả đã tổng hợp
Sau khi thực hiện các bước trên ta sẽ có bảng kết quả cần thống kê tổng số tiền của nhân viên như sau:
Trang 18Bảng 2.4 Bảng kết quả thống kê tổng số tiền của nhân viên
2.1.2.3 Hợp nhất dữ liệu với công cụ Consolidate
Chức năng của Consolidate:
- Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau
- Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
• Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc
• Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác
nhau về cấu trúc
Ví dụ: Dưới đây là bảng doanh thu của 3 của hàng của công ty ABC trong năm
2014 Hãy dùng công cụ Consolidate để hợp nhất dữ liệu của 3 bảng dưới đây:
B ảng 2.5 Bảng doanh thu năm 2014 của 3 cửa hàng trong công ty ABC
Quy trình thực hiện
- Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất
- Bước 2: Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại
Trang 19references ta thêm vào vùng dữ liệu của các cửa hàng 1,2,3, sau đó nhấn OK để thực hiện lệnh Trong đó các, mục trên có ý nghĩa như sau:
• Function: chọn hàm tổng hợp
• Reference: dùng để tham chiếu theo thứ tự các bảng dữ liệu nguồn
• All references: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất
• Top row: nếu muốn dùng tên cột của vùng nguồn thì ta chọn cột này
• Left column: chọn nếu muốn sử dụng các giá trị của cột đầu tiên của vùng nguồn
• Create links to source data: chọn nếu muốn dữ liệu hợp nhất được cập nhật mỗi
khi có thay đổi ở vùng dữ liệu nguồn
Sau khi thực hiện xong các thao tác thì bảng kết quả hợp nhất dữ liệu sẽ xuất hiện như bảng dưới đây:
Bảng 2.6 Kết quả hợp nhất doanh thu của 3 cửa hàng ttrong công ty ABC
2.1.2.4 Tổng hợp dữ liệu đa chiều với Pivot Table
- Trong quá trình phân tích và tổng hợp dữ liệu, người ta thường có nhu cầu gom nhóm dữ liệu theo theo một số tiêu chí nào đó để dễ dàng quản lý
- Excel cung cấp công cụ PivotTable để tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau
- Nguồn dữ liệu để tạo PivotTable có thể là một cơ sở dữ liệu của Excel hay từ nguồn dữ liệu bên ngoài (như MS Access, MS SQL Server,…)
Ví dụ về kết quả tổng hợp dữ liệu đa chiều với công cụ Pivot Table sẽ hiển thị như hình dưới:
B ảng 2.7 Kết quả tổng hợp dữ liệu của công cụ Pivot Table
Từ bảng 2.3 thông tin của nhân viên ta sẽ làm ví dụ về tổng hợp dữ liệu đa chiếu với công cụ Pivot Table Và dưới đây là các thao tác thực hiện trên Excel:
- Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu
- Bước 2: Chọn lệnh Insert → PivotTable
- Bước 3: Hộp thoại Create PivotTable xuất hiện, sau đó chọn dữ liệu nguồn và nơi chứa PivotTable, nhấn OK
Trang 20Hình 2.4 H ộp thoại Create PivotTable
- Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS,
ROWS, COLUMNS và VALUES
B ảng 2.8 Kết quả tổng hợp dữ liệu của ví dụ được thể hiện ở bảng dưới đây
Ngoài ra chúng ta có thể hiệu chỉnh Pivot Table theo ý muốn thông qua các lệnh
và một số thao tác dưới dây:
1 Thay đổi tên Field
- Bước 1: Lệnh PivotTable tự chúng tạo ra các ô có nền đậm khi ta để các field vào khu vực layout
- Bước 2: Nội dung của các ô này được tạo tự động dựa trên tên field và nơi bố trí
- Bước 3: Có thể gõ lại nội dung để báo cáo được rõ ràng hơn
Hình 2.5 Hướng dẫn hiệu chỉnh Pivot Table
Trang 21Hình 2.6 Hướng dẫn hiệu chỉnh Pivot Table
3 Thay đổi phép tổng hợp dữ liệu
- Bước 1: Click vào mũi tên tên chỉ xuống cạnh field ta cần định dạng trong khu
vực Values
- Bước 2: Trong danh sách hiện ra chọn Value Field Settings
- Bước 3: Chọn phương thức xử lý trong mục Summarize value field by
Hình 2.7 Hướng dẫn hiệu chỉnh Pivot Table
Ví dụ: Dưới đây là kết quả buôn bán Iphone của công ty ABC và hãy dự báo bằng phương pháp trung bình trượt với cửa sổ trượt là 5 cho kết quả của tháng tới
Cách thực hiện trên Excel:
- Bước 1: Chuẩn bị bảng số liệu cần dự báo
- Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại Moving Average
- Bước 3: Khai báo các thông số vào ô Output Options và Input
Trang 22Bảng 2.9 Kết quả dự báo bằng phương pháp trung bình trượt
Chú thích:
• Input Range: tham chiếu đến vùng dữ liệu thực tế
• Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề cột
hay không
• Interval: số lượng các kỳ trước đó muốn tính (w) (ở đây w=5)
• Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng
các giá trị trước đó để tính toán sẽ nhận giá trị #N/A
• Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả
• Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn
2.1.3.2 Phương pháp san bằng mũ (Exponential Smoothing)
Công thức tính: Ft = a.Dt-1 + (1-a).Ft-1
Trong đó:
- Ft: là giá trị dự báo kỳ t
- Ft-1: là giá trị dự báo kỳ t-1
- Dt-1: là giá trị thực tế của kỳ t-1
- a: là hệ số điều chỉnh (hệ số này tùy chọn sao cho 0 ≤ a ≤ 1)
Từ ví dụ về kết quả buôn bán Iphone trên hãy dùng phương pháp san bằng mũ với hệ số điều chỉnh là 0,4 để dự báo cho kết quả tháng tới
Các thao tác thực hiện trên Excel như sau:
- Bước 1: Chuẩn bị bảng số liệu cần dự báo
- Bước 2: Chọn lệnh Data → Data Analysis →Exponential Smoothing, hộp thoại Exponential Smoothing xuất hiện
- Bước 3: Khai báo các thông số vào ô Output Options và Input
Sau khi thực hiện các thao tác trên và đưa được nguồn dữ liệu vào hộp thoại và nhấn OK thì kết quả sẽ xuất hiện như bảng dưới đây:
Trang 23Bảng 2.10 Kết quả dự báo bằng phương pháp san bằng mũ
Chú thích:
• Input Range: tham chiếu đến vùng dữ liệu thực tế
• Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất
ổn của dữ liệu, giá trị mặc định là Damping factor (1-a) = 0.4
• Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay
không
Kết quả như trong hình sau là dự báo số lượng bán được Iphone tại công ty ABC vào tháng 1 của năm sau với hệ số điều chỉnh a = 0.4 (Damping factor = 0.6) Như vậy
số lượng Iphone bán được dự báo cho tháng 1 năm sau là 25 chiếc
2.1.3.3 Phương pháp Hồi quy Regression
- Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay được biết là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay được biết là biến giải thích)
- Phương trình hồi quy có dạng tổng quát:
Y = f(X 1 ,X 2 ,…,X n )
Trong đó:
• Y: là biến phụ thuộc (dependent variable)
• Xi: là các biến độc lập (independent variable)
Dưới đây là các hàm dùng để thực hiện dự báo theo phương pháp hồi quy:
TREND Trả về các giá trị nằm dọc đường hồi quy (bằng phương pháp bình
phương bé nhất) Công thức: TREND(known_y’s, known_x’s, new_x’s, const) Trong đó:
• known_y’s, known_x’s, new_x’s là các giá trị hoặc vùng địa chỉ chứa giá trị đã biết của x, y tương ứng và giá trị mới của
x
Const là hằng số Ngầm hiểu nếu const = 1 (True) thì hồi quy theo hàm y = a + bx, nếu const = 0 (False) thì hồi quy theo hàm y = bx FORECAST Dự báo giá trị tương lai căn cứ vào các giá trị hiện tại
Công thức: FORECAST(x, known_y’s, known_x’s)
Trong đó:
• x là giá trị sử dụng để dự báo
• known_y’s là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc quan sát được
Trang 24• known_x’s là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan sát được
ỈNTERCEPT Dùng để tính hệ số a của phương trình hồi quy đơn tuyến tính
Công thức : INTERCEPT(known_y’s, known_x’s) Trong đó:
• known_y’s là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc quan sát được
• known_x’s là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan sát được
SLOPE Dùng để tính hệ số b của phương trình hồi quy đơn tuyến tính
Công thức : SLOPE(known_y’s, known_x’s) Trong đó:
• known_y’s là các giá trị hoặc vùng địa chỉ của tập số liệu phụ thuộc quan sát được
• known_x’s là các giá trị hoặc vùng địa chỉ của tập số liệu độc lập quan sát được
CORREL Dùng để tính hệ số tương quan giữa X và Y
Công thức: CORREL(array1,array2)
Trong đó: array1, array2 tương ứng là tập số liệu phụ thuộc và tập
số liệu độc lập quan sát được Dưới đây là bảng thông tin về doanh thu và chi phí trong tháng 9 của công ty XYZ và cách dự báo bắng phương pháp hồi quy khi thực hiện thông qua đồ thị:
Cách th ực hiện bằng đồ thị:
- Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
- Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉ chứa biến độc lập X
- Bước 3: Vẽ đồ thi dạng Scatter
- Bước 4: Click chuột phải vào data series, chọn Add Trendline
- Bước 5: Tuỳ chọn hiển thị trong Trendline Options
• Linear: dạng đường thẳng
• Display Equation on chart
• Display R-squared value on chart
Sau khi thực hiện cá thao tác trên thì đồ thị sẽ xuất hiện như sau:
Hình 2.8 Kết quả dự báo bằng đồ thị
Cách th ực hiện bằng công cụ Regression
- Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
- Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression
- Bước 3: Khai báo các thông số vào ô Input và Output Options
Trang 25Sau khi thực hiện các bước thì hộp thoại Regression xuất hiện cùng kết quả dự báo như bảng dưới đây:
Hình 2.9 Kết quả dự báo bằng công cụ Regression
2.1.3.4 Phân tích tối ưu
Các bước lập mô hình như sau:
- Bước 1: Xác định biến quyết định của bài toán
Gọi x1 là sản lượng áo loại A, x 2 là sản lượng áo loại B, x 3 là sản lượng áo loại C cần sản xuất
- Bước 2: Xác định được hàm mục tiêu
Mục tiêu bài toán là tối đa hóa lợi nhuận ta có
P = P (áo loại A) + P (áo loại B) + P (áo loại C) = 0.6x1 +1.1x2 +0.8x3 → max
- Bước 3: Xác định các hệ ràng buộc của bài toán
Ràng buộc tài nguyên sử dụng:
Về bộ phận cắt: 0.2x1 +0.4x2 + 0.3x3 ≤ 1160
Về bộ phận may: 00.3x1 +0.5x2 + 0.4x3 ≤ 1560
Về bộ phận đóng: 0.1x1 +0.2x2 + 0.1x3 ≤ 480
Ràng buộc tự nhiên: x1, x2,x3 ≥ 0
Sử dụng công cụ SOLVER để giải mô hình kinh tế đã được lập ở trên
- Bước 1: Thiết lập mô hình kinh tế như bảng dưới đây
Trang 26Bảng 2.11 Bảng thiết lập mô hình kinh tế
Trong đó: E5 =SUMPRODUCT($C$20:$E$20,C21:E21)
E6 =SUMPRODUCT($C$20:$E$20,C22:E22)
E7 =SUMPRODUCT($C$20:$E$20,C23:E23)
E8 =SUMPRODUCT($C$20:$E$20,C24:E24)
- Bước 2: Chọn lệnh Data→ Analysis→ Solver Sau đó hộp thoại Slover sẽ xuất
hiện Chúng ta tiếp tục khai báo các tham số của bài toán như sau:
Hình 2.10 H ộp thoại Solver
• Set Objective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $F$25
• To: Chọn Max vì tình huống này là tối đa hóa lợi nhuận
• By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là $C$22:$E$22
• Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add
- Bước 3: Nhấn nút Solver để giải mô hình Lúc này hộp thoại Solver Results sẽ xuất hiện và chúng ta chọn Keep Solver Solution, Sensitivity
- Bước 4: Nhấn OK sẽ xuất hiện kết quả như hình dưới đây:
Hình 2.11 K ết quả mô hình kinh tế tối ưu
Trang 27Sau khi có kết quả thì chúng ta có thể dễ dàng chọn ra mô hình sản xuất tối ưu cho doanh nghiệp
Kết luận: Thông qua phần 2.1 của chương 2 trong học phần khoai học dữ liệu
này chúng ta có thể dễ dàng thống kê, dự báo cũng như chọn ra phương pháp tối ưu nhất dành cho mô hình sản xuất Nhiều công ty, xí nghiệp trên toàn thế giới có thể có nhiều công cụ khác nhau để tìm thực hiện các việc trên nhưng phần mềm Excel vẫn được chọn là đa số vì chúng rẻ và đơn giản, giúp tìm ra kết quả một cách nhanh chóng
và ph ù hợp Ngoài ra Excel còn là một công cụ để phân tích các vấn đề của doanh nghiệp, đề xuất các giải pháp và các quyết định mà trong một chừng mực nào đó có thể
được xem như hỗ trợ doanh nghiệp đạt được lợi thế cạnh tranh
2.2 PHẦN MỀM ORANGE
2.2.1 Tổng quan về phần mềm Orange
Khai phá dữ liệu và học máy là một trong số các lĩnh vực mới, nhiều thách thức
để nghiên cứu Để giải quyết những khó khăn trong quá trình nghiên cứu cũng như đơn giản hóa quy trình để mọi người có thể dễ dàng sử dụng, đó là lý do phần mềm Orange
ra đời
Phần mềm Orange được biết đến bởi việc tích hợp các công cụ khai phá dữ liệu
mã nguồn mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác dễ dàng Tất cả những người dùng đều có thể dễ dàng sử dụng phần mềm kể cả khi không có kĩ năng mã hóa Có thể nói Orange ra đời là một giải pháp tối ưu cho các doanh nghiệp cả lớn lẫn nhỏ để khai thác dữ liệu tạo quy trình quy trình kiểm tra, phân tích, chuẩn hóa dữ liệu tạo ra cây quyết định, MDS,…
Orange cung cấp cho người dùng các tiện ích được tích hợp đơn giản, tối giản nhất để người dùng phân tích dữ liệu một cách dễ dàng
• Data chứa các chức năng để trích, rút, nạp và biến đổi dữ liệu
• Visualize chứa các biểu đồ giúp quan sát dữ liệu được tốt hơn
• Model phân lớp dữ liệu
• Evaluate các phương pháp đánh giá mô hình máy học (phân lớp)
• Unsupervised phân cụm dữ liệu.”
2.2.2 Phương pháp phân cụm dữ liệu
Phương pháp phân cụm được thực hiện khi dữ liệu chưa có cấu trúc định dạng rõ ràng về bảng dữ liệu Không có biến phụ thuộc Target y, chỉ có biến độc lập feature x
2.2.2.1 Định nghĩa
Phân cụm dữ liệu là quá trình dữ liệu/đối tượng có những đặc điểm, tính chất tương đồng với nhau theo một tiêu chí nào đó được gom thành nhóm hoặc cụm (cluster) tương ứng
Lưu ý: Dữ liệu của bài toán phân cụm là những dữ liệu chưa được gán nhãn (tên của từng đối tượng mà ta phân tích chưa được biết rõ), đây chính là những dữ liệu tự nhiên thường thấy trong thực tế
Hình 2.12 Minh h ọa phương pháp phân cụm
Trang 28Mô hình phân cụm dữ liệu:
Dữ liệu thực → Trích chọn đặc trưng (nhận biết những đặc trưng của dữ liệu để gom thành các cụm khác nhau) → Thuật toán gom cụm → Đánh giá kết quả gom cụm
→ Biểu diễn kết quả gom cụm
2.2.2.2 Đặc điểm của phân cụm dữ liệu
- Tìm kiếm và tính toán, đo đạc sự khác biệt của các đối tượng dữ liệu là nhiệm
vụ chính
- Thuộc nhóm học không giám sát, vì số cụm dữ liệu không được biết trước (đây
là điều khác biệt với phương pháp phân lớp)
- Để có một phương pháp phân cụm hiệu quả nhất cần phải tạo ra các cụm có năng suất hiệu quả vượt trội hơn:
• Bên trong các cụm có độ tương đồng cao
• Các cụm phải có sự riêng biệt, khác nhau cao
2.2.2.3 Các ứng dụng của phương pháp phân cụm
- Ứng dụng điển hình
• Giúp phân cụm dữ liệu riêng biệt
• Bước tiền xử lý đối với những thuật toán khác
- Ứng dụng kinh tế
• Xác định được tệp khách hàng tiềm năng
• Nghiên cứu xu hướng những hành vi của khách hàng
• Nghiên cứu về mức độ cạnh tranh, mức độ lựa chọn sử dụng dịch vụ của những nhà cung cấp
• Nghiên cứu tính chất, đặc điểm của sản phẩm
• Nghiên cứu những hành vi của người tiêu dùng trên các nền tảng mạng
xã hội
• Đánh giá kết quả hoạt động kinh doanh
2.2.2.4 Các phương pháp phân cụm
2.2.2.4.1 Phân cụm dựa trên phân cấp (Hierarchical approach)
- Định nghĩa: Là quá trình hình thành một cây phân cấp cấp dữ liệu dựa trên các tiêu chí:
• Tạo ra ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
• Tạo độ đo khoảng cách giữa các cụm (single link, complete link…)”
- Đặc điểm: Phân cấp các đối tượng dựa trên một số tiêu chí
- Cần xác định điều kiện dừng với phân cụm dựa trên phân cấp, không cần xác định trước số cụm
- Các phương pháp điển hình: Diana, Agnes…
- Một số phương pháp tính khoảng cách: Mean (giữa các điểm mean của 2 cụm), metroid (giữa các metroid của 2 cụm), centroid (giữa các điểm centroid của 2 cụm)
- Phương pháp tính khảng cách nhỏ nhất giữa 1 phần tử trong một cụm với một phần tử trong cụm khác: Single-link (nhỏ nhất), complete-link (lớn nhất), average-link (trung bình)
- Ưu điểm của phân cụm phân lớp:
• Dễ dàng thực hiện giải thuật
• Đưa ra kết quả cuối cùng rất dễ hiểu
Trang 29• Tham số đầu vào lược bỏ, tiện lợi hơn
- Nhược điểm của phân cụm phân lớp:
• Không thể quay lại sửa lại sai sót ở các bước trước vì không quay về được
• Chỉ dùng được trên dữ liệu nhỏ và vừa vì tốc độ hạn chế
• Không xử lý được trên dữ liệu thiếu sót hoặc nhạy cảm với nhiễu
• Dữ liệu có các cụm lớn và không lồi sẽ bị nhiều hạn chế
2.2.2.4.2 Phân cụm dựa trên phân hoạch (Partitionting Clustering)
- Định nghĩa: Là quá trình phân tập dữ liệu thành k tập con từ n phần tử đã cho
trước, mỗi tập con sẽ thể hiện một cụm
- Cơ sở hình thành cụm là tối ưu hóa giá trị hàm độ đo tương tự sao cho:
• Mỗi đối tượng thuộc chỉ duy nhất một cụm, các phần tử trong cụm có sự tương đồng
• Mỗi cụm có tối thiểu một phần tử
- Đặc điểm: xây dựng các phân hoạch khác nhau và đánh giá chúng Sau đó tìm cách tối thiểu hóa tổng bình phương số độ lỗi
- K-means, K-mediods, Fuzzy C-means là một trong số các thuật toán thường sử dụng
2.2.2.4.3 Các phương pháp đánh giá phân cụm dữ liệu
- Việc đánh giá phân cụm dữ liệu là vấn đề khó khăn thách thức nhất trong bài toán phân cụm
- Các phương pháp đánh giá việc phân cụm dữ liệu:
• Đánh giá ngoài (External validation): Là đánh giá kết quả phân cụm dựa vào cấu trúc/xu hướng phân cụm được chỉ định trước cho tập dữ liệu
• Đánh giá nội bộ (Internal validation): Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của
dữ liệu thông qua ma trận xấp xỉ
• Đánh giá tương đối (Relative validation): Phương pháp này đánh giá kết quả gom cụm bằng việc so sánh với kết quả gom cụm ứng với các bộ trị thông số khác nhau hoặc với phương pháp khác
- Một số tiêu chí để đánh giá chất lượng phân cụm là:
• Độ nén (compactness): các phần tử của cụm phải “gần nhau”
• Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng
2.2.3 Phương pháp phân lớp dữ liệu
Phương pháp phân lớp được thực hiện để dự đoán những phân lớp cho các bộ dữ liệu, mẫu mới Khác với phân cụm dữ liệu, phương pháp phân lớp dữ liệu có biến target
y và phân dữ liệu vào các biến phụ thuộc y phù hợp
2.2.3.2 Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
- Bước 1: Xây dựng mô hình hay còn gọi là giai đoạn “học” hoặc “huấn luyện”
Trang 30Sử dụng dữ liệu đầu vào là dữ liệu mẫu được gán nhãn và tiền xử lý để dữ liệu không bị nhiễu hay có bất cứ sai sót nào Sau khi chạy các thuật toán phân lớp như cây quyết định, công thức logic… ta thu được kết quả là mô hình phân lớp đã được huấn luyện (trình phân lớp)
Hình 2.13 Quá trình phân l ớp dữ liệu - Xây dựng mô hình phân lớp
- Bước 2: Sử dụng mô hình: Được chia thành 2 bước nhỏ:
• Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Dữ liệu đầu vào đã được thực hiện tiền xử lý và gán nhãn nhưng lúc đưa vào mô hình phân lớp ta có thể bỏ qua một số thuộc tính đã được gán nhãn từ trước Ta xem xét
sự khác biệt giữa thuộc tính đã được gán thêm nhãn ở dữ liệu đầu vào và kết quả phân lớp để biết được tính chính xác của mô hình
Hình 2.14 Quá trình phân lớp dữ liệu - Đánh giá mô hình
• Phân lớp dữ liệu mới
Khi dữ liệu bị “khuyết” thuộc tính cần dự đoán lớp (nhãn) Thông qua những gì được huấn luyện ở bước 1, mô hình phân lớp sẽ tự động phân lớp (gán nhãn)
Hình 2.15 Quá trình phân l ớp dữ liệu - Phân lớp dữ liệu mới