1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đồ án môn học phân tích dữ liệu đặt phòng khách sạn bằng phần mềm orange

20 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích dữ liệu đặt phòng khách sạn bằng phần mềm Orange
Tác giả Nguyễn Văn A, Nguyễn Văn B, Nguyễn Văn C, Nguyễn Văn D, Nguyễn Văn E
Người hướng dẫn Giảng Viên
Trường học Đại Học Kinh Tế TP Hồ Chí Minh
Chuyên ngành Khoa Học Dữ Liệu
Thể loại Đồ án
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 20
Dung lượng 1,68 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ  ĐỒ ÁN MÔN HỌC Phân tích dữ liệu đặt phòng khách sạn bằng phần mềm Orange Học phần: Khoa Học Dữ Liệu

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ



ĐỒ ÁN MÔN HỌC Phân tích dữ liệu đặt phòng khách sạn bằng phần mềm Orange

Học phần: Khoa Học Dữ Liệu Nhóm Sinh Viên:

1  NGUYỄN VĂN A

2  NGUYỄN VĂN B

3  NGUYỄN VĂN C

4  NGUYỄN VĂN D

5  NGUYỄN VĂN E Chuyên Ngành:

Khóa: K46 Giảng Viên:

TP Hồ Chí Minh, Ngày xx tháng xx

Trang 2

MỤC LỤC

MỤC LỤC 1

CHƯƠNG 1 TỔNG QUAN 2

1.1 Lý Do Chọn Lựa Đề Tài 2

1.2 Giới Thiệu Về Phần Mềm Orange 2

1.3 Mục tiêu nghiên cứu 3

CHƯƠNG 2 CÁC KẾT QUẢ THỰC NGHIỆM 3

3.1 Bộ dữ liệu 3

Tiền xử lý dữ liệu: 3

3.2 Các Kết Quả Thực Nghiệm 6

3.2.1 Bài toán phân cụm khách hàng 6

3.2.2 Bài toán phân lớp khách hàng 11

3.3 Phân Tích và Đánh Giá 12

3.3 Kết quả dự báo 18

CHƯƠNG 4 KẾT LUẬN 18

4.1 Kết quả 18

TÀI LIỆU THAM KHẢO 20

1

Trang 3

CHƯƠNG 1 TỔNG QUAN 1.1 Lý Do Chọn Lựa Đề Tài

Đội ngũ nhân viên là tài sản lớn nhất mà một công ty Các nhân viên trong công ty làm việc để mở đường cho sự thành công của công ty và tất cả các quản trị cần thiết để điều hành công ty Nhưng vì nhiều lý do nhân viên không hài lòng với công việc hoặc công ty

mà họ đang làm việc và điều này có xu hướng hoặc kết quả là họ rời bỏ công ty hoặc tìm kiếm một công ty mới Đó là một trong những khó khăn quan trọng nhất mà chủ sở hữu công ty phải đối mặt khi tổ chức của họ mất đi những nhân viên xuất sắc Một nhân viên giỏi luôn là tài sản quý giá của công ty, và sự rời đi của họ có thể dẫn đến nhiều vấn đề khác nhau, bao gồm tổn thất tài chính, hiệu suất tổng thể kém và mất tích lũy chuyên môn Hơn nữa, so với đào tạo, nâng cao tay nghề, chuyên môn của nhân viên hiện tại, việc tuyển dụng nhân sự mới gây ra những chi phí tốn kém, mất thời gian đáng kể và đôi khi không đạt được hiệu quả như mong muốn

Vì thế, nhóm em muốn cung cấp một hệ thống để dự đoán bằng phương pháp máy học để giúp bộ phận nhân sự của một công ty muốn dự đoán liệu một số nhân viên có rời công ty trong 2 năm tới hay không Một khám phá thú vị có thể giúp các nhà tuyển dụng trong tương lai xây dựng quy trình làm việc và đưa ra quyết định nhằm ngăn cản những nhân viên yêu thích rời bỏ công ty của họ

1.2 Giới Thiệu Về Phần Mềm Orange

Giới thiệu về Phần Mềm Orange: Orange là một công cụ khai phá dữ liệu và học máy nguồn mở, được viết bằng Python Orange cung cấp một môi trường trực quan và tương tác để phân tích dữ liệu và xây dựng các mô hình học máy

Orange có một số tính năng chính, bao gồm:

 Trực quan hóa dữ liệu: Orange cung cấp một loạt các công cụ để trực quan hóa dữ liệu, bao gồm biểu đồ, đồ thị, và bản đồ nhiệt

 Khai thác dữ liệu: Orange cung cấp một loạt các thuật toán khai thác dữ liệu, bao gồm  phân loại, hồi quy, và clustering

 Học máy: Orange cung cấp một loạt các mô hình học máy, bao gồm các mô hình dựa trên cây, các mô hình dựa trên sự hỗ trợ vector, và các mô hình dựa trên mạng nơ-ron Orange là một công cụ mạnh mẽ cho phân tích dữ liệu và học máy Nó là một lựa chọn tốt cho các nhà khoa học dữ liệu, kỹ sư máy học, và sinh viên

Trang 4

1.3 Mục tiêu nghiên cứu

Xác định được các đặc điểm đặc trưng của một nhân viên có ý định rời khỏi công ty để kịp thời đưa ra các chính sách, giải pháp, những đề nghị mới để có thể hạn chế tối đa việc thiếu hụt nhân lực thông qua 3 bài toán cụ thể

Bài toán 1: Phát hiện điểm đặc thù của bộ dữ liệu

Bài toán 3: Phân cụm/ nhóm nhân viên có khả năng cao sẽ rời đi khỏi công ty

Bài toán 2: Dự đoán khả năng nhân viên sẽ rời bỏ công ty hay không

CHƯƠNG 2 CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ dữ liệu

Tiền xử lý dữ liệu:

Dữ liệu được lấy từ Kaggle 4653 đối tượng trong đó có 1 biến phụ thuôc (LeaveOrNot)

và 8 biến độc lập, được khảo sát trong năm 2018

 Nguồn dữ liệu: https://www.kaggle.com/code/nourhanmahmoudahmed/employee-future- prediction-eda/notebook 

nhân viên

Cử Nhân, Thạc

sĩ, Tiến sĩ 

2 JoiningYear   Năm tham gia công ty Số nguyên (từ

2012 đến 2018)

 phòng của công ty  New Delhi.Bangalore, Pune,

2 (Trung cấp) 3(Thấp nhất) 

21 đến 42)

 Nữ

3

Trang 5

7 EverBenched Từng không tham dự dự

án từ 1 tháng trở lên: Có

Không.

8 ExperienceInCurrentDomain Kinh nghiệm trong lĩnh

đến 7)

trong 2 năm tới hay không

1: Nhân viên rời

đi trong 2 năm tới

0: nhân vien không rời đi trong 2 năm tới

 Nhóm em sử dụng chức năng outlier để lọc các đối tượng không ngoại lệ, sau đó sử dụng tiếp chức năng data sampler để lấy ngầy nhiên 70% bộ dữ liệu gốc và dùng 30% còn lại

để thực hiện bài toán dự báo nhân viên có lựa chọn rời đi hay không trong vòng 2 năm tới

3.2 Bài toán phân cụm khách hàng 

Mô tả bài toán

Bước 1: Chọn file “train_70%.tab” và để tất biến “LeaveOrNot” là Skip

Trang 6

Bước 2: Dùng phương pháp K-means và Hierachical, thực hiện phân làm từ 2 đến 5 nhóm, xem xét phân làm bao nhiêu cụm thì tối ưu nhất

Bước 3: Dùng Silhouette Plot để minh họa dữ liệu Dữ liệu từ Silhouette được minh họa trên Data table

Bước 4: Tìm đặc điểm của các nhóm khách hàng hủy đặt phòng

Bước 5: Đánh giá và kết luận

Kết quả phân loại Kmeans

 Nhận xét: chỉ số Silhoitte Scores khi phân làm 2 cụm là cao nhất Quan sát điểm bóng  bằng chức năng Silhouette Score, điểm bóng của 3 cụm lớn hơn 2 cụm (0.4>0.1), tuy nhiên độ lệch của điểm bóng khi phân của 3 cụm cũng lớn hơn nhiều với 2 cụm

(-0.4<-5

Trang 7

0.5) Vì vậy nhóm nghiên cứu đưa ra kết luận: chọn phân làm 2 cụm theo phương pháp K-means

Trang 9

 Hình 12 Kết quả phân cụm theo phương pháp K-means và Silhouette Plot 

Kết quả phân loại Hierarchical

Theo phương phápHierarchical, bộ dữ liệu này được phân làm 2 cụm là tốt nhất vì khi phâm làm

3 cụm hoặc nhiều hơn 2 cụm thì điểm bóng của

 bộ dữ liệu tuy có tăng:

Phân làm 3 cụm điểm bóng đạt tối đa là 0.4 nhưng lệch tối đa là -0.6 Trong khi phân làm 2 cụm, điểm bóng tối đa là 0,15 là lệch tối đa là 0,5 Vf vậy, nhóm em đưa ra kết luận: chọn phân làm 2 cụm để dữ liệu không bị phân tách.

Trang 10

  9

Trang 11

Kết quả bài toán phân cụm khách hàng theo K-means

Kết quả bài toán phân cụm khách hàng theo Hierarchical

3.3 Bài toán phân lớp khách hàng

Các bước thực hiện mô hình phân lớp dữ liệu

Bước 1: Chọn dữ liệu File “train_70%.tab” và chọn cột “LeaveOrNot” làm Target

Trang 12

Bước 2: Nối File “train_70%.tab” và 3 phương pháp Logistic Regression, SVM và Decision Tree với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn

Bước 3: Liên kết phương pháp tốt nhất và File “test_30%” với Predictions để đánh giá và  phân loại dữ liệu đầu vào

Bước 4: Xuất kết quả dự báo qua Data Table

 Mô hình phân lớp

3.4 Phân Tích và Đánh Giá bài toán phân lớp

3.3.1 Đánh giá mô hình dựa trên kết quả của Test and Score

 AUC: Logistic Regression > Decision tree > SVM (0.906>0.880>0.613)

 CA: Decision tree > Logistic Regression > SVM (0.873 > 0.854 > 0.596)

 F1: Decision tree > Logistic Regression > SVM (0.872 > 0.850 > 0.596)

 Prec: Decision tree > Logistic Regression > SVM(0.874 > 0.872 > 0.597)

 Recall: Decision tree > Logistic Regression > SVM (0.873>0.854 > 0.596)

=> Nên sử dụng mô hình decision tree cho bài toán dự đoán

 2.2.3.2 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:

Kết quả hồi quy theo Logistis Regression:

11

Trang 14

Kết quả hồi quy teo Decision Tree:

13

Trang 15

Kết quả hồi quy theo SVM:

Sai lầm loại 2: Dự đoán là không không hủy phòng nhưng thực tế là hủy phòng Nếu sai lầm này càng nhiều thì khách sạn sẽ tổn thất kinh tế và đưa ra các chiến lược kinh doanh sai lầm Tree = 18.5% < Logistic Regression = 29.3% < LR = 43.0%

→ Sai lâm loại 2 của phương pháp Tree là nhỏ nhất trong ba phương pháp trên

⇒ Sử dụng phương pháp Tree để dự đoán khách hàng có hủy đặt phòng hay không

Trang 16

Mô hình Decision tree

  Nếu tình trạng đặt cọc của khách sạn là không hoàn lại phí đặt cọc thì phòng được đặt sẽ bị hủy với độ chính xác 99,6 %

  Nếu yêu cầu của khách sạn là không cọc hoặc tiền cọc được trả lại thì khách hàng

sẽ không hủy phòng đặt đặt phòng với độ chính xác 73,8%

15

Trang 17

Kết quả Logistic Regression

Từ kết quả trên, nhóm em nhận thấy các biến sau có tác động mạnh đến việc khách hàng hủy phòng:

 market_segment: OperationOnline TA (Travel Agency): đặt phòng online qua các văn phòng đặt phòng khách sạn

 deposit_type: Non Refund: khách sạn không trả lại cọc

  previous_cancellations: lịch sử số lần hủy phòng của khách hàng

Trang 18

3.3 Kết quả dự báo

CHƯƠNG 4 KẾT LUẬN 4.1 Kết quả

 Với kết quả dự báo có tính chính xác tối đa và mức độ sai lầm tối thiểu, do vậy, nhóm xin đề xuất sử dụng phương pháp Decision tree để thực hiện bài toán dự báo khách hàng hủy hay không hủy phòng Qua đó, đồ án giúp phân tích các đặc điểm của khách hàng hủy phòng đã đặt và các khách hàng không hủy phòng khách sạn

Từ đó có thể giúp các khách sạn đề ra chiến lược kinh doanh

 Thông qua mô hình Decision tree và Logistic Regression, nhóm em cũng nhận thấy rằng tỷ lệ hủy phòng cao có thể là do chính sách không trả cọc của khách sạn

Do đó nhóm em đề xuất khách sạn nên tăng tiền đặt cọc phòng để giảm tỷ lệ phòng

 bị hủy

 Đặc biệt, khách sạn nên tăng tiền cọc cao với nhóm khách hàng đăng ký trực tuyến qua các văn phòng đặt phòng khách sạn

 Khách sạn nên có một danh sách riêng dành cho nhóm khách hàng có lượt đặt chỗ

 bị hủy trước đó nhiều lần vì nhóm khách này có xu hướng hủy phòng

4.2 Hạn chế

 Bộ dữ liệu nhóm em sử dụng được hoàn thành trong quá khứ (2015-2017) nên kết

sẽ không đúng với kêt quả hiện tại

 Sinh viên vẫn chưa áp dụng được nhiều kiến thức chuyên ngành quan trọng trong

dự án vì hạn chế về mặt thông tin và hiểu biết về kiến thức chuyên ngành

17

Trang 19

 Phạm vi nghiên cứu và ứng dụng của dự án còn nhiều hạn chế, do nhóm chỉ đưa ra giải pháp cho một nhóm khách hàng nhỏ và bộ dữ liệu chưa có nhiều biến độc lập nên không đưa ra được nhiều giải pháp cho tình trạng hủy đặt phòng khách sạn

Trang 20

TÀI LIỆU THAM KHẢO

1 Batóg, B., Wawrzyniak, K (2022) Comparison of Influence of Various Proposals of  Transforming Nominants into Stimulants on Linear Ordering and Grouping of Listed  Companies In: Jajuga, K., Dehnel, G., Walesiak, M (eds) Modern Classification and Data Analysis Springer, Cham

2 Speller, J., Staerk, C., Gude, F et al (2023). Robust gradient boosting for generalized  additive models for location, scale and shape Adv Data Anal Classif 

3 Luís Nunes, Nuno Antonio, Ana Maria De Almeida (2018).Hotel booking demand dataset

19

Ngày đăng: 30/10/2023, 16:00

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w