1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM TIỂU LUẬN MÔN HỌC KHOA HỌC DỮ LIỆU Đề tài Ứng dụng mô hình học máy trong việc dự đoán khả năng rời bỏ dịch vụ của khách hàng Giảng viên hướng dẫn[.]
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
TIỂU LUẬN
MÔN HỌC: KHOA HỌC DỮ LIỆU
Đề tài: Ứng dụng mô hình học máy trong việc dự đoán khả năng rời bỏ
dịch vụ của khách hàng
Giảng viên hướng dẫn: Thái Kim Phụng Sinh viên thực hiện: Nguyễn Ngọc Thu Trang
Lớp: FNC03 MSSV: 31191026687 Lớp học phần: 21C1INF50905915 – Sáng thứ 5
TP.HCM, ngày 11 tháng 10 năm 2021
Trang 2MỤC LỤC
1 Giới thiệu bài toán ứng dụng 3
1.1 Lý do lựa chọn đề tài 3
1.2 Mục tiêu nghiên cứu 3
1.3 Phương pháp thực hiện 4
1.4 Đối tượng nghiên cứu 4
2 Cơ sở lý thuyết 4
2.1 Phương pháp cây ra quyết định 4
2.2 Phương pháp hồi quy logistics 5
2.3 Phương pháp Neural Network 5
3 Mô hình nghiên cứu đề xuất 6
3.1 Mô tả dữ liệu 6
3.2 Xử lý dữ liệu 9
3.3 Trực quan hóa dữ liệu 9
4 Kết quả thực hiện 15
4.1 Phân tích kết quả dựa trên phần mềm 15
4.2 Đánh giá kết quả và mô hình 16
5 Kết luận và nhận xét 16
6 Trích dẫn 17
Trang 31 Giới thiệu bài toán ứng dụng
1.1 Lý do lựa chọn đề tài
- Là một sinh viên Tài Chính nói riêng và thuộc ngành Kinh Tế nói chung, việc áp dụng kiến thức về kinh tế vào việc quan sát, nắm bắt và hiểu rõ việc kinh doanh là một trong những mục tiêu chính của sinh viên ngành Thông qua môn học Khoa học dữ liệu, việc áp dụng công nghệ số cũng như hiểu rõ dữ liệu trong mảng Tài Chính đã trở nên dễ hiểu cũng như dễ áp dụng trong quá trình nghiên cứu thị trường và doanh nghiệp
- Đối với các phương pháp trong khai phá dữ liệu, chúng giúp con người nâng cao khả năng phân tích, đánh giá dữ liệu trong thời kỳ bùng nổ
dữ liệu Từ đó, giúp con người có một cái nhìn tổng quan hơn về việc cải thiện, nâng cấp hoặc thay đổi những yếu tố cần thiết trong kinh tế nói riêng và đời sống nói chung
- Mức độ khách hàng rời bỏ dịch vụ luôn là một vấn đề có nhiều sự quan
tâm không chỉ của doanh nghiệp mà còn của các đối thủ và thậm chí là người tiêu dùng Mức độ này thể hiện sự ổn định của việc kinh doanh dịch vụ của các công ty cũng như lợi nhuận từ việc kinh doanh Mức
độ rời bỏ của khách hàng bị ảnh hưởng bởi các biến như: Chi phí dịch hàng tháng, phương thức thanh toán phí, loại hình dịch vụ, Từ các biến ảnh hưởng này, sinh viên nghiên cứu quyết định thực hiện đề tài dựa trên các biến xung quanh việc khách hàng tiêu dùng dịch vụ để đánh giá mức độ và khả năng khách có rời bỏ dịch vụ của doanh nghiệp hay không
1.2 Mục tiêu nghiên cứu
- Sinh viên nghiên cứu xác định 2 mục tiêu chính của bài nghiên cứu như sau:
o Xác định mô hình nào mang lại đánh giá có độ chính xác cao nhất trong việc nghiên cứu mức độ khách hàng rời bỏ doanh nghiệp với tập dữ liệu của công ty công nghệ hàng đầu thế giới IBM
Trang 4o Dựa trên mô hình đã được huấn luyện trong quá trình nghiên cứu,
đưa ra được kết luận về mức độ rời bỏ doanh nghiệp của khách hàng cũng như các cách thức cải thiện mức độ này
1.3 Phương pháp thực hiện
- Sử dụng ngôn ngữ lập trình Python (Jupyter Notebook), công cụ khai
phá dữ liệu Orange để xử lý dữ liệu, biểu diễn dữ liệu cũng như so sánh các mô hình
1.4 Đối tượng nghiên cứu
- Khách hàng sử dụng dịch vụ Internet và điện thoại bàn của công ty dịch vụ Telco Bộ dữ liệu được thu thập và tạo ra bởi công ty công nghệ IBM được đăng tải trên trang web kaggle Tập dữ liệu bao gồm thông tin dữ liệu thô chứa 7043 hàng dữ liệu (khách hàng) và 21 cột (đặc tính)
2 Cơ sở lý thuyết
2.1 Phương pháp cây ra quyết định (Decision Tree)
- Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong khi
đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal
Hình 1: Phương pháp cây ra quyết định
Trang 5- Nói ngắn gọn, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ liệu chưa biết
2.2 Phương pháp hồi quy logistic (Logistic Regression)
- Hồi quy logistic là một mô hình thống kê ở dạng cơ bản sử dụng một hàm logistic để lập mô hình một biến phụ thuộc nhị phân, mặc dù tồn tại nhiều phần mở rộng phức tạp hơn Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logit) là ước lượng các tham số của mô hình logistic (một dạng của hồi quy nhị phân) Về mặt toán học, mô hình logistic nhị phân có một biến phụ thuộc với hai giá trị có thể có, chẳng hạn như đạt / không đạt được đại diện bởi một biến chỉ báo, trong đó hai giá trị được gắn nhãn "0" và "1"
Hình 2: Phương pháp hồi quy logistics
2.3 Phương pháp Neural Network
- Mạng Neural, còn được gọi là mạng ron nhân tạo hoặc mạng nơ-ron mô phỏng, là một tập hợp con của học máy và là trung tâm của các thuật toán học sâu Tên và cấu trúc của chúng được lấy cảm hứng từ não người, bắt chước cách các tế bào thần kinh sinh học truyền tín hiệu cho nhau
Trang 6- Mạng Neural nhân tạo bao gồm một lớp nút, chứa một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu ra Mỗi nút, hoặc nơ-ron nhân tạo, kết nối với một nút khác và có trọng số và ngưỡng liên quan Nếu đầu ra của bất kỳ nút riêng lẻ nào vượt quá giá trị ngưỡng được chỉ định, nút đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo của mạng Nếu không, không có dữ liệu nào được chuyển đến lớp tiếp theo của mạng
Hình 3: Phương pháp Neural Network
3 Mô hình nghiên cứu đề xuất
3.1 Mô tả dữ liệu
- Trong các cột dữ liệu, cột Churn là mục tiêu của bài nghiên cứu, cho biết khách hàng có rời bỏ hay không Trong bài này, sinh viên sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu
- Các biến khác bao gồm:
Trang 7SeniorCitizen Cho biết khách hàng có phải là cư dân lâu
năm tại thành phố hay không, ký hiệu bằng 1 (có) và 0 (không)
Partner Cho biết khách hàng có bạn đời hay
không, ký hiệu bằng có và không
Dependents
Cho biết người dùng có người phụ thuộc hay không (con cái, bố mẹ già, ), ký hiệu bằng yes và no
tenure Cho biết số tháng khách hàng đã dùng dịch
vụ của công ty PhoneService Cho biết khách hàng dùng tới dịch vụ
chăm sóc khách hàng thông qua điện thoại hay không, ký hiệu có (true) và không (false)
MultipleLines Cho biết khách hàng có nhiều hơn 1 số
điện thoại dùng cho dịch vụ chăm sóc khách hàng hay không (Yes, No hoặc No phone service)
InternetService Cho biết dịch vụ Internet khách hàng đang
sử dụng (DSL, Fiber optic hoặc không sử dụng)
OnlineSecurity Cho biết khách hàng có sử dụng bảo mật
trực tuyến hay không (có, không hoặc không sử dụng dịch vụ Internet)
OnlineBackup Cho biết khách hàng có sử dụng dịch vụ
sao lưu trực tuyến hay không (có, không hoặc không sử dụng Internet)
Trang 83.2 Xử lý dữ liệu
- Trước khi áp dụng dữ liệu và mô hình, sinh viên nghiên cứu làm sạch
và xử lý gọn dữ liệu như sau:
Hình 4: Kết quả làm sạch dữ liệu
- Quan sát dữ liệu sinh viên nhận thấy 3 vấn đề sau:
o CustomerID là thuộc tính không ảnh hưởng đến việc đưa ra đánh giá, vì vậy sinh viên không sử dụng đặc tính này trong quá trình sau này
o SeniorCitizen không đồng bộ với các dữ liệu còn lại vì nó được biểu diễn dưới dạng 0 và 1, do đó sinh viên đưa nó về dạng có hoặc không
o TotalCharges biểu thị số lượng tiền nhưng tập dữ liệu thô lại biểu diễn dưới dạng object, sinh viên thực hiện xem xét dữ liệu có hiện null hay không Dữ liệu null hiện 11 trên tổng số hơn 7000 dòng,
vì vậy sinh viên thực hiện loại bỏ các dữ liệu này
3.3 Trực quan hóa dữ liệu
- Sinh viên sẽ sử dụng công cụ python và các thư viện của python để trực quan hóa dữ liệu và thu được các kết quả sau
- Giới tính:
Trang 9Hình 5: Trực quan hoá dữ liệu theo giới tính
- Điều này cho thấy có sự khác biệt không đáng kể về tỷ lệ phần trăm /
số lượng khách hàng đã thay đổi nhà cung cấp dịch vụ Cả hai giới tính đều có những hành vi giống nhau khi chuyển đến một nhà cung cấp dịch vụ / công ty khác
- Thời hạn hợp đồng:
Hình 6: Trực quan hoá dữ liệu theo thời gian hợp đồng
- Khoảng 75% khách hàng với Hợp đồng hàng tháng đã chọn chuyển ra ngoài so với 13% khách hàng với Hợp đồng một năm và 3% với Hợp đồng hai năm
- Loại hình dịch vụ:
Trang 10Hình 7: Trực quan hoá dữ liệu theo loại hình dịch vụ
- Rất nhiều khách hàng lựa chọn dịch vụ Cáp quang (Fiber optic) và điều hiển nhiên là những khách hàng sử dụng Cáp quang (Fiber optic)
có tỷ lệ rời bỏ cao, điều này có thể cho thấy sự không hài lòng với loại hình dịch vụ internet này Khách hàng sử dụng dịch vụ DSL chiếm đa
số về số lượng và có tỷ lệ gián đoạn ít hơn so với dịch vụ cáp quang (Fiber optic)
- Người phụ thuộc:
Hình 8: Trực quan hoá dữ liệu theo dữ liệu người phụ thuộc
- Dữ liệu cho thấy rằng khách hàng có người phụ thuộc có khả năng rời
bỏ cao hơn so với khách hàng không có người phụ thuộc
Trang 11Hình 9: Trực quan hoá dữ liệu mức độ rời bỏ dịch vụ của khách hàng có người phụ thuộc và không có
người phụ thuộc
- Những khách hàng độc thân có vẻ như có khả năng rời bỏ cao hơn những khách hàng có người sống chung
- Cư dân lâu năm, người cao tuổi:
Hình 10: Trực quan hoá dữ liệu về cư dân lâu năm và người cao tuổi
- Người cao tuổi có xu hướng sử dụng dịch vụ rất thấp cũng như thường
có xu hướng rời bỏ dịch vụ
- Sử dụng dịch vụ bảo mật trực tuyến:
Trang 12Hình 11: Trực quan hoá dữ liệu khách hàng có sử dụng bảo mật trực tuyến hay không
- Hầu hết khách hàng rời bỏ dịch vụ khi không có bảo mật trực tuyến
- Dịch vụ hỗ trợ công nghệ:
Hình 12: Trực quan hoá dữ liệu người dùng có sử dụng dịch vụ hỗ trợ công nghệ hay không
- Ta có được 71,37% khách hàng không sử dụng hỗ trợ công nghệ sẽ rời
bỏ, trong khi phần còn lại chỉ chiếm 15,28% Điều này có thể thấy khách hàng không được hỗ trợ công nghệ dường như có khả năng rời
bỏ dịch vụ cao hơn
- Dịch vụ chăm sóc khách hàng (PhoneService):
Trang 13Hình 13: Trực quan hoá dữ liệu về người sử dụng dịch vụ chăm sóc khách hàng
- Một phần rất nhỏ khách hàng không sử dụng dịch vụ điện thoại và trong số đó, 1/3 khách hàng có nhiều khả năng rời bỏ dịch vụ hơn
- Mức phí hàng tháng và hàng năm:
Hình 14: Mức phí hàng tháng
Hình 15: Phân bổ tổng cộng mức phí
o Khách hàng có mức phí hàng tháng cao thường sẽ rời bỏ dịch vụ,
Trang 14tuy nhiên so với mức phí hàng năm cao thì sẽ ngược lại.
o Và kết luận lại ta thu được heatmap sau:
Hình 16: Tổng hợp mức độ rời bỏ khách hàng với từng đặc tính khách hàng
- Sau khi đã làm sạch và trực quan hóa dữ liệu, sinh viên nghiên cứu áp dụng các mô hình vào dữ liệu
4 Kết quả thực hiện
4.1 Phân tích kết quả dựa trên phần mềm
- Sau khi thử hiện kiểm thử trên 3 mô hình theo các bước sau đây:
Hình 17: Các mô hình sử dụng kiểm thử
Trang 15- Kiểm tra kết quả sau khi huấn luyện dữ liệu, sinh viên thu được kết quả sau:
Hình 18: Kết quả sau khi huấn luyện dữ liệu
- Chọn dữ liệu cần dự báo và áp dụng mô hình Logistic Regression, thu được kết quả như sau:
Hình 19: Kết quả dữ liệu áp dụng vào mô hình Logistic Regression
- Với mô hình Logictic Regression và kết quả dự đoán trên, ta có thể sẽ giúp công ty đưa ra một số quyết định điều chỉnh để giúp giữ chân khác hàng ở lại
4.2 Đánh giá kết quả và mô hình
- Dựa trên 3 mô hình trên đã được chạy ta nhận thấy: Mô hình hồi quy logistic cho kết quả tốt hơn hẳn so với 2 mô hình còn lại Do đó, sinh viên sử dụng mô hình này để áp dụng vào tập dữ liệu cần dự đoán Sinh viên tin rằng mô hình này nên được áp dụng vào việc đánh giá khách hàng đối với các doanh nghiệp phù hợp trong tương lai
5 Kết luận và nhận xét
- Sự rời bỏ của khách hàng chắc chắn sẽ ảnh hưởng xấu đến lợi nhuận của công ty Nhiều chiến lược khác nhau có thể được thực hiện để loại
bỏ tình trạng bỏ trốn của khách hàng Cách tốt nhất để tránh bị khách hàng rời bỏ dịch vụ là một công ty phải thực sự hiểu rõ khách hàng của mình Điều này bao gồm xác định những khách hàng có nguy cơ xáo
Trang 16trộn và làm việc để cải thiện sự hài lòng của họ Tất nhiên, cải thiện dịch vụ khách hàng là ưu tiên hàng đầu để giải quyết vấn đề này Xây dựng lòng trung thành của khách hàng thông qua các trải nghiệm có liên quan và dịch vụ chuyên biệt là một chiến lược khác để giảm bớt sự rời bỏ của khách hàng Một số công ty khảo sát những khách hàng đã rời đi để hiểu lý do rời đi của họ để áp dụng cách tiếp cận chủ động nhằm tránh tình trạng khách hàng rời đi trong tương lai
- Hạn chế của đề tài
o Thời gian học phần ngắn, sinh viên vẫn còn chưa thực sự vững trong thực hành các bước huấn luyện dữ liệu cũng như làm việc với dữ liệu
o Độ chính xác mô hình vẫn còn chưa đạt tới mức tuyệt đối, vì vậy không thể tránh khỏi những sai sót trong quá trình dự đoán nên việc đưa ra kết luận không thể dựa hoàn toàn 100% vào việc chạy
mô hình
o Tại Việt Nam, dữ liệu về khách hàng là một dạng bảo mật thông tin, vì vậy, sinh viên chưa thực sự có cơ hội làm việc với dữ liệu trong nước và dữ liệu thực tế
6 Trích dẫn
Các thuật toán từ scratch: Hồi quy logistic (n.d.) Retrieved October 11, 2021, from ICHI.PRO website: https://ichi.pro/vi/cac-thuat-toan-tu-scratch-ho i-quy-logistic-135982420161422
Cây Quyết Định (Decision Tree) (2019, June 6) Retrieved October 11, 2021, from Trí tuệ nhân tạo website: https://trituenhantao.io/kien-thuc/decisio n-tree/
Hai, D M (n.d.) [NN] Mạng nơ-ron nhân tạo - Neural Networks Retrieved October 11, 2021, from Hai’s Blog website: https://dominhhai.github.io/ vi/2018/04/nn-intro/