Theo một báo cáo của McKinsey 2021, chỉ khoảng 25% các công ty bán lẻ trêntoàn cầu thực sự ứng dụng các phương pháp phân tích dữ liệu tiên tiến để tối ưu hóa trảinghiệm khách hàng và xây
Trang 1HỌC VIỆN NGÂN HÀNG KHOA CÔNG NGHỆ THÔNG TIN & KINH TẾ SỐ
BÀI TẬP LỚN KẾT THÚC HỌC PHẦN KHAI PHÁ VÀ PHÂN TÍCH DỮ LIỆU
Trang 2Hà Nội, tháng 5 năm 2024
Trang 3HỌC VIỆN NGÂN HÀNG KHOA CÔNG NGHỆ THÔNG TIN & KINH TẾ SỐ
BÀI TẬP LỚN KẾT THÚC HỌC PHẦN KHAI PHÁ VÀ PHÂN TÍCH DỮ LIỆU
Họ và tên Mã sinh viên Đóng góp
1234
Trang 4Hà Nội, tháng 5 năm 2024
Trang 5Phân công công việc
STT Mã sinh viên Họ và tên Phân công Chữ ký
Trang 6LỜI CẢM ƠN
Trang 7LỜI CAM ĐOAN
Trang 8LỜI MỞ ĐẦU
Trang 9TÓM TẮT
Trang 10MỤC LỤC
Lời cảm ơn 4
Lời cam đoan 5
Lời mở đầu 6
Tóm tắt 7
Mục lục 8
Danh mục chữ viết tắt 10
Danh mục hình 11
Danh mục 12
Danh mục công thức 13
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 14
1.1 Đặt vấn đề 14
1.2 Cơ sở hình thành đề tài 14
1.3 Một số kết quả nghiên cứu trong và ngoài nước 14
1.3.1 Một số kết quả nghiên cứu trong Việt Nam 14
1.3.2 Một số kết quả nghiên cứu ngoài Việt Nam 14
1.4 Mục tiêu đề tài 14
1.5 Đối tượng và phương pháp nghiên cứu 14
Trang 111.6 Ý nghĩa của đề tài 14
1.6.1 Ý nghĩa khoa học 14
1.6.2 Ý nghĩa thực tiễn 14
1.7 Bố cục đề tài 14
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 14
2.1 Tổng quan về kỹ thuật khai phá dữ liệu 14
2.1.1 Khái niệm khai phá dữ liệu 14
2.1.2 Các giai đoạn của quá trình khai phá dữ liệu 14
2.2 14
2.3 Bài toán phân lớp trong Khai phá dữ liệu 14
2.3.1 Khái niệm về phân lớp 14
2.3.2 Quá trình phân lớp dữ liệu 14
2.3.3 Phân lớp dữ liệu bằng cây quyết định/randomforest/hồi qui 14
2.3.4 Đánh giá hiệu quả phân lớp 14
2.3.5 Thuật toán phân lớp C4.5/randomforest/ 14
2.4 Cơ sở lý thuyết về tài chính, ngân hàng, y khoa, chứng khoán… 14
2.4.1 Tổng quan về tài chính, ngân hàng, y khoa, chứng khoán… 14
2.4.2 Quá trình chấm điểm tín dụng/diễn biến bệnh tim, tiểu đường 14
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO/CHẨN ĐOÁN 14
3.1 Cơ sở dữ liệu xây dựng mô hình 14
3.2 Kho dữ liệu về 14
3.3 Phân tích dữ liệu 14
3.4 Các qui luật chẩn đoán/rửa tiền 15
3.5 Xây dựng mô hình 15
3.6 Sử dụng lý thuyết toán học 15
Trang 123.7 Giới thiệu thuật toán 15
3.8 Cách thức thực hiện thuật toán 15
Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 15
4.1 Thực nghiệm 15
4.1.1 Thực nghiệm với dữ liệu ít thuộc tính 15
4.1.2 Thực nghiệm với dữ liệu đầy đủ thuộc tính 15
Chương 5: TỔNG KẾT 15
5.1 Kết luận 15
5.2 Hạn chế của đề tài 15
5.3 Hướng phát triển 15
TÀI LIỆU THAM KHẢO 15
PHỤ LỤC 1 15
PHỤ LỤC 2 15
DANH MỤC CHỮ VIẾT TẮT
Trang 13DANH MỤC HÌNH
Trang 14DANH MỤC
Trang 15Theo một báo cáo của McKinsey (2021), chỉ khoảng 25% các công ty bán lẻ trêntoàn cầu thực sự ứng dụng các phương pháp phân tích dữ liệu tiên tiến để tối ưu hóa trảinghiệm khách hàng và xây dựng chiến lược giữ chân khách hàng Điều này có nghĩa làphần lớn các công ty vẫn chưa khai thác triệt để tiềm năng dữ liệu khách hàng, bỏ qua cơhội quan trọng trong việc cải thiện sự gắn bó và lòng trung thành của khách hàng.
Sự gắn bó của khách hàng trong ngành bán lẻ không chỉ được đo bằng việc muasắm thường xuyên, mà còn phụ thuộc vào nhiều yếu tố khác nhau, bao gồm chất lượngsản phẩm, mức độ tương tác với dịch vụ chăm sóc khách hàng, trải nghiệm tại điểm bán,các chương trình khuyến mãi hấp dẫn và sự đổi mới của các sản phẩm/dịch vụ Tuy nhiên,
Trang 16hàng nhận được từ thương hiệu Một số nghiên cứu cho thấy, các công ty bán lẻ có thể cảithiện đáng kể sự gắn bó của khách hàng nếu họ áp dụng các phương pháp phân tích dữliệu để cá nhân hóa trải nghiệm khách hàng và dự đoán nhu cầu của họ trong tương lai.
Ứng dụng bài toán phân lớp (classification) trong việc dự đoán sự gắn bó củakhách hàng trong lĩnh vực bán lẻ là một trong những phương pháp hiệu quả nhất hiện nay.Phân lớp là một kỹ thuật trong học máy (machine learning) giúp phân chia khách hàngthành các nhóm theo mức độ gắn bó hoặc trung thành, từ đó giúp các doanh nghiệp hiểu
rõ hơn về hành vi và nhu cầu của từng nhóm khách hàng Các mô hình phân lớp có thể dựđoán liệu một khách hàng có khả năng tiếp tục mua sắm, rời bỏ thương hiệu hay tham giavào các chương trình khuyến mãi trong tương lai hay không
Tuy nhiên, theo thống kê của Forrester (2022), chỉ 18% các công ty bán lẻ có chiếnlược phân tích dữ liệu đủ mạnh để thực hiện các dự đoán về sự gắn bó của khách hàng.Một trong những lý do chính khiến các công ty chưa khai thác hết tiềm năng của dữ liệu
là thiếu hụt về hạ tầng phân tích dữ liệu, cũng như thiếu hiểu biết về cách áp dụng các môhình học máy vào việc phân tích hành vi khách hàng
Nghiên cứu của Deloitte (2021) chỉ ra rằng các công ty bán lẻ áp dụng phân tích dữliệu để phân lớp khách hàng có thể tăng tỷ lệ giữ chân khách hàng lên đến 20%, giảm tỷ
lệ khách hàng bỏ đi (churn rate) xuống 15%, và đồng thời tăng trưởng doanh thu từ cáckhách hàng trung thành lên đến 30% Các yếu tố tác động đến sự gắn bó của khách hàngtrong ngành bán lẻ bao gồm sự tương tác và trải nghiệm khách hàng, tính cá nhân hóatrong dịch vụ và sản phẩm, cũng như chương trình thưởng và khuyến mãi phù hợp
Tuy nhiên, cũng giống như sự gắn bó của nhân viên, sự gắn bó của khách hàngkhông chỉ đơn giản là mức độ hài lòng mà còn bị ảnh hưởng bởi các yếu tố bên ngoài nhưtình hình kinh tế, xu hướng tiêu dùng và sự cạnh tranh từ các đối thủ trong ngành Vì vậy,việc thu thập dữ liệu thường xuyên và phân tích hành vi khách hàng liên tục là điều cầnthiết để duy trì và gia tăng sự gắn bó của khách hàng Theo một nghiên cứu của HarvardBusiness Review (2020), các công ty bán lẻ thu thập và phân tích dữ liệu khách hàng ítnhất mỗi quý sẽ có tỷ lệ giữ chân khách hàng cao hơn 20% so với các công ty chỉ thu thập
dữ liệu một lần hoặc ít hơn mỗi năm
Như vậy, việc ứng dụng bài toán phân lớp vào dự đoán sự gắn bó của khách hàngtrong lĩnh vực bán lẻ là một xu hướng ngày càng quan trọng Các doanh nghiệp cần đầu tư
Trang 17vào hạ tầng phân tích dữ liệu và các công cụ học máy để tối ưu hóa chiến lược giữ chânkhách hàng, đồng thời duy trì mối quan hệ bền vững và phát triển trong môi trường cạnhtranh khốc liệt.
1.2 Cơ sở hình thành đề tài
Khách hàng là tài sản quý giá nhất đối với bất kỳ doanh nghiệp nào, đặc biệt trongngành bán lẻ Việc duy trì mối quan hệ bền chặt và xây dựng sự gắn bó của khách hàngkhông chỉ giúp doanh nghiệp tăng trưởng doanh thu mà còn góp phần tạo ra lợi thế cạnhtranh lâu dài Trong môi trường kinh doanh ngày càng khốc liệt, khi mà nhu cầu và thóiquen tiêu dùng thay đổi nhanh chóng, việc duy trì và giữ chân khách hàng đã trở thànhmột trong những ưu tiên hàng đầu của các công ty bán lẻ Những khách hàng gắn bó sẽtiếp tục mua sắm, giới thiệu sản phẩm cho người khác và tham gia vào các chương trìnhkhuyến mãi, từ đó giúp doanh nghiệp tăng trưởng bền vững
Tuy nhiên, giữ chân khách hàng không phải là điều dễ dàng Nó đòi hỏi các công
ty phải liên tục nắm bắt nhu cầu, thấu hiểu hành vi và mong muốn của khách hàng, đồngthời tạo ra trải nghiệm mua sắm vượt trội Trong khi đó, việc thu thập và phân tích dữ liệukhách hàng để đưa ra các chiến lược marketing phù hợp chưa được nhiều doanh nghiệptận dụng một cách tối đa
Sự phát triển của công nghệ thông tin, khoa học dữ liệu và các phương pháp họcmáy đã tạo ra cơ hội mới trong việc xây dựng các mô hình dự đoán sự gắn bó của kháchhàng Những mô hình này có thể giúp các doanh nghiệp bán lẻ dự đoán hành vi của kháchhàng dựa trên các yếu tố như tần suất mua sắm, mức độ hài lòng, thói quen tiêu dùng,tham gia các chương trình khuyến mãi, v.v Việc áp dụng các mô hình phân lớp(classification) trong phân tích dữ liệu khách hàng giúp doanh nghiệp phân loại kháchhàng theo mức độ trung thành, từ đó đưa ra những chiến lược phù hợp để giữ chân kháchhàng tiềm năng và tối ưu hóa trải nghiệm của khách hàng hiện tại
Trong thời đại số hóa, khi các công ty bán lẻ đối mặt với sự cạnh tranh gay gắt và
sự thay đổi nhanh chóng trong nhu cầu của khách hàng, việc xây dựng một mô hình dự
Trang 18các công ty tăng trưởng doanh thu mà còn hỗ trợ họ trong việc giảm thiểu chi phímarketing và giữ vững sự trung thành của khách hàng, từ đó duy trì và tăng cường nănglực cạnh tranh.
1.3 Một số kết quả nghiên cứu trong và ngoài nước
1.3.1 Một số kết quả nghiên cứu trong Việt Nam
Trong ngành bán lẻ, sự gắn bó của khách hàng là một yếu tố quan trọng không chỉđối với việc duy trì và phát triển doanh thu, mà còn ảnh hưởng trực tiếp đến sự bền vững
và thành công lâu dài của doanh nghiệp Sự gắn bó của khách hàng có thể được đo lườngbằng các chỉ số như tần suất mua sắm, mức độ hài lòng, sự trung thành, và mức độ thamgia vào các chương trình khuyến mãi hay các hoạt động của công ty Tuy nhiên, khôngphải tất cả các doanh nghiệp bán lẻ đều nhận thức được giá trị từ việc sử dụng dữ liệu đểphân tích và dự đoán sự gắn bó của khách hàng
Theo một báo cáo của McKinsey (2021), chỉ khoảng 25% các công ty bán lẻ trêntoàn cầu thực sự ứng dụng các phương pháp phân tích dữ liệu tiên tiến để tối ưu hóa trảinghiệm khách hàng và xây dựng chiến lược giữ chân khách hàng Điều này có nghĩa làphần lớn các công ty vẫn chưa khai thác triệt để tiềm năng dữ liệu khách hàng, bỏ qua cơhội quan trọng trong việc cải thiện sự gắn bó và lòng trung thành của khách hàng
Sự gắn bó của khách hàng trong ngành bán lẻ không chỉ được đo bằng việc muasắm thường xuyên, mà còn phụ thuộc vào nhiều yếu tố khác nhau, bao gồm chất lượngsản phẩm, mức độ tương tác với dịch vụ chăm sóc khách hàng, trải nghiệm tại điểm bán,các chương trình khuyến mãi hấp dẫn và sự đổi mới của các sản phẩm/dịch vụ Tuy nhiên,yếu tố quan trọng nhất vẫn là mức độ hài lòng tổng thể và cảm nhận về giá trị mà kháchhàng nhận được từ thương hiệu Một số nghiên cứu cho thấy, các công ty bán lẻ có thể cảithiện đáng kể sự gắn bó của khách hàng nếu họ áp dụng các phương pháp phân tích dữliệu để cá nhân hóa trải nghiệm khách hàng và dự đoán nhu cầu của họ trong tương lai
Ứng dụng bài toán phân lớp (classification) trong việc dự đoán sự gắn bó củakhách hàng trong lĩnh vực bán lẻ là một trong những phương pháp hiệu quả nhất hiện nay.Phân lớp là một kỹ thuật trong học máy (machine learning) giúp phân chia khách hàngthành các nhóm theo mức độ gắn bó hoặc trung thành, từ đó giúp các doanh nghiệp hiểu
rõ hơn về hành vi và nhu cầu của từng nhóm khách hàng Các mô hình phân lớp có thể dựđoán liệu một khách hàng có khả năng tiếp tục mua sắm, rời bỏ thương hiệu hay tham giavào các chương trình khuyến mãi trong tương lai hay không
Tuy nhiên, theo thống kê của Forrester (2022), chỉ 18% các công ty bán lẻ có chiếnlược phân tích dữ liệu đủ mạnh để thực hiện các dự đoán về sự gắn bó của khách hàng.Một trong những lý do chính khiến các công ty chưa khai thác hết tiềm năng của dữ liệu
Trang 19là thiếu hụt về hạ tầng phân tích dữ liệu, cũng như thiếu hiểu biết về cách áp dụng các môhình học máy vào việc phân tích hành vi khách hàng.
Nghiên cứu của Deloitte (2021) chỉ ra rằng các công ty bán lẻ áp dụng phân tích dữliệu để phân lớp khách hàng có thể tăng tỷ lệ giữ chân khách hàng lên đến 20%, giảm tỷ
lệ khách hàng bỏ đi (churn rate) xuống 15%, và đồng thời tăng trưởng doanh thu từ cáckhách hàng trung thành lên đến 30% Các yếu tố tác động đến sự gắn bó của khách hàngtrong ngành bán lẻ bao gồm sự tương tác và trải nghiệm khách hàng, tính cá nhân hóatrong dịch vụ và sản phẩm, cũng như chương trình thưởng và khuyến mãi phù hợp
Tuy nhiên, cũng giống như sự gắn bó của nhân viên, sự gắn bó của khách hàngkhông chỉ đơn giản là mức độ hài lòng mà còn bị ảnh hưởng bởi các yếu tố bên ngoài nhưtình hình kinh tế, xu hướng tiêu dùng và sự cạnh tranh từ các đối thủ trong ngành Vì vậy,việc thu thập dữ liệu thường xuyên và phân tích hành vi khách hàng liên tục là điều cầnthiết để duy trì và gia tăng sự gắn bó của khách hàng Theo một nghiên cứu của HarvardBusiness Review (2020), các công ty bán lẻ thu thập và phân tích dữ liệu khách hàng ítnhất mỗi quý sẽ có tỷ lệ giữ chân khách hàng cao hơn 20% so với các công ty chỉ thu thập
dữ liệu một lần hoặc ít hơn mỗi năm
Như vậy, việc ứng dụng bài toán phân lớp vào dự đoán sự gắn bó của khách hàngtrong lĩnh vực bán lẻ là một xu hướng ngày càng quan trọng Các doanh nghiệp cần đầu tưvào hạ tầng phân tích dữ liệu và các công cụ học máy để tối ưu hóa chiến lược giữ chânkhách hàng, đồng thời duy trì mối quan hệ bền vững và phát triển trong môi trường cạnhtranh khốc liệt
1.3.2 Một số kết quả nghiên cứu ngoài Việt Nam
Trên thế giới, việc ứng dụng các phương pháp phân tích dữ liệu để dự đoán sự gắn
bó của khách hàng trong ngành bán lẻ đã được nghiên cứu và áp dụng rộng rãi, mang lạinhiều kết quả tích cực Các nghiên cứu quốc tế thường đi sâu vào việc sử dụng các môhình học máy tiên tiến như phân tích phân lớp, học sâu (deep learning), và phân tích chuỗithời gian để tối ưu hóa chiến lược giữ chân khách hàng
Nghiên cứu của Kumar và Shah (2020): Nghiên cứu này tập trung vào việc sửdụng mô hình phân lớp trong ngành bán lẻ để dự đoán sự gắn bó của khách hàng Các tácgiả đã áp dụng các kỹ thuật học máy như hồi quy logistic và cây quyết định (decisiontree) để phân loại khách hàng theo mức độ trung thành Kết quả cho thấy, các mô hìnhhọc máy có thể giúp các công ty bán lẻ dự đoán hành vi của khách hàng và phân loại họthành các nhóm với các chiến lược marketing và chăm sóc khách hàng phù hợp, từ đótăng cường sự gắn bó và giảm thiểu tỷ lệ khách hàng rời bỏ
Trang 20Nghiên cứu của Chen và cộng sự (2021): Nghiên cứu này áp dụng phương phápphân tích dữ liệu lớn (big data analytics) để hiểu rõ các yếu tố ảnh hưởng đến sự trungthành của khách hàng trong ngành bán lẻ trực tuyến Họ sử dụng các mô hình phân lớp đểphân loại khách hàng và tìm ra các đặc điểm chung của nhóm khách hàng trung thành, từ
đó đề xuất các chiến lược cá nhân hóa dịch vụ và các chương trình khuyến mãi hiệu quả.Nghiên cứu cho thấy rằng các yếu tố như trải nghiệm mua sắm trực tuyến, dịch vụ kháchhàng, và sự đáp ứng nhanh chóng với các phản hồi của khách hàng là những yếu tố quantrọng giúp cải thiện sự gắn bó của khách hàng
Nghiên cứu của Gupta và Kohli (2019): Nghiên cứu này thực hiện phân tích dữliệu từ các chuỗi bán lẻ lớn tại Mỹ, sử dụng các mô hình phân lớp để dự đoán khả năngtiếp tục mua sắm của khách hàng Họ đã chỉ ra rằng việc áp dụng các mô hình học máy đểphân tích dữ liệu giúp các công ty bán lẻ xác định những khách hàng có khả năng rời bỏ
và đưa ra các biện pháp giữ chân hiệu quả, chẳng hạn như cung cấp các ưu đãi cá nhânhóa hoặc tạo ra trải nghiệm mua sắm khác biệt
Nghiên cứu của Anderson (2022): Trong nghiên cứu này, tác giả ứng dụng cácthuật toán phân lớp để phân tích hành vi của khách hàng trong ngành bán lẻ tại Anh Kếtquả nghiên cứu cho thấy, việc ứng dụng các phương pháp phân tích dữ liệu không chỉgiúp xác định khách hàng trung thành mà còn hỗ trợ dự đoán xu hướng tiêu dùng củakhách hàng trong tương lai, từ đó tối ưu hóa các chiến lược quảng cáo và chăm sóc kháchhàng
Các nghiên cứu quốc tế đã chỉ ra rằng việc áp dụng các mô hình phân tích dữ liệutiên tiến, đặc biệt là các phương pháp học máy, có thể cải thiện đáng kể khả năng dự đoán
sự gắn bó của khách hàng, từ đó giúp các công ty bán lẻ nâng cao hiệu quả kinh doanh vàduy trì sự trung thành của khách hàng Tuy nhiên, những nghiên cứu này cũng nhấn mạnhrằng các công ty cần phải đầu tư vào cơ sở hạ tầng công nghệ, đào tạo nhân sự có chuyênmôn và cải thiện quy trình thu thập dữ liệu để đạt được kết quả tối ưu
1.4 Mục tiêu đề tài
Nhận thấy nhu cầu thực tiễn và tính cấp thiết trong việc duy trì và phát triển mốiquan hệ bền vững với khách hàng, đề tài “Xây dựng một mô hình dự đoán sự gắn bó củakhách hàng trong lĩnh vực bán lẻ” được nhóm nghiên cứu lựa chọn Mô hình này sẽ sửdụng các dữ liệu thu thập từ hành vi mua sắm của khách hàng, sự hài lòng với sảnphẩm/dịch vụ, mức độ tham gia vào các chương trình khuyến mãi, cũng như các yếu tố cánhân khác như độ tuổi, thu nhập, và thói quen tiêu dùng Mô hình này giúp các doanhnghiệp bán lẻ nhận diện được nhóm khách hàng có nguy cơ rời bỏ, từ đó đưa ra các chiếnlược duy trì sự gắn bó hiệu quả