Bằng việc khai thác bộ dữ liệu thực tế gồm thông tin tiêu dùng củahàng ngàn khách hàng, khóa luận tiến hành các bước tiền xử lý dữ liệu, phân tích mốitương quan giữa các biến, và triển k
Tính cấp thiết của đề tài
Tính cấp thiết về mặt xã hội
Trong thời đại công nghệ 4.0, nền kinh tế toàn cầu đang chuyển mình mạnh mẽ sang mô hình số hóa, dẫn đến sự thay đổi nhanh chóng trong hành vi tiêu dùng Người tiêu dùng hiện nay chủ động tìm kiếm và so sánh sản phẩm, dịch vụ qua internet và mạng xã hội, không còn phụ thuộc vào thông tin từ doanh nghiệp Họ mong muốn trải nghiệm mua sắm cá nhân hóa, tiện lợi và nhanh chóng Điều này đặt ra yêu cầu cho các doanh nghiệp phải hiểu rõ hơn về khách hàng, không chỉ biết ai mua gì, mà còn phải nắm bắt lý do và yếu tố tạo nên sự trung thành hay rời bỏ thương hiệu.
Phân tích hành vi tiêu dùng và dự đoán mức độ trung thành của khách hàng là một nhiệm vụ phức tạp, bị ảnh hưởng bởi nhiều yếu tố như tâm lý, thu nhập, và các tác động vĩ mô Để đưa ra nhận định chính xác, cần sử dụng các công cụ phân tích hiện đại và có khả năng xử lý dữ liệu lớn Việc ứng dụng mô hình học máy, đặc biệt là Random Forest Regressor, là cần thiết để phân tích hành vi tiêu dùng hiệu quả và xây dựng chiến lược giữ chân khách hàng Khi doanh nghiệp chăm sóc khách hàng trung thành tốt, không chỉ lợi nhuận tăng cao mà còn củng cố niềm tin của người tiêu dùng, tạo ra một hệ sinh thái kinh doanh minh bạch và bền vững, góp phần vào sự phát triển kinh tế.
- xã hội trong kỷ nguyên số.
Tính cấp thiết đối với doanh nghiệp
Trong bối cảnh thị trường thương mại điện tử và bán lẻ phát triển nhanh chóng, sự cạnh tranh ngày càng khốc liệt Khách hàng đã trở thành tài sản chiến lược quan trọng của doanh nghiệp, và việc thu hút khách hàng mới tốn kém hơn nhiều so với việc giữ chân khách hàng hiện tại Tuy nhiên, nhiều doanh nghiệp vẫn gặp khó khăn trong việc đánh giá mức độ trung thành của khách hàng và phân tích hành vi tiêu dùng để xây dựng các chiến lược giữ chân hiệu quả.
Sự phát triển của công nghệ dữ liệu lớn và kỹ thuật học máy đã tạo ra cơ hội mới trong việc phân tích hành vi tiêu dùng Mô hình Random Forest Regressor, với khả năng xử lý dữ liệu phức tạp và độ chính xác cao, giúp doanh nghiệp dự đoán mức độ trung thành của khách hàng dựa trên các yếu tố hành vi và tiêu dùng Ứng dụng mô hình này không chỉ nâng cao khả năng dự báo mà còn giúp nhận diện sớm khách hàng có nguy cơ rời bỏ, từ đó xây dựng chương trình chăm sóc cá nhân hóa, giảm tỷ lệ mất khách hàng và tăng giá trị vòng đời khách hàng.
Nghiên cứu và phát triển các mô hình dự đoán khách hàng trung thành dựa trên hành vi tiêu dùng là nhu cầu thiết yếu cho doanh nghiệp Điều này giúp nâng cao hiệu quả quản trị khách hàng, tối ưu hóa chi phí marketing và gia tăng lợi thế cạnh tranh bền vững trên thị trường hiện nay.
Tính cấp thiết đối với cá nhân
Là sinh viên chuyên ngành Phân tích Dữ liệu Kinh doanh, tôi nhận thấy đề tài này không chỉ đáp ứng yêu cầu học thuật mà còn là cơ hội để áp dụng kiến thức vào thực tiễn Qua nghiên cứu, tôi đã vận dụng các kỹ năng quan trọng như thu thập và xử lý dữ liệu, khám phá thông tin, xây dựng mô hình dự đoán bằng thuật toán Random Forest Regressor, và phân tích ý nghĩa kinh doanh từ kết quả Đề tài giúp tôi hiểu sâu về hành vi tiêu dùng, đo lường lòng trung thành khách hàng, rèn luyện tư duy phản biện và khả năng làm việc với dữ liệu lớn, sử dụng các công cụ phân tích như Python, pandas, scikit-learn Những kỹ năng này rất cần thiết và có tính ứng dụng cao trong thị trường lao động hiện đại, nơi phân tích dữ liệu và ra quyết định dựa trên dữ liệu trở thành tiêu chuẩn.
Tôi xin gửi lời cảm ơn sâu sắc tới thầy Ngô Văn Quang và thầy Trần Hùng
Cường, giảng viên tại Trường Đại học Công nghiệp Hà Nội, đã tận tâm hướng dẫn và đồng hành cùng tôi trong suốt quá trình thực hiện đề tài Tôi xin chân thành cảm ơn gia đình và bạn bè, những người luôn bên cạnh, động viên và tiếp thêm động lực để tôi hoàn thành khóa luận này một cách tốt nhất.
Mục tiêu nghiên cứu
Mục tiêu của nghiên cứu là ứng dụng mô hình Random Forest Regressor để phân tích hành vi tiêu dùng và dự đoán mức độ trung thành của khách hàng trong thương mại điện tử Điều này nhằm hỗ trợ doanh nghiệp nâng cao hiệu quả quản trị quan hệ khách hàng (CRM), tối ưu hóa trải nghiệm người dùng và phát triển các chiến lược marketing phù hợp với từng nhóm khách hàng cụ thể.
Trong bối cảnh thị trường thương mại điện tử phát triển nhanh chóng và cạnh tranh khốc liệt, việc hiểu hành vi tiêu dùng của khách hàng và khả năng gắn bó của họ với doanh nghiệp là yếu tố then chốt để duy trì và mở rộng thị phần Hành vi tiêu dùng là hiện tượng phức tạp, bị chi phối bởi nhiều yếu tố chủ quan như độ tuổi, giới tính, thu nhập, và các yếu tố khách quan như xu hướng thị trường, tác động xã hội, và môi trường số Do đó, ứng dụng các công cụ phân tích dữ liệu và mô hình học máy là giải pháp hiệu quả để khai thác và chuyển hóa dữ liệu hành vi thành tri thức có giá trị.
Mô hình Random Forest Regressor, một thuật toán học máy mạnh mẽ, được sử dụng để dự đoán mức độ trung thành của khách hàng dựa trên lịch sử mua hàng, thói quen tiêu dùng, tần suất giao dịch và đặc điểm nhân khẩu học Mô hình này không chỉ là công cụ phân tích và dự báo, mà còn giúp doanh nghiệp cá nhân hóa dịch vụ và triển khai các chương trình giữ chân khách hàng hiệu quả, từ đó nâng cao giá trị vòng đời khách hàng (Customer Lifetime Value – CLV).
Mục tiêu tổng quát của đề tài là hệ thống hóa quy trình khai thác dữ liệu khách hàng và triển khai mô hình dự đoán học máy trong một hệ sinh thái kinh doanh cụ thể Nghiên cứu này không chỉ đóng góp cho lý thuyết trong lĩnh vực khoa học dữ liệu ứng dụng vào marketing mà còn mang lại giá trị thực tiễn cao, giúp doanh nghiệp ra quyết định chiến lược dựa trên dữ liệu Kết quả nghiên cứu kỳ vọng sẽ là căn cứ khoa học và công nghệ để các tổ chức thương mại điện tử nâng cao chất lượng dịch vụ, xây dựng mối quan hệ bền vững với khách hàng và gia tăng lợi thế cạnh tranh dài hạn.
Mục tiêu cụ thể Để hiện thực hóa mục tiêu tổng quát nêu trên, nghiên cứu tập trung triển khai các mục tiêu cụ thể sau:
Phân tích hành vi tiêu dùng và mức độ trung thành của khách hàng thông qua việc thu thập và xử lý dữ liệu tiêu dùng thực tế, bao gồm hành vi và đặc điểm nhân khẩu học, nhằm xác định các yếu tố ảnh hưởng đến quyết định mua hàng lặp lại và mức độ gắn bó với nền tảng Mục tiêu này sẽ tạo cơ sở lý luận và dữ liệu đầu vào cho mô hình dự đoán.
Xây dựng mô hình dự đoán mức độ trung thành của khách hàng sử dụng thuật toán Random Forest Regressor dựa trên các đặc trưng hành vi tiêu dùng đã được trích xuất Mô hình này sẽ được huấn luyện, kiểm thử và hiệu chỉnh để đảm bảo độ chính xác cao trong việc dự báo khả năng khách hàng quay lại mua hàng trong tương lai.
Đánh giá hiệu quả của mô hình dự đoán là rất quan trọng, thông qua các chỉ số như MAE (Mean Absolute Error), RMSE (Root Mean Squared Error) và hệ số xác định R² Những chỉ số này giúp xác định mức độ tin cậy của mô hình và tiềm năng ứng dụng của nó trong quản trị doanh nghiệp.
Đề xuất các giải pháp marketing dữ liệu hóa dựa trên phân tích hành vi và dự đoán mức độ trung thành, tập trung vào cá nhân hóa trải nghiệm mua sắm, tối ưu hóa chương trình chăm sóc khách hàng, phân khúc khách hàng theo mức độ trung thành, và xây dựng mối quan hệ bền vững giữa doanh nghiệp và người tiêu dùng.
Câu hỏi nghiên cứu
Trong bối cảnh thương mại điện tử ngày càng phát triển, các yếu tố như trải nghiệm người dùng, độ tin cậy của nền tảng, và chính sách giá cả đóng vai trò then chốt trong việc ảnh hưởng đến hành vi tiêu dùng và lòng trung thành của khách hàng Trải nghiệm mua sắm mượt mà và dễ dàng sẽ thu hút khách hàng, trong khi độ tin cậy của nền tảng giúp xây dựng niềm tin Bên cạnh đó, chính sách giá cả hợp lý và minh bạch cũng là yếu tố quan trọng, ảnh hưởng trực tiếp đến quyết định mua sắm của người tiêu dùng Mức độ tác động của từng yếu tố này có thể thay đổi theo xu hướng và thói quen mua sắm của khách hàng, đòi hỏi các doanh nghiệp phải liên tục điều chỉnh chiến lược để giữ chân khách hàng.
Mô hình học máy Random Forest Regressor có khả năng dự đoán chính xác mức độ trung thành của khách hàng, đồng thời xử lý hiệu quả các đặc trưng phi tuyến và phức tạp trong dữ liệu tiêu dùng.
Dữ liệu hành vi tiêu dùng, bao gồm tần suất mua hàng, giá trị đơn hàng, thời gian giữa các lần mua và tương tác trên nền tảng số, có thể được sử dụng để phân loại và đánh giá mức độ trung thành của khách hàng Những chỉ số này không chỉ giúp hiểu rõ hơn về hành vi của khách hàng mà còn cung cấp những dự đoán chính xác về khả năng trung thành của họ trong tương lai.
Dựa trên kết quả phân tích và dự đoán từ mô hình, doanh nghiệp có thể xây dựng và thực hiện các chiến lược nhằm tối ưu hóa việc giữ chân khách hàng, cải thiện trải nghiệm cá nhân hóa và tăng cường giá trị vòng đời khách hàng (Customer Lifetime Value).
Đối tượng nghiên cứu chính của đề tài là hành vi tiêu dùng và mức độ trung thành của khách hàng cá nhân trong môi trường thương mại điện tử, một chủ đề quan trọng trong marketing hiện đại và phân tích dữ liệu.
Hành vi tiêu dùng là quá trình mà người tiêu dùng quyết định lựa chọn, mua sắm, sử dụng và đánh giá sản phẩm hoặc dịch vụ trên nền tảng thương mại điện tử Nghiên cứu này sẽ tập trung vào các dữ liệu chi tiết liên quan đến hành vi tiêu dùng.
Lịch sử mua hàng bao gồm thời gian giao dịch, số lần mua trong từng giai đoạn, loại sản phẩm và giá trị mỗi đơn hàng Dữ liệu này cho thấy tần suất và mức độ cam kết của khách hàng đối với doanh nghiệp.
- Tổng giá trị chi tiêu: Chỉ số phản ánh sức mua và tiềm năng kinh tế của người tiêu dùng.
- Khoảng thời gian giữa các lần mua hàng: Giúp đánh giá mức độ gắn bó đều đặn hoặc không thường xuyên của khách hàng.
- Loại sản phẩm và danh mục hàng hóa mua sắm: Cho biết sở thích, thói quen và định hướng tiêu dùng của khách hàng.
- Kênh thanh toán và phương thức mua hàng: Gợi mở sự tiện lợi hoặc xu hướng ưa thích các công nghệ thanh toán điện tử.
Mức độ tương tác của người dùng với nền tảng được thể hiện qua các chỉ số như số lần đăng nhập, thời gian duyệt web, tỷ lệ phản hồi email và tỷ lệ click vào quảng cáo Những dữ liệu này là yếu tố quan trọng phản ánh sự quan tâm và mức độ chủ động của người dùng.
Thông tin nhân khẩu học đóng vai trò quan trọng trong việc bổ sung bối cảnh cho mô hình dự đoán, bên cạnh hành vi tiêu dùng.
- Giới tính: Có thể ảnh hưởng đến loại hàng hóa ưu tiên và tần suất mua sắm.
- Độ tuổi: Thường gắn liền với phong cách sống, mức thu nhập, và xu hướng mua hàng.
- Khu vực sinh sống: Là yếu tố ảnh hưởng đến mức độ tiếp cận nền tảng thương mại điện tử và nhu cầu sản phẩm.
- Tình trạng hôn nhân, nghề nghiệp, trình độ học vấn (nếu có): Có thể giúp xây dựng chân dung khách hàng cụ thể hơn.
Nghiên cứu này tập trung vào việc phân tích hành vi tiêu dùng trong môi trường kỹ thuật số, đồng thời áp dụng các mô hình học máy để dự đoán mức độ trung thành của khách hàng Nội dung chính của nghiên cứu bao gồm việc khám phá các yếu tố ảnh hưởng đến hành vi tiêu dùng và cách mà công nghệ có thể cải thiện sự trung thành của khách hàng.
- Xây dựng tập dữ liệu từ hành vi thực tế của khách hàng thông qua lịch sử giao dịch và thông tin nhân khẩu học.
Tiền xử lý dữ liệu là bước quan trọng bao gồm làm sạch dữ liệu, xử lý các giá trị thiếu, chuẩn hóa dữ liệu và trích xuất đặc trưng, nhằm chuẩn bị cho quá trình huấn luyện mô hình hiệu quả.
- Xây dựng mô hình hồi quy ngẫu nhiên rừng (Random Forest Regressor) nhằm dự đoán điểm trung thành hoặc xác suất trung thành của mỗi khách hàng.
- Phân tích tầm quan trọng của các biến đầu vào nhằm xác định yếu tố nào ảnh hưởng nhiều nhất đến lòng trung thành.
- Đề xuất các chiến lược marketing, chăm sóc khách hàng hoặc cải tiến sản phẩm dựa trên kết quả mô hình và đặc điểm hành vi người tiêu dùng.
Phạm vi dữ liệu của nghiên cứu được xác định rõ ràng trên các phương diện không gian, thời gian và nguồn dữ liệu:
Nghiên cứu này được thực hiện trong bối cảnh thị trường thương mại điện tử đang phát triển mạnh mẽ, nhờ vào sự phổ cập internet và tỷ lệ sử dụng smartphone cao Hành vi tiêu dùng đang chuyển dịch từ offline sang online, với đối tượng khách hàng là những cá nhân đã từng mua sắm trực tuyến qua các nền tảng thương mại điện tử trong nước.
- Về thời gian: Dữ liệu được thu thập trong khoảng thời gian từ tháng 4 năm
Khung thời gian từ năm 2022 đến tháng 4 năm 2023 là lý tưởng để nghiên cứu biến động hành vi khách hàng trong các sự kiện thương mại điện tử lớn như 9.9, 11.11 và Black Friday, cũng như các dịp lễ truyền thống Việc này giúp phân tích xu hướng và mức độ trung thành của khách hàng một cách toàn diện.
- Về nguồn dữ liệu: Dữ liệu phục vụ nghiên cứu có thể được khai thác từ nhiều nguồn khác nhau, bao gồm:
Hệ thống quản trị khách hàng (CRM) đóng vai trò quan trọng trong các doanh nghiệp thương mại điện tử, giúp lưu trữ toàn bộ lịch sử tương tác và giao dịch của khách hàng.
+ Các nền tảng thương mại điện tử có hỗ trợ truy xuất dữ liệu thông qua API như Shopee, Tiki hoặc Lazada (nếu được cấp quyền truy cập).
+ Khảo sát người tiêu dùng trực tuyến, giúp thu thập thêm các yếu tố hành vi hoặc cảm nhận chủ quan từ phía khách hàng.
Các bộ dữ liệu công khai có cấu trúc tương đồng và phù hợp với mục tiêu nghiên cứu, trong đó bộ dữ liệu được sử dụng trong đề tài này được lấy từ nền tảng Kaggle, một kho dữ liệu mã nguồn mở nổi tiếng Bộ dữ liệu này chứa đầy đủ thông tin về lịch sử mua hàng, sản phẩm, chi tiêu, nhân khẩu học và tương tác khách hàng, đáp ứng tốt yêu cầu huấn luyện mô hình và kiểm thử các giả thuyết nghiên cứu.