Bài nghiên cứu này được thực hiện để hướng đến việc tạo lập mô hình phân khúc khách hàng hiệu quả kết hợp phương pháp học máy K-means cho lĩnh vực bán lẻ xe đạp của Công ty AdventureWork
Tính cấp thiết của đề tài
Sự phát triển mạnh mẽ của công nghệ thông tin đã dẫn đến việc ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống, kinh tế và xã hội, tạo ra một lượng lớn dữ liệu hàng ngày Điều này đặt ra thách thức về việc tổ chức và khai thác khối dữ liệu khổng lồ và đa dạng để chuyển hóa thành thông tin hữu ích Để đáp ứng nhu cầu này, nhiều thuật toán và kỹ thuật mới đã được phát triển, mang lại kết quả nghiên cứu thành công với nhiều ứng dụng, đặc biệt trong việc phân khúc khách hàng.
Phân khúc khách hàng là một phương pháp quan trọng mà hầu hết các doanh nghiệp hiện nay áp dụng để tiếp cận khách hàng hiệu quả Tuy nhiên, lĩnh vực bán lẻ có những đặc điểm riêng cần được nghiên cứu kỹ lưỡng Việc kết hợp mô hình RFM với thuật toán K-means hứa hẹn sẽ mang lại hiệu quả cao trong việc phân khúc khách hàng Hiện tại, nhiều nhà bán lẻ vẫn đang sử dụng các mô hình phân khúc truyền thống, điều này tạo ra nhu cầu cấp thiết cho việc nghiên cứu và ứng dụng mô hình phân khúc khách hàng RFM kết hợp với thuật toán K-means.
Nghiên cứu này nhằm xây dựng mô hình phân khúc khách hàng hiệu quả bằng cách kết hợp phương pháp học máy K-means trong lĩnh vực bán lẻ xe đạp của Công ty AdventureWorks Cycles Bài viết cũng so sánh mô hình RFM truyền thống với mô hình RFM kết hợp thuật toán phân cụm K-means.
Đối tượng và mục đích nghiên cứu
Nghiên cứu này tập trung vào việc áp dụng mô hình phân khúc khách hàng RFM kết hợp với thuật toán phân cụm K-Means trong lĩnh vực bán lẻ xe đạp của công ty AventureWorks Cycles.
Nghiên cứu này tập trung vào việc làm rõ các cơ sở lý thuyết liên quan đến hành vi khách hàng và phân khúc khách hàng Bên cạnh đó, nó cũng đề cập đến mô hình RFM và các nghiên cứu liên quan đến việc ứng dụng các phương pháp học máy trong phân cụm khách hàng.
Chúng tôi tiến hành thu thập và xử lý dữ liệu để thực hiện các phân tích định tính và định lượng cho từng nhóm khách hàng Qua đó, chúng tôi hoàn thiện mô hình phân khúc khách hàng hiệu quả bằng cách áp dụng phương pháp RFM kết hợp với học máy K-means.
- Đề xuất những giải pháp, khuyến nghị chiến lược marketing phù hợp, hiệu quả cho doanh nghiệp.
Phương pháp nghiên cứu
a, Phương pháp thu thập thông tin, kết hợp phương pháp so sánh và phân tích
Sau khi thu thập, thông tin và số liệu sẽ được thống kê, so sánh và phân tích để phù hợp với mục đích từng phần Quá trình tổng hợp này sẽ cung cấp cái nhìn tổng quan về bộ dữ liệu trong việc xây dựng mô hình phân khúc khách hàng RFM kết hợp với thuật toán phân cụm K-Means.
Nghiên cứu tài liệu liên quan giúp làm rõ cơ sở lý luận và các khái niệm, ứng dụng của đề tài Đồng thời, việc tìm hiểu một số tài liệu cũng hỗ trợ trong việc hệ thống hóa lý thuyết cho bài nghiên cứu Phương pháp nghiên cứu thực tiễn sẽ được áp dụng để thu thập và phân tích dữ liệu.
Bằng cách đặt ra vấn đề và giải quyết bài toán, chúng ta có thể phân tích dữ liệu và xây dựng mô hình dự báo Từ đó, đưa ra các giải pháp dựa trên nghiên cứu dữ liệu nhằm cải thiện chính sách bán hàng và tăng lợi nhuận cho doanh nghiệp.
Phương pháp định tính: Diễn giải cách phân chia và đặc trưng của từng nhóm khách hàng dựa trên kết quả phân cụm có được từ thực nghiệm
Phương pháp định lượng trong phân tích phân khúc khách hàng bao gồm ba chỉ số quan trọng: Recency, Frequency và Monetary Việc kết hợp kết quả từ mô hình RFM với thuật toán K-means giúp tăng độ chính xác và tối ưu hóa kết quả phân cụm.
Kết cấu của khóa luận
Ngoài phần mở đầu, kết luận và danh mục tài liệu tham khảo, bài khóa luận bao gồm 3 chương:
CƠ SỞ LÝ LUẬN
Tổng quan về phân khúc khách hàng
Hành vi của người tiêu dùng là nghiên cứu về quy trình mà người tiêu dùng sử dụng để lựa chọn, tiêu dùng và loại bỏ sản phẩm và dịch vụ Nghiên cứu này bao gồm các phản ứng cảm xúc, tinh thần và hành vi của người tiêu dùng Hiểu rõ các yếu tố tâm lý, xã hội và kinh tế ảnh hưởng đến quyết định và trải nghiệm của người tiêu dùng là rất quan trọng.
Hành vi người tiêu dùng là một quá trình phức tạp, chịu ảnh hưởng từ cả các yếu tố nội tại như động cơ, nhận thức, thái độ và học hỏi, lẫn các yếu tố bên ngoài như văn hóa, xã hội, kinh tế và môi trường Nghiên cứu hành vi khách hàng đóng vai trò quan trọng trong kinh tế học, nhằm tìm hiểu lý do và cách thức người tiêu dùng quyết định mua hoặc không mua sản phẩm, dịch vụ, cũng như quy trình mua sắm và sử dụng dịch vụ của họ.
Hiểu hành vi người tiêu dùng là yếu tố quan trọng giúp doanh nghiệp xây dựng chiến lược tiếp thị và sản phẩm hiệu quả, đáp ứng nhu cầu của khách hàng mục tiêu Phân tích hành vi này cho phép doanh nghiệp nhận diện cơ hội cải thiện sản phẩm, dịch vụ và các hoạt động tiếp thị, từ đó nâng cao sự hài lòng của khách hàng và tăng trưởng doanh số cũng như lợi nhuận.
Có nhiều định nghĩa về hành vi khách hàng, sau đây là một số định nghĩa tiêu biểu:
Hành vi khách hàng, theo Hiệp hội marketing Hoa Kỳ, là sự tương tác giữa các yếu tố kích thích từ môi trường và nhận thức của con người, dẫn đến sự thay đổi trong cuộc sống của họ Nó bao gồm suy nghĩ, cảm nhận và hành động của người tiêu dùng trong quá trình tiêu dùng Các yếu tố ảnh hưởng đến hành vi này bao gồm ý kiến từ người tiêu dùng khác, quảng cáo, thông tin về giá cả, bao bì và nhiều yếu tố khác.
5 ngoài sản phẩm… đều có thể tác động đến cảm nhận, suy nghĩ và hành vi của khách hàng
Theo Kotler & Levy, hành vi khách hàng bao gồm các hành vi cụ thể của cá nhân trong quá trình ra quyết định mua sắm, sử dụng và loại bỏ sản phẩm hoặc dịch vụ.
Hành vi khách hàng được xác định là những suy nghĩ và cảm nhận của con người trong quá trình mua sắm và tiêu dùng Nó là một quá trình năng động và tương tác, chịu ảnh hưởng từ các yếu tố môi trường bên ngoài và đồng thời tác động trở lại với môi trường đó Hành vi khách hàng bao gồm các hoạt động như mua sắm, sử dụng và xử lý sản phẩm dịch vụ.
1.1.2 Phân tích phân khúc khách hàng (RFM)
Phân khúc khách hàng, hay còn gọi là phân khúc thị trường, là một hoạt động marketing quan trọng nhằm chia nhỏ cơ sở khách hàng thành các nhóm cụ thể Việc phân chia này có thể dựa trên nhiều tiêu chí như địa lý, nhân khẩu học, tâm lý học, hành vi và các đặc điểm khác Để phân khúc hiệu quả, doanh nghiệp cần dự đoán giá trị của từng nhóm khách hàng, từ đó áp dụng các chiến lược tiếp thị khác nhau nhằm tối ưu hóa giá trị từ những khách hàng có khả năng sinh lợi cao và thấp.
Theo nguyên lý Pareto, 20% khách hàng sẽ mang lại 80% doanh số, vì vậy doanh nghiệp cần xác định và chăm sóc đặc biệt những khách hàng quan trọng nhất Hiện nay, nhiều doanh nghiệp đã áp dụng các phương pháp phức tạp để phân loại và xác định khách hàng tiềm năng, trong đó RFM là một trong những phương pháp hiệu quả Phương pháp RFM giúp doanh nghiệp tối đa hóa lợi tức từ đầu tư và công sức đã bỏ ra cho các chiến dịch marketing.
Trong phương pháp phân tích RFM, khách hàng được đánh giá là tiềm năng dựa trên ba tiêu chí chính: Sự Gần Đây (Recency), thể hiện khoảng thời gian từ lần mua hàng gần nhất, Tần Suất (Frequency), cho biết số lần mua hàng trong một khoảng thời gian nhất định, và Giá Trị (Monetary), phản ánh tổng chi tiêu của khách hàng.
Phương pháp RFM giúp doanh nghiệp phân tích giá trị khách hàng thông qua ba tiêu chí: Thời gian mua hàng gần đây nhất, Mức Độ Thường Xuyên (tần suất mua hàng) và Mức Độ Chi Tiền (giá trị mỗi lần mua) Từ đó, doanh nghiệp có thể phân loại khách hàng thành các nhóm khác nhau và triển khai các chiến dịch marketing hoặc chăm sóc khách hàng phù hợp.
RFM định lượng giá trị của một khách hàng dựa trên 3 thông tin chính:
Thời gian mua hàng gần đây nhất cho biết mức độ hoạt động của khách hàng tại thời điểm đánh giá Chỉ số này càng lớn, xu hướng rời bỏ của khách hàng càng cao, điều này cảnh báo doanh nghiệp cần điều chỉnh sản phẩm hoặc chính sách để nâng cao chất lượng phục vụ và đáp ứng tốt hơn nhu cầu của khách hàng.
Tần suất mua hàng của khách hàng là yếu tố quan trọng, vì khi khách hàng mua nhiều đơn, doanh số của công ty sẽ tăng cao, đồng nghĩa với giá trị của họ cũng lớn hơn Tuy nhiên, chỉ dựa vào tần suất mua hàng chưa đủ để đánh giá toàn diện mức độ ảnh hưởng đến doanh thu, vì giá trị đơn hàng cũng là yếu tố quyết định cho thấy tiềm năng của khách hàng.
Monetary là số tiền mà khách hàng chi tiêu, là yếu tố quan trọng nhất ảnh hưởng đến doanh số Doanh nghiệp luôn quan tâm đến số tiền mà khách hàng đã chi cho sản phẩm của mình Monetary không chỉ tác động trực tiếp đến doanh thu mà còn bị ảnh hưởng gián tiếp bởi hai yếu tố khác là Recency và Frequency.
Cơ sở lý thuyết về thuật toán K – means
1.2.1 Phân cụm dữ liệu a, Phân cụm dữ liệu là gì?
Phân cụm dữ liệu là một kỹ thuật quan trọng trong Khai phá dữ liệu, giúp phát hiện các cụm và mẫu dữ liệu tự nhiên trong tập dữ liệu lớn Quá trình này nhóm các đối tượng tương tự vào các cụm, từ đó cung cấp thông tin và tri thức cần thiết cho việc ra quyết định.
Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhóm, trong đó các đối tượng trong cùng một nhóm có sự tương đồng nhất định, trong khi các đối tượng thuộc các nhóm khác nhau sẽ không tương đồng Việc phân cụm giúp nhận diện và phân loại các đối tượng dựa trên những đặc điểm chung, từ đó hỗ trợ trong việc phân tích và ra quyết định hiệu quả hơn.
Mục đích của phân cụm là khám phá bản chất bên trong các nhóm dữ liệu Các thuật toán phân cụm tạo ra các cụm, nhưng không có tiêu chí nào được coi là tốt nhất để đánh giá phân tích phân cụm, vì điều này phụ thuộc vào mục đích cụ thể như giảm dữ liệu.
“natural clusters”, “useful” clusters, outlier detection
Phân cụm khách hàng cung cấp các thông số cụ thể, giúp tạo ra các nhóm khác nhau, từ đó giảm số lượng nhóm cần xử lý và nâng cao hiệu quả.
1.2.2 Thuật toán K – means a, Giới thiệu thuật toán K - means
K-Means là một thuật toán phân cụm đơn giản thuộc loại học không giám sát, được sử dụng phổ biến trong kỹ thuật phân cụm dữ liệu Thuật toán này phân chia các đối tượng thành k cụm (k là số cụm đã xác định trước) nhằm tối thiểu hóa tổng bình phương khoảng cách giữa các đối tượng và tâm cụm (centroid) Với n đối tượng, mỗi đối tượng có m thuộc tính, K-Means phân nhóm các đối tượng dựa trên các thuộc tính này.
8 thuộc tính) như một tọa độ của không gian m chiều và biểu diễn đối tượng như một điểm trong không gian m chiều, đó là:
𝑎 𝑖 = (𝑥 𝑖1 , 𝑥 𝑖2 , … , 𝑥 𝑖𝑚 ) Trong đó: 𝑎 𝑖 (𝑖 = 1, … 𝑛): Đối tượng thứ i
𝑥 𝑖𝑗 (𝑖 = 1 𝑛, 𝑗 = 1 … 𝑚): Thuộc tính thứ j của đối tượng i
Thuật toán K-Means là một phương pháp phân cụm quan trọng trong phân tích dữ liệu, thường được áp dụng trong khai thác dữ liệu và thống kê Phương pháp này chia dữ liệu thành k cụm khác nhau, giúp xác định nhóm mà mỗi dữ liệu thuộc về.
Thuật toán phân cụm K - Means thường được sử dụng trong các ứng dụng cỗ máy tìm kiếm, phân đoạn khách hàng, thống kê dữ liệu,… b, Khoảng cách Euclid
Phương pháp phân cụm dữ liệu sử dụng khoảng cách Euclid để xác định khoảng cách ngắn nhất từ đối tượng đến phần tử trọng tâm của các cụm Phần tử trọng tâm này được tính bằng giá trị trung bình của các phần tử trong cụm.
𝑎 𝑖 = (𝑥 𝑖1 , 𝑥 𝑖2 , … , 𝑥 𝑖𝑚 ); 𝑖 = 1 … 𝑛 là đối tượng thứ i cần phân cụm
𝑐 𝑗 = (𝑥 𝑗1 , 𝑥 𝑗2 , … , 𝑥 𝑗𝑚 ); 𝑗 = 1 … 𝑘 là phần tử trọng tâm cụm j
Khoảng cách Euclid từ đối tượng 𝑎 𝑖 đến phần tử trọng tâm nhóm j; 𝑐 𝑗 được tính toán dựa trên công thức:
𝜕 𝑖𝑗 : Khoảng cách Euclid từ 𝑎 𝑖 đến 𝑐 𝑗
𝑥 𝑖𝑠 : Thuộc tính thứ s của đối tượng 𝑎 𝑖
𝑥 𝑗𝑠 : Thuộc tính thứ s của phần tử trọng tâm 𝑐 𝑗 c, Phần tử trọng tâm
K phần tử trọng tâm ban đầu được chọn ngẫu nhiên, sau mỗi lần gom các đối tượng vàocác cụm, phần tử trọng tâm được tính toán lại:
𝐶𝑙𝑢𝑠𝑡𝑒𝑟 𝑖 = {𝑎 1 , 𝑎 2 , … 𝑎 𝑡 } – cụm thứ i; i = 1 k; k số cluster j = 1 m; m số thuộc tính t: Số phần tử hiện có của nhóm thứ i
𝑥 𝑠𝑗 : Thuộc tính thứ j của phần tử s; s = 1…t
𝑐 𝑠𝑗 : Tọa độ thứ j của phần tử trung tâm cụm i;
Thuật toán K-Means nhằm mục đích phân chia dữ liệu thành các cụm, trong đó mỗi cụm bao gồm các điểm gần nhau trong một không gian nhất định Mỗi cụm có một điểm đại diện, và mỗi điểm dữ liệu sẽ thuộc về cụm của điểm đại diện mà nó gần gũi nhất.
- Khởi tạo K điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các cụm dữ liệu của chúng ta
- Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụm của nó sẽ được xác định là 1 trong K tâm cụm gần nó nhất
- Sau khi tất cả các điểm dữ liệu đã có tâm, tính toán lại vị trí của tâm cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm
Bước 2 và bước 3 sẽ được lặp lại cho đến khi vị trí của tâm cụm ổn định hoặc khi tâm của tất cả các điểm dữ liệu không còn thay đổi Cách xác định số lượng K cụm là một yếu tố quan trọng trong quá trình phân cụm.
Việc xác định số lượng cụm và phương pháp phân cụm tối ưu là rất quan trọng để đảm bảo tính chính xác và đáng tin cậy của kết quả Nếu quá trình chọn K chỉ dựa vào kinh nghiệm và mục đích kinh doanh mà không xem xét đặc tính của dữ liệu, khả năng cao là kết quả phân cụm sẽ không phản ánh đúng các quy luật và mối quan hệ trong dữ liệu, dẫn đến việc ứng dụng clustering không đạt được giá trị mong đợi.
Việc xác định số K cụm trước khi xây dựng thuật toán K-means là rất quan trọng Điều này không chỉ vì K-means clustering cần tham số K ban đầu để hoạt động, mà còn giúp kiểm soát quá trình phân cụm và phân tích các cụm một cách tối ưu Nói một cách đơn giản, việc này giúp tiết kiệm thời gian trong việc xác định số lượng cụm phù hợp trong thực tế.
Khi chọn số K hiệu quả, có nhiều phương pháp kết hợp với kinh nghiệm của các chuyên gia phân tích.
Elbow method là phương pháp xác định số K cho K – means Clustering được coi là phổ biến nhất, bên cạnh phương pháp khác như Pseudo F – statistic hay Silhouette index
Phương pháp Elbow được thể hiện qua đồ thị với trục hoành là số lượng cụm K và trục tung là các tiêu chí đánh giá như SSE và Silhouette Trong K-means Clustering, SSE (Tổng sai số) đo lường sự khác biệt giữa các điểm trong cụm, được tính bằng tổng các khoảng cách từ các điểm trong cụm đến trung tâm của nó.
Centroid của cụm được tính toán dựa trên công thức Euclidean, cho phép xác định vị trí trung tâm của các điểm dữ liệu Khi các điểm dữ liệu, đối tượng hoặc quan sát gần nhau, chúng sẽ có những đặc điểm tương đồng và được phân loại vào cùng một cụm Điều này cho thấy "chất lượng" của cụm, ngược lại, nếu các điểm xa nhau, chất lượng của cụm sẽ giảm.
Sẽ có K cụm cần tính giá trị SSE, với K chạy từ 1 đến 10 hoặc 20 Mỗi giá trị K sẽ tương ứng với một SSE Chúng ta sẽ minh họa các cặp K và SSE trên đồ thị Số K tối ưu là điểm mà SSE bắt đầu giảm đều, được xác định trên đồ thị là điểm "turning point", hay còn gọi là điểm "cùi chỏ", chính là số K cần tìm.
Tổng quan về khai phá dữ liệu
Khai phá dữ liệu là quy trình phân tích nhằm khám phá lượng lớn dữ liệu để phát hiện các mẫu và mối quan hệ hệ thống giữa các biến Quy trình này bao gồm các giai đoạn cơ bản như thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức hóa và kiểm chứng kết quả.
1.3.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức
Khai phá dữ liệu là giai đoạn quan trọng nhất để phát hiện thông tin mới, được xem như quá trình trích xuất tri thức từ dữ liệu Nó bao gồm việc phân tích mẫu dữ liệu, khảo cứu và nạo vét thông tin để thu thập tri thức có giá trị.
Khai phá dữ liệu (Data Mining) là quá trình trích xuất thông tin giá trị từ khối lượng lớn dữ liệu trong các cơ sở dữ liệu hoặc kho dữ liệu Quá trình này không chỉ tìm kiếm mà còn khám phá nhiều khía cạnh để phát hiện các mối tương quan và liên hệ ẩn giữa các dữ liệu.
Khai phá dữ liệu là quá trình tìm kiếm các mẫu và mô hình ẩn trong cơ sở dữ liệu, nhằm phát hiện tri thức Để trích xuất các mẫu này, cần áp dụng các phương pháp và kỹ thuật phù hợp với đặc trưng của dữ liệu và mục đích sử dụng Mặc dù chỉ là một bước trong quá trình khám phá tri thức, khai phá dữ liệu đóng vai trò quyết định và ảnh hưởng lớn đến toàn bộ quá trình.
Khai phá dữ liệu là quá trình tìm kiếm thông tin "tri thức" tiềm ẩn trong các cơ sở dữ liệu lớn Hai thuật ngữ khám phá tri thức và khai phá dữ liệu có thể coi là tương đương ở khía cạnh tổng quan Tuy nhiên, khi xem xét chi tiết, khai phá dữ liệu đóng vai trò quan trọng trong quá trình khám phá tri thức.
1.3.2 Mục tiêu của khai phá dữ liệu
Khai phá dữ liệu là quá trình tìm kiếm thông tin hữu ích và tiềm ẩn trong các cơ sở dữ liệu lớn, với mục đích chính là phát hiện các mẫu và xu hướng có tính dự báo.
Khai thác thông tin tiềm ẩn từ cơ sở dữ liệu lớn thông qua các công cụ khai phá dữ liệu giúp dự đoán xu hướng tương lai Điều này hỗ trợ các tổ chức, doanh nghiệp và nhà nghiên cứu trong việc đưa ra quyết định kịp thời, dựa trên tri thức được khám phá.
- Thực hiện phân tích xử lý, tính toán dữ liệu một cách tự động cho mỗi quá trình xử lý dữ liệu để tìm ra tri thức
1.3.3 Quá trình khai phá dữ liệu
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức
Giai đoạn này là cơ hội duy nhất để khám phá thông tin mới và tiềm ẩn trong cơ sở dữ liệu, phục vụ cho việc mô tả và dự đoán Dự đoán liên quan đến việc suy luận từ dữ liệu nhằm đưa ra các dự báo, phân tích tập dữ liệu huấn luyện và xây dựng mô hình để nhận diện các mẫu và mô hình mới chưa biết.
20 tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được
Quá trình KPDL bao gồm các bước như trong hình sau:
- Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết
- Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp
Việc thu thập và tiền xử lý dữ liệu là bước quan trọng để đảm bảo thuật toán KPDL có thể hiểu và xử lý thông tin Quá trình này thường gặp nhiều khó khăn, bao gồm việc sao chép dữ liệu thành nhiều bản, quản lý tập dữ liệu hiệu quả và lặp lại quy trình nhiều lần khi mô hình dữ liệu thay đổi.
Thuật toán khai phá dữ liệu (KPDL) là công cụ quan trọng giúp tìm ra các mẫu có ý nghĩa trong tập dữ liệu Việc lựa chọn thuật toán KPDL phù hợp và thực hiện quy trình khai thác dữ liệu cho phép chúng ta biểu diễn các mẫu này dưới dạng luật kết hợp, cây quyết định, và nhiều hình thức khác, từ đó mang lại những hiểu biết sâu sắc và giá trị cho việc ra quyết định.
ỨNG DỤNG XÂY DỰNG MÔ HÌNH PHÂN KHÚC KHÁCH HÀNG BẰNG RFM KẾT HỢP THUẬT TOÁN PHÂN CỤM K-MEANS
Thu thập dữ liệu
Bài luận này sử dụng bộ dữ liệu AdventureWorks từ công ty AdventureWorks Cycles, một công ty ảo trong ngành bán lẻ xe đạp Bộ dữ liệu này được cung cấp miễn phí bởi Microsoft.
2.1.1 Thông tin về bộ dữ liệu
Cơ sở dữ liệu AdventureWorks mô phỏng dữ liệu của công ty hư cấu Adventure Works Cycles, một doanh nghiệp sản xuất xe đạp quy mô lớn với hoạt động toàn cầu Công ty chuyên sản xuất và kinh doanh xe đạp từ kim loại và vật liệu tổng hợp, phục vụ thị trường Bắc Mỹ, Châu Âu và Châu Á Trụ sở chính của Adventure Works Cycles đặt tại Bothell, Washington, với 290 nhân viên, cùng với một số nhóm nhân viên kinh doanh tại các khu vực thị trường.
Vào năm 2000, Adventure Works Cycles đã mua lại nhà máy sản xuất nhỏ Importadores Neptuno tại Mexico, nơi sản xuất các thành phần thiết yếu cho dây chuyền sản xuất của công ty Các thành phần này được chuyển đến trụ sở chính ở Bothell để lắp ráp thành phẩm Đến năm 2001, Importadores Neptuno trở thành nhà máy duy nhất sản xuất phà phân phối cho dòng sản phẩm xe đạp du lịch.
Sau một năm tài chính thành công, công ty Adventure Works Cycles đang nỗ lực mở rộng thị phần bằng cách tập trung vào hoạt động bán hàng cho các khách hàng quan trọng nhất Họ cũng đang mở rộng thông tin sản phẩm qua hệ thống website và giảm chi phí bán hàng bằng cách tối ưu hóa chi phí sản xuất.
2.1.2 Mô tả bộ dữ liệu
The AdventureWorks dataset comprises sales transaction data from Adventure Works Cycles, covering the period from July 1, 2016, to July 31, 2019 This extensive dataset includes a wealth of information related to sales activities.
Đơn hàng bán (Sales Order) chứa thông tin về các kênh bán hàng của công ty, bao gồm kênh bán trực tiếp (Reseller) và kênh bán qua mạng (Internet) Nó bao gồm mã đơn hàng và dữ liệu chi tiết về các mặt hàng trong đơn hàng, được gọi là dòng đơn hàng (Sales Order Line) với mã định danh (SalesOrderLineKey).
Sales Territory : Chứa dữ liệu về các vùng lãnh thổ mà Công ty hoạt động gồm các cột dữ liệu về Vùng (Region), Quốc gia (Country), Nhóm (Group)
Dữ liệu bán hàng của công ty bao gồm thông tin chi tiết về các mặt hàng trong đơn hàng (Sales Order Line) và dữ liệu bán hàng từ các kênh phân phối khác nhau.
The article outlines key elements related to order management for resellers, including the order number, customer ID, purchase date, due date, and shipping date It emphasizes the importance of sales territory, order quantity, unit price, and unit price discount percentage Additionally, it highlights the total revenue generated from invoices.
The article discusses data related to the Reseller sales channel, which includes essential information such as Reseller ID, Business Type, City, State-Province, Country-Region, and Postal Code.
Date: Dữ liệu về ngày; tháng năm giao dịch (Date, Month, Full Date); năm tài chính, quý tài chính (Fiscal Year, Fiscal Quarter)
Product : Dữ liệu về mã sản phẩm (ProductKey, SKU); Thuộc tính sản phẩm
(Product); Giá tiêu chuẩn (Standard Cost); Màu sắc (Color); Danh sách giá
(List Price); Model; Danh mục phụ (Subcategory); Danh mục (Category)
Customer data includes essential information such as Customer ID, Customer Name, City of residence, State or Province, and Country or Region where the customer lives.
Mã vùng của khách hàng (Postal Code)
Bài nghiên cứu sẽ sử dụng ba loại dữ liệu chính: Dữ liệu về đơn mua hàng của khách hàng (Sales Order) với 60,399 dòng để tính điểm cho yếu tố Frequency; Dữ liệu về ngày mua hàng (Order Date) với 60,399 dòng từ ngày 1/7/2016 đến 31/7/2019 để tính điểm cho yếu tố Recency; và Dữ liệu về tổng tiền đơn hàng (Sales Amount) với 60,399 dòng về tổng số tiền giao dịch, đơn vị Đô-la ($), để tính điểm cho yếu tố Monetary.
Bảng 2.1: Bảng mô tả dữ liệu
OrderDate Ngày đặt đơn hàng
OrderDate Key Mã ngày đặt đơn hàng
SalesTerritoryKey Mã lãnh thổ bán hàng
ShipDate Ngày giao hàng đơn hàng của khách hàng
SalesOrderLineNumber Số lượng chi tiết các dòng sản phẩm liên quan trong mỗi hóa đơn OrderQuantity Số lượng đơn đặt hàng
UnitPrice Giá trên đơn vị sản phẩm
ExtendedAmount Giá của số sản phẩm khách hàng mua (Giá trên đơn vị sản phẩm x số lượng sản phẩm) UnitPriceDiscountPct Giảm giá trên mỗi đơn vị sản phẩm
DiscountAmount Số tiền giảm giá
ProductStandardCost Chi phí tiêu chuẩn của sản phẩm
TotalProductCost Tổng chi phí sản phẩm
SalesAmount Doanh thu đơn hàng
Region Khu vực khách hàng sinh sống
Tiền xử lý dữ liệu
2.2.1 Lựa chọn các thuộc tính
Nghiên cứu này thực hiện thí nghiệm trên bộ dữ liệu của công ty bán lẻ xe đạp AdventureWorks, bao gồm 60,399 dòng giao dịch từ ngày 1/7/2016 đến 31/7/2019, với đầy đủ các thuộc tính cần thiết để thiết lập mô hình RFM Dưới đây là hình ảnh minh họa một số thuộc tính quan trọng cho việc tính toán các chỉ số RFM.
Hình 2.2: Tập dữ liệu của công ty Adventure Works Cycles
Nguồn: Tính toán từ tác giả
Tập dữ liệu của công ty AdventureWorks chứa nhiều thuộc tính khác nhau, mỗi thuộc tính thể hiện giá trị của giao dịch như đơn giá, tổng tiền, mã khách hàng và mã đơn hàng Tuy nhiên, không phải tất cả dữ liệu đều hữu ích cho việc thiết lập mô hình RFM Do đó, trước khi tính toán các giá trị R, F, M, nghiên cứu đã tiến hành sàng lọc để xác định các thuộc tính cần thiết, tập trung vào CustomerKey (mã khách hàng), OrderDate (ngày đặt hàng), Sales Order Number (đơn đặt hàng) và Sales Amount (tổng tiền bán ra).
Nghiên cứu này tập trung vào phân khúc khách hàng (Customer Segmentation) bằng cách sử dụng CustomerKey làm khóa chính để định danh từng khách hàng, đảm bảo mỗi khách hàng có một CustomerKey duy nhất Để tính giá trị Recency, OrderDate là yếu tố quan trọng giúp xác định số ngày từ lần giao dịch gần nhất đến hiện tại Đối với giá trị Frequency, thuộc tính Sales Order Number được sử dụng để tính tổng số lượt giao dịch của từng khách hàng Cuối cùng, để xác định nhân tố Monetary, Sales Amount cần được xem xét để tính tổng số tiền mà khách hàng đã chi cho sản phẩm của công ty.
Làm sạch dữ liệu là quá trình quan trọng nhằm sửa chữa hoặc loại bỏ dữ liệu không chính xác, sai định dạng, trùng lặp hoặc không đầy đủ trong tập dữ liệu Khi kết hợp nhiều nguồn dữ liệu, khả năng xảy ra trùng lặp hoặc gán nhãn sai là rất cao, điều này có thể ảnh hưởng đến kết quả của mô hình Do đó, việc làm sạch dữ liệu trở nên cần thiết Quá trình này bao gồm việc xóa các dữ liệu trùng lặp và không liên quan Trong quá trình thu thập dữ liệu của doanh nghiệp, việc phát sinh dữ liệu trùng lặp và không liên quan là điều khó tránh khỏi, vì vậy cần đảm bảo các điều kiện nhất định cho bộ dữ liệu.
Cột dữ liệu Sales Order Number: kiểu dữ liệu String
Cột dữ liệu OrderDate: kiểu dữ liệu Datatime
Cột dữ liệu Amount: kiểu dữ liệu Số thập phân
Dữ liệu đã được tùy chọn thuộc tính cho thấy rằng thuộc tính SalesAmount là một trường dữ liệu định lượng, có khả năng chứa các giá trị ngoại lai không phù hợp Do đó, việc phân tích trường dữ liệu này thông qua các trị số thống kê mô tả và sơ đồ boxplot là cần thiết.
Hình 2.3: Thống kê mô tả thuộc tính SaleAmount
Nguồn: Tính toán từ tác giả
Một số điểm dữ liệu có giá trị lớn hơn 3000 cho thấy mức độ chênh lệch đáng kể Những giá trị này phù hợp với giá trị sản phẩm và số lượng mua của khách hàng, do đó cần được giữ lại Tuy nhiên, cần thảo luận riêng về kết quả phân cụm liên quan đến các giá trị ngoại lai này.
Tùy thuộc vào hiểu biết về bộ dữ liệu và tỷ lệ phần trăm dữ liệu bị thiếu so với tổng thể, có thể thực hiện việc loại bỏ hoặc thay thế các dữ liệu thiếu để đảm bảo độ chính xác của dữ liệu.
29 liệu Với bộ dữ liệu hiện có, thuộc tính đã được hoàn chỉnh và các điểm dữ liệu không bị thiếu
Hình 2.4: Số giá trị bị thiếu của từng thuộc tính
Nguồn: Tính toán từ tác giả 2.2.3 Biến đổi dữ liệu
Sau khi đã thu thập, sàng lọc và làm sạch đầy đủ các dữ liệu cần thiết, ở bước tiếp theo sẽ tiến hành chuyển hóa dữ liệu (Data Transformation)
Chuyển hóa dữ liệu là quá trình thay đổi hình thức, cấu trúc hoặc giá trị của dữ liệu để tổ chức chúng một cách trực quan và hiệu quả hơn Quá trình này tạo ra một tập dữ liệu dễ sử dụng cho cả con người và máy tính, đảm bảo chứa đầy đủ các thuộc tính và dữ liệu cần thiết cho phân tích mà không thừa, không thiếu.
Quá trình phân tích dữ liệu giúp giảm thiểu vấn đề nhiễu thông tin do thừa hoặc thiếu dữ liệu, từ đó nâng cao độ chính xác và hiệu quả trong tính toán Trong bài báo này, việc chuyển hóa dữ liệu liên quan đến việc tính toán các giá trị Recency, Frequency và Monetary dựa trên dữ liệu hiện có.
Recency là khoảng thời gian tính từ lần giao dịch gần nhất của khách hàng với công ty, với thuộc tính OrderDate là yếu tố quan trọng để tính toán giá trị này Để xác định Recency, cột dữ liệu OrderDate cần được định dạng lại theo kiểu “Year-Month-Day” và gộp các CustomerKey trùng lặp để tính toán cho từng khách hàng Mốc thời gian được xác định là ngày mua gần nhất trong tập dữ liệu, sau đó trừ đi ngày mua hàng gần nhất của từng khách hàng (giá trị Max của cột OrderDate) để tính ra giá trị Recency.
Hình 2.5: Tính toán giá trị Recency
Nguồn: Tính toán từ tác giả
Chỉ số "Frequency" đo lường mức độ mua hàng thường xuyên của khách hàng, đặc biệt quan trọng đối với các doanh nghiệp có sản phẩm hoặc dịch vụ có lợi nhuận thấp Doanh nghiệp cần khách hàng sử dụng dịch vụ thường xuyên để tồn tại Giá trị Frequency được xác định bằng số lần mua hàng của khách hàng, dựa trên việc đếm số lượng Sales Order Number mà mỗi khách hàng (tương ứng với một CustomerKey) tạo ra.
Hình 2.6: Tính toán giá trị Frequency
Nguồn: Tính toán từ tác giả
Giá trị Monetary là yếu tố quan trọng trong mô hình RFM, đại diện cho tổng số tiền mà khách hàng đã chi tiêu cho sản phẩm của doanh nghiệp Chỉ số này giúp nhà phân tích đánh giá giá trị vật chất mà doanh nghiệp thu được từ việc khách hàng sử dụng dịch vụ Để tính toán, Monetary được xác định bằng cách cộng dồn toàn bộ số tiền từ tất cả các đơn hàng của từng khách hàng trong tập dữ liệu.
Hình 2.7: Tính toán giá trị Monetary
Nguồn: Tính toán từ tác giả
Với 3 chỉ số Recency (Ngày mua hàng gần đây), Frequency (Mức độ mua hàng) và Monetary (Giá trị mua hàng của khách hàng) kết hợp ta xây dựng được bảng chỉ số RFM như sau:
Hình 2.8: Tổng hợp các giá trị RFM
Nguồn: Tính toán từ tác giả
Trực quan hóa dữ liệu
Để nắm rõ hơn về bộ dữ liệu trong nghiên cứu, chúng ta sẽ tiến hành trực quan hóa dữ liệu dựa trên một số thuộc tính quan trọng, trong đó có thuộc tính ProductKey (mã sản phẩm).
Thuộc tính “ProductKey” đại diện cho mã của các sản phẩm, với 158 mã sản phẩm khác nhau hiện có trên thị trường Biểu đồ dưới đây cho thấy mức độ phổ biến của các mã sản phẩm, cho thấy rằng hầu hết các mã đều bao gồm 3 ký tự số.
Hình 2.9: Biểu đồ thể hiện TOP 20 sản phẩm bán chạy nhất
Nguồn: Tính toán từ tác giả
Mã sản phẩm 477 là sản phẩm bán chạy nhất với 4244 sản phẩm được tiêu thụ, cho thấy sự quan tâm lớn từ khách hàng Doanh nghiệp cần chú trọng nâng cao chất lượng và cải tiến sản phẩm để giữ chân khách hàng Mã 480 và 528 đứng thứ hai và ba với số lượng bán ra lần lượt là 3191 và 3095.
Thuộc tính “CustomerKey” đại diện cho mã của khách hàng Biểu đồ dưới đây hiển thị TOP 10 khách hàng tiềm năng nhất Qua việc kết hợp hai biểu đồ, ta nhận thấy hầu hết các mã khách hàng đều có 5 ký tự số.
Hình 2.10: Biểu đồ thể hiện TOP10 khách hàng tiềm năng nhất
Nguồn: Tính toán từ tác giả c, Thuộc tính SalesAmount
Thuộc tính “SalesAmount” đại diện cho doanh thu của từng đơn hàng Dưới đây là một số biểu đồ thể hiện mối quan hệ giữa doanh thu bán hàng theo thời gian, số lượng mua hàng và khu vực.
Hình 2.11: Biểu đồ thể hiện doanh thu theo khu vực
Nguồn: Tính toán từ tác giả
Biểu đồ dưới đây cho thấy sự phân bố không đồng đều về doanh thu giữa các khu vực Australia dẫn đầu với doanh thu vượt 8.000.000 USD, trong khi Central và Southeast có doanh thu thấp nhất, dưới 2.000.000 USD Do đó, doanh nghiệp cần chú ý đến hai khu vực này để thực hiện các điều chỉnh phù hợp, nhằm cải thiện và nâng cao doanh thu cho từng chi nhánh.
Hình 2.12: Biểu đồ thể hiện tỷ lệ doanh thu và số lượng mua hàng theo khu vực
Nguồn: Tính toán từ tác giả
Biểu đồ doanh thu và số lượng mua hàng theo khu vực cho thấy khu vực nào có tốc độ luân chuyển hàng hóa tốt và mang lại doanh thu cao Cần tìm hiểu nguyên nhân của những khu vực có số lượng đơn hàng thấp để tối ưu hóa hệ thống quản lý Số lượng điểm bán không phải lúc nào cũng quyết định hiệu quả kinh doanh, đặc biệt khi tốc độ luân chuyển hàng hóa chậm hoặc không có sự tăng trưởng.
Hình 2.13: Biểu đồ doanh thu bán hàng theo năm
Nguồn: Tính toán từ tác giả
Biểu đồ doanh thu bán hàng hàng năm cung cấp cái nhìn tổng quan về sự tăng trưởng doanh thu của doanh nghiệp Qua đó, nhà quản trị có thể đánh giá tình hình kinh doanh của công ty qua các năm Đặc biệt, năm 2016 ghi nhận doanh thu thấp nhất trong 4 năm, nhưng từ đó, doanh thu đã có sự tăng trưởng đáng kể qua các năm tiếp theo.
Từ năm 2016 đến cuối năm 2017, doanh thu tăng hơn 2.000.000 USD/năm Từ cuối năm 2017 đến cuối năm 2018, doanh thu doanh nghiệp đã tăng mạnh từ hơn 6.000.000 USD lên gần 10.000.000 USD/năm Hai năm tiếp theo cũng ghi nhận sự phát triển đáng kể.
2018 và 2019 mức doanh thu ổn định hơn với gần 10.000.000 USD/năm
Hình 2.14: Doanh thu bán hàng hàng tháng
Nguồn: Tính toán từ tác giả
Biểu đồ doanh thu bán hàng hàng năm cho thấy sự biến động doanh thu của doanh nghiệp theo tháng Từ tháng 7 năm 2016 đến đầu tháng 6 năm 2019, doanh thu hàng tháng có xu hướng tăng dần Tuy nhiên, sau tháng 7 năm 2019, doanh thu giảm đột ngột, có thể do ảnh hưởng của dịch bệnh Covid-19 làm giảm doanh thu từ các sản phẩm xe đạp.
Thuộc tính “Region” cho biết tên quốc gia sinh sống của mỗi khách hàng, có
37 quốc gia khác nhau Những quốc gia có số lượng giao dịch nhiều như: Austrlia với 13345 giao dịch, Southwest với 12265 giao dịch, Northwest với 8993 giao dịch,…
Hình 2.15: Số lượng giao dịch của mỗi khu vực
Nguồn: Tính toán từ tác giả
Xây dựng mô hình RFM
2.4.1 Tính điểm RFM tổng thể
Sau khi tính toán ba giá trị R, F, M, bài nghiên cứu đã tiến hành tính điểm cho từng chỉ số Tiếp theo, bài thực hiện phân cấp khách hàng thông qua phương pháp phân tổ dữ liệu, hay còn gọi là phân lớp thống kê Phương pháp này sử dụng Percentile để chia dữ liệu R-F-M thành các nhóm đều.
5 phần đều nhau được đánh Label từ 1 đến 5 Label càng lớn thì giá trị càng tốt (Label
= 5 là tốt nhất) Để có thể phân tổ dữ liệu bài tiến hành tính độ dài từng khoảng (h) như sau:
Max và Min là giá trị lớn nhất và nhỏ nhất của từng cột dữ liệu R, F, M Sau khi thực hiện, chúng ta đã xác định được các mốc 20%, 40%, 60% và 80% cho từng giá trị.
Hình 2.16: Giá trị các mốc của R, F, M
Nguồn: Tính toán từ tác giả
Điểm RFM cho từng khách hàng được tính dựa trên ngày mua hàng gần đây nhất Quy trình này bao gồm việc gán điểm số cho lần truy cập gần đây, với các giá trị được phân loại thành nhiều danh mục (mặc định là 5) Cụ thể, khách hàng có ngày mua hàng gần đây nhất sẽ nhận được xếp hạng 5, trong khi những khách hàng có ngày mua hàng cũ hơn sẽ được xếp hạng thấp hơn, ví dụ như 1.
Điểm xếp hạng tần suất được xác định dựa trên tần suất mua hàng của khách hàng, với những khách hàng có tần suất cao nhất được gán Label 5 và những khách hàng có tần suất thấp nhất được gán điểm 1 Điểm số tiền tệ được tính dựa trên tổng doanh thu mà khách hàng tạo ra trong kỳ phân tích, trong đó những khách hàng có doanh thu hoặc số lượng đơn hàng cao nhất sẽ nhận được điểm cao hơn, trong khi những khách hàng có doanh thu thấp nhất sẽ được gán điểm 1 Cuối cùng, RFM Score được tạo ra bằng cách kết hợp ba điểm số riêng lẻ thành một giá trị duy nhất.
Sau khi tính toán điểm cho từng yếu tố R (Recency), F (Frequency) và M (Monetary), nghiên cứu sẽ tiến hành gộp điểm R, F và M của từng khách hàng để phục vụ cho việc phân khúc khách hàng.
Nguồn: Tính toán từ tác giả
Kết quả sau bước này là mỗi khách hàng sẽ có một tổ hợp điểm R, F và M phản ánh hành vi mua hàng của họ Tổ hợp điểm này sẽ được sử dụng trong bước dán nhãn, nơi mỗi tổ hợp sẽ được gán một nhãn tương ứng theo điều kiện nhất định để phân loại các nhóm khách hàng đặc trưng.
2.4.2 Phân cụm và gán nhãn nhóm khách hàng
Bước cuối cùng trong phân khúc khách hàng là dán nhãn để phân biệt các nhóm khách hàng theo tính chất và đặc trưng riêng Việc gán nhãn sau khi chấm điểm là rất quan trọng, giúp nhận biết và xây dựng chính sách phù hợp cho từng nhóm một cách thuận tiện.
Việc dán nhãn khách hàng không chỉ giúp nhà bán lẻ tiết kiệm thời gian và chi phí, mà còn nâng cao hiệu quả trong việc đánh giá khách hàng Thay vì phải phân tích từng cột điểm RFM phức tạp, nhà bán lẻ có thể nhanh chóng xác định ai là khách hàng V.I.P hoặc những người có nguy cơ rời bỏ sản phẩm/dịch vụ Để đạt được điều này, việc đặt tên nhãn cần sử dụng từ ngữ dễ hiểu, phản ánh đặc trưng của từng nhóm khách hàng Nghiên cứu này đã sử dụng 6 nhãn tương ứng cho các nhóm khách hàng dựa trên chỉ số RFM đã tính toán.
- Nhà vô địch (Champions): Nhóm khách hàng mua gần đây, thường xuyên và chi nhiều nhất
- Khách hàng trung thành tiềm năng (Potential Loyalist): Những khách hàng gần đây với tần suất mua hàng nằm ở mức trung bình
- Khách hàng mới (New Customers): Khách hàng đã mua gần đây nhất, nhưng không thường xuyên
- Khách hàng kỳ vọng (Promising): Những khách hàng mua sắm gần đây, nhưng chưa chi tiêu nhiều
- Cần sự chú ý (Need Attention): Điểm RFM trên trung bình; có thể đã không mua gần đây
- Sắp ngủ (About To Sleep): Nhóm khách hàng có số điểm R, F dưới trung bình; sẽ để mất nếu không được kích hoạt lại
Để gán nhãn cho nhóm khách hàng, nghiên cứu này sẽ sử dụng dữ liệu đã chấm điểm RFM tổng thể, nhưng chỉ dựa vào điểm R và F, loại trừ điểm M Việc này nhằm giảm bớt sự phức tạp khi sử dụng mô hình 3D trên điểm RFM, cho phép vẽ bản đồ 2D một cách hiệu quả hơn.
Nhóm khách hàng có điểm R và F lần lượt như sau sẽ được gán một nhãn tương ứng:
Mỗi nhãn (Label) được sử dụng để phân biệt các nhóm khách hàng, giúp nhà bán lẻ nhận diện khách hàng cụ thể thuộc nhóm nào Từ đó, công ty có thể triển khai các chiến lược chăm sóc và marketing phù hợp cho từng nhóm, nhằm giữ chân khách hàng, tăng độ hài lòng và tạo ra doanh thu lớn Kết quả của quá trình dán nhãn được thể hiện qua hình dưới đây.
Hình 2.18: Dữ liệu sau khi được gán nhãn
Nguồn: Tính toán từ tác giả
Mỗi nhãn được sử dụng để phân loại các nhóm khách hàng khác nhau Sau khi gán nhãn, nhà bán lẻ có khả năng nhận diện dễ dàng từng khách hàng cụ thể.
Công ty sẽ phân loại khách hàng thành 41 nhóm khác nhau, từ đó xây dựng các chiến lược chăm sóc và marketing phù hợp cho từng nhóm Điều này không chỉ giúp giữ chân khách hàng mà còn tăng cường sự hài lòng, góp phần tạo ra doanh thu lớn cho doanh nghiệp.