Khảo sát hiện trạngCác nghiệp vụ quan tâm: - Phân cụm khách hàng theo bộ ba chỉ số F - frequency, R - recency, M- monetary.. - Xếp loại các chỉ số của từng nhóm khách hàng theo thứ tự..
Trang 1LỜI MỞ ĐẦU
Tử rất xa xưa, việc tiếp thị quảng cáo đã là một lĩnh vực vô cùng thiết yếu đối với các nhà kinh doanh Việc xác định đúng đối tượng, đúng nhóm khách hàng để có được những phản hồi tương tác đúng đắn đem lại giá trị cho công ty
là nhiệm vụ hàng đầu của việc Marketing Ngày nay với sự bùng nổ của dữ liệu,
sự gia tăng của các công cụ tính toán, hỗ trợ, chúng ta có thể đưa ra nhiều giải pháp khách nhau để hoàn thành nhiệm vụ đó một cách nhanh chóng và hiệu
quả Trong đề tài này, em lựa chọn xây dựng “Hệ thống hỗ trợ Marketing bằng phân cụm khách hàng qua thuật toán K-mean”.
Trang 2Mục lục
1 Khảo sát hiện trạng 3
1.1 Phân cụm khách hàng theo bộ ba chỉ số R, F, M 3
1.2 Xếp loại các chỉ số của từng cụm theo thứ tự 3
1.3 Báo cáo thống kê 4
1.4 Mô tả dữ liệu đầu vào 4
2 Phân tích hệ thống 5
2.1 Biểu đồ phân cấp chức năng 5
2.2 Biều đồ luồng dữ liệu 6
2.2.1 Biểu đồ mức ngữ cảnh 6
2.2.2 Biểu đồ mức đỉnh 7
2.2.3 Biểu đồ mức dưới đỉnh chức năng Làm sạch dữ liệu 7
2.2.4 Biểu đồ mức dưới đỉnh chức năng Phân cụm khách hàng theo chỉ số RFM 7 2.2.5 Biểu đồ mức dưới đỉnh chức năng Báo cáo thống kê 8
2.3 Biểu đồ thực thể liên kết 8
2.3.1 Sơ đồ thực thể liên kết 8
2.3.2 Mô tả chi tiết các thực thể 9
2.3.2.2 ORDER 10
2.3.2.3 RFM_CUSTOMER 10
2.3.2.4 BIG_CUSTOMER 11
2.3.2.5 MISS_ORDER 11
2.3.2.6 LABEL 12
Trang 33 Thiết kê hệ thống 13
3.1 Giới thiệu về thuật toán K-mean 13
3.2 Thuật toán Elbow 13
3.3 Giao diện người dùng 14
Trang 41 Khảo sát hiện trạng
Các nghiệp vụ quan tâm:
- Phân cụm khách hàng theo bộ ba chỉ số F - frequency, R - recency, M- monetary
- Xếp loại các chỉ số của từng nhóm khách hàng theo thứ tự
- Báo cáo thống kê:
o Thống kê số lượng hóa đơn, hóa đơn lỗi, khách hàng, khách hàng bất thường
o Số lượng khách hàng mỗi cụm
o Biểu đồ tỷ trọng tổng giá trị mua hàng của khách hàng theo từng cụm
o Báo cáo các chỉ số xếp hạng của nhóm khách hàng chính (nhóm khách hàng có số lượng lớn nhất)
1.1 Phân cụm khách hàng theo bộ ba chỉ số R, F, M
- Tiền xử lý dữ liệu - loại bỏ các dữ liệu không dầy đủ
- Loại bỏ những dữ liệu bất thường
- Tính số cụm phân tối ưu
- Sử dụng thuật toán K-mean để phân cụm khách hàng theo bộ chỉ số (R,F,M) 1.2.Xếp loại các chỉ số của từng cụm theo thứ tự
- Sắp xếp thứ tự từng chỉ số R, F, M theo thứ tự tăng dần
Trang 51 Nhỏ nhất - tốt nhất Nhỏ nhất - kém nhất Nhỏ nhất - kém nhất
N Lớn nhất - kém nhất Lớn nhất - tốt nhất Lớn nhất - tốt nhất
1.3.Báo cáo thống kê
- Báo cáo số khách hàng bất thường
- Thống kê số lượng khách hàng theo từng cụm
- Tính tỷ trọng số lượng khách hàng theo từng cụm
- Tính tỷ trọng giá trị mua hàng của từng cụm khách hàng
- Biểu đồ tỷ trọng tổng giá trị mua hàng của khách hàng theo từng cụm
- Báo cáo các chỉ số xếp hạng của nhóm khách hàng chính (nhóm khách hàng
có số lượng lớn nhất)
1.4 Mô tả dữ liệu đầu vào
- Dự liệu gồm các trường
T
T
2 ORDER_DATE Date (m/d/y) Ngày lập hóa đơn
E
Text(30) Tên KH
4 GRAND_TOTAL Số nguyên Tổng giá trị hóa đơn
Trang 6- Đánh giá: các bản ghi có thể bị lỗi thiếu một số trường
2 Phân tích hệ thống
2.1.Biểu đồ phân cấp chức năng
Trang 72.2.Biều đồ luồng dữ liệu
2.2.1 Biểu đồ mức ngữ cảnh
Phân cụm khách hàng
Làm sạch dữ
liệu
Phân loại những
dữ liệu NAN
Phân loại những
dữ liệu KH bất
thường
Phân cụm khách hàng theo chỉ số RFM
Tính ma trận RFM
Tìm số cụm phân tối ưu
Phân cụm KH theo bộ 3 chỉ số RFM
Xếp loại chỉ số của các cụm
Xếp loại chỉ số F
Xếp loại chỉ số R
Xếp loại chỉ số M
Báo cáo thống kê
Báo cáo doanh thu
Thông kê số KH theo từng cụm
Tỷ trọng tổng giá trị mua hàng của từng cụm Thông tin từng cụm khách hàng
Trang 82.2.2 Biểu đồ mức đỉnh
2.2.3 Biểu đồ mức dưới đỉnh chức năng Làm sạch dữ liệu
2.2.4 Biểu đồ mức dưới đỉnh chức năng Phân cụm khách hàng theo chỉ số RFM
Trang 92.2.5 Biểu đồ mức dưới đỉnh chức năng Báo cáo thống kê
2.3.Biểu đồ thực thể liên kết
2.3.1 Sơ đồ thực thể liên kết
Trang 102.3.2 Mô tả chi tiết các thực thể
2.3.2.1 CUSTOMER
T
T
E
Text(30) Tên khách hàng Khóa chính
nhận cho đến thời điểm
Not null
đơn
Not null
cho đến thời điểm
Not null
Trang 11phân tích
2.3.2.2 ORDER
T
T
E
2.3.2.3 RFM_CUSTOMER
T
T
E
phân
Not null
2.3.2.4 BIG_CUSTOMER
T
T
Trang 12nhận cho đến thời điểm
Not null
đơn
Not null
cho đến thời điểm phân tích
Not null
2.3.2.5 MISS_ORDER
T
T
E
Text(30) Tên KH
2.3.2.6 LABEL
T
T
hàng
Khóa chính
Trang 13nhận cho đến thời
điểm
đơn
Not null
cho đến thời điểm phân tích
Not null
3 Thiết kê hệ thống
3.1 Giới thiệu về thuật toán K-mean
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning Trong thuật toán K-means clustering, chúng ta không biết nhãn (label) của từng điểm dữ liệu Mục đích là làm thể nào để phân dữ liệu thành các cụm (cluster) khác nhau sao
cho dữ liệu trong cùng một cụm có tính chất giống nhau.
Ý tưởng: Với một số cụm k cho trước, ta thực hiện vòng lặp 2 bài toán tối ưu:
- Với tâm cụm cho trước (được chọn ngẫu nhiên), gắn nhãn cho các điểm dữ liệu sao cho khoảng cách từ điểm đó đến tâm nhã là nhỏ nhất
Trang 14- Với các điểm dữ liệu cùng nhãn, tìm tâm cụm của nhã đó sao cho khoảng cách từ tâm cụm đến các điểm trong cụm là nhỏ nhất
Thuật toán dừng khi tâm các cụm sau vòng lặp liền nhau không có sự thay đổi
3.2 Thuật toán Elbow
Sử dụng thuật toán Elbow để lựa chọn số cụm phân tối ưu k cho dữ liệu giữa trên chỉ số WSS (within cluster sum of square) - tổng các khoảng cách từ các điểm dữ liệu đến các tâm của nhóm mà chúng được gắn nhãn Chỉ số WSS - càng nhỏ được xem như độ tốt của sự phù hợp dữ liệu trong các nhóm được phân Tuy nhiên, việc lựa chọn chỉ số WSS dựa trên tùy chọn của mỗi người, thông thường ta sẽ chọn tại vị trí k mà sự biến thiên của WSS trước và sau là không quá lớn
Trang 153.3 Giao diện người dùng
- Trang chủ hệ thống
- Trang phân tích