1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Hệ thống hỗ trợ Marketing bằng phân cụm khách hàng qua thuật toán Kmean

17 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 1,11 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khảo sát hiện trạngCác nghiệp vụ quan tâm: - Phân cụm khách hàng theo bộ ba chỉ số F - frequency, R - recency, M- monetary.. - Xếp loại các chỉ số của từng nhóm khách hàng theo thứ tự..

Trang 1

LỜI MỞ ĐẦU

Tử rất xa xưa, việc tiếp thị quảng cáo đã là một lĩnh vực vô cùng thiết yếu đối với các nhà kinh doanh Việc xác định đúng đối tượng, đúng nhóm khách hàng để có được những phản hồi tương tác đúng đắn đem lại giá trị cho công ty

là nhiệm vụ hàng đầu của việc Marketing Ngày nay với sự bùng nổ của dữ liệu,

sự gia tăng của các công cụ tính toán, hỗ trợ, chúng ta có thể đưa ra nhiều giải pháp khách nhau để hoàn thành nhiệm vụ đó một cách nhanh chóng và hiệu

quả Trong đề tài này, em lựa chọn xây dựng “Hệ thống hỗ trợ Marketing bằng phân cụm khách hàng qua thuật toán K-mean”.

Trang 2

Mục lục

1 Khảo sát hiện trạng 3

1.1 Phân cụm khách hàng theo bộ ba chỉ số R, F, M 3

1.2 Xếp loại các chỉ số của từng cụm theo thứ tự 3

1.3 Báo cáo thống kê 4

1.4 Mô tả dữ liệu đầu vào 4

2 Phân tích hệ thống 5

2.1 Biểu đồ phân cấp chức năng 5

2.2 Biều đồ luồng dữ liệu 6

2.2.1 Biểu đồ mức ngữ cảnh 6

2.2.2 Biểu đồ mức đỉnh 7

2.2.3 Biểu đồ mức dưới đỉnh chức năng Làm sạch dữ liệu 7

2.2.4 Biểu đồ mức dưới đỉnh chức năng Phân cụm khách hàng theo chỉ số RFM 7 2.2.5 Biểu đồ mức dưới đỉnh chức năng Báo cáo thống kê 8

2.3 Biểu đồ thực thể liên kết 8

2.3.1 Sơ đồ thực thể liên kết 8

2.3.2 Mô tả chi tiết các thực thể 9

2.3.2.2 ORDER 10

2.3.2.3 RFM_CUSTOMER 10

2.3.2.4 BIG_CUSTOMER 11

2.3.2.5 MISS_ORDER 11

2.3.2.6 LABEL 12

Trang 3

3 Thiết kê hệ thống 13

3.1 Giới thiệu về thuật toán K-mean 13

3.2 Thuật toán Elbow 13

3.3 Giao diện người dùng 14

Trang 4

1 Khảo sát hiện trạng

Các nghiệp vụ quan tâm:

- Phân cụm khách hàng theo bộ ba chỉ số F - frequency, R - recency, M- monetary

- Xếp loại các chỉ số của từng nhóm khách hàng theo thứ tự

- Báo cáo thống kê:

o Thống kê số lượng hóa đơn, hóa đơn lỗi, khách hàng, khách hàng bất thường

o Số lượng khách hàng mỗi cụm

o Biểu đồ tỷ trọng tổng giá trị mua hàng của khách hàng theo từng cụm

o Báo cáo các chỉ số xếp hạng của nhóm khách hàng chính (nhóm khách hàng có số lượng lớn nhất)

1.1 Phân cụm khách hàng theo bộ ba chỉ số R, F, M

- Tiền xử lý dữ liệu - loại bỏ các dữ liệu không dầy đủ

- Loại bỏ những dữ liệu bất thường

- Tính số cụm phân tối ưu

- Sử dụng thuật toán K-mean để phân cụm khách hàng theo bộ chỉ số (R,F,M) 1.2.Xếp loại các chỉ số của từng cụm theo thứ tự

- Sắp xếp thứ tự từng chỉ số R, F, M theo thứ tự tăng dần

Trang 5

1 Nhỏ nhất - tốt nhất Nhỏ nhất - kém nhất Nhỏ nhất - kém nhất

N Lớn nhất - kém nhất Lớn nhất - tốt nhất Lớn nhất - tốt nhất

1.3.Báo cáo thống kê

- Báo cáo số khách hàng bất thường

- Thống kê số lượng khách hàng theo từng cụm

- Tính tỷ trọng số lượng khách hàng theo từng cụm

- Tính tỷ trọng giá trị mua hàng của từng cụm khách hàng

- Biểu đồ tỷ trọng tổng giá trị mua hàng của khách hàng theo từng cụm

- Báo cáo các chỉ số xếp hạng của nhóm khách hàng chính (nhóm khách hàng

có số lượng lớn nhất)

1.4 Mô tả dữ liệu đầu vào

- Dự liệu gồm các trường

T

T

2 ORDER_DATE Date (m/d/y) Ngày lập hóa đơn

E

Text(30) Tên KH

4 GRAND_TOTAL Số nguyên Tổng giá trị hóa đơn

Trang 6

- Đánh giá: các bản ghi có thể bị lỗi thiếu một số trường

2 Phân tích hệ thống

2.1.Biểu đồ phân cấp chức năng

Trang 7

2.2.Biều đồ luồng dữ liệu

2.2.1 Biểu đồ mức ngữ cảnh

Phân cụm khách hàng

Làm sạch dữ

liệu

Phân loại những

dữ liệu NAN

Phân loại những

dữ liệu KH bất

thường

Phân cụm khách hàng theo chỉ số RFM

Tính ma trận RFM

Tìm số cụm phân tối ưu

Phân cụm KH theo bộ 3 chỉ số RFM

Xếp loại chỉ số của các cụm

Xếp loại chỉ số F

Xếp loại chỉ số R

Xếp loại chỉ số M

Báo cáo thống kê

Báo cáo doanh thu

Thông kê số KH theo từng cụm

Tỷ trọng tổng giá trị mua hàng của từng cụm Thông tin từng cụm khách hàng

Trang 8

2.2.2 Biểu đồ mức đỉnh

2.2.3 Biểu đồ mức dưới đỉnh chức năng Làm sạch dữ liệu

2.2.4 Biểu đồ mức dưới đỉnh chức năng Phân cụm khách hàng theo chỉ số RFM

Trang 9

2.2.5 Biểu đồ mức dưới đỉnh chức năng Báo cáo thống kê

2.3.Biểu đồ thực thể liên kết

2.3.1 Sơ đồ thực thể liên kết

Trang 10

2.3.2 Mô tả chi tiết các thực thể

2.3.2.1 CUSTOMER

T

T

E

Text(30) Tên khách hàng Khóa chính

nhận cho đến thời điểm

Not null

đơn

Not null

cho đến thời điểm

Not null

Trang 11

phân tích

2.3.2.2 ORDER

T

T

E

2.3.2.3 RFM_CUSTOMER

T

T

E

phân

Not null

2.3.2.4 BIG_CUSTOMER

T

T

Trang 12

nhận cho đến thời điểm

Not null

đơn

Not null

cho đến thời điểm phân tích

Not null

2.3.2.5 MISS_ORDER

T

T

E

Text(30) Tên KH

2.3.2.6 LABEL

T

T

hàng

Khóa chính

Trang 13

nhận cho đến thời

điểm

đơn

Not null

cho đến thời điểm phân tích

Not null

3 Thiết kê hệ thống

3.1 Giới thiệu về thuật toán K-mean

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning Trong thuật toán K-means clustering, chúng ta không biết nhãn (label) của từng điểm dữ liệu Mục đích là làm thể nào để phân dữ liệu thành các cụm (cluster) khác nhau sao

cho dữ liệu trong cùng một cụm có tính chất giống nhau.

Ý tưởng: Với một số cụm k cho trước, ta thực hiện vòng lặp 2 bài toán tối ưu:

- Với tâm cụm cho trước (được chọn ngẫu nhiên), gắn nhãn cho các điểm dữ liệu sao cho khoảng cách từ điểm đó đến tâm nhã là nhỏ nhất

Trang 14

- Với các điểm dữ liệu cùng nhãn, tìm tâm cụm của nhã đó sao cho khoảng cách từ tâm cụm đến các điểm trong cụm là nhỏ nhất

Thuật toán dừng khi tâm các cụm sau vòng lặp liền nhau không có sự thay đổi

3.2 Thuật toán Elbow

Sử dụng thuật toán Elbow để lựa chọn số cụm phân tối ưu k cho dữ liệu giữa trên chỉ số WSS (within cluster sum of square) - tổng các khoảng cách từ các điểm dữ liệu đến các tâm của nhóm mà chúng được gắn nhãn Chỉ số WSS - càng nhỏ được xem như độ tốt của sự phù hợp dữ liệu trong các nhóm được phân Tuy nhiên, việc lựa chọn chỉ số WSS dựa trên tùy chọn của mỗi người, thông thường ta sẽ chọn tại vị trí k mà sự biến thiên của WSS trước và sau là không quá lớn

Trang 15

3.3 Giao diện người dùng

- Trang chủ hệ thống

- Trang phân tích

Ngày đăng: 17/02/2022, 21:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w