1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tậ ớ p l n nhóm 1 bài toán phân tích tính cách khách hàng

16 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo bài tập lớn nhóm 1 bài toán phân tích tính cách khách hàng
Tác giả Trần Thị Hải Anh, Trần Quốc Anh, Nguyễn Thị Lan, Nguyễn Công Trữ, Lò Minh Quang
Trường học Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội
Chuyên ngành Khai phá dữ liệu và Phân tích Mạng xã hội
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 16
Dung lượng 512,52 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BÁO CÁO BÀI TẬP LỚN Nhóm 1 – Bài toán phân tích tính cách khách hàng Bài toán - Ý nghĩa Phân tích tính cách khách hàng là một phân tích chi tiết về khách hàng lý tưởng của một công ty..

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN

-

-BÁO CÁO Môn: KHAI PHÁ DỮ LIỆU VÀ PHÂN TÍCH MẠNG XÃ HỘI

Nhóm sinh viên / Trần Thị Hải Anh Trần Quốc Anh Nguyễn Thị Lan

Nguyễn Công Trữ

Lò Minh Quang Khoa:

Môn:

Email:

Nhóm 1: PTTCKH 19032857

19032856 19032872 19032898 190328 Thông tin – thư viện

Khai phá dữ liệu và Phân tích

Mạng xã hội

Haianhtran42@gmail.com

Hà Nội, 2022

Trang 2

Mục lục:

1 Hiểu được bài toán đã lựa chọn 3

2 Hiểu dữ liệu 4

2.2 Các dữ liệu chính xác 6

3 Hiểu được thuật toán khai phá dữ liệu / học máy sẽ áp dụng 9

4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện 11

5 Các điểm mới 12

Tài liệu tham khảo & File bài tập: 2

Tài liệ u tham khảo & File bài tập:

1 https://www.kaggle.com/tranductoan6a9/k-means-clustering-customers-segmentation

2 Links file dữ liệu và file Colab:

https://drive.google.com/drive/folders/1N9RIou0raKdUgBjdFpDYLEtqgTuK PQmk

Trang 3

BÁO CÁO BÀI TẬP LỚN Nhóm 1 – Bài toán phân tích tính cách khách hàng Bài toán - Ý nghĩa

Phân tích tính cách khách hàng là một phân tích chi tiết về khách hàng lý tưởng của một công ty Nó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và giúp họ dễ dàng sửa đổi sản phẩm theo nhu cầu, hành vi và mối quan tâm cụ thể của các loại khách hàng khác nhau

Phân tích tính cách khách hàng giúp doanh nghiệp sửa đổi sản phẩm của mình dựa

trên khách hàng mục tiêu từ các loại phân khúc khách hàng khác nhau Ví dụ, thay vì chi tiền để tiếp thị một sản phẩm mới cho mọi khách hàng trong cơ sở dữ liệu của công ty, một công ty có thể phân tích phân khúc khách hàng nào có nhiều khả năng mua sản phẩm nhất và sau đó tiếp thị sản phẩm chỉ trên phân khúc cụ thể đó

1 Hiểu được bài toán đã lựa chọn Công việc (task) Link tệp dữ liệu

Input: Thông tin khách hàng và thông tin mua hàng

Output : phân cụm khách hàng dựa vào thông tin, tính cách hàng vi mua

hàng của khách hàng, lấy đây làm cơ sở cho chiến dịch sửa đổi sản phẩm cho phù hợp

Trang 4

Dựa vào output, cho thấy xử lý bài toán dạng phân cụm phương pháp K-mean Elbow

Output cho ra các cụm.

Cụm 0: Thu nhập vừa phải> chi tiêu thấp.

Chủ yếu là có trẻ em Không thích mua với danh mục Thích mua những thứ

được giảm giá Thường xuyên ghé thăm sản phẩm thông qua trang web

Cụm 1: Thu nhập cao nhất> Chi tiêu nhiều nhất.

Chủ yếu là không có con, một nửa trong số họ không có quan hệ tình cảm Tỷ lệ

có trình độ đại học cao hơn các ngành khác Thích mua bằng cách sử dụng danh mục và trực tiếp tại cửa hàng Ngoài Rượu và Thịt, những khách hàng này cũng thích mua Fruits, Fish, Sweet, Gold

Cụm 2: Thu nhập thấp nhất đến trung bình đã chi tiêu thấp nhất.

Tuổi: chủ yếu khoảng 40 tuổi, tương đối trẻ hơn 1 và 2 Chủ yếu là có trẻ em Không thích mua với danh mục Thường xuyên ghé thăm sản phẩm thông qua trang web

Cụm 3: Thu nhập trung bình đến cao> Chi tiêu nhiều.

Hơn 2/3 trong số họ không có con Thích mua những thứ được giảm giá Cũng thích mua Vàng bên cạnh Rượu và Thịt

2 Hiểu dữ liệu

2.1 Làm sạch dữ liệu

liệu báo cáo tức là năm 2015 trừ đi năm sinh của khách hàng

- Chia nhóm khách hàng thành 2 nhóm khách hàng có mối quan hệ và không có mối quan hệ

Trang 5

- Thực hiện phân loại khách hàng thành 2 nhóm có con hoặc không có con.

- Tiến hành truy vấn những người có tuổi lớn hơn 90

Sau khi truy vấn xong tiếp tục tiến hành lọc những người có độ tuổi lớn hơn

hoặc bằng 90 vì những khách hàng trên 90 tuổi còn khả năng vận động kém

dòng 29 cột

- Giải thích ý nghĩa các thuộc tính ( các thuộc tính thiết yếu)

Year_Birth: Năm sinh khách hàng

Education: Mức độ học vấn

Marital_Status: Tình trạng hôn nhân

Income: Thu nhập khách hàng

Trang 6

Kidhome: số trẻ em trong gia đình

Teenhome: Số trẻ vị thành niên trong gia đình

Dt_Customer: Ngày mua hàng

Recency: Lần truy cập

và các mặt hàng được mua: Rượu, trái cây,

- Không có thuộc tính nào là nhãn (label)

→ bài toán không giám sát (supervised)

Dữ liệu bị khuyết thiếu :Null- income :24

- Dữ liệu không cùng 1 dải giá trị không: > phải chuẩn hóa

- Những thuộc tính nào ở dạng số (ID, Yearbirth, Recency, income, các thuộc tính sản phẩm MntFruits, Mntwines, ),

thuộc tính ở dạng categorical (education, Marital_status,)

thuộc tính nào ở dạng phi cấu trúc ( không có)

nếu khách hàng đại diện cho một chấm tròn vào biểu hiện 3d thì sẽ như sau

2.2 Các dữ liệu chính xác

- Những đặc trưng của dữ liệu

Trang 7

+ Mức thu nhập của khách hàng chủ yếu giao động từ 30000 -70000

+ Hầu hết độ tuổi khách hàng là 32-63 nhóm độ tuổi lao động

Dùng EDA để nêu lên phân bổ khách hàng theo độ tuổi Nhìn số tuổi lao động giao động trong lứa tuổi trung niên

+ Phân bố thu nhập khách hàng hằng năm ở khoảng : 20.000 - 80.000 $

Trang 8

+ Trình độ học vấn chủ yếu thuộc tính graduation: 50,5%, tiếp theo PhD:

21,6%, đứng thứ 3: Master: 16,5, 2n Cycle: 9,0% ; còn lại là Basic: 2,4%

+ Cử nhân, Sau đại học Giáo dục Thu nhập tương đương nhau, nhưng Thu nhập bằng Cơ bản thấp hơn rõ ràng so với những người khác đặc biệt là thể hiện như sau

Chỉ số hệ số tương quan để xem mối liên hệ giữa các thuộc tính của khách

hàng thuộc tính càng gần 1 chứng tỏ mức độ quan hệ giữa nó càng cao

Trang 9

3 Hiểu được thuật toán khai phá dữ liệu / học máy sẽ áp dụng

Các tham số trong thuật toán K-means Elbow: 4 tham số ( 4 cụm) và 4 cụm có đặc tính khác nhau ( cụm 0, 1, 2, 3)

Tại sao sử dụng thuật toán này: Đây là một thuật toán thường được sử dụng trong Kmean và có thể thực hiện được Cũng là một phương pháp đơn giản

để tham chiếu số cụm muốn phân chia

Elbow method chọn số sụm k sao cho khi thêm vào một cụm khác thì không làm cho WSS thay đổi nhiều

Quy trình triển khai Elbow method của bài toán như sau:

Triển khai thuật toán phân cụm k-mean) với các số cụm k thay đổi của bài toán

là 1-16 cụm

Trang 10

Với mỗ i giá trị k, tính giá trị WSS, vẽ Elbow curve theo các giá trị k.

Dựa vào Elbow curve chọn số k thích hợ p, là vị trí ở khúc cua Ở bài toán khúc của cụm 4 trở đi ít biến đổi → có k = 4

Từ đó ta có thể thấy các đặc của từng nhóm khách hàng như thu chi , trình

độ học vấn và trang thái kết hôn

Trang 11

Và hơn nữa là cho các khoản thu chi ra sao và mua những gì

4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện

Thuật toán Elbow đã thực hiện khá rõ ràng và nhóm đã dùng phương pháp PCA để mô tả trên đồ thị và đặc tính của từng nhóm

Trang 12

Nhóm đã thử lại nhiều lần và nhận thấy mô hình huấn luyện K-means elbow được sử dụng trong bài toán đã có độ chính xác cao

5 Các điểm mới

So với bài mẫu trên Kaggle thì nhóm đã tự làm thêm code EDA hiểu dữ liệu liên quan tới phân bố độ tuổi, thu nhập trung bình khách hàng năm và PCA

Cụ thể phần:

Phân bố độ tuổi khách hàng

Phân bố thu nhập của khách hàng năm

Trang 13

Trình độ học vấn thu nhập của khách hàng

Thu nhập khác của khách hàng theo trình độ học vấn

Trang 14

Phép biến đổi tạo ra những ưu điểm sau đối với dữ liệu:

● Giảm số chiều của không gian chứa dữ liệu khi nó có số chiều lớn, không thể thể hiện trong không gian 2 hay 3 chiều

● Xây dựng những trục tọa độ mới, thay vì giữ lại các trục của không gian cũ, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương, và đảm bảo

độ biến thiên của dữ liệu trên mỗi chiều mới

● Tạo điều kiện để các liên kết tiềm ẩn của dữ liệu có thể được khám phá trong không gian mới, mà nếu đặt trong không gian cũ thì khó phát hiện vì những liên kết này không thể hiện rõ

nhau, mặc dù trong không gian ban đầu các trục có thể không trực giao

Trang 15

Họ và Tên

Trần Thị Hải Anh

Bảng đóng góp cá nhân MSSV Đánh giá cá nhân

19032855 Tìm bài toán, Làm ppt, phân tích thuật

toán K-means Elbow Trần Quốc Anh 19032856 Tìm bài toán, Làm sạch dữ liệu, phân

tích thuật toán K-means Elbow Nguyễn Thị Lan 19032872 Tìm bài toán, Tổng hợp bài báo cáo,

Làm báo cáo, phân tích thuật toán K-means Elbow

Trang 16

Nguyễn Công Trữ 19032898 Tìm bài toán, Chạy, Phân tích EDA,

thuyết trình, phân tích thuật toán K-means Elbow

Lò Minh Quang 19032891 Xử lý dữ liệu trước khi phân cụm, phân

tích thuật toán K-means Elbow

Ngày đăng: 26/05/2022, 21:42

HÌNH ẢNH LIÊN QUAN

4. Hiểu được phương pháp đánh giá mô hình đã huấn luyện - BÁO cáo bài tậ ớ p l n nhóm 1 bài toán phân tích tính cách khách hàng
4. Hiểu được phương pháp đánh giá mô hình đã huấn luyện (Trang 12)
4. Hiểu được phương pháp đánh giá mô hình đã huấn luyện - BÁO cáo bài tậ ớ p l n nhóm 1 bài toán phân tích tính cách khách hàng
4. Hiểu được phương pháp đánh giá mô hình đã huấn luyện (Trang 12)
Nhóm đã thử lại nhiều lần và nhận thấy mô hình huấn luyện K-means elbow được sử dụng trong bài toán đã có độ chính xác cao. - BÁO cáo bài tậ ớ p l n nhóm 1 bài toán phân tích tính cách khách hàng
h óm đã thử lại nhiều lần và nhận thấy mô hình huấn luyện K-means elbow được sử dụng trong bài toán đã có độ chính xác cao (Trang 13)
Bảng đóng góp cá nhân - BÁO cáo bài tậ ớ p l n nhóm 1 bài toán phân tích tính cách khách hàng
ng đóng góp cá nhân (Trang 16)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w