BÁO CÁO BÀI TẬP LỚN Nhóm 1 – Bài toán phân tích tính cách khách hàng Bài toán - Ý nghĩa Phân tích tính cách khách hàng là một phân tích chi tiết về khách hàng lý tưởng của một công ty..
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-
-BÁO CÁO Môn: KHAI PHÁ DỮ LIỆU VÀ PHÂN TÍCH MẠNG XÃ HỘI
Nhóm sinh viên / Trần Thị Hải Anh Trần Quốc Anh Nguyễn Thị Lan
Nguyễn Công Trữ
Lò Minh Quang Khoa:
Môn:
Email:
Nhóm 1: PTTCKH 19032857
19032856 19032872 19032898 190328 Thông tin – thư viện
Khai phá dữ liệu và Phân tích
Mạng xã hội
Haianhtran42@gmail.com
Hà Nội, 2022
Trang 2Mục lục:
1 Hiểu được bài toán đã lựa chọn 3
2 Hiểu dữ liệu 4
2.2 Các dữ liệu chính xác 6
3 Hiểu được thuật toán khai phá dữ liệu / học máy sẽ áp dụng 9
4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện 11
5 Các điểm mới 12
Tài liệu tham khảo & File bài tập: 2
Tài liệ u tham khảo & File bài tập:
1 https://www.kaggle.com/tranductoan6a9/k-means-clustering-customers-segmentation
2 Links file dữ liệu và file Colab:
https://drive.google.com/drive/folders/1N9RIou0raKdUgBjdFpDYLEtqgTuK PQmk
Trang 3BÁO CÁO BÀI TẬP LỚN Nhóm 1 – Bài toán phân tích tính cách khách hàng Bài toán - Ý nghĩa
Phân tích tính cách khách hàng là một phân tích chi tiết về khách hàng lý tưởng của một công ty Nó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và giúp họ dễ dàng sửa đổi sản phẩm theo nhu cầu, hành vi và mối quan tâm cụ thể của các loại khách hàng khác nhau
Phân tích tính cách khách hàng giúp doanh nghiệp sửa đổi sản phẩm của mình dựa
trên khách hàng mục tiêu từ các loại phân khúc khách hàng khác nhau Ví dụ, thay vì chi tiền để tiếp thị một sản phẩm mới cho mọi khách hàng trong cơ sở dữ liệu của công ty, một công ty có thể phân tích phân khúc khách hàng nào có nhiều khả năng mua sản phẩm nhất và sau đó tiếp thị sản phẩm chỉ trên phân khúc cụ thể đó
1 Hiểu được bài toán đã lựa chọn Công việc (task) Link tệp dữ liệu
Input: Thông tin khách hàng và thông tin mua hàng
Output : phân cụm khách hàng dựa vào thông tin, tính cách hàng vi mua
hàng của khách hàng, lấy đây làm cơ sở cho chiến dịch sửa đổi sản phẩm cho phù hợp
Trang 4Dựa vào output, cho thấy xử lý bài toán dạng phân cụm phương pháp K-mean Elbow
Output cho ra các cụm.
Cụm 0: Thu nhập vừa phải> chi tiêu thấp.
Chủ yếu là có trẻ em Không thích mua với danh mục Thích mua những thứ
được giảm giá Thường xuyên ghé thăm sản phẩm thông qua trang web
Cụm 1: Thu nhập cao nhất> Chi tiêu nhiều nhất.
Chủ yếu là không có con, một nửa trong số họ không có quan hệ tình cảm Tỷ lệ
có trình độ đại học cao hơn các ngành khác Thích mua bằng cách sử dụng danh mục và trực tiếp tại cửa hàng Ngoài Rượu và Thịt, những khách hàng này cũng thích mua Fruits, Fish, Sweet, Gold
Cụm 2: Thu nhập thấp nhất đến trung bình đã chi tiêu thấp nhất.
Tuổi: chủ yếu khoảng 40 tuổi, tương đối trẻ hơn 1 và 2 Chủ yếu là có trẻ em Không thích mua với danh mục Thường xuyên ghé thăm sản phẩm thông qua trang web
Cụm 3: Thu nhập trung bình đến cao> Chi tiêu nhiều.
Hơn 2/3 trong số họ không có con Thích mua những thứ được giảm giá Cũng thích mua Vàng bên cạnh Rượu và Thịt
2 Hiểu dữ liệu
2.1 Làm sạch dữ liệu
liệu báo cáo tức là năm 2015 trừ đi năm sinh của khách hàng
- Chia nhóm khách hàng thành 2 nhóm khách hàng có mối quan hệ và không có mối quan hệ
Trang 5- Thực hiện phân loại khách hàng thành 2 nhóm có con hoặc không có con.
- Tiến hành truy vấn những người có tuổi lớn hơn 90
Sau khi truy vấn xong tiếp tục tiến hành lọc những người có độ tuổi lớn hơn
hoặc bằng 90 vì những khách hàng trên 90 tuổi còn khả năng vận động kém
dòng 29 cột
- Giải thích ý nghĩa các thuộc tính ( các thuộc tính thiết yếu)
Year_Birth: Năm sinh khách hàng
Education: Mức độ học vấn
Marital_Status: Tình trạng hôn nhân
Income: Thu nhập khách hàng
Trang 6Kidhome: số trẻ em trong gia đình
Teenhome: Số trẻ vị thành niên trong gia đình
Dt_Customer: Ngày mua hàng
Recency: Lần truy cập
và các mặt hàng được mua: Rượu, trái cây,
- Không có thuộc tính nào là nhãn (label)
→ bài toán không giám sát (supervised)
Dữ liệu bị khuyết thiếu :Null- income :24
- Dữ liệu không cùng 1 dải giá trị không: > phải chuẩn hóa
- Những thuộc tính nào ở dạng số (ID, Yearbirth, Recency, income, các thuộc tính sản phẩm MntFruits, Mntwines, ),
thuộc tính ở dạng categorical (education, Marital_status,)
thuộc tính nào ở dạng phi cấu trúc ( không có)
nếu khách hàng đại diện cho một chấm tròn vào biểu hiện 3d thì sẽ như sau
2.2 Các dữ liệu chính xác
- Những đặc trưng của dữ liệu
Trang 7+ Mức thu nhập của khách hàng chủ yếu giao động từ 30000 -70000
+ Hầu hết độ tuổi khách hàng là 32-63 nhóm độ tuổi lao động
Dùng EDA để nêu lên phân bổ khách hàng theo độ tuổi Nhìn số tuổi lao động giao động trong lứa tuổi trung niên
+ Phân bố thu nhập khách hàng hằng năm ở khoảng : 20.000 - 80.000 $
Trang 8+ Trình độ học vấn chủ yếu thuộc tính graduation: 50,5%, tiếp theo PhD:
21,6%, đứng thứ 3: Master: 16,5, 2n Cycle: 9,0% ; còn lại là Basic: 2,4%
+ Cử nhân, Sau đại học Giáo dục Thu nhập tương đương nhau, nhưng Thu nhập bằng Cơ bản thấp hơn rõ ràng so với những người khác đặc biệt là thể hiện như sau
Chỉ số hệ số tương quan để xem mối liên hệ giữa các thuộc tính của khách
hàng thuộc tính càng gần 1 chứng tỏ mức độ quan hệ giữa nó càng cao
Trang 93 Hiểu được thuật toán khai phá dữ liệu / học máy sẽ áp dụng
Các tham số trong thuật toán K-means Elbow: 4 tham số ( 4 cụm) và 4 cụm có đặc tính khác nhau ( cụm 0, 1, 2, 3)
Tại sao sử dụng thuật toán này: Đây là một thuật toán thường được sử dụng trong Kmean và có thể thực hiện được Cũng là một phương pháp đơn giản
để tham chiếu số cụm muốn phân chia
Elbow method chọn số sụm k sao cho khi thêm vào một cụm khác thì không làm cho WSS thay đổi nhiều
Quy trình triển khai Elbow method của bài toán như sau:
Triển khai thuật toán phân cụm k-mean) với các số cụm k thay đổi của bài toán
là 1-16 cụm
Trang 10Với mỗ i giá trị k, tính giá trị WSS, vẽ Elbow curve theo các giá trị k.
Dựa vào Elbow curve chọn số k thích hợ p, là vị trí ở khúc cua Ở bài toán khúc của cụm 4 trở đi ít biến đổi → có k = 4
Từ đó ta có thể thấy các đặc của từng nhóm khách hàng như thu chi , trình
độ học vấn và trang thái kết hôn
Trang 11Và hơn nữa là cho các khoản thu chi ra sao và mua những gì
4 Hiểu được phương pháp đánh giá mô hình đã huấn luyện
Thuật toán Elbow đã thực hiện khá rõ ràng và nhóm đã dùng phương pháp PCA để mô tả trên đồ thị và đặc tính của từng nhóm
Trang 12Nhóm đã thử lại nhiều lần và nhận thấy mô hình huấn luyện K-means elbow được sử dụng trong bài toán đã có độ chính xác cao
5 Các điểm mới
So với bài mẫu trên Kaggle thì nhóm đã tự làm thêm code EDA hiểu dữ liệu liên quan tới phân bố độ tuổi, thu nhập trung bình khách hàng năm và PCA
Cụ thể phần:
Phân bố độ tuổi khách hàng
Phân bố thu nhập của khách hàng năm
Trang 13Trình độ học vấn thu nhập của khách hàng
Thu nhập khác của khách hàng theo trình độ học vấn
Trang 14Phép biến đổi tạo ra những ưu điểm sau đối với dữ liệu:
● Giảm số chiều của không gian chứa dữ liệu khi nó có số chiều lớn, không thể thể hiện trong không gian 2 hay 3 chiều
● Xây dựng những trục tọa độ mới, thay vì giữ lại các trục của không gian cũ, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương, và đảm bảo
độ biến thiên của dữ liệu trên mỗi chiều mới
● Tạo điều kiện để các liên kết tiềm ẩn của dữ liệu có thể được khám phá trong không gian mới, mà nếu đặt trong không gian cũ thì khó phát hiện vì những liên kết này không thể hiện rõ
nhau, mặc dù trong không gian ban đầu các trục có thể không trực giao
Trang 15Họ và Tên
Trần Thị Hải Anh
Bảng đóng góp cá nhân MSSV Đánh giá cá nhân
19032855 Tìm bài toán, Làm ppt, phân tích thuật
toán K-means Elbow Trần Quốc Anh 19032856 Tìm bài toán, Làm sạch dữ liệu, phân
tích thuật toán K-means Elbow Nguyễn Thị Lan 19032872 Tìm bài toán, Tổng hợp bài báo cáo,
Làm báo cáo, phân tích thuật toán K-means Elbow
Trang 16Nguyễn Công Trữ 19032898 Tìm bài toán, Chạy, Phân tích EDA,
thuyết trình, phân tích thuật toán K-means Elbow
Lò Minh Quang 19032891 Xử lý dữ liệu trước khi phân cụm, phân
tích thuật toán K-means Elbow