chiến dịch tiếp thị khách hàng qua điện thoại

DỮ LIỆU KHẢO SÁT- Nguồn dữ liệu: kaggle/bank marketing - Dữ liệu thu được từ chiến dịch tiếp thị khách hàng qua điện thoại cuả một ngân hàng Bò Đào Nha - Bộ dữ liệu gồm: - 11162 bản ghi

Trang 1

CHIẾN DỊCH TIẾP THỊ KHÁCH HÀNG

QUA ĐIỆN THOẠI

GVHD: TS Lê Chí Ngọc

Trang 3

1 ĐIỀU TRA KHẢO SÁT

1.1 Khái niệm Marketing

Là quá trình kinh doanh tạo mối quan hệ và làm hài lòng khách hàng Tập trung vào khách hàng, một trong những thành phần

hàng đầu của quản lý doanh nghiệp

Trang 5

Là cầu nối hoạt động kinh doanh giữa ngân hàng và thị trường

Tham gia giải quyết những vấn đề cơ bản của kinh doanh

Tạo vị thế cạnh tranh của ngân hàng

1 ĐIỀU TRA KHẢO SÁT

1.2 Vai trò của marketing đối với ngân hàng

Trang 6

2 DỮ LIỆU KHẢO SÁT

- Nguồn dữ liệu: kaggle/bank marketing

- Dữ liệu thu được từ chiến dịch tiếp thị khách hàng qua điện thoại cuả một ngân hàng Bò Đào Nha

- Bộ dữ liệu gồm:

- 11162 bản ghi

- 17 trường thuộc tính: Tuổi, nghề nghiệp, trạng thái hôn nhân, học vấn…

Trang 8

3 THUẬT TOÁN

3.1 Giới thiệu

- Sử dụng thuật toán rừng ngẫu nhiên, đây là thuật toán đươc thường được sử dụng với bộ dữ liệu có kích thước lớn

- Rừng ngẫu nhiên là bao gồm nhiều cây quyết định do đó độ chính xác sẽ cao hơn so với cây quyết định

- Tuy nhiên việc tạo ra nhiều cây quyết định có thể gây mất nhiều thời gian cho bài toán cần được xử lý

- Với bài toán phân loại kết quả thu được dựa trên đa số phiếu “vote” từ các cây quyết định

Trang 10

3.2 Thuật toán

• Bước 1: Rời rạc hóa các thuộc tính liên tục, mã hóa các thuộc tính rời rạc, loại bỏ các cột không cần thiết

• Bước 2: Chia dữ liệu thành 2 tập training và testing, giới hạn độ sâu của cây

• Bước 3: Huấn luyện mô hình

• Bước 4: Hiển thị kết quả

Trang 11

• Bước 1: Rời rạc hóa các thuộc tính liên tục, mã hóa các thuộc tính rời rạc loại bỏ các cột không cần thiết

- Chia thuộc tính Age thành 3 nhóm: young (18-35), mid age (36-45), old (>45)

- Chia thuộc tính Balance thành 12 nhóm: (0-150); (151-300); (301-450); (451-600); (601-750); (751-900); (901-1050); (1051 – 1200); (1201 – 1500); (1501 – 1700); (1701-2000); (>2000)

- Chia thuộc tính Duration thành 7 nhóm: (0-100); (101-200); (201-300); (301-400); (401-500); (501-600); (600<)

- Chia thuộc tính pdays thành 7 nhóm: (0-20); (21-40); (41-60); (61-80); (81-100); (101-120); (120<)

- Chia thuộc tính previous thành 4 nhóm: (0-1); (2-3); (4-5); (5<)

Trang 12

Mã hóa các thuộc tính rời rạc

Trang 13

• Bước 2: Chia dữ liệu thành 2 tập training và testing, giới hạn độ sâu của cây

- Chia bộ dữ liệu thành tập training (80%) testing (20%)

- Độ sâu cây là: 12

- Số cây: 300

Trang 14

• Bước 3: Huấn luyện mô hình

Trang 15

• Bước 4: Hiển thị kết quả

- Lý thuyết tầm quan trọng thuộc tính

- Kết quả

Trang 17

• Tầm quan trọng của thuộc tính

- Tầm quan trọng của thuộc tính đề cập đến việc gán điểm cho các tính năng đầu vào dựa trên mức độ hữu ích của chúng trong việc

dự đoán một biến mục tiêu.

- Đối với mỗi cây quyết định, Scikit-learn tính toán tầm quan trọng của các nút bằng cách sử dụng Gini Importance,

- Giả sử tập dữ liệu D chia làm n lớp, giá trị tạp chất tại nút D là :

là tần số của lớp k trong D

•

Trang 18

• Tầm quan trọng của thuộc tính

- Là thước đo độ hỗn loạn của thông tin, lấy từ khái niệm vật lý.

- Theo một cách thuần túy, entropy là tổng động năng của các hạt trong khối vật chất.

- Entropy càng cao, nhiệt độ càng cao, các hạt chuyển động càng hỗn loạn => khó đoán vị trí của các hạt trong khối vật chất.

- Entropy  thông tin có thể đoán được chính xác với xác suất cao hay là thấp.

- Giá trị của thông tin sẽ được đặc trung bằng entropy, tức là khả năng đoán đúng được thông tin, nếu mà khả năng đoán đúng được thông tin càng thấp, thông tin càng có giá trị.

Trang 19

- p(i) = P(Y =i) Xác suất để một đối tượng dữ liệu nào đó nhận nhãn yi

- Ban đầu chúng ta khởi đầu trạng thái dữ liệu khá là hỗn loạn, không biết đối tượng dữ liệu thuộc lớp nào

=> cần tìm cach xây dựng một cái cây mà sao cho tại các nút lá chúng ta xác định được chắc chắn đối tượng

dữ liệu của chúng ta thuộc lớp nào => Cần phải giảm entropy bằng không

Trang 20

- Xác định entropy của một nút:

- Tiếp theo, chọn một thuộc tính A nào đó để chia thành các nhánh, sau đó tính entropy của từng nhánh (v nhánh), và sau đó tính tổng

21

Trang 21

• Với việc sử dụng thuộc tính A cho cái nút D khi đó entropy suy giảm là bao nhiêu.

Trang 23

• Tầm quan trọng của nút j được tính bằng:

• Trong đó: là số lượng mẫu đạt tới nút j

là giá trị tạp chất của nút j

k là các nút con được tách từ nút j

• Tầm quan trọng của thuộc tính i

•

Trang 24

• Chúng sau đó có thể được chuẩn hóa tầm quan trọng của thuộc tính i thành giá trị từ 0 đến 1:

• Tầm quan trọng cuối cùng của thuộc tính i của rừng ngẫu nhiên, là trung bình của bạn trên tất cả các cây.

Trang 30

5 ĐƯA RA GỢI Ý

- Age: Khách hàng trẻ có chiếm tỷ lệ lớn nhất trong chiến dịch, đây là nhóm tuổi sinh sản, lập gia định, kết hôn

Nên thực hiện các chính sách khuyến mãi như tour du lịch, tuần trăng mật, các khóa học tiếng anh

- Balance: Nhóm khoản dư 101 – 200, và >600 chiếm tỷ lệ lớn Nên thi hành các chính sách tăng tiền lãi tiết kiệm.

- Marital: Những người đã ly dị, độc thân hoặc góa chiếm tỷ lệ lớn nhất Những người này thường ít bị ảnh hưởng

bởi yếu tố gia định

- Contact: điện thoại di động tỷ lệ lớn nhất trong thời gian thực hiện liên lạc, có thể sử dụng các chiến dịch khuyến

mãi như tặng thẻ cào, phối hợp với các nhà mạng viễn thông tặng gói cước internet…

Định dạng
Số trang	32
Dung lượng	1,56 MB