DỮ LIỆU KHẢO SÁT- Nguồn dữ liệu: kaggle/bank marketing - Dữ liệu thu được từ chiến dịch tiếp thị khách hàng qua điện thoại cuả một ngân hàng Bò Đào Nha - Bộ dữ liệu gồm: - 11162 bản ghi
Trang 1CHIẾN DỊCH TIẾP THỊ KHÁCH HÀNG
QUA ĐIỆN THOẠI
GVHD: TS Lê Chí Ngọc
Trang 31 ĐIỀU TRA KHẢO SÁT
1.1 Khái niệm Marketing
Là quá trình kinh doanh tạo mối quan hệ và làm hài lòng khách hàng Tập trung vào khách hàng, một trong những thành phần
hàng đầu của quản lý doanh nghiệp
Trang 5Là cầu nối hoạt động kinh doanh giữa ngân hàng và thị trường
Tham gia giải quyết những vấn đề cơ bản của kinh doanh
Tạo vị thế cạnh tranh của ngân hàng
1 ĐIỀU TRA KHẢO SÁT
1.2 Vai trò của marketing đối với ngân hàng
Trang 62 DỮ LIỆU KHẢO SÁT
- Nguồn dữ liệu: kaggle/bank marketing
- Dữ liệu thu được từ chiến dịch tiếp thị khách hàng qua điện thoại cuả một ngân hàng Bò Đào Nha
- Bộ dữ liệu gồm:
- 11162 bản ghi
- 17 trường thuộc tính: Tuổi, nghề nghiệp, trạng thái hôn nhân, học vấn…
Trang 83 THUẬT TOÁN
3.1 Giới thiệu
- Sử dụng thuật toán rừng ngẫu nhiên, đây là thuật toán đươc thường được sử dụng với bộ dữ liệu có kích thước lớn
- Rừng ngẫu nhiên là bao gồm nhiều cây quyết định do đó độ chính xác sẽ cao hơn so với cây quyết định
- Tuy nhiên việc tạo ra nhiều cây quyết định có thể gây mất nhiều thời gian cho bài toán cần được xử lý
- Với bài toán phân loại kết quả thu được dựa trên đa số phiếu “vote” từ các cây quyết định
Trang 103.2 Thuật toán
• Bước 1: Rời rạc hóa các thuộc tính liên tục, mã hóa các thuộc tính rời rạc, loại bỏ các cột không cần thiết
• Bước 2: Chia dữ liệu thành 2 tập training và testing, giới hạn độ sâu của cây
• Bước 3: Huấn luyện mô hình
• Bước 4: Hiển thị kết quả
Trang 11• Bước 1: Rời rạc hóa các thuộc tính liên tục, mã hóa các thuộc tính rời rạc loại bỏ các cột không cần thiết
- Chia thuộc tính Age thành 3 nhóm: young (18-35), mid age (36-45), old (>45)
- Chia thuộc tính Balance thành 12 nhóm: (0-150); (151-300); (301-450); (451-600); (601-750); (751-900); (901-1050); (1051 – 1200); (1201 – 1500); (1501 – 1700); (1701-2000); (>2000)
- Chia thuộc tính Duration thành 7 nhóm: (0-100); (101-200); (201-300); (301-400); (401-500); (501-600); (600<)
- Chia thuộc tính pdays thành 7 nhóm: (0-20); (21-40); (41-60); (61-80); (81-100); (101-120); (120<)
- Chia thuộc tính previous thành 4 nhóm: (0-1); (2-3); (4-5); (5<)
Trang 12Mã hóa các thuộc tính rời rạc
Trang 13• Bước 2: Chia dữ liệu thành 2 tập training và testing, giới hạn độ sâu của cây
- Chia bộ dữ liệu thành tập training (80%) testing (20%)
- Độ sâu cây là: 12
- Số cây: 300
Trang 14• Bước 3: Huấn luyện mô hình
Trang 15• Bước 4: Hiển thị kết quả
- Lý thuyết tầm quan trọng thuộc tính
- Kết quả
Trang 17• Tầm quan trọng của thuộc tính
- Tầm quan trọng của thuộc tính đề cập đến việc gán điểm cho các tính năng đầu vào dựa trên mức độ hữu ích của chúng trong việc
dự đoán một biến mục tiêu.
- Đối với mỗi cây quyết định, Scikit-learn tính toán tầm quan trọng của các nút bằng cách sử dụng Gini Importance,
- Giả sử tập dữ liệu D chia làm n lớp, giá trị tạp chất tại nút D là :
là tần số của lớp k trong D
•
Trang 18• Tầm quan trọng của thuộc tính
- Là thước đo độ hỗn loạn của thông tin, lấy từ khái niệm vật lý.
- Theo một cách thuần túy, entropy là tổng động năng của các hạt trong khối vật chất.
- Entropy càng cao, nhiệt độ càng cao, các hạt chuyển động càng hỗn loạn => khó đoán vị trí của các hạt trong khối vật chất.
- Entropy thông tin có thể đoán được chính xác với xác suất cao hay là thấp.
- Giá trị của thông tin sẽ được đặc trung bằng entropy, tức là khả năng đoán đúng được thông tin, nếu mà khả năng đoán đúng được thông tin càng thấp, thông tin càng có giá trị.
Trang 19- p(i) = P(Y =i) Xác suất để một đối tượng dữ liệu nào đó nhận nhãn yi
- Ban đầu chúng ta khởi đầu trạng thái dữ liệu khá là hỗn loạn, không biết đối tượng dữ liệu thuộc lớp nào
=> cần tìm cach xây dựng một cái cây mà sao cho tại các nút lá chúng ta xác định được chắc chắn đối tượng
dữ liệu của chúng ta thuộc lớp nào => Cần phải giảm entropy bằng không
Trang 20- Xác định entropy của một nút:
- Tiếp theo, chọn một thuộc tính A nào đó để chia thành các nhánh, sau đó tính entropy của từng nhánh (v nhánh), và sau đó tính tổng
21
Trang 21• Với việc sử dụng thuộc tính A cho cái nút D khi đó entropy suy giảm là bao nhiêu.
Trang 23• Tầm quan trọng của nút j được tính bằng:
• Trong đó: là số lượng mẫu đạt tới nút j
là giá trị tạp chất của nút j
k là các nút con được tách từ nút j
• Tầm quan trọng của thuộc tính i
•
Trang 24• Chúng sau đó có thể được chuẩn hóa tầm quan trọng của thuộc tính i thành giá trị từ 0 đến 1:
• Tầm quan trọng cuối cùng của thuộc tính i của rừng ngẫu nhiên, là trung bình của bạn trên tất cả các cây.
Trang 305 ĐƯA RA GỢI Ý
- Age: Khách hàng trẻ có chiếm tỷ lệ lớn nhất trong chiến dịch, đây là nhóm tuổi sinh sản, lập gia định, kết hôn
Nên thực hiện các chính sách khuyến mãi như tour du lịch, tuần trăng mật, các khóa học tiếng anh
- Balance: Nhóm khoản dư 101 – 200, và >600 chiếm tỷ lệ lớn Nên thi hành các chính sách tăng tiền lãi tiết kiệm.
- Marital: Những người đã ly dị, độc thân hoặc góa chiếm tỷ lệ lớn nhất Những người này thường ít bị ảnh hưởng
bởi yếu tố gia định
- Contact: điện thoại di động tỷ lệ lớn nhất trong thời gian thực hiện liên lạc, có thể sử dụng các chiến dịch khuyến
mãi như tặng thẻ cào, phối hợp với các nhà mạng viễn thông tặng gói cước internet…