1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng

94 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu: đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng?
Tác giả Nguyễn Phương Anh, Huỳnh Lê Anh Khoa, Vũ Hà Linh, Mai Anh Thư, Nguyễn Thị Bảo Trang
Người hướng dẫn TS. Nguyễn Quốc Hùng
Trường học Đại học Kinh tế TP. Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại Đồ án
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 94
Dung lượng 2,96 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI (13)
    • 1.1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (13)
      • 1.1.1 Dữ liệu là gì? (13)
      • 1.1.2 Tổng quan Khoa học dữ liệu (13)
    • 1.2 GIỚI THIỆU ĐỀ TÀI (15)
      • 1.2.1 Lý do chọn đề tài (15)
      • 1.2.2 Mục tiêu nghiên cứu (15)
      • 1.2.3 Đối tượng nghiên cứu (15)
      • 1.2.4 Thời gian nghiên cứu (16)
  • Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG (17)
    • 2.1 SỬ DỤNG PHẦN MỀM EXCEL ĐỂ KHAI THÁC DỮ LIỆU (17)
      • 2.1.1 Phương pháp thống kê mô tả (17)
        • 2.1.1.1 Công cụ TKMT (17)
        • 2.1.1.2 Nhóm được tổng hợp với Subtotal (19)
        • 2.1.1.3 Hợp nhất dữ liệu với Consolidate (20)
        • 2.1.1.4 Tổng hợp đa chiều với Pivot Table (21)
      • 2.1.2 Phương pháp phân tích dự báo (22)
        • 2.1.2.1 Trung bình trượt - Moving Average (22)
        • 2.1.2.2 San bằng mũ - Exponential Smoothing (24)
        • 2.1.2.3 Hồi quy - Regression (24)
      • 2.1.3 Phương pháp phân tích tối ưu (26)
        • 2.1.3.1 Lập mô hình tối ưu (26)
        • 2.1.3.2 Sử dụng Solver để giải quyết bài toán tối ưu hóa (26)
    • 2.2 SỬ DỤNG PHẦN MỀM ORANGE ĐỂ KHAI THÁC DỮ LIỆU (27)
      • 2.2.1 Mô tả phần mềm (27)
      • 2.2.2 Tính năng của phần mềm (27)
        • 2.2.2.1 Nhóm Data (27)
        • 2.2.2.2 Nhóm Transform (30)
        • 2.2.2.3 Nhóm Visualize (30)
        • 2.2.2.4 Nhóm Model (31)
        • 2.2.2.5 Nhóm Evaluate (31)
        • 2.2.2.6 Nhóm Unsupervised (31)
      • 2.2.3 Phân lớp dữ liệu (31)
        • 2.2.3.1 Định nghĩa (31)
        • 2.2.3.2 Một số phương pháp phân lớp cơ bản (33)
      • 2.2.4 Phân cụm dữ liệu (học không giám sát) (40)
        • 2.2.4.1 Giới thiệu về phân cụm dữ liệu (40)
        • 2.2.4.2 Một số phương pháp phân cụm (41)
  • Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ (45)
    • 3.1 PHÂN TÍCH DỮ LIỆU BANKCHURNERS (45)
      • 3.1.1 Giới thiệu bộ dữ liệu (45)
      • 3.1.2 Mục tiêu dữ liệu (45)
      • 3.1.3 Giới thiệu các biến dữ liệu (46)
      • 3.1.4 Tiền xử lý dữ liệu (48)
      • 3.1.5 Thống kê mô tả (55)
        • 3.1.5.1 Customer_Age (Độ tuổi của khách hàng) (55)
        • 3.1.5.2 Gender (Giới tính của khách hàng) (56)
        • 3.1.5.3 Dependent_count (Số người phụ thuộc của khách hàng) (57)
        • 3.1.5.4 Education_Level (Trình độ học vấn) (58)
        • 3.1.5.5 Marital_Status (Tình trạng hôn nhân) (58)
        • 3.1.5.6 Income_Category (Thu nhập của khách hàng) (59)
        • 3.1.5.7 Card_Category (Loại thẻ tín dụng của khách hàng) (60)
        • 3.1.5.8 Months_on_book (Số tháng khách hàng đã sử dụng dịch vụ) (60)
        • 3.1.5.10 Months_Inactive_12_mon (Số tháng khách hàng không thực hiện giao dịch trong 12 tháng gần nhất) (62)
        • 3.1.5.11 Contacts_Count_12_mon (Số lần khách hàng liên hệ với ngân hàng (63)
  • trong 12 tháng gần nhất) (0)
    • 3.1.5.12 Credit_Limit (Hạn mức tín dụng của khách hàng) (64)
    • 3.1.5.13 Total_Revolving_Bal (Tổng số dư nợ tín dụng của khách hàng) (64)
    • 3.1.5.14 Avg_Open_To_Buy (Mức độ tín dụng sẵn có trung bình) (65)
    • 3.1.5.15 Total_Amt_Chng_Q4_Q1 (Sự thay đổi tổng số tiền giao dịch giữa quý (66)
    • 3.1.5.16 Total_Trans_Amt (Tổng số tiền giao dịch trong 12 tháng gần nhất) (67)
    • 3.1.5.17 Total_Trans_Ct (Tổng số lần giao dịch trong 12 tháng gần nhất) (67)
    • 3.1.5.18 Total_Ct_Chng_Q4_Q1 (Sự thay đổi tổng số lần giao dịch giữa quý 4 năm trước và quý 1 năm sau) (68)
    • 3.1.5.19 Avg_Utilization_Ratio (Tỷ lệ sử dụng thẻ tín dụng trung bình của khách hàng) (69)
    • 3.2 PHÂN LỚP DỮ LIỆU (69)
      • 3.2.1 Lý do sử dụng phương pháp học có giám sát (69)
      • 3.2.2 Một số phương pháp phân lớp (69)
      • 3.2.3 Kết quả mô hình (72)
        • 3.2.3.1. Xây dựng mô hình (72)
        • 3.2.3.2. Sử dụng mô hình (75)
        • 3.2.3.3 Sử dụng mô hình để dự báo (81)
  • Chương 4: ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH (85)
    • 4.1 KẾT LUẬN (88)
    • 4.2 KIẾN NGHỊ (89)
    • 4.3 HƯỚNG PHÁT TRIỂN ĐỀ TÀI (90)
      • 4.3.1 Ứng dụng (90)
      • 4.3.2 Mặt hạn chế của đề tài (90)
      • 4.3.3 Hướng phát triển của đề tài (90)
  • TÀI LIỆU THAM KHẢO (91)

Nội dung

Lời cảm ơn.Bài báo cáo đồ án môn học về đề tài : “DỰ BÁO HÀNH VI KHÁCH HÀNG BẰNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU: ĐÂU LÀ KHÁCH HÀNG TIỀM NĂNG VÀ CHIẾN LƯỢC TIẾP THỊ HIỆU QUẢ CHO NGÂN HÀNG?”

GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

Dữ liệu là các giá trị của thông tin ở dạng định lượng hoặc định tính của các sự vật, hiện tượng trong đời sống Trong khoa học dữ liệu (KHDL), dữ liệu được hình thành và sử dụng như một hình thức hóa thông tin nhằm cung cấp cái nhìn về các sự kiện và hiện tượng, đáp ứng các yêu cầu truyền nhận và xử lý thông tin bằng thiết bị và hệ thống Thực tế, dữ liệu được phân làm hai loại chính: dữ liệu định tính (mô tả bằng chuỗi ký tự) và dữ liệu định lượng (mô tả bằng số) Dữ liệu đóng vai trò then chốt trong việc lưu chuyển và lưu trữ thông tin của người dùng, đồng thời góp phần tối ưu hóa các quá trình quản trị dữ liệu.

1.1.2 Tổng quan Khoa học dữ liệu

Trong thời đại số hóa ngày nay, dữ liệu được xem là nguồn tài nguyên quý giá cung cấp nguồn thông tin và tri thức có giá trị cho mọi lĩnh vực Quá trình hình thành và phát triển của nhân loại khiến lượng dữ liệu sinh ra mỗi phút ngày càng lớn, và dữ liệu có bốn đặc tính quan trọng: khối lượng (volume), tính đa dạng (variety), tốc độ thu thập (velocity) và tính xác thực (veracity) (Trí, 2018) Việc trích xuất và chắt lọc những thông tin này một cách có căn cứ không chỉ là bắt buộc để mang lại ý nghĩa thông tin và tri thức mà còn là nền tảng hữu ích cho việc ra quyết định của các hệ thống và xây dựng các kế hoạch kịp thời nhằm tăng cường hiệu suất hoạt động Vì vậy, KHDL ra đời với sứ mệnh hỗ trợ phân tích dữ liệu và tạo ra cái nhìn sâu sắc một cách linh hoạt; thúc đẩy nền văn hóa dựa trên dữ liệu; nâng cao chất lượng dữ liệu; và tạo điều kiện để hiểu biết sâu về môi trường kinh doanh, nhận diện cơ hội và quản lý hiệu suất tổ chức.

Gần đây, sự xuất hiện của KHDL đã đẩy mạnh khai thác và phân tích dữ liệu dựa trên ba nguồn gốc kiến thức chính: toán học (thống kê toán học), công nghệ thông tin (máy học) và tri thức từ các lĩnh vực ứng dụng cụ thể (UIT, 2024) Sự kết hợp giữa khung lý thuyết toán học và phương pháp thống kê với công nghệ thông tin và máy học cho phép xử lý dữ liệu phức tạp, tự động hóa phân tích và rút ra các kết luận có giá trị thực tiễn Nhờ UIT, các kết quả phân tích được định hướng theo bối cảnh ứng dụng cụ thể, giúp tối ưu hóa quyết định và tăng cường hiệu quả trong các bài toán thực tế.

Thông qua quá trình nghiên cứu, các nhà khoa học dữ liệu có thể phân tích nhiều khía cạnh của dữ liệu và rút ra các kết luận có giá trị Những kết quả này giúp cải thiện quyết định và nâng cao độ chính xác của các dự đoán mà hệ thống có thể đưa ra Việc áp dụng các phân tích dữ liệu một cách hệ thống sẽ tối ưu hóa quy trình ra quyết định và tăng cường hiệu quả dự báo (Trí, 2018).

Khối lượng lớn và tốc độ phát sinh nhanh của dữ liệu (DL) là hệ quả trực tiếp của việc đáp ứng nhu cầu phát triển cuộc sống con người, đồng thời tạo nên sự đa dạng và phức tạp của dữ liệu Dữ liệu lớn (Big Data) cung cấp nguồn lực cho các hoạt động phân tích dữ liệu, trí tuệ nhân tạo (AI) và điện toán đám mây, giúp nhận diện xu hướng, cải thiện hiệu suất vận hành và nâng cao trải nghiệm khách hàng Tuy nhiên, khai thác DL hiệu quả đòi hỏi chiến lược quản trị dữ liệu, bảo mật thông tin và chuẩn hóa dữ liệu từ mọi nguồn, kể cả cảm biến IoT và giao dịch trực tuyến, nhằm tối ưu hóa quyết định và đảm bảo an toàn dữ liệu.

2018) Dữ liệu có thể xuất phát từ mọi khía cạnh hàng ngày của nhân loại (Hoan, 2015)

Với tư cách là một lĩnh vực nghiên cứu liên ngành, Khoa học Dữ liệu khám phá và phân tích nguồn dữ liệu đa dạng từ nhiều lĩnh vực khác nhau nhằm rút ra tri thức từ các quy trình và hệ thống, cũng như từ các dạng dữ liệu Nhờ đó, nó cung cấp cái nhìn trực quan và sâu sắc về dữ liệu, khám phá mẫu và thông tin ẩn, từ đó tạo ra các ứng dụng hữu ích cho cuộc sống con người.

Ngoài nghiên cứu DL qua các phương pháp mô tả, phân tích dự báo, tối ưu và phân tích khuyến nghị, còn nhiều phương pháp phân tích khác nhằm đưa ra cái nhìn trực quan và cụ thể về dữ liệu Nhờ những phương pháp này, những thông tin và tri thức có được đã mang lại giá trị thiết thực cho nhân loại Đối với doanh nghiệp, KHDL có thể được sử dụng để phân tích, khám phá và sáng tạo các sản phẩm, giải pháp mới, thậm chí dự đoán thay đổi và phản ứng tối ưu trước những tình huống kinh doanh thực tế Nói cách khác, phân tích kinh doanh nhắm vào các đối tượng như khách hàng, tài chính, nhân sự, bán hàng, thị trường và vận hành trong sản xuất (Hùng, 2024c).

Quy trình KHDL (Khai thác dữ liệu) thường được thực hiện theo một quy chuẩn do các nhà KHDL xây dựng, và dựa trên quy chuẩn này để tiến hành phân tích và khám phá một vấn đề đã xác định (AWS) Quy trình đó được gọi là OSEMN, bao gồm năm bước: Obtain (thu thập dữ liệu), Scrub (làm sạch và chuẩn hóa dữ liệu), Explore (khám phá và trực quan hóa dữ liệu), Model (xây dựng và đánh giá mô hình), và Interpret (diễn giải kết quả và triển khai) Việc áp dụng chu trình OSEMN giúp KHDL đi từ dữ liệu thô đến kết luận có giá trị, đảm bảo các bước từ thu thập, làm sạch, khám phá, mô hình hóa cho đến diễn giải và triển khai được thực hiện có hệ thống và tối ưu cho quyết định dựa trên dữ liệu.

- O: Thu thập các dữ liệu (Obtain data)

- S: Làm sạch các dữ liệu (Scrub data)

- E: Khám phá các dữ liệu (Model data)

- M: Mô hình hóa các dữ liệu (Model data)

- N: Diễn giải các kết quả (Interpret results)

GIỚI THIỆU ĐỀ TÀI

1.2.1 Lý do chọn đề tài

Nhóm đặt mục tiêu xác lập và thể hiện tiềm năng của hơn 10.000 hồ sơ khách hàng bằng các kỹ thuật thống kê mô tả và dự báo trên Excel, kết hợp với các phương pháp phân loại (học có giám sát) và phân nhóm dữ liệu (học không giám sát) Việc áp dụng phần mềm Orange được kỳ vọng giúp thực hiện các phân tích phức tạp một cách hiệu quả và cung cấp nguồn thông tin trực quan từ xử lý dữ liệu đến đánh giá hiệu quả của mô hình Đề tài không chỉ đáp ứng yêu cầu của đồ án mà còn mang lại giá trị thực tế cho việc đánh giá tiềm năng khách hàng và thiết kế chiến lược tiếp thị có giá trị cho ngân hàng.

Nhóm nghiên cứu xây dựng và thực hiện đề tài nhằm mục đích phân tích, khám phá để trả lời những câu hỏi sau đây:

- Những nhóm phân khúc khách hàng nào sẽ là lượng khách hàng tiềm năng trong tương lai?

- Trong tương lai, những nhóm phân khúc khách hàng nào sẽ là lượng khách hàng rời bỏ dịch vụ ngân hàng?

- Đâu là chiến lược hiệu quả và lâu dài cho ngân hàng?

Bài nghiên cứu được thực hiện trên 10.127 quan sát, tạo nên cơ sở dữ liệu đa dạng cho phân tích Nguồn gốc của tập dữ liệu được lấy từ một trang web, và việc thu thập dữ liệu từ nguồn này diễn ra trong một khoảng thời gian nhất định nhằm tích lũy thông tin phục vụ cho nghiên cứu Quá trình thu thập dữ liệu liên tục giúp đảm bảo tính đại diện và độ tin cậy của kết quả, từ đó cho ra các kết quả có tính hữu ích cao cho các ứng dụng thực tiễn.

Trang web đã mô tả chi tiết cách xử lý một vấn đề kinh doanh cụ thể (Kaggle, 2021) Với mỗi quan sát, nhóm nghiên cứu sẽ chọn 19 chỉ báo (index) nhằm dự đoán kết quả đầu ra của mô hình Việc sử dụng phần mềm Orange và Excel cho thấy cách áp dụng kỹ thuật thống kê mô tả và dự báo, cùng với các phương pháp phân loại và phân nhóm dữ liệu, nhằm làm nổi bật tiềm năng của 10.000 hồ sơ khách hàng.

Bài nghiên cứu được phân tích và tiến hành trong vòng 1 năm (2021)

Chương 1 đã đưa ra sự giới thiệu chi tiết về lĩnh vực Khoa học Dữ liệu, nhằm cung cấp kiến thức về Dữ liệu; Khoa học Dữ liệu Nó nhấn mạnh vai trò quan trọng của dữ liệu trong thời đại hiện nay và giá trị mà việc áp dụng các phương pháp, công cụ của Khoa học Dữ liệu mang lại trong việc hiểu, dự báo Đồng thời, phần giới thiệu đề tài cũng cung cấp thêm các thông tin bổ sung về lý do chọn đề tài, làm rõ mục tiêu nghiên cứu, đối tượng nghiên cứu (nghĩa là phạm vi và mối quan tâm của nghiên cứu) cũng được trình bày, kèm theo là thời gian nghiên cứu

TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

SỬ DỤNG PHẦN MỀM EXCEL ĐỂ KHAI THÁC DỮ LIỆU

2.1.1 Phương pháp thống kê mô tả

Công cụ thống kê mô tả (DS) giúp đơn giản hóa dữ liệu định lượng phức tạp bằng cách tạo bảng thống kê mô tả và cung cấp các tóm tắt ngắn về mẫu cũng như các chỉ số của dữ liệu (Thảo, 2019) Điều này giúp người đọc hiểu rõ các thuộc tính và thông tin của bảng dữ liệu Trong thực tế, công cụ DS có tính ứng dụng cao và thường được dùng để thống kê doanh số bán hàng của một cửa hàng, siêu thị hoặc của một doanh nghiệp.

- Bước 1: Nhập dữ liệu đầu vào Input

- Bước 2: Chọn lệnh “Data” -> “Data Analysis” -> “Descriptive statistics” Xuất hiện hộp thoại Descriptive Statistics

- Bước 3: Khai báo các thông số đầu vào (Input) và chọn dữ liệu đầu ra thích hợp (Output) Ý nghĩa các chỉ số trong hộp thoại

- Input Range: vùng chứa dữ liệu cần thống kê mô tả

- Grouped By: columns (thông tin nguồn theo cột), row (thông tin nguồn theo hàng)

- Labels in First Row: khai báo vùng dữ liệu có chứa nhãn

- Output Range: chọn vùng mà kết quả thống kê sẽ xuất hiện

- New Worksheet Ply: báo cáo được trình bày trên một Worksheet mới

- New Workbook: báo cáo được hiển thị trên một tệp tin mới

- Summary statistics: thông số thống kê tổng hợp

- Confidence Level for Mean: độ tin cậy của giá trị trung bình

- Kth Largest: giá trị lớn nhất thứ K

- Kth Smallest: giá trị nhỏ nhất thứ K

Trong Excel, có một vài thông số tiêu biểu: mean, standard error, median,

Hình 2 1 Hộp thoại Descriptive Statistics

2.1.1.2 Nhóm được tổng hợp với Subtotal

Công cụ Subtotal cho phép tổng hợp thông tin các cột số liệu trong bảng tính và cung cấp các chức năng như tính tổng, xác định số lớn nhất, số nhỏ nhất và số trung bình Kết quả tổng hợp của Subtotal có thể được hiển thị ở trên hoặc ở dưới mỗi nhóm dữ liệu, tùy theo thiết lập người dùng Nhờ tính năng phân nhóm và tổng hợp này, người dùng có thể theo dõi, so sánh và báo cáo dữ liệu một cách hiệu quả mà vẫn giữ nguyên cấu trúc bảng tính gốc để phân tích dễ dàng hơn.

Để sử dụng công cụ Subtotal trong Excel, bạn sắp xếp dữ liệu theo cột muốn gom nhóm, sau đó chọn toàn bộ bảng dữ liệu hoặc chỉ một ô bất kỳ trong trang tính, và cuối cùng vào Data → Outline → Subtotal để chèn tổng phụ cho từng nhóm Trong hộp thoại Subtotal, ý nghĩa các tham số bao gồm lựa chọn hàm tính (Sum, Count, Average, Max, Min, …), chọn trường để tính trong mục Add subtotal to, và xác định cách nhóm dữ liệu ở mục At each change in để tổng phụ được tính khi giá trị ở cột phân nhóm thay đổi; các tuỳ chọn như Replace current subtotals và vị trí hiển thị (Summary below data hoặc Summary above data) cho phép ghi đè tổng phụ hiện có và điều chỉnh vị trí hiển thị Các bước và tham số này giúp tự động tổng hợp dữ liệu theo nhóm, tối ưu phân tích và mang lại nội dung dễ hiểu cho người đọc cũng thân thiện với công cụ tìm kiếm.

- At each change in: chọn cột gom nhóm (Khu vực)

- Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu

- Add subtotal to: chọn cột thống kê giá trị (Doanh thu)

- Replace current subtotals: chọn để thay thế kết quả thống kê trước đó

- Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì mỗi nhóm một trang giấy

- Summary below data: chọn để kết quả tổng hợp ở dưới mỗi nhóm

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Consolidate là phương pháp được sử dụng nhằm hợp nhất dữ liệu từ các bảng dữ liệu khác nhau Việc này được thực hiện theo hai hình thức chính: tổng hợp theo vị trí và tổng hợp theo hạng mục Tổng hợp theo vị trí gom dữ liệu dựa trên vị trí của các trường hoặc cột tương ứng, trong khi tổng hợp theo hạng mục sắp xếp và gộp dữ liệu theo chủ đề hoặc nhóm hạng mục cụ thể, giúp tối ưu hóa phân tích, báo cáo và quản lý dữ liệu.

Cách thực hiện: chọn vùng sẽ xuất hiện dữ liệu đã được hợp nhất, tiếp theo là chọn lệnh 'Data' -> 'Data tools' -> 'Consolidate' để tiến hành gom dữ liệu Ý nghĩa những tham số trong hộp thoại Consolidate giúp bạn xác định nguồn dữ liệu và kiểu tổng hợp (ví dụ Sum, Average, Count, Max, Min) cũng như cách ghi đè hoặc chèn kết quả ở vùng đích Việc hiểu rõ các tham số này sẽ cho phép tổng hợp dữ liệu từ nhiều phạm vi vào một bảng duy nhất một cách chính xác và hiệu quả.

- Function: chọn hàm hợp nhất

- Reference: xem đến các bảng thông tin nguồn

- All references: những vùng dữ liệu cần cho việc tổng hợp

- Top row: trong trường hợp muốn sử dụng của cột đầu tiên của vùng nguồn

- Left column: trong trường hợp muốn dùng những yếu tố của cột đầu tiên trong vùng nguồn

- Create links to source data: dữ liệu gộp sẽ được sửa đổi khi vùng dữ liệu nguồn có sự thay đổi

2.1.1.4 Tổng hợp đa chiều với Pivot Table

Trong quá trình nghiên cứu và hợp nhất thông tin, người dùng cần tổng hợp dữ liệu theo các tiêu chí để dễ quản lý và tổ chức dữ liệu Vì vậy, Excel đã giới thiệu công cụ PivotTable, nhờ đó dữ liệu được phân tích ở nhiều góc độ khác nhau Dữ liệu nguồn để tạo PivotTable không nhất thiết đến từ cơ sở dữ liệu của Excel mà có thể đến từ các nguồn dữ liệu bên ngoài như MS Access, MS SQL Server và các nguồn dữ liệu khác.

- Bước 1: Chọn một ô bất kỳ trên bảng tính

- Bước 2: Chọn lệnh “Insert” -> “PivotTable”

- Bước 3: Từ hộp thoại Create PivotTable, chọn vùng thông tin nguồn và nơi trình bày PivotTable, sau đó click OK

- Bước 4: Hộp thoại PivotTable Fields xuất hiện thì kéo thả các tên field vào 4 khu vực: FILTERS, ROWS, COLUMNS và VALUES

Hình 2 4 Hộp thoại Create PivotTable

Mục “Choose the data that you want to analyze”

- “Select a table or range”: chọn vùng dữ liệu cần thống kê

- “Use an external data source”: sử dụng dữ liệu ngoài

Mục “Choose where you want the PivotTable report to be placed”

- “New Worksheet”: báo cáo được trình bày ở trang tính mới

- “Existing Worksheet”: báo cáo được thể hiện ở trang tính đang sử dụng

Một số thông tin trong hộp thoại:

- “COLUMNS”: thể hiện dữ liệu theo cột

- “ROWS”: thể hiện dữ liệu theo hàng

2.1.2 Phương pháp phân tích dự báo

2.1.2.1 Trung bình trượt - Moving Average

Trung bình trượt (trung bình di động) trong Excel là cách tính trung bình của các giá trị liên tiếp trong một dãy dữ liệu số nhằm nhận diện xu hướng chung Phương pháp này loại bỏ các biến động ngắn hạn, từ đó làm nổi bật xu hướng dài hạn và tăng độ chính xác cho việc dự báo dữ liệu thời gian trong các chuỗi số Việc áp dụng trung bình di động giúp phân tích xu hướng một cách rõ ràng và thuận tiện cho các quyết định dựa trên dữ liệu.

Để thực hiện phương pháp dự đoán, bắt đầu với bảng số liệu có sẵn cần được rà soát kỹ lưỡng Tiếp theo, bạn chọn Data → Data Analysis → Moving Average để áp dụng tính toán trung bình động và nhận kết quả dự báo Cuối cùng, nhập đầy đủ các tham số đầu vào và đầu ra, đảm bảo các giá trị này phản ánh đúng phạm vi dữ liệu và mục tiêu dự báo Ý nghĩa của các thông tin trong bảng gồm các tham số và kết quả từ Moving Average, cho thấy xu hướng và biến động của dữ liệu, từ đó giúp cải thiện độ chính xác của dự đoán và đưa ra các quyết định dự báo hiệu quả.

- Input Range: xét đến vùng thông tin hiện tại

- Labels in First Row: chọn nếu trong trường hợp nhập dữ liệu vào hàng đầu của Input Range có tiêu đề

- Interval: các kỳ trước đó muốn tính có bao nhiêu kỳ (w)

- Output Range: xét đến vùng hiển thị kết quả Các ô không đủ số lượng các thành phần trước đó để tính toán sẽ nhận giá trị #N/A

- Chart Output: chọn tùy ý tạo biểu đồ nhúng cùng với vùng hiện kết quả

- Standard Errors: hình thành thêm 1 cột chứa các sai số chuẩn

Hình 2 6 Hộp thoại Moving Average

2.1.2.2 San bằng mũ - Exponential Smoothing

Để thực hiện dự báo bằng Exponential Smoothing, bắt đầu với bảng dữ liệu số cần dự đoán và mở công cụ Data Analysis trong Excel, sau đó chọn Exponential Smoothing từ danh sách phân tích dữ liệu Nhập các tham số đầu vào và đầu ra phù hợp với dữ liệu của bạn; ý nghĩa các thông tin trong hộp thoại giúp người dùng hiểu cách dữ liệu được đưa vào và các tham số làm mịn được áp dụng Kết quả trả về sẽ gồm bảng dự báo và đồ thị so sánh với dữ liệu thực tế, cho phép đánh giá độ chính xác và điều chỉnh tham số để tối ưu hóa dự báo cho các chu kỳ ngắn hạn hoặc dài hạn.

- Input Range: xét đến vùng thông tin hiện hành

- Damping factor: thành phần được dùng làm hệ số san bằng Đay là giá trị điều chỉnh sự bất ổn của thông tin, giá trị mặc định là (1-a) = 0.7

- Labels: chọn nếu trong trường hợp nhập dữ liệu vào hàng đầu của Input Range có tiêu đề

Trong khoa học dữ liệu, phân tích hồi quy được sử dụng để nhận biết sự ảnh hưởng của biến phụ thuộc (hay biến được giải thích) lên một hay nhiều biến độc lập (hay biến giải thích) Phương pháp này giúp ước lượng mối quan hệ giữa các biến, đo lường mức độ tác động và dự báo giá trị của biến phụ thuộc dựa trên các biến độc lập, từ đó cung cấp căn cứ cho quyết định và tối ưu hóa quy trình nghiên cứu và ứng dụng thực tiễn.

Có 3 cách để thực phân tích dự báo bằng phương pháp hồi quy: bằng hàm, bằng đồ thị, bằng công cụ Regression

Cách thực hiện bằng đồ thị:

Hình 2 7 Hộp thoại Exponential Smoothing

- Bước 1: Chuẩn bị bảng dữ liệu cần dự đoán

- Bước 2: Chọn vùng địa chỉ chứa biến phụ thuộc Y và biến độc lập X một cách tuần tự

- Bước 3: Vẽ đồ thị dạng Scatter

- Bước 4: Click chuột phải vào data series, chọn Add Trendline

- Bước 5: Tùy chọn hiển thị trong Trendline Options (Linear, Display Equation on chart, Display R-squared value on chart)

Cách thực hiện bằng công cụ Regression:

- Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

- Bước 2: Trong menu Data, chọn Data Analysis, sau đó chọn Regression Xuất hiện hộp thoại Regression

- Bước 3: Nhập các thông số vào Input và Output Options

26 Ý nghĩa các thông tin trong hộp thoại

- Input Y Range: vùng chứa biến phụ thuộc Y

- Input X Range: vùng chứa biến độc lập X (có thể chọn nhiều biến X trong trường hợp hồi quy đa biến)

- Labels: khẳng định (các) ô đầu tiên không chứa dữ liệu hồi quy

- Constant is zero: chọn mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a=0

- Confidence Level: độ tin cậy của hồi quy (mặc định là 95%) bằng 1- 𝛼, với

𝛼 là mức ý nghĩa hay xác suất mắc sai lầm loại một, bác bỏ H0 trong khi H0 đúng

- Residuals: sai số do ngẫu nhiên

- Output Range: chọn vùng hoặc ô phía bên trái sẽ xuất kết quả

- New Worksheet Ply: hiển thị báo cáo trên một sheet khác

- New Workbook: hiển thị ra một file Excel mới

- Line Fit Plots: đồ thị hàm hồi quy tuyến tính

- Standardized Residuals: chuẩn hóa sai số

- Residuals Plots: đồ thị sai số

- Normal Probability Plots: đồ thị xác suất phân phối chuẩn

2.1.3 Phương pháp phân tích tối ưu

2.1.3.1 Lập mô hình tối ưu

Để xây dựng một mô hình tối ưu nhằm giải quyết các bài toán tối ưu hóa với mục tiêu tối đa lợi nhuận và tối thiểu chi phí, cần có dữ liệu đầu vào đầy đủ Sau khi chuẩn bị dữ liệu, ta chọn các lệnh Data, Data Analysis, Solver để hộp thoại Solver xuất hiện, từ đó thiết lập các tham số và điều kiện tối ưu hóa và nhận kết quả tối ưu cho bài toán của mình.

2.1.3.2 Sử dụng Solver để giải quyết bài toán tối ưu hóa

Khi bạn đã xác định rõ hàm mục tiêu và các ràng buộc cho từng biến, đồng thời khai báo đầy đủ các tham số cần thiết, công cụ Solver sẽ giúp tìm được giải pháp tối ưu cho yêu cầu của đề bài Việc thiết lập đúng các tham số và giới hạn giúp quá trình tối ưu diễn ra hiệu quả và đáng tin cậy Solver sẽ đánh giá các phương án và tối ưu hóa theo mục tiêu đã đề ra, mang lại kết quả phù hợp với yêu cầu đề bài.

SỬ DỤNG PHẦN MỀM ORANGE ĐỂ KHAI THÁC DỮ LIỆU

Orange là một phần mềm miễn phí, mã nguồn mở, có vai trò quan trọng trong lĩnh vực học máy và khai phá dữ liệu Với giao diện đồ họa đẹp mắt, Orange giúp người dùng phân tích và khai thác dữ liệu một cách trực quan và hiệu quả Nó cung cấp đa dạng chức năng từ nhập dữ liệu đầu vào và tiền xử lý dữ liệu cho đến thiết lập mô hình và trực quan hóa kết quả Đặc biệt, với người mới tiếp cận ngôn ngữ Python, Orange là lựa chọn phù hợp để trau dồi kỹ năng trích xuất thông tin từ dữ liệu Các công cụ phân tích và khai phá dữ liệu của Orange được chia thành các nhóm: Data, Visualize, Model, Evaluate và Unsupervised (Không giám sát).

2.2.2 Tính năng của phần mềm

Giúp người dùng trích xuất, chuyển đổi, tải dữ liệu (ETL Process)

Nhóm Data có một vài chức năng đặc trưng như: File, Datasets, Data Table, Save Data

File: đọc số liệu thông qua một tệp tin đầu vào và sau đó gửi tập dữ liệu đến kênh đầu ra Tập dữ liệu có thể là file Excel hoặc link URL

Hình 2 9 Giao diện công cụ File

- File: xem xét các tệp dữ liệu đã mở trước đó

- URL: điền dữ liệu từ các địa chỉ URL

- Info: thông tin về tập dữ liệu được tải: số lượng, kích thước tệp dữ liệu

- Column: bổ sung thông tin về các tính năng trong bộ dữ liệu Chỉnh sửa các tính năng bằng cách nhấn đúp Người dùng có thể thay đổi tên thuộc tính, chọn loại biến cho mỗi thuộc tính (target, feature, meta)

Datasets: tìm kiếm và tải một tập dữ liệu từ kho dữ liệu trực tuyến Mỗi bộ dữ liệu đều được cung cấp đầy đủ thông tin và mô tả về kích thước, số lượng mẫu, số lượng biến và mục tiêu của bài toán, giúp người dùng đánh giá sự phù hợp cho phân tích và mô hình hóa Quá trình tìm kiếm cho phép lọc theo loại dữ liệu, định dạng và nguồn gốc, sau đó người dùng có thể tải xuống nhanh chóng để tiến hành tiền xử lý, trực quan hóa và xây dựng mô hình Metadata rõ ràng của mỗi bộ dữ liệu đảm bảo sự minh bạch và thuận tiện cho việc khai thác dữ liệu, tái sử dụng và so sánh giữa các nguồn dữ liệu khác nhau.

Hình 2 10 Giao diện công cụ Datasets

Data Table: nhập từ dữ liệu đầu vào và kết quả đầu ra là một bảng tính

Save Data duyệt qua tập dữ liệu đầu vào được cung cấp và lưu lại dưới một tên định danh duy nhất, giúp quản lý và truy xuất dữ liệu hiệu quả Tập dữ liệu sau khi lưu có thể ở nhiều định dạng phổ biến như tab, xlsx và các định dạng khác, đảm bảo tính tương thích với các công cụ phân tích và xử lý dữ liệu.

Hình 2 11 Giao diện công cụ Data Table

Orange tùy chỉnh cung cấp khả năng xử lý và biến đổi dữ liệu một cách linh hoạt, từ các thao tác đơn giản như chuẩn hóa giá trị và chuyển đổi dữ liệu số cho các bài toán cơ bản, đến những tác vụ phức tạp hơn như kết hợp và phân loại biến, và trình bày dữ liệu theo các kỹ thuật giảm chiều để mang lại cái nhìn trực quan và thông tin hơn về dữ liệu.

Preprocess, hay tiền xử lý dữ liệu, là chức năng quan trọng giúp nâng cao chất lượng kết quả phân tích Quy trình này xử lý dữ liệu đầu vào bằng cách loại bỏ nhiễu, chuẩn hóa đơn vị đo và xử lý dữ liệu thiếu, từ đó đảm bảo tính đồng nhất và nhất quán của tập dữ liệu cho các bước phân tích tiếp theo và cho kết quả phân tích đáng tin cậy hơn.

Pivot Table là công cụ tóm tắt dữ liệu từ một bảng mở rộng thành một bảng thống kê ngắn gọn, có thể hiển thị các chỉ số như tổng, trung bình, tổng số và các phép tính khác Chức năng này cho phép người dùng chọn một tập con dữ liệu và nhóm thông tin theo các giá trị ở hàng, với điều kiện là biến rời rạc Pivot Table đặc biệt hữu ích khi dữ liệu có các biến số không hiển thị trực tiếp trong bảng gốc, giúp phân tích và tóm tắt dữ liệu theo từng nhóm một cách nhanh chóng và dễ hiểu.

Data Sampler: sử dụng một số phương pháp lấy mẫu dữ liệu

2.2.2.3 Nhóm Visualize Đây là nhóm được sử dụng với mục đích trực quan hóa dữ liệu thành các biểu đồ giúp quan sát dễ dàng hơn Có các dạng biểu đồ như Tree, Scatter Plot, Line Plot,

Hình 2 12 Giao diện công cụ Data Sampler

2.2.2.4 Nhóm Model Đây là nhóm có các mô hình như SVM, Decision Tree, Logistic Regression, để xây dựng mô hình học máy và cho biết độ hiệu quả khi hoạt động thông qua chức năng Evaluate

2.2.2.5 Nhóm Evaluate Đây là nhóm chứa các phương pháp đánh giá các mô hình máy học phân lớp dữ liệu như: Confusion Matrix, Test and Score,

Nhóm bao gồm các hàm giúp phân cụm dữ liệu như Hierarchical Clustering, K- means, Distances,

Phân lớp dữ liệu là quá trình sử dụng một mô hình phân lớp để gán cho từng đối tượng dữ liệu một hoặc nhiều nhóm (loại) đã được xác định trước (Hùng, 2024a).

Chúng ta có thể xây dựng mô hình phân lớp dựa trên tập dữ liệu đã được gán nhãn trước, trong đó mỗi đối tượng dữ liệu thuộc về một lớp cụ thể Việc xác định đúng lớp của từng mẫu dữ liệu đóng vai trò then chốt trong quá trình phân loại và quyết định nhãn cho dữ liệu mới Chính vì vậy, chất lượng của tập dữ liệu được gán nhãn trước và sự nhất quán trong nhãn là yếu tố quyết định đến hiệu suất và độ chính xác của mô hình phân lớp.

Quá trình phân lớp dữ liệu gồm 2 bước chính:

- Bước 1: Xây dựng mô hình (giai đoạn “học” hay “huấn luyện”)

Dựa trên dữ liệu đầu vào đã được gán nhãn và tiền xử lý, các thuật toán phân loại như cây quyết định, các hàm số toán học và tập luật được áp dụng để tạo ra mô hình phân loại đã được huấn luyện Thực chất quá trình này là tìm kiếm một mô hình phân loại bằng cách giải phương trình f(x)=y Quy trình bắt đầu với dữ liệu đào tạo, tiếp tục triển khai thuật toán phân loại và kết quả là một classifier (mô hình) được huấn luyện, sẵn sàng để dự đoán nhãn cho dữ liệu mới.

- Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ

Bước 2.1: Đánh giá mô hình

Dữ liệu đầu vào là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, được chia tỉ lệ khoảng 70/30 để tạo ra một bộ dữ liệu nhỏ hơn phục vụ cho quá trình huấn luyện Khi đưa vào mô hình phân lớp, nhãn của thuộc tính đã được gán sẽ được bỏ qua nhằm kiểm tra khả năng dự đoán của mô hình dựa trên dữ liệu đầu vào Sau đó, ta so sánh nhãn thuộc tính từ dữ liệu đầu vào với kết quả phân lớp do mô hình dự đoán để xác định tính đúng đắn và hiệu suất của mô hình.

Hình 2 13 Sơ đồ quá trình phân lớp dữ liệu (Nguồn: Hùng, 2024)

Bước 2.2: Phân lớp dữ liệu mới

Trong bài toán phân lớp, dữ liệu đầu vào có tính khuyết thiếu và sẽ được mô hình tự động gán nhãn thông qua quá trình huấn luyện ở Bước 1 Mục tiêu là xây dựng một mô hình phân loại có khả năng nhận diện và phân loại các trường hợp dựa trên nhãn đã gán trong Bước 1, từ đó tối ưu hóa hiệu suất và độ chính xác Quá trình tiền xử lý dữ liệu và huấn luyện mô hình ở Bước 1 giúp xử lý dữ liệu thiếu và cải thiện chất lượng nhãn trước khi thực hiện phân lớp trên tập dữ liệu đầy đủ Kết quả thu được có thể được sử dụng để đưa ra quyết định trong các ứng dụng thực tế và được đánh giá bằng các tiêu chí phù hợp với bài toán của bạn.

● Nếu số lớp là 2: phân lớp nhị phân

● Nếu số lớp lớn hơn 2: phân lớp đa lớp

● Mỗi đối tượng dữ liệu chỉ được gán vào 1 lớp duy nhất: phân lớp đơn nhãn

● Mỗi đối tượng dữ liệu có thể được gán vào nhiều lớp khác nhau: phân lớp đa nhãn

2.2.3.2 Một số phương pháp phân lớp cơ bản:

ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ

PHÂN TÍCH DỮ LIỆU BANKCHURNERS

3.1.1 Giới thiệu bộ dữ liệu

Bộ dữ liệu được sử dụng trong đề tài này gồm 10.127 quan sát, tương đương với hơn 10.000 khách hàng giao dịch tại ngân hàng, kèm theo thông tin cá nhân và các yếu tố ảnh hưởng tới quyết định rời bỏ dịch vụ thẻ tín dụng của họ Việc dự báo ai rời bỏ sẽ giúp người quản lý chủ động gặp gỡ khách hàng để cung cấp dịch vụ tốt hơn và thuyết phục họ tiếp tục sử dụng thẻ tín dụng của ngân hàng (Kaggle.com) Bộ dữ liệu được xây dựng với mục tiêu phân loại được những khách hàng có tiềm năng tiếp tục sử dụng dịch vụ thẻ tín dụng ('Existing Customer') và những khách hàng rời bỏ dịch vụ ('Attrited Customer') thông qua việc sử dụng các biến độc lập là những chỉ báo đáng tin cậy (Kaggle, 2021).

Dữ liệu được xây dựng nhằm nhận diện và phân tích hành vi khách hàng, đặc biệt là những người có nguy cơ rời bỏ dịch vụ thẻ tín dụng của ngân hàng, đồng thời xác định những khách hàng sẽ tiếp tục sử dụng dịch vụ dựa trên biến mục tiêu Attrition_Flag Đối với mỗi khách hàng, Attrition_Flag = 1 cho thấy nguy cơ rời bỏ cao, cho phép nhà quản lý kịp thời triển khai các biện pháp can thiệp để giữ chân khách hàng và giảm thiểu mất mát doanh thu.

Ngược lại, khi Attrition_Flag = 0, nghĩa là khách hàng không rời bỏ dịch vụ ngân hàng Điều này cho phép người quản lý tập trung cải thiện chất lượng dịch vụ nhằm nâng cao sự hài lòng của khách hàng và tăng khả năng giữ chân khách hàng.

3.1.3 Giới thiệu các biến dữ liệu

Bảng 3 1 Danh sách các biến được sử dụng trong mô hình

Tên biến Định dạng Ý nghĩa

1 CLIENTNUM Numeric Mã số khách hàng

2 Customer_Age Numeric Độ tuổi khách hàng (tính theo năm, >)

3 Gender Categorical Giới tính khách hàng

4 Dependent_count Numeric Số người phụ thuộc của khách hàng

5 Education_Level Categorical Trình độ học vấn khách hàng

6 Marital_Status Categorical Tình trạng hôn nhân khách hàng

7 Income_Category Categorical Mức thu nhập khách hàng

8 Card_Category Categorical Loại thẻ tín dụng khách hàng

9 Months_on_book Numeric Thời gian khách hàng đã sử dụng dịch vụ của ngân hàng (tính theo tháng)

Cách tính: = (Năm hiện tại - Năm bắt đầu sử dụng dịch vụ) * 12 + (Tháng hiện tại - Tháng bắt đầu sử dụng dịch vụ)

Numeric Tổng số sản phẩm dịch vụ khách hàng sử dụng của ngân hàng

Numeric Số tháng trong 12 tháng gần nhất mà khách hàng không thực hiện giao dịch ngân hàng

12 Contacts_Count_12_mon Numeric Tổng số lần khách hàng liên hệ với ngân hàng trong 12 tháng gần nhất

13 Credit_Limit Numeric Hạn mức tín dụng trên thẻ tín dụng của khách hàng (Số tiền tối đa khách hàng có thể vay)

14 Total_Revolving_Bal Numeric Tổng số dư nợ tín dụng của khách hàng trên thẻ tín dụng

15 Avg_Open_To_Buy Numeric Mức độ tín dụng sẵn có trung bình cho mỗi thẻ tín dụng của khách hàng (trong

Numeric Sự thay đổi tổng số tiền giao dịch giữa quý 4 năm trước và quý 1 năm sau

Cách tính: = Tổng số tiền giao dịch trong quý 1 năm sau - Tổng số tiền giao dịch trong quý 4 năm trước

17 Total_Trans_Amt Numeric Tổng số tiền giao dịch của khách hàng

18 Total_Trans_Ct Numeric Tổng số lần giao dịch của khách hàng

19 Total_Ct_Chng_Q4_Q1 Numeric Sự thay đổi tổng số lần giao dịch giữa quý 4 năm trước và quý 1 năm sau

Cách tính: = Tổng số lần giao dịch trong quý 1 năm sau - Tổng số lần giao dịch trong quý 4 năm trước

20 Avg_Utilization_Ratio Numeric Tỷ lệ sử dụng thẻ tín dụng trung bình của khách hàng

Cách tính: = Tổng số tiền giao dịch (Total_Trans_Amt) / Tổng hạn mức thẻ tín dụng (Credit_Limit) * 100%

21 Attrition_Flag Binary Nếu Attrition_Flag = 1 thì khách hàng rời bỏ dịch vụ ngân hàng và ngược lại

3.1.4 Tiền xử lý dữ liệu Đầu tiên, dữ liệu được nhập vào phần mềm Orange bằng tính năng Import Data

Ta có mô tả sơ bộ như sau:

Hình 3 1 Nhập dữ liệu vào phần mềm Orange

Bộ dữ liệu ban đầu được mô tả như sau:

Bảng 3 2 Mô tả bộ dữ liệu ban đầu

Số dữ liệu bị thiếu: 0%

Nhận thấy rằng dữ liệu đầu vào là dữ liệu mẫu đã được gán nhãn và tiền xử lý (Hùng, 2024a) Nhóm đã sử dụng chức năng Edit Domain để gán một giá trị số cho mỗi mẫu dữ liệu, nhằm chuẩn hóa dữ liệu và sẵn sàng cho quá trình huấn luyện mô hình Quá trình này giúp nâng cao chất lượng dữ liệu đầu vào và tối ưu hóa hiệu suất của các thuật toán học máy được áp dụng.

50 giá trị Categorical Đồng thời, gán nhãn cho giá trị của biến Binary Attrition_Flag:

Để tăng tính tương thích và hiệu suất cho các mô hình máy học, biến phân loại (categorical) được mã hóa sang dạng số, ví dụ 'Attrited Customer' thành 1 và 'Existing Customer' thành 0 Việc mã hóa này giúp dữ liệu phù hợp với nhiều mô hình khác nhau và có thể cải thiện hiệu suất dự đoán Trong khi đó, các mô hình dựa trên dữ liệu phân loại chưa được mã hóa có thể hạn chế khả năng áp dụng trong thực tế và dẫn tới kết quả dự đoán không nhất quán khi xử lý dữ liệu mới. -**Sponsor**Để tối ưu SEO và làm cho đoạn văn mạch lạc hơn, chúng ta có thể tập trung vào việc mã hóa dữ liệu Categorical sang Numeric để tăng tính tương thích của dữ liệu với nhiều mô hình khác nhau, từ đó cải thiện hiệu suất mô hình; việc này giúp mô hình dễ dàng áp dụng vào thực tế hơn, tránh các kết quả dự đoán không nhất quán khi sử dụng dữ liệu mới Bạn có thể khám phá thêm về cách [Soku AI](https://pollinations.ai/redirect-nexad/pgGVN0dR?user_id=229098989) tự động hóa các quy trình, bao gồm cả việc phân tích và tối ưu hóa dữ liệu, giúp bạn tiết kiệm thời gian và công sức, đồng thời cải thiện hiệu quả công việc Soku AI là một công cụ AI quảng cáo Facebook/Meta hoàn toàn tự động, có thể thay thế những người mua truyền thông đắt đỏ bằng tự động hóa cấp chuyên gia Với Soku AI, bạn có thể biến mọi chủ doanh nghiệp thành chuyên gia quảng cáo Facebook chỉ sau một đêm.

Các giá trị Categorical được gán với các giá trị số tương ứng như sau:

Bảng 3 3 Danh sách các giá trị Categorical được gán nhãn

Trong hình 3.2 Hộp thoại Edit Domain, nhóm tiến hành trích xuất các biến cần cho việc thực hiện mô hình dự báo bằng cách sử dụng chức năng Select Column trong phần mềm Orange để rút gọn số biến xuống còn 21 biến Trong đó gồm 1 biến đầu ra và 20 biến đầu vào Việc lựa chọn biến giúp tối ưu hóa quá trình xây dựng và hiệu quả của mô hình dự báo.

Hình 3 3 Hộp thoại Select Columns

Kế đến, Nhóm sử dụng Data Sampler để lấy 4999 mẫu nhằm loại bỏ các mẫu nhiễu từ tập dữ liệu và tăng cường hiệu suất của mô hình học máy Trong các phương thức lấy mẫu, Replicable (Deterministic) Sampling là lựa chọn hiệu quả khi cần đảm bảo tính nhất quán và khả năng tái tạo kết quả giữa các lần phân tích dữ liệu khác nhau Phương pháp này hoạt động bằng cách chia nhỏ tập dữ liệu thành các nhóm con dựa trên một tiêu chí nhất định, sau đó chọn ngẫu nhiên một số mẫu từ mỗi nhóm con Quá trình này đảm bảo rằng tất cả các nhóm con đều được đại diện trong mẫu thu được, tránh tình trạng một số nhóm con bị bỏ qua hoàn toàn Nhóm không chọn vào ô “Sample with replacement” nhằm lấy mẫu không bù, đảm bảo mỗi hàng trong tập dữ liệu chỉ được chọn một lần và một mẫu đại diện cho toàn bộ tập.

Trong tập dữ liệu gồm 54 bản ghi, việc chọn ô đó có thể dẫn đến thiên vị trong mẫu khi một số hàng có khả năng được chọn cao hơn so với các hàng khác Thiên vị mẫu làm mất tính đại diện của dữ liệu và có thể làm sai lệch kết quả phân tích dữ liệu Để giảm thiểu rủi ro này, nên áp dụng các phương pháp lấy mẫu ngẫu nhiên hoặc có trọng số, chẳng hạn như phân tầng hoặc điều chỉnh trọng số, thay vì chọn ô một cách tùy ý.

Hình 3 4 Hộp thoại Data Sampler (1)

Bảng 3 4 Mô tả bộ dữ liệu sau khi thực hiện tiền xử lý

Số dữ liệu bị thiếu: 0%

Sau đó, nhóm sử dụng chức năng Data Sampler để phân tách dữ liệu thành hai phần riêng biệt nhằm phục vụ cho quá trình phân lớp dữ liệu: 70% dữ liệu gốc được dùng để huấn luyện mô hình và 30% còn lại được giữ lại để kiểm tra, đánh giá hiệu suất của mô hình.

55 luyện mô hình phân lớp (Training) và 30% dữ liệu còn lại dùng để dự đoán và báo cáo cho mô hình (Forecast)

Hình 3 5 Các bước tiền xử lý dữ liệu được thực hiện thông qua phần mềm Orange

Tiếp theo, nhóm thực hiện đồ án sẽ sử dụng công cụ DS để thống kê mô tả các biến và vẽ đồ thị biểu diễn xu hướng của các biến được mô tả ở phần dưới đây, nhằm cung cấp cái nhìn trực quan về dữ liệu và hỗ trợ phân tích nghiên cứu một cách hiệu quả.

Trước hết là bảng Thống kê mô tả:

Bảng 3 5 Thống kê mô tả

3.1.5.1 Customer_Age (Độ tuổi của khách hàng) Độ tuổi khách hàng trung bình của tổng thể là 46.38768 với độ lệch chuẩn đạt 8.03223 Điều này cho thấy rằng sự phân tán rộng của độ tuổi khách hàng so với độ tuổi trung bình, khách hàng có thể thuộc nhiều độ tuổi khác nhau, từ trẻ đến già

Hình 3 6 Thống kê Độ tuổi của khách hàng

Theo số liệu từ nhóm thống kê, đa phần khách hàng ở độ tuổi 41-50 và 51-60 Cụ thể, 2308 khách hàng ở độ tuổi 41-50 chiếm 46.17% tổng số quan sát và 1305 khách hàng ở độ tuổi 51-60 chiếm 26.11% tổng số quan sát Nhìn chung, phân phối độ tuổi không đồng đều, cho thấy sự tập trung đáng kể của khách hàng ở nhóm tuổi trung niên.

3.1.5.2 Gender (Giới tính của khách hàng)

Hình 3 7 Thống kê Giới tính của khách hàng

Trong tổng số quan sát, tỷ lệ khách hàng nữ chiếm 53.49%, cao hơn tỷ lệ khách hàng nam 46.51% Nhìn chung, dù nữ chiếm tỷ lệ cao hơn, số lượng khách hàng nữ và khách hàng nam vẫn tương đối cân bằng về mặt tổng thể.

3.1.5.3 Dependent_count (Số người phụ thuộc của khách hàng)

Hình 3 8 Thống kê Số người phụ thuộc của khách hàng

Phân tích cho thấy số người phụ thuộc của khách hàng tập trung chủ yếu ở mức 2-3 người Trong đó, khách hàng có 3 người phụ thuộc chiếm tỉ lệ cao nhất, xấp xỉ 27.05% tổng số quan sát, tương ứng với 1.352 khách hàng Ngược lại, có 218 khách hàng (4.36% tổng số quan sát) có 5 người phụ thuộc và 458 khách hàng (9.16%) không có người phụ thuộc nào.

3.1.5.4 Education_Level (Trình độ học vấn)

Hình 3 9 Thống kê Trình độ học vấn của khách hàng

Phân bổ khách hàng theo trình độ học vấn cho thấy phần lớn là cử nhân, với 1508 khách hàng chiếm 30.17% tổng số quan sát Tiếp theo là nhóm có trình độ trung học phổ thông, với 998 khách hàng chiếm 19.96% tổng số quan sát Chỉ có 224 khách hàng có trình độ tiến sĩ, chiếm 4.48% tổng số quan sát.

3.1.5.5 Marital_Status (Tình trạng hôn nhân)

Hình 3 10 Thống kê Tình trạng hôn nhân của khách hàng

tháng gần nhất)

Credit_Limit (Hạn mức tín dụng của khách hàng)

Hình 3.17 trình bày thống kê hạn mức tín dụng của khách hàng, cho thấy hơn một nửa số quan sát có giá trị ≤ 5.000, với 2.638 quan sát chiếm 52,77% tổng số quan sát Theo thống kê, giá trị trung bình của hạn mức tín dụng là khoảng 8.638,27 và độ lệch chuẩn khoảng 9.112,79 Phân bố của biến này có xu hướng lệch trái khi được thể hiện trên Hình 3.17.

Total_Revolving_Bal (Tổng số dư nợ tín dụng của khách hàng)

Hình 3 18 Thống kê Tổng số dư nợ tín dụng của khách hàng

Nhìn chung, tổng số dư nợ tín dụng của khách hàng phân bố tương đối rộng, trải dài từ 0 đến 2517, với giá trị trung bình xấp xỉ 1171.76 và độ lệch chuẩn xấp xỉ 814.94, cho thấy mức dư nợ giữa các khách hàng có sự biến động đáng kể Trong phân tích phân bố, nhiều nhất là ở khoảng với 1260 quan sát và ít nhất là ở khoảng 2500–3000 với 266 quan sát.

Avg_Open_To_Buy (Mức độ tín dụng sẵn có trung bình)

Hình 3 19 Thống kê Mức độ tín dụng sẵn có trung bình

Có thể thấy rằng, giống như Hạn mức tín dụng của khách hàng, Mức độ tín dụng sẵn có trung bình cho thấy hơn một nửa số quan sát ở mức ≤ 5000, với 2958 quan sát chiếm 59.17% tổng quan sát Theo thống kê, giá trị trung bình của mức độ tín dụng sẵn có là khoảng 7466.51 và độ lệch chuẩn khoảng 9117.33 Phân bố của biến này có xu hướng lệch trái khi được thể hiện qua Hình 3.19.

Total_Amt_Chng_Q4_Q1 (Sự thay đổi tổng số tiền giao dịch giữa quý

4 năm trước và quý 1 năm sau)

Hình 3.20 trình bày thống kê về sự thay đổi tổng số tiền giao dịch giữa quý 4 năm trước và quý 1 năm sau Hầu hết quan sát có giá trị trong khoảng 0.5–1.0, với 4133 quan sát chiếm khoảng 82.68% tổng số quan sát Giá trị trung bình ước tính khoảng 0.76, độ lệch chuẩn khoảng 0.22 Phân bố của biến này có xu hướng lệch trái khi được biểu diễn trên Hình 3.20.

Total_Trans_Amt (Tổng số tiền giao dịch trong 12 tháng gần nhất)

Trong Hình 3.21, thống kê về tổng số tiền giao dịch trong 12 tháng gần nhất cho thấy gần một nửa số quan sát có giá trị trong khoảng 3000 đến 6000, với 2355 quan sát chiếm khoảng 47.11% tổng số quan sát Giá trị trung bình đạt khoảng 4346.29 và độ lệch chuẩn là khoảng 3342.85 Phân bố của biến này có xu hướng lệch trái khi được biểu diễn trong Hình 3.21.

Total_Trans_Ct (Tổng số lần giao dịch trong 12 tháng gần nhất)

Hình 3 22 Thống kê Tổng số lần giao dịch trong 12 tháng gần nhất

Có thể thấy, 1774 khách hàng thực hiện giao dịch từ 50 đến 75 lần trong 12 tháng gần nhất, chiếm tỷ lệ cao nhất 35.49% trên tổng số quan sát Nhóm khách hàng này cho thấy mức độ hoạt động giao dịch khá mạnh và đóng góp đáng kể vào tổng số lần giao dịch của toàn bộ dữ liệu Phân bổ số lần giao dịch trong khoảng thời gian này cho thấy phần lớn hoạt động diễn ra ở mức trung bình tới cao, phản ánh xu hướng giao dịch ổn định của khách hàng trong năm vừa qua.

Total_Ct_Chng_Q4_Q1 (Sự thay đổi tổng số lần giao dịch giữa quý 4 năm trước và quý 1 năm sau)

Hình 3.23 trình bày thống kê sự thay đổi tổng số lần giao dịch giữa quý 4 năm trước và quý 1 năm sau Theo bảng số liệu, có đến 3.860 quan sát có giá trị trong khoảng 0.5 đến 1.0, chiếm tỷ lệ cao nhất của toàn mẫu.

Phân tích phân phối dữ liệu cho thấy 77.22% tổng số quan sát thuộc về một nhóm giá trị nhất định Kế tiếp là các giá trị nằm trong hai khoảng được xét là ≤ 0.5 và từ 1.0 đến 1.5, với số lượng lần lượt là 791 quan sát, chiếm 15.82% tổng số quan sát.

302 quan sát (chiếm 6.04% trong tổng số quan sát) Năm giá trị còn lại chiếm tỷ lệ rất ít (dưới 1%)

Avg_Utilization_Ratio (Tỷ lệ sử dụng thẻ tín dụng trung bình của khách hàng)

Hình 3 24 Thống kê Tỷ lệ sử dụng thẻ tín dụng trung bình của khách hàng

Theo thống kê từ khảo sát khách hàng giao dịch tại ngân hàng, tỉ lệ sử dụng thẻ tín dụng trung bình của 52.43% khách hàng nằm ở mức 0 đến 0.2, tương ứng 2621 người chiếm hơn một nửa tổng số quan sát; ngược lại, chỉ 5.08% khách hàng có tỉ lệ sử dụng thẻ tín dụng trung bình ở mức 0.8 đến 1.0, tương ứng 254 khách hàng.

PHÂN LỚP DỮ LIỆU

3.2.1 Lý do sử dụng phương pháp học có giám sát

Trong đồ án này, bộ dữ liệu Nhóm khảo sát đã có sẵn một biến đầu ra mang tên Attrition_Flag, nên mô hình dự báo sẽ thực hiện phân loại nhị phân với hai lớp: class = 1 và class = 0 Vì vậy, nhóm quyết định ứng dụng phương pháp phân lớp để đưa ra các dự báo có độ tin cậy cao cho bộ dữ liệu này (Hùng, 2024a).

3.2.2 Một số phương pháp phân lớp

Có 5 phương pháp phân lớp được sử dụng trong đồ án này, 5 phương pháp đó là:

Mô hình cây quyết định (Decision Tree) là một phương pháp giúp mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước dựa trên nguyên lý của cây quyết định Với cấu trúc nhánh từ mỗi nút, nó cho phép giải thích quy tắc ra quyết định một cách trực quan và dễ hiểu Decision Tree phù hợp cho cả dữ liệu số và dữ liệu rời rạc, hỗ trợ việc xử lý nhiều biến và cho kết quả có tính minh bạch cao Ưu điểm nổi bật của mô hình này là khả năng trực quan hóa, triển khai nhanh, yêu cầu tiền xử lý thấp và khả năng nắm bắt mối quan hệ phi tuyến giữa các đặc trưng; tuy nhiên cần quản lý nguy cơ overfitting và thực hiện pruning hoặc điều chỉnh tham số để tối ưu hóa hiệu suất dự báo.

Phương pháp này có ưu điểm nổi bật là không đòi hỏi chuẩn hóa dữ liệu, giúp tiết kiệm công sức và thời gian tiền xử lý Tuy nhiên, nhược điểm của mô hình là không phù hợp với dữ liệu thuộc chuỗi thời gian và chi phí xây dựng mô hình thường khá cao.

Hồi quy logistic là một mô hình xác suất dùng để dự đoán giá trị đầu ra rời rạc từ tập các giá trị đầu vào được biểu diễn dưới dạng vector Mô hình này ước lượng xác suất thuộc một lớp nhãn và từ đó thực hiện phân loại dựa trên ngưỡng đã thiết lập Điểm mạnh của hồi quy logistic nằm ở cách biến các đặc trưng đầu vào thành một xác suất bằng hàm sigmoid, từ đó có thể áp dụng cho các bài toán phân loại nhị phân và mở rộng cho đa lớp khi cần thiết Theo Hùng (2024a), đây là một công cụ nền tảng trong học máy và thống kê cho việc dự đoán nhãn dựa trên dữ liệu đầu vào có cấu trúc vector.

SVM là một thuật toán học có giám sát, nhận dữ liệu đầu vào và xem chúng như các vector trong không gian đa chiều Nó phân loại các dữ liệu thành các lớp khác nhau bằng cách xây dựng một siêu phẳng ở không gian nhiều chiều làm mặt phân cách giữa các lớp dữ liệu (Hùng, 2024a).

Mạng nơ-ron nhân tạo là một mô hình toán học lấy cảm hứng từ cấu trúc và chức năng của não bộ con người, do McCulloch và Pitts đề xuất từ năm 1943 Đây là một mô hình học máy có khả năng học hỏi từ dữ liệu và từ đó đưa ra các dự đoán, được khẳng định bởi Minsky và Papert vào năm 1969.

Rừng ngẫu nhiên là một tập hợp các cây quyết định được xây dựng từ các mẫu dữ liệu và các đặc trưng được chọn ngẫu nhiên Mỗi cây trong rừng đóng vai trò dự đoán nhãn cho một điểm dữ liệu mới; với hồi quy, dự đoán cuối cùng là trung bình các dự đoán từ tất cả các cây, còn với phân loại là kết quả bỏ phiếu từ các cây Nhờ cơ chế kết hợp và giảm quá khớp, rừng ngẫu nhiên là một công cụ mạnh mẽ cho nhiều nhiệm vụ học máy, bao gồm phân loại, hồi quy và lựa chọn biến Breiman (2001).

Hình 3 25 Một số phương pháp phân lớp

Hình 3 26 Cấu trúc Mạng nơ-ron nhân tạo (Neural Network) (Boateng và cộng sự,

Hình 3 27 Thuật toán Rừng ngẫu nhiên (Random Forest) (Boateng và cộng sự, 2020)

Đầu tiên, nhóm sử dụng chức năng Data Sampler để chia dữ liệu thành hai phần theo tỷ lệ 70:30 Đối với 70% dữ liệu sẽ được dùng cho mục đích huấn luyện mô hình (Training) và được đặt tên là Training, trong khi 30% dữ liệu còn lại sẽ được dùng cho mục đích dự báo (Forecast) và được đặt tên là Forecast Bảng dữ liệu dùng để dự báo sẽ được xóa đi dữ liệu ở cột Attrition_Flag.

Hình 3 28 Hộp thoại Data Sampler (2)

Cuối cùng, kết thúc quá trình tiền xử lý, Nhóm lưu lại các bảng Data thu được nhằm sử dụng ở mô hình dự báo

Dữ liệu Training sau khi thực hiện Data Sampler có 3500 quan sát, 21 biến, trong đó có 1 biến Target và không có lỗi dữ liệu Biến CLIENTNUM là một mã định danh duy nhất cho mỗi khách hàng, không mang thông tin về hành vi hay đặc điểm của khách hàng, do đó không trực tiếp ảnh hưởng đến quyết định rời bỏ hay tiếp tục sử dụng dịch vụ Vì vậy, nhóm chuyển role của biến CLIENTNUM thành ID (khóa nhận diện khách hàng), nhằm đảm bảo biến này chỉ là định danh và không được xem là biến đặc trưng trong mô hình.

Hình 3 30 Mô tả mẫu dữ liệu Training

Tiếp theo, mẫu dữ liệu Forecasting được Nhóm trích với 1499 quan sát, với 21 biến, trong đó có 1 biến target Không có dữ liệu nào bị lỗi

Hình 3 31 Mô tả mẫu dữ liệu Forecasting

Nhờ đã thực hiện đầy đủ bước tiền xử lý dữ liệu ở các phần trước, hiện tại không còn dữ liệu bị lỗi ở bước này Nhóm nghiên cứu tiến hành xây dựng và đánh giá các mô hình bằng thuật toán Test and Score để so sánh hiệu quả của năm phương pháp học có giám sát, bao gồm Cây quyết định, Hồi quy logistic, SVM, Mạng nơ-ron nhân tạo và Rừng ngẫu nhiên.

Hình 3 32 Đánh giá các phương pháp phân lớp

Tại bước Test and Score, nhóm nghiên cứu chọn lựa Cross validation và tỉ lệ lấy mẫu nhằm đạt được kết quả kiểm định tốt nhất Thông qua quy trình này, dữ liệu được chia thành 10 phần để thực hiện 10-fold cross-validation, từ đó thu thập các kết quả kiểm định ổn định và đáng tin cậy cho mô hình.

Hình 3 33 Kết quả Test and Score

Khi thực hiện Cross validation với chia mẫu dữ liệu thành 10 phần, nhóm đã so sánh năm phương pháp gồm Hồi quy Logistic, SVM, Cây quyết định, Mạng nơ-ron nhân tạo và Rừng ngẫu nhiên Qua quá trình đánh giá, nhóm quyết định chọn phương pháp Rừng ngẫu nhiên (Random Forest) với những lý do được nêu sau.

- Tính chính xác (CA) của phương pháp đạt giá trị cao hơn (0.950)

- Giá trị trung bình điều hòa (F1) của phương pháp đạt giá trị cao hơn (0.948)

- Độ chính xác (Prec) của phương pháp Rừng ngẫu nhiên là 0.949

- Diện tích đường cong AUC đạt 0.976

Trung bình điểm của 5 tiêu chí đánh giá đạt 0.9546, cho thấy hiệu suất vượt trội so với các phương pháp học máy khác như Hồi quy logistic (đạt 0.8906), SVM (đạt 0.8204), Cây quyết định (đạt 0.8972) và Mạng nơ-ron nhân tạo (đạt 0.9272).

Tiếp theo, nhóm thực hiện đồ án đánh giá độ chính xác của 5 phương pháp phân lớp bằng ma trận nhầm lẫn Kết quả từ ma trận nhầm lẫn được trình bày như sau:

78 Hình 3 34 Kết quả Ma trận nhầm lẫn phương pháp Hồi quy Logistics

Hình 3 35 Kết quả Ma trận nhầm lẫn phương pháp SVM

79 Hình 3 36 Kết quả Ma trận nhầm lẫn phương pháp Cây quyết định

Hình 3 37 Kết quả Ma trận nhầm lẫn phương pháp Mạng nơ-ron nhân tạo

Hình 3 38 Kết quả Ma trận nhầm lẫn phương pháp Rừng ngẫu nhiên

Nhóm chọn phương pháp Rừng ngẫu nhiên vì có tỷ lệ sai lầm loại 1 và tỷ lệ sai lầm loại 2 thấp nhất (lần lượt đạt 8.4% và 4.4%)

Hình 3 39 Kết quả ROC Analysis với Target = 0

Trong Hình 3 có 40 kết quả phân tích ROC với Target = 1, cho thấy đường cong ROC càng tiệm cận với điểm (0;1) thì mô hình càng hiệu quả (Hùng, 2024a) Do đó, với hai lần chạy ROC analysis với biến Target lần lượt bằng “1” và “0”, nhóm nhận thấy đường cong ROC của phương pháp Rừng ngẫu nhiên tiệm cận với điểm (0;1) nhiều nhất, từ đó kết luận mô hình này có hiệu quả cao.

ĐÁNH GIÁ KẾT QUẢ CỦA MÔ HÌNH

Ngày đăng: 18/09/2025, 09:32

HÌNH ẢNH LIÊN QUAN

Hình 2. 1 Hộp thoại Descriptive Statistics - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 2. 1 Hộp thoại Descriptive Statistics (Trang 18)
Hình 2. 6 Hộp thoại Moving Average - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 2. 6 Hộp thoại Moving Average (Trang 23)
Bảng 2. 2 Các loại biến thể của SVM - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Bảng 2. 2 Các loại biến thể của SVM (Trang 35)
Hình 2. 17 Minh họa AUC - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 2. 17 Minh họa AUC (Trang 39)
Hình 3. 3 Hộp thoại Select Columns - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 3 Hộp thoại Select Columns (Trang 53)
Hình 3. 6 Thống kê Độ tuổi của khách hàng - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 6 Thống kê Độ tuổi của khách hàng (Trang 56)
Hình 3. 27 Thuật toán Rừng ngẫu nhiên (Random Forest) (Boateng và cộng sự, 2020) - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 27 Thuật toán Rừng ngẫu nhiên (Random Forest) (Boateng và cộng sự, 2020) (Trang 72)
Hình 3. 33 Kết quả Test and Score - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 33 Kết quả Test and Score (Trang 77)
Hình 3. 35 Kết quả Ma trận nhầm lẫn phương pháp SVM - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 35 Kết quả Ma trận nhầm lẫn phương pháp SVM (Trang 78)
Hình 3. 37 Kết quả Ma trận nhầm lẫn phương pháp Mạng nơ-ron nhân tạo - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 37 Kết quả Ma trận nhầm lẫn phương pháp Mạng nơ-ron nhân tạo (Trang 79)
Hình 3. 40 Kết quả ROC Analysis với Target = 1 - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 40 Kết quả ROC Analysis với Target = 1 (Trang 81)
Hình 3. 41 Mẫu dữ liệu thử nghiệm - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 41 Mẫu dữ liệu thử nghiệm (Trang 82)
Hình 3. 42 Mô hình dự báo  Nhóm thu được kết quả dự báo cho 1499 quan sát. - Đề tài dự báo hành vi khách hàng bằng phương pháp phân lớp dữ liệu Đâu là khách hàng tiềm năng và chiến lược tiếp thị hiệu quả cho ngân hàng
Hình 3. 42 Mô hình dự báo Nhóm thu được kết quả dự báo cho 1499 quan sát (Trang 83)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w