Chuyên ngành kinh tế dữ liệu nâng cao hiệu quả dự báo khách hàng rời bỏ dịch vụ ngân hàng sử dụng mô hình học sâu kỹ thuật học kết hợp

Trong máy học, bài nghiên cứu thường đưa cho máy tính một tập dữ liệu, sau đó sử dụng các thuật toán máy học để phân tích và học hỏi từ tập dữ liệu đó.. Kết quả của quá trình học này là

Trang 1

BỘ KẾ HOẠCH VÀ ĐẦU TƯ HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN

Hà Nội – 2023

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan Khóa luận với đề tài “Nâng Cao Hiệu Quả Dự Báo Khách Hàng Rời Bỏ Dịch Vụ Ngân Hàng Sử Dụng Mô Hình Học Sâu - Kỹ Thuật Học Kết Hợp” là do

tự bản thân thực hiện, nghiên cứu có sự hỗ trợ của giáo viên hướng dẫn và trong quá trình nghiên cứu không có sự sao chép các công trình nghiên cứu của người khác Các số liệu trong Khóa luận được sử dụng trung thực và trích dẫn rõ ràng

Nếu sai tôi xin hoàn toàn chịu trách nhiệm

Hà Nội, tháng 4 năm 2023

Sinh viên Trương Hải Nam

Trang 3

Trong quá trình thu thập thông tin và các số liệu liên quan, tôi đã nhận được

sự chỉ dẫn giúp đỡ, hỗ trợ tận tình của ThS Bùi Minh Thành và những giảng viên khác trong khoa Kinh Tế Số - Học viện Chính sách và Phát triển

Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế, trong quá trình hoàn thiện bài Khóa luận, tôi không thể tránh khỏi những sai sót, rất mong nhận được sự chỉ bảo để đề tài này có thể hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Hà Nội, tháng 4 năm 2023

Sinh viên Trương Hải Nam

Trang 4

MỤC LỤC

LỜI CAM ĐOAN 2

LỜI CẢM ƠN 3

DANH MỤC VIẾT TẮT 6

DANH MỤC BẢNG 7

DANH MỤC HÌNH - BIỂU 8

MỞ ĐẦU 3

2 Mục tiêu nghiên cứu 4

3 Đối tượng và phạm vi nghiên cứu 4

4 Phương pháp nghiên cứu 4

5 Kết cấu khóa luận 4

CHƯƠNG 1: CỞ SỞ LÝ THUYẾT KỸ THUẬT HỌC KẾT HỢP MÔ HÌNH HỌC SÂU 5

1.1 Khái quát về Học máy 5

1.2 Các mô hình phân loại trong Học máy 8

1.2.1 K láng giềng gần nhất 8

1.2.2 Máy học hỗ trợ vector (SVM) 10

1.2.3 Hồi quy Logistic 11

1.2.4 Cây quyết định 13

1.2.5 Linear Discriminant Analysis 15

1.2.6 Gaussian Naive Bayes 18

1.3 Hiện tượng mất cân bằng dữ liệu 21

1.3.1 Khái niệm mất cân bằng dữ liệu 21

1.3.2 Các phương pháp xử lý dữ liệu mất cân bằng 21

1.4 Kỹ thuật học kết hợp 25

Trang 5

1.4.1 Khái niệm kỹ thuật học kết hợp 25

1.4.2 Các biến thể của kỹ thuật học kết hợp 26

1.5 Mạng neural học sâu 29

1.5.1 Khái niệm mạng neural học sâu 29

1.5.2 Các hàm kích hoạt trong mạng neural học sâu 30

1.5 Các độ đo hiệu năng mô hình phân loại 34

KẾT LUẬN CHƯƠNG 1 37

CHƯƠNG 2: MÔ HÌNH ĐỀ XUẤT GIẢI QUYẾT BÀI TOÁN 38

2.1 Mô hình đề xuất 38

2.2 Cấu trúc các bộ phân lớp Mức 1 41

2.3 Cấu trúc các bộ phân lớp Mức 2 43

2.4 Bộ dữ liệu nghiên cứu 44

2.5 Chuẩn bị dữ liệu 48

KẾT LUẬN CHƯƠNG 2 52

CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM MÔ HÌNH VÀ ĐỀ XUẤT 53

3.1 Kết quả thực nghiệm mô hình 53

3.1.1 Kết quả các bộ phân lớp Mức 1 53

3.1.2 Kết quả các bộ phân lớp Mức 2 54

3.1.3 Kết quả của mô hình đề xuất 55

3.1.4 So sánh mô hình đề xuất với các bài nghiên cứu khác 56

3.2 Đề xuất nâng cao khả năng giữ chân khách hàng 57

KẾT LUẬN 60

TÀI LIỆU THAM KHẢO 62

I Tài liệu nghiên cứu 62

II Trang Web 64

Trang 6

DANH MỤC VIẾT TẮT STT Chữ cái viết tắt Tên đầy đủ tiếng anh Tên đầu đủ tiếng việt

1 KNN K-nearest neighbors K láng giềng gần nhất

2 SVM Support Vector Machines Máy hỗ trợ vector

Analysis

Trang 7

DANH MỤC BẢNG

Bảng 1.2 Hàm Kernel trong SVM

Bảng 2.1 Các tham số mô hình cơ sở

Bảng 2.2 Các bộ phân loại được chọn

Bảng 2.3 Mô tả về bộ dữ liệu thực nghiệm

Bảng 2.4 Dữ liệu mẫu minh họa (5 dòng đầu)

Bảng 2.5 Thể hiện các kết quả thống kê của dữ liệu

Bảng 2.6 Dữ liệu sau chuẩn hóa

Bảng 3.1 Kết quả các bộ phân lớp Mức 1

Bảng 3.2 Kết quả các bộ phân lớp Mức 2

Bảng 3.3 Kết quả của mô hình đề xuất

Bảng 3.4 So sánh mô hình đề xuất với các bài nghiên cứu khác

Trang 8

DANH MỤC HÌNH - BIỂU

Hình 1.1 Ví dụ Thuật toán K láng giềng gần nhất Hình 1.2 Ví dụ hàm RBF trong SVM

Hình 1.4 Thuật toán Cây quyết định

Hình 1.5 Thuật toán Linear Discriminant Analysis Hình 1.6 Thuật toán Gaussian Naive Bayes

Hình 1.14 Hàm Leaky ReLU

Hình 1.16 Hàm Sigmoid

Trang 9

Hình 2.1 Biểu diễn bằng đồ thị của phương pháp Stacking Hình 2.2 Biểu diễn sơ đồ mô hình cấp cơ sở

Hình 2.3 Mô hình đề xuất có kiến trúc của khóa luận

Hình 2.4 Hệ số tương quan giữa các trường dữ liệu

Hình 2.5 Dữ liệu trước và sau phương pháp SMOTE Tomek

Trang 10

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Hiện nay, song hành cùng với sự phát triển ngày càng nhanh chóng của nền tảng công nghệ thông tin, có thể đại diện như là Blockchain, IOT, AI… thì các ngân hành thương mại cũng đồng thời nắm bắt với xu hướng phát triển chung cùng mọi lĩnh vực Đi cùng với làn sóng chuyển đổi số trong ngân hàng thương mại hiện tại

đã làm các ngân hành có sự thay đổi rất lớn và phức tạp, đồng thời cũng phải đối mặt với nhiều thách thức của thời cuộc Cuộc chạy đua để giữ chân khách hàng giữa các ngân hàng thương mại cũng ngày càng thêm căng thẳng, mỗi ngân hàng đều đưa

ra những chính sách riêng của họ nhưng để có thể cụ thể hóa những chính sách đó đến những khách hàng đang có ý định ngưng sử dụng dịch vụ là câu chuyện rất khác Nếu các ngân hàng chỉ đợi chờ đến khi khách hàng đã rời bỏ dịch vụ của họ thì rất khó để có thể giữ chân họ tiếp tục với dịch vụ của mình

Điều này tạo cho ngân hàng một thách thức mới đó là phải dự đoán trước được những khách hàng nào sẽ rời bỏ dịch vụ trong tương lai Với sự phát triển của ngành khoa học dữ liệu vào những năm gần đây giúp giải quyết được nhiều bài toán khác nhau đây là lựa chọn rất đúng đắn đối với các ngân hàng để giải quyết bài toán rời

bỏ dịch vụ của họ, với nguồn dữ liệu dồi dào từ khách hàng giúp việc dự đoán trở lên chính sác hơn Bài nghiên cứu này ứng dụng machine learning vào việc dự đoán khách hàng rời bỏ làm căn cứ giúp các ngân hàng có một phương pháp để đưa ra các chính sách nhằm giữ chân khách hàng đến đúng với những khách hàng đang có ý định rời bỏ dịch vụ

Kết luận, khóa luận này nhằm mục đích tìm ra được phương pháp tốt nhất để

có thể dự đoán được khả năng rời bỏ dịch vụ của khách hàng từ đó có thể giúp các ngân hàng có biện pháp kịp thời để giữ chân được khách hàng gắn bó với dịch vụ của mình

Trang 11

2 Mục tiêu nghiên cứu

• Giới thiệu tổng quan về Máy học và phương pháp học kết hợp

• Đề xuất mô hình dự đoán khách hàng rời bỏ với phương pháp học kết hợp

• Đề xuất các phương pháp giúp giữ chân khách hàng

3 Đối tượng và phạm vi nghiên cứu

• Đối tượng nghiên cứu: Phương pháp dự đoán khách hàng rời bỏ dịch vụ

• Phạm vi nghiên cứu: Học máy, phương pháp phân loại

4 Phương pháp nghiên cứu

• Phương pháp luận nghiên cứu khoa học

• Phương pháp thu thập dữ liệu: Thông tin được thu nhập từ giáo trình, bài giảng

• Phương pháp học kết hợp

5 Kết cấu khóa luận

Ngoài phần mở đầu, kết luận và danh mục tài liệu tham khảo, khóa luận bao gồm ba chương:

Chương 1: Cở sở lý thuyết kỹ thuật học kết hợp mô hình học sâu

Chương 2: Mô hình đề xuất giải quyết bài toán

Chương 3: Kết quả thực nghiệm mô hình và đề xuất

Trang 12

CHƯƠNG 1: CỞ SỞ LÝ THUYẾT KỸ THUẬT HỌC KẾT HỢP MÔ HÌNH

HỌC SÂU

1.1 Khái quát về Học máy

1.1.1 Khái niệm học máy

• Theo định nghĩa tổng quát:

Machine learning là lĩnh vực nghiên cứu nhầm giúp máy tính có khả năng học

mà không cần lập trình một cách tường minh

Arthur Samuel, 1959

• Theo định nghĩa mang tính kỹ thuật:

Machine learning là một chương trình máy tính được cho là học từ kinh

nghiệm E và tác vụ T và cho phép đo chất lượng P, sẽ được cải thiện dựa theo kinh nghiệm E

Tom Mitchell, 1997

• Tổng quát hơn có được khái niệm sau:

Học máy (tiếng anh: Machine Learning) là một lĩnh vực của trí tuệ nhân tạo (AI) và khoa học máy tính, ghiên cứu cách giúp máy tính tự động học hỏi từ dữ liệu

và từ kinh nghiệm để cải thiện hiệu suất của chúng trong việc giải quyết các tác vụ

cụ thể Máy học sử dụng các thuật toán và kỹ thuật từ nhiều lĩnh vực khác nhau, bao gồm toán học, thống kê, khoa học dữ liệu và trí tuệ nhân tạo

Trong máy học, bài nghiên cứu thường đưa cho máy tính một tập dữ liệu, sau

đó sử dụng các thuật toán máy học để phân tích và học hỏi từ tập dữ liệu đó Kết quả của quá trình học này là một mô hình máy học, có thể được sử dụng để dự đoán hoặc phân loại các điểm dữ liệu mới mà chưa được biết trước đó

Trang 13

Trong học máy, các phương pháp phổ biến được chia thành ba loại chính bao gồm học có giám sát, học không giám sát và học bán giám sát tùy vào đặc thù mà sẽ được ứng dụng rộng rãi trong nhiều lĩnh vực như thương mại điện tử, y tế, tài chính, marketing, giao thông vận tải, robot học, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác

1.1.2 Các phương pháp trong học máy

a Học có giám sát

Học có giám sát (tiếng anh: Supervised Learning) là một phương pháp học máy, trong đó mô hình được đào tạo trên một tập dữ liệu đã được gán nhãn trước Mục tiêu là tìm ra một hàm số ánh xạ từ các đặc trưng đầu vào sang các nhãn đầu ra tương ứng Trong học có giám sát, bài nghiên cứu có một tập dữ liệu đào tạo, trong

đó mỗi mẫu dữ liệu bao gồm các đặc trưng đầu vào và một nhãn đầu ra tương ứng

Mô hình học có giám sát sẽ học từ dữ liệu đào tạo để dự đoán các nhãn cho các mẫu

dữ liệu mới mà nó chưa từng thấy trước đó Học có giám sát được sử dụng rộng rãi trong nhiều lĩnh vực như nhận diện ảnh, phân loại văn bản, dự báo thời tiết, dự đoán giá cổ phiếu và nhiều ứng dụng khác

Các thuật toán học có giám sát phổ biến bao gồm:

1 Hồi quy tuyến tính (Linear Regression): Là một thuật toán để dự đoán giá trị

đầu ra liên tục dựa trên các đặc trưng đầu vào

2 Cây quyết định (Decision Trees): Là một thuật toán để phân loại các đối

tượng dựa trên các đặc trưng đầu vào

3 Rừng ngẫu nhiên (Random Forest): Là một phương pháp kết hợp nhiều cây

quyết định để tạo ra một mô hình phân loại tốt hơn

4 Naive Bayes: Là một thuật toán phân loại dựa trên nguyên tắc Bayes, giả định

rằng các đặc trưng đầu vào độc lập với nhau

Trang 14

5 Support Vector Machines (SVM): Là một phương pháp phân loại dựa trên

việc tìm ra siêu phẳng tốt nhất để phân tách các lớp

b Học không giám sát

Học không có giám sát (tiếng anh: Unsupervised Learning) là một phương pháp của ngành học máy nhằm tìm ra một mô hình mà phù hợp với các quan sát Trong học không có giám sát, bài nghiên cứu có một tập dữ liệu đào tạo mà không

có thông tin nhãn đầu ra Mô hình học không có giám sát sẽ tìm cách nhóm các điểm

dữ liệu lại với nhau dựa trên đặc trưng của chúng Nó cố gắng tìm ra các cấu trúc,

mô hình, hoặc nhóm dữ liệu không được định trước

Học không có giám sát được sử dụng rộng rãi trong các lĩnh vực như xử lý ngôn ngữ tự nhiên, phân tích cảm xúc, khám phá dữ liệu và nhiều ứng dụng khác

Các phương pháp không có giám sát phổ biến bao gồm:

1 Phân cụm (Clustering): Là một phương pháp để phân nhóm các điểm dữ liệu

dựa trên đặc trưng của chúng

2 Giảm chiều dữ liệu (Dimensionality Reduction): Là một phương pháp để

giảm số chiều của dữ liệu mà không mất đi quan trọng của dữ liệu

3 Khai thác luật kết hợp (Association Rule Mining): Là một phương pháp để

tìm ra các quy tắc và mối liên hệ giữa các phần tử trong tập dữ liệu

Trang 15

Bán giám sát được sử dụng trong các tình huống khi ta có ít dữ liệu có nhãn nhưng lại có nhiều dữ liệu không có nhãn Nó cũng được sử dụng khi việc gán nhãn cho dữ liệu tốn nhiều thời gian và chi phí Ví dụ về ứng dụng của bán giám sát là phát hiện thư rác trong email, phân tích tình cảm trong mạng xã hội, hay phân loại ảnh chưa được gán nhãn

Các bài toán học bán giám sát phổ biến bao gồm:

1 Mô hình gom nhóm/học không giám sát đầu tiên, sau đó sử dụng kết quả của

nó để đánh giá các điểm dữ liệu không có nhãn

2 Sử dụng mô hình phân loại có giám sát và các mô hình học không có giám sát

để tạo ra các dự đoán cho các điểm dữ liệu không có nhãn

3 Sử dụng mô hình phân loại có giám sát để đào tạo trên một phần dữ liệu có nhãn và sau đó sử dụng phần còn lại của dữ liệu không có nhãn để tinh chỉnh

mô hình

1.2 Các mô hình phân loại trong Học máy

1.2.1 K láng giềng gần nhất

Thuật toán K láng giềng gần nhất (tiếng anh: K-nearest neighbors, viết tắt

KNN) thuộc nhóm thuật toán Supervised learning (học có giám sát) là phương pháp

thống kê phi tham số (nonparametric statistics) được đề xuất bởi Thomas M Coverd

để sử dụng cho phân loại bằng thống kê và phân tích hồi quy [1] Thuật toán này đi tìm đầu ra của một điểm dữ liệu mới chỉ dự trên thông tin của K điểm dữ liệu gần nhất trong tập huấn luyện, mà gần như không học được một điều gì từ tập dữ liệu Với KNN mọi điểm trong tập huấn luyện đều được mô hình mô tả một cách chính xác điều này khiến mô hình dễ bị overfitting [2]

Trang 16

Hình 1.1 Ví dụ Thuật toán K láng giềng gần nhất

Nguồn: [2.1]

Để phân loại một quan sát 𝑥0, KNN sử dụng một số nguyên dương cho K để đánh giá K điểm dữ liệu gần nhất với quan sát 𝑥0 Diện tích xung quanh 𝑥0 được biểu thị bằng 𝑁0 Để đánh giá quan sát nào gần nhất với 𝑥0, KNN sẽ sử dụng độ đo Euclide để đo khoảng cách đường thằng giữa quan sát không nhìn thấy và quan sát xung quanh Với Euclide được địng nghĩa như sau:

𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑥𝑖, 𝑥𝑘) = √∑ (𝑥𝑖𝑗 − 𝑥𝑘𝑗)2

𝑘 𝑖=1

• Trong đó,𝑥𝑖𝑗 là giá trị của biến j đối với đối tượng i (quan sát xung quanh) và

𝑥𝑘𝑗 là giá trị của biến j đối với đối tượng k (quan sát không nhìn thấy)

Sau đó, phương pháp K-NN tiếp tục sử dụng quy tắc Bayes để phân loại quan sát bằng cách ước tính xác suất có điều kiện của lớp i dưới dạng phần nhỏ của các

Trang 17

điểm trong 𝑁0 nơi giá trị phản hồi bằng nhau Cuối cùng, nó phân loại quan sát không nhìn thấy vào lớp có xác suất lớn nhất bằng cách sử dụng giá trị cắt 0,5 Điều này được đại diện là:

Trong phân loại nhị phân, đặt ((𝑥1, 𝑦1) ( 𝑥𝑛, 𝑦𝑛)) là tập dữ liệu huấn luyện trong đó 𝑥𝑖 là vector đặc trưng đại diện cho các quan sát, 𝑦𝑖 ∈ {-1, +1} là nhãn của các điểm dữ liệu Lúc này SVM mục đích tìm ra một siêu phẳng tách giữa nhãn (-1)

và nhãn (+1) với lề lớn nhất Lề mặt phẳng được định nghĩa là khoảng cách ngắn nhất nằm giữa hai nhãn (-1, +1) với siêu phẳng Việc tìm kiếm siêu phằng có biên

độ lớn nhất sẽ có khả năng chống nhiễu tốt hơn siêu phẳng có biên độ nhỏ hơn

𝑓(𝑥) = {+1, 𝑤 ∗ 𝑥𝑖 + 𝑏 ≥ +1

−1, 𝑤 ∗ 𝑥𝑖 + 𝑏 ≤ − 1

• Với w là pháp tuyến của siêu phẳng, |b|/||w|| là khoảng cách vuông góc từ siêu phẳng đến điểm gốc và ||w|| là khoảng cách Euclide của w

Trong trường hợp phân loại phi tuyến tính, ánh xạ phi tuyến ϕ chiếu vào mẫu

có chiều thấp vào một không gian đặc trưng có chiều cao hơn và sử dụng hàm Kernel 𝐾(𝑥𝑖, 𝑥𝑗)để chuyển phân loại phi tuyến thành phân loại tuyến tính trong không gian này, khi đó, hàm phân loại tối ưu là [3]:

Trang 18

Bảng 1.1 Hàm Kernel trong SVM

Đa thức (Polynomial Kernels) 𝐾(𝑥, 𝑦) = (𝑥𝑇𝑦 + 𝑐)𝑑, 𝑐 > 0, ∀𝑥, 𝑦 ∈ ℝ𝒏

Gaoxo (Gaussian Kernels)

𝐾(𝑥, 𝑦) = 𝑒𝑥𝑝 (−|| 𝑥 − 𝑦 ||

2

2𝜎 2 ) , ∀𝑥, 𝑦 ∈ ℝ𝒏

Sigmoid (Sigmoid Kernels) 𝑲(𝒙, 𝒚) = 𝒕𝒂𝒏𝒉(𝒂𝒙 𝑻 𝒚 + 𝒃), 𝒂, 𝒃 ≥ 𝟎, ∀𝒙, 𝒚 ∈ ℝ 𝒏

Nguồn: Khóa Luận

Hình 1.2 Ví dụ hàm RBF trong SVM

Nguồn: [2.2]

1.2.3 Hồi quy Logistic

Mô hình hồi quy Logistic (hay còn được gọi là hồi quy logit - logit regression) được sử dụng phổ biến trong nghiên cứu các mối quan hệ phi tuyến tính cũng như được sử dụng trong các bài toán phân loại Uớc lượng xác suất phân loại nhị phân với một điểm dữ liệu có thể nhận hai giá trị 1 hoặc 0 Giả sử nếu xác suất > 50% thì

mô hình sẽ phân điểm dữ liệu vào lớp đó (được gọi là lớp dương, được gán nhãn là

Trang 19

“1”) hoặc ngược lại mô hình sẽ không phân vào lớp đó (tức thuộc lớp âm, được gán nhãn là “0”)

Xác suất ước lượng của mô hình Hồi quy Logistic dưới dạng vector như sau:

𝑠→ −∞𝜎(𝑡) = 0 ; lim

𝑠→ ∞𝜎(𝑡) = 1

Hình 1.3 Hàm Sigmoid

Nguồn: [2.3]

Khi mô hình hồi quy logistic đã ước lượng được xác suất của mẫu x thuộc lớp

dương 𝑝̂ = ℎ𝜃(𝑥), hàm có thể đưa ra dự đoán một cách dễ dàng:

𝑦̂ = 0 𝑛ế𝑢 𝑝̂ < 0,5 𝑣à 𝑦̂ = 1 𝑛ế𝑢 𝑝̂ ≥ 0,5

Trang 20

1.2.4 Cây quyết định

Thuật toán Cây quyết định (tiếng anh: Decision tree), cây quyết định phân loại

dữ liệu bằng cách sử dụng một loạt các câu hỏi hoặc các điều kiện để điều hướng các quyết định Mỗi câu hỏi được đặt ra dựa trên một thuộc tính của dữ liệu và mỗi lần hỏi được trả lời đúng, cây sẽ đi xuống đến nút kế tiếp, cho đến khi cây đưa ra một kết quả dự đoán

Cây quyết định có thể được sử dụng cho cả dữ liệu phân loại và dữ liệu hồi quy Trong trường hợp dữ liệu phân loại, cây quyết định được sử dụng để phân loại các mẫu vào các lớp khác nhau, trong khi trong trường hợp dữ liệu hồi quy, nó được

sử dụng để dự đoán giá trị đầu ra liên tục Cây quyết định cũng có thể được sử dụng

để xác định các yếu tố quan trọng trong dữ liệu Các bước chính của giải thuật cây quyết định:

1 Chọn thuộc tính tốt nhất để chia tập dữ liệu ban đầu thành các tập con

2 Tạo một nút quyết định cho thuộc tính được chọn và chia dữ liệu thành các tập con tương ứng

3 Lặp lại quá trình trên cho từng tập con, cho đến khi tất cả các điều kiện được đáp ứng hoặc không thể chia thêm

4 Để giảm thiểu overfitting, có thể áp dụng các kỹ thuật cắt tỉa cây sau khi hoàn tất xây dựng cây

Để xây dựng cây quyết định, phương pháp thường sử dụng là phương pháp ID3 (Iterative Dichotomiser 3) hoặc C4.5 ID3 sử dụng độ đo thông tin (information gain) để chọn thuộc tính tốt nhất để chia dữ liệu, trong khi C4.5 sử dụng độ đo thông tin điều chỉnh (gain ratio) để giải quyết vấn đề các thuộc tính có số lượng giá trị khác nhau lớn Công thức tính độ đo thông tin (information gain):

Trang 21

𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡(𝑆) − ∑ |𝑆𝑣|

|𝑆| 𝐸𝑛𝑡(

𝑣∈𝑉𝑎𝑙𝑢𝑒𝑠(𝐴)

𝑆𝑣) Trong đó:

• 𝑆 là tập dữ liệu ban đầu

• 𝐴 là thuộc tính được chọn để chia dữ liệu thành các tập con

• 𝑉𝑎𝑙𝑢𝑒𝑠(𝐴) là tập giá trị khác nhau của thuộc tính 𝐴

• 𝑆𝑣 là tập dữ liệu con được chia từ 𝑆 với giá trị thuộc tính 𝐴 là 𝑣

• Ent(𝑆) là độ đo entropy của tập dữ liệu 𝑆: 𝐸𝑛𝑡(𝑆) = − ∑𝑐𝑖 = 1𝑝𝑖log2(𝑝𝑖), với

o 𝑐 là số lượng các lừa chọn phân loại, 𝑝𝑖 là tỷ lệ các mẫu trong lớp 𝑖 trên tập dữ liệu đang xét

Để phân loại một mẫu mới, ta áp dụng các quy tắc được học từ cây quyết định

đã xây dựng trên tập dữ liệu huấn luyện để dự đoán lớp của mẫu đó Công thức toán học được sử dụng trong cây quyết định để tìm ra nút tốt nhất để chia là Gini Impurity

và Entropy Gini Impurity được định nghĩa như sau:

Công thức Gini Index được tính như sau:

Trang 22

Hình 1.4 Thuật toán Cây quyết định

Nguồn: [2.4]

1.2.5 Linear Discriminant Analysis

Linear Discriminant Analysis (viết tắt: LDA) là một thuật toán phân tích đa biến được sử dụng trong phân tích phân loại và nhận dạng Nó được sử dụng để tìm

ra các biến độc lập (predictors) tốt nhất để phân loại các quan sát (observations) vào các nhóm (classes) khác nhau LDA phân tích sự khác biệt giữa các nhóm bằng cách xác định các đại lượng tuyến tính mới, gọi là hàm chiếu (discriminant function), mà phân biệt được các nhóm tốt nhất Các hàm chiếu này được sử dụng để tạo ra các giá trị phân loại cho các quan sát mới

Trang 23

Thuật toán LDA yêu cầu dữ liệu đầu vào có phân phối chuẩn và các ma trận hiệp phương sai (covariance matrices) của các lớp phải tương đồng nhau Nếu các giả định này không được đáp ứng, ta có thể sử dụng một biến thể của LDA gọi là Quadratic Discriminant Analysis (QDA) Các bước chính của giải thuật LDA gồm:

Bước 1: Tính các giá trị trung bình và ma trận hiệp phương sai

Trong bước này, LDA tính các giá trị trung bình μ𝑘 và ma trận hiệp phương sai 𝑆𝑤 cho mỗi lớp Giá trị trung bình của mỗi lớp được tính bằng cách lấy trung bình của tất cả các vector đặc trưng trong lớp đó Ma trận hiệp phương sai của mỗi lớp được tính bằng cách tính tổng của tất cả các ma trận hiệp phương sai của các vector đặc trưng trong lớp đó Trong đó các giá trị được định nghĩa như sau:

𝜇𝑘 = 1

𝑛𝑘∑𝑖:𝑦𝑖=𝑘𝑥𝑖Với 𝑛𝑘 là số lượng mẫu dữ liệu trong lớp 𝑘

Ma trận hiệp phương sai của lớp 𝑘 được tính bằng:

𝑆𝑘 = 1

𝑛𝑘 − 1 ∑ (𝑥𝑖 − 𝜇𝑘)(𝑥𝑖 − 𝜇𝑘)𝑇

𝑖:𝑦𝑖=𝑘

Bước 2: Tính ma trận phân tích tuyến tính

Trong bước này, LDA tính ma trận phân tích tuyến tính $W$ bằng cách giải phương trình:

𝑆𝑤𝑊 = 𝑆𝑏với 𝑆𝑏 là ma trận hiệp phương sai giữa các lớp Ma trận phân tích tuyến tính

𝑊 là ma trận chuyển đổi để chuyển dữ liệu từ không gian n chiều sang không gian

𝑝 chiều mới (trong đó 𝑝 < 𝑛)

Với 𝑆𝑏 là ma trận hiệp phương sai giữa các lớp và được tính bằng:

Trang 24

𝑆𝑏 = ∑ 𝑛𝑘(𝜇𝑘 − 𝜇)

𝑘

𝑘 = 1

(𝜇𝑘 − 𝜇)𝑇Với μ là giá trị trung bình của toàn bộ dữ liệu và được tính bằng:

𝜇 = 1

𝑚 ∑ 𝑥𝑖𝑚

𝑖 = 1Phương trình trên có thể giải bằng cách tính các vector riêng và giá trị riêng của ma trận 𝑆𝑤−1𝑆𝑏 và chọn 𝑝 vector riêng tương ứng với 𝑝 giá trị riêng lớn nhất Ma trận phân tích tuyến tính 𝑊 có kích thước 𝑛 ∗ 𝑝 và được tạo bằng cách xếp các vector riêng theo cột

Bước 3: Phân loại các mẫu dữ liệu mới

Cuối cùng, LDA sử dụng ma trận phân tích tuyến tính 𝑊 để chuyển đổi các vector đặc trưng mới sang không gian mới và phân loại chúng vào các lớp khác nhau

Cụ thể, với mỗi vector đặc trưng mới 𝑥, tính giá trị 𝑦 = 𝑊𝑇𝑥 trong không gian mới

và phân loại nó vào lớp có giá trị μ𝑘 gần nhất Công thức tính toán phân loại chi tiết như sau:

• Đầu tiên, tính giá trị 𝑦 = 𝑊𝑇𝑥 của vector đặc trưng mới 𝑥 trong không gian mới

• Sau đó, tính khoảng cách Euclid giữa giá trị 𝑦 và giá trị trung bình μ𝑘 của mỗi lớp 𝑘, được định nghĩa bởi công thức:

𝑑𝑘 = ||𝑦 − μ𝑘||2

• Cuối cùng, phân loại vector đặc trưng mới vào lớp có giá trị 𝑑𝑘 nhỏ nhất, tức:

𝑦̂ = 𝑎𝑟𝑔𝑚𝑖𝑛𝑘𝑑𝑘Trong đó, 𝑦̂ là lớp được dự đoán cho vector đặc trưng mới 𝑥

Trang 25

Lưu ý rằng, khi áp dụng LDA cho các bài toán phân loại nhị phân (binary classification), chỉ cần tính ma trận phân tích tuyến tính 𝑊 với hai lớp là lớp dương

và lớp âm, và sau đó phân loại các mẫu dữ liệu mới vào một trong hai lớp này dựa trên giá trị 𝑦

Hình 1.5 Thuật toán Linear Discriminant Analysis

Nguồn: [4]

1.2.6 Gaussian Naive Bayes

Gaussian Naive Bayes (viết tắt: GB) là một thuật toán học máy dựa trên xác suất, được sử dụng trong bài toán phân loại Thuật toán này dựa trên giả định rằng các đặc trưng (features) của một mẫu đều độc lập với nhau và được phân phối theo phân phối Gaussian (hay còn gọi là phân phối chuẩn) Với giả định này, Gaussian Naive Bayes tính xác suất của một mẫu thuộc về một lớp bằng cách sử dụng định lý Bayes Giải thuật Gaussian Naive Bayes bao gồm các bước sau:

Trang 26

1 Tính xác suất tiền đề (prior probability) cho các lớp Prior probability là xác suất

một mẫu được phân loại vào một lớp cụ thể dựa trên phân phối của các lớp đó trong tập dữ liệu huấn luyện Xác suất tiền đề được định nghĩa như sau:

𝑃(𝐶𝑖) =𝑁𝑖

𝑁 Trong đó:

• 𝑃(𝐶𝑖) là xác suất tiền đề của lớp 𝐶𝑖

• 𝑁𝑖 là số lượng mẫu thuộc lớp 𝐶𝑖 trong tập huấn luyện

• 𝑁 là tổng số lượng mẫu trong tập huấn luyện

2 Tính xác suất hậu nghiệm (posterior probability) cho mỗi đặc trưng của mẫu thuộc

về một lớp cụ thể dựa trên phân phối Gaussian Xác suất này được tính bằng cách tính xác suất của phân phối Gaussian tương ứng với mỗi đặc trưng và lớp Xác suất hậu nghiệm được định nghĩa như sau:

• 𝑃(𝑥𝑗|𝐶𝑖) là xác suất hậu nghiệm của đặc trưng thứ 𝑗 với lớp 𝐶𝑖

• 𝑥𝑗 là giá trị của đặc trưng thứ 𝑗 trong mẫu cần phân loại

• 𝜇𝑖,𝑗 là giá trị trung bình của đặc trưng thứ 𝑗 trong các mẫu thuộc lớp 𝐶𝑖 trong tập huấn luyện

• 𝜎𝑖,𝑗2 là phương sai của đặc trưng thứ 𝑗 trong các mẫu thuộc lớp 𝐶𝑖 trong tập huấn luyện

3 Tính xác suất của một mẫu thuộc về một lớp cụ thể dựa trên xác suất tiền đề và

xác suất hậu nghiệm đã tính ở các bước trước đó

Trang 27

• 𝑃(𝐶𝑖) là xác suất tiền đề của lớp 𝐶𝑖

• 𝑃(𝑥𝑗|𝐶𝑖) là xác suất hậu nghiệm của đặc trưng thứ 𝑗 với lớp 𝐶𝑖

Khi có một mẫu mới cần phân loại, giải thuật Gaussian Naive Bayes tính xác suất của mẫu thuộc về mỗi lớp và chọn lớp có xác suất cao nhất làm kết quả phân loại

Hình 1.6 Thuật toán Gaussian Naive Bayes

Nguồn: [5]

Trang 28

1.3 Hiện tượng mất cân bằng dữ liệu

1.3.1 Khái niệm mất cân bằng dữ liệu

Mất cân bằng dữ liệu (Tiếng anh: Imbalanced data) là một hiện tượng xảy ra khi các lớp dữ liệu khác nhau trong tập dữ liệu của bạn có tỉ lệ khác nhau đáng kể Điều này có nghĩa là một số lớp có số lượng mẫu ít hơn so với các lớp khác

Ví dụ, nếu bạn đang xây dựng một mô hình để dự đoán xem liệu một bệnh nhân có bị ung thư hay không và trong tập dữ liệu của bạn có 1000 bệnh nhân, trong

đó có 900 bệnh nhân không mắc bệnh và chỉ có 100 bệnh nhân mắc bệnh, thì tập dữ liệu này sẽ bị mất cân bằng, vì tỉ lệ giữa số lượng bệnh nhân không mắc bệnh và số lượng bệnh nhân mắc bệnh là 9:1

Mất cân bằng dữ liệu có thể gây ra những vấn đề cho việc huấn luyện và đánh giá mô hình Trong trường hợp này, mô hình có thể học tốt các lớp có số lượng mẫu nhiều hơn, nhưng không hiệu quả khi dự đoán các lớp có số lượng mẫu ít hơn Do

đó, việc xử lý mất cân bằng dữ liệu là một vấn đề quan trọng trong học máy và có nhiều phương pháp để giải quyết nó

1.3.2 Các phương pháp xử lý dữ liệu mất cân bằng

1.3.2.1 Phương pháp Undersampling

Phương pháp Undersampling là một kỹ thuật giảm số lượng mẫu trong lớp đông dân số để cân bằng tỉ lệ giữa các lớp dữ liệu Kỹ thuật này thường được sử dụng khi tập dữ liệu là quá lớn, việc tạo mới dữ liệu mới (oversampling) sẽ làm cho tập dữ liệu trở nên quá lớn và tốn nhiều tài nguyên tính toán

Các phương pháp undersampling phổ biến bao gồm:

• Random Undersampling: Loại bỏ ngẫu nhiên một số mẫu trong lớp đông dân

số sao cho tỷ lệ giữa các lớp dữ liệu giảm xuống Phương pháp này có thể dẫn

Trang 29

đến mất mát thông tin quan trọng nếu các mẫu được xóa là các mẫu quan trọng

• Tomek Links Undersampling: Tìm kiếm các cặp mẫu gần nhau giữa các lớp

và loại bỏ mẫu trong lớp đông dân số Các cặp mẫu được gọi là "Tomek links" nếu chúng là một cặp gần nhau nhưng không cùng lớp, và việc loại bỏ mẫu trong lớp đông dân số sẽ làm giảm sự chồng chéo giữa các lớp

• Cluster Centroids Undersampling: Sử dụng các kỹ thuật gom cụm để tìm các

điểm trung tâm của lớp đông dân số, sau đó giảm số lượng mẫu trong lớp đông dân số bằng cách loại bỏ các mẫu gần nhất với các điểm trung tâm

Hình 1.7 Phương pháp Undersampling

Nguồn: [2.5]

Các phương pháp undersampling có thể giúp cân bằng tỷ lệ giữa các lớp dữ liệu và giảm sự mất cân bằng, tuy nhiên, chúng có thể dẫn đến mất mát thông tin quan trọng và giảm độ chính xác của mô hình nếu các mẫu được xóa là các mẫu

Trang 30

quan trọng hoặc không đại diện cho lớp đó Do đó, việc lựa chọn phương pháp undersampling phù hợp với dữ liệu cụ thể và mô hình được sử dụng là rất quan trọng

1.3.2.2 Phương pháp Oversampling

Phương pháp Oversampling là một kỹ thuật tạo mới dữ liệu bằng cách tăng số lượng mẫu trong lớp thiểu số để cân bằng tỉ lệ giữa các lớp dữ liệu Kỹ thuật này thường được sử dụng khi tập dữ liệu thiểu số là quá nhỏ, hoặc khi việc thu thập dữ liệu mới là khó khăn hoặc tốn kém

Hình 1.8 Phương pháp Oversampling

Nguồn: [2.5]

Các phương pháp oversampling phổ biến bao gồm:

• Random Oversampling: Tạo mới các mẫu giả từ mẫu trong lớp thiểu số bằng

cách sao chép ngẫu nhiên các mẫu này Phương pháp này có thể dẫn đến sự chồng chéo giữa các mẫu và gây ra overfitting

• Synthetic Minority Over-sampling Technique (SMOTE): Tạo mới các mẫu

Trang 31

nhất SMOTE có thể giảm sự chồng chéo giữa các mẫu và làm tăng độ đa dạng của dữ liệu, nhưng cũng có thể dẫn đến việc tạo ra các mẫu giả không đại diện cho thực tế và gây ra overfitting

• Adaptive Synthetic Sampling (ADASYN): Tạo mới các mẫu giả bằng cách

tập trung vào các vùng dữ liệu thiểu số khó khăn hơn bằng cách tạo mới các mẫu trong vùng đó với một mức độ tăng dần theo độ khó của vùng ADASYN

có thể giảm sự chồng chéo giữa các mẫu và giữ lại độ đa dạng của dữ liệu, đồng thời tạo ra các mẫu giả đại diện cho dữ liệu thực tế hơn

Các phương pháp oversampling có thể giúp cân bằng tỷ lệ giữa các lớp dữ liệu và giảm sự mất cân bằng, nhưng cũng có thể dẫn đến overfitting và tạo ra các mẫu giả không đại diện cho thực tế

1.3.2.3 Phương pháp SMOTE

SMOTE (Synthetic Minority Over-sampling Technique) là một phương pháp tạo mới dữ liệu trong quá trình oversampling để cân bằng tỷ lệ giữa các lớp dữ liệu Phương pháp này được phát triển bởi Nitesh Chawla, Kevin Bowyer và Lawrence Hall vào năm 2002

SMOTE hoạt động bằng cách tạo ra các mẫu giả từ các mẫu trong lớp thiểu

số bằng cách kết hợp các mẫu đó với các mẫu láng giềng gần nhất Cụ thể, SMOTE lấy một mẫu từ lớp thiểu số và tìm ra các mẫu láng giềng gần nhất của nó Sau đó, SMOTE sẽ chọn một trong các mẫu láng giềng đó ngẫu nhiên và tạo ra một mẫu giả bằng cách kết hợp các đặc trưng của mẫu ban đầu với các đặc trưng của mẫu láng giềng đó theo một tỷ lệ ngẫu nhiên Phương pháp này được lặp lại để tạo ra nhiều mẫu giả cho đến khi số lượng mẫu thuộc lớp thiểu số đạt đến một mức độ cân bằng mong muốn

Trang 32

SMOTE có thể giúp cân bằng tỷ lệ giữa các lớp dữ liệu và tạo ra các mẫu giả đại diện cho lớp thiểu số Tuy nhiên, SMOTE có thể dẫn đến sự chồng chéo giữa các mẫu và gây ra overfitting Để giảm thiểu hiện tượng này, các biến thể của SMOTE như Borderline-SMOTE hoặc Safe-SMOTE có thể được sử dụng để tạo ra các mẫu giả tốt hơn

SMOTE là một trong những phương pháp oversampling phổ biến được sử dụng trong Machine Learning và có thể được áp dụng cho nhiều loại mô hình như Decision Tree, Random Forest, Support Vector Machine và Neural Network

Hình 1.9 Ví dụ Phương pháp SMOTE

Nguồn: [6]

1.4 Kỹ thuật học kết hợp

1.4.1 Khái niệm kỹ thuật học kết hợp

Học kết hợp (tiếng anh: Ensemble Learning) là phương pháp trong máy học,

sử dụng nhiều mô hình học máy khác nhau để dự đoán một kết quả Thay vì sử dụng

Trang 33

nhau để tạo ra một dự đoán chính xác hơn Phương pháp này hoạt động bằng cách kết hợp nhiều thuật toán học máy khác nhau, chẳng hạn như thuật toán Decision Tree, Random Forest, SVM, Neural Networks vào một mô hình lớn hơn

Hình 1.10 Mô hình tổng quan Kỹ thuật học kết hợp

Nguồn: Khóa luận

1.4.2 Các biến thể của kỹ thuật học kết hợp

Trang 34

𝑦̂𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 = 1

𝑁∑ 𝑦̂𝑖𝑁

𝑖=1Trong đó:

• 𝑦̂𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 là giá trị dự đoán cuối cùng của mô hình học kết hợp

• 𝑁 là số lượng mô hình hồi quy

• 𝑦̂𝑖 là giá trị dự đoán của mô hình hồi quy thứ 𝑖

1.4.2.2 Loại 2 (Tổ hợp trung bình có trọng số)

Tổ hợp trung bình có trọng số: Phương pháp này cân nhắc sự đóng góp của từng thành viên trong tập thể bằng độ tin cậy hoặc hiệu suất dự kiến của mô hình trên tập dữ liệu Điều này cho phép các mô hình hoạt động tốt đóng góp nhiều hơn

và các mô hình hoạt động kém đóng góp ít hơn Tập hợp trung bình có trọng số cung cấp một sự cải tiến so với tập hợp trung bình của mô hình

𝑦̂𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 = 𝑤1𝑦1+ 𝑤2𝑦2+ +𝑤𝑛𝑦𝑛

𝑤1+ 𝑤2+ +𝑤𝑛Trong đó:

• 𝑦̂𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 là giá trị dự đoán cuối cùng của mô hình học kết hợp

• 𝑦1,𝑦2, , 𝑦𝑛 là các giá trị dự đoán từ các mô hình học máy khác nhau

• 𝑤1, 𝑤2, , 𝑤3 là trọng số tương ứng với mỗi mô hình học máy

1.4.2.3 Loại 3 (Mô hình tổng có trọng số tuyến tính)

Mô hình tổng có trọng số tuyến tính: Mô hình này sử dụng để kết hợp các dự báo của các mô hình con với bất kỳ thuật toán học nào Cách tiếp cận này được gọi

là tổng quát hóa kết hợp (Stacked generalization) [7] Mô hình kết hợp này là một thuật toán học lấy đầu ra của các mô hình con làm đầu vào và cố gắng tìm cách kết

Trang 35

hợp tốt nhất các dự báo đầu vào để đưa ra dự báo đầu ra tốt hơn Có thể hình dung

về quy trình kết hợp có hai mức: Mức 1 và Mức 2 như trong Hình 1

Hình 1.11 Mô hình tổng có trọng số tuyến tính

Nguồn: Khóa luận

- Cụ thể mô hình tổng có trọng số tuyến tính gồm hai mức như sau:

• Mức 1: Dữ liệu Mức 1 là đầu vào của tập dữ liệu huấn luyện và các mô hình Mức 1 (Level 0) học để đưa ra dự báo từ dữ liệu này

• Mức 2: Dữ liệu Mức 2 lấy đầu ra của các mô hình Mức 1 (Level 0) làm đầu vào và mô hình Mức 2 (Level 1) là duy nhất, hoặc gọi là học kết hợp, tại đây

mô hình đưa ra dự báo từ dữ liệu này

Không giống như một tổ hợp trung bình có trọng số, một tổ hợp tổng quát hóa xếp chồng lên nhau có thể sử dụng tập hợp các dự báo để cân nhắc và điều kiện quyết định cân nhắc các dự báo đầu vào một cách khác nhau, có khả năng dẫn đến hiệu suất tốt hơn

Điều quan trọng là bộ học kết hợp được huấn luyện trên tập dữ liệu riêng biệt với các mẫu được sử dụng để huấn luyện trong các mô hình Mức 1 để tránh quá khớp Một cách đơn giản trong cấu này là chia tập dữ liệu huấn luyện thành các tập huấn luyện và kiểm tra Các mô hình Mức 1 sau đó được huấn luyện trên tập huấn

Tiêu đề	Chuyên ngành kinh tế dữ liệu nâng cao hiệu quả dự báo khách hàng rời bỏ dịch vụ ngân hàng sử dụng mô hình học sâu kỹ thuật học kết hợp
Tác giả	Trương Hải Nam
Người hướng dẫn	ThS. Bùi Minh Thành
Trường học	Học viện Chính sách và Phát triển
Chuyên ngành	Kinh tế Dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	71
Dung lượng	1,94 MB