Ứng dụng học máy trong dự báo vỡ nợ tại ngân hàng thương mại cổ phần quốc tế việt nam

Phạm vi nghiên cứu Đề tài sử dụng dữ liệu thứ cấp thu thập được từ các nghiên cứu thực nghiệm, tài liệu, văn bản báo cáo, các nguồn tài liệu tham khảo tin cậy của các tổ chức trong và n

Trang 1

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP.HCM

ỨNG DỤNG HỌC MÁY TRONG DỰ BÁO VỠ NỢ TẠI NGÂN HÀNG THƯƠNG MẠI CỔ PHẦN QUỐC TẾ VIỆT

NAM

Sinh viên: Nguyễn Minh Hiếu MSSV: 030805170097

Lớp: HQ5-GE08 Khóa học: 2017 – 2021 GVHD: ThS Trần Kim Long

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan rằng những nội dung tôi viết trong bài khoá luận với đề tài “Ứng dụng học máy trong dự báo vỡ nợ tại Ngân hàng TMCP Quốc Tế Việt Nam” là công trình nghiên cứu của bản thân và là kết quả của tôi sau hơn 3 tháng thực hiện cùng với sự hướng dẫn của ThS Trần Kim Long Các dữ liệu và thông tin trong bài khoá luận là hoàn toàn trung thực và phù hợp với quy định của ngân hàng

Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan này và những vấn đề liên quan đến bài khoá luận của mình

Tác giả

Nguyễn Minh Hiếu

Trang 3

MỤC LỤC

MỤC LỤC 1

DANH MỤC BẢNG VÀ HÌNH 4

DANH MỤC CÁC TỪ VIẾT TẮT 5

CHƯƠNG 1 TỔNG QUAN VỀ NGHIÊN CỨU 6

1.1 Lý do chọn đề tài 6

1.2 Mục tiêu nghiên cứu 7

1.2.1 Mục tiêu nghiên cứu tổng quát 7

1.2.2 Các câu hỏi nghiên cứu 8

1.3 Phạm vi nghiên cứu 8

1.4 Phương pháp nghiên cứu 8

1.5 Những đóng góp mới của đề tài 8

1.6 Quy trình nghiên cứu 8

1.7 Cấu trúc đề tài 9

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC BẰNG CHỨNG THỰC NGHIỆM VỀ VẤN ĐỀ NGHIÊN CỨU 10

2.1 Khái niệm về vỡ nợ 10

2.2 Ảnh hưởng của vỡ nợ với ngân hàng 11

2.3 Các yếu tố có thể dẫn đến khả năng vỡ nợ của khoản vay 12

2.3.1 Yếu tố thông tin pháp lý của khách hàng 12

2.3.2 Yếu tố hoàn cảnh sống của khách hàng 13

2.3.3 Yếu tố tài chính của khách hàng 13

2.3.4 Yếu tố hành vi của khách hàng 14

2.4 Khái quát về học máy 14

2.5 Các phương pháp phân loại và dự báo vỡ nợ 15

2.5.1 Phương pháp rừng ngẫu nhiên 15

2.5.2 Phương pháp hồi quy logistic 16

2.5.3 Phương pháp cây quyết định 17

2.6 Tổng quan các nghiên cứu trước 17

2.6.1 Các nghiên cứu nước ngoài 17

Trang 4

2.6.2 Các nghiên cứu trong nước 20

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU 22

3.1 Phương pháp nghiên cứu và quy trình nghiên cứu 22

3.1.1 Phương pháp nghiên cứu 22

3.1.2 Quy trình nghiên cứu 22

3.2 Phương pháp thu thập dữ liệu 22

3.3 Biến nghiên cứu 22

3.4 Phương pháp phân tích dữ liệu 23

3.4.1 Phương pháp rừng ngẫu nhiên 23

3.4.2 Phương pháp cây quyết định 24

3.4.3 Phương pháp hồi quy logistic 25

3.4.4 Các phương pháp đánh giá hiệu quả của mô hình dự báo 26

3.4.4.1 Confusion matrix 26

3.4.4.2 Sensitivity và Specificity 26

3.4.4.3 Accuracy (Precision) 26

3.4.4.4 F1-Score 27

3.4.4.5 Khu vực dưới đường cong (AUC) 27

3.5 Chuẩn bị và tiền xử lý dữ liệu 28

3.5.1 Kỹ thuật phân loại 28

3.5.2 Xác định mẫu xây dựng và mẫu kiểm định 29

CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU 30

4.1 Thống kê mô tả 30

4.2 Kết quả dự báo các phương pháp 32

4.2.1 Kết quả phân loại của phương pháp rừng ngẫu nhiên 32

4.2.2 Kết quả phân loại của phương pháp cây quyết định 33

4.2.3 Kết quả phân loại của phương pháp hồi quy logistic 34

4.2.4 So sánh các phương pháp phân loại 35

4.2.5 Thảo luận kết quả 36

4.2.6 Giới hạn và định hướng nghiên cứu 37

CHƯƠNG 5 KẾT LUẬN 38

Trang 5

TÀI LIỆU THAM KHẢO 40 PHỤ LỤC – KẾT QUẢ CHẠY MÔ HÌNH 47

Trang 6

DANH MỤC BẢNG VÀ HÌNH

Bảng 3.1 Biến nghiên cứu về khả năng vỡ nợ của khách hàng 22

Bảng 3.2 Mẫu xây dựng và mẫu kiểm định 29

Bảng 4.1 Thống kê mô tả các biến phân loại 30

Bảng 4.2 Mức độ dự báo của phương pháp rừng ngẫu nhiên 33

Bảng 4.3 Mức độ dự báo của phương pháp cây quyết định 34

Bảng 4.4 Kết quả của phương pháp hồi quy logistic 34

Bảng 4.5 Mức độ dự báo của phương pháp hồi quy logistic 35

Bảng 4.6 So sánh kết quả dự báo của các phương pháp 36

Hình 3.1 Quy trình nghiên cứu 22

Hình 3.2 Đồ thị chứa ROC của bộ phân loại ngẫu nhiên và hai bộ phân loại hoạt động tốt hơn 28

Hình 4.1 Mức độ quan trọng của từng biến trong phương pháp rừng ngẫu nhiên 32

Hình 4.2 Kết quả của phương pháp cây quyết định 33

Hình 4.4 Đường cong ROC cho các phương pháp khác nhau 36

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

ACPR Cơ quan giám sát hành chính Pháp

AUC Area under the curve – Diện tích dưới đường cong

VIB Văn Thánh Ngân hàng TMCP Quốc tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao

dịch Văn Thánh

Trang 8

CHƯƠNG 1 TỔNG QUAN VỀ NGHIÊN CỨU

1.1 Lý do chọn đề tài

Trong các năm gần đây, hoạt động cho vay của các ngân hàng đang phát triển mạnh, đi kèm với sự phát triển này là tiềm ẩn nguy cơ rủi ro vỡ nợ của khách hàng Việc đánh giá rủi ro tín dụng của một khách hàng cá nhân là vấn đề quan trọng trong quản lý rủi ro của ngân hàng, điều này góp phần quan trọng trong việc tạo ra quyết định: ngân hàng có nên cho khách hàng đó vay hay không (Lou & Wang, 2013) Do số lượng khách hàng vay tiềm năng lớn, ngoài các phương pháp chấm điểm thủ công, ngân hàng nên áp dụng các mô hình hay thuật toán trong việc phân tích mức độ tín nhiệm của khách hàng (Khandani và cộng sự, 2010) Trên thực tế, Twala (2010) chỉ ra rằng nhiều ngân hàng lớn trên thế giới đã phát triển các thuật toán thông minh tự động để lập mô hình rủi ro tín dụng, cung cấp thông tin quan trọng cho việc ra quyết định điển hình là học máy (machine learning) Học máy là một chương trình máy tính được lập trình để học hỏi kinh nghiệm từ các tác vụ, từ đó đưa ra các dự đoán chính xác và cải thiện hiệu suất (Cooper và cộng sự, 1997) Trong bối cảnh nghiên cứu rủi ro tín dụng sử dụng kỹ thuật học máy, một số nghiên cứu đưa ra nhiều hướng phân tích mức độ rủi ro của các mô hình trong bộ dữ liệu cụ thể Tuy nhiên, các nghiên cứu này vẫn chưa xác định được kỹ thuật dự báo rủi ro tín dụng có thể dự báo ở mức độ chính xác cao hơn (Dastile và cộng sự, 2020) Mục tiêu của bài nghiên cứu này là giúp cải thiện khả năng dự đoán của các phương pháp trong học máy dựa trên kỹ thuật

“classification” và “cross validation” nhưng vẫn giúp cho mô hình có thể dễ dàng được giải thích

Từ đó, mục đích tiếp cận của tác giả nhằm đề xuất một phương pháp chấm điểm tín dụng phù hợp trong dự báo rủi ro tín dụng của ngân hàng

Việc sử dụng các các phương pháp của học máy để chấm điểm tín dụng xuất hiện từ những năm 1960, khi hoạt động kinh doanh thẻ tín dụng xuất hiện và cần có quy trình quyết định tự động Đến những năm 1970, sau khi điểm tín dụng được chấp nhận hoàn toàn, chúng đã được sử dụng rộng rãi bởi hầu hết các ngân hàng và các công ty cho vay khác Các phương pháp khác nhau được sử dụng trong học máy bao gồm phương pháp “Discriminant functions” của Altman (1968), “Proportional hazards” của Stepanova and Thomas (2001), “Hồi quy logistic” của Steenackers và Goovaerts (1989), và nhiều phương pháp khác Sau đó, mô hình hồi quy logistic dần trở thành mô hình chấm điểm tiêu chuẩn trong ngành tín dụng, chủ yếu là do tính đơn giản

và khả năng diễn giải của chúng Hầu hết các ngân hàng trên thế giới vẫn đang sử dụng mô hình

Trang 9

này, đặc biệt là đối với các bộ phận tín dụng, mô hình hồi quy logistic được sử dụng để chấm điểm tín dụng của khách hàng cá nhân có nhu cầu vay vốn

Chấm điểm tín dụng là một trong những lĩnh vực đầu tiên áp dụng kỹ thuật học máy trong ngành kinh tế Một số phương pháp được sử dụng như Cây quyết định (Makowski, 1985; Srinivasan và Kim, 1987), Neural networks (NN) (Tam và Kiang, 1992), và Support Vector Machine (Van Gestel và cộng sự, 2003) Tại thời điểm này, việc tăng mức độ chính xác (so với

mô hình hồi quy logistic tiêu chuẩn) để đánh giá độ tin cậy dường như đang bị hạn chế (các cuộc khảo sát của Thomas và cộng sự, 2000 và Van Gestel và cộng sự, 2003) Tuy nhiên, hiệu suất của các mô hình chấm điểm dựa trên học máy đã được cải thiện đáng kể từ khi áp dụng các phương pháp tổng hợp, đặc biệt là các phương pháp “Packing” và phương pháp “Reinforcement” (Paleologo et al, 2010) đã so sánh 41 thuật toán với các tiêu chí đánh giá khác nhau trong bộ dữ liệu chấm điểm tín dụng Họ xác nhận rằng phương pháp rừng ngẫu nhiên của Breiman (2001) phần lớn vượt trội hơn hồi quy logistic và đang dần trở thành một trong những phương pháp tiêu chuẩn trong chấm điểm tín dụng (Grennepois và cộng sự, 2018) Trong nhiều thập kỷ qua, các

kỹ thuật học máy ngày càng được nhiều ngân hàng và các tổ chức tín dụng khác sử dụng để dự báo rủi ro tín dụng (ACPR, 2020)

Tuy nhiên, một trong những hạn chế chính của các kỹ thuật học máy trong xét duyệt tín dụng ngành tài chính – ngân hàng đến từ việc chúng thiếu khả năng giải thích và diễn giải Điều này cũng chính là mối quan tâm hiện tại của các cơ quan quản lý tài chính (đặc biệt là trong chấm điểm tín dụng) về khả năng quản lý “AI” và diễn giải của các kỹ thuật học máy

Nhìn chung, các nghiên cứu về lĩnh vực này được thực hiện nhiều ở các quốc gia khác nhau trên thế giới nhưng ở Việt Nam còn khá mới mẻ, chưa được phổ biến nhiều Các nghiên cứu về ứng dụng giúp dự báo vỡ nợ còn rất hạn chế nên em quyết định chọn đề tài “Ứng dụng học máy trong dự báo vỡ nợ tại Ngân hàng thương mại cổ phần Quốc Tế Việt Nam” để phần nào tìm được mặt tích cực và hạn chế, cũng như đưa ra một số đề xuất giúp ứng dụng phát triển

1.2 Mục tiêu nghiên cứu

1.2.1 Mục tiêu nghiên cứu tổng quát

Mục tiêu nghiên cứu tổng quát của đề tài là ứng dụng học máy trong dự báo vỡ nợ tại Ngân hàng TMCP Quốc Tế Việt Nam, từ đó đề xuất các khuyến nghị nhằm hạn chế rủi ro tín dụng khách hàng cá nhân tại Ngân hàng TMCP Quốc Tế Việt Nam

Trang 10

1.2.2 Các câu hỏi nghiên cứu

Tổng quan về ứng dụng học máy trong dự báo rủi ro vỡ nợ?

Những biện pháp nào giúp hạn chế rủi ro tín dụng của khách hàng cá nhân tại Ngân hang TMCP Quốc tế Việt Nam?

1.3 Phạm vi nghiên cứu

Đề tài sử dụng dữ liệu thứ cấp thu thập được từ các nghiên cứu thực nghiệm, tài liệu, văn bản báo cáo, các nguồn tài liệu tham khảo tin cậy của các tổ chức trong và ngoài nước về rủi ro tín dụng khách hàng cá nhân tại ngân hàng thương mại trong khoảng thời gian từ năm 2010 –

2020 Và tác giả tiến hành phân tích các báo cáo hàng ngày của Ngân hàng TMCP Quốc Tế Việt Nam trong thời gian từ 2019 – 2020

Về không gian: Nghiên cứu được tiến hành đối với khách hàng cá nhân tại các Ngân hàng

TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh

Về thời gian: Báo cáo nợ và báo cáo kinh doanh tại Ngân hàng TMCP Quốc Tế Việt Nam

– Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh trong thời gian 2019 – 2020

1.4 Phương pháp nghiên cứu

Dữ liệu được xử lý bằng các chương trình Microsoft Excel và R, với các phương pháp phân tích được sử dụng là mô hình rừng ngẫu nhiên, cây quyết định, hồi quy logistic, thống kê mô tả

và kỹ thuật lấy mẫu lớp mất cân bằng

1.5 Những đóng góp mới của đề tài

Bài nghiên cứu giúp cải thiện chất lượng dịch vụ của Ngân hàng TMCP Quốc Tế Việt Nam trong tương lai về tài chính của Ngân hàng

Dựa trên các kết quả thu được, bài nghiên cứu này có thể trở thành tài liệu phân tích của Ngân hàng TMCP Quốc Tế Việt Nam trong việc xác định mức độ quan tâm của khách hàng tiềm năng của Ngân hàng trong tương lai

1.6 Quy trình nghiên cứu

Bước 1: Xây dựng đề tài, lên ý tưởng, kế hoạch cho nghiên cứu

Bước 2: Làm đề cương nghiên cứu

Bước 3: Tìm tài liệu nghiên cứu và phân loại tài liệu phục vụ cho bài nghiên cứu, từ đây xây dựng đề cương riêng mình

Trang 11

Bước 4: Xử lý dữ liệu thô được thu thập, sử dụng tiêu chí đánh giá kết quả chạy sau so với kết quả trước đã thu

Bước 5: Sử dụng kết quả chạy tốt nhất và thảo luận kết quả đó như thế nào so với các nghiên cứu trước, đưa ra kết luận cho nghiên cứu của bạn Tiến hành nộp giáo viên hướng dẫn

1.7 Cấu trúc đề tài

Chương 1 Tổng quan về nghiên cứu

Chương 2 Cơ sở lý thuyết và các bằng chứng thực nghiệm về vấn đề nghiên cứu

Chương 3 Phương pháp nghiên cứu

Chương 4 Kết quả nghiên cứu

Chương 5 Kết luận

Ngoài ra, để cung cấp các minh chứng nhằm củng cố nội dung phân tích đề tài còn bao gồm các phụ lục liên quan và danh mục tài liệu tham khảo được trình bày theo quy định APA

Trang 12

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC BẰNG CHỨNG THỰC NGHIỆM VỀ VẤN

ĐỀ NGHIÊN CỨU 2.1 Khái niệm về vỡ nợ

Theo Schuermann (2004), đưa ra ý kiến rằng không có một khái niệm tiêu chuẩn nào về

“vỡ nợ”, những khái niệm vỡ nợ khác nhau sử dụng cho các mục đích khác nhau Trong bài nghiên cứu của mình, ông đã đưa ra một khái niệm cơ bản về vỡ nợ là việc khách hàng không trả được nợ, bao gồm cả tiền gốc và tiền lãi trên các khoản vay có tài sản đảm bảo hoặc khoản vay không có tài sản đảm bảo Khi khách hàng xảy ra vỡ nợ sẽ dẫn đến thu nhập của ngân hàng

và các tổ chức tín dụng khác giảm đi Thông thường, khả năng vỡ nợ xảy ra khi khách hàng có một trong các dấu hiệu sau đây: (i) Khoản vay của khách hàng đã được cơ cấu nợ; (ii) Khoản vay của khách hàng phát sinh dự phòng nợ phải thu khó đòi; (iii) Khoản vay của khách hàng đã quá hạn trên 90 ngày; (iv) Khách hàng vay nợ đã tuyên bố phá sản

Hiệp định Basel II cũng định nghĩa rằng: việc vỡ nợ được coi là xảy ra khi có một trong các sự kiện sau đây: (i) Người có nghĩa vụ trả nợ không có khả năng thanh toán đầy đủ các nghĩa

vụ trả nợ của mình (gốc, lãi hoặc phí); (ii) Khoản nợ của người có nghĩa vụ trả nợ đã được điều chỉnh cụ thể như lập khoản dự phòng hoặc cơ cấu lại khoản vay liên quan đến việc xoá hoặc giãn

nợ gốc, lãi hoặc phí; (iii) Người có nghĩa vụ trả nợ đã quá hạn thanh toán trên 90 ngày; (iv) Người

có nghĩa vụ trả nợ đã nộp đơn phá sản

Mặt khác, Sy (2007) cũng đưa ra khái niệm: vỡ nợ dựa trên cơ sở khách hàng bị trễ hạn và mất khả năng thanh toán Trễ hạn được hiểu là việc khách hàng không thanh toán được khoản vay khi đến hạn, trong khi tình trạng mất khả năng thanh toán được định nghĩa là tài sản của khách hàng vay nợ có giá trị ít hơn các khoản nợ phải trả của họ Hầu hết các khái niệm vỡ nợ được xoay quanh khái niệm trễ hạn

Theo Altman và cộng sự (2019) cho ý kiến rằng, khái niệm vỡ nợ đề cập đến việc khách hàng vay nợ vi phạm một trong các điều khoản thỏa thuận trong hợp đồng với ngân hàng, ngoài khoản thanh toán theo thời hạn quy định của khoản vay Ví dụ, khách hàng vi phạm một thỏa thuận như không duy trì số tiền thanh toán tối thiểu hoặc tỷ lệ nợ tối đa được quy định Vỡ nợ có thể xảy ra khi khách hàng trễ thời gian thanh toán lãi và gốc bắt buộc Thông thường, khách hàng xảy ra vỡ nợ khi họ cơ cấu lại các khoản thanh toán nợ hoặc nộp đơn chính thức phá sản

Trang 13

Nói chung, vỡ nợ có thể xảy ra khi khách hàng không thể trả được số tiền gốc, lãi hoặc phí của khoản vay Dấu hiệu của một khoản vay có khả năng vỡ nợ khi đáp ứng một trong các điều sau đây như: (i) Khoản vay đã được ngân hàng cơ cấu nợ; (ii) Khoản vay của khách hàng xuất hiện khoản dự phòng phải thu khó đòi; (iii) Khách hàng trễ hạn trả nợ quá 90 ngày; (iv) Khách hàng vay nợ nộp đơn phá sản Khi vỡ nợ xảy ra sẽ kéo theo những ảnh hưởng nặng nề đến ngân hàng và kể cả chính bản thân khách hàng là chủ của khoản vay bị vỡ nợ ấy

2.2 Ảnh hưởng của vỡ nợ với ngân hàng

Theo Karim và cộng sự (2010), tỷ lệ vỡ nợ của khách hàng cá nhân càng cao sẽ ảnh hưởng xấu đến sự tăng trưởng trong kinh doanh của các ngân hàng, đây là nguyên nhân chính khiến cho ngân hàng chậm phát triển Nhóm tác giả cũng đưa ra lập luận rằng: hậu quả của việc khi ngân hàng có tỷ lệ vỡ nợ của khách hàng cá nhân càng cao, họ sẽ không thể phục vụ các khách hàng

cá nhân hay doanh nghiệp tiềm năng khác do số tiền cho vay trước chưa thể thu hồi

Cũng theo Karim và cộng sự (2010) một tác động khác của các khoản vỡ nợ ảnh hưởng đến ngân hàng chính là khả năng cho vay của ngân hàng bị sụt giảm Các ngân hàng tạo ra phần lớn doanh thu và lợi nhuận từ hoạt động cho vay Khi phần lớn vốn cho vay của các ngân hàng mất

đi do khách hàng vỡ nợ, có khả năng làm cho doanh thu của chính ngân hàng cũng bị mất đi Khi doanh thu của ngân hàng bị mất đi trong một năm, sẽ làm giảm đi khả năng cấp tín dụng của họ trong năm tiếp theo Điều này có nghĩa là ngân hàng sẽ không thể cho vay hoặc phải giảm số tiền cho vay được phân bổ trong năm các năm tiếp theo

Theo Bloem & Gorter (2001), khả năng vỡ nợ tác động nghiêm trọng đối với các tổ chức tín dụng như ngân hàng hay các tổ chức tài trợ thế chấp có danh mục cho vay lớn Một khi các khoản vay lớn bị vỡ nợ sẽ ảnh hưởng đến khả năng cấp tín dụng của ngân hàng Với các khoản vay nhỏ nếu bị vỡ nợ là làm giảm niềm tin của ngân hàng vào khách hàng đó Nếu ngân hàng có quá nhiều khoản vay bị vỡ nợ, họ sẽ làm mất niềm tin của những khách hàng ký gửi vào khả năng quản lý rủi ro của ngân hàng, điều này có thể dẫn đến tình trạng khách hàng hoặc nhà đầu

tư rút tiền gửi hoặc tiền đầu tư đồng loạt, gây ảnh hưởng đến vấn đề thanh khoản của ngân hàng Khi một hệ thống quản lý rủi ro tín dụng của ngân hàng không được xây dựng tốt, sẽ xuất hiện rất nhiều vấn đề và hậu quả tiêu cực Bằng chứng xác thực của một ngân hàng có hệ thống quản lý rủi ro hiệu quả và được quản lý tốt thể hiện thông qua doanh thu của họ Ngân hàng phải luôn chắc chắn về khả năng trả nợ của người vay trước khi cấp bất kỳ khoản vay nào

Trang 14

Các ngân hàng hoạt động yếu kém thường có tỷ lệ vỡ nợ rất lớn trước khi họ bị các ngân hàng khác mua lại (Berger & Humphrey, 1997) Theo Fofack (2005) cho rằng, khi ngân hàng có giá trị các khoản vay bị vỡ nợ quá lớn có thể dẫn đến phá sản nếu như họ không có khả năng thu hồi nợ xấu của khách hàng Việc các khoản vỡ nợ của khách hàng khi được cho vay có ảnh hưởng xấu đến lợi nhuận các ngân hàng, làm ảnh hưởng đến mức chi trả cổ tức cho các cổ đông Từ đó, việc huy động vốn của ngân hàng có thể ảnh hưởng vì các nhà đầu tư sẽ không đầu tư vào các ngân hàng nằm trong danh mục nợ xấu lớn (Jaquette & Hillman 2015)

2.3 Các yếu tố có thể dẫn đến khả năng vỡ nợ của khoản vay

2.3.1 Yếu tố thông tin pháp lý của khách hàng

Khi một khách hàng cá nhân đề nghị được vay vốn ngân hàng, trước tiên khách hàng bắt buộc phải cung cấp cho ngân hàng các thông tin về pháp lý của họ Việc cung cấp thông tin này giúp ngân hàng có cái nhìn tổng quan nhất về khách hàng cá nhân Ngân hàng sẽ xem xét mức

độ tin cậy trong việc khách hàng cung cấp thông tin và trên cơ sở dữ liệu có sẵn (nếu có), từ đó ngân hàng đưa ra quyết định về việc có nên cho vay hay không Các thông tin cơ bản về pháp lý của khách hàng cá nhân được yêu cầu như: Thông tin cá nhân, độ tuổi, giới tính, tình trạng hôn nhân,…

Yếu tố có ảnh hưởng quan trọng nhất đến khả năng vỡ nợ của khách hàng chính là thông tin cá nhân của họ Tuy nhiên, thông tin cá nhân của các khách hàng là khác nhau Do đó, khi tiến hành xếp hạng tín dụng của khách hàng cá nhân, các ngân hàng sẽ xem xét chủ yếu đến các thông tin về bản thân khách hàng, về điều kiện sống cũng như thu nhập của khách hàng đó Một yếu tố khác cũng xác định khả năng vỡ nợ của khách hàng là độ tuổi Độ tuổi của khách hàng càng lớn chỉ ra kinh nghiệm làm việc của khách hàng càng nhiều (Ojiako & Ogbukwa, 2012) Việc tích lũy kinh nghiệm trong công việc sẽ giúp khách hàng có cách nhìn nhận đầu tư kinh doanh tốt hơn Bên cạnh đó, khi khách hàng tích luỹ kinh nghiệm làm việc càng nhiều sẽ giúp khả năng đối phó với các rủi ro có thể xảy ra trong kinh doanh trở lên tốt hơn dẫn đến khả năng vỡ nợ của khách hàng sẽ giảm đi (Abid và cộng sự, 2018)

Yếu tố giới tính cũng được các nhà nghiên cứu đánh giá là có ảnh hưởng tới khả năng vỡ

nợ Theo Carter (2007), thời gian làm việc của nam và nữ là khác nhau Nếu nữ giới là người đi vay thì khả năng trả nợ thấp hơn vì họ thường phải gánh vác thêm các công việc gia đình nên sẽ

có ít thời gian cho công việc tăng thu nhập Một số trường hợp, nữ giới đứng tên các khoản vay

Trang 15

nhưng việc sử dụng các khoản vay này lại là người khác Điều này dẫn đến việc đánh giá dựa trên giới tính người vay cần được xem xét thêm trong việc sử dụng đúng mục đích của khách hàng cá nhân

Tình trạng hôn nhân cũng được coi là yếu tố để dự báo khả năng vỡ nợ Nếu khách hàng đã lập gia đình sẽ có xu hướng tập trung vào công việc hơn so với những khách hàng độc thân (Moffatt, 2005) Do đó, yếu tố tình trạng hôn nhân của khách hàng cũng được xem xét thuộc về nhân khẩu học ảnh hưởng tới khả năng vỡ nợ của khách hàng cá nhân (Kocenda & Vojtek, 2011)

2.3.2 Yếu tố hoàn cảnh sống của khách hàng

Những yếu tố này phản ánh cuộc sống của mỗi cá nhân và mối tương tác của họ với môi trường sống xung quanh mình Thông qua việc tìm hiểu này giúp ngân hàng có thể đánh giá được mức độ ảnh hưởng yếu tố hoàn cảnh sống của khách hàng cá nhân đến khả năng tài chính của

họ Các yếu tố thuộc nhóm thông tin này bao gồm: Số người phụ thuộc, nơi sinh sống, đặc điểm nơi sinh sống, sở hữu nhà, sở hữu các loại động sản giá trị khác,…

Số lượng thành viên trong gia đình sẽ xuất hiện hai tác động trái ngược lên khả năng trả nợ của khách hàng cá nhân Trong đó, nếu trong gia đình có thành viên ở độ tuổi lao động, tạo ra thu nhập thì sẽ giảm khả năng vỡ nợ (Ojiako & Ogbukwa, 2012) Bên cạnh đó, số người phụ thuộc trong gia đình càng cao làm cho các chi phí và áp lực trả nợ tăng lên, khả năng vỡ nợ cũng tăng lên

2.3.3 Yếu tố tài chính của khách hàng

Khi khách hàng cá nhân cung cấp đủ các thông tin như trên Khách hàng phải cung cấp các chứng từ chứng minh năng lực về tài chính của mình Ngân hàng sẽ dựa trên yếu tố này để dự báo khả năng trả nợ của khách hàng trong tương lai Nếu khách hàng có đủ khả năng tài chính theo đúng yêu cầu của ngân hàng, ngân hàng sẽ ra quyết định có nên cho họ vay hay không Các chỉ tiêu tài chính của mỗi khách hàng cá nhân được các ngân hàng quan tâm như: Thu nhập, tài khoản tiết kiệm, giá trị tài sản đảm bảo, quy mô khoản vay

Khi thu nhập khách hàng càng cao giúp cho việc trả nợ dễ dàng hơn, giảm khả năng vỡ nợ của khách hàng Ngược lại, khi thu nhập của khách hàng thấp sẽ làm khả năng chi trả gốc và lãi vay trở nên khó khăn (Oni và cộng sự, 2005) Vì vậy, yếu tố thu nhập của các khách hàng được coi là quan trọng trong việc quyết định trả nợ vay ngân hàng

Trang 16

Tài sản đảm bảo có giá trị càng lớn hay tính thanh khoản cao là yếu tố giúp khách hàng dễ dàng được ngân hàng phê duyệt khoản vay Đồng thời, việc tài sản đảm bảo gắn liền với chính lợi ích hay cuộc sống của khách hàng sẽ giúp họ có trách nhiệm với tài sản đó hơn Do vậy, với tài sản đảm bảo của khách hàng là bất động sản thường mang tính ràng buộc chặt chẽ hơn

2.3.4 Yếu tố hành vi của khách hàng

Khách hàng phải cung cấp mục đích vay vốn của mình cho ngân hàng, từ đó ngân hàng có thể xác định được mục đích vay vốn và mục đích sử dụng vốn vay của khách hàng có khớp với nhau hay không Khi khách hàng vay đúng mục đích, ngân hàng sẽ đưa ra quyết định có nên cho khách hàng đó vay hay không Ngân hàng nên xây dựng chính sách marketing hướng đến đối tượng khách hàng mục tiêu cũng như đáp ứng nhu cầu cấp tín dụng của họ Nhờ đó các ngân hàng đưa ra được các phương thức thu hồi nợ linh hoạt dựa trên việc nắm bắt được thói quen chi tiêu của khách hàng từ đó giúp giảm thiểu rủi ro cho vay (Jacobson & Roszbach, 2003) Dựa trên các thông tin trên, tác giả đã đưa ra một số yếu tố như: Mục đích vay, số tiền vay, thời gian vay, lịch sử vay và trả nợ,…

2.4 Khái quát về học máy

Học máy đã được giải thích rằng là giao điểm của khoa học máy tính, kỹ thuật và thống kê

Nó đã được đánh dấu là một công cụ có thể được áp dụng cho các vấn đề khác nhau, đặc biệt là trong các lĩnh vực yêu cầu dữ liệu được giải thích và xử lý (Awad và Khanna, 2015) Học máy cung cấp khả năng phát hiện các mẫu có ý nghĩa trong dữ liệu và đã trở thành một công cụ phổ biến cho hầu hết mọi nhiệm vụ phải đối mặt với yêu cầu trích xuất thông tin có ý nghĩa từ các tập dữ liệu Khi phải đối mặt với yêu cầu trích xuất thông tin có ý nghĩa từ dữ liệu và sự phức tạp, do đó của các mẫu được nghiên cứu, một lập trình viên có thể cung cấp đặc điểm kỹ thuật

rõ ràng và chi tiết về quy trình thực thi Học máy giải quyết thách thức này bởi “các chương trình

ưu đãi” với khả năng “học hỏi và thích ứng” Các chương trình học máy học hỏi và cải tiến, đồng thời có thể được áp dụng khi vấn đề phải được xử lý có thách thức kép về độ phức tạp và nhu cầu về khả năng thích ứng (Shalev-Shwartz và Ben-David, 2014)

Các thuật toán học máy dựa trên hướng dữ liệu và dựa trên tính toán ít dựa vào các giả định

về dữ liệu, bao gồm cả về phân phối Trong khi chúng được coi là mạnh mẽ hơn và tốt hơn trong việc giải quyết các mối quan hệ phi tuyến tính phức tạp, chúng cũng được coi là khó giải thích (Galindo và Tamayo 2000)

Trang 17

Những năm gần đây đã chứng kiến sự gia tăng về lượng dữ liệu được thu thập trong các tổ chức tài chính (FI) Sự thúc đẩy lớn đối với việc số hóa các dịch vụ và yêu cầu báo cáo theo quy định ngày càng tăng đã dẫn đến một lượng lớn dữ liệu phi cấu trúc được tạo và / hoặc thu thập với tần suất cao Dữ liệu này đến từ nhiều nguồn khác nhau, bao gồm ứng dụng của người tiêu dùng, tương tác với khách hàng, siêu dữ liệu và các nguồn dữ liệu bên ngoài khác Mong muốn nâng cao khả năng phân tích của họ và tự động hóa trên các lĩnh vực kinh doanh, bao gồm quản

lý rủi ro, bằng cách quản lý và khai thác khối lượng gia tăng này và nhiều loại dữ liệu đã khiến các tổ chức tài chính khám phá các giải pháp phân tích và mạnh mẽ, hệ quả của nó là sự gia tăng quan tâm và sự phổ biến của máy học và trí tuệ nhân tạo trong cộng đồng FI (Van Liebergen 2017) Học máy được coi là rộng rãi trong lĩnh vực dịch vụ tài chính là có tiềm năng mang lại khả năng phân tích mà các FI mong muốn Máy học có khả năng tác động đến mọi khía cạnh của

mô hình kinh doanh của FI - cải thiện thông tin chi tiết về sở thích của khách hàng, quản lý rủi

ro, phát hiện gian lận, giám sát hành vi, tự động hóa hỗ trợ khách hàng và thậm chí xác minh danh tính tự động khi kết hợp với sinh trắc học

Một số nhược điểm của học máy, như đã lập luận, là chúng có bản chất là “hộp đen” hơn, với kết quả đôi khi rất khó giải thích Có ý kiến cho rằng chúng cũng nhạy cảm với các yếu tố ngoại lai, dẫn đến việc trang bị quá nhiều dữ liệu và các dự đoán phản trực giác Chúng cũng được lập luận là có những ưu điểm là có thể phù hợp hơn với các mối quan hệ phi tuyến tính giữa các biến giải thích và các biến được giải thích, đồng thời khả năng áp dụng một tập hợp các biến rộng hơn có xu hướng cải thiện độ chính xác (Bacham và Zhao 2017)

2.5 Các phương pháp phân loại và dự báo vỡ nợ

Bài nghiên cứu của Kim và Shin (2021) về khả năng giải thích kinh tế của học máy và các

mô hình kinh tế tiêu chuẩn Bằng cách sử dụng các phương pháp rừng ngẫu nhiên, mô hình hồi quy logistic nhóm tác giả đã chỉ ra được phương pháp rừng ngẫu nhiên có những đặc điểm khác biệt so với mô hình hồi quy logistic Nhận thấy sự khác nhau này khá tốt nên nhóm tác giả đã sử dụng hai phương pháp này kết hợp thêm với phương pháp cây quyết định cho bài nghiên cứu của mình

2.5.1 Phương pháp rừng ngẫu nhiên

Theo Cutler và cộng sự (2012), rừng ngẫu nhiên là một tập hợp dựa trên các cây quyết định, mỗi cây phụ thuộc vào tập hợp các biến ngẫu nhiên Rừng ngẫu nhiên được sử dụng cho biến

Trang 18

phân loại, được gọi là “classification” hoặc sự phản hồi liên tục, được gọi là “regression” Rừng ngẫu nhiên luôn có sự hấp dẫn vì: (i) chúng có thể tự xử lý cả phân loại hồi quy và phân loại đa lớp; (ii) rừng ngẫu nhiên là phương pháp tương đối nhanh để học và để dự đoán; (iii) dữ liệu của chúng chỉ phụ thuộc vào một hoặc hai tham số điều chỉnh; (iv) phương pháp này có phương sai tổng quát đã được xây dựng sẵn; (v) có thể dùng song song các phương pháp khác

Theo Donges (2019) rừng ngẫu nhiên là một thuật toán học có giám sát Chúng là một tập hợp các cây quyết định, thường được đào tạo bằng phương pháp "bagging" Ý tưởng chung của phương pháp “bagging” là sự kết hợp của các mô hình học tập, giúp làm tăng kết quả chung Rừng ngẫu nhiên bổ sung thêm tính ngẫu nhiên cho mô hình, đồng thời hình thành nhiều cây cho

“forest” của chúng Thay vì tìm kiếm tính năng quan trọng nhất trong khi tách một biến, phương pháp rừng ngẫu nhiên sẽ tìm kiếm tính năng tốt nhất trong số một tập hợp con ngẫu nhiên của các tính năng Điều này dẫn đến sự đa dạng rộng rãi và thường dẫn đến một mô hình tốt hơn Người đầu tiên giới thiệu về phương pháp rừng ngẫu nhiên, Breiman (2001) đã nhận định rằng rừng ngẫu nhiên là một công cụ hiệu quả trong dự báo Rừng ngẫu nhiên là sự kết hợp của các yếu tố dự báo cây quyết định, sao cho mỗi cây phụ thuộc vào các giá trị của một vectơ ngẫu nhiên được lấy mẫu một cách độc lập và có cùng phân bổ cho tất cả các cây trong rừng Sai số tổng quát của một bộ rừng ngẫu nhiên luôn phụ thuộc vào sức mạnh của từng cây trong rừng và mối tương quan giữa chúng Các dữ liệu của rừng ngẫu nhiên gắn liền với lỗi, độ mạnh và mối tương quan, những giá trị này được sử dụng để hiển thị phản ứng đối với việc tăng số lượng các tính năng được sử dụng trong quá trình phân tách Chúng cũng được sử dụng để đo lường mức

độ quan trọng của các biến đổi Những ý tưởng này cũng có thể áp dụng cho hồi quy

2.5.2 Phương pháp hồi quy logistic

Theo Maalour (2011) hồi quy logistic là một trong những kỹ thuật giúp thống kê và khai thác dữ liệu quan trọng nhất được các nhà nghiên cứu sử dụng để phân tích và phân loại các tập

dữ liệu phản hồi nhị phân và tỷ lệ Ưu điểm chính của phương pháp này là nó có thể cho ra kết quả khách quan và mở rộng cho cái bài toán phân loại đa lớp Một ưu điểm khác là hầu hết các phương pháp sử dụng cho mô hình này đều tương tự như các nguyên tắc sử dụng trong hồi quy tuyến tính, vì thế hầu như các kỹ thuật tối ưu hóa không bị hạn chế đều có thể được áp dụng cho hồi quy logistic

Trang 19

Theo Widiastuti (2018) hồi quy logistic là một biến đổi của mô hình hồi quy tuyến tính cho phép chúng ta mô hình hóa các biến nhị phân một cách xác suất Nó còn được gọi là mô hình tuyến tính tổng quát sử dụng liên kết logit Mô hình hồi quy logistic được sử dụng để mô hình hóa xác suất của một lớp hoặc sự kiện nhất định đang tồn tại như đạt / không đạt, thắng / thua, sống / chết hoặc khỏe mạnh / bệnh tật Điều này có thể được mở rộng để mô hình hóa một số lớp

sự kiện như xác định xem một hình ảnh có chứa mèo, chó, sư tử, v.v Mỗi đối tượng được phát hiện trong hình ảnh sẽ được gán một xác suất từ 0 đến 1, với tổng là một

2.5.3 Phương pháp cây quyết định

Theo Rokach và Maimon (2021), cây quyết định là phương pháp phân loại được hiểu như một tập hợp các lệnh với tham số được đưa vào một không gian của cá thể Cây quyết định bao gồm các nút lệnh tạo thành một cây gốc Tất cả các nút lệnh khác nhau đều có một cạnh tương ứng với chúng Một nút lệnh có các cạnh đi ra được gọi là nút lệnh bên trong hoặc nút lệnh kiểm tra Tất cả các nút lệnh khác được gọi là lá (còn được gọi là nút lệnh đầu cuối hoặc nút lệnh quyết định) Trong cây quyết định, mỗi nút lệnh bên trong chia không gian thành hai hoặc nhiều không gian con theo một hàm độc lập nhất định của các giá trị thuộc tính đầu vào Cây quyết định là cây tự giải thích và khi thu gọn chúng cũng có thể theo dõi dễ dàng Nói cách khác nếu cây quyết định có số lá hợp lý thì người dùng không chuyên cũng có thể nắm được Hơn nữa cây quyết định có thể được chuyển đổi thành một tập hợp các quy tắc Do đó, cách biểu diễn này được coi

là dễ hiểu

Theo Widiastuti (2018) cây quyết định là một thuật toán máy học phân vùng dữ liệu thành các tập con Quá trình phân vùng bắt đầu với sự phân tách nhị phân và tiếp tục cho đến khi không thể thực hiện phân tách nữa Nhiều nhánh có chiều dài thay đổi được hình thành Mục tiêu của cây quyết định là thu gọn dữ liệu được đưa vào trong cây nhỏ nhất có thể Cơ sở lý luận của việc giảm thiểu kích thước cây là quy tắc logic mà cách giải thích đơn giản nhất có thể cho một tập hợp các hiện tượng được ưu tiên hơn các cách giải thích khác Ngoài ra, cây nhỏ đưa ra quyết định nhanh hơn cây lớn và chúng dễ nhìn và dễ hiểu hơn nhiều Có nhiều phương pháp và kỹ thuật khác nhau để kiểm soát độ sâu, hoặc cắt tỉa của cây

2.6 Tổng quan các nghiên cứu trước

2.6.1 Các nghiên cứu nước ngoài

Trang 20

Bài nghiên cứu của Tiwari (2018) về ứng dụng học máy trong dự báo vỡ nợ cho vay, sử dụng các phương pháp của học máy như rừng ngẫu nhiên, cây quyết định và hồi quy logistic Các phương pháp này giúp mô hình hoá và dự đoán tổn thất của ngân hàng từ đó giúp ngân hàng tránh được các tổn thất lớn Bài nghiên cứu không dùng các dữ liệu mà sử dụng phương pháp định tính để phân tích cho bài Tác giả đã kết hợp 3 phương pháp của học máy với các phương pháp khác như phân tích dữ liệu thăm dò, K-Nearest Neighbors cho bài nghiên cứu của mình (Tiwari, 2018)

Bài nghiên cứu của Akindaini (2017) về ứng dụng học máy trong cho vay thế chấp, sử dụng các biến: Tuổi, tỷ lệ thất nghiệp, năm vay, điểm tín dụng, lãi suất vay ban đầu,… Dữ liệu của bài được thu thập từ việc tổng hợp dữ liệu từ các nguồn khác nhau chủ yếu là dữ liệu của khách hàng vay thế chấp từ Fannie Mae, giai đoạn từ quý I năm 2006 - 2016 Tác giả sử dụng phương pháp hồi quy logistic, rừng ngẫu nhiên, K-Nearest Neighbors, Naive Bayes để phân tích dữ liệu đã thu thập, kết quả thu được cho thấy rừng ngẫu nhiên có tỷ lệ chính xác cao nhất Nhờ vào kết quả thu được, tác giả nhận thấy các phương pháp học máy cũng có thể sử dụng để phân loại các khoản thế chấp, thanh toán sau, mặc định và thanh toán trước (Akindaini, 2017)

Bài nghiên cứu của Abid và cộng sự (2018) về đề tài so sánh khả năng dự báo vỡ nợ của khách hàng thông qua việc sử dụng các phương pháp hồi quy logistic và discriminant functions Việc sử dụng hai phương pháp này giúp tác giả có thể phân biệt các cá nhân có xếp hạng tín dụng tốt và và chưa tốt Dữ liệu của bài được từ 2010 – 2012, tại một ngân hàng thương mại cổ phần Bằng cách so sánh hiệu quả của hồi quy logistic và discriminant functions, nhóm tác giả thấy rằng mô hình hồi quy logistic mang lại hiệu quả tốt hơn trong phân loại dự đoán các loại khách hàng cá nhân so với kết quả thu được từ phương pháp discriminant functions Kết quả cũng chỉ

ra rằng, phương pháp hồi quy logistic có khả năng dự báo xếp hạng tín dụng tốt hơn so với discriminant functions (Abid và cộng sự, 2018)

Bài nghiên cứu về khả năng trả nợ của nông dân khi vay vốn ngân hàng tại Nigeria của Ojiako và Ogbukwa (2012) sử dụng các biến: Độ tuổi, giới tính, trình độ học vấn, kinh nghiệm làm việc, quy mô hộ, tình trạng hôn nhân, công việc khác, thu nhập ngoài nông nghiệp, quy mô

sử dụng cho nông nghiệp, thiết bị máy móc, số nợ vay, lãi suất cho vay, cải tiến trong nông nghiệp,… Nhóm tác giả đã thu thập dữ liệu của 110 hộ nông dân vay vốn ngân hàng sống tại đây Nhóm tác giả đã sử dụng phương pháp hồi quy logistic, kết quả thu được cho thấy có 3 yếu

Trang 21

tố trong rất nhiều yếu tố được đề cập có tác động lên khả năng trả nợ của các hộ nông dân Ba yếu tố được nói đến là yếu tố quy mô hộ gia đình có tác động ngược chiều lên khả năng trả nợ; yếu tố quy mô sử dụng đất và yếu tố số tiền vay nông nghiệp có tác động cùng chiều lên khả năng trả nợ của người nông dân (Ojiako & Ogbukwa, 2012)

Bài nghiên cứu của của Kocenda & Vojtek (2011) về dự đoán vỡ nợ trong chấm điểm tín dụng tại Ngân hàng Séc sử dụng các biến: mục đích vay, trình độ học vấn, tình trạng hôn nhân,

số tiền vay, vị trí công việc, mối quan hệ xung quanh, năm làm việc, số người phụ thuộc,… Bài nghiên cứu sử dụng 3,403 dữ liệu thu thập được từ các khách hàng vay vốn tại ngân hàng bán lẻ

ở Cộng hòa Séc, giai đoạn 1999 - 2006 Nhóm tác giả đã sử dụng hai phương pháp dự báo rủi ro tín dụng dựa trên phương pháp cây quyết định cùng với phương pháp hồi quy logistic Kết quả

từ hai phương pháp trên chỉ ra các yếu tố quan trọng nhất có khả năng gây vỡ nợ như số lượng tài sản mà khách hàng sở hữu, trình độ học vấn, tình trạng hôn nhân, mục đích của khoản vay (Kocenda & Vojtek, 2011)

Bài nghiên cứu của Petropoulos và cộng sự (2020) về dự đoán khả năng vỡ nợ của ngân hàng bằng kỹ thuật học máy sử dụng 40 biến như: tài sản mỗi nhân viên, tỷ lệ thu nhập trên tổng tài sản, dự phòng rủi ro các khoản vay, tài sản vô hình cùng với bất động sản khác, dự phòng rủi

ro các khoản vay trung và dài hạn, an toàn vốn, tài sản, khả năng quản lý, thu nhập, tính thanh khoản,…Bài nghiên cứu sử dụng dữ liệu thu thập được từ các tổ chức tài chính có trụ sở tại Hoa

Kỳ, giai đoạn 2008 – 2014 Để có thể dự đoán các khả năng mất khả năng thanh toán của ngân hàng dựa trên số liệu thu thập được, nhóm tác giả đã sử dụng phương pháp rừng ngẫu nhiên kết hợp phân tích phân biệt tuyến tính và khung đánh giá CAMELS Thông qua kết quả thu được từ bài nghiên cứu, giúp thúc đẩy việc áp dụng các biện pháp điều tiết, dự báo rủi ro vỡ nợ của khách hàng Từ đó, các cơ quan giám sát cần tăng cường hơn nữa các biện pháp giúp giảm khả năng vỡ

nợ của khách hàng cá nhân (Petropoulos và cộng sự, 2020)

Bài nghiên cứu của Mensah và cộng sự (2013) về khả năng vỡ nợ tín dụng khi vay vốn ở các ngân hàng tại Ghana sử dụng các biến: giới tính, số người phụ thuộc, lịch trả nợ, tiền lãi, nguy cơ đạo đức, số tiền vay, tình trạng hôn nhân, Bài nghiên cứu sử dụng số liệu được thu thập từ kết quả của bảng câu hỏi 100 khách hàng tại Ghana, thời gian 2013 Bài nghiên cứu sử dụng phương pháp hồi quy logistic, kết quả thu được chỉ ra không có mối quan hệ giữa khả năng

vỡ nợ cho vay và lịch trả nợ Ngoài ra tác giả tìm ra quan hệ giữa lãi suất cho vay, rủi ro đạo đức

Trang 22

và thời gian quá hạn khoản vay của khách hàng, việc nhân viên không kiểm soát khoản vay hay khoản vay không có tài sản đảm bảo cũng góp phần vào khả năng vỡ nợ của khách hàng tại Ghana (Mensah và cộng sự, 2013)

Thông qua các bài nghiên cứu liên quan, tác giả có thể sử dụng làm tài liệu tham khảo cho bài nghiên cứu của mình Các nghiên cứu liên quan này sử dụng các phương pháp trong học máy, điều này giúp tác giả có thể tham khảo, sau đó rút ra phương pháp nghiên cứu cho bài của mình Ngoài ra, tác giả còn tham khảo các khái niệm, các biến được các nghiên cứu trên sử dụng từ đó đưa ra các biến sử dụng cho bài nghiên cứu của mình, rất có lợi cho tác giả trong việc đi sâu vào các phương pháp dự báo rủi ro vỡ nợ của Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh

2.6.2 Các nghiên cứu trong nước

Bài nghiên cứu của Nguyễn Thị Lan cùng cộng sự của mình (2018) về việc xây dựng các phương pháp giúp cảnh báo sớm nguy cơ vỡ nợ của các ngân hàng thương mại cổ phần tại Việt Nam Các số liệu của bài được lấy từ báo cáo tài chính công khai đã được kiểm toán như bảng cân đối kế toán, báo cáo lưu chuyển tiền tệ, kết quả hoạt động kinh doanh tại thời điểm cuối năm của các ngân hàng thương mại cổ phần tại Việt Nam từ 2009 đến cuối 2012, tổng cộng 136 biến quan sát Nhóm tác giả đã sử dụng kết hợp các phương pháp mô hình phân tích khác biệt tuyến tính, mô hình hồi quy logistic và máy vectơ hỗ trợ cho bài nghiên cứu của mình Kết quả nghiên cứu cho thấy cả ba phương pháp được sử dụng là phân tích khác biệt tuyến tính, hồi quy logistic

và máy vectơ hỗ trợ đều đạt độ chính xác trong dự báo rủi ro của ngân hàng khá cao (Nguyễn Thị Lan và cộng sự, 2018)

Nghiên cứu về xây dựng mô hình chấm điểm tín dụng cho khách hàng cá nhân vay tiêu dùng tại Việt Nam của tác giả Đào Thanh Bình (2019) sử dụng các biến: học vấn, nghề nghiệp, thu nhập, số người phụ thuộc, tài khoản cá nhân Số liệu của biền được thu thập từ 200 khách hàng vay tiêu dùng được lấy ngẫu nhiên từ dữ liệu của Ngân hàng Nhà nước Việt Nam Tác giả

sử dụng phương pháp của hệ thống FICO phù hợp Việt Nam, kết quả thu được cho thấy phương pháp tác giả sử dụng có mức độ chính xác khá cao Ngoài ra tác giả cũng nhận thấy được hai biến số người phụ thuộc và tài khoản cá nhân có đóng góp cho khả năng dự báo rủi ro vỡ nợ của khách hàng (Đào Thanh Bình, 2019)

Trang 23

Nhìn chung, hai nghiên cứu liên quan được đưa ra đều đi đến một kết quả chung là tìm ra các phương pháp giúp dự báo rủi ro vỡ nợ của khách hàng cá nhân tại các ngân hàng Nhưng các tác giả và nhóm tác giả trên đều chưa đi sâu vào phân tích những yếu tố ảnh hưởng đến rủi ro vỡ

nợ Hai bài nghiên cứu liên quan trong nước được tác giả sử dụng làm tài liệu tham khảo của mình

Trang 24

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU

3.1 Phương pháp nghiên cứu và quy trình nghiên cứu

3.1.1 Phương pháp nghiên cứu

Nghiên cứu này là nghiên cứu định lượng, trong đó tác giả sử dụng phương pháp rừng ngẫu nhiên, phương pháp cây quyết định và phương pháp hồi quy logistic để phân loại tình trạng vỡ

nợ dựa trên yếu tố tài chính và phi tài chính trong bộ dữ liệu khách hàng cá nhân tại Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh

3.1.2 Quy trình nghiên cứu

Hình 3.1 Quy trình nghiên cứu

(Nguồn: Tác giả tổng hợp)

3.2 Phương pháp thu thập dữ liệu

Trong nghiên cứu này, dữ liệu được sử dụng là dữ liệu thứ cấp thu được từ Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh Dữ liệu được tóm tắt lại bởi các nhân viên tín dụng tại Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh Dữ liệu dưới dạng thông tin về khách hàng tín dụng cá nhân năm 2019 – 2020

3.3 Biến nghiên cứu

Dựa trên bài nghiên cứu liên quan của Kocenda & Vojtek (2011), Ojiaka & Ogbukwa (2012), tác giả đã xây dựng bảng biến cho bài nghiên cứu của mình Tác giả đưa ra các biến nghiên cứu như sau:

Bảng 3.1 Biến nghiên cứu về khả năng vỡ nợ của khách hàng

Biến được dự báo

1 Khả năng vỡ nợ (Y) Khách hàng có vỡ nợ hay không 0: Có; 1: Không

Đánh giá mô hình

So sánh các mô hình

Trang 25

Biến dự báo

2 Giới tính (X2) Giới tính của khách hàng 0: Nam; 1: Nữ

3 Tình trạng hôn nhân (X3) Khách hàng hiện đang là độc thân, đã kết

hôn,…

0: Độc thân; 1: Đã kết hôn; 2: Ly dị; 3: Goá

4 Nguồn thu (X4) Thu nhập của khách hàng đến từ đâu 0: Lương; 1: Kinh doanh; 2:

Cho thuê; 3: Khác

5 Thu nhập (X5) Thu nhập của khách hàng trên một tháng Triệu đồng

6 Chi phí (X6) Chi phí của khách hàng bao gồm chi phí

sinh hoạt và trả lãi vay mỗi tháng

Triệu đồng

7 Loại khoản vay (X7) Khách hàng vay ngân hàng để làm gì 0: Mua xe; 1: Mua bất động

sản; 2: Xây nhà; 3: Tiêu dùng

8 Số tiền vay (X8) Khách hàng vay bao nhiêu tiền Triệu đồng

9 Giá trị tài sản đảm bảo

Triệu đồng

(Nguồn: Tác giả tổng hợp)

3.4 Phương pháp phân tích dữ liệu

3.4.1 Phương pháp rừng ngẫu nhiên

Theo Breiman (2001) nguyên tắc cơ bản của bộ phân loại này là đào tạo nhiều cây quyết định và để các cây đó cùng tạo ra một phân loại Mỗi cây đó được huấn luyện trên một tập hợp con của dữ liệu huấn luyện được rút ra với sự thay thế Quy trình đào tạo tương tự như cách đào tạo cây quyết định thông thường ngoại trừ một điểm khác biệt Tại mỗi phần tách trong cây, một lựa chọn ngẫu nhiên của các tính năng được chọn, từ đó tính năng cho phần tách được chọn Thông thường căn bậc hai của số lượng đối tượng có sẵn được sử dụng cho số lượng đối tượng phải được vẽ Lý do cho việc lựa chọn đặc điểm ngẫu nhiên này là để giảm mối tương quan giữa các cây riêng lẻ

Cho một tập đặc trưng 𝑋 = 𝑥!, … , 𝑥" và các nhãn tương ứng 𝑌 = 𝑦!, , 𝑦", đối với mỗi

cây trong khu rừng ngẫu nhiên, một tập con ngẫu nhiên X r và Y r được vẽ thay thế Đối với mỗi nhóm mẫu ngẫu nhiên, một cây quyết định được trang bị Tại mỗi lần phân tách trong cây, một

Trang 26

tập hợp con ngẫu nhiên của các đặc điểm được chọn để dựa vào đó phân tách Đối với một phân

loại với p đặc trưng, số đặc trưng được sử dụng nhiều nhất được xem xét để phân tách là *𝑝

hoặc 𝑙𝑜𝑔# (𝑝) Quá trình xây dựng cây này dẫn đến N cây quyết định riêng biệt được kết hợp

trong một bộ phân loại duy nhất Điều này có thể được thực hiện bằng cách để mỗi người phân loại bỏ phiếu hoặc lấy trung bình các dự đoán xác suất

3.4.2 Phương pháp cây quyết định

Cây quyết định bao gồm các nút lệnh được kết nối với nhau tạo thành một cây gốc, nghĩa

là cây có một nút lệnh gốc duy nhất là điểm bắt đầu Tất cả các nút lệnh sau đều có một cạnh đến duy nhất, nếu nút lệnh cũng có các cạnh đi thì nó được gọi là nút lệnh bên trong Mỗi nút lệnh bên trong phân chia tập dữ liệu theo một logic nhất định Trong phân loại, sự phân chia này thường dựa trên giá trị của một đối tượng địa lý nhất định Các nút lệnh có cạnh tới nhưng không

có cạnh đi ra ngoài được gọi là lá Lá được ký vào một nhãn dựa trên nhãn nào là thích hợp nhất Sau khi một cây đã được xây dựng, việc phân loại được thực hiện bằng cách bắt đầu ở nút lệnh gốc và theo dõi qua các nút lệnh bên trong cho đến khi đạt đến điểm nghỉ (Rokach và Maimon, 2005)

Việc xây dựng cây quyết định tối ưu chỉ khả thi đối với các vấn đề nhỏ do yêu cầu tính toán (Zuech và cộng sự, 1996) Điều này dẫn đến sự cần thiết của các thuật toán thực nghiệm Trong nghiên cứu này, thuật toán CART sẽ được sử dụng Cây quyết định được huấn luyện trên một tập đặc trưng chứa 𝑋 = 𝑥!, … , 𝑥"và các nhãn tương ứng 𝑌 = 𝑦!, … , 𝑦" Tại mỗi nút m, phần liên quan của tập hợp được biểu diễn bằng Q m Thuật toán xây dựng bằng cách cố gắng tìm phép tách

𝜃 = (𝑗, 𝑡$) với đặc trưng j và ngưỡng tm, tách Q thành Q left (θ) và Q right (θ) với tạp chất được giảm

thiểu Một số biện pháp có thể được sử dụng để cô lập tạp chất mà Gini và Entropy được sử dụng rộng rãi Công thức 2.13 cho thấy cách tính Gini, pmk là xác suất của một mẫu có nhãn k nằm

trong nút m và I(y i = k) là một nếu y 1 = k và ngược lại bằng không

Bằng cách kết hợp tạp chất có trọng số của Q left và Q right, một số đo cho sự phân tách được

xây dựng, Công thức 2.14 Mục đích là tìm θ * nhỏ nhất số đo này

Trang 27

𝐺(𝑄$, 𝜃) =𝑛()*+

𝑁$ 𝐻 ?𝑄()*+(𝜃)@ +𝑛,!-.+

𝑁$ 𝐻(𝑄,!-.+(𝜃)) Quá trình này được thực hiện theo cách đệ quy Sau mỗi lần lặp, quá trình được lặp lại cho

Q left và Q right cho đến khi đạt được tiêu chí dừng Tiêu chí này có thể là độ sâu tối đa hoặc số lượng mẫu còn lại tối thiểu

3.4.3 Phương pháp hồi quy logistic

Theo Cox (1958) hồi quy logistic là sử dụng các kỹ thuật được phát triển cho hồi quy tuyến tính để mô hình hóa xác suất của một mẫu thuộc một lớp nhất định Điều này được thực hiện bằng cách sử dụng một hàm dự báo tuyến tính, Công thức 2.9, là một tổ hợp tuyến tính của m giá trị đặc trưng và m + 1 hệ số hồi quy

là Liblinear, nó sử dụng một thuật toán giảm tọa độ để tìm các giá trị phù hợp cho các hệ số

Trang 28

Phương pháp thứ hai là saga sử dụng gradient trung bình ngẫu nhiên Phương pháp thứ hai thường nhanh hơn trên các tập dữ liệu lớn

3.4.4 Các phương pháp đánh giá hiệu quả của mô hình dự báo

3.4.4.1 Confusion matrix

Theo Townsend (1971) confusion matrix là một thuật ngữ cơ bản trong học máy Bằng cách

so sánh tất cả các giá trị dự đoán với giá trị thực tế, chúng được dùng để đo độ chính xác của mô hình trong kỹ thuật học máy Confusion matrix đã được sử dụng trong tính điểm tín dụng để đo

độ chính xác của một mô hình bằng cách so sánh kết quả dự báo và thực tế

3.4.4.2 Sensitivity và Specificity

Sensitivity (Recall)

Phân tích sensitivity là kết quả dự báo không chắc chắn về khách hàng có vỡ nợ của một

mô hình Do đó, sensitivity được một số người coi là điều kiện tiên quyết để xây dựng mô hình trong bất kỳ môi trường nào, có thể là chẩn đoán hoặc tiên lượng trong bất kỳ lĩnh vực nào mà các mô hình được sử dụng

𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠

𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 + 𝐹𝑎𝑙𝑠𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠Nếu kết quả dự báo với sensitivity = 100% xác định chính xác tất cả khách hàng đều bị vỡ

nợ Mặt khác với sensitivity = 80%, dự báo đúng 80% khách hàng bị vỡ nợ và dự báo sai 20% khách hàng bị vỡ nợ

Do đó, nếu dự báo với specificity = 100% xác định chính xác tất cả các khách hàng không

vỡ nợ Một dự báo với specificity = 80%, dự báo đúng 80% khách hàng không vỡ nợ và 20% dự báo sai khách hàng không vỡ nợ

3.4.4.3 Accuracy (Precision)

Acuracy được sử dụng để tính toán phần nhỏ của tổng số các dự đoán được phân loại chính xác Một bộ phân loại ngẫu nhiên sẽ nhận được trung bình một nửa số phân loại chính xác Giá

Trang 29

trị trên 0.5 cho thấy mô hình có độ chính xác cao hơn khi đoán ngẫu nhiên Một dự đoán hoàn hảo có độ chính xác là 1.0

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 + 𝑇𝑟𝑢𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠

𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 + 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠 (3.1)Một hạn chế của việc sử dụng độ chính xác để đánh giá hiệu suất của bộ phân loại là cái gọi là nghịch lý độ chính xác Nghịch lý này nói rằng một mô hình có độ chính xác cao hơn có thể có khả năng dự đoán thấp hơn Để giải thích nghịch lý này, giả sử một tình huống trong đó gian lận bảo hiểm phải được phát hiện

3.4.4.4 F1-Score

F1-score là sự kết hợp giữa “precision” và “recall” Trong đó “precision” là kết quả dương tính thực chia cho tổng các kết quả dương tính, kể cả những kết quả không được xác định chính xác Với “recall” là kết quả dương tính thực sự chia cho số lượng tất cả các mẫu lẽ ra đã được xác định là dương tính Giá trị cao nhất có thể có của F1-score là 1,0, cho biết “precision” và

“recall” hoàn hảo, và giá trị thấp nhất có thể là 0, nếu “precision” và “recall” bằng 0

Có thể thấy trong công thức 3.2, điểm F1-score bằng trung bình của “precision” và “recall” Một nhược điểm của F1-score là không tính đến các giá trị tiêu cực thực sự

𝐹1− 𝑠𝑐𝑜𝑟𝑒 = 1 2

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 +𝑟𝑒𝑐𝑎𝑙𝑙1

= 2 ×𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 (3.2)3.4.4.5 Khu vực dưới đường cong (AUC)

Để hiểu chi tiết về khu vực dưới đường cong, trước tiên cần phải giải thích đường cong đặc

tính hoạt động của máy thu (ROC) Nó được sử dụng để hình dung hiệu suất của bộ phân loại và

từ lâu đã được sử dụng trong lý thuyết phát hiện tín hiệu để mô tả sự cân bằng giữa tỷ lệ dương tính đúng và sai của bộ phân loại (Fawcett, 2006)

Đường cong ROC được tạo bằng cách vẽ biểu đồ tỷ lệ dương tính thực (TP / P) so với tỷ

lệ dương tính giả (FP / N) cho các ngưỡng khác nhau Vì các bộ phân loại tính điểm từ 0.0 đến

1.0, một ngưỡng phải được chọn làm biên giới giữa phân loại tích cực và tiêu cực Điểm được

tính toán, x, có thể được coi là được lấy mẫu từ phân phối ngẫu nhiên liên tục X Một trường hợp được phân loại là dương nếu x > T, với T là ngưỡng đã chọn Các ngưỡng khác nhau sẽ dẫn đến

tỷ lệ dương tính đúng và sai khác nhau

Định dạng
Số trang	58
Dung lượng	1,09 MB