Phạm vi nghiên cứu Đề tài sử dụng dữ liệu thứ cấp thu thập được từ các nghiên cứu thực nghiệm, tài liệu, văn bản báo cáo, các nguồn tài liệu tham khảo tin cậy của các tổ chức trong và n
Trang 1NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP.HCM
ỨNG DỤNG HỌC MÁY TRONG DỰ BÁO VỠ NỢ TẠI NGÂN HÀNG THƯƠNG MẠI CỔ PHẦN QUỐC TẾ VIỆT
NAM
Sinh viên: Nguyễn Minh Hiếu MSSV: 030805170097
Lớp: HQ5-GE08 Khóa học: 2017 – 2021 GVHD: ThS Trần Kim Long
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan rằng những nội dung tôi viết trong bài khoá luận với đề tài “Ứng dụng học máy trong dự báo vỡ nợ tại Ngân hàng TMCP Quốc Tế Việt Nam” là công trình nghiên cứu của bản thân và là kết quả của tôi sau hơn 3 tháng thực hiện cùng với sự hướng dẫn của ThS Trần Kim Long Các dữ liệu và thông tin trong bài khoá luận là hoàn toàn trung thực và phù hợp với quy định của ngân hàng
Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan này và những vấn đề liên quan đến bài khoá luận của mình
Tác giả
Nguyễn Minh Hiếu
Trang 3MỤC LỤC
MỤC LỤC 1
DANH MỤC BẢNG VÀ HÌNH 4
DANH MỤC CÁC TỪ VIẾT TẮT 5
CHƯƠNG 1 TỔNG QUAN VỀ NGHIÊN CỨU 6
1.1 Lý do chọn đề tài 6
1.2 Mục tiêu nghiên cứu 7
1.2.1 Mục tiêu nghiên cứu tổng quát 7
1.2.2 Các câu hỏi nghiên cứu 8
1.3 Phạm vi nghiên cứu 8
1.4 Phương pháp nghiên cứu 8
1.5 Những đóng góp mới của đề tài 8
1.6 Quy trình nghiên cứu 8
1.7 Cấu trúc đề tài 9
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC BẰNG CHỨNG THỰC NGHIỆM VỀ VẤN ĐỀ NGHIÊN CỨU 10
2.1 Khái niệm về vỡ nợ 10
2.2 Ảnh hưởng của vỡ nợ với ngân hàng 11
2.3 Các yếu tố có thể dẫn đến khả năng vỡ nợ của khoản vay 12
2.3.1 Yếu tố thông tin pháp lý của khách hàng 12
2.3.2 Yếu tố hoàn cảnh sống của khách hàng 13
2.3.3 Yếu tố tài chính của khách hàng 13
2.3.4 Yếu tố hành vi của khách hàng 14
2.4 Khái quát về học máy 14
2.5 Các phương pháp phân loại và dự báo vỡ nợ 15
2.5.1 Phương pháp rừng ngẫu nhiên 15
2.5.2 Phương pháp hồi quy logistic 16
2.5.3 Phương pháp cây quyết định 17
2.6 Tổng quan các nghiên cứu trước 17
2.6.1 Các nghiên cứu nước ngoài 17
Trang 42.6.2 Các nghiên cứu trong nước 20
CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU 22
3.1 Phương pháp nghiên cứu và quy trình nghiên cứu 22
3.1.1 Phương pháp nghiên cứu 22
3.1.2 Quy trình nghiên cứu 22
3.2 Phương pháp thu thập dữ liệu 22
3.3 Biến nghiên cứu 22
3.4 Phương pháp phân tích dữ liệu 23
3.4.1 Phương pháp rừng ngẫu nhiên 23
3.4.2 Phương pháp cây quyết định 24
3.4.3 Phương pháp hồi quy logistic 25
3.4.4 Các phương pháp đánh giá hiệu quả của mô hình dự báo 26
3.4.4.1 Confusion matrix 26
3.4.4.2 Sensitivity và Specificity 26
3.4.4.3 Accuracy (Precision) 26
3.4.4.4 F1-Score 27
3.4.4.5 Khu vực dưới đường cong (AUC) 27
3.5 Chuẩn bị và tiền xử lý dữ liệu 28
3.5.1 Kỹ thuật phân loại 28
3.5.2 Xác định mẫu xây dựng và mẫu kiểm định 29
CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU 30
4.1 Thống kê mô tả 30
4.2 Kết quả dự báo các phương pháp 32
4.2.1 Kết quả phân loại của phương pháp rừng ngẫu nhiên 32
4.2.2 Kết quả phân loại của phương pháp cây quyết định 33
4.2.3 Kết quả phân loại của phương pháp hồi quy logistic 34
4.2.4 So sánh các phương pháp phân loại 35
4.2.5 Thảo luận kết quả 36
4.2.6 Giới hạn và định hướng nghiên cứu 37
CHƯƠNG 5 KẾT LUẬN 38
Trang 5TÀI LIỆU THAM KHẢO 40 PHỤ LỤC – KẾT QUẢ CHẠY MÔ HÌNH 47
Trang 6DANH MỤC BẢNG VÀ HÌNH
Bảng 3.1 Biến nghiên cứu về khả năng vỡ nợ của khách hàng 22
Bảng 3.2 Mẫu xây dựng và mẫu kiểm định 29
Bảng 4.1 Thống kê mô tả các biến phân loại 30
Bảng 4.2 Mức độ dự báo của phương pháp rừng ngẫu nhiên 33
Bảng 4.3 Mức độ dự báo của phương pháp cây quyết định 34
Bảng 4.4 Kết quả của phương pháp hồi quy logistic 34
Bảng 4.5 Mức độ dự báo của phương pháp hồi quy logistic 35
Bảng 4.6 So sánh kết quả dự báo của các phương pháp 36
Hình 3.1 Quy trình nghiên cứu 22
Hình 3.2 Đồ thị chứa ROC của bộ phân loại ngẫu nhiên và hai bộ phân loại hoạt động tốt hơn 28
Hình 4.1 Mức độ quan trọng của từng biến trong phương pháp rừng ngẫu nhiên 32
Hình 4.2 Kết quả của phương pháp cây quyết định 33
Hình 4.4 Đường cong ROC cho các phương pháp khác nhau 36
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT
ACPR Cơ quan giám sát hành chính Pháp
AUC Area under the curve – Diện tích dưới đường cong
VIB Văn Thánh Ngân hàng TMCP Quốc tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao
dịch Văn Thánh
Trang 8CHƯƠNG 1 TỔNG QUAN VỀ NGHIÊN CỨU
1.1 Lý do chọn đề tài
Trong các năm gần đây, hoạt động cho vay của các ngân hàng đang phát triển mạnh, đi kèm với sự phát triển này là tiềm ẩn nguy cơ rủi ro vỡ nợ của khách hàng Việc đánh giá rủi ro tín dụng của một khách hàng cá nhân là vấn đề quan trọng trong quản lý rủi ro của ngân hàng, điều này góp phần quan trọng trong việc tạo ra quyết định: ngân hàng có nên cho khách hàng đó vay hay không (Lou & Wang, 2013) Do số lượng khách hàng vay tiềm năng lớn, ngoài các phương pháp chấm điểm thủ công, ngân hàng nên áp dụng các mô hình hay thuật toán trong việc phân tích mức độ tín nhiệm của khách hàng (Khandani và cộng sự, 2010) Trên thực tế, Twala (2010) chỉ ra rằng nhiều ngân hàng lớn trên thế giới đã phát triển các thuật toán thông minh tự động để lập mô hình rủi ro tín dụng, cung cấp thông tin quan trọng cho việc ra quyết định điển hình là học máy (machine learning) Học máy là một chương trình máy tính được lập trình để học hỏi kinh nghiệm từ các tác vụ, từ đó đưa ra các dự đoán chính xác và cải thiện hiệu suất (Cooper và cộng sự, 1997) Trong bối cảnh nghiên cứu rủi ro tín dụng sử dụng kỹ thuật học máy, một số nghiên cứu đưa ra nhiều hướng phân tích mức độ rủi ro của các mô hình trong bộ dữ liệu cụ thể Tuy nhiên, các nghiên cứu này vẫn chưa xác định được kỹ thuật dự báo rủi ro tín dụng có thể dự báo ở mức độ chính xác cao hơn (Dastile và cộng sự, 2020) Mục tiêu của bài nghiên cứu này là giúp cải thiện khả năng dự đoán của các phương pháp trong học máy dựa trên kỹ thuật
“classification” và “cross validation” nhưng vẫn giúp cho mô hình có thể dễ dàng được giải thích
Từ đó, mục đích tiếp cận của tác giả nhằm đề xuất một phương pháp chấm điểm tín dụng phù hợp trong dự báo rủi ro tín dụng của ngân hàng
Việc sử dụng các các phương pháp của học máy để chấm điểm tín dụng xuất hiện từ những năm 1960, khi hoạt động kinh doanh thẻ tín dụng xuất hiện và cần có quy trình quyết định tự động Đến những năm 1970, sau khi điểm tín dụng được chấp nhận hoàn toàn, chúng đã được sử dụng rộng rãi bởi hầu hết các ngân hàng và các công ty cho vay khác Các phương pháp khác nhau được sử dụng trong học máy bao gồm phương pháp “Discriminant functions” của Altman (1968), “Proportional hazards” của Stepanova and Thomas (2001), “Hồi quy logistic” của Steenackers và Goovaerts (1989), và nhiều phương pháp khác Sau đó, mô hình hồi quy logistic dần trở thành mô hình chấm điểm tiêu chuẩn trong ngành tín dụng, chủ yếu là do tính đơn giản
và khả năng diễn giải của chúng Hầu hết các ngân hàng trên thế giới vẫn đang sử dụng mô hình
Trang 9này, đặc biệt là đối với các bộ phận tín dụng, mô hình hồi quy logistic được sử dụng để chấm điểm tín dụng của khách hàng cá nhân có nhu cầu vay vốn
Chấm điểm tín dụng là một trong những lĩnh vực đầu tiên áp dụng kỹ thuật học máy trong ngành kinh tế Một số phương pháp được sử dụng như Cây quyết định (Makowski, 1985; Srinivasan và Kim, 1987), Neural networks (NN) (Tam và Kiang, 1992), và Support Vector Machine (Van Gestel và cộng sự, 2003) Tại thời điểm này, việc tăng mức độ chính xác (so với
mô hình hồi quy logistic tiêu chuẩn) để đánh giá độ tin cậy dường như đang bị hạn chế (các cuộc khảo sát của Thomas và cộng sự, 2000 và Van Gestel và cộng sự, 2003) Tuy nhiên, hiệu suất của các mô hình chấm điểm dựa trên học máy đã được cải thiện đáng kể từ khi áp dụng các phương pháp tổng hợp, đặc biệt là các phương pháp “Packing” và phương pháp “Reinforcement” (Paleologo et al, 2010) đã so sánh 41 thuật toán với các tiêu chí đánh giá khác nhau trong bộ dữ liệu chấm điểm tín dụng Họ xác nhận rằng phương pháp rừng ngẫu nhiên của Breiman (2001) phần lớn vượt trội hơn hồi quy logistic và đang dần trở thành một trong những phương pháp tiêu chuẩn trong chấm điểm tín dụng (Grennepois và cộng sự, 2018) Trong nhiều thập kỷ qua, các
kỹ thuật học máy ngày càng được nhiều ngân hàng và các tổ chức tín dụng khác sử dụng để dự báo rủi ro tín dụng (ACPR, 2020)
Tuy nhiên, một trong những hạn chế chính của các kỹ thuật học máy trong xét duyệt tín dụng ngành tài chính – ngân hàng đến từ việc chúng thiếu khả năng giải thích và diễn giải Điều này cũng chính là mối quan tâm hiện tại của các cơ quan quản lý tài chính (đặc biệt là trong chấm điểm tín dụng) về khả năng quản lý “AI” và diễn giải của các kỹ thuật học máy
Nhìn chung, các nghiên cứu về lĩnh vực này được thực hiện nhiều ở các quốc gia khác nhau trên thế giới nhưng ở Việt Nam còn khá mới mẻ, chưa được phổ biến nhiều Các nghiên cứu về ứng dụng giúp dự báo vỡ nợ còn rất hạn chế nên em quyết định chọn đề tài “Ứng dụng học máy trong dự báo vỡ nợ tại Ngân hàng thương mại cổ phần Quốc Tế Việt Nam” để phần nào tìm được mặt tích cực và hạn chế, cũng như đưa ra một số đề xuất giúp ứng dụng phát triển
1.2 Mục tiêu nghiên cứu
1.2.1 Mục tiêu nghiên cứu tổng quát
Mục tiêu nghiên cứu tổng quát của đề tài là ứng dụng học máy trong dự báo vỡ nợ tại Ngân hàng TMCP Quốc Tế Việt Nam, từ đó đề xuất các khuyến nghị nhằm hạn chế rủi ro tín dụng khách hàng cá nhân tại Ngân hàng TMCP Quốc Tế Việt Nam
Trang 101.2.2 Các câu hỏi nghiên cứu
Tổng quan về ứng dụng học máy trong dự báo rủi ro vỡ nợ?
Những biện pháp nào giúp hạn chế rủi ro tín dụng của khách hàng cá nhân tại Ngân hang TMCP Quốc tế Việt Nam?
1.3 Phạm vi nghiên cứu
Đề tài sử dụng dữ liệu thứ cấp thu thập được từ các nghiên cứu thực nghiệm, tài liệu, văn bản báo cáo, các nguồn tài liệu tham khảo tin cậy của các tổ chức trong và ngoài nước về rủi ro tín dụng khách hàng cá nhân tại ngân hàng thương mại trong khoảng thời gian từ năm 2010 –
2020 Và tác giả tiến hành phân tích các báo cáo hàng ngày của Ngân hàng TMCP Quốc Tế Việt Nam trong thời gian từ 2019 – 2020
Về không gian: Nghiên cứu được tiến hành đối với khách hàng cá nhân tại các Ngân hàng
TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh
Về thời gian: Báo cáo nợ và báo cáo kinh doanh tại Ngân hàng TMCP Quốc Tế Việt Nam
– Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh trong thời gian 2019 – 2020
1.4 Phương pháp nghiên cứu
Dữ liệu được xử lý bằng các chương trình Microsoft Excel và R, với các phương pháp phân tích được sử dụng là mô hình rừng ngẫu nhiên, cây quyết định, hồi quy logistic, thống kê mô tả
và kỹ thuật lấy mẫu lớp mất cân bằng
1.5 Những đóng góp mới của đề tài
Bài nghiên cứu giúp cải thiện chất lượng dịch vụ của Ngân hàng TMCP Quốc Tế Việt Nam trong tương lai về tài chính của Ngân hàng
Dựa trên các kết quả thu được, bài nghiên cứu này có thể trở thành tài liệu phân tích của Ngân hàng TMCP Quốc Tế Việt Nam trong việc xác định mức độ quan tâm của khách hàng tiềm năng của Ngân hàng trong tương lai
1.6 Quy trình nghiên cứu
Bước 1: Xây dựng đề tài, lên ý tưởng, kế hoạch cho nghiên cứu
Bước 2: Làm đề cương nghiên cứu
Bước 3: Tìm tài liệu nghiên cứu và phân loại tài liệu phục vụ cho bài nghiên cứu, từ đây xây dựng đề cương riêng mình
Trang 11Bước 4: Xử lý dữ liệu thô được thu thập, sử dụng tiêu chí đánh giá kết quả chạy sau so với kết quả trước đã thu
Bước 5: Sử dụng kết quả chạy tốt nhất và thảo luận kết quả đó như thế nào so với các nghiên cứu trước, đưa ra kết luận cho nghiên cứu của bạn Tiến hành nộp giáo viên hướng dẫn
1.7 Cấu trúc đề tài
Chương 1 Tổng quan về nghiên cứu
Chương 2 Cơ sở lý thuyết và các bằng chứng thực nghiệm về vấn đề nghiên cứu
Chương 3 Phương pháp nghiên cứu
Chương 4 Kết quả nghiên cứu
Chương 5 Kết luận
Ngoài ra, để cung cấp các minh chứng nhằm củng cố nội dung phân tích đề tài còn bao gồm các phụ lục liên quan và danh mục tài liệu tham khảo được trình bày theo quy định APA
Trang 12CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC BẰNG CHỨNG THỰC NGHIỆM VỀ VẤN
ĐỀ NGHIÊN CỨU 2.1 Khái niệm về vỡ nợ
Theo Schuermann (2004), đưa ra ý kiến rằng không có một khái niệm tiêu chuẩn nào về
“vỡ nợ”, những khái niệm vỡ nợ khác nhau sử dụng cho các mục đích khác nhau Trong bài nghiên cứu của mình, ông đã đưa ra một khái niệm cơ bản về vỡ nợ là việc khách hàng không trả được nợ, bao gồm cả tiền gốc và tiền lãi trên các khoản vay có tài sản đảm bảo hoặc khoản vay không có tài sản đảm bảo Khi khách hàng xảy ra vỡ nợ sẽ dẫn đến thu nhập của ngân hàng
và các tổ chức tín dụng khác giảm đi Thông thường, khả năng vỡ nợ xảy ra khi khách hàng có một trong các dấu hiệu sau đây: (i) Khoản vay của khách hàng đã được cơ cấu nợ; (ii) Khoản vay của khách hàng phát sinh dự phòng nợ phải thu khó đòi; (iii) Khoản vay của khách hàng đã quá hạn trên 90 ngày; (iv) Khách hàng vay nợ đã tuyên bố phá sản
Hiệp định Basel II cũng định nghĩa rằng: việc vỡ nợ được coi là xảy ra khi có một trong các sự kiện sau đây: (i) Người có nghĩa vụ trả nợ không có khả năng thanh toán đầy đủ các nghĩa
vụ trả nợ của mình (gốc, lãi hoặc phí); (ii) Khoản nợ của người có nghĩa vụ trả nợ đã được điều chỉnh cụ thể như lập khoản dự phòng hoặc cơ cấu lại khoản vay liên quan đến việc xoá hoặc giãn
nợ gốc, lãi hoặc phí; (iii) Người có nghĩa vụ trả nợ đã quá hạn thanh toán trên 90 ngày; (iv) Người
có nghĩa vụ trả nợ đã nộp đơn phá sản
Mặt khác, Sy (2007) cũng đưa ra khái niệm: vỡ nợ dựa trên cơ sở khách hàng bị trễ hạn và mất khả năng thanh toán Trễ hạn được hiểu là việc khách hàng không thanh toán được khoản vay khi đến hạn, trong khi tình trạng mất khả năng thanh toán được định nghĩa là tài sản của khách hàng vay nợ có giá trị ít hơn các khoản nợ phải trả của họ Hầu hết các khái niệm vỡ nợ được xoay quanh khái niệm trễ hạn
Theo Altman và cộng sự (2019) cho ý kiến rằng, khái niệm vỡ nợ đề cập đến việc khách hàng vay nợ vi phạm một trong các điều khoản thỏa thuận trong hợp đồng với ngân hàng, ngoài khoản thanh toán theo thời hạn quy định của khoản vay Ví dụ, khách hàng vi phạm một thỏa thuận như không duy trì số tiền thanh toán tối thiểu hoặc tỷ lệ nợ tối đa được quy định Vỡ nợ có thể xảy ra khi khách hàng trễ thời gian thanh toán lãi và gốc bắt buộc Thông thường, khách hàng xảy ra vỡ nợ khi họ cơ cấu lại các khoản thanh toán nợ hoặc nộp đơn chính thức phá sản
Trang 13Nói chung, vỡ nợ có thể xảy ra khi khách hàng không thể trả được số tiền gốc, lãi hoặc phí của khoản vay Dấu hiệu của một khoản vay có khả năng vỡ nợ khi đáp ứng một trong các điều sau đây như: (i) Khoản vay đã được ngân hàng cơ cấu nợ; (ii) Khoản vay của khách hàng xuất hiện khoản dự phòng phải thu khó đòi; (iii) Khách hàng trễ hạn trả nợ quá 90 ngày; (iv) Khách hàng vay nợ nộp đơn phá sản Khi vỡ nợ xảy ra sẽ kéo theo những ảnh hưởng nặng nề đến ngân hàng và kể cả chính bản thân khách hàng là chủ của khoản vay bị vỡ nợ ấy
2.2 Ảnh hưởng của vỡ nợ với ngân hàng
Theo Karim và cộng sự (2010), tỷ lệ vỡ nợ của khách hàng cá nhân càng cao sẽ ảnh hưởng xấu đến sự tăng trưởng trong kinh doanh của các ngân hàng, đây là nguyên nhân chính khiến cho ngân hàng chậm phát triển Nhóm tác giả cũng đưa ra lập luận rằng: hậu quả của việc khi ngân hàng có tỷ lệ vỡ nợ của khách hàng cá nhân càng cao, họ sẽ không thể phục vụ các khách hàng
cá nhân hay doanh nghiệp tiềm năng khác do số tiền cho vay trước chưa thể thu hồi
Cũng theo Karim và cộng sự (2010) một tác động khác của các khoản vỡ nợ ảnh hưởng đến ngân hàng chính là khả năng cho vay của ngân hàng bị sụt giảm Các ngân hàng tạo ra phần lớn doanh thu và lợi nhuận từ hoạt động cho vay Khi phần lớn vốn cho vay của các ngân hàng mất
đi do khách hàng vỡ nợ, có khả năng làm cho doanh thu của chính ngân hàng cũng bị mất đi Khi doanh thu của ngân hàng bị mất đi trong một năm, sẽ làm giảm đi khả năng cấp tín dụng của họ trong năm tiếp theo Điều này có nghĩa là ngân hàng sẽ không thể cho vay hoặc phải giảm số tiền cho vay được phân bổ trong năm các năm tiếp theo
Theo Bloem & Gorter (2001), khả năng vỡ nợ tác động nghiêm trọng đối với các tổ chức tín dụng như ngân hàng hay các tổ chức tài trợ thế chấp có danh mục cho vay lớn Một khi các khoản vay lớn bị vỡ nợ sẽ ảnh hưởng đến khả năng cấp tín dụng của ngân hàng Với các khoản vay nhỏ nếu bị vỡ nợ là làm giảm niềm tin của ngân hàng vào khách hàng đó Nếu ngân hàng có quá nhiều khoản vay bị vỡ nợ, họ sẽ làm mất niềm tin của những khách hàng ký gửi vào khả năng quản lý rủi ro của ngân hàng, điều này có thể dẫn đến tình trạng khách hàng hoặc nhà đầu
tư rút tiền gửi hoặc tiền đầu tư đồng loạt, gây ảnh hưởng đến vấn đề thanh khoản của ngân hàng Khi một hệ thống quản lý rủi ro tín dụng của ngân hàng không được xây dựng tốt, sẽ xuất hiện rất nhiều vấn đề và hậu quả tiêu cực Bằng chứng xác thực của một ngân hàng có hệ thống quản lý rủi ro hiệu quả và được quản lý tốt thể hiện thông qua doanh thu của họ Ngân hàng phải luôn chắc chắn về khả năng trả nợ của người vay trước khi cấp bất kỳ khoản vay nào
Trang 14Các ngân hàng hoạt động yếu kém thường có tỷ lệ vỡ nợ rất lớn trước khi họ bị các ngân hàng khác mua lại (Berger & Humphrey, 1997) Theo Fofack (2005) cho rằng, khi ngân hàng có giá trị các khoản vay bị vỡ nợ quá lớn có thể dẫn đến phá sản nếu như họ không có khả năng thu hồi nợ xấu của khách hàng Việc các khoản vỡ nợ của khách hàng khi được cho vay có ảnh hưởng xấu đến lợi nhuận các ngân hàng, làm ảnh hưởng đến mức chi trả cổ tức cho các cổ đông Từ đó, việc huy động vốn của ngân hàng có thể ảnh hưởng vì các nhà đầu tư sẽ không đầu tư vào các ngân hàng nằm trong danh mục nợ xấu lớn (Jaquette & Hillman 2015)
2.3 Các yếu tố có thể dẫn đến khả năng vỡ nợ của khoản vay
2.3.1 Yếu tố thông tin pháp lý của khách hàng
Khi một khách hàng cá nhân đề nghị được vay vốn ngân hàng, trước tiên khách hàng bắt buộc phải cung cấp cho ngân hàng các thông tin về pháp lý của họ Việc cung cấp thông tin này giúp ngân hàng có cái nhìn tổng quan nhất về khách hàng cá nhân Ngân hàng sẽ xem xét mức
độ tin cậy trong việc khách hàng cung cấp thông tin và trên cơ sở dữ liệu có sẵn (nếu có), từ đó ngân hàng đưa ra quyết định về việc có nên cho vay hay không Các thông tin cơ bản về pháp lý của khách hàng cá nhân được yêu cầu như: Thông tin cá nhân, độ tuổi, giới tính, tình trạng hôn nhân,…
Yếu tố có ảnh hưởng quan trọng nhất đến khả năng vỡ nợ của khách hàng chính là thông tin cá nhân của họ Tuy nhiên, thông tin cá nhân của các khách hàng là khác nhau Do đó, khi tiến hành xếp hạng tín dụng của khách hàng cá nhân, các ngân hàng sẽ xem xét chủ yếu đến các thông tin về bản thân khách hàng, về điều kiện sống cũng như thu nhập của khách hàng đó Một yếu tố khác cũng xác định khả năng vỡ nợ của khách hàng là độ tuổi Độ tuổi của khách hàng càng lớn chỉ ra kinh nghiệm làm việc của khách hàng càng nhiều (Ojiako & Ogbukwa, 2012) Việc tích lũy kinh nghiệm trong công việc sẽ giúp khách hàng có cách nhìn nhận đầu tư kinh doanh tốt hơn Bên cạnh đó, khi khách hàng tích luỹ kinh nghiệm làm việc càng nhiều sẽ giúp khả năng đối phó với các rủi ro có thể xảy ra trong kinh doanh trở lên tốt hơn dẫn đến khả năng vỡ nợ của khách hàng sẽ giảm đi (Abid và cộng sự, 2018)
Yếu tố giới tính cũng được các nhà nghiên cứu đánh giá là có ảnh hưởng tới khả năng vỡ
nợ Theo Carter (2007), thời gian làm việc của nam và nữ là khác nhau Nếu nữ giới là người đi vay thì khả năng trả nợ thấp hơn vì họ thường phải gánh vác thêm các công việc gia đình nên sẽ
có ít thời gian cho công việc tăng thu nhập Một số trường hợp, nữ giới đứng tên các khoản vay
Trang 15nhưng việc sử dụng các khoản vay này lại là người khác Điều này dẫn đến việc đánh giá dựa trên giới tính người vay cần được xem xét thêm trong việc sử dụng đúng mục đích của khách hàng cá nhân
Tình trạng hôn nhân cũng được coi là yếu tố để dự báo khả năng vỡ nợ Nếu khách hàng đã lập gia đình sẽ có xu hướng tập trung vào công việc hơn so với những khách hàng độc thân (Moffatt, 2005) Do đó, yếu tố tình trạng hôn nhân của khách hàng cũng được xem xét thuộc về nhân khẩu học ảnh hưởng tới khả năng vỡ nợ của khách hàng cá nhân (Kocenda & Vojtek, 2011)
2.3.2 Yếu tố hoàn cảnh sống của khách hàng
Những yếu tố này phản ánh cuộc sống của mỗi cá nhân và mối tương tác của họ với môi trường sống xung quanh mình Thông qua việc tìm hiểu này giúp ngân hàng có thể đánh giá được mức độ ảnh hưởng yếu tố hoàn cảnh sống của khách hàng cá nhân đến khả năng tài chính của
họ Các yếu tố thuộc nhóm thông tin này bao gồm: Số người phụ thuộc, nơi sinh sống, đặc điểm nơi sinh sống, sở hữu nhà, sở hữu các loại động sản giá trị khác,…
Số lượng thành viên trong gia đình sẽ xuất hiện hai tác động trái ngược lên khả năng trả nợ của khách hàng cá nhân Trong đó, nếu trong gia đình có thành viên ở độ tuổi lao động, tạo ra thu nhập thì sẽ giảm khả năng vỡ nợ (Ojiako & Ogbukwa, 2012) Bên cạnh đó, số người phụ thuộc trong gia đình càng cao làm cho các chi phí và áp lực trả nợ tăng lên, khả năng vỡ nợ cũng tăng lên
2.3.3 Yếu tố tài chính của khách hàng
Khi khách hàng cá nhân cung cấp đủ các thông tin như trên Khách hàng phải cung cấp các chứng từ chứng minh năng lực về tài chính của mình Ngân hàng sẽ dựa trên yếu tố này để dự báo khả năng trả nợ của khách hàng trong tương lai Nếu khách hàng có đủ khả năng tài chính theo đúng yêu cầu của ngân hàng, ngân hàng sẽ ra quyết định có nên cho họ vay hay không Các chỉ tiêu tài chính của mỗi khách hàng cá nhân được các ngân hàng quan tâm như: Thu nhập, tài khoản tiết kiệm, giá trị tài sản đảm bảo, quy mô khoản vay
Khi thu nhập khách hàng càng cao giúp cho việc trả nợ dễ dàng hơn, giảm khả năng vỡ nợ của khách hàng Ngược lại, khi thu nhập của khách hàng thấp sẽ làm khả năng chi trả gốc và lãi vay trở nên khó khăn (Oni và cộng sự, 2005) Vì vậy, yếu tố thu nhập của các khách hàng được coi là quan trọng trong việc quyết định trả nợ vay ngân hàng
Trang 16Tài sản đảm bảo có giá trị càng lớn hay tính thanh khoản cao là yếu tố giúp khách hàng dễ dàng được ngân hàng phê duyệt khoản vay Đồng thời, việc tài sản đảm bảo gắn liền với chính lợi ích hay cuộc sống của khách hàng sẽ giúp họ có trách nhiệm với tài sản đó hơn Do vậy, với tài sản đảm bảo của khách hàng là bất động sản thường mang tính ràng buộc chặt chẽ hơn
2.3.4 Yếu tố hành vi của khách hàng
Khách hàng phải cung cấp mục đích vay vốn của mình cho ngân hàng, từ đó ngân hàng có thể xác định được mục đích vay vốn và mục đích sử dụng vốn vay của khách hàng có khớp với nhau hay không Khi khách hàng vay đúng mục đích, ngân hàng sẽ đưa ra quyết định có nên cho khách hàng đó vay hay không Ngân hàng nên xây dựng chính sách marketing hướng đến đối tượng khách hàng mục tiêu cũng như đáp ứng nhu cầu cấp tín dụng của họ Nhờ đó các ngân hàng đưa ra được các phương thức thu hồi nợ linh hoạt dựa trên việc nắm bắt được thói quen chi tiêu của khách hàng từ đó giúp giảm thiểu rủi ro cho vay (Jacobson & Roszbach, 2003) Dựa trên các thông tin trên, tác giả đã đưa ra một số yếu tố như: Mục đích vay, số tiền vay, thời gian vay, lịch sử vay và trả nợ,…
2.4 Khái quát về học máy
Học máy đã được giải thích rằng là giao điểm của khoa học máy tính, kỹ thuật và thống kê
Nó đã được đánh dấu là một công cụ có thể được áp dụng cho các vấn đề khác nhau, đặc biệt là trong các lĩnh vực yêu cầu dữ liệu được giải thích và xử lý (Awad và Khanna, 2015) Học máy cung cấp khả năng phát hiện các mẫu có ý nghĩa trong dữ liệu và đã trở thành một công cụ phổ biến cho hầu hết mọi nhiệm vụ phải đối mặt với yêu cầu trích xuất thông tin có ý nghĩa từ các tập dữ liệu Khi phải đối mặt với yêu cầu trích xuất thông tin có ý nghĩa từ dữ liệu và sự phức tạp, do đó của các mẫu được nghiên cứu, một lập trình viên có thể cung cấp đặc điểm kỹ thuật
rõ ràng và chi tiết về quy trình thực thi Học máy giải quyết thách thức này bởi “các chương trình
ưu đãi” với khả năng “học hỏi và thích ứng” Các chương trình học máy học hỏi và cải tiến, đồng thời có thể được áp dụng khi vấn đề phải được xử lý có thách thức kép về độ phức tạp và nhu cầu về khả năng thích ứng (Shalev-Shwartz và Ben-David, 2014)
Các thuật toán học máy dựa trên hướng dữ liệu và dựa trên tính toán ít dựa vào các giả định
về dữ liệu, bao gồm cả về phân phối Trong khi chúng được coi là mạnh mẽ hơn và tốt hơn trong việc giải quyết các mối quan hệ phi tuyến tính phức tạp, chúng cũng được coi là khó giải thích (Galindo và Tamayo 2000)
Trang 17Những năm gần đây đã chứng kiến sự gia tăng về lượng dữ liệu được thu thập trong các tổ chức tài chính (FI) Sự thúc đẩy lớn đối với việc số hóa các dịch vụ và yêu cầu báo cáo theo quy định ngày càng tăng đã dẫn đến một lượng lớn dữ liệu phi cấu trúc được tạo và / hoặc thu thập với tần suất cao Dữ liệu này đến từ nhiều nguồn khác nhau, bao gồm ứng dụng của người tiêu dùng, tương tác với khách hàng, siêu dữ liệu và các nguồn dữ liệu bên ngoài khác Mong muốn nâng cao khả năng phân tích của họ và tự động hóa trên các lĩnh vực kinh doanh, bao gồm quản
lý rủi ro, bằng cách quản lý và khai thác khối lượng gia tăng này và nhiều loại dữ liệu đã khiến các tổ chức tài chính khám phá các giải pháp phân tích và mạnh mẽ, hệ quả của nó là sự gia tăng quan tâm và sự phổ biến của máy học và trí tuệ nhân tạo trong cộng đồng FI (Van Liebergen 2017) Học máy được coi là rộng rãi trong lĩnh vực dịch vụ tài chính là có tiềm năng mang lại khả năng phân tích mà các FI mong muốn Máy học có khả năng tác động đến mọi khía cạnh của
mô hình kinh doanh của FI - cải thiện thông tin chi tiết về sở thích của khách hàng, quản lý rủi
ro, phát hiện gian lận, giám sát hành vi, tự động hóa hỗ trợ khách hàng và thậm chí xác minh danh tính tự động khi kết hợp với sinh trắc học
Một số nhược điểm của học máy, như đã lập luận, là chúng có bản chất là “hộp đen” hơn, với kết quả đôi khi rất khó giải thích Có ý kiến cho rằng chúng cũng nhạy cảm với các yếu tố ngoại lai, dẫn đến việc trang bị quá nhiều dữ liệu và các dự đoán phản trực giác Chúng cũng được lập luận là có những ưu điểm là có thể phù hợp hơn với các mối quan hệ phi tuyến tính giữa các biến giải thích và các biến được giải thích, đồng thời khả năng áp dụng một tập hợp các biến rộng hơn có xu hướng cải thiện độ chính xác (Bacham và Zhao 2017)
2.5 Các phương pháp phân loại và dự báo vỡ nợ
Bài nghiên cứu của Kim và Shin (2021) về khả năng giải thích kinh tế của học máy và các
mô hình kinh tế tiêu chuẩn Bằng cách sử dụng các phương pháp rừng ngẫu nhiên, mô hình hồi quy logistic nhóm tác giả đã chỉ ra được phương pháp rừng ngẫu nhiên có những đặc điểm khác biệt so với mô hình hồi quy logistic Nhận thấy sự khác nhau này khá tốt nên nhóm tác giả đã sử dụng hai phương pháp này kết hợp thêm với phương pháp cây quyết định cho bài nghiên cứu của mình
2.5.1 Phương pháp rừng ngẫu nhiên
Theo Cutler và cộng sự (2012), rừng ngẫu nhiên là một tập hợp dựa trên các cây quyết định, mỗi cây phụ thuộc vào tập hợp các biến ngẫu nhiên Rừng ngẫu nhiên được sử dụng cho biến
Trang 18phân loại, được gọi là “classification” hoặc sự phản hồi liên tục, được gọi là “regression” Rừng ngẫu nhiên luôn có sự hấp dẫn vì: (i) chúng có thể tự xử lý cả phân loại hồi quy và phân loại đa lớp; (ii) rừng ngẫu nhiên là phương pháp tương đối nhanh để học và để dự đoán; (iii) dữ liệu của chúng chỉ phụ thuộc vào một hoặc hai tham số điều chỉnh; (iv) phương pháp này có phương sai tổng quát đã được xây dựng sẵn; (v) có thể dùng song song các phương pháp khác
Theo Donges (2019) rừng ngẫu nhiên là một thuật toán học có giám sát Chúng là một tập hợp các cây quyết định, thường được đào tạo bằng phương pháp "bagging" Ý tưởng chung của phương pháp “bagging” là sự kết hợp của các mô hình học tập, giúp làm tăng kết quả chung Rừng ngẫu nhiên bổ sung thêm tính ngẫu nhiên cho mô hình, đồng thời hình thành nhiều cây cho
“forest” của chúng Thay vì tìm kiếm tính năng quan trọng nhất trong khi tách một biến, phương pháp rừng ngẫu nhiên sẽ tìm kiếm tính năng tốt nhất trong số một tập hợp con ngẫu nhiên của các tính năng Điều này dẫn đến sự đa dạng rộng rãi và thường dẫn đến một mô hình tốt hơn Người đầu tiên giới thiệu về phương pháp rừng ngẫu nhiên, Breiman (2001) đã nhận định rằng rừng ngẫu nhiên là một công cụ hiệu quả trong dự báo Rừng ngẫu nhiên là sự kết hợp của các yếu tố dự báo cây quyết định, sao cho mỗi cây phụ thuộc vào các giá trị của một vectơ ngẫu nhiên được lấy mẫu một cách độc lập và có cùng phân bổ cho tất cả các cây trong rừng Sai số tổng quát của một bộ rừng ngẫu nhiên luôn phụ thuộc vào sức mạnh của từng cây trong rừng và mối tương quan giữa chúng Các dữ liệu của rừng ngẫu nhiên gắn liền với lỗi, độ mạnh và mối tương quan, những giá trị này được sử dụng để hiển thị phản ứng đối với việc tăng số lượng các tính năng được sử dụng trong quá trình phân tách Chúng cũng được sử dụng để đo lường mức
độ quan trọng của các biến đổi Những ý tưởng này cũng có thể áp dụng cho hồi quy
2.5.2 Phương pháp hồi quy logistic
Theo Maalour (2011) hồi quy logistic là một trong những kỹ thuật giúp thống kê và khai thác dữ liệu quan trọng nhất được các nhà nghiên cứu sử dụng để phân tích và phân loại các tập
dữ liệu phản hồi nhị phân và tỷ lệ Ưu điểm chính của phương pháp này là nó có thể cho ra kết quả khách quan và mở rộng cho cái bài toán phân loại đa lớp Một ưu điểm khác là hầu hết các phương pháp sử dụng cho mô hình này đều tương tự như các nguyên tắc sử dụng trong hồi quy tuyến tính, vì thế hầu như các kỹ thuật tối ưu hóa không bị hạn chế đều có thể được áp dụng cho hồi quy logistic
Trang 19Theo Widiastuti (2018) hồi quy logistic là một biến đổi của mô hình hồi quy tuyến tính cho phép chúng ta mô hình hóa các biến nhị phân một cách xác suất Nó còn được gọi là mô hình tuyến tính tổng quát sử dụng liên kết logit Mô hình hồi quy logistic được sử dụng để mô hình hóa xác suất của một lớp hoặc sự kiện nhất định đang tồn tại như đạt / không đạt, thắng / thua, sống / chết hoặc khỏe mạnh / bệnh tật Điều này có thể được mở rộng để mô hình hóa một số lớp
sự kiện như xác định xem một hình ảnh có chứa mèo, chó, sư tử, v.v Mỗi đối tượng được phát hiện trong hình ảnh sẽ được gán một xác suất từ 0 đến 1, với tổng là một
2.5.3 Phương pháp cây quyết định
Theo Rokach và Maimon (2021), cây quyết định là phương pháp phân loại được hiểu như một tập hợp các lệnh với tham số được đưa vào một không gian của cá thể Cây quyết định bao gồm các nút lệnh tạo thành một cây gốc Tất cả các nút lệnh khác nhau đều có một cạnh tương ứng với chúng Một nút lệnh có các cạnh đi ra được gọi là nút lệnh bên trong hoặc nút lệnh kiểm tra Tất cả các nút lệnh khác được gọi là lá (còn được gọi là nút lệnh đầu cuối hoặc nút lệnh quyết định) Trong cây quyết định, mỗi nút lệnh bên trong chia không gian thành hai hoặc nhiều không gian con theo một hàm độc lập nhất định của các giá trị thuộc tính đầu vào Cây quyết định là cây tự giải thích và khi thu gọn chúng cũng có thể theo dõi dễ dàng Nói cách khác nếu cây quyết định có số lá hợp lý thì người dùng không chuyên cũng có thể nắm được Hơn nữa cây quyết định có thể được chuyển đổi thành một tập hợp các quy tắc Do đó, cách biểu diễn này được coi
là dễ hiểu
Theo Widiastuti (2018) cây quyết định là một thuật toán máy học phân vùng dữ liệu thành các tập con Quá trình phân vùng bắt đầu với sự phân tách nhị phân và tiếp tục cho đến khi không thể thực hiện phân tách nữa Nhiều nhánh có chiều dài thay đổi được hình thành Mục tiêu của cây quyết định là thu gọn dữ liệu được đưa vào trong cây nhỏ nhất có thể Cơ sở lý luận của việc giảm thiểu kích thước cây là quy tắc logic mà cách giải thích đơn giản nhất có thể cho một tập hợp các hiện tượng được ưu tiên hơn các cách giải thích khác Ngoài ra, cây nhỏ đưa ra quyết định nhanh hơn cây lớn và chúng dễ nhìn và dễ hiểu hơn nhiều Có nhiều phương pháp và kỹ thuật khác nhau để kiểm soát độ sâu, hoặc cắt tỉa của cây
2.6 Tổng quan các nghiên cứu trước
2.6.1 Các nghiên cứu nước ngoài
Trang 20Bài nghiên cứu của Tiwari (2018) về ứng dụng học máy trong dự báo vỡ nợ cho vay, sử dụng các phương pháp của học máy như rừng ngẫu nhiên, cây quyết định và hồi quy logistic Các phương pháp này giúp mô hình hoá và dự đoán tổn thất của ngân hàng từ đó giúp ngân hàng tránh được các tổn thất lớn Bài nghiên cứu không dùng các dữ liệu mà sử dụng phương pháp định tính để phân tích cho bài Tác giả đã kết hợp 3 phương pháp của học máy với các phương pháp khác như phân tích dữ liệu thăm dò, K-Nearest Neighbors cho bài nghiên cứu của mình (Tiwari, 2018)
Bài nghiên cứu của Akindaini (2017) về ứng dụng học máy trong cho vay thế chấp, sử dụng các biến: Tuổi, tỷ lệ thất nghiệp, năm vay, điểm tín dụng, lãi suất vay ban đầu,… Dữ liệu của bài được thu thập từ việc tổng hợp dữ liệu từ các nguồn khác nhau chủ yếu là dữ liệu của khách hàng vay thế chấp từ Fannie Mae, giai đoạn từ quý I năm 2006 - 2016 Tác giả sử dụng phương pháp hồi quy logistic, rừng ngẫu nhiên, K-Nearest Neighbors, Naive Bayes để phân tích dữ liệu đã thu thập, kết quả thu được cho thấy rừng ngẫu nhiên có tỷ lệ chính xác cao nhất Nhờ vào kết quả thu được, tác giả nhận thấy các phương pháp học máy cũng có thể sử dụng để phân loại các khoản thế chấp, thanh toán sau, mặc định và thanh toán trước (Akindaini, 2017)
Bài nghiên cứu của Abid và cộng sự (2018) về đề tài so sánh khả năng dự báo vỡ nợ của khách hàng thông qua việc sử dụng các phương pháp hồi quy logistic và discriminant functions Việc sử dụng hai phương pháp này giúp tác giả có thể phân biệt các cá nhân có xếp hạng tín dụng tốt và và chưa tốt Dữ liệu của bài được từ 2010 – 2012, tại một ngân hàng thương mại cổ phần Bằng cách so sánh hiệu quả của hồi quy logistic và discriminant functions, nhóm tác giả thấy rằng mô hình hồi quy logistic mang lại hiệu quả tốt hơn trong phân loại dự đoán các loại khách hàng cá nhân so với kết quả thu được từ phương pháp discriminant functions Kết quả cũng chỉ
ra rằng, phương pháp hồi quy logistic có khả năng dự báo xếp hạng tín dụng tốt hơn so với discriminant functions (Abid và cộng sự, 2018)
Bài nghiên cứu về khả năng trả nợ của nông dân khi vay vốn ngân hàng tại Nigeria của Ojiako và Ogbukwa (2012) sử dụng các biến: Độ tuổi, giới tính, trình độ học vấn, kinh nghiệm làm việc, quy mô hộ, tình trạng hôn nhân, công việc khác, thu nhập ngoài nông nghiệp, quy mô
sử dụng cho nông nghiệp, thiết bị máy móc, số nợ vay, lãi suất cho vay, cải tiến trong nông nghiệp,… Nhóm tác giả đã thu thập dữ liệu của 110 hộ nông dân vay vốn ngân hàng sống tại đây Nhóm tác giả đã sử dụng phương pháp hồi quy logistic, kết quả thu được cho thấy có 3 yếu
Trang 21tố trong rất nhiều yếu tố được đề cập có tác động lên khả năng trả nợ của các hộ nông dân Ba yếu tố được nói đến là yếu tố quy mô hộ gia đình có tác động ngược chiều lên khả năng trả nợ; yếu tố quy mô sử dụng đất và yếu tố số tiền vay nông nghiệp có tác động cùng chiều lên khả năng trả nợ của người nông dân (Ojiako & Ogbukwa, 2012)
Bài nghiên cứu của của Kocenda & Vojtek (2011) về dự đoán vỡ nợ trong chấm điểm tín dụng tại Ngân hàng Séc sử dụng các biến: mục đích vay, trình độ học vấn, tình trạng hôn nhân,
số tiền vay, vị trí công việc, mối quan hệ xung quanh, năm làm việc, số người phụ thuộc,… Bài nghiên cứu sử dụng 3,403 dữ liệu thu thập được từ các khách hàng vay vốn tại ngân hàng bán lẻ
ở Cộng hòa Séc, giai đoạn 1999 - 2006 Nhóm tác giả đã sử dụng hai phương pháp dự báo rủi ro tín dụng dựa trên phương pháp cây quyết định cùng với phương pháp hồi quy logistic Kết quả
từ hai phương pháp trên chỉ ra các yếu tố quan trọng nhất có khả năng gây vỡ nợ như số lượng tài sản mà khách hàng sở hữu, trình độ học vấn, tình trạng hôn nhân, mục đích của khoản vay (Kocenda & Vojtek, 2011)
Bài nghiên cứu của Petropoulos và cộng sự (2020) về dự đoán khả năng vỡ nợ của ngân hàng bằng kỹ thuật học máy sử dụng 40 biến như: tài sản mỗi nhân viên, tỷ lệ thu nhập trên tổng tài sản, dự phòng rủi ro các khoản vay, tài sản vô hình cùng với bất động sản khác, dự phòng rủi
ro các khoản vay trung và dài hạn, an toàn vốn, tài sản, khả năng quản lý, thu nhập, tính thanh khoản,…Bài nghiên cứu sử dụng dữ liệu thu thập được từ các tổ chức tài chính có trụ sở tại Hoa
Kỳ, giai đoạn 2008 – 2014 Để có thể dự đoán các khả năng mất khả năng thanh toán của ngân hàng dựa trên số liệu thu thập được, nhóm tác giả đã sử dụng phương pháp rừng ngẫu nhiên kết hợp phân tích phân biệt tuyến tính và khung đánh giá CAMELS Thông qua kết quả thu được từ bài nghiên cứu, giúp thúc đẩy việc áp dụng các biện pháp điều tiết, dự báo rủi ro vỡ nợ của khách hàng Từ đó, các cơ quan giám sát cần tăng cường hơn nữa các biện pháp giúp giảm khả năng vỡ
nợ của khách hàng cá nhân (Petropoulos và cộng sự, 2020)
Bài nghiên cứu của Mensah và cộng sự (2013) về khả năng vỡ nợ tín dụng khi vay vốn ở các ngân hàng tại Ghana sử dụng các biến: giới tính, số người phụ thuộc, lịch trả nợ, tiền lãi, nguy cơ đạo đức, số tiền vay, tình trạng hôn nhân, Bài nghiên cứu sử dụng số liệu được thu thập từ kết quả của bảng câu hỏi 100 khách hàng tại Ghana, thời gian 2013 Bài nghiên cứu sử dụng phương pháp hồi quy logistic, kết quả thu được chỉ ra không có mối quan hệ giữa khả năng
vỡ nợ cho vay và lịch trả nợ Ngoài ra tác giả tìm ra quan hệ giữa lãi suất cho vay, rủi ro đạo đức
Trang 22và thời gian quá hạn khoản vay của khách hàng, việc nhân viên không kiểm soát khoản vay hay khoản vay không có tài sản đảm bảo cũng góp phần vào khả năng vỡ nợ của khách hàng tại Ghana (Mensah và cộng sự, 2013)
Thông qua các bài nghiên cứu liên quan, tác giả có thể sử dụng làm tài liệu tham khảo cho bài nghiên cứu của mình Các nghiên cứu liên quan này sử dụng các phương pháp trong học máy, điều này giúp tác giả có thể tham khảo, sau đó rút ra phương pháp nghiên cứu cho bài của mình Ngoài ra, tác giả còn tham khảo các khái niệm, các biến được các nghiên cứu trên sử dụng từ đó đưa ra các biến sử dụng cho bài nghiên cứu của mình, rất có lợi cho tác giả trong việc đi sâu vào các phương pháp dự báo rủi ro vỡ nợ của Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh
2.6.2 Các nghiên cứu trong nước
Bài nghiên cứu của Nguyễn Thị Lan cùng cộng sự của mình (2018) về việc xây dựng các phương pháp giúp cảnh báo sớm nguy cơ vỡ nợ của các ngân hàng thương mại cổ phần tại Việt Nam Các số liệu của bài được lấy từ báo cáo tài chính công khai đã được kiểm toán như bảng cân đối kế toán, báo cáo lưu chuyển tiền tệ, kết quả hoạt động kinh doanh tại thời điểm cuối năm của các ngân hàng thương mại cổ phần tại Việt Nam từ 2009 đến cuối 2012, tổng cộng 136 biến quan sát Nhóm tác giả đã sử dụng kết hợp các phương pháp mô hình phân tích khác biệt tuyến tính, mô hình hồi quy logistic và máy vectơ hỗ trợ cho bài nghiên cứu của mình Kết quả nghiên cứu cho thấy cả ba phương pháp được sử dụng là phân tích khác biệt tuyến tính, hồi quy logistic
và máy vectơ hỗ trợ đều đạt độ chính xác trong dự báo rủi ro của ngân hàng khá cao (Nguyễn Thị Lan và cộng sự, 2018)
Nghiên cứu về xây dựng mô hình chấm điểm tín dụng cho khách hàng cá nhân vay tiêu dùng tại Việt Nam của tác giả Đào Thanh Bình (2019) sử dụng các biến: học vấn, nghề nghiệp, thu nhập, số người phụ thuộc, tài khoản cá nhân Số liệu của biền được thu thập từ 200 khách hàng vay tiêu dùng được lấy ngẫu nhiên từ dữ liệu của Ngân hàng Nhà nước Việt Nam Tác giả
sử dụng phương pháp của hệ thống FICO phù hợp Việt Nam, kết quả thu được cho thấy phương pháp tác giả sử dụng có mức độ chính xác khá cao Ngoài ra tác giả cũng nhận thấy được hai biến số người phụ thuộc và tài khoản cá nhân có đóng góp cho khả năng dự báo rủi ro vỡ nợ của khách hàng (Đào Thanh Bình, 2019)
Trang 23Nhìn chung, hai nghiên cứu liên quan được đưa ra đều đi đến một kết quả chung là tìm ra các phương pháp giúp dự báo rủi ro vỡ nợ của khách hàng cá nhân tại các ngân hàng Nhưng các tác giả và nhóm tác giả trên đều chưa đi sâu vào phân tích những yếu tố ảnh hưởng đến rủi ro vỡ
nợ Hai bài nghiên cứu liên quan trong nước được tác giả sử dụng làm tài liệu tham khảo của mình
Trang 24CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU
3.1 Phương pháp nghiên cứu và quy trình nghiên cứu
3.1.1 Phương pháp nghiên cứu
Nghiên cứu này là nghiên cứu định lượng, trong đó tác giả sử dụng phương pháp rừng ngẫu nhiên, phương pháp cây quyết định và phương pháp hồi quy logistic để phân loại tình trạng vỡ
nợ dựa trên yếu tố tài chính và phi tài chính trong bộ dữ liệu khách hàng cá nhân tại Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh
3.1.2 Quy trình nghiên cứu
Hình 3.1 Quy trình nghiên cứu
(Nguồn: Tác giả tổng hợp)
3.2 Phương pháp thu thập dữ liệu
Trong nghiên cứu này, dữ liệu được sử dụng là dữ liệu thứ cấp thu được từ Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh Dữ liệu được tóm tắt lại bởi các nhân viên tín dụng tại Ngân hàng TMCP Quốc Tế Việt Nam – Chi nhánh Sài Gòn – Phòng Giao dịch Văn Thánh Dữ liệu dưới dạng thông tin về khách hàng tín dụng cá nhân năm 2019 – 2020
3.3 Biến nghiên cứu
Dựa trên bài nghiên cứu liên quan của Kocenda & Vojtek (2011), Ojiaka & Ogbukwa (2012), tác giả đã xây dựng bảng biến cho bài nghiên cứu của mình Tác giả đưa ra các biến nghiên cứu như sau:
Bảng 3.1 Biến nghiên cứu về khả năng vỡ nợ của khách hàng
Biến được dự báo
1 Khả năng vỡ nợ (Y) Khách hàng có vỡ nợ hay không 0: Có; 1: Không
Đánh giá mô hình
So sánh các mô hình
Trang 25Biến dự báo
2 Giới tính (X2) Giới tính của khách hàng 0: Nam; 1: Nữ
3 Tình trạng hôn nhân (X3) Khách hàng hiện đang là độc thân, đã kết
hôn,…
0: Độc thân; 1: Đã kết hôn; 2: Ly dị; 3: Goá
4 Nguồn thu (X4) Thu nhập của khách hàng đến từ đâu 0: Lương; 1: Kinh doanh; 2:
Cho thuê; 3: Khác
5 Thu nhập (X5) Thu nhập của khách hàng trên một tháng Triệu đồng
6 Chi phí (X6) Chi phí của khách hàng bao gồm chi phí
sinh hoạt và trả lãi vay mỗi tháng
Triệu đồng
7 Loại khoản vay (X7) Khách hàng vay ngân hàng để làm gì 0: Mua xe; 1: Mua bất động
sản; 2: Xây nhà; 3: Tiêu dùng
8 Số tiền vay (X8) Khách hàng vay bao nhiêu tiền Triệu đồng
9 Giá trị tài sản đảm bảo
Triệu đồng
(Nguồn: Tác giả tổng hợp)
3.4 Phương pháp phân tích dữ liệu
3.4.1 Phương pháp rừng ngẫu nhiên
Theo Breiman (2001) nguyên tắc cơ bản của bộ phân loại này là đào tạo nhiều cây quyết định và để các cây đó cùng tạo ra một phân loại Mỗi cây đó được huấn luyện trên một tập hợp con của dữ liệu huấn luyện được rút ra với sự thay thế Quy trình đào tạo tương tự như cách đào tạo cây quyết định thông thường ngoại trừ một điểm khác biệt Tại mỗi phần tách trong cây, một lựa chọn ngẫu nhiên của các tính năng được chọn, từ đó tính năng cho phần tách được chọn Thông thường căn bậc hai của số lượng đối tượng có sẵn được sử dụng cho số lượng đối tượng phải được vẽ Lý do cho việc lựa chọn đặc điểm ngẫu nhiên này là để giảm mối tương quan giữa các cây riêng lẻ
Cho một tập đặc trưng 𝑋 = 𝑥!, … , 𝑥" và các nhãn tương ứng 𝑌 = 𝑦!, , 𝑦", đối với mỗi
cây trong khu rừng ngẫu nhiên, một tập con ngẫu nhiên X r và Y r được vẽ thay thế Đối với mỗi nhóm mẫu ngẫu nhiên, một cây quyết định được trang bị Tại mỗi lần phân tách trong cây, một
Trang 26tập hợp con ngẫu nhiên của các đặc điểm được chọn để dựa vào đó phân tách Đối với một phân
loại với p đặc trưng, số đặc trưng được sử dụng nhiều nhất được xem xét để phân tách là *𝑝
hoặc 𝑙𝑜𝑔# (𝑝) Quá trình xây dựng cây này dẫn đến N cây quyết định riêng biệt được kết hợp
trong một bộ phân loại duy nhất Điều này có thể được thực hiện bằng cách để mỗi người phân loại bỏ phiếu hoặc lấy trung bình các dự đoán xác suất
3.4.2 Phương pháp cây quyết định
Cây quyết định bao gồm các nút lệnh được kết nối với nhau tạo thành một cây gốc, nghĩa
là cây có một nút lệnh gốc duy nhất là điểm bắt đầu Tất cả các nút lệnh sau đều có một cạnh đến duy nhất, nếu nút lệnh cũng có các cạnh đi thì nó được gọi là nút lệnh bên trong Mỗi nút lệnh bên trong phân chia tập dữ liệu theo một logic nhất định Trong phân loại, sự phân chia này thường dựa trên giá trị của một đối tượng địa lý nhất định Các nút lệnh có cạnh tới nhưng không
có cạnh đi ra ngoài được gọi là lá Lá được ký vào một nhãn dựa trên nhãn nào là thích hợp nhất Sau khi một cây đã được xây dựng, việc phân loại được thực hiện bằng cách bắt đầu ở nút lệnh gốc và theo dõi qua các nút lệnh bên trong cho đến khi đạt đến điểm nghỉ (Rokach và Maimon, 2005)
Việc xây dựng cây quyết định tối ưu chỉ khả thi đối với các vấn đề nhỏ do yêu cầu tính toán (Zuech và cộng sự, 1996) Điều này dẫn đến sự cần thiết của các thuật toán thực nghiệm Trong nghiên cứu này, thuật toán CART sẽ được sử dụng Cây quyết định được huấn luyện trên một tập đặc trưng chứa 𝑋 = 𝑥!, … , 𝑥"và các nhãn tương ứng 𝑌 = 𝑦!, … , 𝑦" Tại mỗi nút m, phần liên quan của tập hợp được biểu diễn bằng Q m Thuật toán xây dựng bằng cách cố gắng tìm phép tách
𝜃 = (𝑗, 𝑡$) với đặc trưng j và ngưỡng tm, tách Q thành Q left (θ) và Q right (θ) với tạp chất được giảm
thiểu Một số biện pháp có thể được sử dụng để cô lập tạp chất mà Gini và Entropy được sử dụng rộng rãi Công thức 2.13 cho thấy cách tính Gini, pmk là xác suất của một mẫu có nhãn k nằm
trong nút m và I(y i = k) là một nếu y 1 = k và ngược lại bằng không
Bằng cách kết hợp tạp chất có trọng số của Q left và Q right, một số đo cho sự phân tách được
xây dựng, Công thức 2.14 Mục đích là tìm θ * nhỏ nhất số đo này
Trang 27𝐺(𝑄$, 𝜃) =𝑛()*+
𝑁$ 𝐻 ?𝑄()*+(𝜃)@ +𝑛,!-.+
𝑁$ 𝐻(𝑄,!-.+(𝜃)) Quá trình này được thực hiện theo cách đệ quy Sau mỗi lần lặp, quá trình được lặp lại cho
Q left và Q right cho đến khi đạt được tiêu chí dừng Tiêu chí này có thể là độ sâu tối đa hoặc số lượng mẫu còn lại tối thiểu
3.4.3 Phương pháp hồi quy logistic
Theo Cox (1958) hồi quy logistic là sử dụng các kỹ thuật được phát triển cho hồi quy tuyến tính để mô hình hóa xác suất của một mẫu thuộc một lớp nhất định Điều này được thực hiện bằng cách sử dụng một hàm dự báo tuyến tính, Công thức 2.9, là một tổ hợp tuyến tính của m giá trị đặc trưng và m + 1 hệ số hồi quy
là Liblinear, nó sử dụng một thuật toán giảm tọa độ để tìm các giá trị phù hợp cho các hệ số
Trang 28Phương pháp thứ hai là saga sử dụng gradient trung bình ngẫu nhiên Phương pháp thứ hai thường nhanh hơn trên các tập dữ liệu lớn
3.4.4 Các phương pháp đánh giá hiệu quả của mô hình dự báo
3.4.4.1 Confusion matrix
Theo Townsend (1971) confusion matrix là một thuật ngữ cơ bản trong học máy Bằng cách
so sánh tất cả các giá trị dự đoán với giá trị thực tế, chúng được dùng để đo độ chính xác của mô hình trong kỹ thuật học máy Confusion matrix đã được sử dụng trong tính điểm tín dụng để đo
độ chính xác của một mô hình bằng cách so sánh kết quả dự báo và thực tế
3.4.4.2 Sensitivity và Specificity
Sensitivity (Recall)
Phân tích sensitivity là kết quả dự báo không chắc chắn về khách hàng có vỡ nợ của một
mô hình Do đó, sensitivity được một số người coi là điều kiện tiên quyết để xây dựng mô hình trong bất kỳ môi trường nào, có thể là chẩn đoán hoặc tiên lượng trong bất kỳ lĩnh vực nào mà các mô hình được sử dụng
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠
𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 + 𝐹𝑎𝑙𝑠𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠Nếu kết quả dự báo với sensitivity = 100% xác định chính xác tất cả khách hàng đều bị vỡ
nợ Mặt khác với sensitivity = 80%, dự báo đúng 80% khách hàng bị vỡ nợ và dự báo sai 20% khách hàng bị vỡ nợ
Do đó, nếu dự báo với specificity = 100% xác định chính xác tất cả các khách hàng không
vỡ nợ Một dự báo với specificity = 80%, dự báo đúng 80% khách hàng không vỡ nợ và 20% dự báo sai khách hàng không vỡ nợ
3.4.4.3 Accuracy (Precision)
Acuracy được sử dụng để tính toán phần nhỏ của tổng số các dự đoán được phân loại chính xác Một bộ phân loại ngẫu nhiên sẽ nhận được trung bình một nửa số phân loại chính xác Giá
Trang 29trị trên 0.5 cho thấy mô hình có độ chính xác cao hơn khi đoán ngẫu nhiên Một dự đoán hoàn hảo có độ chính xác là 1.0
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 + 𝑇𝑟𝑢𝑒 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠
𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 + 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠 (3.1)Một hạn chế của việc sử dụng độ chính xác để đánh giá hiệu suất của bộ phân loại là cái gọi là nghịch lý độ chính xác Nghịch lý này nói rằng một mô hình có độ chính xác cao hơn có thể có khả năng dự đoán thấp hơn Để giải thích nghịch lý này, giả sử một tình huống trong đó gian lận bảo hiểm phải được phát hiện
3.4.4.4 F1-Score
F1-score là sự kết hợp giữa “precision” và “recall” Trong đó “precision” là kết quả dương tính thực chia cho tổng các kết quả dương tính, kể cả những kết quả không được xác định chính xác Với “recall” là kết quả dương tính thực sự chia cho số lượng tất cả các mẫu lẽ ra đã được xác định là dương tính Giá trị cao nhất có thể có của F1-score là 1,0, cho biết “precision” và
“recall” hoàn hảo, và giá trị thấp nhất có thể là 0, nếu “precision” và “recall” bằng 0
Có thể thấy trong công thức 3.2, điểm F1-score bằng trung bình của “precision” và “recall” Một nhược điểm của F1-score là không tính đến các giá trị tiêu cực thực sự
𝐹1− 𝑠𝑐𝑜𝑟𝑒 = 1 2
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 +𝑟𝑒𝑐𝑎𝑙𝑙1
= 2 ×𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 (3.2)3.4.4.5 Khu vực dưới đường cong (AUC)
Để hiểu chi tiết về khu vực dưới đường cong, trước tiên cần phải giải thích đường cong đặc
tính hoạt động của máy thu (ROC) Nó được sử dụng để hình dung hiệu suất của bộ phân loại và
từ lâu đã được sử dụng trong lý thuyết phát hiện tín hiệu để mô tả sự cân bằng giữa tỷ lệ dương tính đúng và sai của bộ phân loại (Fawcett, 2006)
Đường cong ROC được tạo bằng cách vẽ biểu đồ tỷ lệ dương tính thực (TP / P) so với tỷ
lệ dương tính giả (FP / N) cho các ngưỡng khác nhau Vì các bộ phân loại tính điểm từ 0.0 đến
1.0, một ngưỡng phải được chọn làm biên giới giữa phân loại tích cực và tiêu cực Điểm được
tính toán, x, có thể được coi là được lấy mẫu từ phân phối ngẫu nhiên liên tục X Một trường hợp được phân loại là dương nếu x > T, với T là ngưỡng đã chọn Các ngưỡng khác nhau sẽ dẫn đến
tỷ lệ dương tính đúng và sai khác nhau