PHẦN MỞ ĐẦU 1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài ở trong và ngoài nước 1 1 Ngoài nước Bài toán phân loại lần đầu tiên được đưa ra bởi Fisher (1936) giải quyết cho trường hợp hai[.]
Trang 1Trong những năm gần đây, phương pháp phân loại sử dụng bộ phân loại vector hỗ trợ SVM được sự quan tâm và sử dụng nhiều trong lĩnh vực phân loại và nhận dạng Thuật toán SVM đầu tiên được xây dựng bởi Vladimir Vapink và hình thức chuẩn hiện nay là lề mềm được đề nghị bởi Corinna Cortes và Vladimir Vapnik SVM dạng chuẩn lấy một tập hợp các dữ liệu đầu vào và dự báo mỗi dữ liệu đầu vào ứng với một lớp trong số hai lớp
mà dữ liệu ấy có khả năng rơi vào
Một phương pháp phân loại khác được các nhà thống kê hiện nay đặc biệt quan tâm
đó là phương pháp Bayes Phương pháp này có thể phân loại được cho hai hay nhiều hơn hai tổng thể và không bị ràng buộc bởi các giả thiết phân phối chuẩn, phương sai bằng nhau của các tổng thể nên có xác suất sai lầm trong phân loại nhỏ hơn phương pháp Fisher Các kết quả nghiên cứu mới trong những năm gần đây về bài toán phân loại chủ yếu tập trung xung quanh phương pháp Bayes Rất nhiều công trình nghiên cứu về phương pháp này đã được xuất bản, trong đó phải kể đến các công trình của Fukunaga (1990), McLachlan (1992), Webb (2002), T.Pham-Gia, Turkan (2006,2008), Tuy nhiên trong phương pháp
Trang 2này vấn đề tính toán cho các bài toán ứng dụng thực tế với mẫu lớn còn gặp rất nhiều khó khăn
[1] Martinez, W.L and Martinez, A.R., Computational statistics handbook with
Matlab, Chapman & Hall/CRC, Boca Raton, 2008
[2] Pham–Gia,T and Turkkan, N., Baysian analysis in the L1– norm of the mixing
proportion using discriminant analysis, Metrika, 64(1),2006, 1–22
[3] Pham–Gia, T., Turkkan, N and Bekker, A., Bounds for the Bayes error in
clssification: A Bayesian approach using discriminant analysis, Statistical Methods and
Applications,16, 2006, 7 - 26
[4] Pham–Gia, T Turkkan, N and Tai, Vovan.,The maximum function in statistical
discrimination analysis",Commun.in Stat–Simulation computation,37(2), 2008, 320 – 336 [5] Scott, David W , Mutivariate density estimation:Theory,practice and
visualization visualization, John Wiley&Son, New York, 1992
[6] Webb, A., Statistical pattern recognition, John Wiley & Sons, New York, 2000
1.2 Trong nước
Trong nước chúng tôi chưa tìm thấy đóng góp nào về mặt lý thuyết cho bài toán phân loại, tuy nhiên vấn đề ứng dụng cho bài toán này đã được quan tâm nhiều, nhất là trong lĩnh vực kinh tế Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008) đã áp dụng bài toán phân loại trong kinh tế Một số tác giả khác cũng đã áp dụng bài toán phân loại trong y học với việc xem xét bệnh viêm não Nhật Bản, nguy cơ gãy xương,… Tuy nhiên các ứng dụng trong nước hầu như chỉ sử dụng phương pháp phân loại Logistic mà chưa xem xét kết hợp với các phương pháp khác để có được mô hình phân loại tối ưu
[1] Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp
thống kê xây dựng mô hình định mức tín nhiệm khách hàng thế nhân, Tạp chí ứng dụng
toán học 4(2), tr 1-16
[2] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), Sai số Bayes và khoảng
cách giữa hai hàm mật độ xác suất trong phân loại hai tổng thể, Tạp chí phát triển khoa
học công nghệ, Đại học Quốc gia TPHCM, 11(6), tr 23 – 37
Trang 3[3] Tô Cẩm Tú, Nguyễn Huy Hoàng (2003), Phân tích số liệu nhiều chiều, NXB
Khoa học và Kỹ thuật, Hà Nội
2 Lý do chọn đề tài
Trong các hoạt động của ngân hàng, cung cấp tín dụng có thể nói là hoạt động quan trọng nhất Nếu quá khắc khe trong việc cho vay, ngân hàng có thể để mất những khách hàng tiềm năng, ngược lại có thể phải đương đầu với vấn đề nợ xấu Hiện tại ở nước ta, tình hình nợ xấu ở các ngân hàng rất nghiêm trọng đến mức ngân hàng nhà nước đã đưa ra nhiệm vụ trọng tâm của năm 2013, 2014, 2015 là việc giảm tỷ lệ nợ xấu Đảm bảo sự hợp
lý trong việc cung cấp tín dụng luôn là bài toán khó, có tính chiến lược mà các ngân hàng phải đương đầu và kịp thời giải quyết nếu muốn phát triển Phân loại là việc gán một phần
tử cụ thể vào một trong các tổng thể đã biết trước một cách hợp lý nhất dựa vào các biến quan sát của nó đã trở thành một công cụ định lượng trong cung cấp tín dụng.Trên thế giới
đã có rất nhiều công trình vận dụng bài toán phân loại để đánh giá khả năng trả được nợ vay của những khách hàng cụ thể Ở nước ta cũng có những công trình nghiên cứu việc đánh giá khả năng trả được nợ vay của khách hàng từ hồ sơ tín dụng Đó là là các công trình trên đối tượng khách hàng của các ngân hàng BIDV, TechcomBank, …Tuy nhiên qua tìm hiểu, chúng tôi thấy các nghiên cứu chỉ dựa vào mô hình hồi qui logistic mà không có
sự so sánh với các phương pháp khác Theo chủ quan của chúng tôi, vấn đề tính toán phức tạp của các phương pháp phân loại khác như Fisher, SVM, Bayes là trở ngạy chính trong việc vận dụng số liệu lớn của thực tế Do không có sự so sánh với các phương pháp khác, nên mô hình đánh giá khả năng trả được nợ vay của khách hàng chưa thể là tối ưu Hiện tại bài toán phân loại có nhiều cải tiến về mặt lý thuyết và công cụ tính toán để cho những kết quả hợp lý Những kết quả mới này chưa được vận dụng ở nước ta Cập nhật những kết quả lý thuyết mới, giải quyết vấn đề tính toán của các phương pháp phân loại từ số liệu rời rạc, để tìm mô hình tối ưu trong đánh giá khả năng trả được nợ vay của khách hàng là vấn
đề đang được đặt ra của thực tế ở nước ta
3 Mục tiêu đề tài
Giải quyết vấn đề tính toán của các phương pháp phân loại với số liệu lớn, nhiều chiều để tìm mô hình tối ưu trong đánh giá khả năng trả được nợ vay của khách hàng
Trang 44 Phương pháp nghiên cứu
- Tổng hợp tài liệu về các phương pháp phân loại, phân tích, vận dụng giải quyết vấn đề của thực tế với số liệu lớn
- Sử dụng phần mềm thống kê R, phần mềm thống kê SPSS, phần mềm Weka và phần mềm Matlab thực hiện việc xử lý số liệu và tính toán
- Sử dụng tiêu chuẩn xác suất sai lầm trong phân loại để lựa chọn mô hình phù hợp nhất
5 Đối tượng và phạm vi nghiên cứu
a/ Đối tượng nghiên cứu: Các phương pháp phân loại, vấn đề tính toán và áp dụng trong ngân hàng
b/ Phạm vi nghiên cứu: Sử dụng các phương pháp phân loại Fisher, Logistic, SVM
và Bayes với số liệu thứ cấp thu thập được về khả năng vay trả nợ của khách hàng Vietcombank
6 Kết quả của đề tài
6.1 Kết quả trong báo cáo phân tích
Các kết quả được trình bày gồm những nội dung sau:
- Các phương pháp phân loại và tiêu chuẩn để lựa chọn các mô hình tối ưu
- Xây dựng ba chương trình phân loại theo phương pháp Bayes từ số liệu rời rạc (ước lượng hàm mật độ xác suất, phân loại một phần tử mới, tính sai số Bayes)
- Tìm được mô hình phân loại khả năng trả nợ vay của ngân hàng Vietcombank tốt nhất trong các mô hình được xây dựng qua các phương pháp phân loại Fisher, logistic, SVM và Bayes
- Một số nhận xét liên quan đến khả năng trả nợ vay của khách hàng ngân hàng Vietcombank
6.2 Kết quả đào tạo
Hỗ trợ một luận văn đại học, bảo vệ thành công
6.3 Hiệu quả của nghiên cứu
Trang 5Kết quả đề tài là một hướng nghiên cứu triển vọng của các ứng dụng thống kê trong kinh tế, đặt biệt là các phương pháp phân loại Và có thể mở rộng ra các lĩnh vực khác như: giáo dục, y học, nông nghiệp, các vấn đề trong xã hội,…
Đề tài thực hiện là một trong những cách hiểu quả nhất để có thể vận dụng kiến thức thống kê đã học vận dụng vào thực tế trên các lĩnh vực khách nhau của địa phương và đất nước sau này
Đề tài cũng là tài liệu tham khảo hữu ích trong đào tạo và hướng nghiên cứu khoa học cho sinh viên ngành Toán ứng dụng của trường Đại học Cần Thơ
Trang 6CHƯƠNG 3
ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY CỦA KHÁCH HÀNG
NGÂN HÀNG VIETCOMBANK
3.1 GIỚI THIỆU
3.1.1 Mô hình ứng dụng bài toán phân loại trong ngân hàng
Bài toán phân loại đã và đang được áp dụng cho nhiều lĩnh vực khác nhau, đặc biệt trong ngân hàng Khi khách hàng (cá nhân, doanh nghiệp,…) đến vay vốn, nếu cán bộ tín dụng không có khả năng đánh giá thông tin sẽ có cái nhìn lệch lạc về khách hàng dẫn đến sai lầm trong cấp tín dụng: cho vay khách hàng có rủi ro nhưng lại từ chối khách hàng tốt, hoặc cấp tín dụng vượt nhu cầu thật sự tạo điều kiện cho khách hàng sử dụng vốn sai mục đích, bị khách hàng lừa đảo Trong những năm qua, hệ thống ngân hàng Việt Nam phát triển mạnh nhưng nợ xấu cũng tăng nhanh chóng, gây rủi ro lớn cho hoạt động của ngân hàng Nhu cầu đánh giá khả năng trả nợ của khách hàng để cho vay trở thành một nhiệm
vụ quan trọng đối với các ngân hàng hiện nay Mỗi khách hàng đến vay vốn tại các ngân hàng sẽ được xác định bởi một bộ thông tin (do khách hàng cung cấp, kết hợp với sự điều
tra từ cán bộ tín dụng) Thông tin của khách hàng là một véc tơ n chiều gồm các biến định tính và định lượng Với n biến này, cán bộ tín dụng cần phân loại khách hàng thuộc nhóm
nào, từ đó quyết định cho khách hàng vay hay không với mức sai lầm thấp nhất
3.1.2 Bài toán áp dụng
Trong phần này chúng tôi áp dụng các phương pháp phân loại đã trình bày trong chương 2, chương 3 và chương 4 để thực hiện cho một áp dụng cụ thể của thực tế Đó là việc đánh giá khả năng trả nợ vay của các khách hàng ngân hàng Vietcombank
3.2 TỔNG QUAN VIỆC THỰC HIỆN
3.2.1 Số liệu
Số liệu thứ cấp là thông tin cá nhân khách hàng của ngân hàng Vietcombank Cần Thơ Số liệu được trích dẫn từ một luận văn cao học thuộc lĩnh vực tài chính ngân hàng năm 2014 (Phụ lục)
Trang 7Số liệu là thông tin của 165 doanh nghiệp hoạt động trong các lĩnh vực quan trọng:
Nông nghiệp, công nghiệp, thương mại Trong đó có 24 doanh nghiệp có nợ quá hạn (Y = 1) và 141 doanh nghiệp không có nợ quá hạn (Y = 0) Theo ý kiến ban đầu của các chuyên
gia ngân hàng, mỗi doanh nghiệp được đánh giá bởi 9 biến Các biến này lần lượt giải thích như sau:
i) Y: Tình trạng nợ của doanh nghiệp
Nhóm 2: Dư nợ cần chú ý, các khoản nợ quá hạn từ 10 ngày đến 90 ngày
Nhóm 3: Dư nợ dưới tiêu chuẩn, các khoản nợ quá hạn không trả được
Nhóm 4: Dư nợ có nghi ngờ, các khoản nợ quá hạn khó trả được
Nhóm 5: Dư nợ có khả năng mất vốn, các khoản nợ quá hạn không trả được
Các khách hàng ở nhóm 1 và nhóm 2 có giá trị Y = 0, các khách hàng ở nhóm 3, nhóm
4 và nhóm 5 có giá trị Y = 1
ii) X1: Quy mô của doanh nghiệp
X1 = 0: Doanh nghiệp siêu nhỏ, nhỏ hoặc vừa
iv) X3: Kinh nghiệm quản lý Đợn vị tính là năm
v) X4: Tỷ suất sinh lời của chủ sỡ hữu (ROE – Return On Equity)
Trang 8ROE = Lợi nhuận sau thuế
ROE có giá trị dương khi doanh nghiệp kinh doanh có lãi, khi doanh nghiệp bị lỗ REO có giá trị âm, hoạt động kinh doanh của doanh nghiệp càng tốt thì ROE càng lớn vi) X5: Đòn bẫy tài chính (FL – Financial Leverage)
FL =Tốc độ thay đổi của lợi nhuận ròng
Tốc độ thay đổi của EBIT
FL đo lường sự thay đổi của lợi nhuận ròng (lợi nhuận sau thuế) trước sự thay đổi
của thu nhập trước thuế và lãi vay (EBIT – Earnings Before Interst and Tax) FL phụ thuộc vào đòn cân nợ (R D ) tức tỷ lệ nợ chiếm trên tổng tài sản FL còn được xem là tỷ lệ thay đổi
của tỷ suất lợi nhuận sau thuế trên vốn chủ sở hữu phát sinh do sự thay đổi của lợi nhuận trước thuế và lãi vay
vii) X6: Vòng quay tài sản (Total Assets Turnover Ratio)
Vòng quay tài sản (RA) = Doanh thu thuần
Tổng tài sản bình quânVòng quay tổng tài sản giúp đánh giá hiệu quả sử dụng tài sản, tỷ lệ này phản ánh giá trị của một đồng tài sản khi tham gia vào quá trình kinh doanh sẽ tạo ra bao nhiêu đồng doanh thu Hiệu quả sử dụng tài sản càng lớn thì chỉ số này càng lớn và ngược lại
viii) X7: Thanh toán hiện hành (Current Ratio)
Tỷ số thanh toán hiện hành (RC) =Giá trị tài sản ngắn hạn (lưu động)
Giá trị nợ ngắn hạnTài sản ngắn hạn (còn gọi là tải sản lưu động) là một loại tài sản trong bảng cân đối, trong đó dự kiến sẽ được bán hoặc sử dụng hết trong tương lai gần, thường là trong vòng một năm hoặc một chu kỳ kinh doanh tùy cái nào dài hơn Tỷ số thanh toán hiện hành cho biết: Cứ mỗi đồng nợ ngắn hạn mà doanh nghiệp đang giữ thì có bao nhiêu đồng tài sản ngắn hạn có thể sử dụng để thanh toán Khi tỷ số này nhỏ hơn 1 có nghĩa là doanh nghiệp không đủ tài sản có thể sử dụng ngay để thanh toán khoản nợ ngắn hạn sặp đáo hạn Độ lớn của tỷ số này thường phụ thuộc vào ngành nghề kinh doanh
ix) X8: Thanh toán nhanh (Quick Ratio)
Trang 9Tỷ số thanh toán nhanh (RQ) = Tiền và các khoản tương đương tiền
Giá trị nợ quá hạn và giá trị nợ tới hạn
Tỷ số thanh toán nhanh phản ánh khả năng trả nợ ngay của doanh nghiệp, thông thường độ lớn của tỷ số này phụ thuộc vào ngành nghề kinh doanh
x) X9: Thời gian quan hệ tín dụng Đơn vị là năm
3.2.2 Thống kê mô tả dữ liệu
Thống kê mô tả theo nhóm không có nợ (Y = 0)
Bảng 3.2 Một số thống kê theo nhóm không có nợ (Y = 0)
Trang 10Nhận xét: Nhìn vào kết quả của hai bảng 3.1 và bảng 3.2 ta thấy kinh nghiệm quản
lý (biến X3) của nhóm Y = 0 cao hơn nhóm Y = 1, và vòng quay tài sản (biến X6) của nhóm
Y = 0 cũng cao hơn nhóm Y = 1
Kiểm định trung bình giữa hai nhóm:
Bảng 3.3 Các bảng kiểm định trung bình hai nhóm
Trang 11Test Statistics a
Mann-Whitney U 1545.0 1362.0 1120.0 1015.5 1376.5 725.5 898.5 1001.0 1672.0 Wilcoxon W 11556.0 11373.0 1420.0 1315.5 11387.5 1025.5 1198.5 1301.0 11683.0
Z -.785 -1.868 -2.719 -3.128 -1.458 -4.467 -3.668 -3.194 -.093 Asymp Sig (2-
a Grouping Variable: Y
Nhận xét: Với giả thuyết đặt ra là trung bình của hai nhóm với các biến là như nhau
Ta thấy biến X3, X4, X6, X7 và X8 đều có giá trị Sig nhỏ hơn 0.05 nên ta bác bỏ giả thuyết nghĩa là có sự khác nhau của hai nhóm ở những biến này Cụ thể ta nhìn ở bảng
Ranks, xem cột Mean Ranks thì trung bình hạn của nhóm Y = 0 cao hơn nhóm Y = 1 ở
những biến có giá trị Sig nhỏ hơn 0.05
Trang 12ii) Lựa chọn biến độc lập có ý nghĩa thống kê đưa vào mô hình phân loại
iii) Sử dụng các biến có ý nghĩa thống kê trên, kiểm tra sự khác nhau giữa hai nhóm phân loại bằng phương pháp Hotelling
iv) Tìm mô hình phân loại tối ưu theo từng phương pháp: Logistic, Fisher, SVM và Bayes Thực hiện một số phân tích cho mô hình phân loại tối ưu đã chọn của mỗi trường hợp
v) Tổng hợp các mô hình phân loại tối ưu của mỗi trường hợp, rút ra một số nhận xét, đánh giá về khả năng ứng dụng thực tế của các mô hình phân loại xây dựng được
iv) Đối với phương pháp Bayes, từ số liệu rời rạc đề tài tiến hành ước lượng hàm mật
độ xác suất theo phương pháp hàm hạt nhân theo chương trình 1 và 2 việc tính sai số Bayes được thực hiện theo chương trình 4 và 5 Đối với trường hợp xác định xác suất tiên nghiệm theo thuật toán FCM được thực hiện theo chương trình 3 Tất cả được xây dựng trên phần mềm Matlab
3.3 KẾT QUẢ THỰC HIỆN TRÊN TẬP HUẤN LUYỆN
3.3.1 Kiểm tra hiện tượng đa cộng tuyến
Tính hệ số tương quan cặp giữa các biến định lượng ta có bảng tổng hợp kết quả sau:
Trang 13Bảng 3.5 Hệ số tương quan Spearson giữa các biến
X5 Pearson Correlation 235 ** 308 ** 074 194 * 1 216 * -.243 ** -.113 135 Sig (2-tailed) 007 000 396 026 .013 005 196 123
X6 Pearson Correlation 063 109 179 * 122 216 * 1 -.040 -.010 -.053 Sig (2-tailed) 471 215 040 164 013 .650 913 548
** Correlation is significant at the 0.01 level (2-tailed)
* Correlation is significant at the 0.05 level (2-tailed)
Từ bảng 3.5 Cho ta thấy 2 biến X7 và X8 có tương quan tương đối chặc với nhau (hệ
số tương quan bằng 0.645) Điều này cho thấy nếu đưa cùng 2 biến này vào mô hình thì sẽ
xảy ra hiện tượng đa cộng tuyến Vì vậy, chúng ta tiến hành loại bỏ biến trước khi dự báo
Trường hợp 1: Loại biến X7
Kết quả phân loại khi bỏ biến này được cho bởi bảng sau:
Trang 14Bảng 3.6 Độ chính xác của mô hình khi loại X7
a The cut value is 500
Trường hợp 2: Loại bỏ biến X8
Kết quả phân loại khi bỏ biến này được cho bởi bảng sau:
Bảng 3.7 Độ chính xác của mô hình khi loại X8
Nhận xét: Khi ta loại bỏ biến X7 thì xác suất phân loại đúng của mô hình là 88.6%,
loại bỏ biến X8 xác suất phân loại đúng là 87.9% Vì vậy ta loại bỏ biến X8 ra khỏi mô hình Như thế đề tài chỉ còn lại 8 biến độc lập
Trang 15P-value: 0.0003869
Giá trị p-value = 0.0003869 < 0.05 Vậy theo kiểm định Hotelling chúng ta kết luận
có sự khác biệt giữa hai tổng thể
3.3.3 Phương pháp hồi qui logistic
a) Lựa chọn biến có ý nghĩa thống kê
Sử dụng tất cả biến độc lập để tiến hành phân tích hồi qui logistic trên SPSS, ta thu được kết quả trong bảng sau:
Bảng 3.8 Lựa chọn biến có ý nghĩa thống kê bằng phương pháp hồi qui Logistic
Variables in the Equation
b) Khảo sát khả năng phân loại đúng
Thực hiện phân tích trên phần mềm SPSS với 3 biến X2, X3 và X6 cho ta kết quả tổng hợp các trường hợp như sau: