Bài của ThS.Nguyễn Tiến Hưng,ThS.Lê Thị Huyền Trang

46 © Học viện Ngân hàng ISSN 1859 011X Tạp chí Khoa học & Đào tạo Ngân hàng Số 193 Tháng 6 2018 Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất[.]

Trang 1

Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo

Nguyễn Tiến Hưng

Lê Thị Huyền Trang

Ngày nhận: 03/06/2018 Ngày nhận bản sửa: 06/06/2018 Ngày duyệt đăng: 18/06/2018

Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn

đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm

trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam

Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại

các nước phát triển được tiến hành nhằm nâng cao tính chính xác

của các mô hình chấm điểm tín dụng Tuy nhiên, tại Việt Nam chưa

có nhiều nghiên cứu về lĩnh vực này Các nghiên cứu chủ yếu sử dụng

các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA)

Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết

định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo

(ANN) Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả

của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu

hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính

xác cho các mô hình chấm điểm tín dụng

Từ khóa: Chấm điểm tín dụng, Cây quyết định, K láng giềng gần

nhất, Mạng thần kinh nhân tạo

1 Giới thiệu

hấm điểm tín dụng được hiểu một cách rộng rãi là việc đánh giá rủi ro tiềm tàng của các đối tượng đi vay theo một thang điểm nhất định Mô hình chấm điểm tín dụng là một công cụ giúp cho nhà

quản trị biết được khi nào họ nên cho vay, với

số lượng tiền là bao nhiêu và họ cần phải xây dựng những chiến lược gì để gia tăng được lợi nhuận trong khi vẫn quản lý hiệu quả các rủi ro

đi kèm Việc xây dựng được một công cụ chấm điểm hiệu quả đem lại rất nhiều lợi ích cho các TCTD:

○ Cải thiện dòng vốn

○ Bảo đảm tài sản thế chấp là phù hợp

○ Giảm các khoản lỗ tín dụng

Trang 2

○ Giảm chi phí phân tích tín dụng

○ Giảm thời gian đưa ra quyết định cấp tín

dụng

○ Đa dạng hoá các sản phẩm tín dụng theo các

phân cấp rủi ro khác nhau

○ Hiểu được hành vi của khách hàng

Chấm điểm tín dụng đo lường định lượng rủi ro

tiềm tàng của khách hàng bằng cách phân tích

dữ liệu cá nhân để tìm ra khả năng vỡ nợ của họ

với khoản vay trong tương lai Hoạt động này

cũng có thể được hiểu như là một kỹ thuật khai

phá dữ liệu, tìm kiếm các quy luật của các dữ

liệu lịch sử và áp dụng đưa ra quyết định cấp

tín dụng cho các khách hàng trong tương lai

Các kĩ thuật khai phá dữ liệu sử dụng trong lĩnh

vực chấm điểm tín dụng được phát minh từ thập

niên 50 thế kỉ trước (Lando, 2004) Đến nay, đã

có rất nhiều các kĩ thuật được phát triển và ứng

dụng, trong đó phổ biến nhất phải kể đến các

kĩ thuật như: Phân tích phân biệt (DA), logit,

K láng giềng gần nhất, mạng thần kinh nhân

tạo (ANN) (Thomas và cộng sự, 2009; Abdou,

2011) Sự bùng nổ của công nghệ thông tin 4.0

cùng với sự phát triển của trí tuệ thông minh,

thì việc tập trung vào khai phá dữ liệu sử dụng

các kỹ thuật trí tuệ nhân tạo đang là xu hướng

trong lĩnh vực chấm điểm tín dụng

Bên cạnh sự phát triển của các kĩ thuật phân

loại đơn lẻ, đã có nhiều nghiên cứu tiến hành

đánh giá hiệu quả của việc kết hợp các thuật

toán đơn lẻ nhằm tối đa hoá khả năng dự báo

trong các mô hình chấm điểm tín dụng Một số

nghiên cứu của Kim và cộng sự (2001), Ahn và

cộng sự (2009), Luo và cộng sự (2009) đề cập

đến việc sử dụng các kĩ thuật phân loại dữ liệu

như Seft-Organzing Map (SOM), thuật toán

di truyền (GA), thuật toán phân

nhóm (K-MC), sau đó sử dụng

dữ liệu mới này cho các mô hình

chấm điểm như phân tích phân biệt

(DA), Logit (LR), K-NN, ANN

Một số nghiên cứu khác của Lee

và cộng sự (2005), Li và cộng sự

(2010) kết hợp các kĩ thuật phân

loại, trong đó kết quả dự báo của

kĩ thuật này sẽ được sử dụng như

là một nhân tố đầu vào cho kĩ thuật

khác Đã có rất nhiều cách kết

hợp hiệu quả đã được tìm ra, tuy nhiên càng kết hợp nhiều kỹ thuật thì việc giải thích sự tác động giữa các dữ liệu đầu vào đến kết quả điểm được chấm càng khó khăn Bài nghiên cứu sẽ xây dựng, đánh giá hiệu quả của mô hình kết hợp các mô hình DT_LR, DT_KNN, DT_ANN, nhằm tăng cường độ chính xác cho các mô hình chấm điểm tín dụng

2 Các mô hình xếp hạng tín dụng

2.1 Mô hình Logit

Mô hình Logit là mô hình hồi quy với biến phụ thuộc (Y) là biến nhị phân, chỉ nhận hai giá trị

là 0 và 1; các biến độc lập có thể là biến nhị phân, biến rời rạc hoặc biến liên tục Trong mô hình xếp hạng tín dụng, biến phụ thuộc Y nhận giá trị 0 khi khách hàng không trả được nợ và

1 khi khách hàng trả được nợ (Lee và cộng sự, 2000) Các biến độc lập đại diện cho các thông tin định tính và định lượng của khách hàng như thu nhập, độ tuổi, giới tính, trình độ học vấn Sau khi hồi quy mô hình Logit, thu được Ŷ = α + β1X1 + β2X2 + + βkXk là giá trị ước lượng của Y Khi đó, xác suất trả nợ của khách hàng được tính bằng công thức sau:

P = 1/ (1 + e−Y) Giá trị P nhận được trong khoảng (0,1) được

so sánh với các ngưỡng mà ngân hàng đặt ra

để xếp hạng khách hàng Tuy nhiên, trong bài nghiên cứu này, để dễ dàng hơn trong việc so sánh hiệu quả của các mô hình, giá trị ngưỡng

để phân loại khách hàng được chọn là 0,5 Điều này có nghĩa rằng nếu giá trị P < 0,5, khách hàng sẽ được dự báo vỡ nợ, và ngược lại nếu P

Hình 1 Cây quyết định (Decision tree)

Nguồn: Abdou (2011)

Trang 3

≥ 0,5, khách hàng sẽ được dự báo trả được nợ.

2.2 Cây quyết định (Decision Tree- DT)

Cây quyết định (DT) là một kiểu mô hình phân

lớp các quan sát dựa vào dãy các luật Mô hình

này bao gồm một nút gốc (Root node), các nút

bên trong (Internal node) và nút lá (Leaf node)

Mỗi một nút trong DT tương ứng với một biến;

đường nối giữa nó với nút con của nó thể hiện

một giá trị cụ thể cho biến đó (đây chính là điều

kiện hay luật để phân nhánh cho mỗi node)

Mỗi nút lá đại diện cho giá trị dự đoán của biến

mục tiêu; các giá trị cho trước của các biến

được biểu diễn bởi đường đi từ nút gốc tới nút

lá đó (Hình 1)

Cây quyết định được xây dựng bằng cách phân

tách thuộc tính các giá trị tại mỗi nút dựa trên

một thuộc tính đầu vào Quá trình phân lớp sử

dụng các thuộc tính phân tách được thực hiện

liên tục cho tới khi gặp các nút lá (giá trị mục

tiêu) Tập hợp các luật đường đi từ nút gốc tới

nút lá sẽ xác định cho chúng ta các luật quyết

định mà hàm mục tiêu trả về giá trị là mức độ

rủi ro tương ứng với khách hàng

DT là một phương pháp phân lớp rất hiệu quả

và dễ hiểu Tuy nhiên, hiệu quả phân lớp của

cây quyết định phụ thuộc rất lớn vào dữ liệu

huấn luyện (training data) Do vậy, việc sử

dụng một bộ dữ liệu lớn về lịch sử vay nợ của

khách hàng là rất cần thiết để xây dựng mô hình

DT đáng tin cậy

2.3 K Láng giềng gần nhất (K-Nearest Neighbor- KNN)

KNN là phương pháp học máy để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp và tất cả các đối tượng trong dữ liệu huấn luyện Lớp của một điểm dữ liệu mới (hay phân loại khách hàng) được suy

ra trực tiếp từ K điểm dữ liệu gần nhất trong

dữ liệu huấn luyện Lớp này có thể được quyết định theo lớp có số lượng điểm (trong K điểm gần nhất) nhiều nhất

Từ Hình 2 có thể thấy, nếu chọn số điểm gần nhất để phân loại là 3 thì xung quanh điểm cần phân lớp có 3 điểm trong đó 1 điểm thuộc lớp 1

và 2 điểm thuộc lớp 2 Với số điểm thuộc lớp 2 nhiều hơn, điểm cần phân lớp được đưa vào lớp

số 1 Tương tự như vậy, nếu lựa chọn số điểm gần nhất k=5 thì có năm điểm xung quanh điểm cần phân lớp, trong đó có 3 điểm thuộc lớp số 1

và 2 điểm thuộc lớp 2 Nếu theo dữ liệu này thì điểm cần phân lớp sẽ thuộc lớp số 1

Trên thực tế dữ liệu cần phân loại có nhiều thuộc tính trong đó mỗi thuộc tính tương ứng với một chiều không gian, do vậy khi tính khoảng cách gần nhất cần tính khoảng cách vector trong không gian đa chiều với công thức khoảng cách Euclidean:

Hình 2 K Láng giềng gần nhất (K-Nearest neighbor- KNN)

Nguồn: Marinakis và cộng sự (2008)

Trang 4

Trong đó: x, y là 2 điểm cần xác định khoảng

cách; n là số chiều không gian (số thuộc tính

của biến mục tiêu)

2.4 Mô hình Mạng Nơ ron nhân tạo (ANN)

Nơ ron nhân tạo

Ý tưởng về mạng nơ ron nhân tạo

(ANN) được hình thành từ những quan

sát bộ não con người với chức năng cơ

bản là tiếp nhận thông tin, xử lý thông

tin và đưa ra kết quả Cụ thể, bộ não

được cấu thành từ các nơ ron liên kết

với nhau Mỗi nơ ron tiếp nhận thông

tin đầu vào, xử lý và xuất thông tin đầu

ra Vì các nơ ron có sự liên kết phức tạp

với nhau nên thông tin đầu ra của nơ

ron này sẽ là thông tin đầu vào của nơ

ron khác Đến khi các thông tin được

xử lý thỏa mãn theo các yêu cầu thì não

bộ sẽ ngừng quá trình này lại và đưa ra

kết quả cuối cùng

Sự tương tác phức tạp của hàng tỉ nơ

ron được mô hình hóa thành các mô

hình nơ ron nhân tạo (ANN) Về cơ

bản, ANN cấu tạo bởi các nơ ron nhân

tạo hay còn được gọi là các “node”

Hình 3 mô tả cơ chế hoạt động của một

node

Các biến số sẽ được các node tiếp nhận

theo các trọng số khác nhau thể hiện

sự quan trọng của các nhân tố đầu vào

này Các biến số đầu vào sau khi nhân

với các trọng số sẽ được lấy tổng để

trở thành 1 đầu vào duy nhất Tại các node sẽ

có các hàm kích hoạt để tính toán các kết quả đầu ra Trong nghiên cứu này, để có sự tương đồng với mô hình logit, hàm kích hoạt sigmoid

sẽ được dùng để xây dựng mô hình ANN Hàm

Hình 3 Cơ chế hoạt động nơ ron nhân tạo (node)

Nguồn: Lee và cộng sự (2000)

Hình 4 Mô hình mạng nơ ron đa lớp truyền thẳng

(MLP)

Nguồn: Lee và cộng sự (2005)

Trang 5

sigmoid được mô tả bởi công thức S(x) = 1/

(1- ), do đó, với mọi giá trị đầu vào x nhận giá

trị từ -∞ đến +∞ thì kết quả đầu ra nằm trong

khoảng (0,1)

Mạng Nơ ron nhân tạo

Một mạng nơ ron đầy đủ bao gồm 3 lớp với tên

gọi lớp đầu vào (input layer), lớp ẩn (hidden

layer) và lớp đầu ra (output layer) Trong đó

một mạng nơ ron có thể có nhiều hơn một lớp

ẩn, tuy nhiên, Lee và cộng sự (2005) chỉ ra rằng

mạng nơ ron một lớp ẩn có thể giải quyết hầu

hết các bộ số liệu kinh tế phức tạp Mỗi lớp

được cấu tạo từ một cho đến nhiều node Trong

lịch sử phát triển của mạng nơ ron nhân tạo,

nhiều kiểu kiến trúc mạng quy định kết nối giữa

các node được hình thành, tuy nhiên, bài nghiên

cứu sử dụng mạng nơ ron truyền thẳng đa lớp

(MLP), một trong những mạng được sử dụng

phổ biến và đem lại hiệu quả cao nhất

Cấu trúc của mạng truyền thẳng đa lớp được

mô tả trong Hình 4 Số lượng node trong một

lớp và số lượng lớp phụ thuộc vào sự phức tạp

của cơ sở dữ liệu đầu vào và yêu cầu xử lý Các

node của lớp trước sẽ được truyền thẳng và kết

nối tới tất cả node của lớp sau Thông tin lan

truyền trong mạng sẽ được gắn với các trọng số

khác nhau

Các trọng số được ước lượng bằng thuật

toán lan truyền ngược (Back-Propagation

alogorithm), lần đầu tiên được giới thiệu bởi

Rumelhart và cộng sự (1986) Thuật toán này

điều chỉnh liên tục các trọng số của các kết nối

trong mạng để tối thiểu hóa sự khác biệt giữa

giá trị đầu ra ước lượng và giá trị đầu ra thực

tế, quá trình này còn được gọi là quá trình huấn

luyện mạng Cụ thể, trong giai đoạn đầu tiên

khi hình thành mạng MLP, các trọng số được

khởi tạo ngẫu nhiên Các giá trị đầu ra của

mạng được thiết lập thông qua giá trị bộ giữ

liệu đầu vào Sự chênh lệch giữa giá trị đầu ra

ước lượng và đầu ra thực tế, hay còn gọi là sai

số của mạng được xác định bởi công thức:

Trong đó f(Xi) là ước lượng đầu ra thứ i, Yj là

giá trị đầu ra thực tế và p là số trường hợp trong

bộ dữ liệu Sau mỗi lần huấn luyện mạng sai số

sẽ được lan truyền ngược lại và các trọng số sẽ được điều chỉnh để giảm sai số Quá trình huấn luyện sẽ dừng lại khi khi mạng đạt được sai số nhỏ nhất, hay nói cách khác, mạng MLP đạt được cấu trúc hợp lý nhất để hiểu về bộ dữ liệu

3 Đề xuất Mô hình kết hợp

Phương pháp kết hợp này dùng để cải thiện hiệu suất và độ chính xác phân loại Hệ thống phân loại được chia làm nhiều lớp dựa trên sự kết hợp của hai hay nhiều các mô hình phân loại để đạt được hiệu suất cao hơn Mục tiêu của các mô hình kết hợp là sẽ điều chỉnh các tập dữ liệu huấn luyện, xây dựng các tập dữ liệu đào tạo mới trong đó có sử dụng được kết quả (thế mạnh dự báo) của các mô hình khác Nhiều nghiên cứu chỉ ra rằng dữ liệu huấn luyện có thể không cung cấp đủ thông tin để lựa chọn một mô hình phân loại tốt nhất Việc sử dụng các mô hình phân loại kết hợp có thể bù trừ giảm thiểu những hạn chế của các mô hình đơn lẻ

Một số nghiên cứu trước đây của Peter và cộng

sự (2015), Radall (2017) đã tiến hành kết hợp

mô hình DT và mô hình mạng ANN Sự kết hợp này được đánh giá là hiệu quả khi hai mô hình được kết hợp có chung khả năng là xử lý khối lượng dữ liệu lớn Mô hình DT với ưu điểm là khả năng giải thích biến rõ ràng giúp cải thiện khả năng giải thích của mô hình chấm điểm tín dụng khi kết hợp với các mô hình “hộp đen” như ANN

Mô hình đề xuất trong bài nghiên cứu là sự kết hợp giữa mô hình DT và các mô hình LR, KNN, ANN nhằm so sánh hiệu quả giữa mô hình kết hợp với các kĩ thuật hiện đại và truyền thống Quy trình kết hợp được mô tả trong Hình

5, trong đó mô hình DT được thiết lập dựa trên

bộ dữ liệu nghiên cứu Kết quả từ mô hình DT bao gồm dự báo về phân loại khách hàng và xác xuất rủi ro được xem như 2 biến mới để kết hợp với bộ dữ liệu đã có làm nhân tố đầu vào cho các mô hình được kết hợp cùng

4 Dữ liệu nghiên cứu

Trang 6

Bài nghiên cứu sử dụng dữ liệu thông tin về

các khoản vay tiêu dùng và kinh doanh cá nhân

được trích xuất trực tiếp từ cơ sở dữ liệu tại một

ngân hàng thương mại Nhà nước trong khoảng

thời gian từ năm 2009 đến 2014 Sau khi loại

bỏ các trường hợp thiếu sót và cân nhắc giữa số

lượng đặc điểm khách hàng và số lượng khách

hàng, bộ dữ liệu cuối cùng được sử dụng bao

gồm thông tin về 15.470 khách hàng cá nhân

với 19 đặc điểm (trong đó 18 đặc điểm được ký

hiệu thành các biến từ x1 đến x18, đặc điểm thứ

19 là tình trạng nợ, tương ứng với cột “Tỷ lệ”-

Bảng 1)

Các khoản nợ cá nhân được phân loại thành

12.118 khoản nợ tốt (hoàn trả trong hạn hoặc

thời gian quá hạn dưới 90 ngày) chiếm tỉ trọng

78,3% và 3.352 khoản nợ xấu (quá hạn từ 90

ngày trở lên) chiếm tỉ trọng 21,7% Có một lưu

ý rằng, nợ xấu và nợ tốt trong bài nghiên cứu này có sự khác biệt với nợ đủ tiêu chuẩn và nợ xấu theo quy định phân loại nợ của Ngân hàng Nhà nước Việt Nam, và những tỉ lệ này không đại diện cho tỉ lệ nợ xấu và nợ đủ tiêu chuẩn của toàn bộ hệ thống ngân hàng mà tác giả nghiên cứu

Bảng 1 mô tả về các dữ liệu khách hàng được đưa vào xây dựng mô hình chấm điểm tín dụng, mỗi đặc tính được phân chia thành các nhóm với tỉ trọng từng nhóm Bảng thống kê cho thấy

cơ sở dữ liệu có sự đa dạng về thông tin khách hàng và phù hợp trong việc xây dựng các mô hình xếp hạng tín dụng

5 Kết quả nghiên cứu

5.1 Kết quả của các mô hình đơn lẻ

Nguồn: Tác giả đề xuất

Hình 5 Cấu trúc của mô hình kết hợp

Bảng 1 Mô tả dữ liệu

Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm

Đặc điểm khách

hàng Nhóm Tỉ lệ (%) Nhóm Tỉ lệ (%) Nhóm Tỉ lệ (%) Nhóm Tỉ lệ (%) Tuổi (X1) 0 đến 30 6,90 30 đến 45 49,60 45 đến 60 40,20 Trên 60 3,30 Giới tính (X2) Nữ 30,30 Nam 67,90

Trang 7

Để đảm bảo độ tin cậy và tính đại diện của các

kết quả phân loại, các mô hình được thực hiện

lặp lại 10 lần và kết quả phân loại cuối cùng

là trung bình kết quả của các lần chạy trước

Kết quả của các mô hình đơn lẻ cho thấy mô

hình ANN có độ chính xác cao nhất khi phân loại các khoản nợ xấu với tỷ lệ phân loại đúng 52,47% trong khi mô hình KNN kém hiệu quả nhất khi chỉ phân loại đúng được 36,28% các khoản nợ xấu Đối với các khoản nợ tốt thì

Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm

Đặc điểm khách

hàng Nhóm Tỉ lệ (%) Nhóm Tỉ lệ (%) Nhóm Tỉ lệ (%) Nhóm Tỉ lệ (%) Trình độ (X3) Dưới trung học 34,40 Trung học 35,30 Trung cấp, và trên 30,30

Sở hữu nhà (X4) không 4,50 có 95,50

Người phụ thuộc (X5) 0 đến 1 35,20 Trên 1 64,80

Hôn nhân (X6) Độc thân 8,80 Đã có gia đình 91,20

Quan hệ với gia đình

(X7) Xấu 2,10 Tốt 97,90

Năm làm việc (X8) 0 đến 5 8,80 5 đến 10 15,90 Trên 10 75,30

Nghề nghiệp (X9) Lao động không đào tạo 16,80 Lao động được đào tạo 52,50 Văn phòng, CNVC 30,70

Bảo hiểm nhân thọ

(X10) Không 90,90 Có 9,10

Thu nhập hàng tháng

(X11) (triệu VND) 0 đến 3,5 11,30 3,5 đến 10 39,90 Trên 10 48,70

Tài khoản thanh toán

(X12) Không 46,40 Có 53,60

Tài khoản tiết kiệm

(X13) Không 95,30 Có 4,70

Đặc điểm khoản vay

Lãi suất (X14) Thấp 4,90 Cao 95,10

Thời hạn (X15) (ngày) 0 đến 185 36,40 185 đến 365 41,00 Trên 365 22,60

Giá trị khoản vay (X16) 0 đến 50 37,10 50 đến 100 22,60 100 đến 200 18,30 Trên 200 22,00 Mục đích vay (X17) Tiêu dùng 9,00 Kinh doanh 91,00

Phương thức trả (X18) Một lần 78,40 Từng phần 21,60

Tình trạng nợ (X19) Nợ xấu 21,7 Nợ tốt 78,3

Bảng 2 Kết quả phân loại của các mô hình đơn lẻ

Mô

hình

Mẫu huấn luyện (30%) Mẫu kiểm tra (70%) Tổng thể

CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể%

DT 37,60 89,49 78,24 38,91 87,42 76,90 38,52 88,04 77,31

LR 39,50 92,94 81,36 38,89 93,94 82,01 39,07 93,64 81,81 KNN 35,54 97,94 84,42 36,59 96,83 83,78 36,28 97,16 83,97 ANN 51,97 94,33 85,15 52,69 94,02 85,06 52,47 94,11 85,09

Ghi chú: CCB%: Tỷ lệ phân loại đúng các khoản nợ xấu; CCG%: Tỷ lệ phân loại đúng các khoản nợ tốt

Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions

Trang 8

mô hình được coi là hiệu quả nhất là KNN với

97,16% khoản nợ loại này được phân loại chính

xác

5.2 Kết quả các mô hình kết hợp

Kết quả phân loại tổng thể cho thấy rõ rằng

phương pháp kết hợp đem lại kết quả dự báo tốt

hơn với cả 3 mô hình (Bảng 4) Trong khi mô

hình kết hợp DT_ANN cho thấy có sự cải thiện

trong cả kết quả phân loại các khoản nợ xấu và

nợ tốt, thì đối với mô hình DT_LR và DT_KNN

hiệu phân loại nợ xấu và nợ tốt thay đổi theo

hai xu hướng ngược nhau Tỷ lệ phân loại nợ

xấu đúng tăng từ 8-11% cho cả ba mô hình kết

hợp trong khi tỷ lệ phân loại nợ tốt đúng giảm

nhẹ từ 1-2% với mô hình DT_LR và DT_KNN

Trên thực tế, việc cải thiện khả năng dự báo các

khoản nợ xấu đúng đem lại lợi ích lớn cho các

ngân hàng khi so sánh với việc dự báo đúng các

khoản nợ tốt Quan sát tình trạng vay nợ của

khách hàng cho thấy thiệt hại đến từ các khoản

nợ xấu thường cao hơn nhiều lần lợi nhuận của

một khoản nợ tốt mang lại Đặc biệt trong bối

cảnh hiện nay khi mà các hệ thống ngân hàng

đang tập trung vào hoạt động quản trị rủi ro,

giảm thiểu nợ xấu thì việc dự báo các khoản nợ

xấu sẽ có ý nghĩa cấp thiết hơn

6 Kết luận

So với nhiều nước phát triển, hoạt động chấm điểm tín dụng tại Việt Nam chưa nhận được nhiều sự quan tâm nghiên cứu Những mô hình truyền thống đang được sử dụng phổ biến tại các ngân hàng thương mại là mô hình chuyên gia dựa trên kinh nghiệm và một số mô hình cổ điển như LDA, LR Việc nghiên cứu áp dụng các mô hình mới là cần thiết để nâng cao tính chính xác, độ tin cậy, tính khách quan khi ra quyết định cho vay

Bài nghiên cứu đã đề cập đến một hướng đi mới đang được nhiều học giả quan tâm, đó là kết hợp các kĩ thuật thống kê hiện đại nhằm phát huy tối đa khả năng khai phá dữ liệu của những công cụ này để thiết lập một mô hình chấm điểm tín dụng tốt nhất Kết quả nghiên cứu thực nghiệm dựa trên cơ sở dữ liệu 15.470 khách hàng cá nhân chỉ ra rằng, các mô hình kết hợp có khả năng phân loại nợ tốt hơn các

mô hình đơn lẻ, đặc biệt về khả năng phân loại

nợ xấu Kết quả cũng chỉ ra rằng mô hình kết hợp DT_ANN có hiệu qủa phân loại tốt nhất và

sự kết hợp này làm tăng độ chính xác đối với cả chức năng phân loại nợ xấu và nợ tốt

Đối với các TCTD khi áp dụng mô hình DT_ANN này cần phải có cơ sở dữ liệu lịch sử khách hàng vay lớn, đa dạng và trong khoảng thời gian dài Với sự bùng nổ của cách mạng 4.0 thì các gói dữ liệu lớn về khách hàng đang được chia sẻ thường xuyên giữa nhiều TCTD,

Bảng 3 Kết quả phân loại của các mô hình kết hợp

Mô hình Mẫu huấn luyện (30%) Mẫu kiểm tra (70%) Tổng thể

CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% DT_LR 51,45 90,04 81,67 49,97 91,34 82,38 50,41 91,34 82,17 DT_KNN 45,54 96,54 85,49 46,49 95,87 85,17 46,21 95,87 85,27 DT_ANN 60,23 95,03 87,49 61,83 95,45 88,17 61,35 95,32 87,96

Bảng 4 So sánh kết quả phân loại giữa mô hình đơn lẻ và mô hình kết hợp

Mô

hình

Mô hình đơn lẻ Mô hình kết hợp Chênh lệch sau kết hợp CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể%

LR 39,07 93,64 81,81 50,41 91,34 82,17 11,34 -2,3 0,36 KNN 36,28 97,16 83,97 46,21 95,87 85,27 9,93 -1,29 1,3 ANN 52,47 94,11 85,09 61,35 95,32 87,96 8,88 1,21 2,87

Trang 9

đây là cơ hội để xây dựng các mô hình chấm

điểm tín dụng sử dụng các kĩ thuật khai phá dữ

liệu hiện đại như học máy, trí tuệ nhân tạo Tuy

Tài liệu tham khảo

1 Abdou, H ; & Pointon, J (2011) Credit Scoring, Statistical Techniques and Evaluation Criteria: A Review of the Literature Intelligent Systems in Accounting, Finance & Management, 59-88.

2 Ahn, H.; Kim, K.-J (2009) Bankruptcy prediction modeling with hybrid case-based reasoning and genetic algorithms

approach Appl Soft Comput 9, 599–607.

3 Kim, K.S.; Han, I (2001) The cluster-indexing method for case based reasoning using self-organizing maps and learning vector quantization for bond rating cases Expert Syst, 147–156.

4 Lando, D (2004) Credit risk modeling: Theory and applications, Princeton Series in Finance; Princeton University Press: Princeton, NJ, USA.

5 Lee, T H.; Jung, S (2000) Forecasting creditworthiness: Logistic vs artificial neural net The Journal of Business

Forecasting Methods and Systems 18: 28–30

6 Lee, T.S.; Chen, I.F (2005) A two-stage hybrid credit scoring model using artificial neural networks and multivariate

adaptive regression splines Expert Syst, 743–752.

7 Li, J.; Wei, L.; Li, G.; Xu, W (2011) An evolution strategy-based multiple kernels multi-criteria programming approach: The case of credit decision making Decis Support Syst, 292–298.

8 Luo, S.-T.; Cheng, B.-W.; Hsieh, C.-H (2009) Prediction model building with clustering-launched classification and support vector machines in credit scoring Expert Syst,7562–7566.

9 Marinakis, Y.; Marinaki, M.; Doumpos, M.; and Matsatsinis, N (2008) Constantin Zopounidis, Optimization of nearest neighbor classifiers via metaheuristic algorithms for credit risk assessment Journal of Global Optimization 42(2), 279-293.

10 Peter, K.; Madalina, F.; Antonio, C.; Samuel, R (2015) Deep neural decision forests In IEEE International Conference on Computer Vision, 1467–1475.

11 Rumelhart, D.; Hinton, G.; & Williams, R (1986) Learning representations by back-propagating errors Nature, 533-536.

12 Radall, B (2017) Neural Decision Trees; https://arxiv.org/pdf/1702.07360.pdf

13 Thomas, L.C.; Edelman, D.B.; Crook, J.N (2002) Credit Scoring and its Applications, SIAM; Monographs on Mathematical Modeling and Computation; SIAM: Philadelphia, PA, USA.

Thông tin tác giả

Nguyễn Tiến Hưng, Thạc sỹ

Phòng Thanh tra- Quản lý chất lượng, Học viện Ngân hàng

Email: hungnguyen@hvnh.edu.vn

Lê Thị Huyền Trang, Thạc sỹ

Khoa Quản trị kinh doanh, Học viện Ngân hàng

Email: tranglth@hvnh.edu.vn

Summary

Credit scoring model based on Decision tree, Logit, K-nearest neighbor and neural network

Credit scoring models have been widely studied in academic world and the business community Over the last decades, there have been many studies in the field of credit conducted to improve the accuracy of credit scoring models However, in Vietnam, there is not much research in this field Most of researchs uses traditional techniques such as Logistic Regression (LR), discriminant analysis (DA), some others studies modern techniques included decision tree (DT), K-nearest neighbor (KNN), Artificial neural network (ANN) In this paper, we propose hybrid credit scoring models based on Decision Tree, Logistic Regression, K-nearest neighbor and artificial neural network The experimental results demonstrate that DT_MLP hybrid credit scoring models is the most effective model.

Key- words: Credit scoring, Decision Tree, K-nearest neighbor, Artificial neural network

Hung Tien Nguyen, MEc

Head of Inspection and Education Quality Department, Banking Academy

Trang Thi Huyen Le, MEc.

Business Administration Faculty, Banking Academy

nhiên, khi sử dụng những kĩ thuật này sẽ gặp phải một số khó khăn liên quan đến việc giải

xem tiếp trang 75

Trang 10

dụng hồi quy với biến giả (đã đề cập ở Phần

1 của bài viết) để tìm kiếm bằng chứng thực

nghiệm về tác động của một số nhân tố đến

mức độ điều chỉnh số liệu nhằm tránh báo cáo

lỗ và ổn định lợi nhuận Bên cạnh đó, các bằng

chứng thực nghiệm trong nghiên cứu này cũng

cho thấy các NHTM có xu hướng điều chỉnh số

and colleges and allows schools to be autonomous in developing enrollment plans The number of candidates has decreased over the years, while increasing enrollment targets of universities and colleges has created pressure for universities and colleges to compete to improve quality, reputation, and job orientation in order to attract candidates The research was conducted to develop a model that illustrates the factors that determines the choice of the BA’s undergraduate program of students The results of multiple linear regression analyzed from

186 questionaire respondents of BA’s 1st year and 2nd year students show that the groups of factors that have the significant impact in descending order are: Fixed Characteristics of the insitute, Communication Efforts of the institue, Social influencers to the student’s choice of the institute, Individual Characteristics of the student Based on the obtained results, the research team proposes recommendations to improve the effectiveness of the enrollment process for universities, colleges in general and for BA institute in particular.

Keywords: Factors, bachelor program, enrollment, Banking Academy of Vietnam

Mai Ngoc Tran, MEc.

Faculty of International Business, Banking Academy

Huong Thi Thu Nguyen

Student of K18KDQTA, Faculty of International Business, Banking Academy

Linh Thuy Do

Student of K18KDQTA, Faculty of International Business, Banking Academy

kiệm, vay vốn với quy mô nhỏ, thời gian đáo hạn nhanh phù hợp hơn với nhóm khách hàng này Mặt khác, thủ tục, giấy tờ luôn là một rào cản lớn đối với người dân khi tiếp cận các dịch

vụ tài chính tại nông thôn, điều này đã được đề cập trong nhiều nghiên cứu Việc cải thiện thủ tục hành chính sẽ tăng khả năng tiếp cận dịch

vụ tài chính của khu vực nông thôn ■

tiếp theo trang 63

thích điểm tín dụng theo những đặc điểm của khách hàng, bởi phần lớn cơ chế giải thích của các kĩ thuật này rất phức tạp và vẫn còn nằm trong “hộp đen”

Những kết quả được đưa ra trong bài nghiên cứu có thể là cơ sở để mở ra các nghiên cứu, đưa ra những phương pháp mới kết hợp các

kĩ thuật nhằm nâng cao hiệu quả các mô hình chấm điểm tín dụng Ngoài việc xem xét kết quả của của các mô hình kết hợp thì việc giải thích cơ chế tác động của các nhân tố đầu vào với nhân tố mục tiêu phân loại đối với các mô hình cũng cần được quan tâm nghiên cứu ■

cho nhiều trường hợp khác nhau Việc sử dụng

tốt sẽ dẫn đến các giao dịch nhanh hơn, minh

bạch hơn Giải pháp Blockchain cũng sẽ làm

giảm chi phí và gánh nặng hành chính đối với

ngân hàng và khách hàng Ước tính rằng các

công nghệ Blockchain có thể làm giảm chi

phí cơ sở hạ tầng của ngân hàng khoảng

15-20 tỷ USD một năm vào năm 15-2022- như tuyên

bố trong “FinTech 2.0 Paper” của Santander

InnoVentures Blockchain cũng đặt ra thách

thức đòi hỏi tất cả các bên liên quan sẽ phải

tham gia hợp tác vào sự phát triển trong lĩnh

vực này, “sẽ cần phải có một tập thể chung”

giữa các ngân hàng, nhà quản lý và các công ty

công nghệ Bên cạnh đó, thách thức về sự riêng

tư, bảo mật, khả năng mở rộng… cũng là những

vấn đề cần xem xét Blockchain có thể là giải

pháp công nghệ tiềm năng cho ngành tài chính

ngân hàng, tuy nhiên nó còn cần phải tiếp tục

được hoàn thiện, phát triển về công nghệ, giảm

thiểu chi phí khi áp dụng và khắc phục các vấn

đề khác đang tồn tại ■

tiếp theo trang 36 liệu nhằm báo cáo mức lợi nhuận ổn định Do đó, các nghiên cứu tương lai có thể phát triển

các mô hình nghiên cứu nhằm tìm kếm bằng chứng bổ sung để có thể đưa ra kết luận về việc

có NHTM có thực sự thao túng số liệu để ổn định lợi nhuận hay không, và các công cụ nào hay ước tính kế toán nào có thể bị lợi dụng để

ổn định lợi nhuận ■

Định dạng
Số trang	10
Dung lượng	724,39 KB