1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng

68 91 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 2,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Các NHTM sử dụng mô hình này sẽ phải bỏ ra nhiều nguồn lực & thời gian để thẩm định thông tin khách hàng, cũng như đòi hỏi cán bộ tín dụng phải có tính chuyên nghiệp, có thâm niên, kỹ

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM TRUNG KIÊN

KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG

Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm

Mã số: 8480103.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN TRỌNG HIẾU

Hà Nội – 2019

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan rằng những nghiên với đề tài “Khai thác và phân tích

dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng” được trình bày trong luận

văn này là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy giáo

TS Trần Trọng Hiếu, không sao chép lại của người khác Tất cả các nguồn tài liệu tham khảo, các công trình nghiên cứu liên quan đều được trích dẫn cụ thể

Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ phát hiện nào về sự sao chép mà không có trích dẫn trong tài liệu tham khảo

Trang 4

LỜI CÁM ƠN

Em xin chân thành cám ơn thầy giáo TS Trần Trọng Hiếu người đã nhiệt tình hướng dẫn, chỉ bảo trong suốt quá trình hoàn thành luận văn này cũng như cả giai đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu của luận văn

Em xin chân thành cám ơn toàn thể quý thầy cô trong Khoa CNTT đã tận tình truyền đạt những kiến thức quý báu cũng như tạo mọi điều kiện thuận lợi nhất cho em trong quá trình học tập nghiên cứu

Tôi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp tại Trung tâm Công nghệ Thông tin – Ngân hàng Vietinbank đã tạo rất nhiều điều kiện cho tôi trong việc nghiên cứu và thực hiện luận văn

Xin chân thành cảm ơn gia đình, các học viên trong lớp Cao học K22 đã

hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh

Tôi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.19.23

Hà Nội, ngày tháng năm 2019

Tác giả luận văn

Phạm Trung Kiên

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CÁM ƠN ii

DANH MỤC CÁC TỪ VIẾT TẮT vi

DANH MỤC HÌNH VẼ vii

GIỚI THIỆU 1

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3

1.1 Khai phá dữ liệu là gì? 3

1.2 Lợi ích của Khai phá dữ liệu 3

1.3 Các bước chính trong khai phá dữ liệu 4

1.4 Các kỹ thuật khai phá dữ liệu 5

Kỹ thuật phân lớp 5

Kỹ thuật phân cụm 5

Kỹ thuật phân tích luật kết hợp 5

Kỹ thuật bài toán hồi quy 5

Kỹ thuật dự đoán 5

Kỹ thuật phân tích chuỗi 6

Kỹ thuật phân tích độ lệch 6

1.5 Các thuật toán phân lớp 6

Rừng ngẫu nhiên - Random Forest 6

Hồi quy logistic - Logistic Regression 7

Cây quyết định - Decision tree 7

Phân lớp sác xuất - Navie Bayes 8

Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM) 8

Stochastic Gradient Descent 9

Láng giềng gần nhất – (K-Nearest Neighbours) 9

1.6 Ứng dụng của khai phá dữ liệu 9

1.7 Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng 13

CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 14

2.1 Lý thuyết rủi ro tín dụng 14

Khái niệm rủi ro tín dụng 14

Trang 6

Những nguyên nhân phát sinh rủi ro tín dụng 14

Phân loại nhóm nợ 14

Điều kiện vay vốn 15

Căn cứ xác định định mức cho vay 16

Đối tượng áp dụng 16

Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân 16

2.2 Phát biểu bài toán 18

2.3 Quy trình phân lớp xây dựng mô hình 19

2.4 Mô hình phân lớp dự báo rủi ro 21

2.5 Lựa chọn nghiên cứu thuật toán 22

Phân lớp Cây quyết định 22

2.5.1.1 Thuật toán cây quyết định 22

2.5.1.2 Hoạt động của thuật toán Cây quyết định 23

2.5.1.3 Các biện pháp lựa chọn thuộc tính 24

2.5.1.4 Thông tin đạt được 24

2.5.1.5 Tỷ lệ tăng 25

2.5.1.6 chỉ số Gini 25

Phân lớp Naive Bayes 26

2.5.2.1 Quy trình phân lớp 26

2.5.2.2 Phân lớp Naive Bayes là gì? 27

2.5.2.3 Hoạt động của phân lớp Naive Bayes 28

CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK 29

3.1 Khảo sát hoạt động tín dụng của hệ thống Vietinbank 29

Tổng quan hoạt động tín dụng của Vietinbank 29

Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank 31

3.1.2.1 Hệ thống xếp hạng tín dụng: 31

3.1.2.2 Công tác dự báo nợ có khả năng chuyển xấu: 31

3.1.2.3 Những tồn tại, hạn chế 31

3.2 Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng 32

3.3 Mô hình dữ liệu tại Core Vietinbank 33

3.4 Môi trường 34

3.5 Thu thập dữ liệu 34

Trang 7

3.6 Biến đổi dữ liệu, tính toán sinh ra các bảng 35

3.7 Làm sạch dữ liệu 37

Giảm bớt dữ liệu 37

3.8 Lựa chọn dữ liệu 37

3.9 Tìm hiểu dữ liệu 38

3.10 Lựa chọn thuật toán 39

3.11 Lựa chọn công cụ 39

3.12 Xây dựng mô hình phân lớp 40

Lựa chọn dữ liệu & thuộc tính 40

Mô hình Cây quyết định J48 42

3.12.2.1 Xây dựng cây 42

3.12.2.2 Tham số thuật toán J48 trên Weka 46

3.12.2.3 Tham số dữ liệu training 46

3.12.2.4 Thực nghiệm dữ liệu với J48 trên Weka 47

3.12.2.5 Đánh giá các lần chạy thực nghiệm với thuật toán J48 48

Phân lớp Naive Bayes 49

3.12.3.1 Cấu hình tham số thuật toán Naive Bayes 49

3.12.3.2 Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes 52

3.13 Đánh giá mô hình 52

So sánh kết quả các lần chạy giữa 2 thuật toán 52

Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất 53

Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55% 54

3.14 Triển khai tích hợp hệ thống Khai phá dữ liệu 55

CHƯƠNG 4: KẾT LUẬN 57

4.1 Các kết quả đã đạt được 57

4.2 Mục tiêu tương lai 57

TÀI LIỆU THAM KHẢO 59

Trang 9

DANH MỤC HÌNH VẼ

Hình 1.3.1: Lợi ích của Khai phá dữ liệu 3

Hình 1.3.1: Các bước khai phá dữ liệu 4

Hình 1.3.2: Các bước chuẩn bị data 4

Hình 2.3.1: Phát biểu bài toán 18

Hình 2.4.1: Quy trình huấn luyện - training 20

Hình 2.4.2: Quy trình test dữ liệu 21

Hình 2.4.3: Quy trình áp dụng mô hình 21

Hình 2.5.1: Mô hình phân lớp dự báo rủi ro 21

Hình 2.6.1: Cây quyết định 23

Hình 2.6.2: luồng hoạt động của cây quyết định 24

Hình 2.6.3: Quy trình phân lớp 27

Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017 29

Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 30

Hình 3.1.3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu 30

Hình 3.1.4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017 30

Hình 3.3.1: Mô hình datawarehouse của Vietinbank 33

Hình 3.4.1: Môi trường thực nghiệm 34

Hình 3.5.1: Mô hình thu thập dữ liệu 34

Hình 3.8.1: Lựa chọn dữ liệu 37

Hình 3.9.1: Biểu diễn dữ liệu 39

Hình 3.12.2: Đặt khoảng cho thuộc tính định mức được vay 41

Hình 3.12.3: Đặt khoảng cho thuộc tính định mức được vay 41

Hình 3.12.4: Đặt khoảng cho thuộc tính Tuổi 42

Hình 3.12.5: Chọn công cụ chạy bảng độ lợi thông tin trên Weka 43

Hình 3.12.6: Bảng độ lợi thông tin trên Weka 43

Hình 3.12.7: Biểu đồ Gain – độ lợi thông tin 44

Hình 3.12.8: Hướng dẫn vào màn hình tham số J48 trên Weka 46

Hình 3.12.9: Hướng dẫn cấu hình tham số xuất dữ liệu trên Weka 46

Trang 10

Hình 3.12.11: Biểu đồ xác suất J48 48

Hình 3.12.12: Cấu hình tham số thuật tốn Naive Bayes 49

Hình 3.12.13: Kết quả chạy thuật tốn Naive Bayes trên Weka 50

Hình 3.12.14: Biểu đồ phân lớp Nạve Bayes 51

Hình 3.12.15: Biểu đồ tỷ lệ chính xác Navie Bayes 52

Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes 52

Hình 3.13.2: kết quả lần chạy phù hợp nhất J48 53

Hình 3.13.3: kết quả lần chạy phù hợp nhất Navie Bayes 55

Hình 3.14.1: Màn hình login 3600 55

Hình 3.14.2: Màn hình giao diện 56

Hình 3.14.3: Màn hình kết quả 56

Trang 11

GIỚI THIỆU

Hoạt động tín dụng (HĐTD) trong ngành ngân hàng là đặc biệt quan trọng vì vậy việc đánh giá và phân loại rủi ro là nhiệm vụ hàng đầu trong quản trị vận hành Vì lẽ đó nên hiện nay hầu hết các ngân hàng trên thế giới nói chung và Việt Nam nói riêng đều có những hệ thống hỗ trợ trong việc phân loại & đánh giá rủi ro

Hiện nay các ngân hàng hầu hết đều sử dụng mô hình chấm điểm tín dụng để hỗ trợ đánh giá rủi ro và xếp hạng tín dụng, để từ đó làm cơ sở có quyết định cho khách hàng vay hay không Các ngân hàng khác nhau thì cũng có thể khác nhau

về cấu trúc & cách vận hành hệ thống xếp hạng tín dụng, ví dụ như: cơ cấu và trọng số của các chỉ tiêu, ước tính mức rủi ro gắn liền với các mức xếp hạng, số lượng các mức xếp hạng, hay các chính sách khách hàng, chính sách tín dụng áp dụng v.v [6]

Hầu hết các Ngân hàng sử dụng bảng chỉ tiêu (bảng danh sách các thang điểm tín dụng ứng với từng thông tin hồ sơ khách hàng, như: thu nhập, nghề nghiệp, tài sản thế chấp…) dùng để tổng hợp và chấm điểm tín dụng đối với khách hàng, nếu thang điểm là tốt thì khách hàng sẽ được tiếp cận với khoản vay tương ứng

Từ thực tế cho thấy, quy trình xét duyệt cho vay gặp phải nhiều vấn đề như:

 Chất lượng thẩm định tín dụng phụ thuộc vào trình độ phân tích, cũng như chủ quan đánh giá của cán bộ tín dụng

 Các NHTM sử dụng mô hình này sẽ phải bỏ ra nhiều nguồn lực & thời gian để thẩm định thông tin khách hàng, cũng như đòi hỏi cán bộ tín dụng phải có tính chuyên nghiệp, có thâm niên, kỹ năng

 Đặc biệt là mô hình chấm điểm này chưa có khả năng dự báo được rủi ro

mà mới chỉ đánh giá được phần nào rủi ro nhờ điểm xếp hạng (dựa trên thông tin hiện có của hệ thống)

Tác giả hiện đang công tác ở Ngân hàng TMCP Vietinbank với vị trí công việc

là cán bộ IT có trách nhiệm hỗ trợ các module nghiệp vụ trong đó có module Tín dụng Từ những hạn chế của mô hình chấm điểm xếp hạng tín dụng hiện tại là phụ thuộc cơ bản vào yếu tố con con người, và với mong muốn đề xuất giải pháp cải tiến trong hoạt động quản lý rủi ro tín dụng Vậy nên, tác giả xin đề xuất hướng nghiên cứu của luận văn là: Ứng dụng khai phá dữ liệu nhằm hỗ trợ đánh giá và dự đoán phân loại rủi ro tín dụng của các khoản vay mới Với mục

Trang 12

tiêu là xây dựng được mô hình phân lớp làm cơ sở tri thức để dự đoán phân loại

nợ tốt/xấu với tập khách hàng mới, và phạm vi bài toán trong khuôn khổ luận văn sẽ tập trung vào mảng nghiệp vụ “Cho vay tín dụng với khách hàng cá nhân”

Luận văn được tổ chức thành 4 chương gồm:

Chương 1: Trình bày tổng quan thế nào là khai phá dữ liệu, các bước trong quy

trình khai phá dữ liệu và các phương pháp khai phá dữ liệu Các ứng dụng phổ biến của khai phá dữ liệu

Chương 2: Nghiên cứu quy trình quản lý hoạt động rủi ro tín dụng Ngân hàng

Từ những hạn chế trong thực tế vận hành quy trình quản lý rủi ro tín dụng, tác giả đề xuất xây dựng mô hình quản lý rủi ro bằng phương pháp khai phá dữ liệu

Mô hình này đáp ứng là cơ sở tri thức để hỗ trợ công tác quản lý rủi ro trên các phương diện: Phân loại rủi ro & dự đoán rủi ro Và từ tính chất của dữ liệu cho vay, tác giả chọn tìm hiểu chi tiết các thuật toán dùng để áp dụng là: Cây quyết định, Navie Bayes

Chương 3: ứng dụng nghiên cứu trên dữ liệu thực nghiệm của Ngân hàng

Vietinbank Trong chương này tác giả thực hiện các nội dung:

 Thu thập dữ liệu

 Phân tích dữ liệu

 Xây dựng mô hình phân lớp dự báo rủi ro

 Tích hợp Module Khai phá dữ liệu và hệ thống Khảo sát tín dụng 3600

của Ngân hàng Vietinbank

Chương 4: Tóm tắt những kết quả đã và chưa đạt được, từ đó đưa ra những mục

tiêu và hướng tiếp cận trong tương lai

Trang 13

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu là gì?

Khai phá dữ liệu là quá trình phân lớp, sắp xếp các tập hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu Các công cụ khai phá dữ liệu cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai [1][2]

1.2 Lợi ích của Khai phá dữ liệu

Lợi ích chính của Khai phá dữ liệu nằm ở khả năng phát hiện các mẫu và mối liên hệ tiềm ẩn trong cơ sở dữ liệu Hay nói cách khác giúp ta làm chủ kho dữ liệu lớn, bằng mô hình tri thức được xây dựng dựa trên nguồn dữ liệu có sẵn, Khai phá dữ liệu đem lại nhiều giá trị như:

 Lịch sử bán hàng và hành vi của khách hàng có thể được sử dụng để xây dựng các mô hình dự báo doanh số, sản phẩm và dịch vụ mới cho tương lai

 Các công ty trong ngành tài chính sử dụng các công cụ Khai phá dữ liệu để xây dựng các mô hình phát hiện rủi ro và gian lận

 Trong Lĩnh vực sản xuất công nghiệp có thể sử dụng Khai phá dữ liệu trong việc cải thiện an toàn sản phẩm, xác định các vấn đề về chất lượng, quản lý chuỗi cung ứng và cải thiện hoạt động vận hành sản xuất

Hình 1.3.1: Lợi ích của Khai phá dữ liệu

Trang 14

1.3 Các bước chính trong khai phá dữ liệu

Tìm hiểu nghiệp vụ Tìm hiểu dữ liệu

Chuẩn bị dữ liệu

Xây dựng

mô hình Triển khai

Bước 2: Tìm hiểu dữ liệu - Data Understanding

Bước 3: Chuẩn bị dữ liệu - Data preparation

Việc chuẩn bị dữ liệu bao gồm các bước

Tập hợp dữ liệu Làm sạch dữ liệu Chuyển đổi

dữ liệu Chọn lọc dữ liệu

Dữ liệu dùng để Khai phá

Trang 15

Bước 6: Triển khai - Deployment

1.4 Các kỹ thuật khai phá dữ liệu

Kỹ thuật phân lớp

Kỹ thuật phân lớp là một trong những kỹ thuật Khai phá dữ liệu phổ biến nhất,

ví dụ như: quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi nhóm khách hàng, hay phân tích xem nhóm khách hàng nào có khả năng sẽ chuyển sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty…

Kỹ thuật phân lớp là dữ liệu được tổ chức trong các lớp cho trước, hay còn được gọi là học có quan sát Trong kỹ thuật phân loại người ta sử dụng các nhãn lớp cho trước để sắp xếp các đối tượng Mà trong đó, một tập huấn luyện bao gồm các đối tượng đã được kết hợp với các nhãn đã biết Những thuật toán có quan sát sẽ được áp dụng cho tập các đối tượng cần phân loại để từ đó có thể mô hình hóa sự phân lớp của dữ liệu

Kỹ thuật phân cụm

Kỹ thuật phân cụm khác biệt với kỹ thuật phân lớp là các nhãn lớp chưa biết và không có dữ liệu huấn luyện Đối tượng được phân cụm dựa trên các thuộc tính tương đồng giữa chúng Bài toán phân cụm còn hay được gọi là học không có giám sát

Kỹ thuật phân tích luật kết hợp

Kỹ thuật phân tích luật kết hợp, hay còn gọi là kỹ thuật phân tích giỏ hàng bởi vì

nó thường được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa chọn hàng hóa đi kèm…

Kỹ thuật phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ giữa các thuộc tính dữ liệu mà thường xuất hiện cùng nhau trong các tập dữ liệu

Kỹ thuật bài toán hồi quy

Kỹ thuật hồi quy cũng tương tự như kỹ thuật phân lớp Điểm khác biệt là hồi quy dự đoán cho các dữ liệu liên tục

Trang 16

 Dự đoán để phân lớp dựa trên (một tập huấn luyện và giá trị thuộc tính) của đối tượng

Kỹ thuật phân tích chuỗi

Là kỹ thuật để tìm ra các mẫu trong một loạt các giá trị hay trạng thái rời rạc

Ví dụ: việc chọn mua hàng hóa của khách hàng có thể mô hình là một chuỗi dữ liệu Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C… là một chuỗi các trạng thái rời rạc Trong khi đó thời gian lại là chuỗi số liên tục

Phân tích chuỗi (PTC) và phân tích luật kết hợp (PTLKH) giống nhau ở chỗ đều phân tích tập hợp các đối tượng hay trạng thái Điểm khác biệt là mô hình chuỗi phân tích sự chuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi mỗi một mặt hàng trong giỏ hàng là như nhau và độc lập

Với mô hình chuỗi, thì việc chọn mặt hàng A trước mặt hàng B hay việc chọn mặt hàng B trước A sau là khác nhau Còn ở mô hình kết hợp thì cả hai trường hợp đều không khác nhau

Kỹ thuật phân tích độ lệch

Kỹ thuật này còn được gọi theo cách khác là phát hiện điểm biên Điểm biên là những đối tượng dữ liệu mà không tuân theo các đặc tính và hành vi chung Bài toán phát hiện điểm biên ứng dụng rất nhiều trong các ứng dụng

Điển hình ứng dụng quan của bài toán phát hiện điểm biên là bài toán kiểm tra xác nhận thẻ tín dụng…

1.5 Các thuật toán phân lớp

Rừng ngẫu nhiên - Random Forest

Định nghĩa: Phân lớp rừng ngẫu nhiên là một công cụ ước tính phù hợp với một

số cây quyết định trên các mẫu dữ liệu con khác nhau và sử dụng trung bình để cải thiện độ chính xác dự đoán của mô hình và kiểm soát sự phù hợp quá mức Cỡ mẫu phụ luôn giống với cỡ mẫu đầu vào ban đầu nhưng các mẫu được

vẽ thay thế

Ưu điểm: Giảm phân lớp rừng phù hợp quá mức và ngẫu nhiên là chính xác hơn

so với cây quyết định trong hầu hết các trường hợp

Nhược điểm: Dự đoán thời gian thực chậm, khó thực hiện và thuật toán phức

tạp

Trang 17

Hồi quy logistic - Logistic Regression

Hồi quy logistic là đối tác phân loại với hồi quy tuyến tính Dự đoán được ánh

xạ từ 0 đến 1 thông qua hàm logistic , có nghĩa là dự đoán có thể được hiểu là xác suất của lớp

Bản thân các mô hình vẫn là "tuyến tính", vì vậy chúng hoạt động tốt khi các lớp của bạn có thể phân tách tuyến tính (nghĩa là chúng có thể được phân tách bằng một bề mặt quyết định duy nhất) Hồi quy logistic cũng có thể được thường xuyên hóa bằng cách xử phạt các hệ số với cường độ hình phạt có thể điều chỉnh

 Điểm mạnh: Đầu ra có một diễn giải xác suất tốt và thuật toán có thể được thường xuyên hóa để tránh bị quá mức Các mô hình logistic có thể được cập nhật dễ dàng với dữ liệu mới bằng cách sử dụng gốc dốc ngẫu nhiên

 Điểm yếu: Hồi quy logistic có xu hướng hoạt động kém khi có nhiều ranh giới quyết định phi tuyến tính Họ không đủ linh hoạt để tự nhiên nắm bắt các mối quan hệ phức tạp hơn

Cây quyết định - Decision tree

Cây hồi quy (còn gọi là cây quyết định) học theo kiểu phân cấp bằng cách liên tục chia dữ liệu của bạn thành các nhánh riêng biệt để tối đa hóa mức tăng thông tin của mỗi lần phân tách.Cấu trúc phân nhánh này cho phép cây hồi quy tự nhiên học các mối quan hệ phi tuyến tính

Các phương thức của bộ đồng phục, chẳng hạn như Rừng ngẫu nhiên (RF) và Cây tăng cường Gradient (GBM), kết hợp các dự đoán từ nhiều cây riêng

lẻ Chúng ta sẽ không đi sâu vào cơ học cơ bản của chúng ở đây, nhưng trên thực tế, RF thường hoạt động rất tốt trong khi GBM khó điều chỉnh hơn nhưng

có xu hướng có hiệu suất cao hơn

 Điểm mạnh: Cây quyết định có thể học các mối quan hệ phi tuyến tính và khá mạnh mẽ đối với các ngoại lệ Bộ sưu tập thực hiện rất tốt trong thực tế, chiến thắng nhiều cuộc thi học máy cổ điển (tức là không học sâu)

 Điểm yếu: Không bị giới hạn, các cây riêng lẻ dễ bị quá mức vì chúng có thể tiếp tục phân nhánh cho đến khi chúng ghi nhớ dữ liệu đào tạo Tuy nhiên, điều này có thể được giảm bớt bằng cách sử dụng các bản hòa tấu

Trang 18

Phân lớp sác xuất - Navie Bayes

Naive Bayes là một thuật toán rất đơn giản dựa trên xác suất và số đếm có điều kiện Về cơ bản, mô hình của bạn thực sự là một bảng xác suất được cập nhật thông qua dữ liệu đào tạo của bạn Để dự đoán một quan sát mới, bạn chỉ cần

"tra cứu" xác suất của lớp trong "bảng xác suất" dựa trên các giá trị tính năng của nó

Nó được gọi là "ngây thơ" bởi vì giả định cốt lõi của nó về sự độc lập có điều kiện (tức là tất cả các tính năng đầu vào là độc lập với nhau) hiếm khi đúng trong thế giới thực

 Điểm mạnh: Mặc dù giả định độc lập có điều kiện hiếm khi đúng, các mô hình Navie Bayes thực sự hoạt động tốt một cách đáng ngạc nhiên trong thực

tế, đặc biệt là vì chúng đơn giản như thế nào Chúng rất dễ thực hiện và có thể mở rộng quy mô với tập dữ liệu của bạn

 Điểm yếu: Do tính đơn giản tuyệt đối của chúng, các mô hình NB thường bị đánh bại bởi các mô hình được đào tạo và điều chỉnh đúng cách bằng các thuật toán trước được liệt kê

Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM)

Các máy véc-tơ hỗ trợ (SVM) sử dụng một cơ chế gọi là hạt nhân , về cơ bản tính khoảng cách giữa hai quan sát Thuật toán SVM sau đó tìm thấy một ranh giới quyết định tối đa hóa khoảng cách giữa các thành viên gần nhất của các lớp riêng biệt

Ví dụ, một SVM với đường tuyến tính tương tự như hồi quy logistic Do đó, trong thực tế, lợi ích của SVM thường đến từ việc sử dụng các hạt nhân phi tuyến tính để mô hình hóa các ranh giới quyết định phi tuyến tính

 Điểm mạnh: SVM có thể mô hình hóa các ranh giới quyết định phi tuyến tính và có nhiều hạt nhân để lựa chọn Chúng cũng khá mạnh mẽ để chống lại quá mức, đặc biệt là trong không gian nhiều chiều

 Điểm yếu: Tuy nhiên, SVM rất tốn bộ nhớ, khó điều chỉnh hơn do tầm quan trọng của việc chọn đúng kernel và không mở rộng tốt cho các bộ dữ liệu lớn hơn Hiện tại trong ngành, rừng ngẫu nhiên thường được ưa thích hơn SVM

Trang 19

Stochastic Gradient Descent

Định nghĩa: Stochastic gradient gốc là một cách tiếp cận đơn giản và rất hiệu

quả để phù hợp với các mô hình tuyến tính Nó đặc biệt hữu ích khi số lượng mẫu rất lớn Nó hỗ trợ các chức năng mất khác nhau và hình phạt để phân lớp

Ưu điểm: Hiệu quả và dễ thực hiện

Nhược điểm: Yêu cầu một số siêu tham số và nó nhạy cảm với tính năng mở

rộng

Láng giềng gần nhất – (K-Nearest Neighbours)

Định nghĩa: Phân lớp dựa trên hàng xóm là một kiểu lười học vì nó không cố

gắng xây dựng một mô hình nội bộ chung, mà chỉ lưu trữ các trường hợp của dữ liệu đào tạo Phân lớp được tính từ một phiếu bầu đa số đơn giản của k hàng xóm gần nhất của mỗi điểm

Ưu điểm: Thuật toán này dễ thực hiện, mạnh mẽ đến dữ liệu đào tạo ồn ào và

hiệu quả nếu dữ liệu đào tạo lớn

Nhược điểm: Cần xác định giá trị của K và chi phí tính toán cao vì nó cần máy

tính khoảng cách của mỗi trường hợp cho tất cả các mẫu đào tạo

1.6 Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các nhiệm vụ của khai phá dữ liệu

Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi

Phân tích thị trường

Phân tích thị trường là một kỹ thuật mô hình dựa trên lý thuyết rằng nếu bạn mua một nhóm mặt hàng nhất định, bạn có nhiều khả năng mua một nhóm mặt

Trang 20

hàng khác Kỹ thuật này có thể cho phép nhà bán lẻ hiểu hành vi mua hàng của người mua Thông tin này có thể giúp nhà bán lẻ biết nhu cầu của người mua và thay đổi cách bố trí cửa hàng cho phù hợp Sử dụng phân tích so sánh kết quả giữa các cửa hàng khác nhau, giữa các khách hàng trong các nhóm nhân khẩu học khác nhau có thể được thực hiện

Giáo dục

Có một lĩnh vực mới nổi, được gọi là Khai phá dữ liệu giáo dục, liên quan đến việc phát triển các phương pháp khám phá kiến thức từ dữ liệu có nguồn gốc từ Môi trường giáo dục Các mục tiêu của Khai phá dữ liệu trong giáo dục được xác định là dự đoán hành vi học tập trong tương lai của học sinh, nghiên cứu các tác động của hỗ trợ giáo dục và nâng cao kiến thức khoa học về học tập Khai phá dữ liệu có thể được sử dụng bởi một tổ chức để đưa ra quyết định chính xác

và cũng để dự đoán kết quả của học sinh Với kết quả, tổ chức có thể tập trung vào những gì cần dạy và cách dạy Mô hình học tập của các sinh viên có thể được nắm bắt và sử dụng để phát triển các kỹ thuật để dạy họ

Kỹ thuật sản xuất

Kiến thức là tài sản tốt nhất mà một doanh nghiệp sản xuất sẽ sở hữu Các công

cụ Khai phá dữ liệu có thể rất hữu ích để khám phá các mẫu trong quy trình sản xuất phức tạp Khai phá dữ liệu có thể được sử dụng trong thiết kế cấp hệ thống

để trích xuất các mối quan hệ giữa kiến trúc sản phẩm, danh mục sản phẩm và

dữ liệu nhu cầu của khách hàng Nó cũng có thể được sử dụng để dự đoán thời gian phát triển sản phẩm, chi phí và sự phụ thuộc giữa các nhiệm vụ khác

Quản lý quan hệ khách hàng

Quản lý quan hệ khách hàng là tất cả về việc có được và giữ chân khách hàng, cũng cải thiện lòng trung thành của khách hàng và thực hiện các chiến lược tập trung vào khách hàng Để duy trì mối quan hệ đúng đắn với khách hàng, một doanh nghiệp cần thu thập dữ liệu và phân tích thông tin Đây là nơi Khai phá

dữ liệu đóng vai trò của nó Với công nghệ Khai phá dữ liệu, dữ liệu thu thập được có thể được sử dụng để phân tích Thay vì bối rối nơi tập trung để giữ chân khách hàng, những người tìm kiếm giải pháp có được kết quả được lọc

Phát hiện gian lận

Hàng tỷ đô la đã bị mất cho các hành động gian lận Các phương pháp phát hiện gian lận truyền thống rất tốn thời gian và phức tạp Hỗ trợ Khai phá dữ liệu trong việc cung cấp các mẫu có ý nghĩa và biến dữ liệu thành thông tin Bất kỳ thông tin nào là hợp lệ và hữu ích là kiến thức Một hệ thống phát hiện gian lận

Trang 21

hoàn hảo sẽ bảo vệ thông tin của tất cả người dùng Một phương pháp được giám sát bao gồm thu thập các hồ sơ mẫu Những hồ sơ này được phân loại gian lận hoặc không gian lận Một mô hình được xây dựng bằng cách sử dụng dữ liệu này và thuật toán được thực hiện để xác định xem bản ghi có lừa đảo hay không

Phát hiện xâm nhập

Bất kỳ hành động nào sẽ làm tổn hại đến tính toàn vẹn và bảo mật của tài nguyên là một sự xâm nhập Các biện pháp phòng thủ để tránh sự xâm nhập bao gồm xác thực người dùng, tránh lỗi lập trình và bảo vệ thông tin Khai phá dữ liệu có thể giúp cải thiện phát hiện xâm nhập bằng cách thêm một mức độ tập trung vào phát hiện bất thường Nó giúp một nhà phân tích phân biệt một hoạt động với hoạt động mạng hàng ngày phổ biến Khai phá dữ liệu cũng giúp trích xuất dữ liệu phù hợp hơn với vấn đề

Phát hiện nói dối

Bắt một tên tội phạm là dễ dàng trong khi đưa ra sự thật từ anh ta là khó khăn Thực thi pháp luật có thể sử dụng các kỹ thuật khai thác để điều tra tội phạm, giám sát liên lạc của những kẻ khủng bố bị nghi ngờ Điều này bao gồm khai thác văn bản cũng Quá trình này tìm kiếm các mẫu có ý nghĩa trong dữ liệu thường là văn bản phi cấu trúc Mẫu dữ liệu được thu thập từ các cuộc điều tra trước được so sánh và một mô hình để phát hiện nói dối được tạo ra Với mô hình này, các quy trình có thể được tạo ra theo sự cần thiết

Phân khúc khách hàng

Nghiên cứu thị trường truyền thống có thể giúp chúng tôi phân khúc khách hàng nhưng Khai phá dữ liệu đi sâu và tăng hiệu quả thị trường Hỗ trợ Khai phá dữ liệu trong việc sắp xếp các khách hàng thành một phân khúc riêng biệt và có thể điều chỉnh các nhu cầu theo khách hàng Thị trường luôn luôn là giữ chân khách hàng Khai phá dữ liệu cho phép tìm một phân khúc khách hàng dựa trên lỗ hổng và doanh nghiệp có thể cung cấp cho họ các ưu đãi đặc biệt và nâng cao sự hài lòng

Ngân hàng tài chính

Với ngân hàng máy tính ở khắp mọi nơi, lượng dữ liệu khổng lồ được cho là sẽ được tạo ra với các giao dịch mới Khai phá dữ liệu có thể góp phần giải quyết các vấn đề kinh doanh trong tài chính ngân hàng bằng cách tìm ra mô hình, nguyên nhân và mối tương quan trong thông tin kinh doanh và giá cả thị trường không rõ ràng đối với các nhà quản lý vì dữ liệu khối lượng quá lớn hoặc được các chuyên gia tạo ra quá nhanh Các nhà quản lý có thể tìm thấy những thông

Trang 22

tin này để phân khúc, nhắm mục tiêu, thu nhận, giữ chân và duy trì một khách hàng có lợi nhuận tốt hơn

Giám sát doanh nghiệp

Giám sát doanh nghiệp là giám sát hành vi của một người hoặc nhóm của một công ty Dữ liệu được thu thập thường được sử dụng cho mục đích tiếp thị hoặc bán cho các tập đoàn khác, nhưng cũng thường xuyên được chia sẻ với các cơ quan chính phủ Nó có thể được sử dụng bởi các doanh nghiệp để điều chỉnh các sản phẩm của họ mong muốn của khách hàng của họ Dữ liệu có thể được sử dụng cho các mục đích tiếp thị trực tiếp, chẳng hạn như quảng cáo được nhắm mục tiêu trên Google và Yahoo, nơi quảng cáo được nhắm mục tiêu đến người dùng công cụ tìm kiếm bằng cách phân tích lịch sử tìm kiếm và email của họ

Phân tích nghiên cứu

Lịch sử cho thấy chúng ta đã chứng kiến những thay đổi mang tính cách mạng trong nghiên cứu Khai phá dữ liệu rất hữu ích trong việc làm sạch dữ liệu, xử lý trước dữ liệu và tích hợp cơ sở dữ liệu Các nhà nghiên cứu có thể tìm thấy bất

kỳ dữ liệu tương tự từ cơ sở dữ liệu có thể mang lại bất kỳ thay đổi trong nghiên cứu Xác định bất kỳ chuỗi đồng xảy ra và mối tương quan giữa bất kỳ hoạt động có thể được biết Trực quan hóa dữ liệu và Khai phá dữ liệu trực quan cung cấp cho chúng ta một cái nhìn rõ ràng về dữ liệu

Điều tra tội phạm

Tội phạm học là một quá trình nhằm xác định các đặc điểm tội phạm Thực tế phân tích tội phạm bao gồm khám phá và phát hiện tội phạm và mối quan hệ của

họ với tội phạm Khối lượng lớn các bộ dữ liệu tội phạm và sự phức tạp của các mối quan hệ giữa các loại dữ liệu này đã khiến tội phạm học trở thành một lĩnh vực thích hợp để áp dụng các kỹ thuật Khai phá dữ liệu Báo cáo tội phạm dựa trên văn bản có thể được chuyển đổi thành tập tin xử lý văn bản Những thông tin này có thể được sử dụng để thực hiện quá trình khớp tội phạm

Trang 23

1.7 Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng

Trong phạm vi luận văn, tác giả đề cập đến ứng dụng khai phá dữ liệu để phân lớp rủi ro tín dụng

Đánh giá rủi ro tín dụng là môt bước quan trọng trong hoạt động cho vay trong ngành tài chính ngân hàng Thiếu bước này, ngân hàng sẽ không thể đưa ra quyết định khách quan về việc có nên giải ngân cho vay khách hàng hay không Đánh giá rủi ro thường là sự cố gắng định lượng độ rủi ro mất mát của ngân hàng khi thực hiện một quyết định cho vay

Ở đây, rủi ro tín dụng có thể được định lượng bằng giá trị của tài sản thế chấp hoặc, các yếu tố thông tin về người vay, của yếu tố khả năng mất vốn, và tỷ lệ thu hồi của công cụ trong trường hợp người vay không có khả năng trả nợ

Do đó ta có thể sử dụng các phương pháp phân lớp - classifications áp dụng

trên thông tin dữ liệu của khách vay để phân loại nhóm khách hàng

Trang 24

CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 2.1 Lý thuyết rủi ro tín dụng

Khái niệm rủi ro tín dụng

Tín dụng ngân hàng (cho vay) là quan hệ tín dụng giữa ngân hàng, các tổ chức tín dụng và các tổ chức kinh tế, cá nhân theo nguyên tắc hoàn trả Việc hoàn trả được nợ gốc trong tín dụng có nghĩa là việc thực hiện được giá trị hàng hoá trên thị trường, còn việc hoàn trả được lãi vay trong tín dụng là việc thực hiện được giá trị thặng dư trên thị trường Trong quan hệ tín dụng có hai đối tượng tham gia là ngân hàng cho vay và người đi vay [6]

Rủi ro tín dụng là:

 Khoản lỗ có nguy cơ xảy ra khi ngân hàng cấp tín dụng

 Những thiệt hại mà ngân hàng gánh chịu do người vay vốn không trả đúng hạn, không thực hiện đúng nghĩa vụ cam kết trong hợp đồng cho vay

vì bất kể lý do gì

Những nguyên nhân phát sinh rủi ro tín dụng

Rủi ro tín dụng thường xảy ra bởi những nguyên nhân sau:

 Khách hàng vay vốn gặp những nguy cơ và tai nạn bất ngờ hoặc thua lỗ trong kinh doanh nên không có tiền trả nợ dẫn đến nợ quá hạn

 Do tác động của tình hình kinh tế trong nước và thế giới

 Các vấn đề vì ham lợi nhuận, vi phạm nguyên tắc cho vay, phân tích đánh giá khách hàng sai, quyết định cho vay thiếu thông tin xác thực

Phân loại nhóm nợ

Ngân hàng thực hiện phân loại nợ như sau:

Nhóm 1 (nợ được đánh giá là đủ tiêu chuẩn):

 Nợ còn trong hạn, chưa đến thời hạn thanh toán và được hệ thống ngân hàng đánh giá là có đủ khả năng thu hồi đầy đủ cả gốc và lãi đúng hạn

 Các món nợ khác của Khách hàng cũng đều không bị quá hạn

Nhóm 2 (nợ được đánh giá là cần chú ý):

 Nợ đã quá hạn chưa quá 3 tháng

 Nợ đã được cơ cấu lại thời hạn trả nợ trong hạn

Trang 25

 Những khoản tín dụng được đánh giá là có khả năng thu hồi đầy đủ cả gốc và lãi, nhưng có dấu hiệu khách hàng bị suy giảm khả năng trả nợ Nhóm 3 (nợ được đánh giá là dưới tiêu chuẩn):

 Các khoản nợ quá hạn từ 3 tháng => đến 6 tháng

 Các khoản nợ đã được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 90 ngày

 Nợ được đánh giá là rủi ro có khả năng không thu hồi được đầy đủ cả gốc

và lãi khi đến hạn, và có khả năng tổn thất một phần nợ gốc và lãi

Nhóm 4 (nợ nghi ngờ):

 Các khoản nợ quá hạn từ 6 tháng => đến 1 năm

 Các khoản nợ được được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn từ 90 đến 180 ngày

 Các khoản nợ bị đánh giá là có khả năng tổn thất cao

Nhóm 5 (nợ có khả năng bị mất vốn):

 Nợ quá hạn trên 1 năm

 Các khoản nợ khoanh phải chờ Chính Phủ xử lý

 Các khoản nợ được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn trên 180 ngày

Trên quan điểm phân hạng nợ Tốt/Xấu thì:

 Nợ Tốt: là những khoản vay nằm trong Nhóm 1, 2

 Nợ Xấu: là những khoản vay nằm trong Nhóm 3, 4, 5

Điều kiện vay vốn

Các khách hàng muốn được vay vốn phải có các điều kiện sau đây:

 Có năng lực pháp luật dân sự, năng lực hành vi dân sự và chịu trách nhiệm dân sự theo quy định của pháp luật

 Có mục đích sử dụng vay vốn hợp pháp

 Có khả năng tài chính đảm bảo trả nợ trong thời hạn cam kết

 Có phương án sản xuất kinh doanh, dự án đầu tư, dịch vụ khả thi và có hiệu quả

Trang 26

Căn cứ xác định định mức cho vay

 Nhu cầu vay vốn của khách hàng

 Mức vốn của khách hàng tham gia vào dự án, phương án kinh doanh, sản xuất, dịch vụ, đời sống

 Tỷ lệ cho vay tối đa so với giá trị tài sản bảo đảm tiền vay theo quy định

về bảo đảm tiền vay của ngân hàng

 Khả năng hoàn trả nợ của khách hàng

 Khả năng nguồn vốn của mỗi ngân hàng và không được vượt quá định mức cho vay được ủy quyền bởi tổng giám đốc Ngân hàng cho vay

Đối tượng áp dụng

Ngân hàng cho vay các đối tượng sau:

 Giá trị vật tư, máy móc, hàng hoá, thiết bị và các khoản chi phí để khách hàng thực hiện các dự án sản xuất, kinh doanh dịch vụ

Ngân hàng không cho vay các đối tượng sau:

 Số tiền thuế phải nộp

 Số tiền để trả nợ gốc và lãi vay cho các tổ chức tín dụng khác

 Số tiền vay trả cho chính tổ chức tín dụng cho vay vốn

Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân

Dưới đây là bảng tiêu chí cho mô hình chấm điểm tín dụng khách hàng cá nhân của VietinBank

Bảng 2: Chấm điểm tín dụng khách hàng cá nhân tại VietinBank STT Các hạng mục xác định chất lượng tín dụng Điểm số

1 Nghề nghiệp của người vay

Chuyên gia hay phụ trách kinh doanh

Công nhân có kinh nghiệm (tay nghề cao)

Nhân viên văn phòng

Sinh viên

Công nhân không có kinh nghiệm

Công nhân bán thất nghiệp

Trang 27

STT Các hạng mục xác định chất lượng tín dụng Điểm số

Nhà riêng

Nhà thuê hay căn hộ

Sống cùng bạn hay người thân

4 Kinh nghiệm nghề nghiệp

Nhiều hơn 1 năm 5

Từ 1 năm trở xuống

5

2

5 Thời gian cư trú tại điểm hiện tại

Nhiều hơn 1 năm

8 Các tài khoản tại ngân hàng

Tiết kiệm thẻ & Tài khoản tiết kiệm

Tài khoản tiết kiệm

Trang 28

Vì RRTD ảnh hưởng rất lớn đến sự phát triển của ngân hàng cũng như của nền kinh tế nói chung nên việc dự đoán để phòng ngừa rủi ro đóng vai trò hết sức quan trọng Do đó, việc áp dụng các Kỹ thuật Khai phá dữ liệu cho bài toán RRTD để tìm ra những nguồn tri thức mới, giúp cho các chuyên gia ngân hàng đánh giá, phòng ngừa rủi ro là rất cần thiết

2.2 Phát biểu bài toán

Hình 2.3.1: Phát biểu bài toán

Đầu vào:

 Tập thông tin khách hàng và lịch sử trả nợ của các khách hàng bao gồm

o Tập huấn luyện (Training Set) nhằm mục đích xây dựng mô hình

o Tập kiểm thử (Testing Set) nhằm mục đích kiểm chứng mô hình

 Tập thông tin khách hàng mới cần dự báo

Áp dụng mô hình

Dữ liệu trên

corebank

Dữ liệu Huấn luyện

Dữ liệu

Xây dựng mô hình

Khách hàng mới

Dự đoán Phân loại nợ

Trang 29

Đầu ra:

 Đưa ra mô hình phân lớp dự báo, các chỉ số đánh giá mô hình, các luật rút

ra từ mô hình giúp phân loại các khách hàng mới

Ví dụ:

 Đầu vào:

o Thông tin khách hàng về khách hàng vay vốn: Mục đích vay mua nhà, có thu nhập trên 11 triệu, đang thuê nhà, làm tại công ty phần mềm, chức vụ chuyên viên, thời gian đã công tác trong lĩnh vực chuyên môn dưới 3 năm

Việc dự báo chính xác sẽ giúp ngân hàng giảm thiểu các rủi ro có thể có từ các khách hàng có khả năng không trả được nợ

2.3 Quy trình phân lớp xây dựng mô hình

Để có thể xây dựng được mô hình như yêu cầu bài toán ở mục 2.3 ta phải thực hiện thứ tự theo các bước như sau [14]:

Trang 30

a Xây dựng mô hình từ tập huấn luyện – Training data

Hình 2.4.1: Quy trình huấn luyện - training Quá trình phân lớp thực hiện nhiệm vụ xây dựng mô hình các công cụ phân lớp giúp cho việc gán nhãn phân loại cho các dữ liệu

Example:

 Nhãn “An toàn” hoặc “Rủi ro” cho các yêu cầu vay vốn; “Có” hoặc

“Không” cho các thông tin thị trường…

 Các Nhãn dùng phân loại được biểu diễn bằng các giá trị rời rạc trong đó

việc sắp xếp trùng là không có ý nghĩa

Phân lớp dữ liệu gồm hai quá trình

 Công cụ phân lớp sẽ được xây dựng để xem xét nguồn data Đây là quá trình học, qua đó một thuật toán phân lớp được xây dựng bằng cách phân tích từ tập dữ liệu huấn luyện được xây dựng sẵn bao gồm nhiều bộ dữ liệu

 Một bộ dữ liệu X biểu diễn bằng một vector n chiều, X = (x1, x2, …, xn), đây là các giá trị cụ thể của một tập n thuộc tính của nguồn dữ liệu {A1, A2,

…, An} Mỗi bộ được giả sử rằng nó thuộc về một lớp được định nghĩa trước với các nhãn xác định

Classification algorithm

IF age=young THEN loan_decicion=risky

IF income=high THEN loan_decicion=safe

IF age=middle AND income=low THEN loan_decicion=risky

Chạy thuật toán

Xây dựng rules

Mô hình hóa

Trang 31

b Đánh giá mơ hình bằng tập kiểm kiểm thử - Data test

Hình 2.4.2: Quy trình test dữ liệu

c Áp dụng mơ hình để dự đốn dữ liệu mới

Hình 2.4.3: Quy trình áp dụng mơ hình 2.4 Mơ hình phân lớp dự báo rủi ro

Dựa trên quy trình phân lớp dữ liệu, ta cĩ thể áp dụng mơ hình sau vào bài tốn phân lớp rủi ro tín dụng

 Nạve Bayes Classifier

 Thuật tốn Apriori khai phá luật kết hợp

Hình 2.5.1: Mơ hình phân lớp dự báo rủi ro

Để xây dựng được mơ hình phân lớp dữ liệu ta cần 2 yếu tố

 Bộ dữ liệu đầu vào (Tập huấn luyện & Tập kiểm thử)

IF age=young THEN loan_decicion=risky

IF income=high THEN loan_decicion=safe

IF age=middle AND income=low THEN loan_decicion=risky

Trang 32

 Thuật toán phân lớp

2.5 Lựa chọn nghiên cứu thuật toán

Dựa vào Ưu nhược điểm của các thuật toán đã được trình bày sơ lược ở chương

I (Mục 1.6 – Các thuật toán phân lớp)

Dựa vào tính chất dữ liệu của bài toán rủi ro tín dụng: các thuộc tính dữ liệu có dải giá trị không nhiều, và theo nghiệp vụ Ngân hàng thì giải giá trị rời rạc này thường được gom nhóm thành một tập hữu hạn Ví dụ:

 Tuổi của khách vay thì từ 28 – 65, nhưng thực tế thì sẽ được chia thành 5 nhóm tuổi Tín dụng để quản lý

 Nơi cư trú: khách vay thì ở rất nhiều địa chỉ khác nhau, nhưng thực tế sẽ được gom nhóm thành 1 tập hữu hạn các khu vực như: Khu vực Hà Nội 1, Khu vực Hà Nội 2, Khu vực nông thôn v.v…

 Tiền vay thì cũng nhận rất đa dạng các giá trị khác nhau từ 18 triệu – đến trên 18 tỷ Nhưng cũng lại được gom thành các nhóm giá trị vay: dưới

200 triệu, từ 200-700, từ 700-1 tỷ…

Tác giả nhận thấy có thuật toán (Phân lớp sử dụng cây quyết định, và Phân lớp

sử dụng thuật toán Navie Bayes) phù hợp với dữ liệu của bài toán quản lý Rủi ro tín dụng Vậy nên, trong khuôn khổ luận văn tác giả chọn đi sâu nghiên cứu 2 thuật toán này

Phân lớp Cây quyết định

2.5.1.1 Thuật toán cây quyết định

Cây quyết định là một cấu trúc cây giống như sơ đồ trong đó một nút bên trong đại diện cho tính năng (hoặc thuộc tính), nhánh đại diện cho một quy tắc quyết định và mỗi nút lá đại diện cho kết quả Nút trên cùng trong cây quyết định được gọi là nút gốc Nó học cách phân vùng trên cơ sở giá trị thuộc tính Nó phân vùng cây theo cách đệ quy gọi phân vùng đệ quy Cấu trúc giống như sơ đồ này giúp bạn trong việc ra quyết định Nó trực quan giống như một sơ đồ sơ đồ dễ dàng bắt chước tư duy cấp độ của con người Đó là lý do tại sao cây quyết định

dễ hiểu và giải thích [10]

Trang 33

Hình 2.6.1: Cây quyết định Cây quyết định là một loại hộp trắng của thuật toán Machine Learning (ML) Nó chia sẻ logic ra quyết định nội bộ, vốn không có sẵn trong loại thuật toán hộp đen như Mạng thần kinh Thời gian đào tạo của nó nhanh hơn so với thuật toán mạng thần kinh Độ phức tạp thời gian của cây quyết định là một hàm của số lượng bản ghi và số lượng thuộc tính trong dữ liệu đã cho Cây quyết định là một phương pháp không phân phối hoặc không tham số, không phụ thuộc vào các giả định phân phối xác suất Cây quyết định có thể xử lý dữ liệu chiều cao với độ chính xác tốt

2.5.1.2 Hoạt động của thuật toán Cây quyết định

Ý tưởng cơ bản về hoạt động của thuật toán cây quyết định như sau:

1 Chọn thuộc tính tốt nhất bằng cách sử dụng các biện pháp lựa chọn thuộc tính (ASM – attribute selection measure) để phân chia các bản ghi

2 Biến thuộc tính đó thành nút quyết định và chia tập dữ liệu thành các tập con nhỏ hơn

3 Bắt đầu xây dựng cây bằng cách lặp lại quy trình này một cách đệ quy cho mỗi Node con cho đến khi một trong những điều kiện sẽ khớp:

 Tất cả các bộ dữ liệu thuộc về cùng một giá trị thuộc tính

 Không còn thuộc tính nào nữa

 Không có nhiều trường hợp nữa

Trang 34

Data Training

Data Test

Lựa chọn thuộc tính tốt nhất dựa vào chỉ số Gain, Gini

Tách dữ liệu thành các tập nhỏ hơn theo thuộc

Hình 2.6.2: luồng hoạt động của cây quyết định

2.5.1.3 Các biện pháp lựa chọn thuộc tính

Biện pháp lựa chọn thuộc tính là một heuristic để chọn tiêu chí phân tách dữ liệu phân vùng thành cách tốt nhất có thể Nó còn được gọi là quy tắc chia tách vì nó giúp chúng ta xác định các điểm dừng cho các bộ dữ liệu trên một nút nhất định ASM (attribute selection measure) cung cấp thứ hạng cho từng tính năng (hoặc thuộc tính) bằng cách giải thích tập dữ liệu đã cho Thuộc tính điểm tốt nhất sẽ được chọn làm thuộc tính chia ( Nguồn ) Trong trường hợp thuộc tính

có giá trị liên tục, các điểm phân chia cho các nhánh cũng cần xác định Các biện pháp lựa chọn phổ biến nhất là Thông tin đạt được, Tỷ lệ tăng và Chỉ số

Gini

2.5.1.4 Thông tin đạt được

Shannon đã phát minh ra khái niệm entropy, đo lường sự không tinh khiết của

bộ đầu vào Trong vật lý và toán học, entropy được gọi là tính ngẫu nhiên hoặc tạp chất trong hệ thống Trong lý thuyết thông tin, nó đề cập đến tạp chất trong một nhóm các ví dụ Thông tin đạt được là sự giảm entropy Độ lợi thông tin tính toán sự khác biệt giữa entropy trước khi tách và entropy trung bình sau khi tách bộ dữ liệu dựa trên các giá trị thuộc tính đã cho Thuật toán cây quyết định ID3 (Iterative Dichotomiser) sử dụng thông tin thu được

𝐼𝑛𝑓𝑜(𝐷) = − ∑ 𝑃𝑖 log2𝑃𝑖

𝑚 𝑖=1

Trong đó, Pi là xác suất mà một tuple tùy ý trong D thuộc về lớp Ci

𝐼𝑛𝑓𝑜𝐴(𝐷) = ∑ |𝐷𝑗|

|𝐷| 𝑋 𝐼𝑛𝑓𝑜(𝐷𝑗)

𝑉 𝑗=1

𝐺𝑎𝑖𝑛(𝐴) = 𝐼𝑛𝑓𝑜(𝐷) − 𝐼𝑛𝑓𝑜𝐴(𝐷)

Ngày đăng: 14/10/2019, 23:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w