Nội dung được giao và kết quả mong đợi của người hướng dẫn - Thu thập thông tin, dữ liệu, các nghiên cứu có liên quan đến đề tài - Xử lý làm sạch dữ liệu, phân tích dữ liệu - Nghiên cứu
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
* * *
XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ RỦI RO ĐỐI
VỚI KHOẢN VAY CỦA SINH VIÊN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Đồng Nai, Năm 2022
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
* * *
XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ RỦI RO ĐỐI
VỚI KHOẢN VAY CỦA SINH VIÊN
Chuyên ngành: Công nghệ thông tin
Mã số: 8480201
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Đồng Nai - Năm 2022
Trang 3đã tận tình hướng dẫn, chỉ bảo và luôn có sự phản hồi tỉ mỉ trong thời gian nhanh nhất, giúp em trong suốt thời gian qua để em có thể hoàn thành luận văn của mình
Cuối cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè và đồng nghiệp đã luôn bên cạnh ủng hộ và tạo điều kiện để em có thể hoàn thành luận văn này
Xin chân thành cảm ơn!
Học viên
LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn thầy PGS TS , người
Em cũng xin gửi lời cảm ơn đến quý thầy cô tại Trường Đại học nói chung và Khoa Sau đại học nói riêng đã tạo điều kiện cho em được học tập và có đủ kỹ năng để hoàn thành được khóa đào tạo thạc sĩ chuyên ngành Công nghệ thông tin
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đề tài này là công trình nghiên cứu độc lập của cá nhân tôi,
Tôi xin hoàn toàn chịu trách nhiệm về luận văn của mình
Học viên
dưới sự hướng dẫn của PGS TS Những số liệu và kết quả nghiên cứu là trung thực các nguồn tài liệu tham khảo được trích dẫn nguồn đầy đủ và chú thích rõ ràng Không có bất kỳ sự sao chép hay vi phạm gì trong luật sở hữu trí tuệ và pháp luật Việt Nam
Trang 5TRƯỜNG ĐẠI HỌC LẠC HỒNG
KHOA SAU ĐẠI HỌC
TÓM TẮT LUẬN VĂN
(Dùng cho học viên và người hướng dẫn)
Đề tài: XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ RỦI RO ĐỐI VỚI KHOẢN
NỘI DUNG TÓM TẮT
1 Nội dung được giao và kết quả mong đợi của người hướng dẫn
- Thu thập thông tin, dữ liệu, các nghiên cứu có liên quan đến đề tài
- Xử lý làm sạch dữ liệu, phân tích dữ liệu
- Nghiên cứu lựa chọn thuật toán và đề xuất mô hình
- Xây dựng hệ thống
- Thử nghiệm và đánh giá kết quả
- Hoàn thiện hệ thống và viết báo cáo luận văn
2 Cách thức giải quyết vấn đề
Để giải quyết bài toán Xây dựng hệ thống đánh giá rủi ro đối với khoản vay của sinh viên, dựa vào phương pháp máy học với mô hình Random Forest được thực hiện theo các bước sau:
- Tìm kiếm và nghiên cứu tổng quan qua các bài báo, báo cáo, công trình nghiên cứu khoa học có liên quan đến đề tài
VAY CỦA SINH VIÊN
Ngành: Côn nghệ thông tin Mã số: 8480201
Học viên:
Người hướng dẫn: PGS TS
Trang 6- Thu thập, xử lý dữ liệu và phân chia dữ liệu
- Mô hình sử dụng cho dữ liệu là Random Forest, tìm hiểu về mô hình Random Forest
- Tiến hành triển khai mô hình Random Forest trên dữ liệu đã được thu thập và
xử lý Dùng ngôn ngữ lập trình Python để xây dựng hệ thống
- Dùng phương pháp đánh giá mô hình Confusion matrix để đánh giá tính chính xác của hệ thống
3 Đánh giá về mặt khoa học của kết quả
- Luận văn đã hệ thống hóa các lý thuyết liên quan tới bài toán dự đoán rủi ro tài chính, đặc biệt trình bày được chi tiết cách sử dụng mô hình Random Forest
- Luận văn đã xây dựng được hệ thống đánh giá rủi ro tài chính và rủi ro tốt nghiệp của sinh viên, với dữ liệu thực tế tại Trường Đại học Ngân hàng TP HCM đã cho kết quả nhanh, độ chính xác tốt
4 Những vấn đề còn tồn tại so với nội dung được giao (nếu có)
Ngày 29 tháng 12 năm 2022
Trang 7MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC HÌNH ẢNH
DANH MỤC BẢNG
CHƯƠNG 1: PHẦN MỞ ĐẦU 1
1.1 Lý do chọn đề tài 1
1.2 Mục tiêu nghiên cứu của đề tài 3
1.3 Đối tượng và phạm vi nghiên cứu 3
1.4 Giới hạn của nghiên cứu 3
1.5 Ý nghĩa khoa học 4
1.6 Ý nghĩa thực tiễn 4
CHƯƠNG 2: TỔNG QUAN 5
2.1 Lý thuyết về hệ thống thông tin 5
2.2 Rủi ro tín dụng tài chính 6
2.2.1 Các yếu tố dẫn đến rủi ro với các khoản vay khách hàng cá nhân 6
2.2.2 Đánh giá rủi ro theo phương pháp định lượng 7
2.2.3 Đánh giá phân loại rủi ro theo máy học 7
2.3 Một số thuật toán phân loại trong máy học 8
2.3.1 Thuật toán 8
2.3.2 Phân loại trong máy học 8
2.3.3 Thuật toán Support Vector Machine 13
2.3.4 Thuật toán Logistic Regression 13
2.3.5 Thuật toán Decision Trees 14
2.3.6 Thuật toán Random Forest 14
2.4 So sánh Random Forest với thuật toán Cây quyết định [17] 16
2.5 Các công trình nghiên cứu có liên quan 17
2.6 Những vấn đề luận văn cần nghiên cứu, giải quyết 20
CHƯƠNG 3: PHƯƠNG PHÁP LUẬN 21
3.1 Phương pháp nghiên cứu 21
3.2 Quy trình cho vay với các khoản vay sinh viên tại ngân hàng chính sách xã hội 22
3.3 Quy trình hỗ trợ tài chính cho sinh viên thực tế tại trường Đại học Ngân hàng TP HCM 23
Trang 83.4 Đề xuất quy trình hỗ trợ tài chính theo định hướng dữ liệu 25
3.5 Phương pháp thu thập Dataset 25
3.6 Mô hình Random Forest 27
3.7 Đánh giá mô hình trong máy học 28
CHƯƠNG 4: XÂY DỰNG MÔ HÌNH, THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 31
4.1 Mô tả dữ liệu 31
4.2 Phương pháp xử lý dữ liệu 33
4.3 Kết quả mô hình Random Forest 33
4.3.1 Kết quả mô hình Random Forest dự đoán khả năng tài chính của sinh viên 33
4.3.2 Kết quả mô hình Random Forest dự đoán khả năng tốt nghiệp 36
4.4 Mô tả hệ thống 38
4.4.1 Đối với người dùng là quản trị viên 39
4.4.2 Đối với người dùng là sinh viên: 40
4.5 Mô tả kết quả mô hình 40
4.6 Thực nghiệm hệ thống 41
CHƯƠNG 5: KẾT LUẬN 46
5.1 Đóng góp của đề tài 46
5.2 Hạn chế của đề tài 46
5.3 Hướng nghiên cứu phát triển 47
DANH MỤC HÌNH ẢNH Hình 2.1: Sơ đồ Hệ thống thông tin cơ bản 5
Hình 2.2: Ví dụ phân loại nhị phân 9
Hình 2.3: ví dụ phân loại nhiều lớp 10
Hình 2.4: Ví dụ phân loại nhiều nhãn 11
Hình 2.5: Ví dụ phân loại không cân bằng 12
Hình 2.6: Mô hình hóa hoạt động của thuật toán Random Forest 15
Hình 2.7: Quá trình hoạt động của Random Forest 16
Hình 2.8: Quá trình hoạt động của Random Forest 16
Trang 9Hình 3.1: Sơ đồ các bước thực hiện 21 Hình 3.2: Sơ đồ Random Forest 28 Hình 4.1: Dữ liệu thu thập được tại Trường Đại học Ngân hàng 31 Hình 4.2: 566 mẫu của sinh viên khóa 33 và 34 đã được gán nhãn về nợ học
phí 32 Hình 4.3: 566 mẫu của sinh viên khóa 33 và 34 về điểm trung bình 32 Hình 4.4: Xử lý dữ liệu 33 Hình 4.5: Kết quả của mô hình Random Forest cho mô hình dự đoán khả
năng tài chính của sinh viên 34 Hình 4.6: Kết quả mô hình Random Forest dự đoán khả năng tốt nghiệp của
sinh viên 36 Hình 4.7: Mô phỏng hệ thống đánh giá rủi ro đối với khoản vay sinh viên 39 Hình 4.8: Hệ thống đánh giá rủi ro đối với khoản vay sinh viên được chạy
trên nền tảng Python 42 Hình 4.9: Dữ liệu sinh viên dưới định dạng csv được kết nối trực tiếp từ máy
quản trị viên vào hệ thống 42 Hình 4.10: Giao diện nhập liệu cho người sinh viên 43 Hình 4.11: Trường hợp sinh viên nhập dữ liệu chưa từng xuất hiện trong cơ
sở dữ liệu 44 Hình 4.12: Kết quả dự đoán về tài chính và dự đoán về khả năng tốt nghiệp
44 Hình 4.13: In kết quả dự đoán 45 Hình 4.14: Xuất kết quả dự đoán ra file pdf 45
DANH MỤC BẢNG
Bảng 2.1: So sánh Random Forest với Decision tree 17Bảng 3.1: Đối tượng thu thập thông tin 26Bảng 3.2: Đơn vị cung cấp thông tin và cách lấy thông tin 26
Trang 10Bảng 3.3: Tổng quan về thông tin thu thập được 27Bảng 4.1: Kết quả mô hình Random Forest dự đoán khả năng tài chính của sinh
viên 34Bảng 4.2: Kết quả ma trận nhầm lẫn (confusion matrix) của mô hình dự đoán khả
năng tài chính của sinh viên 35Bảng 4.3: Kết quả mô hình Random Forest dự đoán khả năng tốt nghiệp của sinh
viên 36Bảng 4.4: Kết quả ma trận nhầm lẫn (confusion matrix) của mô hình dự đoán khả
năng tốt nghiệp của sinh viên 37
Trang 11CHƯƠNG 1: PHẦN MỞ ĐẦU
Trong chương này tác giả sẽ trình bày lý do chọn đề tài, mục tiêu, đối tượng, phạm vi nghiên cứu, giới hạn của nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài Từ đó là cơ sở để thực hiện nội dung của chương 2
Theo thống kê của Trung tâm Hỗ trợ đào tạo và Cung ứng nguồn nhân lực – Bộ giáo dục và đào tạo, về thực trạng việc làm của sinh viên sau khi tốt nghiệp tăng dần theo thứ hạng Theo đó, sinh viên tốt nghiệp với thứ hạng càng cao thì tỷ lệ xin được việc làm càng lớn Cụ thể với sinh viên tốt nghiệp loại xuất sắc thì tỷ lệ xin được việc làm là 94,5% so với 77,8% sinh viên tốt nghiệp loại Trung bình [2] Những sinh viên có kết quả học tập tốt như xuất sắc được nhà tuyển dụng ưu tiên xem xét và để ý kỹ hơn, cũng yên tâm hơn khi tuyển dụng [3] Tỷ lệ xin được việc làm sau khi ra trường của những sinh viên có học lực xuất sắc cũng cao hơn những sinh viên có học lực trung bình Từ đó sinh viên sẽ có điều kiện để trả nợ nếu có vay vốn từ ngân hàng
Hàng năm nhu cầu vay vốn của sinh viên là từ 10% – 15% số lượng sinh viên nhập học Tổng số sinh viên có việc làm sau khi ra trường, chiếm tỷ lệ 68% [4] Còn 32% sinh viên thất nghiệp hoặc phải làm các công việc tạm khác với thu nhập thấp và không ổn định Nếu trong số sinh viên thất nghiệp này có vay vốn ngân hàng sẽ gặp khó khăn hoặc không thể trả được lãi và gốc cho ngân hàng sau khi ra trường Từ đó dẫn đến làm tăng các khoản nợ xấu trong ngân hàng
Trang 12Do đó, ngoài các thủ tục về hồ sơ vay vốn của sinh viên theo quy định, thì rất cần có thêm thông tin giúp ngân hàng có thể dự báo về học lực và khả năng tốt nghiệp của sinh viên, từ đó có thể đánh giá được rủi ro của khoản vay của sinh viên Mặt khác, Trước áp lực tự chủ tài chính các trường đại học gần như bắt buộc phải tăng học phí Theo PGS-TS Nguyễn Ninh Thụy, Trưởng Ban Kế hoạch Tài chính – Đại học Quốc gia TP HCM, thừa nhận khi các trường đại học công lập tự chủ tăng học phí có thể dẫn đến việc giảm cơ hội được đến trường của các sinh viên khó khăn [5]
Theo thống kê từ Phòng Đào tạo – Trường Đại học ngân hàng TP HCM Tỷ lệ sinh viên bỏ học của riêng hệ Đại học chính quy trung bình từ năm 2017 đến năm
2021 là 13.52%, tương đương với 1359 sinh viên Có nhiều nguyên nhân dẫn đến việc sinh viên bỏ học và một trong số đó là vấn đề khó khăn về tài chính và kết quả học tập không tốt Để giải quyết vấn đề khó khăn về tài chính cho sinh viên có hoàn cảnh khó khăn Trường Đại học Ngân hàng TP HCM có liên kết với các Ngân hàng, doanh nghiệp hỗ trợ cho sinh viên có hoàn cảnh khó khăn được hỗ trợ ngoài học bổng như: trợ cấp khó khăn giành cho những sinh viên có hoàn cảnh đặc biệt, vượt khó học giỏi,… Về vấn đề học lực của sinh viên không tốt, nhà trường đã giao nhiệm vụ cho phòng Công tác sinh viên làm việc với các giảng viên cố vấn học tập,
hỗ trợ đặc biệt cho các sinh viên có học lực không tốt, nhằm cải thiện kết quả học tập cho các sinh viên này
Khi một sinh viên lên Trung tâm hỗ trợ sinh viên đề nghị được hỗ trợ tiếp cận với các nguồn hỗ trợ tài chính dành cho các sinh viên có hoàn cảnh khó khăn, thủ tục xác minh mất rất nhiều thời gian và công sức Vấn đề đặt ra là làm sao để biết sinh viên đề nghị có khó khăn về tài chính và học lực không tốt mà không cần phải liên hệ xác minh từ phòng Khảo thí hay kế toán
Về phía ngân hàng, khi nhận được hồ sơ vay vốn, ngoài các giấy tờ theo quy định và xác nhận khó khăn từ chính quyền địa phương, thì làm sao biết được lực học của sinh viên trong trường Để từ đó có thể dự đoán được khả năng tốt nghiệp của sinh viên Do đó, rất cần một hệ thống dự báo mức độ rủi ro về tài chính và học lực của sinh viên Để giúp nhà trường có thông tin chính xác, nhanh chóng hỗ trợ
Trang 13cho các sinh viên thực sự khó khăn tiếp cận với những nguồn hỗ trợ tài chính phù hợp Giúp ngân hàng có thêm thông tin đánh giá rủi ro khoản vay của sinh viên Đó cũng chính là lý ro tác giả chọn đề tài “XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ RỦI
RO ĐỐI VỚI KHOẢN VAY SINH VIÊN”
1.2 Mục tiêu nghiên cứu của đề tài
- Giúp nhà trường đánh giá được các sinh viên có rủi ro về tài chính, từ đó tạo điều kiện cho các sinh viên này được tiếp cận với các nguồn hỗ trợ về tài chính phù hợp, yên tâm học tập Với các sinh viên có học lực không tốt Giảng viên cố vấn học tập sẽ tìm hiểu nguyên nhân, tư vấn phương pháp học tập, giúp sinh viên tự xây dựng kế hoạch học tập của riêng mình, nhằm cải thiện kết quả học tập Giảm thiểu tình trạng bỏ học liên quan đến vấn đề tài chính và học tập của sinh viên trong Trường Đại học Ngân hàng TP HCM
- Căn cứ vào kết quả đánh giá rủi ro khoản vay của sinh viên có thể giúp ngân hàng có thêm thông tin để dự báo rủi ro khoản vay của sinh viên Giúp việc quản trị rủi ro tín dụng khoản vay của sinh viên hiệu quả hơn
1.3 Đối tượng và phạm vi nghiên cứu
- Đối tượng của nghiên cứu của đề tài là sinh viên hệ Đại học chính quy ngành Ngân hàng các khóa 33, 34 và 35 thuộc Khoa Ngân hàng của Trường Đại học Ngân hàng TP HCM
- Phạm vi nghiên cứu của đề tài là Khoa Ngân hàng, trường Đại học Ngân hàng
TP HCM
1.4 Giới hạn của nghiên cứu
- Đề tài chỉ nghiên cứu rủi ro tài chính và học lực của sinh viên, dựa vào các thông tin sinh viên đang có tại Trường Đại học Ngân hàng TP HCM Từ đó đưa ra kết quả dự báo cho biết sinh viên đó có rủi ro tài chính hay không, học lực của sinh viên có khả năng tốt nghiệp ở mức nào Căn cứ vào trường thông tin sinh viên có vay vốn ngân hàng, có thể dùng kết quả để đưa ra dự đoán rủi ro có thể xảy ra với khoản vay của sinh viên Tác giả không nghiên cứu
về rủi ro tín dụng hay rủi ro các khoản vay cá nhân và tổ chức khác
Trang 14- Về tên gọi “Hệ thống đánh giá rủi ro đối với khoản vay sinh viên” trong đề
tài chỉ là tên gọi của đề tài, không mang ý nghĩa đánh giá rủi ro tín dụng, hay
dự báo rủi ro tín dụng đối với các khoản vay trong thực tiễn
1.5 Ý nghĩa khoa học
Đề tài đề xuất đánh giá rủi ro khoản vay cho sinh viên theo hướng khai phá dữ
liệu, với các mục tiêu sau:
- Hệ thống được áp dụng vào đánh giá mức độ rủi ro tài chính và học lực của
sinh viên Tạo tiền đề cho việc nghiên cứu sâu về ứng dụng công nghệ thông
tin trong giáo dục
- Khi sử dụng hệ thống này, việc đánh giá hỗ trợ tài chính cho sinh viên sẽ
minh bạch, nhanh chóng và chính xác, có thể thực hiện một cách dễ dàng ở
mọi lúc, mọi nơi
1.6 Ý nghĩa thực tiễn
- Giúp sinh viên có hoàn cảnh khó khăn được tiếp cận với các nguồn hỗ trợ tài
chính phù hợp các sinh viên có học lực chưa tốt được hỗ trợ tư vấn xây dựng
kế hoạch học tập của riêng mình, nâng cao kết quả học tập
- Thông qua kết quả phân tích, nhà trường cũng nắm được hoàn cảnh của sinh
viên, từ đó đưa ra các tư vấn hỗ trợ kịp thời, tạo động lực cho sinh viên học
tập và hướng tới giảm tỷ lệ sinh viên bỏ học, tăng tỷ lệ sinh viên tốt nghiệp
- Ngân hàng có thêm thông tin để có thể đánh giá khoản vay của sinh viên, từ
đó đưa ra dự báo rủi ro đối với khoản vay của sinh viên
Trang 15CHƯƠNG 2: TỔNG QUAN
Mục tiêu của chương này nhằm giới thiệu một số khái niệm lý thuyết về hệ thống thông tin, khái niệm về rủi ro tín dụng tài chính, phương pháp đánh giá rủi ro theo định lượng, phân loại và đánh giá rủi ro theo máy học, một số thuật toán phân loại trong máy học, các công trình nghiên cứu có liên quan, từ đó đưa ra các vấn đề luận văn cần nghiên cứu giải quyết
2.1 Lý thuyết về hệ thống thông tin
Hệ thống thông tin là một tập hợp các thành phần có liên quan đến nhau được
tổ chức để thực hiện một loạt các công việc từ thu thập thông tin đầu vào, xử lý thông tin, lưu trữ thông tin và xuất thông tin đầu ra, nhằm mục đích phản hổi một yêu cầu nào đó [6]
Chức năng chính của Hệ thống thông tin là xử lý thông tin Bao gồm có thông tin đầu vào, bộ xử lý, thông tin đầu ra và thông tin phản hồi cần thiết của hệ thống
- Mô hình hệ thống thông tin cơ bản (Hình 2.1):
Hình 2.1: Sơ đồ Hệ thống thông tin cơ bản
- Đầu vào: trong hệ thống thông tin, việc thu thập dữ liệu thông tin đầu vào là
một tập hợp các hoạt động thu thập dữ liệu thô [6]
- Xử lý dữ liệu: xử lý dữ liệu là hoạt động biến đổi dữ liệu, nó có thể bao gồm
các hoạt động lên dữ liệu như tính toán cộng, trừ, nhân, chia, so sánh, sắp xếp, phân loại, tổng hợp…làm cho nó thay đổi về nội dung, vị trí hay cách
Trang 16thể hiện từ dữ liệu thô đầu vào thành dữ liệu hoặc thông tin đầu ra có giá trị [6]
- Đầu ra: Đầu ra thường là thông tin có giá trị, thường được thể hiện dưới
dạng văn bản hoặc báo cáo [6]
- Phản hồi: Là thông tin do hệ thống tạo ra với mục đích thay đổi dữ liệu đầu
vào hoặc thay đổi quá trình xử lý dữ liệu [6]
2.2 Rủi ro tín dụng tài chính
Rủi ro là sự kết hợp khả năng xảy ra sự cố và hậu quả của chúng Việc đánh giá rủi ro là việc nhận diện, xác định các rủi ro có thể xảy ra làm cơ sở để đưa ra các biện pháp phòng ngừa làm giảm thiểu hậu quả khi rủi ro xảy ra [7]
Tín dụng là hoạt động cho vay dựa trên nguyên tắc có hoàn trả giữa bên cho vay
và bên vay Trong đó bên đi vay sẽ hoàn trả cho bên cho vay trong một thời hạn mà
2 bên thỏa thuận và thường kèm theo lãi suất [8]
Rủi ro tín dụng là ngôn từ thường được sử dụng trong hoạt động cho vay của ngân hàng hoặc trên thị trường tài chính Đó là khả năng không chi trả được nợ của người đi vay đối với người cho vay khi đến hạn phải thanh toán Luôn là người cho vay phải chịu rủi ro khi chấp nhận một hợp đồng cho vay tín dụng Bất kỳ một hợp đồng cho vay nào cũng có rủi ro tín dụng [8]
Rủi ro tài chính là bất kỳ dạng rủi ro nào liên quan đến tài chính, bao gồm cả các giao dịch tài chính bao gồm cả khoản vay của người khác mà có nguy cơ vỡ nợ Thông thường nó được hiểu là chỉ bao gồm rủi ro mất mát, có nghĩa là tiềm năng của sự mất mát tài chính và sự không chắc chắn về mức độ của nó [8]
2.2.1 Các yếu tố dẫn đến rủi ro với các khoản vay khách hàng cá nhân
- Rủi ro liên quan đến thông tin khách hàng không đồng nhất
- Khách hàng cung cấp thông tin sai sự thật
- Nguồn tài chính trả nợ của khách hàng bị ảnh hưởng bởi các yếu tố khách quan
- Việc thẩm định của nhân viên thẩm định không sát với thực tế
- Công tác thẩm định chưa hợp lý so với thực tế [9]
Trang 172.2.2 Đánh giá rủi ro theo phương pháp định lượng
Phương pháp định lượng được áp dụng trong nghiên cứu khoa học tự nhiên và khoa học xã hội là việc điều tra thực nghiệm có hệ thống những hiện tượng quan sát được thông qua số liệu thống kê, như toán học, số hoặc kỹ thuật vi tính Mục đích của nghiên cứu bằng phương pháp định lượng là sử dụng các mô hình toán học, lý thuyết hay các giả thuyết thực tế Trong nghiên cứu định lượng quá trình đo lường rất quan trọng, vì quá trình này cung cấp các kết nối cơ bản giữa quan sát thực nghiệm và số liệu cụ thể thông qua các mối quan hệ định lượng Số liệu trong nghiên cứu định lượng, là bất kỳ dữ liệu nào ở dạng số như số liệu thống kê, tỷ lệ phần trăm,… Hiện nay, phương pháp nghiên cứu định lượng được sử dụng rộng rãi trong tâm lý học, kinh tế học, xã hội học, tiếp thị, y tế cộng đồng, khoa học toán học,… Đánh giá rủi ro theo phương pháp định lượng là hoạt động phân tích, tính toán tần suất và hậu quả của sự cố có thể xảy ra dựa trên các dữ liệu đã có từ trước phương pháp này sử dụng các giá trị để biểu diễn bằng các con số thay vì được mô
tả bằng lời như trong phương pháp đánh giá định tính Chất lượng của đánh giá rủi
ro theo phương pháp định lượng phụ thuộc vào mức độ chính xác và hoàn chỉnh của dữ liệu được lượng hóa sử dụng trong quá trình đánh giá [7]
2.2.3 Đánh giá phân loại rủi ro theo máy học
Máy học là các chương trình máy tính có khả năng học hỏi về cách hoàn thành một nhiệm vụ nào đó, và nó có thể cải thiện hiệu suất theo thời gian Máy học là thành phần quan trọng trong lĩnh vực khoa học dữ liệu hiện đang rất phát triển Với việc dùng phương pháp thống kê, các thuật toán được đào tạo dùng để phân loại, dự đoán và khai phá những thông tin chi tiết trong những dự án khai thác dữ liệu Những thông tin chi tiết này đã hỗ trợ, thúc đẩy việc đưa ra quyết định trong các ứng dụng, công cụ hỗ trợ người dùng Khi khối lượng dữ liệu vẫn tiếp tục mở rộng
và phát triển, thì khả năng dự đoán, phân tích chính xác của máy học sẽ ngày càng tăng lên Máy học cần có một nguồn dữ liệu cực lớn để học, và nó vẫn cần có sự tham gia của con người trong việc tìm hiểu dữ liệu, lựa chọn kỹ thuật phù hợp để phân tích thông tin và đánh giá mô hình Dữ liệu trước khi sử dụng phải được xử lý không có sai lệch và phải là dữ liệu thật
Trang 18Với sự xuất hiện và phát triển của dữ liệu lớn (Big data) đã cung cấp cho thuật toán của máy học một lượng dữ liệu đủ lớn để cải thiện độ chính xác của mô hình
và dự đoán [10] Học máy cho phép dự đoán một số thông tin của dữ liệu dựa trên những đặc tính đã biết
Đánh giá phân loại rủi ro theo máy học, là hoạt động ứng dụng máy học vào việc đánh giá phân loại rủi ro, nhằm rút ngắn thời gian, tăng độ chính xác trong hoạt động đánh giá phân loại rủi ro
2.3 Một số thuật toán phân loại trong máy học
2.3.1 Thuật toán
Thuật toán hay còn gọi là giải thuật là một tập hợp hữu hạn những hướng dẫn được xác định rõ ràng, có thể thực hiện được bằng máy tính, thường để giải quyết một lớp vấn đề hoặc để thực hiện một phép tính Các thuật toán luôn rõ ràng và được sử dụng chỉ rõ việc thực hiện các phép tính, xử lý dữ liệu, suy luận tự động hoặc các tác vụ khác Một thuật toán có thể được biểu diễn trong một khoảng không gian và thời gian hữu hạn, và bằng một ngôn ngữ hình thức được xác định rõ ràng
để tính toán một hàm số Bắt đầu từ trạng thái ban đầu và đầu vào ban đầu (có thể trống), các hướng dẫn mô tả một phép tính, khi được thực thi, sẽ tiến hành qua một
số hữu hạn các trạng thái kế tiếp được xác định rõ, cuối cùng tạo ra "đầu ra" và chấm dứt ở trạng thái kết thúc cuối cùng Sự chuyển đổi từ trạng thái này sang trạng thái tiếp theo không nhất thiết phải mang tính xác định [11]
2.3.2 Phân loại trong máy học
Có 4 phân loại chính trong học máy, bao gồm: phân loại nhị phân, đa lớp, đa nhãn và phân loại không cân bằng [12]
- Phân loại nhị phân (Binary Classification)
Phân loại nhị phân đề cập đến các nhiệm vụ phân loại có hai nhãn lớp Thông thường, các nhiệm vụ phân loại nhị phân liên quan đến một lớp là trạng thái bình thường và một lớp khác là trạng thái bất thường đúng và sai, tích cực và tiêu cực, 0
và 1… [13]
Trang 19Ví dụ: Muốn phát hiện xem một hình ảnh nhất định là một chiếc xe tải hay một chiếc thuyền [12]
Hình 2.2: Ví dụ phân loại nhị phân Các thuật toán Logistic Regression và Support Vector Machines được thiết kế đặc biệt dùng để phân loại nhị phân Tuy nhiên, Các thuật toán phổ biến sau cũng
có thể được sử dụng để phân lớp nhị phân bao gồm:
+ K-Nearest Neighbors
+ Decision Trees
+ Naive Bayes
- Phân loại nhiều lớp (Multi-Class Classification)
Phân loại nhiều lớp đề cập đến các nhiệm vụ phân loại có nhiều hơn hai nhãn lớp Không giống như phân loại nhị phân, phân loại nhiều lớp không có khái niệm
về kết quả bình thường và bất thường Thay vào đó, các mẫu được phân loại là thuộc
về một trong một loạt các lớp đã biết [13]
Ví dụ: Trong trường hợp sau, mô hình đã phân loại chính xác hình ảnh là một chiếc máy bay [12]
Trang 20Hình 2.3: ví dụ phân loại nhiều lớp Hầu hết các thuật toán phân loại nhị phân đều có thể được sử dụng để phân loại nhiều lớp Các thuật toán này bao gồm:
- Phân loại nhiều nhãn (Multi-Label Classification)
Phân loại nhiều nhãn đề cập đến các nhiệm vụ phân loại có hai hoặc nhiều nhãn lớp, trong đó một hoặc nhiều nhãn lớp có thể được dự đoán cho mỗi mẫu [13]
Trang 21Ví dụ: Một hình ảnh có thể chứa nhiều đối tượng, như minh họa 2.4 Mô hình dự đoán rằng hình ảnh chứa: một chiếc máy bay, một chiếc thuyền, một chiếc xe tải và một con chó [12]
Hình 2.4: Ví dụ phân loại nhiều nhãn Các thuật toán phân loại được sử dụng để phân lớp nhị phân hoặc đa lớp không thể được sử dụng trực tiếp để phân loại đa nhãn Các phiên bản chuyên biệt của thuật toán phân lớp tiêu chuẩn có thể được sử dụng, được gọi là phiên bản nhiều nhãn của thuật toán, bao gồm:
+ Multi-label Decision Trees
+ Multi-label Random Forests
+ Multi-label Gradient Boosting
- Phân loại không cân bằng (Imbalanced Classification)
Phân loại không cân bằng đề cập đến các nhiệm vụ phân loại trong đó số lượng trong mỗi lớp được phân phối không đồng đều Thông thường, các nhiệm vụ phân loại không cân bằng là các nhiệm vụ phân loại nhị phân trong đó phần lớn các ví dụ trong tập dữ liệu huấn luyện thuộc về lớp bình thường và một số ít các ví dụ thuộc lớp bất thường [13]
Ví dụ: Hãy xem xét kịch bản phân loại 3 lớp sau đây trong đó dữ liệu huấn luyện chứa: 60% xe tải, 25% máy bay và 15% thuyền [12]
Trang 22Hình 2.5: Ví dụ phân loại không cân bằng
Việc sử dụng các mô hình dự đoán thông thường như Cây quyết định, Hồi quy logistic, không thể hiệu quả khi xử lý tập dữ liệu mất cân bằng, vì chúng có thể thiên về dự đoán lớp có số lượng quan sát cao nhất và coi những lớp có ít số lượng hơn là nhiễu Để giải quyết vấn đề này Các kỹ thuật chuyên biệt có thể được sử dụng để thay đổi thành phần của các mẫu trong tập dữ liệu đào tạo bằng cách lấy mẫu dưới lớp đa số hoặc lấy mẫu quá mức cho lớp thiểu số, bao gồm:
+ Cost-sensitive Logistic Regression
+ Cost-sensitive Decision Trees
+ Cost-sensitive Support Vector Machines
Cuối cùng, các chỉ số hiệu suất thay thế có thể được yêu cầu vì báo cáo độ chính xác của phân loại có thể gây hiểu lầm, bao gồm:
+ Precision
+ Recall
+ F-Measure
Trang 232.3.3 Thuật toán Support Vector Machine
Là thuật toán hay được sử dụng trong phân lớp các bài toán phân loại nhị phân
và dự báo của học máy có giám sát Thuật toán này sử dụng hàm Kernel để biến đổi
từ dữ liệu ban đầu không phân biệt tuyến tính sang không gian mới có phân biệt tuyến tính hoặc gần phân biệt tuyến tính, giúp phân lớp dễ dàng hơn [14]
- Ưu điểm: thuật toán này hoạt động tốt với các bài toán phân loại văn bản và những bài toán có chiều cực lớn tiết kiệm bộ nhớ, do chỉ có những điểm cần thiết mới được lưu trữ trong bộ nhớ Có tính linh hoạt cao nhờ khả năng áp dụng Kernel
- Nhược điểm: với những dữ liệu có số lượng thuộc tính lớn hơn rất nhiều so với số lượng dữ liệu thì thuật toán này cho ra kết quả không tốt việc phân lớp của thuật toán này chỉ là việc tách các đối tượng vào 2 lớp siêu phẳng, nó chưa giải thích được xác suất xuất hiện của 1 thành viên trong một nhóm là như thế nào
2.3.4 Thuật toán Logistic Regression
Mặc dù tên gọi có chứa từ “Regression” nhưng Logistic Regression là 1 thuật toán thuộc loại Classification được dùng khá phổ biến thuật toán Logistic Regression được dùng để gán các đối tượng cho 1 tập hợp giá trị rời rạc Thuật toán này dùng hàm sigmoid logistic để đưa ra đánh giá theo xác suất [15]
- Ưu điểm: Thuật toán hoạt động tốt đối với các trường hợp tập dữ liệu có thể
phân tách tuyến tính Logistic Regression không chỉ cho phép đo lường mức
độ liên quan của một biến độc lập (kích thước hệ số), mà còn cho chúng ta biết về hướng của mối quan hệ (tích cực hoặc tiêu cực) Hai biến được cho là
có một liên kết tích cực khi sự gia tăng giá trị của một biến số cũng làm tăng giá trị của biến số khác
- Nhược điểm: Logistic Regression không dự đoán được kết quả liên tục nó
có thể không chính xác nếu kích thước mẫu quá nhỏ Nếu kích thước mẫu ở mức nhỏ, thì mô hình được tạo ra bằng hồi quy logistic dựa trên số lượng quan sát thực tế nhỏ hơn Trong thống kê, overfitting là một lỗi mô hình hóa xảy ra khi mô hình quá khớp với một bộ dữ liệu hạn chế vì thiếu dữ liệu đào
Trang 24tạo Hay nói cách khác, không có đủ dữ liệu đầu vào để mô hình tìm ra các mẫu trong đó Trong trường hợp này, mô hình không thể dự đoán chính xác kết quả của một tập dữ liệu mới hoặc trong tương lai
2.3.5 Thuật toán Decision Trees
Cây quyết định (Decision Tree) là một cây phân cấp, có cấu trúc giống biểu đồ dòng chảy được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như: Nhị phân (Binary), Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) Nhưng thuộc tính phân lớp luôn phải có kiểu dữ liệu là Binary hoặc Ordinal Đích cuối của cây quyết định là sau khi đưa dữ liệu đầu vào thì thuật toán sẽ sinh ra các luật để dự đoán lớp của các dữ liệu mà ta chưa biết
- Ưu điểm: Thuật toán cho phép dữ liệu đầu vào có thể là là dữ liệu missing, không cần chuẩn hóa hoặc tạo biến giả Có thể làm việc với cả dữ liệu số và
dữ liệu phân loại và có khả năng là việc với dữ liệu lớn
- Nhược điểm: Khi số lượng các đặc trưng lớn, độ sâu của cây quyết định có thể tạo ra các node lá chỉ có một vài quan sát Những kết quả dự báo trong trường hợp này thường chỉ đúng trên tập huấn luyện mà không đúng trên tập kiểm tra Đây là hiện tượng quá khớp Nếu bộ dữ liệu có lượng biến lớn mà một cây quyết định có độ sâu giới hạn thường sẽ bỏ qua những biến quan trọng Decision tree chỉ tạo ra một kịch bản dự báo duy nhất cho một quan sát Vì vậy nếu mô hình có hiệu suất kém thì kết quả sẽ bị sai lệch
2.3.6 Thuật toán Random Forest
Random Forest là một thuật toán rất phổ biến và là một thuật toán học có giám sát trong máy học Nó có thể được sử dụng cho cả bài toán Phân loại và Hồi quy Random Forest dựa trên nguyên tắc học tập theo nhóm, Nó là một tập hợp các cây quyết định (Decision tree), mỗi Decision tree sẽ khác nhau do có yếu tố ngẫu nhiên (Random) Thay vì dựa vào một cây quyết định, Random Forest sẽ lấy dự đoán từ tất cả các Cây quyết định và căn cứ trên đa số phiếu dự đoán, nó sẽ đưa ra kết quả dự đoán cuối cùng [16] để giải quyết một vấn đề phức tạp và để cải thiện
Trang 25hiệu suất của mô hình Số lượng cây lớn hơn trong rừng dẫn đến độ chính xác cao hơn và ngăn ngừa vấn đề trang bị quá khớp
Mô hình hóa hoạt động của thuật toán Random Forest xem hình 2.6
Hình 2.6: Mô hình hóa hoạt động của thuật toán Random Forest
Hoạt động của thuật toán Random Forest
Random Forest hoạt động trong hai giai đoạn đầu tiên là tạo ra “khu rừng ngẫu nhiên” bằng cách kết hợp N cây quyết định, và thứ hai là đưa ra dự đoán cho mỗi cây được tạo ra trong giai đoạn đầu tiên này
Quá trình hoạt động của Random Forest được mô tả như hình 2.3:
Trang 26Random Forest ra đời để khắc phục điểm yếu của mô hình có một cây quyết định đặc biệt là hiện tượng quá khớp do có phương sai thấp và ít bị ảnh hưởng nhiễu như mô hình cây quyết định Nó cũng giúp chúng ta đánh giá nhanh tầm quan trọng của các biến đối với việc phân loại, đây là điều cực kỳ quan trọng đối với những bộ
dữ liệu có số chiều lớn
2.4 So sánh Random Forest với thuật toán Cây quyết định [17]
Bước 1: Chọn điểm dữ liệu K ngẫu nhiên từ tập huấn luyện
Bước 2: Xây dựng cây quyết định liên kết với các điểm dữ
liệu đã chọn (Tập con)
Bước 3: Chọn số N cho cây quyết định mà bạn muốn xây dựng
Bước 4: Lặp lại Bước 1 & 2
Bước 5: Đối với các điểm dữ liệu mới, hãy tìm các dự đoán của
từng cây quyết định và gán các điểm dữ liệu mới cho danh mục
giành được đa số phiếu bầu
Hình 2.8: Quá trình hoạt động của Random Forest
Trang 27Bảng 2.1: So sánh Random Forest với Decision tree
Decision tree Random Forest
Chỉ có 1 cây quyết định Là 1 tập hợp nhiều cây quyết định
Có thể xảy ra tình trạng bị quá mức Tránh và ngăn chặn được việc bị trang
bị quá mức Kết quả có độ chính xác không cao
bằng Random Forest
Kết quả có độ chính xác cao hơn Decision tree
Yêu cầu tính toán thấp và giảm thời
gian thực thiện thuật toán
Quá trình tính toán phức tạp và tốn nhiều thời gian hơn
Hình ảnh trực quan dễ hiểu Có hình ảnh trực quan phức tạp và khó
hiểu
2.5 Các công trình nghiên cứu có liên quan
- Luận văn thạc sĩ: Fintech trong giáo dục Hệ thống chấm điểm tín dụng dành cho sinh viên cao học ngành hệ thống thông tin quản lý trường đại học bách khoa Tp.HCM của tác giả Nguyễn Hữu Hương Xuân – Năm 2020 [18] + Luận văn đã sử dụng mô hình Decision Tree trong khai phá dữ liệu để thực hiện chấm điểm Tác giả đã xây dựng đã tạo ra được hệ thống mẫu (prototype) để mô tả cách vận hành hệ thống chấm điểm tín dụng dành cho sinh viên, với định hướng dữ liệu, quy trình đã được tự động hóa, tác giả
đã xây dựng lõi xử lý dựa trên các nghiên cứu định lượng Dựa trên đó có thể xây dựng một hệ thống hoàn thiện
+ Tuy nhiên, dữ liệu thu thập của đề tài còn hạn chế Do số lượng bản ghi ít nên Mô hình của luận văn chưa phản ánh đúng thực tế
Trang 28- A Neural Network Approach to Estimating the Allowance for Bad Debt của các tác giả Donald Joyner, Ruth W Epps, Heinz Roland Weistroffer and Robert L Andrews [19]
+ Mạng nơ-ron đã được các tác giả đã sử dụng để dự đoán mức dự phòng nợ khó đòi cho một thực thể dựa trên một loạt các biến tương tác So với các cách tiếp cận truyền thống thì mạng nơ-ron có thể kết hợp cả biến nội sinh
và ngoại sinh; khả thi khi sử dụng một hệ thống để phát triển một công cụ
có thể tạo ra ước tính dự phòng nợ khó đòi tốt hơn
+ Ưu điểm, Kết quả nghiên cứu cho thấy mạng nơ-ron dự báo tốt hơn về khoản nợ khó đòi
+ Nhưng nghiên cứu cũng bị hạn chế trong từng trường hợp cụ thể, mạng nơ ron tạo ra ước tính kém chính xác hơn so với hồi quy
- Risk Prediction Algorithm of Social Security Fund Operation Based on RBF Neural Network, Linxuan Yang [20]
+ Tác giả đã cho thấy được mối quan hệ giữa các rủi ro Dựa vào RBF, mô hình cấu trúc diễn giải có thể được áp dụng để vẽ đồ thị phân cấp tương quan rủi ro, đưa ra được phương pháp quản lý rủi ro khoa học
+ Để xây dựng mô hình cảnh báo rủi ro, tác giả đã dùng Mạng nơ-ron RBF Sau đó, tạo ra sơ đồ xử lý rủi ro tương ứng cùng với tín hiệu cảnh báo Sạu cùng, mạng nơ-ron RBF đã được sử dụng để cảnh báo rủi ro toàn diện + Bài báo đã tối ưu hóa các tham số của mạng nơ ron RBF cho thuật toán đàn kiến để khắc phục những thiếu sót của mạng RBF truyền thống Như chậm hội tụ, dễ rơi vào cực trị cục bộ, độ chính xác thấp, cùng với đó là cải thiện khả năng tổng quát của mạng nơ-ron RBF Đặc điểm của nó là tính ổn định đầu ra tốt và hội tụ nhanh Trên cơ sở đó, mô hình dự báo dựa trên mạng nơ ron ANT colony-RBF cải tiến được thiết lập với phần mềm MATLAB đã được sử dụng để tính toán chính xác hơn, giúp kết quả dự báo rủi ro chính xác hơn và cung cấp cơ sở quyết định đáng tin hơn, hỗ trợ cho người ra quyết định
Trang 29+ Kết quả chứng minh mạng có sai số tính toán nhỏ, hội tụ nhanh và khả năng tổng quát hóa tốt
- Analysis and Predictions on Students Behavior Using Decision Trees in Weka Environment, V P Bresfelean, Proceedings of the ITI 29th Int Conf
on Information Technology Interfaces [21]
+ Tác giả thu thập dữ liệu từ các cuộc khảo sát từ các sinh viên Đại học tại Khoa Kinh tế và quản trị kinh doanh ở Cluj-Napoca
+ Bresfelean sử dụng thuật toán Cây quyết định trong công cụ WEKA, ID3
và J48 để dự đoán sinh viên nào có khả năng học Thạc sĩ
+ Với mô hình được sử dụng trên hai chuyên ngành khác nhau, và độ chính xác đạt 88,68% và 71,74% đã đạt với C4,5
- Using Data Mining to Predict Secondary School Student Performance, P Cortez, and A Silva, In EUROSIS, A Brito and J Teixeira (Eds.) [22] + Các tác giả đã dự đoán điểm số dựa trên dữ liệu của học sinh cấp hai Kết quả học tập trong quá khứ của học sinh cũng như các thông tin về nhân khẩu, thu nhập, kinh tế xã hội đã được nhóm tác giả thu thập, xử lý và phân tích bằng các kỹ thuật phân loại khác nhau
+ Bài nghiên cứu cho thấy thuật toán Cây quyết định đưa ra kết quả vượt trội hơn các phương pháp khác như Mạng thần kinh và SVM
- A Comparative Analysis of Techniques for Predicting Academic Performance, N Thai Nghe, P Janecek, and P Haddawy, 37th SEE/IEEE Frontiers in Education Conference [23]
+ Nhóm tác giả đã so sánh độ chính xác của Cây quyết định với thuật toán mạng Bayes để dự đoán kết quả học tập của sinh viên Đại học và Sau đại học tại Đại học Cần Thơ (CTU) ở Việt Nam và Viện Công nghệ Châu Á (AIT) ở Thái Lan
+ Kết quả nghiên cứu cho thấy thuật toán Cây quyết định chính xác hơn 12%
so với Bayesian Networks
Trang 302.6 Những vấn đề luận văn cần nghiên cứu, giải quyết
Ngày nay việc ứng dụng máy học trở nên rất phổ biến và còn được sử dụng sâu rộng trong các lĩnh vực Với những ưu điểm vượt trội của nó như: Có khả năng phân tích với dữ liệu lớn và phức tạp, cung cấp kết quả nhanh và chính xác Máy học sẽ cho phép xác định nhanh hơn các cơ hội và rủi ro Kỹ thuật mới trong lĩnh vực máy học đang phát triển một cách nhanh chóng và cho phép nó mở rộng ứng dụng đến những khả năng gần như vô hạn Với dữ liệu lớn (Bigdata), rất cần một hệ thống để phân tích một cách hiệu quả và chính xác và máy học luôn được lựa chọn hàng đầu
Đó là lý do Luận văn sẽ được phát triển dưới mô hình đánh giá rủi ro theo phương pháp máy học Mô hình máy học tác giả lựa chọn sử dụng trong luận văn là Random Forest vì theo các nghiên cứu tác giả đã tìm hiểu và liệt kê ở trên (Mục 2.4) , chưa
có công trình nào sử dụng thuật toán này
Mặt khác: Thuật toán Random Forest sẽ tổng hợp thông tin từ nhiều cây quyết định và kết quả cho ra sẽ tốt hơn thuật toán Decision tree với một cây quyết định [16] Bên cạnh đó, các chủ đề nghiên cứu về hệ thống phân loại dựa vào cây quyết định cũng cho thấy kết quả độ chính xác của mô hình cây quyết định không cao, theo bài báo [24], kết quả mô hình cây quyết định là 73%, và bài báo [25] kết quả
mô hình cây quyết định là 47% Đây cũng chính là lý do tác giả sử dụng thuật toán Random Forest để xây dựng mô hình
Trang 31CHƯƠNG 3: PHƯƠNG PHÁP LUẬN
Trong chương này tác giả đưa ra phương phương pháp nghiên cứu để xây dựng
hệ thống, Tìm hiểu về quy trình cho vay học sinh, sinh viên tại ngân hàng chính sách xã hội, quy trình hỗ trợ tài chính cho sinh viên tại trường Đại học ngân hàng
TP HCM Từ đó đề xuất quy trình hỗ trợ tài chính theo định hướng dữ liệu, xác định phương pháp thu thập Dataset, tìm hiểu mô hình Random Forest, tìm hiểu cách đánh giá mô hình trong máy học Làm tiền đề để thực hiện nội dung của chương 4
3.1 Phương pháp nghiên cứu
Tác giả đề xuất sử dụng phương pháp máy học (machine learning) để xây dựng
hệ thống, với các bước thực hiện cụ thể như hình 3.1:
Hình 3.1: Sơ đồ các bước thực hiện
Trang 32- Bước 1: Xác định vấn đề cần nghiên cứu, xây dựng hệ thống đánh giá rủi ro đối với khoản vay của sinh viên
- Bước 2: Tìm hiểu quy trình hiện tại, từ đó xác định hướng tiếp cận và đề xuất
hệ thống đánh giá phù hợp
- Bước 3: Thu thập, phân tích và làm sạch dữ liệu
- Bước 4: Thiết kế mô hình và xây dựng hệ thống
- Bước 5: Thử nghiệm mô hình, kiểm tra, đánh giá kết quả
+ Giấy đề nghị vay vốn kiêm khế ước nhận nợ
+ Giấy xác nhận của nhà trường (bản chính) hoặc Giấy báo nhập học (bản chính hoặc bản photo công chứng)
+ Danh sách hộ gia đình có học sinh, sinh viên đề nghị vay vốn
+ Biên bản họp Tổ Tiết kiệm và vay vốn
+ Thông báo kết quả cho vay
Quy trình vay, người vay viết “Giấy đề nghị vay vốn”, kèm theo “Giấy xác nhận của nhà trường” hoặc “Giấy báo nhập học” rồi gửi cho “Tổ Tiết kiệm và vay vốn”
- Khi “Tổ Tiết kiệm và vay vốn” nhận được “Hồ sơ xin vay” của người vay,
sẽ tiến hành họp “Tổ để bình xét cho vay”, tiến hành kiểm tra các yếu tố trên
“Giấy đề nghị vay vốn”, đối chiếu với đối tượng xin vay xem đúng với chính sách vay vốn của Chính phủ hay không
- Nếu người vay chưa là thành viên thì “Tổ Tiết kiệm và vay vốn” tại địa phương đang hoạt động, tổ chức kết nạp thành viên bổ sung hoặc có thể thành lập Tổ mới nếu đủ điều kiện Sau đó tiến hành lập Danh sách hộ gia đình đề nghị vay vốn kèm “Giấy đề nghị vay vốn”, “Giấy báo nhập học” hoặc “Giấy xác nhận của nhà trường”, rồi trình lên Uỷ ban nhân dân cấp xã để xác nhận
Trang 33- Sau khi có xác nhận của Uỷ ban nhân dân cấp xã, “Tổ Tiết kiệm và vay vốn” gửi toàn bộ “Hồ sơ đề nghị vay vốn” cho Ngân hàng Chính sách xã hội để làm các thủ tục cho vay
- Khi Ngân hàng Chính sách xã hội nhận được “Hồ sơ do Tổ Tiết kiệm và vay vốn” gửi đến, cán bộ ngân hàng thực hiện việc kiểm tra, đối chiếu tính hợp pháp, hợp lệ của bộ “hồ sơ vay vốn”, rồi trình Trưởng phòng tín dụng và Giám đốc phê duyệt cho vay Sau khi được phê duyệt, ngân hàng lập thông báo kết quả cho vay gửi Uỷ ban nhân dân cấp xã
- Uỷ ban nhân dân cấp xã thông báo cho tổ chức chính trị - xã hội cấp xã (nơi nhận ủy thác cho vay) và “Tổ Tiết kiệm và vay vốn” để thông báo cho người vay tới điểm giao dịch của ngân hàng tại xã hoặc trụ sở ngân hàng nơi cho vay để làm thủ tục nhận tiền vay
- Đối với học sinh, sinh viên mồ côi thì sẽ vay trực tiếp tại Ngân hàng Chính sách xã hội Hồ sơ cho vay vốn sẽ bao gồm: “Giấy đề nghị vay vốn kiêm khế ước nhận nợ”, kèm theo “Giấy báo nhập học” (bản chính hoặc bản photo có công chứng) hoặc “Giấy xác nhận của nhà trường” (bản chính)
- Quy trình cho vay như sau:
+ Người vay vốn viết “Giấy đề nghị vay vốn” phải có xác nhận của nhà trường đang theo học và là học sinh, sinh viên mồ côi có hoàn cảnh khó khăn, gửi cho Ngân hàng Chính sách xã hội nơi nhà trường đóng trụ sở + Ngay khi nhận được hồ sơ xin vay, ngân hàng sẽ tiến hành xem xét cho vay, thu hồi nợ (gốc, lãi) và thực hiện các nội dung khác theo quy định [26]
3.3 Quy trình hỗ trợ tài chính cho sinh viên thực tế tại trường Đại học Ngân hàng TP HCM
Hiện tại trường Đại học Ngân hàng chưa có hệ thống đánh giá rủi ro tài chính đối với sinh viên Chương trình hỗ trợ tài chính cho sinh viên bao gồm:
- Học bổng khuyến khích học tập từ nguồn thu học phí theo quy định của chính phủ dành cho sinh viên có kết quả học tập, rèn luyện từ loại khá trở lên trong
kỳ nhận học bổng
Trang 34- Học bổng Ngân hàng là học bổng từ nguồn Quỹ học bổng Ngân hàng của Ngân hàng Nhà nước Việt Nam, bao gồm Học bổng Đặc biệt của Thống đốc
và Học bổng của Ngành Ngân hàng Học bổng Đặc biệt của Thống đốc dành cho sinh viên đạt loại xuất sắc trong học tập và rèn luyện Học bổng của Ngành ngân hàng dành cho sinh viên đạt loại giỏi trong học tập và loại tốt trong rèn luyện
- Học bổng xã hội: là học bổng huy động từ các nguồn lực xã hội, do nhà tài trợ tự nguyện đóng góp dành để hỗ trợ, khen thưởng người học tại Trường
- Học bổng Vượt khó Học giỏi là học bổng xã hội, dành cho sinh viên có hoàn cảnh khó khăn, tích cực vươn lên trong học tập
- Học bổng Tương hỗ là học bổng xã hội dành cho sinh viên có hoàn cảnh đặc biệt khó khăn, tích cực vươn lên trong học tập
- Ngoài ra còn có học bổng khác như: Học bổng tài năng, học bổng tân sinh viên,…
+ Công bố quyết định và danh sách sinh viên được cấp học bổng
Điều kiện chung cho học bổng xã hội, học bổng Vượt khó – Học giỏi là phải có
sổ hộ nghèo, hộ cận nghèo, giấy xác nhận hoàn cảnh gia đình khó khăn trong năm xét Có giấy xác nhận của cơ sở y tế về bệnh hiểm nghèo, thương tật, giấy xác nhận
mồ côi,… với Học bổng Tương hỗ Nhà trường sẽ hoàn thành các thủ tục giấy tờ có
Trang 35nghiệp tài trợ xem xét và quyết định Căn cứ vào mức tài trợ, đơn vị tài trợ sẽ chốt danh sách được hỗ trợ chính thức và phản hồi lại cho nhà trường
3.4 Đề xuất quy trình hỗ trợ tài chính theo định hướng dữ liệu
Các quy trình trên đều có đặc điểm phải trải qua rất nhiều bước với các thủ tục
và giấy tờ thủ công, làm mất rất nhiều thời gian và công sức Vì lý do đó tác giả đề xuất lại quy trình xét tại trường như sau:
- Bước 1: Sau khi kết thúc mỗi kỳ học, chuyên viên phụ trách hệ thống đánh giá rủi ro đối với khoản vay sinh viên sẽ tiến hành lấy dữ liệu điểm từ Phòng Khảo thí, lấy dữ liệu nộp học phí từ phòng Kế toán, lấy dữ liệu ở Ký túc xá
từ Ban quản lý Ký túc xá, sau đó đưa toàn bộ dữ liệu thu thập được vào file mẫu (Template) và tiến hành cập nhật dữ liệu lên hệ thống đánh giá rủi ro Khoản vay sinh viên
- Bước 2: Hệ thống sẽ tiến hành cập nhật thông tin được đưa vào
- Bước 3: Sinh viên hoặc đơn vị cần sử dụng kết quả đánh giá, có thể nhập Mã
số sinh viên vào hệ thống và xuất kết quả Kết quả này được Trung tâm hỗ trợ sinh viên sử dụng làm căn cứ đề xuất các hỗ trợ về tài chính Hoặc ngân hàng có thể dùng để đánh giá khoản vay của sinh viên (nếu sinh viên có vay vốn ngân hàng)
3.5 Phương pháp thu thập Dataset
Dữ liệu đầu vào cho đề tài được thu thập tại Trường Đại học Ngân hàng TP HCM
Chi tiết đối tượng thu thập thông xem tại Bảng 3.1
Trang 36Bảng 3.1: Đối tượng thu thập thông tin
Chi tiết đơn vị cung cấp dữ liệu xem tại Bảng 3.2
Bảng 3.2: Đơn vị cung cấp thông tin và cách lấy thông tin
Dữ liệu
Đơn vị cung cấp
Phương pháp lấy dữ liệu
Thông tin cá
nhân sinh viên
Phòng Công tác sinh viên
Xuất từ Phần mềm Quản lý sinh viên
Dữ liệu lấy MSSV làm khóa chính
Lọc theo Ngành Ngân Hàng, niên khóa đào tạo 33, 34, 35
Thông tin nợ
học phí
Phòng Tài chính
Xuất ra từ Phần mềm Quản lý tài chính
Dữ liệu lấy MSSV làm khóa chính
Lọc theo Ngành Ngân Hàng, niên khóa đào tạo 33, 34, 35
Dữ liệu lấy MSSV làm khóa chính
Lọc theo Ngành Ngân Hàng, niên khóa đào tạo 33, 34, 35
Trang 37Tổng quan thông tin dữ liệu thu thập được xem tại Bảng 3.3
Bảng 3.3: Tổng quan về thông tin thu thập được
Dữ liệu Số trường dữ liệu
Thông tin cá nhân sinh viên 16
- Dữ liệu được thu thập được dùng cho công trình nghiên cứu khoa học và chỉ được sử dụng cho mục đích nghiên cứu
- Mô hình đánh giá rủi ro sẽ được xây dựng trên số lượng dữ liệu có sẵn
- Đề tài nghiên cứu sẽ không thực hiện xử lý các thông tin bị thiếu
3.6 Mô hình Random Forest
Random có nghĩa là Ngẫu nhiên và Forest có nghĩa là Rừng (nhiều cây)
Random Forest bao gồm một tập hợp các mô hình Decision Tree, mô hình Random Forest tập hợp rất nhiều các mô hình nhỏ lại bên trong nó, mỗi mô hình nhỏ lại có các quy luật khác nhau và có điểm mạnh yếu khác nhau, nhưng sự tận dụng theo nguyên tắc “wisdom of the crowd” sẽ đưa ra được kết quả phân loại chính xác hơn so với một mô hình đơn lẻ Decision tree
Với nhiều cây quyết định được tạo ra một cách ngẫu nhiên từ việc tái chọn mẫu theo dạng Bootstrap và Random sampling Random Forest chỉ dùng ngẫu nhiên một phần nhỏ của tập biến từ toàn bộ các biến trong tập dữ liệu ở giai đoạn sau cùng,
mô hình Random Forest hoạt động rất chính xác Nhưng do cấu trúc quá phức tạp nên khó có thể hiểu được có chế hoạt động bên trong nó
Trang 38Hình 3.2: Sơ đồ Random Forest
Trong quá khứ, chúng ta thường phải chấp nhận đánh đổi tính tường minh để đạt được tính chính xác [27]
3.7 Đánh giá mô hình trong máy học
Tác giả sử dụng Confusion matrix để tiến hành đánh giá mô hình
Confusion matrix: là phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét cả những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp
- Một Confusion matrix bao gồm 4 chỉ số TP, TN, FP và FN đối với mỗi lớp phân loại [28]
- Trong đó:
+ TP (True Positive) là số lượng dự đoán chính xác
+ TN (True Negative) là số lượng dự đoán chính xác một cách gián tiếp
Trang 39+ FP (False Positive) là số lượng các dự đoán bị sai lệch
+ FN (False Negative) là số lượng các dự đoán bị sai lệch gián tiếp
Từ 4 chỉ số này ta sẽ có 2 chỉ số dùng để đánh giá mức độ tin cậy của một mô hình đó là:
+ Precision: chỉ số này cho biết có bao nhiêu dự đoán chính xác trong tất cả các dự đoán Positive được đưa ra Precision được tính theo công thức [28]:
𝐏𝐫𝐞𝐜𝐢𝐬𝐢𝐨𝐧 = 𝐓𝐏
𝐓𝐏 + 𝐅𝐏+ Recall: chỉ số này cho ta biết có bao nhiêu trường hợp đã được dự đoán chính xác, trong tất cả các trường hợp Positive Recall được tính theo công thức [28]:
𝑹𝒆𝒄𝒂𝒍𝒍 = 𝑻𝑷
𝑻𝑷 + 𝑭𝑵
Do Precision và Recall là 2 khái niệm khác nhau nên để đánh giá mức độ tin cậy của mô hình người ta đã kết hợp 2 chỉ số này thành một chỉ số duy nhất là F-Score và F-Score được tính theo công thức [28]:
𝑭 − 𝒎𝒆𝒂𝒔𝒖𝒓𝒆 = 𝟐 ∗ 𝑹𝒆𝒄𝒂𝒍𝒍 ∗ 𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏
𝑹𝒆𝒄𝒂𝒍𝒍 + 𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏
Một mô hình có chỉ số F-Score cao khi cả 2 chỉ số Precision và Recall đều cao Nếu Precision hoặc Recall thấp sẽ kéo theo điểm F-Score xuống trường hợp tốt nhất chi chỉ số cả 2 đều đạt giá trị bằng 1, lúc đó điểm F-Score sẽ bằng 1
Nhờ có F-Score mà ta có được một thước đo đáng tin cậy về hiệu quả của mô hình dùng cho các bài toán về phân loại [28]
- Ngoài ra chúng ta còn có các chỉ số cần lưu ý sau:
+ Giá trị dự đoán âm (NPV) [29]
𝐍𝐏𝐕 = 𝐓𝐍
𝐓𝐍 + 𝐅𝐍