1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo rủi ro tín dụng của khách hàng tiềm năng tại Đức

47 8 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích và dự báo rủi ro tín dụng của khách hàng tiềm năng tại Đức
Tác giả Huỳnh Gia Mẫn, Bùi Đức Huy, Trần Kim Ngân, Tôn Thất Tiến Đạt, Trần Nhật Huy
Người hướng dẫn TS.GVC Nguyễn Quốc Hùng
Trường học Đại học Kinh tế TP. Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại báo cáo đồ án
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 47
Dung lượng 4,73 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI (9)
  • CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG (16)
  • CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ (24)

Nội dung

chuẩn hóa dữ liệu, … 3 Khám phá dữ liệu: phân tích dữ liệu để hiểu rõ hơn về cấu trúc và xây dựng chiếnlược để mô hình hóa dữ liệu 4 Mô hình hóa dữ liệu: sử dụng phần mềm và các thuật to

GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

VÀ GI Ớ I THI ỆU ĐỀ TÀI

1.1 Tổng quan về Khoa học dữ liệu:

Khoa học dữ liệu là một lĩnh vực liên ngành kết hợp toán học, thống kê, khoa học máy tính và chuyên môn lĩnh vực để trích xuất thông tin từ dữ liệu Mục tiêu chính của khoa học dữ liệu là giải quyết vấn đề phức tạp, dự đoán xu hướng tương lai và đưa ra quyết định dựa trên dữ liệu Phân tích dữ liệu khám phá thông tin bằng các phương pháp tiên tiến, đòi hỏi sự kết hợp chặt chẽ giữa toán học, công nghệ thông tin và tri thức lĩnh vực ứng dụng cụ thể.

Quy trình Khoa học dữ liệu thường gồm các bước sau:

(1) Thu thập dữ liệu: thu thập dữ liệu từ nhiều nguồn khác nhau như cơ sở dữ liệu, mạng xã hội, …

(2) Làm sạch dữ liệu: xử lý dữ liệu còn thiếu chuẩn hóa dữ liệu, …

(3) Khám phá dữ liệu: phân tích dữ liệu để hiểu rõ hơn về cấu trúc và xây dựng chiến lược để mô hình hóa dữ liệu

Mô hình hóa dữ liệu là quá trình sử dụng phần mềm và thuật toán máy tính để phân tích dữ liệu một cách chi tiết, từ đó đưa ra các dự đoán và đề xuất những hướng hành động tối ưu nhất.

Để diễn giải kết quả phân tích một cách hiệu quả, cần tạo ra các sơ đồ, bảng biểu và hình ảnh Những công cụ trực quan này sẽ giúp người đọc dễ dàng hiểu rõ các xu hướng và từ đó triển khai hành động một cách chính xác.

Hình 1: Hình minh họa tổng quan về Khoa học dữ liệu (Data Science)

1.1.2 Ứng dụng của Khoa học dữ liệu:

Khoa học dữ liệu có một phạm vi ứng dụng vào hầu hết mọi lĩnh vực của đời sống Dưới đây là một số ví dụ tiêu biểu:

 Chẩn đoán bệnh: phân tích dữ liệu hình ảnh y tế nhưX-quang, MRI, CT scan để hỗ trợ chẩn đoán bệnh chính xác hơn

 Phát triển thuốc: sử dụng học máy để dự đoán các hợp chất tiềm năng có thể trở thành thuốc mới, đẩy nhanh quá trình phát triển thuốc

 Cá nhân hóa y tế: phân tích dữ liệu bệnh nhân để đưa ra các phương pháp điều trị và chăm sóc sức khỏe phù hợp với từng cá nhân

 Phát hiện gian lận: phân tích dữ liệu giao dịch để xác định các hành vi gian lận tiềm ẩn

 Quản lý rủi ro: sử dụng các mô hình dự đoán để đánh giá và quản lý rủi ro tài chính.

 Dự đoán thị trường: phân tích dữ liệu thị trường để dự đoán xu hướng giá cả và đưa ra quyết định đầu tư sáng suốt

 Xác định khách hàng tiềm năng: phân tích dữ liệu khách hàng để xác định những người có khả năng cao trở thành khách hàng tiềm năng

 Tối ưu hóa chiến dịch quảng cáo: sử dụng A/B testing và các kỹ thuật học máy để tối ưu hóa hiệu quả của các chiến dịch quảng cáo

 Cá nhân hóa trải nghiệm khách hàng: phân tích hành vi khách hàng để đề xuất sản phẩm và dịch vụ phù hợp với từng cá nhân.

 Dự đoán nhu cầu: phân tích dữ liệu bán hàng và thị trường để dự đoán nhu cầu sản phẩm trong tương lai

Tối ưu hóa quy trình sản xuất là việc áp dụng các mô hình học máy nhằm nâng cao hiệu suất, giảm thiểu lãng phí và cải thiện hiệu quả tổng thể trong sản xuất.

 Kiểm soát chất lượng: phân tích dữ liệu sản xuất để phát hiện sớm các lỗi và vấn đề về chất lượng sản phẩm

 Phân tích dữ liệu dân số: phân tích dữ liệu dân số để lập kế hoạch chính sách và phân bổ nguồn lực hiệu quả

 Chống tội phạm: phân tích dữ liệu tội phạm để xác định các khu vực có nguy cơ cao và triển khai các biện pháp phòng ngừa tội phạm

 Cải thiện dịch vụ công: sử dụng dữ liệu để nâng cao chất lượng dịch vụ công và đáp ứng tốt hơn nhu cầu của người dân

Ngoài ra, Khoa học dữ liệu còn được ứng dụng trong nhiều lĩnh vực khác như giáo dục, giao thông vận tải, du lịch, …

1.1.3 Sự phát triển của Khoa học dữ liệu:

Khoa học dữ liệu đang phát triển nhanh chóng và sẽ tiếp tục bùng nổ trong những năm tới, nhờ vào nhiều yếu tố quan trọng.

Sự gia tăng dữ liệu đang diễn ra với tốc độ nhanh chóng, với lượng dữ liệu khổng lồ được tạo ra từ nhiều nguồn như mạng xã hội, thiết bị IoT và cảm biến Mặc dù nguồn dữ liệu phong phú này mang lại cơ hội lớn cho phân tích và khai thác tri thức, nhưng nó cũng đặt ra những thách thức đáng kể về xử lý và lưu trữ dữ liệu.

Nhu cầu về giải pháp dựa trên dữ liệu đang gia tăng mạnh mẽ, khi các doanh nghiệp và tổ chức nhận thức rõ tiềm năng của khoa học dữ liệu trong việc nâng cao hiệu quả hoạt động và ra quyết định thông minh hơn Sự cần thiết của các chuyên gia khoa học dữ liệu có khả năng thu thập, phân tích và ứng dụng dữ liệu một cách hiệu quả sẽ tiếp tục tăng cao trong thời gian tới.

Tiến bộ trong công nghệ, đặc biệt là học máy, trí tuệ nhân tạo (AI) và điện toán đám mây, đang thúc đẩy sự phát triển của khoa học dữ liệu Học máy và AI tự động hóa các quy trình phân tích dữ liệu phức tạp, giúp nhà khoa học dữ liệu tập trung vào các vấn đề quan trọng hơn Đồng thời, điện toán đám mây cung cấp giải pháp lưu trữ và xử lý dữ liệu lớn một cách hiệu quả và tiết kiệm chi phí.

Sự phát triển của khoa học dữ liệu trong tương lai hứa hẹn sẽ mang lại nhiều lợi ích cho xã hội:

Cải thiện hiệu quả hoạt động là một trong những lợi ích quan trọng mà khoa học dữ liệu mang lại cho các doanh nghiệp và tổ chức Bằng cách tối ưu hóa quy trình làm việc, các doanh nghiệp có thể tiết kiệm chi phí và đồng thời tăng cường lợi nhuận.

Khoa học dữ liệu đóng vai trò quan trọng trong việc phát triển sản phẩm và dịch vụ mới, giúp các công ty đáp ứng nhu cầu của khách hàng một cách hiệu quả hơn.

Khoa học dữ liệu đóng vai trò quan trọng trong việc giải quyết các vấn đề xã hội cấp bách như nghèo đói, bất bình đẳng và biến đổi khí hậu, giúp đưa ra những giải pháp hiệu quả và bền vững.

Khoa học dữ liệu đóng vai trò quan trọng trong việc nâng cao chất lượng cuộc sống bằng cách cải thiện các dịch vụ y tế, giáo dục và giao thông vận tải.

Khoa học dữ liệu đang ngày càng trở nên quan trọng trong việc định hình tương lai, nhờ vào sự phát triển công nghệ và nhu cầu tăng cao về giải pháp dựa trên dữ liệu Điều này mở ra nhiều cơ hội mới cho đổi mới, sáng tạo và giải quyết các vấn đề phức tạp trong xã hội.

1.2 Giới thiệu về đề tài:

1.2.1 Lý do chọn đề tài:

Trong thời đại công nghệ số phát triển mạnh mẽ, việc sử dụng tiền mặt cồng kềnh đang dần trở nên lỗi thời Xu hướng sử dụng thẻ tín dụng ngày càng gia tăng, trở thành phương thức thanh toán ưa chuộng của nhiều người tiêu dùng.

Sự tiện lợi của thẻ tín dụng là yếu tố chính thúc đẩy xu hướng sử dụng ngày càng tăng Người dùng không cần mang theo tiền mặt cho mỗi giao dịch, mà chỉ cần một chiếc thẻ nhỏ gọn để thanh toán mọi thứ, từ mua sắm trực tiếp tại cửa hàng đến thanh toán trực tuyến trên các trang thương mại điện tử.

TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

D ỤNG VÀ CÁC PHƯƠNG PHÁP SỬ D Ụ NG

Trong phân tích dữ liệu, thống kê mô tả là một phương pháp cơ bản giúp hiểu rõ các đặc điểm của dữ liệu Phương pháp này cung cấp cái nhìn tổng quan về tập dữ liệu, từ đó hỗ trợ việc ra quyết định và phân tích sâu hơn.

Thống kê mô tả là quá trình tổng hợp, tổ chức và biểu diễn dữ liệu thông qua các chỉ số như trung bình, trung vị, phương sai, độ lệch chuẩn và phần trăm (Washington et al., 2020) Việc sử dụng các số liệu này giúp nhà nghiên cứu nhận diện xu hướng trung tâm, mức độ phân tán và các mối quan hệ trong dữ liệu mà không cần kiểm tra từng giá trị, tiết kiệm thời gian và công sức Để thực hiện thống kê mô tả, trước tiên cần thu thập dữ liệu, sau đó tổ chức và tóm tắt chúng Các phần mềm như Excel, SPSS hoặc R có thể hỗ trợ tính toán các số liệu thống kê cần thiết Cuối cùng, các số liệu này có thể được trình bày dưới dạng biểu đồ hoặc bảng để dễ dàng phân tích và hiểu rõ hơn (Tô, 2022).

Thống kê mô tả là công cụ quan trọng trong việc khám phá dữ liệu, giúp các nhà nghiên cứu hiểu cấu trúc và đặc điểm của tập dữ liệu, xác định xu hướng, mô hình và mối quan hệ, cũng như so sánh các nhóm dữ liệu khác nhau Tuy nhiên, nó chỉ cung cấp cái nhìn tổng quan và không thể đưa ra kết luận chi tiết hay dự đoán chính xác Do đó, cần kết hợp thống kê mô tả với các phương pháp phân tích dữ liệu khác để đạt được thông tin toàn diện và chính xác nhất.

Hình2.1 Một số phép đo điển hình trong thống kê mô tả

Trong kỷ nguyên dữ liệu bùng nổ, khai phá dữ liệu và máy học đóng vai trò quan trọng trong việc giải quyết các vấn đề phức tạp và đưa ra quyết định thông minh Tuy nhiên, nhiều người dùng gặp khó khăn khi sử dụng các công cụ khai phá dữ liệu truyền thống do yêu cầu kiến thức chuyên môn cao Để khắc phục điều này, phần mềm Orange được phát triển với mục tiêu mang lại hiệu quả và sự thú vị cho người dùng trong lĩnh vực khai phá dữ liệu, đúng như khẩu hiệu “Khai thác dữ liệu hiệu quả và thú vị”.

Orange là một công cụ khai phá dữ liệu nổi bật với giao diện đồ họa trực quan và dễ sử dụng, cho phép người dùng thực hiện các thao tác mà không cần viết mã phức tạp Điểm mạnh của Orange nằm ở việc sử dụng các widget linh hoạt để xây dựng quy trình phân tích, giúp đơn giản hóa và tập trung vào vấn đề cần giải quyết Khả năng trực quan hóa dữ liệu mạnh mẽ của Orange cho phép người dùng dễ dàng hiểu và diễn giải kết quả thông qua biểu đồ, đồ thị và bản đồ nhiệt Hơn nữa, Orange là mã nguồn mở và hoàn toàn miễn phí, giúp tăng tính tiếp cận cho nhiều người dùng.

Orange đóng vai trò quan trọng trong việc dân chủ hóa dữ liệu, cho phép người dùng không có nền tảng lập trình vững chắc vẫn có thể khai thác sức mạnh của dữ liệu để đưa ra quyết định sáng suốt Nó nâng cao hiệu quả công việc, thúc đẩy đổi mới sáng tạo và mở ra cơ hội cho các giải pháp đột phá dựa trên dữ liệu Nhờ những ưu điểm này, Orange đã được áp dụng rộng rãi trong nhiều lĩnh vực như khoa học, công nghiệp và giáo dục.

Tuy nhiên, Orange vẫn còn một số hạn chế, bao gồm giới hạn về khả năng xử lý dữ liệu lớn và khả năng tùy chỉnh

Phân tích hồi quy logistic là một kỹ thuật thống kê quan trọng trong máy học, thường được sử dụng cho các bài toán phân loại dữ liệu với biến phụ thuộc nhị phân Nó bao gồm ba dạng chính: hồi quy logistic nhị phân, hồi quy logistic đa thức và hồi quy logistic thứ tự Hồi quy logistic đa thức áp dụng cho biến phụ thuộc không có thứ tự, như thể loại phim, trong khi hồi quy logistic thứ tự dành cho biến phụ thuộc có thứ tự, chẳng hạn như mức độ rủi ro Mục tiêu chung của phân tích hồi quy logistic là xây dựng mô hình dự đoán xác suất mà một quan sát mới thuộc về một lớp cụ thể, dựa trên mối quan hệ giữa biến phụ thuộc và các biến độc lập.

Hình 2.2: Minh hoạ phương pháp Logistic Regression

Cây quyết định (decision tree) là một kỹ thuật học máy giám sát được sử dụng để phân loại và dự báo dữ liệu Kỹ thuật này hoạt động bằng cách học từ dữ liệu huấn luyện để xây dựng mô hình dự đoán dạng cây, trong đó mỗi nút thể hiện một quyết định và mỗi nhánh tương ứng với một kết quả có thể xảy ra Mô hình cây quyết định sau đó được áp dụng để dự đoán lớp hoặc giá trị của các mẫu dữ liệu mới.

Hình 2.3: Minh hoạ phương pháp Decision Tree

Máy Vectơ Hỗ Trợ (SVM) là một thuật toán học máy có giám sát nổi bật, thường được sử dụng cho các bài toán phân loại, bên cạnh hồi quy logistic và cây quyết định SVM khác biệt với các thuật toán học máy khác ở chỗ nó ánh xạ dữ liệu vào không gian đặc trưng nhiều chiều, với các điểm dữ liệu được biểu diễn dưới dạng vectơ Thuật toán này xây dựng một siêu phẳng (hyperplane) trong không gian đa chiều để phân chia các lớp dữ liệu khác nhau.

Siêu phẳng trong SVM được xác định bởi các vectơ hỗ trợ, là những điểm dữ liệu gần nhất với siêu phẳng Khoảng cách giữa siêu phẳng và các vectơ hỗ trợ được gọi là "margin" Mục tiêu của SVM là tối đa hóa margin này để tìm ra siêu phẳng phân chia dữ liệu hiệu quả nhất Siêu phẳng có margin lớn nhất được gọi là siêu phẳng tối ưu.

Hình 2.4: Minh hoạ phương pháp SVM Các biến thể của SVM bao gồm:

 Hard Margin SVM: dùng cho trường hợp hai lớp cần phân lớp có thể phân chia tuyến tính (linear separable)

 Hard Margin SVM: dùng cho trường hợp hai lớp cần phân lớp gần như có thể phân chiatuyến tính (almost linear separable)

 Multi-class SVM: dùng cho phân lớp đa lớp (biên giữa các lớp là tuyến tính)

 Kernel SVM: dùng cho dữ liệu phi tuyến

Confusion Matrix là công cụ quan trọng trong việc đánh giá hiệu suất của mô hình phân loại trong máy học và thống kê Nó giúp đo lường độ chính xác của mô hình bằng cách so sánh các dự đoán với giá trị thực tế trong tập dữ liệu kiểm tra (eydarian, Doyle, & Samavi, 2022).

Confusion Matrix bao gồm các thành phần chính như True Positive (TP), True Negative (TN), False Positive (FP) và False Negative (FN)

 True Positive (TP): Số lượng trường hợp códự đoán đúng là Positive (đúng dương)

 True Negative (TN): Số lượng trường hợp códự đoán đúng là Negative (đúng âm).

 False Positive (FP): Số lượng trường hợpcódự đoán sai là Positive (sai dương)

 False Negative (FN): Số lượng trường hợpcódự đoán sai là Negative (sai âm).

Hình 2.5: Minh họa ma trận nhầm lẫn

Based on these components, we can calculate performance metrics such as Accuracy, which measures overall correctness; Precision, which assesses the accuracy of positive predictions; Recall, also known as Sensitivity, which evaluates the model's ability to identify true positives; and F1-score, which represents the harmonic mean of Precision and Recall.

Công thức tính các chỉ số hiệu suất mô hình trong bài toán phân loại bao gồm Accuracy, Precision, Recall và F1-score Accuracy đo lường tỷ lệ dự đoán chính xác so với tổng số dự đoán, trong khi Precision và Recall tập trung vào hiệu suất phân loại một lớp cụ thể F1-score tích hợp cả Precision và Recall, mang lại một đánh giá tổng thể về hiệu suất của mô hình phân loại.

Hình 2.6 Các chỉ số quan trọng trong ma trận nhầm lẫn ( Accuracy, Precision, Recall,

Mục tiêu chính của Confusion Matrix là đánh giá hiệu suất của mô hình phân loại, giúp người phân tích nhận diện điểm mạnh và yếu của mô hình Qua đó, người dùng có thể điều chỉnh và tối ưu hóa mô hình nhằm nâng cao hiệu suất trong tương lai.

ROC là công cụ quan trọng trong việc phân loại và đánh giá hiệu suất mô hình, đặc biệt trong Machine Learning và thống kê Đồ thị ROC thể hiện tỷ lệ giữa Tỷ lệ True Positive (TPR) và Tỷ lệ False Positive (FPR) ở nhiều ngưỡng quyết định khác nhau TPR, hay độ nhạy, là tỷ lệ dự đoán đúng Positive so với tổng số thực sự Positive, trong khi FPR là tỷ lệ dự đoán sai Positive so với tổng số thực sự Negative Đồ thị có trục tung là TPR và trục hoành là FPR, với đường cong ROC lý tưởng gần góc trên bên trái biểu đồ, cho thấy TPR cao hơn FPR Một đường cong ROC ngẫu nhiên gần đường chéo, trong khi đường cong xấu hơn nằm dưới đường chéo Điểm cắt với đường chéo (FPR = TPR), gọi là điểm hoàn hảo, được sử dụng để đánh giá hiệu suất mô hình; mô hình có đường cong ROC gần điểm này được coi là tốt hơn.

ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ

3.1 “Phân tích dữ liệu German Credit Data”

3.1.1 Tiền xử lý dữ liệu German Credit Data

Ta tiền xử lý dữ liệu German Credit Data trên phần mềm Orange

Hình 3.1: Các bước tiến hành xử lý dữ liệu Nạp dữ liệu German Credit Data ta mở Datasets chọn German Credit Data

Kết nối Dataset với Datatable để sử dụng dữ liệu quan sát, sau đó nhấp chuột vào Data Table để xem dữ liệu Vì không có dữ liệu bị thiếu, bước tiền xử lý dữ liệu có thể được bỏ qua.

Hình 3.2: Cho dữ liệu German Credit Data vào Dataset và xem dưới dạng Data Table

Lưu dữ liệu và xuất dữ liệu ra file Excel mới với tên dữ liệu German-Credit- Data.xlsx

3.1.2 Mô tả dữ liệu German Credit Data

Dữ liệu German Credit Data phân loại cá nhân thành hai nhóm rủi ro tín dụng: tốt và xấu, dựa trên các thuộc tính như tuổi, công việc, lịch sử tín dụng và trạng thái cá nhân Việc phân loại sai khách hàng "xấu" thành "tốt" gây ra nhiều rắc rối hơn so với việc phân loại sai khách hàng "tốt" thành "xấu" Đặc biệt, trong vấn đề công bằng, "giới tính" được xem là thuộc tính bảo vệ, trong đó "nam" được coi là giá trị ưu tiên.

Bằng cách sử dụng bộ dữ liệu German Credit Data, chúng ta có thể phân tích và dự đoán rủi ro tín dụng của khách hàng tiềm năng tại Đức, từ đó phân loại tín dụng thành tốt hoặc xấu.

3.1.3 Thống kê mô tả các dữ liệu

Tình trạng tín dụng sẵn có

Hình 3.3: Biểu đồ tỉ lệ phần trăm tình trạng tín dụng của khách hàng

Từ bộ dữ liệu của German Credit Data ta thống kê được thông tin của 1000 người.

Tình trạng tín dụng sẵn có hiện nay đang gặp nhiều vấn đề, với tỉ lệ tín dụng thấp và tiêu cực lần lượt là 26.9% và 27.4%, chiếm hơn một nửa tổng tỉ lệ Trong khi đó, tỉ lệ ổn định chỉ chiếm 6.3%, cho thấy sự thiếu hụt trong sự ổn định của tín dụng Đặc biệt, khách hàng mới chưa sử dụng tín dụng từ ngân hàng này chiếm tỷ lệ lớn nhất, lên tới 39.4%, điều này phản ánh nhu cầu chưa được khai thác trong thị trường tín dụng.

Lịch sử giao dịch tín dụng

Hình 3.4: Biểu đồ tỉ lệ phần trăm lịch sử giao dịch tín dụng

Trong một khảo sát với 1000 người, chỉ có 53% khách hàng thanh toán đúng hạn, trong khi 4.9% thanh toán đầy đủ và 4% thực hiện chuyển tiền qua ngân hàng Đáng lưu ý, 29.3% người tham gia vi phạm hợp đồng tín dụng và không trả nợ, thuộc nhóm rủi ro tín dụng, cùng với 8.8% khách hàng bị trễ thanh toán.

Tình trạng hôn nhân của khách hàng

Hình 3.5: Biểu đồ tỉ lệ phần trăm tình trạng hôn nhân khách hàng

Một nghiên cứu cho thấy tỉ lệ sử dụng tín dụng của nam và nữ đã ly hôn là khá cao, lần lượt đạt 5% và 35.2% Trong khi đó, nam giới độc thân có tỉ lệ sử dụng tín dụng thấp hơn đáng kể so với nam giới đã kết hôn, với tỉ lệ là 5% so với 54.8%.

Hình 3.6: Biểu đồ tỉ lệ phần trăm độ tuổi của khách hàng

Nhóm người dưới 20 tuổi có tỷ lệ sử dụng tín dụng gần như bằng 0, trong khi nhóm từ 20 đến 30 tuổi lại có tỷ lệ cao nhất, đạt 36,9% trong số 1000 người Tỷ lệ này giảm dần theo độ tuổi, với 32% ở nhóm 30-40 tuổi, 17,4% ở nhóm 40-50 tuổi, 8,4% ở nhóm 50-60 tuổi, 4,4% ở nhóm 60-70 tuổi và chỉ 0,7% ở những người trên 70 tuổi.

Hình 3.7: Biểu đồ tỉ lệ phần trăm nghề nghiệp của khách hàng

Nhân viên có năng lực chú trọng đến việc sử dụng tín dụng, chiếm 63% tổng số Tiếp theo là cư dân lao động phổ thông và người có bằng cấp cao với tỷ lệ lần lượt là 20% và 15% Cuối cùng, lao động tạm trú phổ thông chỉ chiếm 2%.

Hình 3.8: Biểu đồ tỉ lệ phần trăm các loại tài sản của khách hàng

Khoảng 33% những người sở hữu tài sản như xe hơi hoặc tài sản khác có mức sử dụng tín dụng cao Tiếp theo, những người sở hữu bất động sản hoặc tài khoản tiết kiệm chiếm tỷ lệ lần lượt là 28% và 23% Cuối cùng, chỉ có 16% những người không có tài sản hoặc không muốn tiết lộ thông tin tài chính với ngân hàng.

3.2 Phân lớp dữ liệu German Credit Data

Bước 1: Xây dựng mô hình

-Sử dụng Data Sampler để lấy ra 30% dữ liệu từ dữ liệu gốc

Hình 3.9: Lấy mẫu từ file German-Credit-Data.xlsx

Quan sát thấy mẫu 30% được từ file dữ liệu gốc có 300 trường hợp, 20 biến và không có dữ liệu bị lỗi

- Bằng Data Save, lưu dữ liệu thành file Excel có tên Du_Lieu_Thu_Nghiem_30%.xlsx.

Hình 3.11: Lưu tên file thành Du_Lieu_Thu_Nghiem_30%.xlsx

-Tiếp tục sử dụng Data Sampler để lấy mẫu 70% dữ liệu từ tập German-Credit-Data.xlsx để tiến hành phân lớp dữ liệu

Hình 3.12: Lấy mẫu dữ liệu huấn luyện từ file German-Credit-Data.xlsx

Hình 3.13: Mẫu dữ liệu huấn luyện

Mẫu dữ liệu đã được huấn luyện gồm 700 trường hợp, 20 biến và không hề có dữ liệu bị lỗi

- Bằng Data Save, lưu dưới dạng file Excel có tênDu_Lieu_Thu_Nghiem_70%.xlsx.

Hình 3.14: Lưu tên file thành Du_Lieu_Thu_Nghiem_70%.xlsx

- Tạo tập dữ liệu thử nghiệm với 100 mẫu được lấy từ file Du_Lieu_Thu_Nghiem_30% bằng công cụ Data Sampler.

Hình 3.15: Lấy mẫu dữ liệu thử nghiệm từ file Du_Lieu_Thu_Nghiem_30%.xlsx

Hình 3.16: Mẫu dữ liệu thử nghiệm

Kiểm tra và nhận thấy mẫu dữ liệu thử nghiệm gồm 100 trường hợp, 20 biến và không hề có số liệu bị lỗi.

- Lưu mẫu dữ liệu thử nghiệm thành file Excel có tên German- Credit_Forecast.xlsx bằng Save Data.

Hình 3.17: Lưu mẫu dữ liệu thử nghiệm thành file Excel có tên German-

Credit_Forecast.xlsx Bước 2: Tiến hành sử dụng mô hình

Các dữ liệu sau khi được lấy mẫu đã đạt và không phát hiện lỗi nên ta bỏ qua bước tiền xử lý dữ liệu

Sử dụng Test and Score để so sánh và đánh giá các thuật toán giúp lựa chọn thuật toán chính xác và tối ưu nhất cho dự báo Tập dữ liệu Du_Lieu_Huan_Luyen_30%.xlsx được sử dụng để dự báo với biến Credit là biến phụ thuộc (target).

Hình 3.18: Tập dữ liệu huấn luyện

Hình 3.19: Mô hình các thuật toán

In the Test and Score table, we can either divide the sample ratios or select sampling ratios through Cross Validation or Random Sampling to identify the optimal metrics.

Chọn tỷ lệ lấy mẫu bằng Cross Validation

Hình 3.20: Kết quả sau khi chia mẫu dữ liệu ra thành 5 phần

Hình 3.21: Kết quả sau khi chia mẫu dữ liệu ra thành 10 phần

Chọn tỷ lệ Random Sampling

Hình 3.22: Kết quả sau khi chia mẫu dữ liệu thành 50- 80%

Hình 3.23: Kết quả sau khi chia mẫu dữ liệu thành 20-70%

Hình 3.24: Kết quả sau khi chia mẫu dữ liệu thành 10-50%

Nhận xét: Sau khi dùng Evaluation Results ta biết được kết quả định lượng của

Trong bài viết này, chúng tôi phân tích ba mô hình học máy phổ biến: Hồi quy Logistic, SVM và Cây quyết định, để xác định mô hình nào mang lại giá trị cao nhất Qua việc áp dụng phương pháp chia mẫu ngẫu nhiên (Random Sampling) với tỷ lệ 50-80%, chúng tôi nhận thấy rằng Hồi quy Logistic cho kết quả ấn tượng hơn so với các phương pháp còn lại.

Giá trị trung bình điều hòa (F1): 71.2% Độ chính xác (Precision): 70.8% Độ phủ (Recall): 67.7%

Diện tích đường cong (AUC): 0.772

=> Đây cũng là số liệu tốt nhất trong các trường hợp ngẫu nhiên mà ta đã chọn

Sử dụng công cụ ma trận nhầm lẫn (Confusion Matrix)

Hình 3.25: Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines)

Hình 3.26: Kết quả ma trận nhầm lẫn của Hồi quy logistic (Logistic Regression)

Hình 3.27: Kết quả ma trận nhầm lẫn của Cây quyết định (Decision Tree)

Trong công cụ Confusion Matrix, cần chú ý đến tỷ lệ sai lầm loại 1 và loại 2 Mô hình lý tưởng là mô hình có tỷ lệ sai lầm loại 2 thấp nhất Kết quả cho thấy mô hình SVM (Support Vector Machines) có tỷ lệ sai lầm loại 1 là 26.2% và tỷ lệ sai lầm loại 2 là 39.9% Do đó, phương pháp SVM (Support Vector Machines) được xác định là phương pháp tốt nhất.

Mặc dù cả ba phương pháp đều có tỉ lệ sai lầm loại 1 và loại 2 trên 20%, nguyên nhân chủ yếu dẫn đến kết quả kiểm nghiệm không khả quan là do dữ liệu ban đầu chưa đủ chất lượng Bộ dữ liệu German Credit Data chỉ có 1000 quan sát, con số này tuy không thấp nhưng vẫn không đủ để tạo ra một bộ dữ liệu tốt Hơn nữa, tính cân bằng của dữ liệu cũng rất quan trọng; khi bộ dữ liệu có ít quan sát, đặc biệt trong trường hợp không cân bằng, mô hình sẽ gặp khó khăn trong việc học các mẫu hiếm Khi một lớp có ít quan sát, mô hình có thể không thu thập đủ thông tin, dẫn đến việc dự đoán sai cho lớp đó, làm gia tăng số lượng False Negatives (sai lầm loại 2).

Sử dụng công cụ ROC Analysis

Hình 3.28: Đường cong của ROC với biến y là “bad”

Hình 3.29: Đường cong của ROC với biến y là “good”

Một mô hình có chỉ số FRP cao và TPR thấp, hoặc đường cong ROC gần tiệm cận với điểm (0;1) trên đồ thị, sẽ thể hiện hiệu quả cao hơn Qua việc so sánh hai hình ảnh đường cong ROC của biến Credit, phương pháp Hồi quy Logistic (Logistic Regression) cho thấy đường cong gần tiệm cận với điểm (0;1) nhất, do đó được đánh giá là mô hình hiệu quả nhất.

Ngày đăng: 07/12/2024, 06:52

HÌNH ẢNH LIÊN QUAN

Hình 1: Hình minh họa tổng quan về Khoa học dữ liệu (Data Science) - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo rủi ro tín dụng của khách hàng tiềm năng tại Đức
Hình 1 Hình minh họa tổng quan về Khoa học dữ liệu (Data Science) (Trang 9)
Đồ thị ROC có trục tung là TPR và trục hoành là FPR. Một đường cong ROC tốt - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo rủi ro tín dụng của khách hàng tiềm năng tại Đức
th ị ROC có trục tung là TPR và trục hoành là FPR. Một đường cong ROC tốt (Trang 22)
Đồ thị ROC cũng thường được sử dụng để so sánh hiệu suất giữa các m ô hình khác  nhau - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo rủi ro tín dụng của khách hàng tiềm năng tại Đức
th ị ROC cũng thường được sử dụng để so sánh hiệu suất giữa các m ô hình khác nhau (Trang 23)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w