1. Trang chủ
  2. » Tất cả

Ứng dụng mô hình học máy trong việc dự đoán khả năng ra quyết định cho vay của công ty dream housing finance về các khoản hồ sơ vay vốn mua nhà của khách hàng

41 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng mô hình học máy trong việc dự đoán khả năng ra quyết định cho vay của công ty Dream Housing Finance về các khoản hồ sơ vay vốn mua nhà của khách hàng
Người hướng dẫn NCS TS. Thái Kim Phụng
Trường học Trường Đại Học Kinh Tế TP.HCM
Chuyên ngành Khoa học dữ liệu
Thể loại Tiểu luận
Năm xuất bản 2022
Thành phố TP.HCM
Định dạng
Số trang 41
Dung lượng 1,39 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Chương 1: GIỚI THIỆU (0)
    • 1.1. Lý do lựa chọn đề tài (6)
    • 1.2. Mục tiêu nghiên cứu (7)
    • 1.3. Đối tượng nghiên cứu (8)
    • 1.4. Phương pháp nghiên cứu (8)
  • Chương 2: CƠ SỞ LÝ LUẬN (0)
    • 2.1 Khai phá dữ liệu (9)
      • 2.1.1. Tại sao cần phải khai phá dữ liệu? (9)
      • 2.1.2. Khai phá dữ liệu là gì? (9)
      • 2.1.3. Các thuật toán chính trong khai phá dữ liệu (9)
      • 2.1.4. Các kỹ thuật khai phá dữ liệu (10)
      • 2.1.5. Các tính năng chính của khai phá dữ liệu (11)
      • 2.1.6. Quy trình khai phá dữ liệu (11)
      • 2.1.7. Ứng dụng của khai phá dữ liệu trong các lĩnh vực (12)
      • 2.1.8. Công cụ khai phá dữ liệu sử dụng trong bài nghiên cứu - Orange (13)
    • 2.2. Phân lớp dữ liệu (13)
      • 2.2.1. Khái niệm phân lớp dữ liệu (13)
      • 2.2.2. Quá trình phân lớp dữ liệu (14)
      • 2.2.3. Phân loại bài toán phân lớp (0)
      • 2.2.4. Các phương pháp phân lớp dữ liệu (17)
      • 2.2.5 Các phương pháp đánh giá mô hình (20)
  • Chương 3: PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO (25)
    • 3.1. Mô hình nghiên cứu (25)
      • 3.1.1. Xây dựng biến số dùng nghiên cứu (0)
      • 3.1.2. Biến phụ thuộc (26)
      • 3.1.3. Biến độc lập (26)
    • 3.2. Trực quan hóa dữ liệu (27)
      • 3.2.1. Giới tính và tình trạng hôn nhân (27)
      • 3.2.2. Người phụ thuộc (27)
      • 3.2.3. Học vấn (28)
      • 3.2.5. Thu nhập người đề đơn (29)
      • 3.2.6. Thu nhập người đồng đề đơn (29)
      • 3.2.7. Khoản vay (29)
      • 3.2.8. Kỳ hạn khoản vay (30)
      • 3.2.9. Khu vực tài sản (30)
      • 3.2.10. Heatmap (31)
    • 3.3. Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu (31)
    • 3.4. Bộ dữ liệu huấn luyện (32)
    • 3.5. Bộ dữ liệu dự báo (33)
    • 3.6. Kết quả của dữ liệu huấn luyện (33)
    • 3.7. Kết quả của dữ liệu dự báo (36)
    • 3.8. Kết luận của kết quả nghiên cứu (38)
  • CHƯƠNG 4: KẾT LUẬN VÀ HẠN CHẾ - GIẢI PHÁP (38)
    • 4.1 Kết luận (38)
    • 4.2 Hạn chế và giải pháp (39)
  • TÀI LIỆU THAM KHẢO (40)

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM TIỂU LUẬN MÔN HỌC: KHOA HỌC DỮ LIỆU ĐỀ TÀI: ỨNG DỤNG MÔ HÌNH HỌC MÁY TRONG VIỆC DỰ ĐOÁN KHẢ NĂNG RA QUYẾT ĐỊNH CHO VAY CỦA CÔNG TY DRE

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM

TIỂU LUẬN MÔN HỌC: KHOA HỌC DỮ LIỆU

ĐỀ TÀI: ỨNG DỤNG MÔ HÌNH HỌC MÁY TRONG VIỆC DỰ ĐOÁN KHẢ NĂNG RA QUYẾT ĐỊNH CHO VAY CỦA CÔNG TY DREAM HOUSING FINANCE VỀ CÁC KHOẢN HỒ SƠ VAY VỐN MUA NHÀ CỦA KHÁCH

HÀNG.

Giảng viên hướng dẫn: NCS TS Thái Kim Phụng Lớp học phần: 22C1INF50905940 – Sáng thứ 6 Nhóm sinh viên thực hiện:

Nguyễn Đặng Thảo Chi 31211024039

Nguyễn Thị Phương Thảo 31211024106

TP.HCM, ngày 30 tháng 10 năm 2022

Trang 2

MỤC LỤC

DANH MỤC BẢNG BIỂU – HÌNH VẼ VÀ BIỂU ĐỒ 4

Chương 1: GIỚI THIỆU 6

1.1 Lý do lựa chọn đề tài 6

1.2 Mục tiêu nghiên cứu 7

1.3 Đối tượng nghiên cứu 8

1.4 Phương pháp nghiên cứu 8

1.5 Cấu trúc nghiên cứu 8

Chương 2: CƠ SỞ LÝ LUẬN 9

2.1 Khai phá dữ liệu 9

2.1.1 Tại sao cần phải khai phá dữ liệu? 9

2.1.2 Khai phá dữ liệu là gì? 9

2.1.3 Các thuật toán chính trong khai phá dữ liệu 9

2.1.4 Các kỹ thuật khai phá dữ liệu 10

2.1.5 Các tính năng chính của khai phá dữ liệu 11

2.1.6 Quy trình khai phá dữ liệu 11

2.1.7 Ứng dụng của khai phá dữ liệu trong các lĩnh vực 12

2.1.8 Công cụ khai phá dữ liệu sử dụng trong bài nghiên cứu - Orange 13

2.2 Phân lớp dữ liệu 14

2.2.1 Khái niệm phân lớp dữ liệu 14

2.2.2 Quá trình phân lớp dữ liệu 14

2.2.3 Phân loại bài toán phân lớp 17

2.2.4 Các phương pháp phân lớp dữ liệu 17

2.2.5 Các phương pháp đánh giá mô hình 20

Chương 3: PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO 25

3.1 Mô hình nghiên cứu 25

3.1.1 Xây dựng biến số dùng nghiên cứu 25

3.1.2 Biến phụ thuộc 26

3.1.3 Biến độc lập 26

3.2 Trực quan hóa dữ liệu 27

3.2.1 Giới tính và tình trạng hôn nhân 27

3.2.2 Người phụ thuộc 27

3.2.3 Học vấn 28

Trang 3

3.2.5 Thu nhập người đề đơn 29

3.2.6 Thu nhập người đồng đề đơn 30

3.2.7 Khoản vay 30

3.2.8 Kỳ hạn khoản vay 30

3.2.9 Khu vực tài sản 31

3.2.10 Heatmap 32

3.3 Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu 32

3.4 Bộ dữ liệu huấn luyện 32

3.5 Bộ dữ liệu dự báo 33

3.6 Kết quả của dữ liệu huấn luyện 34

3.7 Kết quả của dữ liệu dự báo 36

3.8 Kết luận của kết quả nghiên cứu 38

CHƯƠNG 4: KẾT LUẬN VÀ HẠN CHẾ - GIẢI PHÁP 39

4.1 Kết luận 39

4.2 Hạn chế và giải pháp 39

TÀI LIỆU THAM KHẢO 41

Trang 4

DANH MỤC BẢNG BIỂU – HÌNH VẼ VÀ BIỂU ĐỒ

Hình 2.1 Mô hình biểu diễn quy trình khai phá dữ liệu

Hình 2.2 Mô hình phân lớp dữ liệu

Hình 2.3 Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp Hình 2.4 Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình

Hình 2.5 Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới

Hình 2.6 Hình minh họa phương pháp phân lớp hồi quy Logistic (Logistic

Regression)

Hình 2.7 Hình minh họa mô hình phân lớp SVM (Support vector machine) Hình 2.8 Hình minh họa mô hình phân lớp cây quyết định (Decision Tree ) Hình 2.9 Hình minh họa mô hình phân lớp Neural Network

Hình 2.10 Hình minh họa mô tả phương pháp ma trận nhầm lẫn (Confusion

Hình 2.15 Hình minh họa mô tả đường cong ROC và giá trị AOC

Hình 3.1 Trực quan hóa dữ liệu theo tình trạng hôn nhân và giới tính

Hình 3.2 Trực quan hóa dữ liệu theo lượng người phụ thuộc

Hình 3.3 Trực quan hóa dữ liệu theo học vấn

Hình 3.4 Trực quan hóa dữ liệu theo nghề nghiệp và lịch sử tín dụng

Hình 3.5 Trực quan hóa dữ liệu theo thu nhập người đề đơn

Hình 3.6 Trực quan hóa dữ liệu theo thu nhập người đồng đề đơn

Hình 3.7 Trực quan hóa dữ liệu theo khoản vay

Hình 3.8 Trực quan hóa dữ liệu theo kỳ hạn khoản vay

Hình 3.9 Trực quan hóa dữ liệu theo khu vực tài sản

Hình 3.10 Heatmap

Hình 3.11 Dữ liệu huấn luyện của 27 thông tin của cá nhân muốn đi vay Hình 3.12 Dữ liệu dự báo của 27 thông tin của cá nhân đầu tiên muốn đi vay

Trang 5

Hình 3.14 Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ Hình 3.15 Kết quả của mô hình đánh giá phân lớp bằng Cross Validation Hình 3.16 Ma trận nhầm lẫn với SVM

Hình 3.17 Các thuộc tính của bộ dữ liệu dự báo

Hình 3.18 Kết quả của dự báo bằng SVM

Hình 3.19 Chỉ số của SVM

Trang 6

Chương 1: GIỚI THIỆU 1.1 Lý do lựa chọn đề tài

Công nghệ thông tin đóng vai trò hết sức quan trọng trong việc phát triển kinh

tế – xã hội, cũng như về cả mặt văn hóa và chính trị cùng với đó góp phần hình thànhnhững nhân tố mới, con người mới Công nghê thông tin tại Việt Nam ngày nay cũngdần phát triển và bùng nổ khiến cho việc thu thập một lượng lớn dữ liệu tăng lênnhanh chóng Mặc dù, đã có nhiều công cụ hỗ trợ cho việc thu nhập, lưu trữ và khaiphá dữ liệu, song, với sự bùng nổ lớn mạnh của thông tin được thu thập đã vượt ngoàitầm kiểm soát của con người để có thể nắm bắt chúng và xử lý kịp thời Cần phải có

kỹ thuật khai phá một bộ dữ liệu lớn, vì thế, khai phá dữ liệu đang là mối quan tâmhàng đầu của các nhà nghiên cứu trong những năm gần đây Khai phá dữ liệu có thểđược ứng dụng trên nhiều các lĩnh vực như tài chính, ngân hàng, công nghệ thông tin,

y tế, giáo dục,… Đặc biệt, với sự phát triển không ngừng của ngành tài chính hiện nay,việc mà chúng ta xử lý dữ liệu quá lớn cần phải được thực hiện nhanh chóng, triệt để,tránh mất mát nhiều thời gian Ngày nay, công nghệ thông tin càng ngày càng pháttriển đồng nghĩa với việc chúng ta cần phải phát triển hơn các phần mềm, các ứngdụng để nâng cao năng suất làm việc, thay thế cho những kỹ thuật xử lý thô sơ nhưtrước Chính vì thế, khai phá dữ liệu là công cụ phân tích, giúp cho việc xử lý dữ liệuđược diễn ra nhanh chóng và thông minh hơn Khai phá dữ liệu cho phép người sửdụng phân tích dữ liệu với nhiều góc độ khác nhau, phân loại dữ liệu theo nhiều quanđiểm riêng biệt từ đó, tổng kết các mối quan hệ đã được bóc tách

Để đánh giá mức độ tín nhiệm của một tổ chức doanh nghiệp hoặc cá nhântrong quy trình tín dụng là một nhiệm vụ đầy thách thức khi phải đánh giá dựa trênnhiều yếu tố: nguồn vốn, nền tảng tài chính, cơ sở vay tín dụng, quản lý rủi ro… Hiệnnay, nhiều doanh nghiệp vẫn áp dụng quy trình tín dụng truyền thống với thủ tục phêduyệt khoản vay thủ công và dựa trên giấy tờ Đây là nguyên nhân dẫn đến việc họchậm trễ trong phản hồi và ra quyết định của bộ phận chuyên trách, không đáp ứngđược nhiều yêu cầu xử lý cấp bách của khách hàng Đồng thời, việc quản lý dữ liệunội bộ trong doanh nghiệp tạo ra những khối lượng công việc lớn cho các cấp quản trị

Trang 7

Là một sinh viên Tài Chính nói riêng và thuộc ngành Kinh Tế nói chung, việc

áp dụng kiến thức về kinh tế vào việc quan sát, nắm bắt và hiểu rõ việc kinh doanh làmột trong những mục tiêu chính của sinh viên ngành Thông qua môn học Khoa học

dữ liệu, việc áp dụng công nghệ số cũng như hiểu rõ dữ liệu trong mảng Tài Chính đãtrở nên dễ hiểu cũng như dễ áp dụng trong quá trình nghiên cứu thị trường và doanhnghiệp Hiểu được điều này, công nghệ số đang ngày càng được ứng dụng mạnh mẽnhằm tự động hóa quá trình thẩm định hồ sơ vay vốn trong nghiệp vụ ngân hàng cũng

như các doanh nghiệp, trong đó có công ty Dream Housing Finance Bằng cách hợp lý

hóa và tự động hóa quy trình cho vay, các doanh nghiệp cần tìm kiếm một giải pháp cóthể giúp họ vượt qua thách thức, nâng cao chất lượng danh mục vay và mang lại sự hàilòng cho khách hàng.Việc tối ưu bằng công nghệ trong các khâu, đặc biệt khâu thẩmđịnh hồ sơ cho vay đã giúp giảm đáng kể chi phí đồng thời nâng cao sự hài lòng củakhách hàng do thời gian xử lý nhanh chóng, hiệu quả hơn của các hệ thống

Vì vậy, để kết hợp giữa các phương pháp khai phá dữ liệu trong lĩnh vực côngnghệ thông tin cùng với phân tích dự báo các khâu thẩm định hồ sơ cho vay nhóm

chúng em quyết định chọn đề tài “Ứng dụng mô hình học máy trong việc dự đoán

khả năng ra quyết định cho vay của Công ty Dream Housing Finance về các khoản hồ sơ vay vốn mua nhà của khách hàng” làm đề tài nghiên cứu cho bài tiểu

luận

1.2 Mục tiêu nghiên cứu

Bài nghiên cứu “Ứng dụng mô hình học máy trong việc dự đoán khả năng

ra quyết định cho vay của Công ty Dream Housing Finance về các khoản hồ sơ vay vốn mua nhà của khách hàng” nhằm tập trung những mục tiêu được đề cập dưới

ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu

Trang 8

· Dự báo các mô hình hoạt động kinh doanh sẽ dựa vào bộ dữ liệu đã được huấnluyện, từ đó sẽ đưa ra những mô hình hoạt động kinh doanh tốt nhất cho thẩmđịnh hồ sơ cho vay của công ty

· Qua những kết quả của dữ liệu huấn luyện cùng với đó là dự báo mô hình hoạtđộng kinh doanh, nhóm chúng em sẽ đưa ra các kết luận, cùng với đó là nhữnghạn chế của bài nghiên cứu, sau đó đưa ra giải pháp tốt nhất cho bài nghiên cứu

1.3 Đối tượng nghiên cứu

Khách hàng sử dụng dịch vụ đăng kí cho vay trực tuyến của công ty Dream

Housing Finance Bộ dữ liệu được thu thập và tạo ra bởi Vikas Ukani được đăng tảitrên trang web kaggle Tập dữ liệu bao gồm thông tin dữ liệu thô chứa 367 hàng dữliệu (khách hàng) và 12 cột (đặc tính độc lập)

1.4 Phương pháp nghiên cứu

Phương pháp nghiên cứu của đề tài là kết hợp giữa phân tích định tính cùng vớiphân tích định tượng (dự báo) Chúng tôi đã sử dụng các phương pháp thống kê, phântích dữ liệu, ứng dụng mô hình hồi quy kinh tế định lượng để dự báo mô hình ra quyếtđịnh hồ sơ vay vốn mua nhà của công ty đối với khách hàng với sự hỗ trợ của cácchương trình Orange và Excel

1.5 Cấu trúc nghiên cứu

Ngoài phần mục lục, danh mục bảng biểu và hình vẽ, tài liệu tham khảo, đề tàiđược kết cấu thành 4 chương như sau:

· Chương I: Giới thiệu

· Chương II: Cơ sở lý luận

· Chương III: Phân tích và dự báo

· Chương IV: Kết luận, hạn chế - giải pháp

Trang 9

Chương 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá dữ liệu

2.1.1 Tại sao cần phải khai phá dữ liệu?

Trong vòng 1 thập kỷ trở lại đây, lượng thông tin và dữ liệu được lưu trữ tăng lênmột cách chóng mặt, tốc độ bùng nổ theo cấp số nhân, được ước tính thông tin toàncầu tăng gấp đôi chỉ trong vòng 2 năm Bên cạnh đó, các cơ sở dữ liệu cũng gia tăngđáng kể về số lượng lẫn kích cỡ Toàn cầu rơi vào cảnh “ngợp” dữ liệu và không thểkhai thác tối ưu lượng thông tin hiện có Từ đó, khai phá dữ liệu (Data Mining), ra đờinhư một “chiếc chìa khóa” giải quyết mọi thắc mắc, vấn đề cũng như hậu quả của mộtkhối dữ liệu tưởng chừng như “bỏ đi” một cách hữu hiệu và triệt để nhất Nói một cách

dễ hiểu thì khai phá dữ liệu là một dạng công nghệ hỗ trợ khai thác, giúp con ngườikhám phá, chọn lọc được những thông tin hữu ích, các tri thức tiềm ẩn giữa vô vàng

dữ liệu được tích trữ trong suốt thời gian hoạt động của 1 công ty hay 1 doanh nghiệpnào đó

2.1.2 Khai phá dữ liệu là gì?

Khai phá dữ liệu là một kỹ thuật quan trọng thuộc quá trình phát hiện tri thức(Knowledge Discovery in Database) Đây là quá trình phân loại, đánh giá các tập dữliệu lớn dưới nhiều góc độ, phương diện khác nhau từ đó xác định các mẫu và thiết lậpcác mối liên hệ để đưa ra quyết định giải quyết cho các vấn đề Bên cạnh đó, cácdoanh nghiệp cũng có thể đưa ra các dự báo cho tương lai nhờ vào các MCU khai phá

dữ liệu

Khai phá dữ liệu là một quá trình hết sức phức tạp bởi tính chuyên sâu của kho dữ liệu

và đòi hỏi công nghệ, kỹ năng tính toán Bên cạnh đó, khai phá dữ liệu không nhữnggiới hạn việc trích xuất dữ liệu mà còn được dùng để chuyển đổi, làm sạch, tích hợp

dữ liệu và phân tích các mẫu

Xét về ý tưởng và lợi ích mà khai phá dữ liệu mang lại thì đây thật sự là 1 nhu cầutất yếu mà trong thời đại 4.0 như hiện nay không thể thiếu

2.1.3 Các thuật toán chính trong khai phá dữ liệu

Thuật toán chiếm vai trò rất quan trọng trong khai phá dữ liệu Chúng dùng để xử límột lượng dữ liệu khổng lồ từ đó chọn lọc ra những thông tin có ích cho mục đíchnghiên cứu Có rất nhiều thuật toán và học máy là một phần trong số đó Đây là một

Trang 10

quá trình rèn trí thông minh nhân tạo cho máy tính để tạo ra cơ sở dữ liệu đầu vàomang tính lịch sử và cũng là thuật toán cơ bản nhất Từ đó đưa ra nhưng dự đoán chocác tình huống tương lai Có 4 loại học máy: học máy có giám sát, học máy khônggiám sát, học máy bán giám sát và học máy tăng cường Nhưng trong bài nghiên cứunày, chúng tôi xin phép chỉ đề cập đến học máy có giám sát và học máy không giámsát

· Học máy có giám sát: Trong quá trình này, một tập hợp thông tin các mẫu cónhãn sẽ được đưa vào máy huấn luyện để tìm ra mối liên hệ giữa các mẫu vànhãn, Mục đích làm giảm thiểu các lỗi trong khi đưa ra các dự đoán trong tươnglai Một số ví dụ của học máy có giám sát như: cây quyết định, rừng ngẫunhiên,…

· Học máy không giám sát: Trong quá trình học máy không giám sát, các mẫuđược đưa vào huấn luyện không được giám sát và không được dán nhãn Trongcác thuật toán này, một hàm chi phí và một thước đo khoảng cách được địnhnghĩa; các thuật toán phải giảm giá trị của hàm chi phí theo thước đo khoảngcách Dự đoán đầu vào trong tương lai, ra quyết định, phân cụm hoặc nhóm,giảm kích thước, v.v Một số ví dụ về thuật toán học không giám sát bao gồmphân cụm K-mean, mô hình chuỗi Markov

2.1.4 Các kỹ thuật khai phá dữ liệu

Khai phá dữ liệu được chia thành một số hướng chính như sau:

· Mô tả khái niệm (concept description): Kỹ thuật này thiên về tóm tắt, mô tả vàtổng hợp các khái niệm

· Luật kết hợp (association rules): là một dạng luật biểu diễn tri thức ở dạng kháđơn giản, được ứng dụng nhiều trong lĩnh vực kinh doanh, tin-sinh, tài chính vàthị trường chứng khoáng,…

· Phân lớp và dự đoán (classification & prediction): Là quá trình phân một đối

tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước Một số phương pháp

phân lớp như : Hồi quy Logistic (Logistic Regression), Cây quyết định( Decision Tree), SVM (Support Vector Machine),… Phân lớp thuộc nhómphương pháp học có giám sát (supervised learning) Chúng tôi sẽ sử dụng kỹthuật khai phá dữ liệu này trong bài để dự báo số liệu

Trang 11

· Phân cụm (clustering): Là quá trình gom cụm/nhóm các đối tượng/dữ liệu cóđặc điểm tương đồng vào các cụm/nhóm tương ứng Các đối tượng trong cùngmột cụm sẽ có những tính chất tương tự nhau Khác với bài toán phân lớp, phâncụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vìkhông biết trước được số nhóm

· Khai phá chuỗi (sequential/temporal patterns): kỹ thuật này tương tự như khaiphá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Được ứng dụngnhiều trong lĩnh vực tài chính và thị trường chứng khoáng vì tính dự báo cao

2.1.5 Các tính năng chính của khai phá dữ liệu

Khai phá dữ liệu gồm 5 tính năng chính như sau:

· Dự báo nhiều mẫu dựa trên bộ dữ liệu đã được huấn luyện

· Phân cụm dữ liệu một cách trực quan, sinh động

· Tạo nhiều thông tin để phản hồi và phân tích

· Tính toán và dự đoán các kết quả

· Bộ dữ liệu khá lớn

2.1.6 Quy trình khai phá dữ liệu

Quy trình khai phá dữ liệu gồm có 7 bước, được trình bày cụ thể dưới dạng sơ đồ2.1 như sau:

Bước 1: Làm sạch dữ liệu Đây là bước đầu tiên, được đánh giá là khá quan trọng

và tốn nhiều thời gian nhất bởi khi các thông tin trùng lặp hoặc bẩn không được loại

bỏ sẽ dẫn đến nhầm lẫn và kết quả dự báo không đáng tin cậy

Bước 2: Tích hợp dữ liệu Ở bước này, chúng tôi sẽ tích hợp thông tin hoặc kết hợp

các nguồn thông khác nhau để tối ưu hóa kết quả khai thác đồng thời làm giảm dữ liệunhiễu hoặc không liên quan

Bước 3: Làm giảm dữ liệu Bước này sẽ làm giảm kích thước của dữ liệu để dữ liệu

thu được sẽ gọn hơn nhưng vẫn đảm bảo sự đầy đủ và chính xác

Bước 4: Chuyển đổi dữ liệu Dữ liệu sẽ được biến đổi để phù hợp với các mục tiêu

và quy trình khai thác thông qua bước này nhằm đảm bảo tính hiệu quả và dễ hiểuhơn

Bước 5: Khai phá dữ liệu Ở bước này, các dữ liệu hữu ích sẽ được trích xuất từ tập

dữ liệu hiện có thông qua những suy luận

Trang 12

Bước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu có trong dữ liệu

và phân tích xu hướng của mẫu cần thiết hay dư thừa đến tiến hành chọn lọc và loại

2.1.7 Ứng dụng của khai phá dữ liệu trong các lĩnh vực

· Về lĩnh vực Marketing và Sales: giúp doanh nghiệp phân tích thị trường đểhiểu về các sản phẩm thường được mua cùng nhau Thông tin này giúp doanhnghiệp quảng bá sản phẩm có lợi nhuận cao nhất và tối đa hóa lợi nhuận Ngoài

ra, nó còn khuyến khích khách hàng mua các sản phẩm liên quan

· Về lĩnh vực viễn thông: đối với viễn thông, thị phần và khách hàng là 2 nhân tốquyết định sự thành công của 1 công ty Khai phá dữ liệu bên cạnh giúp nắm bắt

Trang 13

nhu cầu thị hiếu của khách hàng còn giải quyết các vấn đề gian lận trong việc

sử dụng dịch vụ viễn thông

· Về lĩnh vực tài chính, ngân hàng: dự đoán hành vi của khách hàng để cung cấpcác sản phẩm và dịch vụ thích hợp Ngoài ra còn giúp tìm ra những mối tươngquan giữa các con số tài chính khác nhau để dự đoán mức độ rủi ro tiềm ẩn củacác hoạt động tài chính như cho vay,

· Về lĩnh vực thương mại điện tử và bán lẻ: hỗ trợ xác định hành vi tiêu dùng, xuhướng mua sắm của người dùng, từ đó nâng cao chất lượng phục vụ dịch vụbán hàng để đạt sự hài lòng và duy trì lượng khách hàng thân thiết; thiết kếchính sách vận chuyển và phân hối tối ưu hơn, tăng doanh thu giảm chi phítrong kinh doanh

· Về lĩnh vực giáo dục: dựa vào sự phân tích dữ liêu về tình hình học tập của họcsinh để dự báo về kết quả từ đó nghiên cứu ra phương pháp giảng dạy hiệu quảhơn

· Về lĩnh vực y tế và chăm sóc sức khỏe: xử lí và phân tích lượng dữ liệu lớn vềbệnh nhân và tài nguyên bệnh viện để chọn lọc lượng dữ liệu phù hợp cho phép

hỗ trợ nghiệp vụ, mang lại lợi ích và tiết kiệm các khoản chi từ đó đưa quyếtđịnh dự báo Một số lợi ích như: nâng cao hiệu quả điều trị, quản lí quan hệkhách hàng,

· Về lĩnh vực kỹ thuật sản xuất: khám phá các mẫu trong các quy trình sản xuấtphức tạp và dùng để dự đoán thời gian phát triển sản phẩm và chi phí

2.1.8 Công cụ khai phá dữ liệu sử dụng trong bài nghiên cứu - Orange

Phần mềm Orange là một công cụ hỗ trợ khai phá dữ liệu thông minh và đơn giảnbằng việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy Thông qualập trình bằng Python với giao diện tính năng trực quan, sinh động và dễ thao tác Đadạng chức năng cho phép phân tích được hầu hết dữ liệu từ đơn giản đến phức tạp,giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới vàchuyên gia

2.2 Phân lớp dữ liệu

2.2.1 Khái niệm phân lớp dữ liệu

Kĩ thuật phân lớp dữ liệu là một trong những vấn đề nguyên cứu mở rộng hiện naytập trung chủ yếu vào thống kê, máy học và mạng nơtrôn Đây là quá trình phân một

Trang 14

đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phânlớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó(thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính làquá trình phân lớp dữ liệu

Hình 2.2: Mô hình phân lớp dữ liệu

Nguồn: Slide bài giảng Khoa học dữ liệu - Đại học UEH

2.2.2 Quá trình phân lớp dữ liệu

Quá trình này gồm 2 bước chính:

· Bước 1: Xây dựng mô hình ( hay giai đoạn “học” hoặc “huấn luyện”)

Đây là mô hình mô tả một tập những lớp được định nghĩa sẵn từ trước trong đó: mỗi

bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xát địnhbởi thuộc tính nhãn lớp , tập hợp của những bộ được sử dụng trong việc sử dụng môhình được gọi là tập huấn luyện Mô hình được biểu diễn là những luật phân lớp , câyquyết định và những công thức toán học Kết quả của bước này là mô hình phân lớp đã

được huấn luyện

Trang 15

Hình 2.3: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp

Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựa

trên cây quyết định Công nghệ thông tin, 3 – 62

· Bước 2: Sử dụng mô hình Ở bước này được chia thành 2 bước nhỏ hơn

 Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

Dữ liệu đầu vào là một tập dữ liệu mẫu khác đã được chọn ngẫu nhiên và độc lập

và cũng đã được gán nhãn và tiền xử lí Nhưng các dữ liệu được gán nhãn sẽ bị lờ đikhi đưa vào mô hình phân lớp

Sau đó, tiến hành so sánh thuộc tính của các dữ liệu được gán nhãn và kết quả phântích các thuộc tính bị lờ đi của lớp mô hình để xác định tính đúng đắn của mô hình

Trang 16

Hình 2.4: Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình

Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựa

trên cây quyết định Công nghệ thông tin, 3 – 62

 Bước 2.2: Phân lớp dữ liệu mới

Dữ liệu đầu vào là các dữ liệu bị khuyết thuộc tính cần dự đoán nhãn Dựa vào các

thông tin được huấn luyện, mô hình sẽ tự phân lớp, gán nhãn cho các dữ liệu

Hình 2.5: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới

Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựa

trên cây quyết định Công nghệ thông tin, 3 – 62

Trang 17

Nhiệm vụ bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước Nếu:

· n = 2: Phân lớp nhị phân

· n > 2: Phân lớp đa lớp

· Mỗi dữ liệu chỉ thuộc 1 lớp duy nhất: Phân lớp đơn nhãn

· Mỗi dữ liệu có thể cùng lúc thuộc nhiều lớp khác nhau: Phân lớp đa nhãn

2.2.4 Các phương pháp phân lớp dữ liệu 2.2.4.1 Hồi quy Logistic (Logistic Regression) Phương pháp hồi quy Logistic (còn gọi là hồi quy nhị thức) là 1 phương pháp phân

tích thống kê tập hợp giá trị đầu ra rời rạc dựa vào các giá trị đầu vào

Mục đích của hồi quy logistic là ước tính xác suất của các sự kiện, bao gồm xácđịnh mối quan hệ giữa các tính năng từ đó đự đoán xác suất của các kết quả, nên đốivới hồi quy logistic ta sẽ có:

· Input: dữ liệu input (ta sẽ coi có hai nhãn là 0 và 1)

· Output : Xác suất dữ liệu input rơi vào nhãn 0 hoặc nhãn 1

Hình 2.6: Hình minh họa phương pháp phân lớp hồi quy Logistic (Logistic

Regression)

Nguồn: Hai’s Blog [ML] Hồi quy logistic (Logistic Regression)

2.2.4.2 SVM (Support Vector Machine)

SVM (Support Vector Machine) sử dụng kỹ thuật ánh xạ dữ liệu vào một khônggian nhiều chiều hơn để thuận tiện cho việc tìm ra ranh giới phân chia dữ liệu Nóđược sử dụng trong cả phân lớp lẫn hồi quy (SVR)

Trang 18

Mục tiêu của SVM là tìm ra một siêu phẳng trong không gian N chiều (ứng với Nđặc trưng) chia dữ liệu thành hai phần tương ứng với lớp của chúng Nói theo ngônngữ của đại số tuyển tính, siêu phẳng này phải có lề cực đại và phân chia hai bao lồi vàcách đều chúng

Hình 2.7: Hình minh họa mô hình phân lớp SVM (Support vector machine)

Nguồn: Vijay Kanade What Is a Support Vector Machine? Working, Types, and

Trang 19

Hình 2.8: Hình minh họa mô hình phân lớp cây quyết định (Decision Tree )

Nguồn: Tác giả bài nghiên cứu khoa học

2.2.4.4 Neural Network

Neural Network (hay là mạng nơ-ron nhân tạo) là chuỗi những thuật toán được đưa

ra để khám phá các mối liên hệ cơ bản trong tập dữ liệu đầu vào nhờ việc hoạt độngnhư bộ não con người Nói một cách dễ hiểu thì mạng nơ ron nhân tạo được xem là hệthống của các tế bào thần kinh nhân tạo

Với khả năng thích ứng với mọi sự thay đổi của dữ liệu đầu vào do đó mô hình cóthể đưa ra một kết quả tối ưu nhất mà không cần thiết kế lại tiêu chí đầu ra

Trang 20

Hình 2.9: Hình minh họa mô hình phân lớp Neural Network

Nguồn: ITNavi Tổng quan về Neural Network (mạng Nơ Ron nhân tạo) là gì?

2.2.5 Các phương pháp đánh giá mô hình

2.2.5.1 Ma trận nhầm lẫn (Confusion Matrix), Precision, Recall, F1

- score

Ma trận nhầm lẫn là một phương pháp dựa vào việc xem xét và phân loại các chỉ số

về độ chính xác từ đó đánh giá có bao nhiêu điểm dữ liệu thực thuộc từng lớp cụ thể

và đánh giá dự đoán cho những dữ liệu khác Đây là một trong những kỹ thuật đolường hiệu suất phổ biến nhất và được sử dụng rộng rãi cho các mô hình phân loại

Ngày đăng: 23/02/2023, 22:06

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm