1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum

107 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Cây Quyết Định Và Ứng Dụng Để Phân Loại Khách Hàng Vay Vốn Tại Ngân Hàng Vietinbank Chi Nhánh Kon Tum
Tác giả Phạm Đình Bôn
Người hướng dẫn TS. Phạm Anh Phương
Trường học Đại học Đà Nẵng
Chuyên ngành Hệ thống thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2017
Thành phố Đà Nẵng
Định dạng
Số trang 107
Dung lượng 8,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đối tượng và phạm vi nghiên cứu  Đối tượng nghiên cứu - Bài toán phân lớp dữ liệu trong khai phá dữ liệu; - Cây quyết định;  Phạm vi nghiên cứu - Nghiên cứu về thuật toán ID3; - Phâ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

PHẠM ĐÌNH BÔN

NGHIÊN CỨU CÂY QUYẾT ĐỊNH

VÀ ỨNG DỤNG ĐỂ PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2017

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

PHẠM ĐÌNH BÔN

NGHIÊN CỨU CÂY QUYẾT ĐỊNH

VÀ ỨNG DỤNG ĐỂ PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Người hướng dẫn khoa học: TS Phạm Anh Phương

Đà Nẵng - Năm 2017

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được

ai công bố trong bất kỳ công trình nào khác

Tác giả luận văn

Phạm Đình Bôn

Trang 4

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH vii

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 2

5 Cấu trúc luận văn 2

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4

1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 4

1.1.1 Khám phá tri thức 4

1.1.2 Khai phá dữ liệu 5

1.2 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU 6

1.3 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG 9

1.3.1 Phân lớp (Classification) 9

1.3.2 Phân cụm (Clustering) 13

1.3.3 Luật kết hợp (Association Rules) 14

1.4 ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC NGÂN HÀNG 17

1.4.1 Marketing 18

1.4.2 Quản lý rủi ro 19

1.4.3 Phát hiện gian lận 20

1.4.4 Quản trị quan hệ khách hàng 20

1.5 KẾT LUẬN 21

Trang 5

CHƯƠNG 2 CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU 22

2.1 TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC THEO CÂY QUYẾT ĐỊNH22 2.1.1 Giới thiệu chung 22

2.1.2 Các kiểu cây quyết định 23

2.1.3 Ưu điểm cây quyết định 23

2.2 CÁC THUẬT TOÁN 25

2.2.1 Thuật toán CLS 25

2.2.2 Thuật toán ID3 26

2.2.3 Thuật toán C4.5 26

2.2.4 Thuật toán SLIQ[5] 31

2.3 KẾT CHƯƠNG 35

CHƯƠNG 3 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM 37

3.1 GIỚI THIỆU QUY TRÌNH TÍN DỤNG TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM 37

3.1.1 Tổng quan về quy trình tín dụng: 37

3.1.2 Quy trình tín dụng của ngân hàng công thương Việt Nam – Vietinbank 39

3.2 THUẬT TOÁN ID3 44

3.2.1 Giới thiệu về thuật toán ID3 44

3.2.2 Giải thuật ID3 xây dựng cây quyết định từ trên xuống 48

3.2.3 Thuộc tính dùng để phân loại cây quyết định 50

3.3 ỨNG DỤNG ID3 ĐỂ PHÂN LỚP ĐỐI TƯỢNG KHÁCH HÀNG VAY VỐN 57

3.3.1 Quy trình thực nghiệm 57

3.3.2 Giới thiệu bài toán 58

Trang 6

3.3.3 Đặc tả dữ liệu 59

3.3.4 Cài đặt thuật toán 60

3.4 KẾT CHƯƠNG 66

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67 DANH MỤC TÀI LIỆU THAM KHẢO

QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)

PHỤ LỤC

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

KDD Knowledge Discovery and Data

Trang 8

DANH MỤC CÁC BẢNG

Số hiệu

bảng Tên bảng/ hình vẽ Trang

3.2 Bảng thuộc tính tập dữ liệu ngân hàng 59

Trang 9

1.5 Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới 12

3.1 Cây quyết định biểu diễn thuộc tính quyết định cho vay 47

3.5 Quy trình thực nghiệm của quy trình quyết định cho

3.10 Khởi tạo dữ liệu để sinh luật với ID3 62 3.11 Kết quả các luật đƣợc sinh ra với thuật toán ID3 63 3.12 Kết quả cây ID3 với bộ dữ liệu Dulieuvayvon.xlsx 63

3.14 Chọn dữ liệu khách hàng mới để thực hiện quyết định 64

Trang 10

cho vay

3.15 Kết quả sau khi thực hiện quyết định có cho khách hàng

Trang 11

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại Cùng với sự phát triển của Công nghệ Thông tin và ứng dụng của nó trong đời sống - kinh tế - xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn Người ta lưu trữ những dữ liệu này vì cho rằng nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên theo thống kê thi chỉ có một lượng nhỏ của những dữ liệu này (khoảng dưới10%)

là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì và có thể làm

gì với những dữ liệu này, nhưng họ vẫn tiếp tục thu thập và lưu trữ vì hy vọng những dữ liệu này sẽ cung cấp cho họ những thông tin quý giá một cách nhanh chóng để đưa ra những quyết định kịp thời vào một lúc nào đó Chính

vì vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining)

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới, tại Việt Nam kỹ thuật này còn tương đối mới mẻ tuy nhiên cũng đang được nghiên cứu và bắt đầu đưa vào một số ứng dụng thực tế Vì vậy, hiện nay ở nước ta vấn đề phát hiện tri thức và khai phá dữ liệu đang thu hút được sự quan tâm của nhiều người và nhiều công ty phát triển ứng dụng Công nghệ Thông tin Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo…

Trang 12

Có nhiều phương pháp phân lớp được đề xuất, tuy nhiên không có phương pháp tiếp cận phân loại nào là tối ưu và chính xác hơn hẳn những phương pháp khác Dù sao với mỗi phương pháp có một lợi thế và bất lợi riêng khi sử dụng Một trong những công cụ khai phá tri thức hiệu quả hiện nay là sử dụng cây quyết định để tìm ra các luật phân lớp Với mong muốn nghiên cứu về việc ứng dụng cây quyết định để phân loại khách hàng của

Ngân hàng thương mại, tôi đã chọn đề tài “Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum”

2 Mục tiêu nghiên cứu

- Nghiên cứu các thuật toán xây dựng cây quyết định ID3

- Áp dụng mô hình cây quyết định (ID3: Decision Tree) vào việc phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum

3 Đối tượng và phạm vi nghiên cứu

 Đối tượng nghiên cứu

- Bài toán phân lớp dữ liệu trong khai phá dữ liệu;

- Cây quyết định;

 Phạm vi nghiên cứu

- Nghiên cứu về thuật toán ID3;

- Phân lớp dữ liệu khách hàng, cụ thể: khách hàng vay vốn tại ngân hàng Vietinbank chi nhánh Kon Tum

4 Phương pháp nghiên cứu

- Đọc hiểu tài liệu

- Cài đặt ứng dụng chạy trên hệ điều hành Window

5 Cấu trúc luận văn

Báo cáo luận văn gồm các phần chính như sau:

Trang 13

MỞ ĐẦU

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Chương này trình bày sơ lược về khai phá dữ liệu, ứng dụng của khai phá dữ liệu, các phương pháp khai phá dữ liệu thông dụng và ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính ngân hàng

CHƯƠNG 2 CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU Hiện nay có nhiều kỹ thuật phân lớp dữ liệu, trong đó phân lớp bằng cây quyết định là một phương pháp phổ biến Cây quyết định (decision tree)

là một phương pháp khai phá dữ liệu rất mạnh và phổ biến trong nhiệm vụ phân loại và dự báo Tạo cây quyết định là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự đoán cho nhà quản lý, kinh doanh ra quyết định để thực hiện chiến lượt kinh doanh cũng như quản lý của mình một cách có hiệu quả CHƯƠNG 3 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG VIETINBANK CHI NHÁNH KON TUM

Trong chương này đã phát biểu bài toán để kiểm chứng các thuật toán xây dựng cây quyết định ở chương 2 trên bộ dữ liệu mẫu Dulieuvayvon.xlsx Đồng thời cài đặt chương trình hỗ trợ cán bộ tín dụng ra quyết định vay vốn Dựa vào mô hình cây quyết định (các luật quyết định) đã được xây dựng, phân lớp các mẫu dữ liệu khách hàng mới

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trang 14

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Chương này trình bày sơ lược về khai phá dữ liệu, ứng dụng của khai phá dữ liệu, các phương pháp khai phá dữ liệu thông dụng và ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính ngân hàng

1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU

1.1.1 Khám phá tri thức

Quá trình khám phá dữ liệu gồm các bước cơ bản sau đây [1][2][9]:

Bước 1: Xác định vấn đề và lựa chọn nguồn dữ liệu (Problem Understanding anh Data Understanding)

Bước 2: Chuẩn bị dữ liệu (Data preparation)

Quá trình này gồm các quá trình sau:

 Thu thập dữ liệu (Data gathering)

 Làm sạch dữ liệu (Data cleaning): Loại bỏ nhiễu và các dữ liệu không cần thiết

 Tích hợp dữ liệu (Data integeration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing)

 Chọn dữ liệu (Data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data),.v.v

 Biến đổi dữ liệu (Data transformation): Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

Bước 3: Khai phá dữ liệu (Data Mining)

Trang 15

Bước 4: Đánh giá mẫu (Partern Evalution)

Bước 5: Biểu diễn tri thức và triển khai (Knowlegde presentation and Deployment)

Tóm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ liệu mà

trong đó khai phá dữ liệu là công đoạn quan trọng nhất [2], [3],[8]

Hình 1.1: Quá trình phát hiện tri thức trong CSDL

1.1.2 Khai phá dữ liệu

Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Quá trình khai phá dữ liệu bao gồm các giai đoạn [1][3]:

Giai đoạn 1: Gom dữ liệu

Giai đoạn 2: Trích lọc dữ liệu

Giai đoạn 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu

Giai đoạn 4: Chuyển đổi dữ liệu

Giai đoạn 5: Phát hiện và trích mẫu dữ liệu

Giai đoạn 6: Đánh giá kết quả mẫu

Khai phá dữ liệu được mô hình hóa một cách tổng quát như hình vẽ 1.2:

Tri thức

Trình Diễn Khai phá

dữ liệu

Mẫu

Dữ liệu chuyên trang

Dữ liệu đã tiền xử lý

Dữ liệu đích

Chọn lựa

Tiền xử lý

Đổi dạng

Trang 16

Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu

1.2 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU

Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều

sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi:

 Phân tích dữ liệu tài chính (Financial Data Analysis)

 Công nghiệp bán lẻ (Retail Industry)

 Công nghiệp viễn thông (Telecommunication Industry)

 Phân tích dữ liệu sinh học (Biological Data Analysis)

 Phát hiện xâm nhập (Intrusion Detection)

 Một số ứng dụng trong khoa học (Scientific Applications)

Giao diện người dùng

Đánh giá mẫu khai phá được

Trang 17

Phân tích dữ liệu tài chính (Financial Data Analysis)

Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất lượng cao, tạo điều kiện cho khai phá dữ liệu

Dưới đây là một số ứng dụng điển hình trong khai phá dữ liệu tài chính:

 Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụngđối với khách hàng

 Phân tích hành vi khách hàng (vay, gửi tiền)

 Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính

 Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác

Công nghiệp bán lẻ (Retail Industry)

Khai phá dữ liệu có vai trò rất quan trọng trong ngành công nghiệp bán lẻ,

do dữ liệu thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua hàng của khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ Điều tự nhiên

là khối lượng dữ liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh chóng và dễ dàng thu thập bởi tính sẵn có trên môi trường Web Ứng dụng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng

và giữ chân khách hàng tốt Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp bán lẻ:

 Khai phá dữ liệu trên kho dữ liệu khách hàng

 Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực

 Phân tích hiệu quả của các chiến dịch bán hàng, Marketing

Trang 18

 Quản trị mối quan hệ khách hàng (CRM)

 Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng

Công nghiệp viễn thông (Telecommunication Industry)

Công nghiệp viễn thông là một trong những ngành công nghiệp mới nổi, cung cấp nhiều dịch vụ như trên điện thoại di động, Internet, truyền hình ảnh Do sự phát triển mạnh củacông nghệ máy tính và mạng máy tính, viễn thông đang phát triển với tốc độ rất lớn Đây là lý do tại sao khai phá dữ liệu trở nên rất quan trọng trong lĩnh vực này

Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mô hình viễn thông,phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông Dưới đây

là một số ứng dụng của khai phá dữ liệutrong ngành công nghiệp này:

 Phân tích dữ liệu đa chiều viễn thông

 Xây dựng các mô hình phát hiện gian lận

 Phát hiện bất thường trong giao dịch viễn thông

 Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng

 Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông

Phân tích dữ liệu sinh học (Biological Data Analysis)

Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học(Bioinformatics) Sau đây là một số ứng dụng của khai phá dữ liệu ứng dụng trong sinh học:

 Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen

Trang 19

 Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein

 Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền

Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)

Xâm nhập bất hợp pháp là những hành động đe dọa tính toàn vẹn, bảo mật và tính sẵn sàng của tài nguyên mạng Trong thế giới của kết nối, bảo mật đã trở thành vấn đề lớn đối với tồn tại của hệ thống Với sự phát triển của internet và sự sẵn có của các công cụ, thủ thuật trợ giúp cho xâm nhập và tấn công mạng, yêu cầu kiểm soát truy cập bất hợp pháp là yếu tố rất quan trọng đảm bảo cho sự ổn định của hệ thống

Dưới đây là một số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát hiện xâm nhập:

 Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập

 Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập

 Phân tích dòng dữ liệu dữ liệu (Analysis of Stream data) để phát hiện bất thường

xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), có nghĩa là phân

Trang 20

lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là biết trước Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Ví dụ

mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ, của ngày hôm nay và các ngày trước đó Hay nhờ các luật về xu hướng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh có thể ra những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán Một mô hình

dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning),

hệ chuyên gia (expert system), thống kê (statistics) Công nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn các thuật toán ra đời trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ (memory resident), thường thao tác với lượng dữ liệu nhỏ Một số thuật toán

ra đời sau này đã sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khả năng

mở rộng của thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi

Quá trình phân lớp dữ liệu gồm hai bước [4][5]:

Bước thứ nhất (Learning)

Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm định trước Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case) Luận văn sử dụng các thuật ngữ này với nghĩa tương đương Trong tập dữ liệu này, mỗi phần tử dữ liệu

Trang 21

được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết định, công thức logic, hay mạng nơron Quá trình này được mô tả như trong hình 1.3

Hình 1.3 : Quá trình phân lớp dữ liệu - (a) Bước xây dựng mô hình phân lớp Bước thứ hai (Classification)

Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được

mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác của mô hình được

Trang 22

ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì

mô hình luôn có xu hướng “quá vừa” dữ liệu Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo Nếu độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu

mà giá trị của thuộc tính phân lớp là chưa biết

Hình 1.4: Quá trình phân lớp dữ liệu - (b1)Ước lượng độ chính xác của mô

hình

Hình 1.5: Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới

Trang 23

Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phân lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở rộng được Trong đó khả năng mở rộng được của thuật toán được đặc biệt trú trọng và phát triển

Có thể liệt kê ra đây các kỹ thuật phân lớp đã được sử dụng trong những năm qua:

 Phân lớp cây quyết định (Decision tree classification)

 Bộ phân lớp Bayesian (Bayesian classifier)

 Mô hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier)

 Mạng nơron

 Phân tích thống kê

 Các thuật toán di truyền

 Phương pháp tập thô (Rough set Approach)

1.3.2 Phân cụm (Clustering)

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters) Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection

Trang 24

Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như:

Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ của công ty để giúp công ty có chiến lược kinh doanh hiệu quả hơn;

Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng;

Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…;

Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính (identifying frauds);

WWW: Phân loại tài liệu (document classification); phân loại người dùng web (clustering weblog);…

Các kỹ thuật phân cụm được phân loại như sau (xem hình)

Hình 1.6: Phân loại kỹ thuật phân cụm

1.3.3 Luật kết hợp (Association Rules)

Khai phá luật kết hợp được thực hiện qua 2 bước:

 Bước 1 : Tìm tất cả các tập mục phổ biến, một văn bản phổ biến được xác định qua độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu

Clustering

Complete Link

Square Error Single Link

Partitional Hierarchial

Graph Theoretic

Mixture Resolving

Mode Seeking

Maximization

Trang 25

 Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn

dữ liệu Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây

Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn

T = {t1, t2, …, tn} T gọi là cơ sở dữ liệu giao dịch (Transaction Database) Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset)

I = {i1, i2, …, im} Một itemset gồm k items gọi là k-itemset

Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation) giữa các items Những luật kết hợp này có dạng X =>Y Trong Basket Analysis, luật kết hợp X =>Y có thể hiểu rằng những người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y (X

và Y gọi là itemset)

Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật kết hợp X =>Y thì chúng ta có thể nói rằng những người mua Apple và Banana thì cũng thường mua Cherry và Durian

Theo quan điểm thống kê, X được xem là biến độc lập (Independent variable) còn Y được xem là biến phụ thuộc (Dependent variable)

Độ hỗ trợ (Support) và độ tin cây (Confidence) là 2 tham số dùng để đo lường luật kết hợp

Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất

cả các items trong cả hai tập X và Y Ví dụ, support của luật X =>Y là 5% có nghĩa là 5% các giao dịch X và Y được mua cùng nhau

Công thức để tính support của luật X =>Y như sau:

Trang 26

là 80% khách hàng mua Apple cũng mua Banana

Công thức để tính độ tin cậy của luật kết hợp X =>là xác suất có điều kiện Y khi đã biết X như sau :

Trong đó: n(X) là số giao dịch chứa X

Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support (min_sup) và minimum confidence (min_conf)

Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rule) Minimum support và Minimum confidence gọi là các giá trị ngưỡng

(threshold) và phải xác định trước khi sinh các luật kết hợp

Một itemsets mà tần suất xuất hiện của nó >= min_sup goi là frequent itemsets

Một số loại luật kết hợp

Binary association rules (luật kết hợp nhị phân): Apple => Banana

Quantitative association rules (luật kết hợp định lượng):

weight in [70kg – 90kg] => height in [170cm – 190cm]

Fuzzy association rules (Luật kết hợp mờ): weight in HEAVY => height in TALL

Trang 27

Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules

1.4 ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC NGÂN HÀNG

Ngành công nghiệp ngân hàng trên toàn thế giới đã trải qua những thay đổi to lớn trong cách thức kinh doanh Với việc thực hiện các nhiệm vụ kinh doanh đặc thù của mình trong thời gian gần đây, các ngân hàng đã có sự thay đổi lớn đó là chấp nhận và áp dụng công nghệ thông vào việc kinh doanh của mình Như một kết quả hiển nhiên, việc thực hiện giao dịch đã trở nên dễ dàng và đồng thời khối lượng dữ liệu từ các giao dịch này đã tăng lên đáng

kể Nó là vượt quá khả năng của con người để phân tích số lượng dữ liệu thô khổng lồ này và chuyển đổi nó thành tri thức hữu ích cho các tổ chức Khai phá dữ liệu có thể giúp đỡ bằng cách đóng góp trong việc giải quyết các vấn

đề kinh doanh bằng cách tìm kiếm các mẫu, các mối kết hợp và các mối tương quan được ẩn chứa trong các thông tin liên quan tới việc kinh doanh được lưu trữ trong cơ sở dữ liệu Bằng cách sử dụng khai phá dữ liệu để phân tích mô hình và xu hướng này, những người thực hiện công việc kinh doanh trong các ngân hàng có thể dự đoán với độ chính xác tăng lên, khách hàng sẽ phản ứng thế nào với việc điều chỉnh lãi suất, trong đó khách hàng nào sẽ có khả năng chấp nhận sự chào hàng sản phẩm mới, khách hàng nào sẽ có nguy

cơ rủi ro cao hơn mặc định trên một khoản vay, và làm thế nào để mối quan

hệ khách hàng ngày càng có lợi hơn

Ngành ngân hàng nhận ra tầm quan trọng của thông tin mà nó có về khách hàng của mình một cách rộng rãi Chắc chắn rằng, họ có một biển thông tin khách hàng, bao gồm nhân khẩu học của khách hàng, dữ liệu giao dịch, creditcards sử dụng mô hình, và nhiều thuộc tính khác nữa Khi ngành ngân hàng là một bộ phận trong ngành công nghiệp dịch vụ, thì nhiệm vụ duy trì sự

Trang 28

quản các mối quan hệ khách hàng (CRM: Customer relationship Management) một cách có hiệu quả là một vấn đề quan trọng Để làm được điều này, các ngân hàng cần phải đầu tư các nguồn lực để hiểu rõ hơn về khách hàng hiện tại và tiềm năng của họ Bằng cách sử dụng các công cụ khai phá dữ liệu phù hợp, sau đó có thể cung cấp các sản phẩm và dịch vụ thích hợp cho khách hàng của họ

Có rất nhiều lĩnh vực, trong đó khai phá dữ liệu có thể được ứng dụng trong ngành công nghiệp ngân hàng, trong đó bao gồm việc phân khúc khách hàng và phân chia lợi nhuận, chấm điểm và phê duyệt tín dụng, dự đoán thanh toán mặc định, quảng bá sản phẩm, phát hiện các giao dịch gian lận, quản lý tiền mặt và các hoạt động dự báo, tối ưu hóa danh mục đầu tư chứng khoán và xếp hạng đầu tư Bằng cách phân tích các dữ liệu trong quá khứ, khai phá dữ liệu có thể giúp các ngân hàng dự đoán số lượng khách hàng có khả năng thay đổi thẻ tín dụng của họ, từ đó họ có thể lập kế hoạch và triển khai ưu đãi đặc biệt khác nhau để giữ lại những khách hàng của mình Sau đây là một số ví dụ

về phương thức mà ngành ngân hàng đã sử dụng có hiệu quả kỹ thuật khai phá dữ liệu trong các lĩnh vực này

1.4.1 Marketing

Một trong những lĩnh vực được ứng dụng rộng rãi nhất cho ngành ngân hàng của kỹ thuật khai phá dữ liệu đó là lĩnh vực quảng bá sản phẩm Bộ phận tiếp thị và bán hàng của các Ngân hàng có thể sử dụng kỹ thuật khai phá dữ liệu để phân tích cơ sở dữ liệu về khách hàng Khai phá dữ liệu thực hiện các phân tích khác nhau trên bộ dữ liệu thu thập được để xác định hành vi của người tiêu dùng với sự tham khảo sản phẩm, giá và kênh phân phối Với sự phản hồi của khách hàng đối với các sản phẩm hiện có và các sản phẩmmới, các ngân hàng sẽ có các chiến lược quảng bá sản phẩm, nâng cao chất lượng sản phẩm và dịch vụ và đạt được lợi thế cạnh tranh Phân tích ngân hàng cũng

Trang 29

có thể phân tích các xu hướng trong quá khứ, xác định nhu cầu hiện tại và dự báo hành vi khách hàng các sản phẩm và dịch vụ khác nhau để thu các cơ hội kinh doanh hơn và dự đoán mô hình hành vi Kỹ thuật khai thác dữ liệu cũng giúp xác định khách hàng nào sẽ mang lại lợi nhuận và khách hàng nào không mang lại lợi nhuận Các kỹ thuật khai phá dữ liệu có thể được sử dụng để xác định phản ánh của khách hàng như thế nào khi ngân hàng thực hiện điều chỉnh lãi suất

1.4.2 Quản lý rủi ro

Khai phá dữ liệu được sử dụng rộng rãi để quản lý rủi ro trong ngành công nghiệp ngân hàng Giám đốc điều hành ngân hàng cần phải biết rằng các khách hàng mà họ đang có liệu đáng tin cậy hay không Khi cung cấp thẻ tín dụng mới cho khách hàng, mở rộng số lượng khách hàng hiện tại của tín dụng

và phê duyệt các khoản vay, họ có thể ra các mang lại sự quyết định rủi ro cho các ngân hàng nếu họ không biết bất cứ điều gì về khách hàng của họ Ngân hàng tiến hành quá trình cho các khách hàng của mình vay vốn bằng cách kiểm tra các chi tiết khác nhau liên quan đến việc cho vay như số tiền vay, lãi suất cho vay, kỳ hạn trả nợ, loại tài sản thế chấp,tình hình nhân sự, thu nhập và lịch sử tín dụng của họ Khách hàng dài hạn với ngân hàng, với các nhóm thu nhập cao có thể nhận được các khoản vay rất dễ dàng Mặc dù, các ngân hàng đã thận trọng trong khi cung cấp vốn vay cho khách hàng, nhưng vẫn có những khoản nợ mặc định của khách hàng Kỹ thuật khai phá

dữ liệu giúp phân biệt người trả nợ kịp thời với những người không có khả năng trả nợ kịp thời

Trên thực tế điểm tín dụng là một trong những công cụ quản lý rủi ro tài chính đầu tiên được phát triển Điểm tín dụng có thể có giá trị cho người cho vay trong ngành ngân hàng khi đưa ra những quyết định cho vay Khai phá dữ liệu cũng có thể tìm ra được hành vi tín dụng của từng khách hàng cá nhân

Trang 30

với các khoản vay trả góp, thế chấp, tín dụng, bằng việc sử dụng các đặc điểm như lịch sử tín dụng, thời gian làm việc và thời gian cư trú, như vậy đã cho phép một người cho vay đánh giá khách hàng và quyết định khách hàng đó có

là một ứng cử viên tốt cho một khoản vay, hoặc nếu có nguy rủi ro nào tiềm

ẩn Khi biết được những gì là cơ hội sẵn có của một khách hàng, tức là khi đó các ngân hàng đang ở trong một vị trí tốt hơn để giảm thiểu rủi ro

1.4.3 Phát hiện gian lận

Một lĩnh vực khác trong khai phá dữ liệu có thể được sử dụng trong ngành công nghiệp ngân hàng là việc phát hiện gian lận Có thể phát hiện các hành động gian lận là một mối quan tâm ngày càng tăng cho nhiều doanh nghiệp, và với sự giúp đỡ của kỹ thuật khai phá dữ liệu các hành động gian lận ngày càng được phát hiện nhiều hơn Có hai phương pháp tiếp cận phổ biến đã được phát triển bởi tổ chức tài chính để phát hiện các mô hình gian lận Phương pháp tiếp cận thứ nhất, một ngân hàng cần phải sử dụng đến kho

dữ liệu của bên thứ ba và sử dụng các kỹ thuật khai phá dữ liệu để xác định

mô hình gian lận Sau đó, các ngân hàng có thể tham chiếu chéo những mẫu với cơ sở dữ liệu riêng của mình Phương pháp thứ hai, gian lận được nhận dạng mẫu dựa trên các mẫu thong tin nội bộ riêng của mình mà không phải nhờ vào bên thứ ba Tuy nhiên, trên thực tế hầu hết các ngân hàng đang sử dụng kết hợp cả hai phương pháp tiếp cận trên

1.4.4 Quản trị quan hệ khách hàng

Trong thời đại cạnh tranh khốc liệt ngày nay nói chung, đặc biệt là trong ngành ngân hàng thì khách hàng được coi là thượng đế Khai phá dữ liệu là rất hữu ích trong tất cả ba giai đoạn trong một chu kỳ mối quan hệ khách hàng: Tìm kiếm khách hàng, tăng giá trị của khách hàng và duy trì khách hàng Tìm kiếm khách hàng, chăm sóc và duy trì những khách hàng đã

có là mối quan tâm rất quan trọng đối với một lĩnh vực kinh doanh nào, đặc

Trang 31

biệt là lĩnh vực ngân hàng

Ngày nay, khách hàng có nhiều sự lựa chon bởi nhiều loại sản phẩm và dịch vụ được cung cấp bởi các ngân hàng khác nhau Do đó, các ngân hàng phải đáp ứng nhu cầu của khách hàng bằng cách cung cấp các sản phẩm và dịch vụ mà họ ưa thích Điều này sẽ dẫn đến sự trung của khách hàng và khả năng giữ khách hàng của các ngân hàng Kỹ thuật khai phá dữ liệu giúp ngân hàng phân tích và nhận định được đâu là các khách hàng trung thành và đâu là các khách hàng có xu hương chuyển sang ngân hàng khác với mong muốn dịch vụ tốt hơn Nếu khách hàng chuyển từ ngân hàng của mình sang ngân hàng khác, lý do cho việc chuyển như vậy và giao dịch cuối cùng được thực hiện trước khi chuyển có thể được biết đó sẽ giúp các ngân hàng hoạt động tốt hơn và giữ chân khách hàng của mình

1.5 KẾT LUẬN

Trong chương này, luận văn đã giới thiệu tổng quan về khai phá

dữ liệu, ứng dụng của khai phá dữ liệu, một số phương pháp khai phá dữ liệu thông dụng Trong chương sau, luận văn sẽ trình bày nội dung lý thuyết và ứng dụng của thuật toán khai phá dữ liệu thông dụng : Thuật toán cây quyết định ID3 Đó là một thuật toán được ứng dụng để khai phá dữ liệu trong các lĩnh vực khác nhau, đặc biệt trong lĩnh vực ngân hàng

Trang 32

CHƯƠNG 2 CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU

Hiện nay có nhiều kỹ thuật phân lớp dữ liệu, trong đó phân lớp bằng cây quyết định là một phương pháp phổ biến Cây quyết định (decision tree)

là một phương pháp khai phá dữ liệu rất mạnh và phổ biến trong nhiệm vụ phân loại và dự báo Tạo cây quyết định là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự đoán cho nhà quản lý, kinh doanh ra quyết định để thực hiện chiến lượt kinh doanh cũng như quản lý của mình một cách có hiệu quả

2.1 TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC THEO CÂY QUYẾT ĐỊNH

2.1.1 Giới thiệu chung

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị

dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định[6]

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay

Trang 33

khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại

Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện

Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập

2.1.2 Các kiểu cây quyết định

Cây quyết định còn có hai tên khác:

 Cây hồi quy (Regression tree): ước lượng các hàm giá có giá trị là

số thực thay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)

 Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua)

2.1.3 Ưu điểm cây quyết định

So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm:

Trang 34

 Cây quyết định dễ hiểu Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn

 Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng

 Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu

có giá trị là tên thể loại Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến Chẳng hạn, các luật quan

hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số

 Cây quyết định là một mô hình hộp trắng Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean Mạng nơ-ron là một ví dụ về

mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được

 Có thể thẩm định một mô hình bằng các kiểm tra thống kê Điều này làm cho ta có thể tin tưởng vào mô hình

 Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định

Trang 35

2.2 CÁC THUẬT TOÁN

2.2.1 Thuật toán CLS

Thuật toán này được Holland và Hint giới thiệu trong Concept learning System (CLS) vào những năm 50 của thế kỷ 20[4] Thuật toán CLS được thiết

kế theo chiến lược chia để trị từ trên xuống Nó gồm các bước sau:

1 Tạo một nút T, nút này gồm tất cả các mẫu của tập huấn luyện

2 Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "yes" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "yes" và dừng lại T lúc này là nút lá

3 Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "no" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "no" và dừng lại T lúc này là nút lá

4 Trường hợp ngược lại các mẫu của tập huấn luyện thuộc cả hai lớp

 Tạo n nút con T; (i=1,2.n) với nút cha là nút T

 Tạo các nhánh nối từ nút T đến các nút T; (i=1,2.n) là các thuộc tính của X

5 Thực hiện lặp cho các nút con T:(i =1,2 n) và quay lại bước 2

Ta nhận thấy trong bước 4 của thuật toán, thuộc tính được chọn để triển khai cây là tuỳ ý Do vậy cùng với một tập mẫu dữ liệu huấn luyện nếu áp dụng thuật toán CLS với thứ tự chọn thuộc tính triển khai cây khác nhau, sẽ

Trang 36

cho ra các cây có hình dạng khác nhau Việc lựa chọn thuộc tính sẽ ảnh hưởng tới độ rộng, độ sâu, độ phức tạp của cây Vì vậy một câu hỏi đặt ra là thứ tự thuộc tính nào được chọn để triển khai cây sẽ là tốt nhất Vấn đề này sẽ được giải quyết trong thuật toán ID3 dưới đây

2.2.2 Thuật toán ID3

Thuật toán ID3 được phát biểu bởi Quinlan (trường đại học Syney, Australia) và được công bố vào cuối thập niên 70 của thế kỷ 20[4] Sau đó, thuật toán ID3 được giới thiệu và trình bày trong mục Induction on decision trees, machine learning năm 1986 ID3 được xem như là một cải tiến của CLS với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bước ID3 xây dựng cây quyết định từ trên- xuống (top -down)

- Với việc tính toán giá trị Gain để lựa chọn thuộc tính tối ưu cho việc triển khai cây, thuật toán ID3 được xem là một cải tiến của thuật toán CLS Tuy nhiên thuật toán ID3 không có khả năng xử lý đối với những dữ liệu có

chứa thuộc tính số - thuộc tính liên tục (numeric attribute) và khó khăn trong việc xử lý các dữ liệu thiếu (missing data) và dữ liệu nhiễu (noisy data) Vấn đề

này sẽ được giải quyết trong thuật toán C4.5 sau đây

2.2.3 Thuật toán C4.5

- Thuật toán C4.5 do Quinlan phát triển vào năm 1996[1][2][3][4] Thuật toán C4.5 là một thuật toán được cải tiến từ thuật toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính số (numeric atributes) và và làm việc được với tập dữ liệu bị thiếu và bị nhiễu Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược ưu tiên theo chiều sâu (Depth - First) Thuật toán xét tất cả các phép thử có thể để phân chia tập dữ liệu đã cho và chọn ra một phép thử có giá trị GainRatio tốt nhất GainRatio là một đại lượng để đánh giá độ hiệu quả của thuộc tính dùng để thực hiện phép tách trong thuật toán

Trang 37

để phát triển cây quyết định GainRatio được tính dựa trên kết quả tính toán đại lượng Information Gain theo công thức sau:

( , )( , )

( , )

Gain X T GainRation X T

SplitInfo X T

Với:

2 ( )

Value(X) là tập các giá trị của thuộc tính X

Ti là tập con của tập T ứng với thuộc tính X = giá trị là vi

Đối với các thuộc tính liên tục, chúng ta tiến hành phép thử nhị phân cho mọi giá trị của thuộc tính đó Để thu thập được giá trị Entropy gain của tất cả các phép thử nhị phân một cách hữu hiệu ta tiến hành xắp xếp các dữ liệu theo giá trị của thuộc tính liên tục đó bằng thuật toán Quicksort

Thuật toán xây dựng cây quyết định C4.5

Mô tả thuật toán dưới dạng giả mã như sau:

Function xay_dung_cay(T)

{

1 <Tính toán tần xuất các giá trị trong các lớp của T>;

2 If <Kiểm tra các mẫu, nếu thuộc cùng một lớp hoặc có rất ít mẫukhác lớp>Then <Trả về 1 nút lá>

Else <Tạo một nút quyết định N>;

Trang 38

3 For <Với mỗi thuộc tính A> Do <Tính giá trị Gain(A)>;

4 <Tại nút N, thực hiện việc kiểm tra để chọn ra thuộc tính có giá trị Gain tốt nhất (lớn nhất) Gọi N.test là thuộc tính có Gain lớn nhất>;

5 If <Nếu N.test là thuộc tính liên tục> Then <Tìm ngưỡng cho phép tách của N.test>;

6 For <Với mỗi tập con T được tách ra từ tập T> Do

( T' được tách ra theo quy tắc:

- Nếu N.test là thuộc tính liên tục tách theo ngưỡng ở bước 5

- Nếu N.test là thuộc tính phân loại rời rạc tách theo các giá trị

của thuộc tính này

)

7 { If <Kiểm tra, nếu T rỗng>} Then

<Gán nút con này của nút N là nút lá>;

Trang 39

(2.8) đƣợc sử dụng làm tiêu chuẩn để lựa chọn thuộc tính khi phân lớp Thuộc tính đƣợc chọn là thuộc tính có giá trị Gain tính theo (2.8) đạt giá trị lớn nhất[12]

Một số cài tiến của thuật toán C4.5:

1 Làm việc với thuộc tính đa trị

Tiêu chuẩn (2.8) có một khuyết điểm là không chấp nhận các thuộc tính đa trị Vì vậy thuật toán C4.5 đã đƣa ra các đại lƣợng GainRatio và SplitInfo (SplitInformation), chúng đƣợc xác định theo các công thức sau:

| |

j

freq C T P

S

2 1

( )

Gain X GainRatio X

SplitInfo X

Giá trị SplitInfo là đại lƣợng đánh giá thông tin tiềm năng thu thập đƣợc khi phân chia tập T thành n tập hợp con GainRatio là tiêu chuẩn để đánh giá việc lựa chọn thuộc tính phân loại

Trang 40

2 Làm việc với dữ liệu bị thiếu

Thuật toán vừa xây dựng dựa vào giả thuyết tất cả các mẫu dữ liệu có

đủ các thuộc tính Nhưng trong thực tế, xẩy ra hiện tượng dữ liệu bị thiếu, tức là ở một số mẫu dữ liệu có những thuộc tính không được xác định, hoặc mâu thuẫn, hoặc không bình thường Ta xem xét kỹ hơn với trường hợp dữ liệu bị thiếu Đơn giản nhất là không đưa các mẫu với các giá trị bị thiếu vào, nếu làm như vậy thì có thể dẫn đến tình trạng thiếu các mẫu học Giả

sử T là một tập hợp gồm các mẫu cần được phân loại, X là phép kiểm tra theo thuộc tính L, U là số lượng các giá trị bị thiếu của thuộc tính L Khi

đó ta có

2 1

Giả sử phép thử X có các giá trị Ol,O2, On được lựa chọn theo tiểu chuẩn (2.13), ta cần xử lý như thế nào với các dữ liệu bị thiếu Giả sử mẫu từ tập

Ngày đăng: 24/04/2022, 15:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] G.piatctsky - Shapiro and W.J.Frawlcy, Knowledge Discovery in Databases.: AAAI/MIT Press, 1991 Sách, tạp chí
Tiêu đề: Knowledge Discovery in Databases
[2] Ho Tu Bao, Introdution to Knowledge Discover and Data Mining.: Institute of Information Technology, 2008 Sách, tạp chí
Tiêu đề: Introdution to Knowledge Discover and Data Mining
[3] Jaiwei and Micheline Kamber, Data Mining: Concepts and Techniques, ISBN 1-55860-489-8, Ed., 2001 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
[4] Amos Storkey, Slide Learning from Data: Decision trees.: School of informatics university of Edinburgh, 2004 Sách, tạp chí
Tiêu đề: Slide Learning from Data: Decision trees
[5] C.R.Rao, Vivekchan Reddy Ramadevi Yellasiri, Decision Tree Induction Using Rough Set Theory - Comparative Study.: Journal of Theoretical and Applied Information Technology, pp. 110-114, 2007 Sách, tạp chí
Tiêu đề: Decision Tree Induction Using Rough Set Theory - Comparative Study
[6] Wikipedia, Bách khoa toàn thư mở - Cây quyết định: https://vi.wikipedia.org/wiki/Cây_quyết_định Sách, tạp chí
Tiêu đề: Bách khoa toàn thư mở - Cây quyết định
[7] NingZhong Andrzej Skowron, Rough Sets in KDD.: Tutorial Notes, 2000 Sách, tạp chí
Tiêu đề: Rough Sets in KDD
[8] Minghe Huang, Bin Guo, Zhimming Zhang Longjun Huang, A New Method fos Constructing Decision Tree Based on Rough Set., 2007 Sách, tạp chí
Tiêu đề: A New Method fos Constructing Decision Tree Based on Rough Set
[9] Thomas, Data mining: Definittions and decision tree examples.: State university of New York, 2004 Sách, tạp chí
Tiêu đề: Data mining: Definittions and decision tree examples

HÌNH ẢNH LIÊN QUAN

DANH MỤC CÁC HÌNH - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
DANH MỤC CÁC HÌNH (Trang 9)
bảng Tên bảng/ hình vẽ Trang - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
b ảng Tên bảng/ hình vẽ Trang (Trang 9)
Hình 1.1: Quá trình phát hiện tri thức trong CSDL - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 1.1 Quá trình phát hiện tri thức trong CSDL (Trang 15)
Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 1.2 Kiến trúc điển hình của hệ thống khai phá dữ liệu (Trang 16)
Hình 1. 3: Quá trình phân lớp dữ liệu - (a) Bƣớc xây dựng mô hình phân lớp Bƣớc thứ hai (Classification) - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 1. 3: Quá trình phân lớp dữ liệu - (a) Bƣớc xây dựng mô hình phân lớp Bƣớc thứ hai (Classification) (Trang 21)
Hình 1.5: Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 1.5 Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới (Trang 22)
Hình 1.4: Quá trình phân lớp dữ liệu - (b1)Ƣớc lƣợng độ chính xác của mô hình - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 1.4 Quá trình phân lớp dữ liệu - (b1)Ƣớc lƣợng độ chính xác của mô hình (Trang 22)
Các kỹ thuật phân cụm đƣợc phân loại nhƣ sau (xem hình) - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
c kỹ thuật phân cụm đƣợc phân loại nhƣ sau (xem hình) (Trang 24)
Bảng 3.1: Bảng dữ liệu quyết định cho vay vốn - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Bảng 3.1 Bảng dữ liệu quyết định cho vay vốn (Trang 55)
Hình 3.1: Cây quyết định biểu diễn thuộc tính quyết định cho vay Các nút trong cây quyết định biểu diễn cho một sự kiểm tra trên một  thuộc  tính  nào  đó,  mỗi  giá  trị  có  thể  có  của  thuộc  tính  đó  tƣơng  ứng  với  một  nhánh  của  cây - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 3.1 Cây quyết định biểu diễn thuộc tính quyết định cho vay Các nút trong cây quyết định biểu diễn cho một sự kiểm tra trên một thuộc tính nào đó, mỗi giá trị có thể có của thuộc tính đó tƣơng ứng với một nhánh của cây (Trang 57)
Hình 3.4: Hình cây quyết định cho vay vốn If (Tài sản thế chấp=có) Then Cho vay = Yes - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 3.4 Hình cây quyết định cho vay vốn If (Tài sản thế chấp=có) Then Cho vay = Yes (Trang 65)
Mô hình thực nghiệm của chƣơng trình hệ thống quyết định cho vay vốn ngân hàng. - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
h ình thực nghiệm của chƣơng trình hệ thống quyết định cho vay vốn ngân hàng (Trang 67)
3.3.3. Đặc tả dữ liệu - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
3.3.3. Đặc tả dữ liệu (Trang 69)
Bảng 3.2: Bảng thuộc tính tập dữ liệu ngân hàng - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Bảng 3.2 Bảng thuộc tính tập dữ liệu ngân hàng (Trang 69)
Hình 3.6: Giao diện nạp dữ liệu vào hệ thống - Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
Hình 3.6 Giao diện nạp dữ liệu vào hệ thống (Trang 70)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w