1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình

26 248 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 537,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN TRẦN SỸ ỨNG DỤNG KHAI PHÁ TRI THỨC XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH Chuyên ngành : Khoa

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

NGUYỄN TRẦN SỸ

ỨNG DỤNG KHAI PHÁ TRI THỨC XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH

Chuyên ngành : Khoa học máy tính

Trang 2

Công trình được hoàn thành tại

ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH

Phản biện 1: GS.TSKH TRẦN QUỐC CHIẾN

Phản biện 2: GS.TS NGUYỄN THANH THỦY

Luận văn được bảo vệ tại Hội đồng chấm luận văn tốt nghiệp Thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 28 tháng 12 năm 2013

* Có thể tìm hiểu luận văn tại:

Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng

Header Page 2 of 126.

Trang 3

1

MỞ ĐẦU

1 Giới thiệu và lý do chọn đề tài

ph t tri n c a công nghệ thông tin đ mang lại cho nh n loại nhi u tiện lợi và gi p giải uy t nh ng công việc tư ng ch ng như con người không th giải uy t được Trong đ , khai ph tri th c trong cơ s d liệu đang là một xu hướng uan trọng c a n n Công nghệ thông tin th giới N c khả năng ng dụng vào rất nhi u lớp bài to n th c t kh c nhau Bước uan trong nhất c a u trình này

là khai ph tri th c t d liệu, gi p con người thu được nh ng tri

th c h u ích t nh ng cơ s d liệu hoặc c c nguồn d liệu khổng lồ khác Một số ít ng n hàng thương mại, doanh nghiệp và tổ ch c trên

th giới đ ng dụng kỹ thuật khai ph tri th c t d liệu vào các hoạt động tín dụng đ ph t tri n sản xuất và kinh doanh, đ và đang thu được nh ng lợi ích to lớn

Hiện nay, việc ng dụng công nghệ thông tin trong nhi u lĩnh

v c c a đời sống, kinh t x hội trong nhi u năm ua cũng đồng nghĩa với lượng d liệu đ được c c cơ uan, các tổ ch c tín dụng thu thập và lưu tr ngày một tích luỹ nhi u lên Người ta lưu tr c c

d liệu này vì cho rằng trong n ẩn ch a nh ng gi trị nhất định nào

đ Tuy nhiên, theo thống kê thì chỉ c một lượng nhỏ c a nh ng d liệu này (khoảng t 20% đ n 25%) là luôn được ph n tích, số còn lại người ta không bi t sẽ phải làm gì hoặc c th làm gì với ch ng nhưng vẫn phải ti p tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ

c c i gì đ uan trọng đ bị bỏ ua sau này c l c cần đ n n Mặt

kh c, trong môi trường cạnh tranh khốc liệt như hiện nay và s xuất hiện nhi u nhi u ng n hàng thương mại và n n kinh t đang c chuy n bi n xấu và đầy ph c tạp, nhân viên ngân hàng ngày càng cần c nhi u thông tin với tốc độ nhanh đ trợ gi p việc ra uy t định và ngày càng c nhi u c u hỏi mang tính chất định tính cần phải

Header Page 3 of 126.

Footer Page 3 of 126.

Trang 4

2

trả lời d a trên một khối lượng d liệu khổng lồ đ c Việc ng dụng công nghệ thông tin trong ng n hàng đang rất cần thi t, đặc biệt

là ng dụng khai ph tri th c t d liệu

uất ph t t th c t và nhu cầu n m b t, trang bị hạ tầng v công nghệ thông tin c a cơ uan, tổ ch c đ hiện đại ho công việc,

gi p giải uy t nhanh ch ng, n ng cao hiệu uả và d b o chính x c trong công việc nhất là trong lĩnh v c kinh doanh, thương mại điện

t trong vấn đ trợ gi p thẩm định vay vốn tại ng n hàng T lý do

đ , tôi chọn đ tài: Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình

Đ nghiên c u làm luận văn tốt nghiệp cao học ngành hoa học m y tính Trong đ , tập trung vào nghiên c u kỹ thuật mạng Nơ-ron, p dụng trong việc khai ph tri th c t d liệu đ giải uy t bài toán

2 Mục tiêu và nhiệm vụ

Mục tiêu c a đ tài tìm hi u c c khai ph tri th c trong lĩnh

v c hoạt động thẩm định vay vốn tại ng n hàng, đặc biệt là vấn đ ra

uy t định trong hoạt động thẩm định tín dụng đạt k t uả ra sao Nhiệm vụ cơ bản c a nghiên c u: (1) Thu thập và ph n tích d liệu tri tr c v tình hình kh ch hàng được thẩm định; (2) Tìm hi u bài to n th c t : Thẩm định hoạt động vay vốn ng n hàng; (3) Tìm

hi u tổng tổng uan v c c kỷ thuật khai ph tri th c; (4) Tìm hi u

cơ s lý thuy t khai ph luật k t hợp, kỷ thuật mạng Nơ-ron; (5) Xây

d ng mô hình và ph n tích thi t k hệ thống trợ giúp d b o thẩm định vay vốn trong ng n hàng

3 Đối tượng và phạm vi nghiên cứu

Đối tượng ch y u đ nghiên c u luật k t hợp và kỹ thuật mạng Nơ-ron, c c thuật to n học c a mạng Nơ-ron, đặc biệt là thuật

Header Page 4 of 126.

Trang 5

3

to n lan truy n ngược (Back propagation algorithm) Ngoài ra, cũng

cần phải n m được c c kỹ thuật lập trình cơ bản trên n n indo

4 Phương pháp nghiên cứu

Thu thập, ph n tích c c tài liệu và thông tin liên uan đ n đ

tài; em xét, l a chọn phương hướng giải uy t vấn đ ; y d ng

mô hình theo lý thuy t; Tri n khai x y d ng chương trình ng dụng

trên m y tính; i m tra, th nghiệm và đ nh gi k t uả

5 Ý nghĩa khoa học và thực tiễn của đề tài

Ý nghĩa khoa học c a đ tài là nghiên c u và ph t tri n một

mô hình khai ph d liệu nhằm d b o độ r i ro trong việc phê duyệt

đơn vay tín dụng c a ng n hàng, d a trên kỹ thuật mạng Nơ-ron

Việc d b o c c k t uả sẽ h trợ, trợ gi p cho nhà uản lý trong

việc ra c c uy t định tối ưu

Bố cục của lu n v n

Luận văn bao gồm c c phần như sau:

M đ u

Chương 1:

Nêu tổng uan v khai ph tri th c t d liệu Các kỹ thuật

mạng ron trong khai ph d liệu, c c thuật to n trong mạng

Nơ-ron, cũng như c c lĩnh v c ng dụng

Chương 2:

Ph n tích bài to n iới thiệu bài to n, nêu lên bài to n cụ th

và x y d ng mô hình tổng u t cho bài to n, giải ph p giải uy t bài

toán

Chương 3:

y d ng hệ thống trợ gi p thẩm định vay vốn ng n hàng Tạo

bộ d liệu mẫu v d liệu đầu vào, d liệu c a tập huấn luyện, tập

ki m th , vận hành mạng và cho ra k t uả th nghiệm Trên cơ s

đ đưa ra c c đ nh gi v giải ph p c a đ tài trong việc ng dụng

Header Page 5 of 126.

Footer Page 5 of 126.

Trang 6

4

th c ti n c a vấn đ cũng như c nh ng so s nh với c c giải ph p

kh c t luận c a đ tài v c c mặt làm được, khả năng ng dụng,

nh ng ưu và nhược đi m và hướng ph t tri n trong tương lai

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC

Ph t hiện tri th c là kh i niệm ra đời vào nh ng năm cuối c a thập kỷ 80 và đ tr thành một lĩnh v c được nguyên c u rộng r i trên toàn cầu ra đời c a ph t hiện tri th c là s k t hợp k t uả nguyên c u c a nhi u ngành khoa học kh c lại với nhau như: Quản trị cơ s d liệu, học m y, thống kê …

1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC

Th c chất đ là u trình tìm ki m nh ng thông tin c trong

cơ s d liệu nhưng bị che giấu trong c c khối d liệu

Tri th c đ y c th được hi u là một bi u th c trong một ngôn ng C c ngôn ng thường dùng đ di n tả tri th c trong việc

bi u di n tri th c trong u trình ph t hiện tri th c t cơ s dư liệu là

c c khung (frames), c c c y và đồ thị, c c luật, c c công th c trong logic mệnh đ hoặc logic t n t cấp một

Việc khai ph tri th c thường được p dụng đ giải uy t một loạt nh ng y u cầu phục vụ nh ng mục đích nhất định Vì vậy, u trình ph t hiện tri th c là một hoạt động tương t c gi a một người s dụng hoặc một chuyên gia ph n tích với c c công cụ tin học

1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC

Qu trình khai ph tri th c, t nh ng cơ s d liệu th c t sau một hoặc một số bước c a u trình sẽ r t ra được nh ng tri th c mới C c bước trong u trình này c th lặp đi lặp lại nhi u lần và được mô tả theo hình sau:

Header Page 6 of 126.

Trang 7

5

Hình 1.1 ơ đồ mô tả u trình khai ph tri th c

1.4 MÔ HÌNH KHAI PHÁ TRI THỨC

Hình 1.2 Mô hình khai ph tri th c

Trang 8

6

1.5 KHO DỮ LIỆU (DATA WAREHOUSE)

Là c c cơ s d liệu tích hợp, hướng theo c c ch đ nhất định, được thi t k đ h trợ cho ch c năng trợ gi p uy t định, mà

m i đơn vị d liệu liên uan đ n một khoảng thời gian cụ th

ho d liệu thường c dung lượng rất lớn, thường là hàng igabytes hay c khi tới hàng Terabytes ho d liệu được x y d ng

đ tiện lợi cho việc truy cập t nhi u nguồn, nhi u ki u d liệu kh c nhau sao cho c th k t hợp được cả nh ng ng dụng c a c c công nghệ hiện đại và v a c th k th a được t c c hệ thống đ c t trước D liệu được ph t sinh t c c hoạt động hàng ngày và được thu thập x lý đ phục vụ công việc nghiệp vụ cụ th c a một tổ

ch c, vì vậy thường được gọi là d liệu t c nghiệp và hoạt động x

lý d liệu này gọi là xử lý giao dịch trực tuyến (OLPT - On Line Transaction Processing)

1.6 LUẬT KẾT HỢP

Nhằm ph t hiện ra c c Luật k t hợp gi a c c thành phần d

liệu trong cơ s d liệu C c luật k t hợp c th là một c ch hình

th c h a đơn giản Ch ng rất thích hợp cho việc tạo ra c c k t uả c

d liệu dạng nhị ph n iới hạn cơ bản c a phương ph p này là

ch c c uan hệ cần phải thưa theo nghĩa không c tập thường xuyên nào ch a nhi u hơn 15 thuộc tính iải thuật tìm ki m c c luật k t hợp tạo ra số luật ít nhất phải bằng với số c c tập phổ bi n và n u như một tập phổ bi n c kích thước thì phải c ít nhất là 2 tập phổ bi n Thông tin v c c tập phổ bi n được s dụng đ ước lượng

độ tin cậy c a c c tập luật k t hợp

1.6.1 Lý thuyết về lu t kết hợp

1.6.2 Định nghĩa lu t kết hợp

Mà c c luật đ u phải thoả m n một ngưỡng h trợ và tin cậy

cụ th Th c vậy, cho một tập c c giao dịch D, bài to n ph t hiện luật

Header Page 8 of 126.

Trang 9

7

k t hợp là sinh ra tất cả c c luật k t hợp mà c độ tin cậy conf lớn hơn độ tin cậy tối thi u mincon và độ h trợ sup lớn hơn độ h trợ tối thi u minsup tương ng do người dùng x c định hai ph luật k t hợp được ph n thành hai bài to n

1.6.3 Một số tính chất liên quan đến các hạng mục phổ biến (frequent itemset)

Tính chất 1: Độ h trợ (support) cho tất cả c c tập con

(subset)

Tính chất 2: N u một mục trong A không c độ h trợ tối

thi u trên D nghĩa là support(A)< minsup thì một tập con B c a A sẽ không phải là một tập phổ bi n vì support(B) ≤ support(A) <

minsup

Tính chất 3: N u mục B là mục phổ bi n trên D, nghĩa là

support(B) ≥ minsup thì mọi tập con A c a B là tập phổ bi n trên D

vì support(A) ≥ support(B) > minsup

1.6.4 Một số hướng tiếp c n trong khai phá lu t kết hợp

Luật k t hợp nhị ph n (binary association rule hoặc boolean association rule); Luật k t hợp c thuộc tính số và thuộc tính hạng mục ( uantitative and categorial association rule); Luật k t hợp ti p cận theo hướng tập thô (mining association rules base on rough set): Tìm ki m luật k t hợp d a trên lý thuy t tập thô

1.6.5 Phát biểu bài toán phát hiện lu t kết hợp

ét ví dụ đối tượng trong giao dịch cho vay khách hàng tại đơn vị Tập c c giao dịch ( đ y coi là tập c c mục) I = {khá, tốt, trung bình, xấu} và số c c đối tượng cho vay là 4 giao dịch (|T| = 4), trong đ T = {1, 2, 3, 4} – ký hiệu c c giao dịch TID

1.6.6 Phát hiện lu t kết hợp dựa trên hệ thông tin nhị phân

Header Page 9 of 126.

Footer Page 9 of 126.

Trang 10

8

Hệ thông tin nhị ph n; Tập chỉ b o phổ bi n nhị ph n; C c luật

k t hợp phổ bi n nhị ph n và hệ số tin cậy; C c vectơ chỉ b o nhị; phân và các phép toán; Tích vectơ chỉ b o nhị ph n; Độ h trợ c c

vectơ chỉ b o nhị ph n

1.6.7 Thu t toán phát hiện t p chỉ báo và lu t kết hợp nhị phân

Thuật to n Apriori-Tid có hai pha

1.6.8 Khai phá lu t kết hợp trên hệ thông tin mờ

1.7 MẠNG NEURON

ỹ thuật mạng Nơ-ron là kỹ thuật mới liên uan đ n việc ph t tri n c c cấu tr c to n học với khả năng học Mạng Nơ-ron c th đưa ra ý nghĩa t d liệu ph c tạp nhi u chi u và ph t hiện xu hướng

c a d liệu mà c c kỹ thuật kh c không th th c hiện được Mạng Nơ-ron c khả năng mô hình ho nh ng d liệu ph c tạp và nhi u chi u hi d liệu tăng lên, c c kỹ thuật truy n thống kh c c th không giải uy t được, nhưng mạng Nơ-ron c khả năng giải uy t tốt

1.7.1 Khái niệm mạng Nơ-ron

Trang 11

9

1.7.3 Mạng Nơ-ron phản hồi

Tùy sơ đồ k t nối mà mạng c th là mạng truy n thẳng (feed for ard) hoặc phản hồi (recurrent) c c đường k t nối là đối x ng hoặc không đối x ng Mạng phản hồi c đường nối phản hồi hoặc c

chu trình gi a c c n t au đ y là cấu tr c c a một mạng phản hồi:

Hình 1.4 Cấu tr c mạng Nơ-ron phản hồi

1.7.4 Giải pháp k thu t của mạng Nơ-ron

Mạng Nơ-ron được hi u theo c hai khía cạnh: tính to n và học Phần tính to n được th c hiện theo th t Phần học thì được

th c hiện ngược lại: với số liệu tính to n đầu ra không khớp với mục tiêu, sai số này sẽ làm cơ s đ thay đổi c c trọng số n t xuất, sau đ được lan truy n đ thay đổi trọng số c c n t ẩn Qu trình này được

th c hiện nhi u lần cho đ n khi k t xuất c a mạng ti n gần đ n mục tiêu đ ra

1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON

Header Page 11 of 126.

Footer Page 11 of 126.

Trang 12

10

Mạng một nút nhập, một nút xuất

Mạng hai nút nhập

Mạng nhiều nút nhập

Lan truyền tiến

hi luyện mạng, lan truy n ti n được s dụng lặp đi lặp lại t mẫu này đ n mẫu kh c cho đ n khi c c trọng số đạt được gi trị thích hợp hi s dụng, lan truy n ti n được s dụng một lần cho t ng trường hợp nhập vào

1.8.3 Sự chuẩn bị và học dữ liệu

Học là một trong nh ng đặc tính uan trọng nhất c a mạng

N chỉ ra c ch đi u chỉnh trọng số trong u trình học Trong u trình học, ta cần bi t m c tích c c th c t so s nh với m c tích c c mong muốn đ tính sai số ai số này s dụng đ đi u chỉnh trọng số

c a mạng

Trong mô hình mạng Nơ-ron thì việc x c định sai số ít nhất là rất kh Phương ph p giảm gradient thường được s dụng trong c c

trường hợp này Phương ph p xem E là một mặt l i và x c định c c

trọng số ua c c bước chính như sau: (1) Chọn một đi m ngẫu nhiên

x 0 trong không gian trọng số; (2) Tính độ dốc c a mặt l i tại x 0; (3) Cập nhật c c trọng số theo hướng dốc nhất c a mặt l i; (4) Xem

đi m này như đi m x 0 mới; (5) Lặp đi lặp lại u trình t (2) đ n (4) thì đ n một l c nào đ c c gi trị c a bộ trọng số sẽ ti p cận đ n

Trang 13

b Tri thức a l p và Lan truyền ngư c

c Radial Basic Fuction Networks

Một ki n tr c mạng Nơ-ron phổ bi n kh c đang được s dụng

i u mạng này được gọi là mạng radial basic function (RBF)

d Mạng v c tơ h tr ch ph n l p

Trường hợp phân tuyến dữ liệu

Trường hợp không phân tuyến dữ liệu

Ph n thủ thu t (kernel trick

Chọn lựa của các tham số kernel

Mạng v c tơ h trợ cho việc học c ưu tiên

Vấn đề học c ưu tiên

Công thức của vấn đề

Mô hình tiện ích ẩn

Mô hình tuyến tính của tiện ích ẩn

Mô hình phi tuyến tính của tiện ích ẩn

Ứng dụng kinh tế

1.1 SỰ KẾT HỢP CỦA CÁC KỸ THUẬT

C c kỹ thuật khai ph d liệu đ u c nh ng ưu và nhược đi m

c a riêng n , chẳng hạn mạng Nơ-ron rất hiệu uả trong việc p dụng khai ph d liệu d đo n cho k t uả tốt mà c c kỹ thuật kh c không th làm được Tuy nhiên, việc học c a mạng d liệu này là rất tốn thời gian, do đ , cần c s k t hợp gi a c c kỹ thuật này với nhau k t hợp này được th hiện như hình dưới đ y:

Header Page 13 of 126.

Footer Page 13 of 126.

Ngày đăng: 29/04/2017, 21:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w