BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN TRẦN SỸ ỨNG DỤNG KHAI PHÁ TRI THỨC XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH Chuyên ngành : Khoa
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG
NGUYỄN TRẦN SỸ
ỨNG DỤNG KHAI PHÁ TRI THỨC XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH
Chuyên ngành : Khoa học máy tính
Trang 2Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH
Phản biện 1: GS.TSKH TRẦN QUỐC CHIẾN
Phản biện 2: GS.TS NGUYỄN THANH THỦY
Luận văn được bảo vệ tại Hội đồng chấm luận văn tốt nghiệp Thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 28 tháng 12 năm 2013
* Có thể tìm hiểu luận văn tại:
Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng
Header Page 2 of 126.
Trang 31
MỞ ĐẦU
1 Giới thiệu và lý do chọn đề tài
ph t tri n c a công nghệ thông tin đ mang lại cho nh n loại nhi u tiện lợi và gi p giải uy t nh ng công việc tư ng ch ng như con người không th giải uy t được Trong đ , khai ph tri th c trong cơ s d liệu đang là một xu hướng uan trọng c a n n Công nghệ thông tin th giới N c khả năng ng dụng vào rất nhi u lớp bài to n th c t kh c nhau Bước uan trong nhất c a u trình này
là khai ph tri th c t d liệu, gi p con người thu được nh ng tri
th c h u ích t nh ng cơ s d liệu hoặc c c nguồn d liệu khổng lồ khác Một số ít ng n hàng thương mại, doanh nghiệp và tổ ch c trên
th giới đ ng dụng kỹ thuật khai ph tri th c t d liệu vào các hoạt động tín dụng đ ph t tri n sản xuất và kinh doanh, đ và đang thu được nh ng lợi ích to lớn
Hiện nay, việc ng dụng công nghệ thông tin trong nhi u lĩnh
v c c a đời sống, kinh t x hội trong nhi u năm ua cũng đồng nghĩa với lượng d liệu đ được c c cơ uan, các tổ ch c tín dụng thu thập và lưu tr ngày một tích luỹ nhi u lên Người ta lưu tr c c
d liệu này vì cho rằng trong n ẩn ch a nh ng gi trị nhất định nào
đ Tuy nhiên, theo thống kê thì chỉ c một lượng nhỏ c a nh ng d liệu này (khoảng t 20% đ n 25%) là luôn được ph n tích, số còn lại người ta không bi t sẽ phải làm gì hoặc c th làm gì với ch ng nhưng vẫn phải ti p tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ
c c i gì đ uan trọng đ bị bỏ ua sau này c l c cần đ n n Mặt
kh c, trong môi trường cạnh tranh khốc liệt như hiện nay và s xuất hiện nhi u nhi u ng n hàng thương mại và n n kinh t đang c chuy n bi n xấu và đầy ph c tạp, nhân viên ngân hàng ngày càng cần c nhi u thông tin với tốc độ nhanh đ trợ gi p việc ra uy t định và ngày càng c nhi u c u hỏi mang tính chất định tính cần phải
Header Page 3 of 126.
Footer Page 3 of 126.
Trang 42
trả lời d a trên một khối lượng d liệu khổng lồ đ c Việc ng dụng công nghệ thông tin trong ng n hàng đang rất cần thi t, đặc biệt
là ng dụng khai ph tri th c t d liệu
uất ph t t th c t và nhu cầu n m b t, trang bị hạ tầng v công nghệ thông tin c a cơ uan, tổ ch c đ hiện đại ho công việc,
gi p giải uy t nhanh ch ng, n ng cao hiệu uả và d b o chính x c trong công việc nhất là trong lĩnh v c kinh doanh, thương mại điện
t trong vấn đ trợ gi p thẩm định vay vốn tại ng n hàng T lý do
đ , tôi chọn đ tài: Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Đ nghiên c u làm luận văn tốt nghiệp cao học ngành hoa học m y tính Trong đ , tập trung vào nghiên c u kỹ thuật mạng Nơ-ron, p dụng trong việc khai ph tri th c t d liệu đ giải uy t bài toán
2 Mục tiêu và nhiệm vụ
Mục tiêu c a đ tài tìm hi u c c khai ph tri th c trong lĩnh
v c hoạt động thẩm định vay vốn tại ng n hàng, đặc biệt là vấn đ ra
uy t định trong hoạt động thẩm định tín dụng đạt k t uả ra sao Nhiệm vụ cơ bản c a nghiên c u: (1) Thu thập và ph n tích d liệu tri tr c v tình hình kh ch hàng được thẩm định; (2) Tìm hi u bài to n th c t : Thẩm định hoạt động vay vốn ng n hàng; (3) Tìm
hi u tổng tổng uan v c c kỷ thuật khai ph tri th c; (4) Tìm hi u
cơ s lý thuy t khai ph luật k t hợp, kỷ thuật mạng Nơ-ron; (5) Xây
d ng mô hình và ph n tích thi t k hệ thống trợ giúp d b o thẩm định vay vốn trong ng n hàng
3 Đối tượng và phạm vi nghiên cứu
Đối tượng ch y u đ nghiên c u luật k t hợp và kỹ thuật mạng Nơ-ron, c c thuật to n học c a mạng Nơ-ron, đặc biệt là thuật
Header Page 4 of 126.
Trang 53
to n lan truy n ngược (Back propagation algorithm) Ngoài ra, cũng
cần phải n m được c c kỹ thuật lập trình cơ bản trên n n indo
4 Phương pháp nghiên cứu
Thu thập, ph n tích c c tài liệu và thông tin liên uan đ n đ
tài; em xét, l a chọn phương hướng giải uy t vấn đ ; y d ng
mô hình theo lý thuy t; Tri n khai x y d ng chương trình ng dụng
trên m y tính; i m tra, th nghiệm và đ nh gi k t uả
5 Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học c a đ tài là nghiên c u và ph t tri n một
mô hình khai ph d liệu nhằm d b o độ r i ro trong việc phê duyệt
đơn vay tín dụng c a ng n hàng, d a trên kỹ thuật mạng Nơ-ron
Việc d b o c c k t uả sẽ h trợ, trợ gi p cho nhà uản lý trong
việc ra c c uy t định tối ưu
Bố cục của lu n v n
Luận văn bao gồm c c phần như sau:
M đ u
Chương 1:
Nêu tổng uan v khai ph tri th c t d liệu Các kỹ thuật
mạng ron trong khai ph d liệu, c c thuật to n trong mạng
Nơ-ron, cũng như c c lĩnh v c ng dụng
Chương 2:
Ph n tích bài to n iới thiệu bài to n, nêu lên bài to n cụ th
và x y d ng mô hình tổng u t cho bài to n, giải ph p giải uy t bài
toán
Chương 3:
y d ng hệ thống trợ gi p thẩm định vay vốn ng n hàng Tạo
bộ d liệu mẫu v d liệu đầu vào, d liệu c a tập huấn luyện, tập
ki m th , vận hành mạng và cho ra k t uả th nghiệm Trên cơ s
đ đưa ra c c đ nh gi v giải ph p c a đ tài trong việc ng dụng
Header Page 5 of 126.
Footer Page 5 of 126.
Trang 64
th c ti n c a vấn đ cũng như c nh ng so s nh với c c giải ph p
kh c t luận c a đ tài v c c mặt làm được, khả năng ng dụng,
nh ng ưu và nhược đi m và hướng ph t tri n trong tương lai
CHƯƠNG 1
CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC
Ph t hiện tri th c là kh i niệm ra đời vào nh ng năm cuối c a thập kỷ 80 và đ tr thành một lĩnh v c được nguyên c u rộng r i trên toàn cầu ra đời c a ph t hiện tri th c là s k t hợp k t uả nguyên c u c a nhi u ngành khoa học kh c lại với nhau như: Quản trị cơ s d liệu, học m y, thống kê …
1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC
Th c chất đ là u trình tìm ki m nh ng thông tin c trong
cơ s d liệu nhưng bị che giấu trong c c khối d liệu
Tri th c đ y c th được hi u là một bi u th c trong một ngôn ng C c ngôn ng thường dùng đ di n tả tri th c trong việc
bi u di n tri th c trong u trình ph t hiện tri th c t cơ s dư liệu là
c c khung (frames), c c c y và đồ thị, c c luật, c c công th c trong logic mệnh đ hoặc logic t n t cấp một
Việc khai ph tri th c thường được p dụng đ giải uy t một loạt nh ng y u cầu phục vụ nh ng mục đích nhất định Vì vậy, u trình ph t hiện tri th c là một hoạt động tương t c gi a một người s dụng hoặc một chuyên gia ph n tích với c c công cụ tin học
1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC
Qu trình khai ph tri th c, t nh ng cơ s d liệu th c t sau một hoặc một số bước c a u trình sẽ r t ra được nh ng tri th c mới C c bước trong u trình này c th lặp đi lặp lại nhi u lần và được mô tả theo hình sau:
Header Page 6 of 126.
Trang 75
Hình 1.1 ơ đồ mô tả u trình khai ph tri th c
1.4 MÔ HÌNH KHAI PHÁ TRI THỨC
Hình 1.2 Mô hình khai ph tri th c
Trang 86
1.5 KHO DỮ LIỆU (DATA WAREHOUSE)
Là c c cơ s d liệu tích hợp, hướng theo c c ch đ nhất định, được thi t k đ h trợ cho ch c năng trợ gi p uy t định, mà
m i đơn vị d liệu liên uan đ n một khoảng thời gian cụ th
ho d liệu thường c dung lượng rất lớn, thường là hàng igabytes hay c khi tới hàng Terabytes ho d liệu được x y d ng
đ tiện lợi cho việc truy cập t nhi u nguồn, nhi u ki u d liệu kh c nhau sao cho c th k t hợp được cả nh ng ng dụng c a c c công nghệ hiện đại và v a c th k th a được t c c hệ thống đ c t trước D liệu được ph t sinh t c c hoạt động hàng ngày và được thu thập x lý đ phục vụ công việc nghiệp vụ cụ th c a một tổ
ch c, vì vậy thường được gọi là d liệu t c nghiệp và hoạt động x
lý d liệu này gọi là xử lý giao dịch trực tuyến (OLPT - On Line Transaction Processing)
1.6 LUẬT KẾT HỢP
Nhằm ph t hiện ra c c Luật k t hợp gi a c c thành phần d
liệu trong cơ s d liệu C c luật k t hợp c th là một c ch hình
th c h a đơn giản Ch ng rất thích hợp cho việc tạo ra c c k t uả c
d liệu dạng nhị ph n iới hạn cơ bản c a phương ph p này là
ch c c uan hệ cần phải thưa theo nghĩa không c tập thường xuyên nào ch a nhi u hơn 15 thuộc tính iải thuật tìm ki m c c luật k t hợp tạo ra số luật ít nhất phải bằng với số c c tập phổ bi n và n u như một tập phổ bi n c kích thước thì phải c ít nhất là 2 tập phổ bi n Thông tin v c c tập phổ bi n được s dụng đ ước lượng
độ tin cậy c a c c tập luật k t hợp
1.6.1 Lý thuyết về lu t kết hợp
1.6.2 Định nghĩa lu t kết hợp
Mà c c luật đ u phải thoả m n một ngưỡng h trợ và tin cậy
cụ th Th c vậy, cho một tập c c giao dịch D, bài to n ph t hiện luật
Header Page 8 of 126.
Trang 97
k t hợp là sinh ra tất cả c c luật k t hợp mà c độ tin cậy conf lớn hơn độ tin cậy tối thi u mincon và độ h trợ sup lớn hơn độ h trợ tối thi u minsup tương ng do người dùng x c định hai ph luật k t hợp được ph n thành hai bài to n
1.6.3 Một số tính chất liên quan đến các hạng mục phổ biến (frequent itemset)
Tính chất 1: Độ h trợ (support) cho tất cả c c tập con
(subset)
Tính chất 2: N u một mục trong A không c độ h trợ tối
thi u trên D nghĩa là support(A)< minsup thì một tập con B c a A sẽ không phải là một tập phổ bi n vì support(B) ≤ support(A) <
minsup
Tính chất 3: N u mục B là mục phổ bi n trên D, nghĩa là
support(B) ≥ minsup thì mọi tập con A c a B là tập phổ bi n trên D
vì support(A) ≥ support(B) > minsup
1.6.4 Một số hướng tiếp c n trong khai phá lu t kết hợp
Luật k t hợp nhị ph n (binary association rule hoặc boolean association rule); Luật k t hợp c thuộc tính số và thuộc tính hạng mục ( uantitative and categorial association rule); Luật k t hợp ti p cận theo hướng tập thô (mining association rules base on rough set): Tìm ki m luật k t hợp d a trên lý thuy t tập thô
1.6.5 Phát biểu bài toán phát hiện lu t kết hợp
ét ví dụ đối tượng trong giao dịch cho vay khách hàng tại đơn vị Tập c c giao dịch ( đ y coi là tập c c mục) I = {khá, tốt, trung bình, xấu} và số c c đối tượng cho vay là 4 giao dịch (|T| = 4), trong đ T = {1, 2, 3, 4} – ký hiệu c c giao dịch TID
1.6.6 Phát hiện lu t kết hợp dựa trên hệ thông tin nhị phân
Header Page 9 of 126.
Footer Page 9 of 126.
Trang 108
Hệ thông tin nhị ph n; Tập chỉ b o phổ bi n nhị ph n; C c luật
k t hợp phổ bi n nhị ph n và hệ số tin cậy; C c vectơ chỉ b o nhị; phân và các phép toán; Tích vectơ chỉ b o nhị ph n; Độ h trợ c c
vectơ chỉ b o nhị ph n
1.6.7 Thu t toán phát hiện t p chỉ báo và lu t kết hợp nhị phân
Thuật to n Apriori-Tid có hai pha
1.6.8 Khai phá lu t kết hợp trên hệ thông tin mờ
1.7 MẠNG NEURON
ỹ thuật mạng Nơ-ron là kỹ thuật mới liên uan đ n việc ph t tri n c c cấu tr c to n học với khả năng học Mạng Nơ-ron c th đưa ra ý nghĩa t d liệu ph c tạp nhi u chi u và ph t hiện xu hướng
c a d liệu mà c c kỹ thuật kh c không th th c hiện được Mạng Nơ-ron c khả năng mô hình ho nh ng d liệu ph c tạp và nhi u chi u hi d liệu tăng lên, c c kỹ thuật truy n thống kh c c th không giải uy t được, nhưng mạng Nơ-ron c khả năng giải uy t tốt
1.7.1 Khái niệm mạng Nơ-ron
Trang 119
1.7.3 Mạng Nơ-ron phản hồi
Tùy sơ đồ k t nối mà mạng c th là mạng truy n thẳng (feed for ard) hoặc phản hồi (recurrent) c c đường k t nối là đối x ng hoặc không đối x ng Mạng phản hồi c đường nối phản hồi hoặc c
chu trình gi a c c n t au đ y là cấu tr c c a một mạng phản hồi:
Hình 1.4 Cấu tr c mạng Nơ-ron phản hồi
1.7.4 Giải pháp k thu t của mạng Nơ-ron
Mạng Nơ-ron được hi u theo c hai khía cạnh: tính to n và học Phần tính to n được th c hiện theo th t Phần học thì được
th c hiện ngược lại: với số liệu tính to n đầu ra không khớp với mục tiêu, sai số này sẽ làm cơ s đ thay đổi c c trọng số n t xuất, sau đ được lan truy n đ thay đổi trọng số c c n t ẩn Qu trình này được
th c hiện nhi u lần cho đ n khi k t xuất c a mạng ti n gần đ n mục tiêu đ ra
1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON
Header Page 11 of 126.
Footer Page 11 of 126.
Trang 1210
Mạng một nút nhập, một nút xuất
Mạng hai nút nhập
Mạng nhiều nút nhập
Lan truyền tiến
hi luyện mạng, lan truy n ti n được s dụng lặp đi lặp lại t mẫu này đ n mẫu kh c cho đ n khi c c trọng số đạt được gi trị thích hợp hi s dụng, lan truy n ti n được s dụng một lần cho t ng trường hợp nhập vào
1.8.3 Sự chuẩn bị và học dữ liệu
Học là một trong nh ng đặc tính uan trọng nhất c a mạng
N chỉ ra c ch đi u chỉnh trọng số trong u trình học Trong u trình học, ta cần bi t m c tích c c th c t so s nh với m c tích c c mong muốn đ tính sai số ai số này s dụng đ đi u chỉnh trọng số
c a mạng
Trong mô hình mạng Nơ-ron thì việc x c định sai số ít nhất là rất kh Phương ph p giảm gradient thường được s dụng trong c c
trường hợp này Phương ph p xem E là một mặt l i và x c định c c
trọng số ua c c bước chính như sau: (1) Chọn một đi m ngẫu nhiên
x 0 trong không gian trọng số; (2) Tính độ dốc c a mặt l i tại x 0; (3) Cập nhật c c trọng số theo hướng dốc nhất c a mặt l i; (4) Xem
đi m này như đi m x 0 mới; (5) Lặp đi lặp lại u trình t (2) đ n (4) thì đ n một l c nào đ c c gi trị c a bộ trọng số sẽ ti p cận đ n
Trang 13b Tri thức a l p và Lan truyền ngư c
c Radial Basic Fuction Networks
Một ki n tr c mạng Nơ-ron phổ bi n kh c đang được s dụng
i u mạng này được gọi là mạng radial basic function (RBF)
d Mạng v c tơ h tr ch ph n l p
Trường hợp phân tuyến dữ liệu
Trường hợp không phân tuyến dữ liệu
Ph n thủ thu t (kernel trick
Chọn lựa của các tham số kernel
Mạng v c tơ h trợ cho việc học c ưu tiên
Vấn đề học c ưu tiên
Công thức của vấn đề
Mô hình tiện ích ẩn
Mô hình tuyến tính của tiện ích ẩn
Mô hình phi tuyến tính của tiện ích ẩn
Ứng dụng kinh tế
1.1 SỰ KẾT HỢP CỦA CÁC KỸ THUẬT
C c kỹ thuật khai ph d liệu đ u c nh ng ưu và nhược đi m
c a riêng n , chẳng hạn mạng Nơ-ron rất hiệu uả trong việc p dụng khai ph d liệu d đo n cho k t uả tốt mà c c kỹ thuật kh c không th làm được Tuy nhiên, việc học c a mạng d liệu này là rất tốn thời gian, do đ , cần c s k t hợp gi a c c kỹ thuật này với nhau k t hợp này được th hiện như hình dưới đ y:
Header Page 13 of 126.
Footer Page 13 of 126.