1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình (TT)

25 428 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong đó, khai phá tri thức trong cơ sở dữ liệu đang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới.. Bước quan trong nhất của quá trình này là khai phá tri thức từ dữ l

Trang 1

MỞ ĐẦU

1 Giới thiệu và lý do chọn đề tài

Sự phát triển của công nghệ thông tin đã mang lại cho nhân loại nhiều tiện lợi và giúp giải quyết những công việc tưởng chừng như con người không thể giải quyết được Trong đó, khai phá tri thức trong cơ sở dữ liệu đang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới Nó có khả năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau Bước quan trong nhất của quá trình này

là khai phá tri thức từ dữ liệu, giúp con người thu được những tri thức hữu ích từ những cơ sở dữ liệu hoặc các nguồn dữ liệu khổng lồ khác Một số ít ngân hàng thương mại, doanh nghiệp và tổ chức trên thế giới đã ứng dụng kỹ thuật khai phá tri thức từ dữ liệu vào các hoạt động tín dụng để phát triển sản xuất và kinh doanh, đã và đang thu được những lợi ích to lớn

Hiện nay, việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan, các tổ chức tín dụng thu thập và lưu trữ ngày một tích luỹ nhiều lên Người ta lưu trữ các

dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào

đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 20% đến 25%) là luôn được phân tích, số còn lại người ta không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng vẫn phải tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ

có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, trong môi trường cạnh tranh khốc liệt như hiện nay và sự xuất hiện nhiều nhiều ngân hàng thương mại và nền kinh tế đang có chuyển biến xấu và đầy phức tạp, nhân viên ngân hàng ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải

Trang 2

trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Việc ứng dụng công nghệ thông tin trong ngân hàng đang rất cần thiết, đặc biệt

là ứng dụng khai phá tri thức từ dữ liệu

Xuất phát từ thực tế và nhu cầu nắm bắt, trang bị hạ tầng về công nghệ thông tin của cơ quan, tổ chức để hiện đại hoá công việc, giúp giải quyết nhanh chóng, nâng cao hiệu quả và dự báo chính xác trong công việc nhất là trong lĩnh vực kinh doanh, thương mại điện tử trong vấn đề trợ giúp thẩm định vay vốn tại ngân hàng Từ lý do

đó, tôi chọn đề tài: Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình

Để nghiên cứu làm luận văn tốt nghiệp cao học ngành Khoa học máy tính Trong đó, tập trung vào nghiên cứu kỹ thuật mạng Nơ-ron, áp dụng trong việc khai phá tri thức từ dữ liệu để giải quyết bài toán

2 Mục tiêu và nhiệm vụ

Mục tiêu của đề tài tìm hiểu các khai phá tri thức trong lĩnh vực hoạt động thẩm định vay vốn tại ngân hàng, đặc biệt là vấn đề ra quyết định trong hoạt động thẩm định tín dụng đạt kết quả ra sao.Nhiệm vụ cơ bản của nghiên cứu: (1) Thu thập và phân tích dữ liệu tri trức về tình hình khách hàng được thẩm định; (2) Tìm hiểu bài toán thực tế: Thẩm định hoạt động vay vốn ngân hàng; (3) Tìm hiểu tổng tổng quan về các kỷ thuật khai phá tri thức; (4) Tìm hiểu

cơ sở lý thuyết khai phá luật kết hợp, kỷ thuật mạng Nơ-ron; (5) Xây dựng mô hình và phân tích thiết kế hệ thống trợ giúp dự báo thẩm định vay vốn trong ngân hàng

3 Đối tượng và phạm vi nghiên cứu

Đối tượng chủ yếu để nghiên cứu luật kết hợp và kỹ thuật mạng Nơ-ron, các thuật toán học của mạng Nơ-ron, đặc biệt là thuật

Trang 3

toán lan truyền ngược (Back propagation algorithm) Ngoài ra, cũng cần phải nắm được các kỹ thuật lập trình cơ bản trên nền Window.

4 Phương pháp nghiên cứu

Thu thập, phân tích các tài liệu và thông tin liên quan đến đề tài; Xem xét, lựa chọn phương hướng giải quyết vấn đề; Xây dựng

mô hình theo lý thuyết; Triển khai xây dựng chương trình ứng dụng trên máy tính; Kiểm tra, thử nghiệm và đánh giá kết quả

5 Ý nghĩa khoa học và thực tiễn của đề tài

Ý nghĩa khoa học của đề tài là nghiên cứu và phát triển một

mô hình khai phá dữ liệu nhằm dự báo độ rủi ro trong việc phê duyệt đơn vay tín dụng của ngân hàng, dựa trên kỹ thuật mạng Nơ-ron Việc dự báo các kết quả sẽ hỗ trợ, trợ giúp cho nhà quản lý trong việc ra các quyết định tối ưu

6 Bố cục của luận văn

Luận văn bao gồm các phần như sau:

Mở đầu

Chương 1:

Nêu tổng quan về khai phá tri thức từ dữ liệu Các kỹ thuật mạng Nơ-ron trong khai phá dữ liệu, các thuật toán trong mạng Nơ-ron, cũng như các lĩnh vực ứng dụng

Chương 2:

Phân tích bài toán Giới thiệu bài toán, nêu lên bài toán cụ thể

và xây dựng mô hình tổng quát cho bài toán, giải pháp giải quyết bài toán

Chương 3:

Xây dựng hệ thống trợ giúp thẩm định vay vốn ngân hàng Tạo bộ dữ liệu mẫu về dữ liệu đầu vào, dữ liệu của tập huấn luyện, tập kiểm thử, vận hành mạng và cho ra kết quả thử nghiệm Trên cơ sở đó đưa ra các đánh giá về giải pháp của đề tài trong việc ứng dụng

Trang 4

thực tiễn của vấn đề cũng như có những so sánh với các giải pháp khác Kết luận của đề tài về các mặt làm được, khả năng ứng dụng, những ưu và nhược điểm và hướng phát triển trong tương lai.

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC

Phát hiện tri thức là khái niệm ra đời vào những năm cuối của thập kỷ 80 và đã trở thành một lĩnh vực được nguyên cứu rộng rãi trên toàn cầu Sự ra đời của phát hiện tri thức là sự kết hợp kết quả nguyên cứu của nhiều ngành khoa học khác lại với nhau như: Quản trị cơ sở dữ liệu, học máy, thống kê …

1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC

Thực chất đó là quá trình tìm kiếm những thông tin có trong

cơ sở dữ liệu nhưng bị che giấu trong các khối dữ liệu

Tri thức ở đây có thể được hiểu là một biểu thức trong một ngôn ngữ Các ngôn ngữ thường dùng để diễn tả tri thức trong việc biểu diễn tri thức trong quá trình phát hiện tri thức từ cơ sở dư liệu là các khung (frames), các cây và đồ thị, các luật, các công thức trong logic mệnh đề hoặc logic tân từ cấp một

Việc khai phá tri thức thường được áp dụng để giải quyết một loạt những yều cầu phục vụ những mục đích nhất định Vì vậy, quá trình phát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặc một chuyên gia phân tích với các công cụ tin học

1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC

Quá trình khai phá tri thức, từ những cơ sở dữ liệu thực tế sau một hoặc một số bước của quá trình sẽ rút ra được những tri thức mới Các bước trong quá trình này có thể lặp đi lặp lại nhiều lần và được mô tả theo hình sau:

Trang 5

Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức

1.4 MÔ HÌNH KHAI PHÁ TRI THỨC

Hình 1.2 Mô hình khai phá tri thức

Hình thành và

xác định vấn đề

Khai phá dữ liệu, rút ra các tri thức

Thu thập và tiền

xử lý dữ liệu

Giải thích kết quả và đánh giá

Sử dụng các tri thức phát hiện được

Trang 6

1.5 KHO DỮ LIỆU (DATA WAREHOUSE)

Là các cơ sở dữ liệu tích hợp, hướng theo các chủ đề nhất định, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu liên quan đến một khoảng thời gian cụ thể

Kho dữ liệu thường có dung lượng rất lớn, thường là hàng Gigabytes hay có khi tới hàng Terabytes Kho dữ liệu được xây dựng

để tiện lợi cho việc truy cập từ nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và vừa có thể kế thừa được từ các hệ thống đã có từ trước Dữ liệu được phát sinh từ các hoạt động hàng ngày và được thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức, vì vậy thường được gọi là dữ liệu tác nghiệp và hoạt động xử

lý dữ liệu này gọi là xử lý giao dịch trực tuyến (OLPT - On Line

Transaction Processing)

1.6 LUẬT KẾT HỢP

Nhằm phát hiện ra các Luật kết hợp giữa các thành phần dữ

liệu trong cơ sở dữ liệu Các luật kết hợp có thể là một cách hình thức hóa đơn giản Chúng rất thích hợp cho việc tạo ra các kết quả có

dữ liệu dạng nhị phân Giới hạn cơ bản của phương pháp này là ở chỗ các quan hệ cần phải thưa theo nghĩa không có tập thường xuyên nào chứa nhiều hơn 15 thuộc tính Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến và nếu như một tập phổ biến có kích thước K thì phải có ít nhất là 2K tập phổ biến Thông tin về các tập phổ biến được sử dụng để ước lượng

độ tin cậy của các tập luật kết hợp

1.6.1 Lý thuyết về luật kết hợp

1.6.2 Định nghĩa luật kết hợp

Mà các luật đều phải thoả mãn một ngưỡng hỗ trợ và tin cậy

cụ thể Thực vậy, cho một tập các giao dịch D, bài toán phát hiện luật

Trang 7

kết hợp là sinh ra tất cả các luật kết hợp mà có độ tin cậy conf lớn hơn độ tin cậy tối thiểu mincon và độ hỗ trợ sup lớn hơn độ hỗ trợ tối thiểu minsup tương ứng do người dùng xác định Khai phá luật kết hợp được phân thành hai bài toán

1.6.3 Một số tính chất liên quan đến các hạng mục phổ biến (frequent itemset)

Tính chất 1: Độ hỗ trợ (support) cho tất cả các tập con

(subset)

Tính chất 2: Nếu một mục trong A không có độ hỗ trợ tối

thiểu trên D nghĩa là support(A)< minsup thì một tập con B của A sẽ không phải là một tập phổ biến vì support(B) ≤ support(A) < minsup

Tính chất 3: Nếu mục B là mục phổ biến trên D, nghĩa là

support(B) ≥ minsup thì mọi tập con A của B là tập phổ biến trên D

vì support(A) ≥ support(B) > minsup

1.6.4 Một số hướng tiếp cận trong khai phá luật kết hợp

Luật kết hợp nhị phân (binary association rule hoặc boolean association rule); Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorial association rule); Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set): Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô

1.6.5 Phát biểu bài toán phát hiện luật kết hợp

Xét ví dụ đối tượng trong giao dịch cho vay khách hàng tại đơn vị Tập các giao dịch (ở đây coi là tập các mục) I = {khá, tốt, trung bình, xấu} và số các đối tượng cho vay là 4 giao dịch (|T| = 4), trong đó T = {1, 2, 3, 4} – ký hiệu các giao dịch TID

1.6.6 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân

Trang 8

Hệ thông tin nhị phân; Tập chỉ báo phổ biến nhị phân; Các luật

kết hợp phổ biến nhị phân và hệ số tin cậy; Các vectơ chỉ báo nhị; phân và các phép toán; Tích vectơ chỉ báo nhị phân; Độ hỗ trợ các vectơ chỉ báo nhị phân

1.6.7 Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị phân

Thuật toán Apriori-Tid có hai pha

1.6.8 Khai phá luật kết hợp trên hệ thông tin mờ

1.7 MẠNG NEURON

Kỹ thuật mạng Nơ-ron là kỹ thuật mới liên quan đến việc phát triển các cấu trúc toán học với khả năng học Mạng Nơ-ron có thể đưa ra ý nghĩa từ dữ liệu phức tạp nhiều chiều và phát hiện xu hướng của dữ liệu mà các kỹ thuật khác không thể thực hiện được Mạng Nơ-ron có khả năng mô hình hoá những dữ liệu phức tạp và nhiều chiều Khi dữ liệu tăng lên, các kỹ thuật truyền thống khác có thể không giải quyết được, nhưng mạng Nơ-ron có khả năng giải quyết tốt

1.7.1 Khái niệm mạng Nơ-ron

1.7.2 Mạng Nơ-ron truyền thẳng

Cấu trúc của mạng Nơ-ron gồm các nút, mỗi nút đều có các

trọng số và được bố trí trên các tầng như: Tầng vào; Tầng ẩn;Tầng

ra.

.

.

.

Trang 9

Hình 1.3: Cầu trúc mạng Nơ-ron truyền thẳng.

1.7.3 Mạng Nơ-ron phản hồi

Tùy sơ đồ kết nối mà mạng có thể là mạng truyền thẳng (feed forward) hoặc phản hồi (recurrent) các đường kết nối là đối xứng hoặc không đối xứng Mạng phản hồi có đường nối phản hồi hoặc có

chu trình giữa các nút Sau đây là cấu trúc của một mạng phản hồi:

Hình 1.4 Cấu trúc mạng Nơ-ron phản hồi

1.7.4 Giải pháp kỹ thuật của mạng Nơ-ron

Mạng Nơ-ron được hiểu theo có hai khía cạnh: tính toán và học Phần tính toán được thực hiện theo thứ tự Phần học thì được thực hiện ngược lại: với số liệu tính toán đầu ra không khớp với mục tiêu, sai số này sẽ làm cơ sở để thay đổi các trọng số nút xuất, sau đó được lan truyền để thay đổi trọng số các nút ẩn Quá trình này được thực hiện nhiều lần cho đến khi kết xuất của mạng tiến gần đến mục tiêu đề ra

1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON

1.8.1 Hàm truyền

Về mặt hình học, hàm truyền có dạng chữ S nên nó được gọi

là hàm dạng S

1.8.2 Tính toán của mạng

Mạng Nơ-ron là một công cụ tính toán, theo nghĩa nào đó thì mạng Nơ-ron làm việc với tư cách là một bảng tra mà không biết phụ

Tầng vào Tầng ẩn Tầng ra

Trang 10

thuộc hàm tường minh giữa x và y Việc tính toán của mạng Nơ-ron

số nút có trong mạng

Mạng một nút nhập, một nút xuất

Mạng hai nút nhập

Mạng nhiều nút nhập

Lan truyền tiến

Khi luyện mạng, lan truyền tiến được sử dụng lặp đi lặp lại từ mẫu này đến mẫu khác cho đến khi các trọng số đạt được giá trị thích hợp Khi sử dụng, lan truyền tiến được sử dụng một lần cho từng trường hợp nhập vào

1.8.3 Sự chuẩn bị và học dữ liệu

Học là một trong những đặc tính quan trọng nhất của mạng

Nó chỉ ra cách điều chỉnh trọng số trong quá trình học Trong quá trình học, ta cần biết mức tích cực thực tế so sánh với mức tích cực mong muốn để tính sai số Sai số này sử dụng để điều chỉnh trọng số của mạng

Trong mô hình mạng Nơ-ron thì việc xác định sai số ít nhất là rất khó Phương pháp giảm gradient thường được sử dụng trong các

trường hợp này Phương pháp xem E là một mặt lỗi và xác định các

trọng số qua các bước chính như sau: (1) Chọn một điểm ngẫu nhiên

x 0 trong không gian trọng số; (2) Tính độ dốc của mặt lỗi tại x 0; (3) Cập nhật các trọng số theo hướng dốc nhất của mặt lỗi; (4) Xem

điểm này như điểm x 0 mới; (5) Lặp đi lặp lại quá trình từ (2) đến (4) thì đến một lúc nào đó các giá trị của bộ trọng số sẽ tiếp cận đến điểm thấp nhất trong mặt lỗi

Trọng số nút xuất

Trọng số nút ẩn

1.9 MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC CỦA MẠNG NƠ-RON

Trang 11

1.9.1 Lý thuyết thống kê học

1.9.2 Cực tiểu rủi ro kinh nghiệm

a Perceptron và luật Delta

b Tri thức đa lớp và Lan truyền ngược

c Radial Basic Fuction Networks

Một kiến trúc mạng Nơ-ron phổ biến khác đang được sử dụng

Kiểu mạng này được gọi là mạng radial basic function (RBF)

d Mạng véc tơ hỗ trợ cho phân lớp

* Trường hợp phân tuyến dữ liệu

* Trường hợp không phân tuyến dữ liệu

* Phần thủ thuật (kernel trick)

* Chọn lựa của các tham số kernel

* Mạng véc tơ hỗ trợ cho việc học có ưu tiên

* Vấn đề học có ưu tiên

* Công thức của vấn đề

* Mô hình tiện ích ẩn

* Mô hình tuyến tính của tiện ích ẩn

* Mô hình phi tuyến tính của tiện ích ẩn

* Ứng dụng kinh tế

1.10 SỰ KẾT HỢP CỦA CÁC KỸ THUẬT

Các kỹ thuật khai phá dữ liệu đều có những ưu và nhược điểm của riêng nó, chẳng hạn mạng Nơ-ron rất hiệu quả trong việc áp dụng khai phá dữ liệu dự đoán cho kết quả tốt mà các kỹ thuật khác không thể làm được Tuy nhiên, việc học của mạng dữ liệu này là rất

Trang 12

tốn thời gian, do đó, cần có sự kết hợp giữa các kỹ thuật này với nhau Sự kết hợp này được thể hiện như hình dưới đây:

Hình 1.6: Kết hợp các kỹ thuật để đưa ra giải pháp mới Kết luận chương 1

Như vậy, nhìn vào các phương pháp giới thiệu ở trên, chúng ta thấy có rất nhiều các phương pháp khai phá dữ liệu Mỗi phương pháp có những đặc điểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu nhất định

Tổng kết sơ bộ về khai phá dữ liệu, nguồn gốc và ứng dụng của khai phá dữ liệu Để tìm hiểu rõ hơn về kỹ thuật khai phá dữ liệu, Sau khi giới thiệu các nét cơ bản của lý thuyết thống kê học, chúng ta đã tìm hiểu về định nghĩa mạng Nơ-ron, các kiểu mạng Nơ-ron Đã tìm hiểu các nguyên lý cơ bản của việc học trong mạng Nơ-ron.Chương này cũng đã đề cập đến các thuật toán học thường dùng Đó là: học có tri thức (Perceptron Learning), học lan truyền ngược (Backpropagation Lear) và học với hàm bán kính cơ bản (Radial Basis Function Learning) Qua đó ta thấy mạng nơ-ron có tính chất sau: Là hệ phi tuyến; Là hệ xử lý song song; Là hệ nhiều biến, có nhiều đầu vào/ra rất tiện dùng khi điều khiển đối tượng có nhiều biến số có khả năng học và làm xấp xỉ các hàm toán học bất kỳ với độ chính xác tuỳ ý

Tập mẫu

Trường hợp mới

Kỹ thuật 1 Kỹ thuật 2

Đáp ứng yêu cầu Giải pháp

Ngày đăng: 06/07/2015, 10:25

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức - Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình (TT)
Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức (Trang 5)
Hình 1.2 Mô hình khai phá tri thức - Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình (TT)
Hình 1.2 Mô hình khai phá tri thức (Trang 5)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w