Trong đó, khai phá tri thức trong cơ sở dữ liệu đang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới.. Bước quan trong nhất của quá trình này là khai phá tri thức từ dữ l
Trang 1MỞ ĐẦU
1 Giới thiệu và lý do chọn đề tài
Sự phát triển của công nghệ thông tin đã mang lại cho nhân loại nhiều tiện lợi và giúp giải quyết những công việc tưởng chừng như con người không thể giải quyết được Trong đó, khai phá tri thức trong cơ sở dữ liệu đang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới Nó có khả năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau Bước quan trong nhất của quá trình này
là khai phá tri thức từ dữ liệu, giúp con người thu được những tri thức hữu ích từ những cơ sở dữ liệu hoặc các nguồn dữ liệu khổng lồ khác Một số ít ngân hàng thương mại, doanh nghiệp và tổ chức trên thế giới đã ứng dụng kỹ thuật khai phá tri thức từ dữ liệu vào các hoạt động tín dụng để phát triển sản xuất và kinh doanh, đã và đang thu được những lợi ích to lớn
Hiện nay, việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan, các tổ chức tín dụng thu thập và lưu trữ ngày một tích luỹ nhiều lên Người ta lưu trữ các
dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào
đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 20% đến 25%) là luôn được phân tích, số còn lại người ta không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng vẫn phải tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ
có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, trong môi trường cạnh tranh khốc liệt như hiện nay và sự xuất hiện nhiều nhiều ngân hàng thương mại và nền kinh tế đang có chuyển biến xấu và đầy phức tạp, nhân viên ngân hàng ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải
Trang 2trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Việc ứng dụng công nghệ thông tin trong ngân hàng đang rất cần thiết, đặc biệt
là ứng dụng khai phá tri thức từ dữ liệu
Xuất phát từ thực tế và nhu cầu nắm bắt, trang bị hạ tầng về công nghệ thông tin của cơ quan, tổ chức để hiện đại hoá công việc, giúp giải quyết nhanh chóng, nâng cao hiệu quả và dự báo chính xác trong công việc nhất là trong lĩnh vực kinh doanh, thương mại điện tử trong vấn đề trợ giúp thẩm định vay vốn tại ngân hàng Từ lý do
đó, tôi chọn đề tài: Ứng dụng khai phá tri thức xây dựng hệ thống thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Để nghiên cứu làm luận văn tốt nghiệp cao học ngành Khoa học máy tính Trong đó, tập trung vào nghiên cứu kỹ thuật mạng Nơ-ron, áp dụng trong việc khai phá tri thức từ dữ liệu để giải quyết bài toán
2 Mục tiêu và nhiệm vụ
Mục tiêu của đề tài tìm hiểu các khai phá tri thức trong lĩnh vực hoạt động thẩm định vay vốn tại ngân hàng, đặc biệt là vấn đề ra quyết định trong hoạt động thẩm định tín dụng đạt kết quả ra sao.Nhiệm vụ cơ bản của nghiên cứu: (1) Thu thập và phân tích dữ liệu tri trức về tình hình khách hàng được thẩm định; (2) Tìm hiểu bài toán thực tế: Thẩm định hoạt động vay vốn ngân hàng; (3) Tìm hiểu tổng tổng quan về các kỷ thuật khai phá tri thức; (4) Tìm hiểu
cơ sở lý thuyết khai phá luật kết hợp, kỷ thuật mạng Nơ-ron; (5) Xây dựng mô hình và phân tích thiết kế hệ thống trợ giúp dự báo thẩm định vay vốn trong ngân hàng
3 Đối tượng và phạm vi nghiên cứu
Đối tượng chủ yếu để nghiên cứu luật kết hợp và kỹ thuật mạng Nơ-ron, các thuật toán học của mạng Nơ-ron, đặc biệt là thuật
Trang 3toán lan truyền ngược (Back propagation algorithm) Ngoài ra, cũng cần phải nắm được các kỹ thuật lập trình cơ bản trên nền Window.
4 Phương pháp nghiên cứu
Thu thập, phân tích các tài liệu và thông tin liên quan đến đề tài; Xem xét, lựa chọn phương hướng giải quyết vấn đề; Xây dựng
mô hình theo lý thuyết; Triển khai xây dựng chương trình ứng dụng trên máy tính; Kiểm tra, thử nghiệm và đánh giá kết quả
5 Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học của đề tài là nghiên cứu và phát triển một
mô hình khai phá dữ liệu nhằm dự báo độ rủi ro trong việc phê duyệt đơn vay tín dụng của ngân hàng, dựa trên kỹ thuật mạng Nơ-ron Việc dự báo các kết quả sẽ hỗ trợ, trợ giúp cho nhà quản lý trong việc ra các quyết định tối ưu
6 Bố cục của luận văn
Luận văn bao gồm các phần như sau:
Mở đầu
Chương 1:
Nêu tổng quan về khai phá tri thức từ dữ liệu Các kỹ thuật mạng Nơ-ron trong khai phá dữ liệu, các thuật toán trong mạng Nơ-ron, cũng như các lĩnh vực ứng dụng
Chương 2:
Phân tích bài toán Giới thiệu bài toán, nêu lên bài toán cụ thể
và xây dựng mô hình tổng quát cho bài toán, giải pháp giải quyết bài toán
Chương 3:
Xây dựng hệ thống trợ giúp thẩm định vay vốn ngân hàng Tạo bộ dữ liệu mẫu về dữ liệu đầu vào, dữ liệu của tập huấn luyện, tập kiểm thử, vận hành mạng và cho ra kết quả thử nghiệm Trên cơ sở đó đưa ra các đánh giá về giải pháp của đề tài trong việc ứng dụng
Trang 4thực tiễn của vấn đề cũng như có những so sánh với các giải pháp khác Kết luận của đề tài về các mặt làm được, khả năng ứng dụng, những ưu và nhược điểm và hướng phát triển trong tương lai.
CHƯƠNG 1
CƠ SỞ LÝ THUYẾT 1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC
Phát hiện tri thức là khái niệm ra đời vào những năm cuối của thập kỷ 80 và đã trở thành một lĩnh vực được nguyên cứu rộng rãi trên toàn cầu Sự ra đời của phát hiện tri thức là sự kết hợp kết quả nguyên cứu của nhiều ngành khoa học khác lại với nhau như: Quản trị cơ sở dữ liệu, học máy, thống kê …
1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC
Thực chất đó là quá trình tìm kiếm những thông tin có trong
cơ sở dữ liệu nhưng bị che giấu trong các khối dữ liệu
Tri thức ở đây có thể được hiểu là một biểu thức trong một ngôn ngữ Các ngôn ngữ thường dùng để diễn tả tri thức trong việc biểu diễn tri thức trong quá trình phát hiện tri thức từ cơ sở dư liệu là các khung (frames), các cây và đồ thị, các luật, các công thức trong logic mệnh đề hoặc logic tân từ cấp một
Việc khai phá tri thức thường được áp dụng để giải quyết một loạt những yều cầu phục vụ những mục đích nhất định Vì vậy, quá trình phát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặc một chuyên gia phân tích với các công cụ tin học
1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC
Quá trình khai phá tri thức, từ những cơ sở dữ liệu thực tế sau một hoặc một số bước của quá trình sẽ rút ra được những tri thức mới Các bước trong quá trình này có thể lặp đi lặp lại nhiều lần và được mô tả theo hình sau:
Trang 5Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức
1.4 MÔ HÌNH KHAI PHÁ TRI THỨC
Hình 1.2 Mô hình khai phá tri thức
Hình thành và
xác định vấn đề
Khai phá dữ liệu, rút ra các tri thức
Thu thập và tiền
xử lý dữ liệu
Giải thích kết quả và đánh giá
Sử dụng các tri thức phát hiện được
Trang 61.5 KHO DỮ LIỆU (DATA WAREHOUSE)
Là các cơ sở dữ liệu tích hợp, hướng theo các chủ đề nhất định, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu liên quan đến một khoảng thời gian cụ thể
Kho dữ liệu thường có dung lượng rất lớn, thường là hàng Gigabytes hay có khi tới hàng Terabytes Kho dữ liệu được xây dựng
để tiện lợi cho việc truy cập từ nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và vừa có thể kế thừa được từ các hệ thống đã có từ trước Dữ liệu được phát sinh từ các hoạt động hàng ngày và được thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức, vì vậy thường được gọi là dữ liệu tác nghiệp và hoạt động xử
lý dữ liệu này gọi là xử lý giao dịch trực tuyến (OLPT - On Line
Transaction Processing)
1.6 LUẬT KẾT HỢP
Nhằm phát hiện ra các Luật kết hợp giữa các thành phần dữ
liệu trong cơ sở dữ liệu Các luật kết hợp có thể là một cách hình thức hóa đơn giản Chúng rất thích hợp cho việc tạo ra các kết quả có
dữ liệu dạng nhị phân Giới hạn cơ bản của phương pháp này là ở chỗ các quan hệ cần phải thưa theo nghĩa không có tập thường xuyên nào chứa nhiều hơn 15 thuộc tính Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến và nếu như một tập phổ biến có kích thước K thì phải có ít nhất là 2K tập phổ biến Thông tin về các tập phổ biến được sử dụng để ước lượng
độ tin cậy của các tập luật kết hợp
1.6.1 Lý thuyết về luật kết hợp
1.6.2 Định nghĩa luật kết hợp
Mà các luật đều phải thoả mãn một ngưỡng hỗ trợ và tin cậy
cụ thể Thực vậy, cho một tập các giao dịch D, bài toán phát hiện luật
Trang 7kết hợp là sinh ra tất cả các luật kết hợp mà có độ tin cậy conf lớn hơn độ tin cậy tối thiểu mincon và độ hỗ trợ sup lớn hơn độ hỗ trợ tối thiểu minsup tương ứng do người dùng xác định Khai phá luật kết hợp được phân thành hai bài toán
1.6.3 Một số tính chất liên quan đến các hạng mục phổ biến (frequent itemset)
Tính chất 1: Độ hỗ trợ (support) cho tất cả các tập con
(subset)
Tính chất 2: Nếu một mục trong A không có độ hỗ trợ tối
thiểu trên D nghĩa là support(A)< minsup thì một tập con B của A sẽ không phải là một tập phổ biến vì support(B) ≤ support(A) < minsup
Tính chất 3: Nếu mục B là mục phổ biến trên D, nghĩa là
support(B) ≥ minsup thì mọi tập con A của B là tập phổ biến trên D
vì support(A) ≥ support(B) > minsup
1.6.4 Một số hướng tiếp cận trong khai phá luật kết hợp
Luật kết hợp nhị phân (binary association rule hoặc boolean association rule); Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorial association rule); Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set): Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô
1.6.5 Phát biểu bài toán phát hiện luật kết hợp
Xét ví dụ đối tượng trong giao dịch cho vay khách hàng tại đơn vị Tập các giao dịch (ở đây coi là tập các mục) I = {khá, tốt, trung bình, xấu} và số các đối tượng cho vay là 4 giao dịch (|T| = 4), trong đó T = {1, 2, 3, 4} – ký hiệu các giao dịch TID
1.6.6 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân
Trang 8Hệ thông tin nhị phân; Tập chỉ báo phổ biến nhị phân; Các luật
kết hợp phổ biến nhị phân và hệ số tin cậy; Các vectơ chỉ báo nhị; phân và các phép toán; Tích vectơ chỉ báo nhị phân; Độ hỗ trợ các vectơ chỉ báo nhị phân
1.6.7 Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị phân
Thuật toán Apriori-Tid có hai pha
1.6.8 Khai phá luật kết hợp trên hệ thông tin mờ
1.7 MẠNG NEURON
Kỹ thuật mạng Nơ-ron là kỹ thuật mới liên quan đến việc phát triển các cấu trúc toán học với khả năng học Mạng Nơ-ron có thể đưa ra ý nghĩa từ dữ liệu phức tạp nhiều chiều và phát hiện xu hướng của dữ liệu mà các kỹ thuật khác không thể thực hiện được Mạng Nơ-ron có khả năng mô hình hoá những dữ liệu phức tạp và nhiều chiều Khi dữ liệu tăng lên, các kỹ thuật truyền thống khác có thể không giải quyết được, nhưng mạng Nơ-ron có khả năng giải quyết tốt
1.7.1 Khái niệm mạng Nơ-ron
1.7.2 Mạng Nơ-ron truyền thẳng
Cấu trúc của mạng Nơ-ron gồm các nút, mỗi nút đều có các
trọng số và được bố trí trên các tầng như: Tầng vào; Tầng ẩn;Tầng
ra.
.
.
.
Trang 9Hình 1.3: Cầu trúc mạng Nơ-ron truyền thẳng.
1.7.3 Mạng Nơ-ron phản hồi
Tùy sơ đồ kết nối mà mạng có thể là mạng truyền thẳng (feed forward) hoặc phản hồi (recurrent) các đường kết nối là đối xứng hoặc không đối xứng Mạng phản hồi có đường nối phản hồi hoặc có
chu trình giữa các nút Sau đây là cấu trúc của một mạng phản hồi:
Hình 1.4 Cấu trúc mạng Nơ-ron phản hồi
1.7.4 Giải pháp kỹ thuật của mạng Nơ-ron
Mạng Nơ-ron được hiểu theo có hai khía cạnh: tính toán và học Phần tính toán được thực hiện theo thứ tự Phần học thì được thực hiện ngược lại: với số liệu tính toán đầu ra không khớp với mục tiêu, sai số này sẽ làm cơ sở để thay đổi các trọng số nút xuất, sau đó được lan truyền để thay đổi trọng số các nút ẩn Quá trình này được thực hiện nhiều lần cho đến khi kết xuất của mạng tiến gần đến mục tiêu đề ra
1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON
1.8.1 Hàm truyền
Về mặt hình học, hàm truyền có dạng chữ S nên nó được gọi
là hàm dạng S
1.8.2 Tính toán của mạng
Mạng Nơ-ron là một công cụ tính toán, theo nghĩa nào đó thì mạng Nơ-ron làm việc với tư cách là một bảng tra mà không biết phụ
Tầng vào Tầng ẩn Tầng ra
Trang 10thuộc hàm tường minh giữa x và y Việc tính toán của mạng Nơ-ron
số nút có trong mạng
Mạng một nút nhập, một nút xuất
Mạng hai nút nhập
Mạng nhiều nút nhập
Lan truyền tiến
Khi luyện mạng, lan truyền tiến được sử dụng lặp đi lặp lại từ mẫu này đến mẫu khác cho đến khi các trọng số đạt được giá trị thích hợp Khi sử dụng, lan truyền tiến được sử dụng một lần cho từng trường hợp nhập vào
1.8.3 Sự chuẩn bị và học dữ liệu
Học là một trong những đặc tính quan trọng nhất của mạng
Nó chỉ ra cách điều chỉnh trọng số trong quá trình học Trong quá trình học, ta cần biết mức tích cực thực tế so sánh với mức tích cực mong muốn để tính sai số Sai số này sử dụng để điều chỉnh trọng số của mạng
Trong mô hình mạng Nơ-ron thì việc xác định sai số ít nhất là rất khó Phương pháp giảm gradient thường được sử dụng trong các
trường hợp này Phương pháp xem E là một mặt lỗi và xác định các
trọng số qua các bước chính như sau: (1) Chọn một điểm ngẫu nhiên
x 0 trong không gian trọng số; (2) Tính độ dốc của mặt lỗi tại x 0; (3) Cập nhật các trọng số theo hướng dốc nhất của mặt lỗi; (4) Xem
điểm này như điểm x 0 mới; (5) Lặp đi lặp lại quá trình từ (2) đến (4) thì đến một lúc nào đó các giá trị của bộ trọng số sẽ tiếp cận đến điểm thấp nhất trong mặt lỗi
Trọng số nút xuất
Trọng số nút ẩn
1.9 MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC CỦA MẠNG NƠ-RON
Trang 111.9.1 Lý thuyết thống kê học
1.9.2 Cực tiểu rủi ro kinh nghiệm
a Perceptron và luật Delta
b Tri thức đa lớp và Lan truyền ngược
c Radial Basic Fuction Networks
Một kiến trúc mạng Nơ-ron phổ biến khác đang được sử dụng
Kiểu mạng này được gọi là mạng radial basic function (RBF)
d Mạng véc tơ hỗ trợ cho phân lớp
* Trường hợp phân tuyến dữ liệu
* Trường hợp không phân tuyến dữ liệu
* Phần thủ thuật (kernel trick)
* Chọn lựa của các tham số kernel
* Mạng véc tơ hỗ trợ cho việc học có ưu tiên
* Vấn đề học có ưu tiên
* Công thức của vấn đề
* Mô hình tiện ích ẩn
* Mô hình tuyến tính của tiện ích ẩn
* Mô hình phi tuyến tính của tiện ích ẩn
* Ứng dụng kinh tế
1.10 SỰ KẾT HỢP CỦA CÁC KỸ THUẬT
Các kỹ thuật khai phá dữ liệu đều có những ưu và nhược điểm của riêng nó, chẳng hạn mạng Nơ-ron rất hiệu quả trong việc áp dụng khai phá dữ liệu dự đoán cho kết quả tốt mà các kỹ thuật khác không thể làm được Tuy nhiên, việc học của mạng dữ liệu này là rất
Trang 12tốn thời gian, do đó, cần có sự kết hợp giữa các kỹ thuật này với nhau Sự kết hợp này được thể hiện như hình dưới đây:
Hình 1.6: Kết hợp các kỹ thuật để đưa ra giải pháp mới Kết luận chương 1
Như vậy, nhìn vào các phương pháp giới thiệu ở trên, chúng ta thấy có rất nhiều các phương pháp khai phá dữ liệu Mỗi phương pháp có những đặc điểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu nhất định
Tổng kết sơ bộ về khai phá dữ liệu, nguồn gốc và ứng dụng của khai phá dữ liệu Để tìm hiểu rõ hơn về kỹ thuật khai phá dữ liệu, Sau khi giới thiệu các nét cơ bản của lý thuyết thống kê học, chúng ta đã tìm hiểu về định nghĩa mạng Nơ-ron, các kiểu mạng Nơ-ron Đã tìm hiểu các nguyên lý cơ bản của việc học trong mạng Nơ-ron.Chương này cũng đã đề cập đến các thuật toán học thường dùng Đó là: học có tri thức (Perceptron Learning), học lan truyền ngược (Backpropagation Lear) và học với hàm bán kính cơ bản (Radial Basis Function Learning) Qua đó ta thấy mạng nơ-ron có tính chất sau: Là hệ phi tuyến; Là hệ xử lý song song; Là hệ nhiều biến, có nhiều đầu vào/ra rất tiện dùng khi điều khiển đối tượng có nhiều biến số có khả năng học và làm xấp xỉ các hàm toán học bất kỳ với độ chính xác tuỳ ý
Tập mẫu
Trường hợp mới
Kỹ thuật 1 Kỹ thuật 2
Đáp ứng yêu cầu Giải pháp