1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình

87 373 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 2,96 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Từ lý do đó, tôi chọn đề tài: ỨNG DỤNG KHAI PHÁ TRI THỨC XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH để nghiên cứu làm luận văn tốt nghiệp

Trang 1

Tôi xin cam đoan :

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của thầy giáo PGS TS Phan Huy Khánh.

Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng

và trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.

Tác giả

Nguyễn Trần Sỹ

Trang 2

MỤC LỤC 8

DANH MỤC CÁC BẢNG 11

DANH MỤC CÁC HÌNH 12

MỞ ĐẦU 1

2 Mục tiêu và nhiệm vụ 2

3 Đối tượng và phạm vi nghiên cứu 3

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn của đề tài 3

6 Bố cục của luận văn 3

CHƯƠNG 1 5

CƠ SỞ LÝ THUYẾT 5

1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC 5

1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC 5

1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC 6

1.7.1 Khái niệm mạng Nơ-ron 17

1.7.4 Giải pháp kỹ thuật của mạng Nơ-ron 19

1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON 19

1.8.3 Sự chuẩn bị và học dữ liệu 22

1.9 MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC CỦA MẠNG NƠ-RON 27

1.10 SỰ KẾT HỢP CỦA CÁC KỸ THUẬT 47

Kết luận chương 1 48

Bảng 2.1 Một số chỉ tiêu hoạt động chính của VCB Quảng Bình 51

Bảng 2.2 Một số hoạt động tín dụng năm 2010 – 2011 - 2012 52

Bảng 2.3 Kết quả thị phần hoạt động cho vay tại tỉnh Quảng Bình 52

Hình 2.1 khai báo mã vay 56

Hình 2.3 khai báo số hợp đồng vay 57

Hình 2.4 khai báo số tiền vay phải trả 58

Hình 2.5 Màn hình hạch toán tiền vay cho khách hàng 58

2.5 SỰ CẦN THIẾT PHẢI SỬ DỤNG KỸ THUẬT MẠNG NƠ -RON 59

Kết luận chương 2 61

CHƯƠNG 3 62

Trang 3

3.1 CHỌN MÔI TRƯỜNG CÔNG CỤ 64

3.2 TẠO DỮ LIỆU MẪU CHO ỨNG DỤNG 64

Bảng 3.1: Tập dữ liệu đầu vào (300 bản ghi) 67

Bảng 3.2: Tập dữ liệu Huấn luyện (180 bản ghi) 68

Bảng 3.3: Tập dữ liệu Kiểm thử (55 bản ghi) 68

Bảng 3.4: Tập dữ liệu kết quả 68

3.3 CÀI ĐẶT THUẬT TOÁN 69

3.4 HUẤN LUYỆN, KIỂM THỬ VÀ KẾT QUẢ 74

Bảng 3.5: Tập dữ liệu kết quả 74

3.5 ĐÁNH GIÁ VỀ GIẢI PHÁP 75

Kết luận chương 3 75

TÀI LIỆU THAM KHẢO 78

Trang 4

CHỮ VIẾT

API Application Program Interface Giao diện chương trình ứng

dụngSQL Structure Query Language Ngôn ngữ hỏi cấu trúc

BI Business Intelligent

SVL Support Vector Learning Hỗ trợ sự học véc tơ

ERM Empirical Risk Minimization Cực tiểu hoá thực nghiệmSRM Structural Risk Minimization Cực tiểu hoá cấu trúc

PL Perceptron Learning Học có tri thức

MP Multilayer Perceptron Tri thức đa lớp

BA Backpropagation algorithm Thuật toán Lan truyền ngược

Trang 5

Bảng 2.2 Một số hoạt động tín dụng năm 2010 – 2011 - 2012 52

Bảng 2.3 Kết quả thị phần hoạt động cho vay tại tỉnh Quảng Bình 52

Bảng 3.1: Tập dữ liệu đầu vào (300 bản ghi) 67

Bảng 3.2: Tập dữ liệu Huấn luyện (180 bản ghi) 68

Bảng 3.3: Tập dữ liệu Kiểm thử (55 bản ghi) 68

Bảng 3.4: Tập dữ liệu kết quả 68

Bảng 3.5: Tập dữ liệu kết quả 74

Trang 6

với lớp vào X = Rn = R2, lớp ẩn Rr = R3 và lớp ra Y = Rm = R1 Ở đây, không xem lớp vào như là một lớp tính toán 33 Hình 1.6: Kết hợp các kỹ thuật để đưa ra giải pháp mới 48

Trang 7

MỞ ĐẦU

1 Giới thiệu và lý do chọn đề tài

Sự phát triển của công nghệ thông tin đã mang lại cho nhân loại nhiềutiện lợi và giúp giải quyết những công việc tưởng chừng như con người khôngthể giải quyết được Trong đó, khai phá tri thức trong cơ sở dữ liệu đang làmột xu hướng quan trọng của nền Công nghệ thông tin thế giới Nó có khảnăng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau Bước quan trongnhất của quá trình này là khai phá tri thức từ dữ liệu, giúp con người thu đượcnhững tri thức hữu ích từ những cơ sở dữ liệu hoặc các nguồn dữ liệu khổng

lồ khác Một số ít ngân hàng thương mại, doanh nghiệp và tổ chức trên thếgiới đã ứng dụng kỹ thuật khai phá tri thức từ dữ liệu vào các hoạt động tíndụng để phát triển sản xuất và kinh doanh, đã và đang thu được những lợi ích

to lớn

Hiện nay, việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực củađời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữliệu đã được các cơ quan, các tổ chức tín dụng thu thập và lưu trữ ngày mộttích luỹ nhiều lên Người ta lưu trữ các dữ liệu này vì cho rằng trong nó ẩnchứa những giá trị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ có mộtlượng nhỏ của những dữ liệu này (khoảng từ 20% đến 25%) là luôn đượcphân tích, số còn lại người ta không biết sẽ phải làm gì hoặc có thể làm gì vớichúng nhưng vẫn phải tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ cócái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, trongmôi trường cạnh tranh khốc liệt như hiện nay và sự xuất hiện nhiều nhiềungân hàng thương mại và nền kinh tế đang có chuyển biến xấu và đầy phứctạp, nhân viên ngân hàng ngày càng cần có nhiều thông tin với tốc độ nhanh

để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất

Trang 8

định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có.Việc ứng dụng công nghệ thông tin trong ngân hàng đang rất cần thiết, đặcbiệt là ứng dụng khai phá tri thức từ dữ

liệu Đem lại hiệu quả cao trong công việc cũng như trong công tác điều hànhquản lý và ra quyết định

Xuất phát từ thực tế và nhu cầu nắm bắt, trang bị hạ tầng về công nghệthông tin của cơ quan, tổ chức để hiện đại hoá công việc, giúp giải quyếtnhanh chóng, nâng cao hiệu quả và dự báo chính xác trong công việc nhất làtrong lĩnh vực kinh doanh, thương mại điện tử trong vấn đề trợ giúp thẩmđịnh vay vốn tại ngân hàng Từ lý do đó, tôi chọn đề tài:

ỨNG DỤNG KHAI PHÁ TRI THỨC

XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN

TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH

để nghiên cứu làm luận văn tốt nghiệp cao học ngành Khoa học máy tính.Trong đó, tập trung vào nghiên cứu kỹ thuật mạng Nơ-ron, áp dụng trong việckhai phá tri thức từ dữ liệu để giải quyết bài toán

2 Mục tiêu và nhiệm vụ

Mục tiêu của đề tài tìm hiểu các khai phá tri thức trong lĩnh vực hoạtđộng thẩm định vay vốn tại ngân hàng, đặc biệt là vấn đề ra quyết định tronghoạt động thẩm định tín dụng đạt kết quả ra sao

Nhiệm vụ cơ bản của nghiên cứu

(1) Thu thập và phân tích dữ liệu tri trức về tình hình khách hàng đượcthẩm định

(2) Tìm hiểu bài toán thực tế: Thẩm định hoạt động vay vốn ngân hàng (3) Tìm hiểu tổng tổng quan về các kỷ thuật khai phá tri thức

Trang 9

(4) Tìm hiểu cơ sở lý thuyết khai phá luật kết hợp, kỷ thuật mạng Nơ-ron (5) Xây dựng mô hình và phân tích thiết kế hệ thống trợ giúp dự báothẩm định vay vốn trong ngân hàng.

3 Đối tượng và phạm vi nghiên cứu

Đối tượng chủ yếu để nghiên cứu luật kết hợp và kỹ thuật mạng Nơ-ron,các thuật toán học của mạng Nơ-ron, đặc biệt là thuật toán lan truyền ngược(Back propagation algorithm)

Bên cạnh đó, tôi cũng sẽ tìm hiểu các chiến lược, hoạt động kinh doanhngành ngân hàng trong thực tế Từ đó, phục vụ cho việc xem xét tính toán độrủi ro trong việc phê duyệt một đơn vay tín dụng của ngân hàng rồi đi đếnquyết định là có cho vay đối với đơn vay đó hay là từ chối cho vay Ngoài ra,cũng cần phải nắm được các kỹ thuật lập trình cơ bản trên nền Window

4 Phương pháp nghiên cứu

Thu thập, phân tích các tài liệu và thông tin liên quan đến đề tài

Xem xét, lựa chọn phương hướng giải quyết vấn đề

Xây dựng mô hình theo lý thuyết

Triển khai xây dựng chương trình ứng dụng trên máy tính

Kiểm tra, thử nghiệm và đánh giá kết quả.

5 Ý nghĩa khoa học và thực tiễn của đề tài

Ý nghĩa khoa học của đề tài là nghiên cứu và phát triển một mô hìnhkhai phá dữ liệu nhằm dự báo độ rủi ro trong việc phê duyệt đơn vay tín dụngcủa ngân hàng, dựa trên kỹ thuật mạng Nơ-ron Việc dự báo các kết quả sẽ hỗtrợ, trợ giúp cho nhà quản lý trong việc ra các quyết định tối ưu

6 Bố cục của luận văn

Luận văn bao gồm các phần như sau:

Trang 10

về giải pháp của đề tài trong việc ứng dụng thực tiễn của vấn đề cũng như cónhững so sánh với các giải pháp khác.

Kết luận của đề tài về các mặt làm được, khả năng ứng dụng, những ưu vànhược điểm và hướng phát triển trong tương lai

Trang 11

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT

1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC

Phát hiện tri thức là khái niệm ra đời vào những năm cuối của thập kỷ 80

và đã trở thành một lĩnh vực được nguyên cứu rộng rãi trên toàn cầu Sự rađời của phát hiện tri thức là sự kết hợp kết quả nguyên cứu của nhiều ngànhkhoa học khác lại với nhau như: Quản trị cơ sở dữ liệu, học máy, thống kê …

1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC

Khai phá tri thức (Khai phá tri thức-Knowledge Discovery in Databases)trong các cơ sở dữ liệu là quá trình phát hiện những tri thức tiềm ẩn, khôngbiết trước, và có ích trong trong cơ sở dữ liệu Thực chất đó là quá trình tìmkiếm những thông tin có trong cơ sở dữ liệu nhưng bị che giấu trong các khối

dữ liệu

Tri thức ở đây có thể được hiểu là một biểu thức trong một ngôn ngữ nàođó diễn tả một hoặc nhiều mối quan hệ giữa các thuộc tính trong các dữ liệuđó Các ngôn ngữ thường dùng để diễn tả tri thức trong việc biểu diễn tri thứctrong quá trình phát hiện tri thức từ cơ sở dư liệu là các khung (frames), cáccây và đồ thị, các luật, các công thức trong logic mệnh đề hoặc logic tân từcấp một

Việc khai phá tri thức thường được áp dụng để giải quyết một loạt nhữngyều cầu phục vụ những mục đích nhất định Do vậy nên quá trình phát hiện trithức mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức màphát hiện những tri thức phục vụ tốt một nhiệm vụ đề ra Vì vậy, quá trìnhphát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặcmột chuyên gia phân tích với các công cụ tin học

Trang 12

1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC

Quá trình khai phá tri thức,từ những cơ sở dữ liệu thực tế sau một hoặcmột số bước của quá trình sẽ rút ra được những tri thức mới Các bước trongquá trình này có thể lặp đi lặp lại nhiều lần và được mô tả theo hình sau:

Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức

Bước 1: Hình thành, xác định được vấn đề Là tìm hiểu lĩnh vực ứng

dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành.Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phépchọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng vàbản chất của dữ liệu

Bước 2: Thu thập và tiền xử lý dữ liệu Là thu thập và xử lý thô, còn

được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lýviệc thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếucần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trìnhphát hiện tri thức Do dữ liệu được lấy từ nhiều nguồn khác nhau, không đồngnhất, … có thể gây ra các nhầm lẫn Sau bước này, dữ liệu sẽ nhất quán, đầy

đủ, được rút gọn và rời rạc hoá

Hình thành và

xác định vấn đề

Khai phá dữ liệu, rút ra các tri thức

Trang 13

Bước 3: Khai phá dữ liệu, rút ra các tri thức Là khai phá dữ liệu, hay

nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu.Giai đoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm

vụ và mục đích của khai phá dữ liệu, dùng phương pháp khai phá nào Thôngthường, các vấn đề khai phá dữ liệu bao gồm: các bài toán mang tính mô tả -đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việcphát hiện các suy diễn dựa trên dữ liệu hiện có, tuỳ theo bài toán xác địnhđược mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp

Bước 4: Giải thích kết quả và đánh giá các mẫu, tìm được ở giai đoạn 3 Bước 5: Sử dụng các tri thức phát hiện được Là hiểu tri thức đã tìm

được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Các bước trên có thể lặp

đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cảcác lần thực hiện Các kết quả của quá trình phát hiện tri thức có thể được đưa

và ứng dụng trong các lĩnh vực khác nhau Do các kết quả có thể là các dựđoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ raquyết định nhằm tự động hóa quá trình này

1.4 MÔ HÌNH KHAI PHÁ TRI THỨC

Trang 14

Hình 1.2 Mô hình khai phá tri thức

1.5 KHO DỮ LIỆU (DATA WAREHOUSE)

Là các cơ sở dữ liệu tích hợp, hướng theo các chủ đề nhất định, đượcthiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệuliên quan đến một khoảng thời gian cụ thể

Kho dữ liệu thường có dung lượng rất lớn, thường là hàng Gigabytes haycó khi tới hàng Terabytes

Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập từ nhiều nguồn,nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụngcủa các công nghệ hiện đại và vừa có thể kế thừa được từ các hệ thống đã cótừ trước Dữ liệu được phát sinh từ các hoạt động hàng ngày và được thu thậpxử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức, vì vậy thường

được gọi là dữ liệu tác nghiệp và hoạt động xử lý dữ liệu này gọi là xử lý giao

dịch trực tuyến (OLPT - On Line Transaction Processing).

1.6 LUẬT KẾT HỢP

Trang 15

Nhằm phát hiện ra các Luật kết hợp giữa các thành phần dữ liệu trong cơ

sở dữ liệu Mẫu đầu ra của giải thuật khai phá tri thức từ dữ liệu là tập luật kếthợp tìm được Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sựkết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bảnghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A => B

- Cho một lược đồ R={A1, …, Ap} các thuộc tính với miền giá trị {0,1}, vàmột quan hệ r trên R Một luật kết hợp trên r được mô tả dưới dạng X=>B với

X ⊆ R và B ∈ R\X Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật nhưsau: nếu một bản ghi của bảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giátrị của thuộc tính B cũng là 1 trong cùng bản ghi đó Ví dụ như ta có tập cơ sở

dữ liệu về các gói tín dụng trong ngân hàng, các dòng tương ứng với các ngày

vay gói tín dụng đó, các cột tương ứng với các khoản tiền thì giá trị 1 tại ô

(20/10, vay) xác định rằng gói tín dụng đã vay ngày hôm đó cũng kéo theo sựxuất hiện giá trị 1 tại ô (20/10, nợ)

Cho W ⊆ R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng

tỷ lệ của các hàng trong r có giá trị 1 tại mỗi cột thuộc W Tần số xuất hiệncủa luật X=>B trong r được định nghĩa là s(X ∪ {B}, r) còn gọi là độ hỗ trợcủa luật, độ tin cậy của luật là s(X ∪ {B}, r)/s(X, r) Ở đây X có thể gồmnhiều thuộc tính, B là giá trị không cố định Nhờ vậy mà không xảy ra việctạo ra các luật không mong muốn trước khi quá trình tìm kiếm bắt đầu Điềuđó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của sốlượng các thuộc tính ở đầu vào Do vậy cần phải chú ý khi thiết kế dữ liệu choviệc tìm kiếm các luật kết hợp

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luậtX=>B sao cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tincậy của luật không nhỏ hơn ngưỡng θ cho trước Từ một cơ sở dữ liệu ta cóthể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp

Trang 16

Ta gọi một tập con X ⊆ R là thường xuyên trong r nếu thỏa mãn điềukiện s(X, r)≥σ Nếu biết tất cả các tập thường xuyên trong r thì việc tìm kiếmcác luật rất dễ dàng Vì vậy, giải thuật tìm kiếm các luật kết hợp trước tiên đitìm tất cả các tập thường xuyên này, sau đó tạo dựng dần các luật kết hợpbằng cách ghép dần các tập thuộc tính dựa trên mức độ thường xuyên.

Các luật kết hợp có thể là một cách hình thức hóa đơn giản Chúng rấtthích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân Giới hạn cơbản của phương pháp này là ở chỗ các quan hệ cần phải thưa theo nghĩakhông có tập thường xuyên nào chứa nhiều hơn 15 thuộc tính Giải thuật tìmkiếm các luật kết hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến

và nếu như một tập phổ biến có kích thước K thì phải có ít nhất là 2K tập phổbiến Thông tin về các tập phổ biến được sử dụng để ước lượng độ tin cậy củacác tập luật kết hợp

1.6.1 Lý thuyết về luật kết hợp

Cho một tập I = {I1, I2, ,Im} các tập m khoản mục (item), một giaodịch (transaction) T được định nghĩa như một tập con (subset) của các khoảnmục trong I (T I) Tương tự như khái niệm tập hợp, các giao dịch khôngđược trùng lặp, nhưng có thể nới rộng tính chất này của tập hợp và trong cácthuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giaodịch và trong tất cả các tập mục (item set) khác, có thể coi chúng đã được sắpxếp theo thứ tự từ điển của các item

Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn vớimột định danh duy nhất (Unique Transasction Identifier) Nói rằng, một giaodịch T∈D hỗ trợ (support) cho một tập X I nếu nó chứa tất cả các item của

X, nghã là X T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉtập các giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ

Trang 17

phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩalà:

Sup(X)

Độ hỗ trợ tối thiểu (minimum support) minsup là một giá trị cho trước

bởi người sử dụng Nếu tập mục X có sup(X) ≥ minsup thì ta nói X là một tậpcác mục phổ biến (hoặc large itemset) Một tập phổ biến được sử dụng nhưmột tập đáng quan tâm trong các thuật toán, ngược lại, những tập không phảitập phổ biến là những tập không đáng quan tâm Trong các trình bày sau này,

ta sẽ sử dụng những cụm từ khác như “X có độ hỗ trợ tối thiểu”, hay “Xkhông có độ hỗ trợ tối thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏamãn support(X) ≥ minsup

Một khoản mục X được gọi là k- itemset nếu lực lượng của X bằng k,tức là |X|=k

1.6.2 Định nghĩa luật kết hợp

Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục, X, Y

I và X ∩Y = Ø X được gọi là tiên đề và Y được gọi là hệ quả của luật

Luật X => Y tồn tại một độ tin cậy c (confidence-conf) Độ tin cậy c

được định nghĩa là khả năng giao dịch T hỗ trợ X thì cúng hỗ trợ Y Ta có

công thức tính độ tin cậy c như sau:

conf(X =>Y) = p(Y I | X I ) = =

Tuy nhiên, không phải bất cứ luật kết hợp nào có mặt trong tập các luậtcó thể được sinh ra cũng đều có ý nghĩa trên thực tế Mà các luật đều phảithoả mãn một ngưỡng hỗ trợ và tin cậy cụ thể Thực vậy, cho một tập các giaodịch D, bài toán phát hiện luật kết hợp là sinh ra tất cả các luật kết hợp mà có

Trang 18

độ tin cậy conf lớn hơn độ tin cậy tối thiểu mincon và độ hỗ trợ sup lớn hơn

độ hỗ trợ tối thiểu minsup tương ứng do người dùng xác định Khai phá luậtkết hợp được phân thành hai bài toán con:

Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tốt

thiểu do người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu đượcgọi là các tập mục phổ biến

Bài toán 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn.

Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng tacó thể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:

Conf =

nếu conf ≥ mincon thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối

thiểu vì ABCD là phổ biến)

1.6.3 Một số tính chất liên quan đến các hạng mục phổ biến (frequent itemset)

Tính chất 1: Độ hỗ trợ (support) cho tất cả các tập con (subset): nếu A

⊑ B, A, B là tập các mục thì sup(A) ≥ sup(B) vì tất cả các giao dịch của D hỗtrợ B thì cũng hỗ trợ A

Tính chất 2: Nếu một mục trong A không có độ hỗ trợ tối thiểu trên D

nghĩa là support(A)< minsup thì một tập con B của A sẽ không phải là mộttập phổ biến vì support(B) ≤ support(A) < minsup

Tính chất 3: Nếu mục B là mục phổ biến trên D, nghĩa là support(B) ≥

minsup thì mọi tập con A của B là tập phổ biến trên D vì support(A) ≥support(B) > minsup

Trang 19

1.6.4 Một số hướng tiếp cận trong khai phá luật kết hợp

Luật kết hợp nhị phân (binary association rule hoặc boolean associationrule)

Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative andcategorial association rule)

Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base

on rough set): Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô

Luật kết nhiều mức (multi-level association rule)

Luật kết hợp mờ (fuzzy association rule)

Luật kết với thuộc tính được đánh trọng số (association rule withweighted items)

Luật kết hợp song song (parallel mining of association rules)

Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhànghiên cứu còn chú trọng đề xuất những thuật toán nhằm tăng tốc quá trìnhtìm kiếm tập phổ biến từ cơ sở dữ liệu

Ngoài ra, còn có một số hướng nghiên cứu khác về khai thác luật kết hợpnhư: khai thác luật kết hợp trực tuyến, khai thác luật kết hợp được kết nối trựctuyến đến các kho dữ liệu đa chiều (Multidimensional data, data warehouse) thông qua công nghệ OLAP (Online Analysis Processing), MOLAP (Mutidie)ROLAP (Relational OLAP), ADO (Active X Data Object) for OLAP v v

1.6.5 Phát biểu bài toán phát hiện luật kết hợp

Xét ví dụ đối tượng trong giao dịch cho vay khách hàng tại đơn vị Tậpcác giao dịch (ở đây coi là tập các mục) I = {khá, tốt, trung bình, xấu} và sốcác đối tượng cho vay là 4 giao dịch (|T| = 4), trong đó T = {1, 2, 3, 4} – kýhiệu các giao dịch TID

Trang 20

TID Tập các mục trong giao dịch

1 Khá, Tốt, Xấu

2 Tốt, Trung bình, Xấu

4 Khá, Tốt Từ bảng giao dịch trên ta rút ra:

TT Tập các mục trong giao dịch Độ hỗ trợ tương ứng

1 Ø Không có đối tượng nào 0%

Với giá trị độ hỗ trợ tối thiểu minsup = 50 % thì tập mục phổ biến là:

TT Tập các mục phổ biến Độ hỗ trợ tương ứng

Trang 21

Nếu cho độ tin cậy tối thiểu là mincon = 60 % thì ta có các luật sau:

1.6.6 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân

Hệ thông tin nhị phân

Tập chỉ báo phổ biến nhị phân

Các luật kết hợp phổ biến nhị phân và hệ số tin cậy

Các vectơ chỉ báo nhị phân và các phép toán

Tích vectơ chỉ báo nhị phân

Độ hỗ trợ các vectơ chỉ báo nhị phân

1.6.7 Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị phân

Thuật toán Apriori-Tid có hai pha:

Pha 1: Phát hiện các tập chỉ báo phổ biến dựa trên ngưỡng minsup cho

trước

Pha 2: Xây dựng các luật kết hợp dựa trên một ngưỡng mincom cho

trước

Cho ma trận thông tin nhị phân SB = (O, D, B,χ) và một ngưỡng Ө, β ∈

(0, 1) Trong đó Ө là minsup và β là mincon

1.6.8 Khai phá luật kết hợp trên hệ thông tin mờ

Các định nghĩa về tập mờ

Trang 22

Các phép toán cơ bản trên tập logic mờ: Phép hợp hai tập mờ, phép giao, phép bù, phép bằng nhau, tập con, luật DeMorgan.

Áp dụng tập mờ để rời rạc hoá dữ liệu và quan điểm của phương pháp này: Phương pháp áp dụng và các ưu điểm của phương pháp này

Thuật toán Apriori

1.7 MẠNG NEURON

Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triểncác cấu trúc toán học với khả năng lọc Các phương pháp là kết quả của việcnghiên cứu mô hình học của hệ thống thần kinh con người Mạng neuron cóthể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thểđược sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phứctạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiệnđược

Khi đề cập đến khai phá dữ liệu, người ta thường đề cập nhiều đến mạngneuron Tuy mạng neuron có một số hạn chế gây khó khăn trong việc áp dụng

và triển khai nhưng nó cũng có những ưu điểm đáng kể Một trong số những

ưu điểm phải kể đến của mạng neuron là khả năng tạo ra các mô hình dự đoáncó độ chính xác cao, có thể áp dụng được cho rất nhiều loại bài toán khácnhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp,phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian,…

Đặc điểm của mạng neuron là không cần gia công dữ liệu nhiều trướckhi bắt đầu quá trình học như các phương pháp khác Tuy nhiên, để có thể sử

Trang 23

dụng mạng neuron có hiệu quả cần phải xác định các yếu tố khi thiết kế mạngnhư:

Mô hình mạng là gì?

Mạng cần có bao nhiêu nút?

Khi nào thì việc học dừng để tránh bị “học quá”?

Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữliệu trước khi đưa vào mạng neuron để mạng có thể hiểu được (ví dụ như việcchuẩn hoá dữ liệu, đưa tất cả các tiêu chuẩn dự đoán về dạng số)

Mạng neuron được đóng gói với những thông tin trợ giúp của cácchuyên gia đáng tin cậy và được các chuyên gia đảm bảo các mô hình nàylàm việc tốt Sau khi học, mạng có thể được coi là một chuyên gia trong lĩnhvực thông tin mà nó vừa được học

Kỹ thuật mạng Nơ-ron là kỹ thuật mới liên quan đến việc phát triển cáccấu trúc toán học với khả năng học Mạng Nơ-ron có thể đưa ra ý nghĩa từ dữliệu phức tạp nhiều chiều và phát hiện xu hướng của dữ liệu mà các kỹ thuậtkhác không thể thực hiện được Mạng Nơ-ron có khả năng mô hình hoánhững dữ liệu phức tạp và nhiều chiều Khi dữ liệu tăng lên, các kỹ thuậttruyền thống khác có thể không giải quyết được, nhưng mạng Nơ-ron có khảnăng giải quyết tốt

1.7.1 Khái niệm mạng Nơ-ron

Mạng Nơ-ron là một hệ thống bao gồm nhiều phần tử xử lý đơn giảncùng hoạt động song song

Trang 24

Tính năng hoạt động của hệ thống phụ thuộc vào cấu trúc hệ thống,cường độ liên kết giữa các phần tử trong hệ thống và quá trình xử lý bên trongcác phần tử đó Hệ thống có thể học từ các số liệu và có khả năng tổng quáthoá từ các dữ liệu.

Trang 25

Trong mạng truyền thẳng, tất cả các đường nối có hướng từ tầng vào đến tầng

ra Mạng phản hồi có đường nối phản hồi hoặc có chu trình giữa các nút Sauđây là cấu trúc của một mạng phản hồi:

Hình 1.4 Cấu trúc mạng Nơ-ron phản hồi

1.7.4 Giải pháp kỹ thuật của mạng Nơ-ron

Mạng Nơ-ron được hiểu theo có hai khía cạnh: tính toán và học Phầntính toán được thực hiện theo thứ tự: dữ liệu được nhập vào các nút nhập, sauđó được truyền đến xử lý tính toán trên các nút ẩn, cuối cùng chuyển đến cácnút xuất xử lý và cho kết quả Phần học thì được thực hiện ngược lại: với sốliệu tính toán đầu ra không khớp với mục tiêu, sai số này sẽ làm cơ sở để thayđổi các trọng số nút xuất, sau đó được lan truyền để thay đổi trọng số các nút

ẩn Quá trình này được thực hiện nhiều lần cho đến khi kết xuất của mạng tiếngần đến mục tiêu đề ra

1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON

1.8.1 Hàm truyền

Trong một nút Nơ-ron, sự tính toán của nó có sử dụng một hàm toán họcgọi là hàm truyền mà với tham số là tổng các trọng số nhân với các giá trị đầuvào Về mặt hình học, hàm truyền có dạng chữ S nên nó được gọi là hàmdạng S

Tầng vào Tầng ẩn Tầng ra

Trang 26

Một hàm s(u) là một hàm truyền nếu nó thoả: s(u) là hàm bị chặn, đơnđiệu tăng và liên tục Do tính bị chặn nên khi u tăng thì s(u) lớn dần nhưngkhông bao giờ vượt quá cận trên và tương tự như vậy cho cận dưới.

Mọi hàm có 3 tính chất trên đều có thể sử dụng làm hàm truyền Tuynhiên, các hàm sau đây là hay được dùng:

Hàm logistic:

u

e

u g

1 1

1 ) (

1.8.2 Tính toán của mạng

Mạng ron là một công cụ tính toán, theo nghĩa nào đó thì mạng ron làm việc với tư cách là một bảng tra mà không biết phụ thuộc hàm tường

Nơ-minh giữa x và y Việc tính toán của mạng Nơ-ron phụ thuộc vào các kiểu

mạng khác nhau, tức là số nút có trong mạng

Trang 27

Sau khi các nút ẩn tính toán xong, kết xuất của chúng là các yj (j = 1 J).Với J: số nút ẩn Các yj này sẽ truyền sang nút xuất Nút xuất sẽ tính toán nhưsau:

Vậy giá trị kết xuất của nút xuất là z = g(v) Với yj là kết xuất của nút

Trang 28

trong đó, J nút ẩn có nút kết xuất y j , b jk là các trọng trên các cung liên kết

từ nút ẩn j đến nút xuất k, còn b 0k là các trọng ngưỡng của nút xuất thứ k.

d Lan truyền tiến

Quá trình tính toán như trên gọi là tiến trình lan truyền tiến, quá trìnhnày tính toán các giá trị nút xuất từ các trường hợp của dạng chuẩn nhập vàomạng Tiến trình này được sử dụng trong hai tình huống: khi huấn luyệnmạng và khi sử dụng mạng

Khi luyện mạng, lan truyền tiến được sử dụng lặp đi lặp lại từ mẫu nàyđến mẫu khác cho đến khi các trọng số đạt được giá trị thích hợp Khi sửdụng, lan truyền tiến được sử dụng một lần cho từng trường hợp nhập vào

1.8.3 Sự chuẩn bị và học dữ liệu

Học là một trong những đặc tính quan trọng nhất của mạng Nó chỉ racách điều chỉnh trọng số trong quá trình học Trong quá trình học, ta cần biếtmức tích cực thực tế so sánh với mức tích cực mong muốn để tính sai số Sai

số này sử dụng để điều chỉnh trọng số của mạng

Học là quá trình tìm các trọng số của mạng sao cho giá trị đầu ra của nókhớp với bộ dữ liệu chứa các mẫu của hàm đích (mục tiêu) Sai số trung bình

Trang 29

bình phương thường được sử dụng để đo lường sự trùng khớp giữa kết xuất

mạng và hàm đích cho trước Sai số trung bình bình phương E được tính như

sau:

K N

t z E

N k

kn kn N

n

.

) (

t kn = (t k1 , ,t kn ) các giá trị đầu ra của mạng Nơ-ron

z kn = (z k1 , ,z kn ) các giá trị đầu ra của hàm đích

Hồi qui tuyến tính là phương pháp cho phép xác định tập các hệ số của

mô hình tuyến tính của một tập mẫu cho trước sao cho sai số trung bình bìnhphương là nhỏ nhất Trong mô hình mạng Nơ-ron thì việc xác định sai số ítnhất là rất khó Phương pháp giảm gradient thường được sử dụng trong các

trường hợp này Phương pháp xem E là một mặt lỗi và xác định các trọng số

qua các bước chính như sau:

(1) Chọn một điểm ngẫu nhiên x 0 trong không gian trọng số

(2) Tính độ dốc của mặt lỗi tại x 0

(3) Cập nhật các trọng số theo hướng dốc nhất của mặt lỗi

(4) Xem điểm này như điểm x 0 mới

(5) Lặp đi lặp lại quá trình từ (2) đến (4) thì đến một lúc nào đó các giátrị của bộ trọng số sẽ tiếp cận đến điểm thấp nhất trong mặt lỗi Trong toán

Trang 30

học, độ dốc mặt lỗi được xác định qua đạo hàm riêng của từng trọng số trongmạng Nơ-ron Sau khi biết được độ dốc của mặt lỗi, thông tin này có thể đượcsử dụng nhiều cách khác nhau để cập nhật các trọng số.

Đạo hàm hàm lỗi đơn giản là tổng đạo hàm hàm lỗi tính trên từng trườnghợp của tập mẫu Do đó, tập trung phân tích và tìm cách tính đạo hàm hàm lỗitrên từng trường hợp Phương pháp này dựa trên qui tắc chuỗi như sau:

w

w w

w w

là đạo hàm riêng của hàm lỗi E lấy theo trọng số w và trọng

số này tương ứng trên các nút ẩn, nút xuất của mạng w1, w2, , wn là các hàm

Do vậy mạng Nơ-ron thực chất cũng là một hàm hợp của nhiều hàm

Trước tiên, ta xét các trọng số của nút ẩn ảnh hưởng đến hàm lỗi như thếnào Rõ ràng trọng số nút ẩn đã ảnh hưởng trực tiếp đến tổng trọng hoá trênnút nhập và làm thay đổi giá trị hàm truyền của nút này Giá trị này chuyểncho tất cả các nút xuất, cuối cùng giá trị kết xuất của mạng sẽ so sánh với kếtxuất đích để xác định sai số Thuật toán học lan truyền ngược xem xét tácđộng này bằng cách đi ngược quá trình trên

a Trọng số nút xuất

Chuỗi tính trọng số nút xuất b có ba số hạng:

b

v v

z z

E b

Một nút xuất không ảnh hưởng gì đến các sai số của nút xuất khác nếu

nút xuất đang xét có giá trị là z và giá trị đúng của nó là t, thì sai số bình

phương là:

2( )2

1

t z

Trang 31

Vì t không đổi nên bất kỳ thay đổi nào của z cũng làm thay đổi E và tỉ lệ

1

1 ) 1 ( 1

1

1 1

1 )

(

2 2

2 '

z z

v

z

z z e

e e

e v

z

e v

z

e v

g

z

v

v v

v v v

− +

= +

j j

j y b b

v

1 0

trong đó, b0 là trọng ngưỡng, bj là các trọng số liên kết đến nút xuất và yj

các giá trị xuất của các nút ẩn

z

=

, tức là v thay đổi cùng tỉ lệ với trọng

số b0 và v thay đổi một lượng bằng với giá trị nút ẩn tương ứng.

Trong trường hợp tồn tại các cung nối trực tiếp từ các nút nhập đến các

nút xuất, ta có i

j

x b

Trang 32

Đặt (z t)z( 1 z)

v

z z

j p

b

E

J j

j j

y y

k

v v

z z

E

y

E

1

Công thức này thể hiện việc ảnh hưởng của nút ẩn vào hàm E là một

tổng của tích 3 số hạng theo tất cả các nút xuất (k = 1,…,K) Hai số hạng đầucó ý nghĩa tương tự như trong phần a, chúng là thay đổi của lỗi theo kết xuất

của nút xuất và thay đổi của nút xuất theo tổng trọng hóa các đầu vào của nó Với p được đặt như trên, ta có:

y

v p

Trang 33

biểu diễn tác động của kết xuất nút ẩn trên tổng trọng hóa các

dữ liệu nhập của nút xuất Khi kết xuất nút ẩn tăng, tổng trọng hóa bằng giá

trị các trọng số của nó trên nút ẩn đó Vì thế: k

k k

diễn tả sự thay đổi trong kết xuất của nút ẩn đối với tổng trọng

các dữ liệu nhập vào nó: y( 1 y)

E q

k k k

j q

a

u

i i

1.9 MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC CỦA MẠNG NƠ-RON

1.9.1 Lý thuyết thống kê học

Trước khi tìm hiểu về nguyên lý của mạng Nơ-ron, ta cùng tìm hiểu mộtvài kết quả của lý thuyết thống kê học Những kết quả này sẽ cung cấp khảnăng nhìn nhận thấu đáo các vấn đề mang tính chuyên sâu, nhiều kinh nghiệmkhi học từ các mẫu giới hạn Ta cùng xem xét ví dụ sau

Trang 34

* Ví dụ: Một ngân hàng đang phải đương đầu với việc là xem xét, kiểm

tra các khách hàng của mình, xem khả năng hoàn trả các khoản vay tín dụngcủa họ như thế nào Để giải quyết vấn đề này, ngân hàng tiến hành thu thập

các thông tin trong một mẫu với n thuộc tính về khách hàng, chẳng hạn như

tuổi tác, giới tính, nơi cư trú, Chúng ta sẽ biểu diễn mỗi thuộc tính này bởi

một biến X i R và mỗi khách hàng được mô tả bởi một vectơ n chiều: x =

(x1, , xn) ∈ X ⊆ Rn

Gọi X là không gian chứa đầu vào khi tất cả khách hàng được mô tả như

là các điểm trong không gian này Việc khách hàng có khả năng hoàn trả các

khoản vay được biểu diễn bởi y = 1 và ngược lại, không có khả năng hoàn trả các khoản vay là y = -1 Không gian của tất cả các tình huống đầu ra gọi là

không gian ra Y và trong trường hợp này chỉ với 2 phần tử Lúc này ngânhàng đã có một mẫu giới hạn { ( ) }l

i i

i y x

S = , =1với kích thước là l Mục đích của việc học phân lớp này – dựa trên mẫu S đã cho – là để tìm ra hàm h: X → Y

được gán cho mỗi khách hàng mới (mỗi khách hàng được mô tả bởi một

vectơ x) cho các lớp tin cậy (y = 1) hoặc không tin cậy (y = -1) Để tìm ra một bản đồ như vậy, thông thường được gọi là người phân lớp, ngân hàng sẽ gán một rủi ro cho mỗi giả thiết h Ở đây, rủi ro của việc phân lớp h này có thể xảy ra tình huống là việc gán sai lớp cho một khách hàng x nào đó, nghĩa là một khách hàng ở nhóm tin cậy sang nhóm không tin cậy và ngược lại Lý

thuyết thống kê học làm cho rủi ro này càng hiện rõ bởi việc gán một khảnăng PXY trong việc chọn lựa khách hàng một cách ngẫu nhiên (lấy từ không

gian X) là tin cậy (y = 1) hoặc không tin cậy (y = -1) Giá trị của việc gán 1 khách hàng vào lớp ŷ với lớp y đúng được cho bởi:

ˆ 1

ˆ 0

ˆ ,

y y y

y L

Trang 35

Đây được gọi là mất mát không-một dùng để mô tả chi phí của lỗi phân

lớp Trong các ứng dụng liên quan, một cách khác dùng để xác định mất mátcó tính thực tế hơn là dựa vào chi phí thực tế để định lỗi Giá trị L trong PXY –thường gọi là giá trị lỗi – là khả năng xảy ra mất lớp Độ rủi ro được xác địnhnhư sau:

) 2 1 ( )

, ( )) ( , ( )

XY

P x h y L h R

và độ rủi ro cực tiểu sẽ là tốt nhất đối với ngân hàng Trong trường hợp tập

mẫu giới hạn S (tập huấn luyện), chỉ có độ rủi ro kinh nghiệm (lỗi huấn luyện)

được xác định:

) 3 1 ( ))

( , (

1 ) (

) , ( ∑

=

S y x

i i emp

i i

x h y L l h R

Ta tìm hiểu tập H của phân lớp h đã được trình bày trong giả thiết Trong việc học của mạng Nơ-ron, khả năng thực hiện của tập H là tập các hàm với tham số h(x; α) = sign(α 1 x 1 +…+ α n x n ) và được gọi là một đối tượng học

(perceptron) (Rosenblatt, 1962) Việc phân lớp này được mô tả bởi một vectơ

tham số α = (α 1 , , α n ) và nhiệm vụ của việc học là tìm ra vectơ α * có khả

năng làm cho cực tiểu R(h(.; α)) mà không cần biết đến PXY Cực tiểu

))

(.;

(h α

R emp là một cách để làm cực tiểu R (h(.; α )) Nguyên tắc này được gọi là

cực tiểu rủi ro kinh nghiệm (Empirical Risk Minimization) Trong các phần

trình bày sau, ta gọi tắt R (h(.; α ))bởi α và H = {h(.;α)| α Λ} bởi Λ.

* Vấn đề học: Để tổng kết lại các kết quả từ ví dụ trên, ta có thể công

thức hóa lại việc thống kê học như sau: cho 1 mẫu giới hạn

, ( ))

; ( , ( min

arg

R(

min arg

α α

α α

Trang 36

mà không có các thông tin gì về PXY.

1.9.2 Cực tiểu rủi ro kinh nghiệm

Trong Vanik và Chervonekis (1971) một nguyên lý là công thức được

dùng để tìm kiếm một phân lớp α l để thực thi là nhằm tiến tới xác lập một α *

-độc lập với không gian giả thiết và bất kỳ giả định nào trong P XY Nguyên lý

chọn α l như sau:

) 5 1 ( ))

; ( , (

1 min arg

( R min arg

) , (

emp

∈ Λ

i i l

i i

x h y L

α α

α α

dẫn đầu tập hợp các tham số của α l nhằm làm cực tiểu độ chênh |R(α*)-R(α l)|

Nguyên lý này được gọi là Cực tiểu rủi ro kinh nghiệm (Empirical Risk

Minimization - ERM).

1.9.3 Generalization

Ta gọi lại theo cách khác một cách chính xác của sự sai khác trong giới

hạn |R(α*)-R(α l )| Theo cách nhìn của việc Học mạng Nơ-ron, sự khác biệt này được gọi là lỗi tổng quát Và ta có thể giới hạn lỗi tổng quát này bằng bất

đẳng thức sau:

, ) ( )

( max ) ( (

) ( )

Với số hạng thứ hai lớn hơn hoặc bằng |R(α l )-R emp (α l )| Mặc dù α* duy nhất

được định nghĩa bởi công thức (4), α l phụ thuộc rất nhiều vào giá trị ngẫu

nhiên trong tập S Vì vậy, ta giới hạn maxα ∈ Λ|R(α)-R emp (α)|.

1.9.4 Bất đẳng thức cơ bản

Từ công thức nếu Λ chứa một số hữu hạn các phân lớp, nguyên tắc chọn

α l xấp xỉ α* là phù hợp Phù hợp có nghĩa là lỗi tổng quát có thể được giới

hạn với một khả năng nếu l tiến tới vô hạn Điều này đúng với luật số lớn, từ

Trang 37

khi R(α) được cho là độ mất mát của α và R emp (α) được hiểu độ mất mát của α

với độ hội tụ đều

) 1

2 (ln exp

4

| ) ( ) (

l c

R R

học, bất đẳng thức

) 7 1 (

4 / ln ) 1

2 (ln )

( )

(

l c

l c R

δ α

α

− + +

giữ một đại lượng 1 – δ Với việc học của mạng thì đây có nghĩa độ rủi ro

R(α) có thể được tính toán bằng tổng của hai số hạng: độ rủi ro kinh nghiệm

R emp (α), có thể được tính từ tập huấn luyện, và một số hạng có khả năng chứa,

được coi là độ phức tạp trong không gian H trong quan hệ giữa số các mẫu huấn luyện Ở đây, ERM như được trình bày ở trên nhằm cực tiểu R emp (α).

Mục tiêu của chọn mô hình là nhằm tìm kiếm sự cân bằng giữa năng lực

giảng giải và khả năng điều khiển của mạng Nơ-ron Sau đây là hai định

nghĩa liên quan đến chiều VC c Λ

Định nghĩa 1: (Shattering) một tập con x1, , xn ∈ Xn được gọi làshattering Λ, nếu với mỗi 2 lớp có nhãn là yi = 1 hoặc yi = -1 tồn tại một hàm

α ∈ Λ có thể phân lớp được theo cách này

Trang 38

Định nghĩa 2: (Chiều VC) Chiều VC cΛ của tập hợp các hàm Λ là sốlượng cực đại của các yếu tố x1, , xcΛ ⊂ X xcΛ có thể được shattered bởi cáchàm Λ.

Kiến trúc cực tiểu rủi ro: Vapnik (1982) mô tả một nguyên lý học và

được gọi là Kiến trúc cực tiểu rủi ro (Structural Risk Minimization – SRM),

đây là nguyên lý có thể dễ dàng được chứng minh bởi bất đẳng thức (3.8) Ýtưởng của nguyên lý này là định nghĩa một bộ tập con chính Λ1 ⊂ Λ2 ⊂ ⊂

Λ của các hàm và áp dụng nguyên lý ERM (huấn luyện cực tiểu rủi ro) trongmỗi một bộ Λi đạt được trong phân lớp αl i Phân tích bất đẳng thức, một khả

năng có thể chấp nhận là phân lớp αl i*với vế phải của bất đẳng thức (3.8) là

cực tiểu Và vì vậy, thuật toán học không chỉ tìm ra phân lớp tốt nhất trongtập các hàm đã cho mà còn tìm ra tập của các hàm với các lớp tốt nhất vớinhau

Như trên đã trình bày các kiểu mạng Nơ-ron khác nhau, trong phần này

sẽ trình bày một số thuật toán áp dụng cho việc học của mạng Nơ-ron Ở đâycũng chỉ trình bày các vấn đề mang tính nguyên lý hơn là đi vào chi tiết củathuật toán

1.9.5 Mạng Nơ-ron truyền thẳng (Feed-Foward Neural Networks)

a Perceptron và luật Delta

Với trường hợp đơn giản r = n, m = 1, Y = {-1, +1}, f 1 (x;β) = x, và

i i

2 ( ; γ ) ( γ ) ( γ ' ) Kiểu mạng này được gọi là Perceptron Việc

học là nhằm làm giảm bớt việc tìm kiếm véc tơ α = γ để cực tiểu R emp (α).

Chúng ta sẽ xem xét trường hợp chỉ tồn tại véc tơ α = γ mà R emp (α) = 0 Ta

viết lại độ rủi ro kinh nghiệm của véc tơ α là = ∑=l

t

t emp

1 )

Trang 39

) 8 1 ( )

) ' ( ( )

,

t t t

Để cực tiểu hàm này, ta sử dụng Luật Delta.

Hình 1.5 Mô hình mạng Nơ-ron 2 lớp

với lớp vào X = R n = R 2 , lớp ẩn R r = R 3 và lớp ra Y = R m = R 1 Ở đây,

không xem lớp vào như là một lớp tính toán

Bắt đầu với một giá trị khởi tạo α 0, bước lặp sau được sử dụng:

) 9 1 ( )

) ' ( ( 2

1 :

phân lớp mỗi một mẫu huấn luyện x i bằng cách sử dụng α t

if x i là lớp lỗi then

xt+1 := xt + yixi, t:= t + 1

end if

while thoát các mẫu huấn luyện lỗi

Input layer (n units)

Hidden layer (r units)

Output layer (m units)

Trang 40

b Tri thức đa lớp và Lan truyền ngược

Việc thêm vào các Nơ-ron ẩn làm gia tăng chiều VC của mạng vàđây cũng chính là yếu tố làm tăng tính hiệu quả của mô hình dữ liệu Trongtrường hợp hai lớp chọn f1(x;β) = (g1(β’1x),…, g1(β’rx))’ và f2(z;γ) =g2(γ’;z), với z là một véc tơ r chiều của lớp ẩn hoạt động, β = (β1,…, βr)’, và

g1: R  R và g2: R  R là các hàm “di chuyển” của Nơ-ron Thường thì ở

đây có sự khác nhau trong hàm xích ma, ví dụ: gi(a) = tanh(c.a) Kiểu mạngnày được gọi là tri thức đa lớp (Multilayer perceptron - MLP) Trong trườnghợp phân loại m = 1 và Y = {-1, +1} Khi lớp cuối cùng kích hoạt hàm g2được sử dụng, điều đó trở nên cần thiết cho việc sắp xếp các lớp ra đến mộtdạng quyết định nhị phân Điều này có thể được thực hiện bằng ngưỡng củađầu ra, ví dụ: sign(h(x;α)- θ)

Như trên đã trình bày, việc học của một mạng Nơ-ron là nhằm giảm bớtviệc tìm kiếm véc tơ α = (β,γ)’ để có thể cực tiểu đại lượng Remp(α) Bằngcách sử dụng:

2

1 2

1 )

r j

t j j t

γ α

Khi tính ∇γRemp(α,xt) và R emp( ,x t)

j α

β

∇ để áp dụng độ dốc Công thức trêncó liên quan đến phân số của đối tượng lỗi lớp trong trường hợp c  ∞ Liêntục thực hiện phép lấy vi phân, ta được:

( )

) ,

2 t t t

t t

1 ' '

t t

Học lan truyền ngược (MLP Network)

α0 = (β1, ,r;0, γ0)’ := giá trị khởi tạo ngẫu nhiên

Ngày đăng: 06/07/2015, 10:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Phan Phu Dien, Luận văn cao học chuyên ngành KHMT, Đại học Đà Nẵng Sách, tạp chí
Tiêu đề: Luận văn cao học chuyên ngành KHMT
[2] Phan Huy Khánh (2000), Hệ Chuyên gia, Đại học Đà Nẵng (Lưu hành nội bộ) Sách, tạp chí
Tiêu đề: Hệ Chuyên gia
Tác giả: Phan Huy Khánh
Năm: 2000
[3] Khoa CNTT, Đại Học Hàng Hải, Giáo Trình Khai Phá Dữ liệu, (Lưu hành nội bộ) Sách, tạp chí
Tiêu đề: Giáo Trình Khai Phá Dữ liệu
[4] Lê Minh Trung (1999), Mạng Nơ-ron nhân tạo, NXB Thống Kê Sách, tạp chí
Tiêu đề: Mạng Nơ-ron nhân tạo
Tác giả: Lê Minh Trung
Nhà XB: NXB Thống Kê
Năm: 1999
[5] Lê Mạnh Thạnh (2001), Cơ sở dữ liệu nâng cao, Huế Sách, tạp chí
Tiêu đề: Cơ sở dữ liệu nâng cao
Tác giả: Lê Mạnh Thạnh
Năm: 2001
[6] Nguyễn Thanh Thuỷ (2001), Khai phá dữ liệu - kỹ thuật và ứng dụng, Hà Nội.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Khai phá dữ liệu - kỹ thuật và ứng dụng
Tác giả: Nguyễn Thanh Thuỷ
Năm: 2001
[10] Ralf Herbrich, Max Keilbach, Thore Graepel, Peter Bollmann- Sdorra, Klaus Obermayer - Neural Networks In Economics.Tài liệu Internet Sách, tạp chí
Tiêu đề: Neural Networks In Economics
[7] Data Mining with Neural Networks Khác
[15] Các nguồn Internet. Nguồn số liệu Khác
[18] Số liệu liên quan đến Ngân hàng Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức (Trang 12)
Hình 1.3: Cấu trúc mạng Nơ-ron truyền thẳng . - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 1.3 Cấu trúc mạng Nơ-ron truyền thẳng (Trang 24)
Hình 1.4  Cấu trúc mạng Nơ-ron phản hồi - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 1.4 Cấu trúc mạng Nơ-ron phản hồi (Trang 25)
Hình 1.5 Mô hình mạng Nơ-ron 2 lớp - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 1.5 Mô hình mạng Nơ-ron 2 lớp (Trang 39)
Hình 1.6: Kết hợp các kỹ thuật để đưa ra giải pháp mới. - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 1.6 Kết hợp các kỹ thuật để đưa ra giải pháp mới (Trang 54)
Bảng 2.1. Một số chỉ tiêu hoạt động chính của VCB Quảng Bình - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Bảng 2.1. Một số chỉ tiêu hoạt động chính của VCB Quảng Bình (Trang 57)
Bảng 2.2. Một số hoạt động tín dụng năm 2010 – 2011 - 2012 - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Bảng 2.2. Một số hoạt động tín dụng năm 2010 – 2011 - 2012 (Trang 58)
Bảng 2.3 Kết quả thị phần hoạt động cho vay tại tỉnh Quảng Bình - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Bảng 2.3 Kết quả thị phần hoạt động cho vay tại tỉnh Quảng Bình (Trang 58)
Hình 2.1 khai báo mã vay - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 2.1 khai báo mã vay (Trang 62)
Hình 2.3 khai báo số hợp đồng vay - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 2.3 khai báo số hợp đồng vay (Trang 63)
Hình 2.5 Màn hình hạch toán tiền vay cho khách hàng - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 2.5 Màn hình hạch toán tiền vay cho khách hàng (Trang 64)
Hình 2.4 khai báo số tiền vay phải trả - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Hình 2.4 khai báo số tiền vay phải trả (Trang 64)
Bảng 3.1: Tập dữ liệu đầu vào (300 bản ghi) - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Bảng 3.1 Tập dữ liệu đầu vào (300 bản ghi) (Trang 73)
Bảng 3.3: Tập dữ liệu Kiểm thử (55 bản ghi) - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Bảng 3.3 Tập dữ liệu Kiểm thử (55 bản ghi) (Trang 74)
Bảng 3.4: Tập dữ liệu kết quả - Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình
Bảng 3.4 Tập dữ liệu kết quả (Trang 74)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w