Ứng dụng khai phá tri thức xây dựng hệ thống trợ giúp thẩm định vay vốn tại Ngân hàng Vietcombank Quảng Bình

Từ lý do đó, tôi chọn đề tài: ỨNG DỤNG KHAI PHÁ TRI THỨC XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH để nghiên cứu làm luận văn tốt nghiệp

Trang 1

Tôi xin cam đoan :

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của thầy giáo PGS TS Phan Huy Khánh.

Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng

và trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.

Tác giả

Nguyễn Trần Sỹ

Trang 2

MỤC LỤC 8

DANH MỤC CÁC BẢNG 11

DANH MỤC CÁC HÌNH 12

MỞ ĐẦU 1

2 Mục tiêu và nhiệm vụ 2

3 Đối tượng và phạm vi nghiên cứu 3

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn của đề tài 3

6 Bố cục của luận văn 3

CHƯƠNG 1 5

CƠ SỞ LÝ THUYẾT 5

1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC 5

1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC 5

1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC 6

1.7.1 Khái niệm mạng Nơ-ron 17

1.7.4 Giải pháp kỹ thuật của mạng Nơ-ron 19

1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON 19

1.8.3 Sự chuẩn bị và học dữ liệu 22

1.9 MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC CỦA MẠNG NƠ-RON 27

1.10 SỰ KẾT HỢP CỦA CÁC KỸ THUẬT 47

Kết luận chương 1 48

Bảng 2.1 Một số chỉ tiêu hoạt động chính của VCB Quảng Bình 51

Bảng 2.2 Một số hoạt động tín dụng năm 2010 – 2011 - 2012 52

Bảng 2.3 Kết quả thị phần hoạt động cho vay tại tỉnh Quảng Bình 52

Hình 2.1 khai báo mã vay 56

Hình 2.3 khai báo số hợp đồng vay 57

Hình 2.4 khai báo số tiền vay phải trả 58

Hình 2.5 Màn hình hạch toán tiền vay cho khách hàng 58

2.5 SỰ CẦN THIẾT PHẢI SỬ DỤNG KỸ THUẬT MẠNG NƠ -RON 59

CHƯƠNG 3 62

Trang 3

3.1 CHỌN MÔI TRƯỜNG CÔNG CỤ 64

3.2 TẠO DỮ LIỆU MẪU CHO ỨNG DỤNG 64

Bảng 3.1: Tập dữ liệu đầu vào (300 bản ghi) 67

Bảng 3.2: Tập dữ liệu Huấn luyện (180 bản ghi) 68

Bảng 3.3: Tập dữ liệu Kiểm thử (55 bản ghi) 68

Bảng 3.4: Tập dữ liệu kết quả 68

3.3 CÀI ĐẶT THUẬT TOÁN 69

3.4 HUẤN LUYỆN, KIỂM THỬ VÀ KẾT QUẢ 74

3.5 ĐÁNH GIÁ VỀ GIẢI PHÁP 75

TÀI LIỆU THAM KHẢO 78

Trang 4

CHỮ VIẾT

API Application Program Interface Giao diện chương trình ứng

dụngSQL Structure Query Language Ngôn ngữ hỏi cấu trúc

BI Business Intelligent

SVL Support Vector Learning Hỗ trợ sự học véc tơ

ERM Empirical Risk Minimization Cực tiểu hoá thực nghiệmSRM Structural Risk Minimization Cực tiểu hoá cấu trúc

PL Perceptron Learning Học có tri thức

MP Multilayer Perceptron Tri thức đa lớp

BA Backpropagation algorithm Thuật toán Lan truyền ngược

Trang 5

Bảng 2.2 Một số hoạt động tín dụng năm 2010 – 2011 - 2012 52

Bảng 2.3 Kết quả thị phần hoạt động cho vay tại tỉnh Quảng Bình 52

Bảng 3.1: Tập dữ liệu đầu vào (300 bản ghi) 67

Bảng 3.2: Tập dữ liệu Huấn luyện (180 bản ghi) 68

Bảng 3.3: Tập dữ liệu Kiểm thử (55 bản ghi) 68

Trang 6

với lớp vào X = Rn = R2, lớp ẩn Rr = R3 và lớp ra Y = Rm = R1 Ở đây, không xem lớp vào như là một lớp tính toán 33 Hình 1.6: Kết hợp các kỹ thuật để đưa ra giải pháp mới 48

Trang 7

MỞ ĐẦU

1 Giới thiệu và lý do chọn đề tài

Sự phát triển của công nghệ thông tin đã mang lại cho nhân loại nhiềutiện lợi và giúp giải quyết những công việc tưởng chừng như con người khôngthể giải quyết được Trong đó, khai phá tri thức trong cơ sở dữ liệu đang làmột xu hướng quan trọng của nền Công nghệ thông tin thế giới Nó có khảnăng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau Bước quan trongnhất của quá trình này là khai phá tri thức từ dữ liệu, giúp con người thu đượcnhững tri thức hữu ích từ những cơ sở dữ liệu hoặc các nguồn dữ liệu khổng

lồ khác Một số ít ngân hàng thương mại, doanh nghiệp và tổ chức trên thếgiới đã ứng dụng kỹ thuật khai phá tri thức từ dữ liệu vào các hoạt động tíndụng để phát triển sản xuất và kinh doanh, đã và đang thu được những lợi ích

to lớn

Hiện nay, việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực củađời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữliệu đã được các cơ quan, các tổ chức tín dụng thu thập và lưu trữ ngày mộttích luỹ nhiều lên Người ta lưu trữ các dữ liệu này vì cho rằng trong nó ẩnchứa những giá trị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ có mộtlượng nhỏ của những dữ liệu này (khoảng từ 20% đến 25%) là luôn đượcphân tích, số còn lại người ta không biết sẽ phải làm gì hoặc có thể làm gì vớichúng nhưng vẫn phải tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ cócái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, trongmôi trường cạnh tranh khốc liệt như hiện nay và sự xuất hiện nhiều nhiềungân hàng thương mại và nền kinh tế đang có chuyển biến xấu và đầy phứctạp, nhân viên ngân hàng ngày càng cần có nhiều thông tin với tốc độ nhanh

để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất

Trang 8

định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có.Việc ứng dụng công nghệ thông tin trong ngân hàng đang rất cần thiết, đặcbiệt là ứng dụng khai phá tri thức từ dữ

liệu Đem lại hiệu quả cao trong công việc cũng như trong công tác điều hànhquản lý và ra quyết định

Xuất phát từ thực tế và nhu cầu nắm bắt, trang bị hạ tầng về công nghệthông tin của cơ quan, tổ chức để hiện đại hoá công việc, giúp giải quyếtnhanh chóng, nâng cao hiệu quả và dự báo chính xác trong công việc nhất làtrong lĩnh vực kinh doanh, thương mại điện tử trong vấn đề trợ giúp thẩmđịnh vay vốn tại ngân hàng Từ lý do đó, tôi chọn đề tài:

ỨNG DỤNG KHAI PHÁ TRI THỨC

XÂY DỰNG HỆ THỐNG TRỢ GIÚP THẨM ĐỊNH VAY VỐN

TẠI NGÂN HÀNG VIETCOMBANK QUẢNG BÌNH

để nghiên cứu làm luận văn tốt nghiệp cao học ngành Khoa học máy tính.Trong đó, tập trung vào nghiên cứu kỹ thuật mạng Nơ-ron, áp dụng trong việckhai phá tri thức từ dữ liệu để giải quyết bài toán

2 Mục tiêu và nhiệm vụ

Mục tiêu của đề tài tìm hiểu các khai phá tri thức trong lĩnh vực hoạtđộng thẩm định vay vốn tại ngân hàng, đặc biệt là vấn đề ra quyết định tronghoạt động thẩm định tín dụng đạt kết quả ra sao

Nhiệm vụ cơ bản của nghiên cứu

(1) Thu thập và phân tích dữ liệu tri trức về tình hình khách hàng đượcthẩm định

(2) Tìm hiểu bài toán thực tế: Thẩm định hoạt động vay vốn ngân hàng (3) Tìm hiểu tổng tổng quan về các kỷ thuật khai phá tri thức

Trang 9

(4) Tìm hiểu cơ sở lý thuyết khai phá luật kết hợp, kỷ thuật mạng Nơ-ron (5) Xây dựng mô hình và phân tích thiết kế hệ thống trợ giúp dự báothẩm định vay vốn trong ngân hàng.

3 Đối tượng và phạm vi nghiên cứu

Đối tượng chủ yếu để nghiên cứu luật kết hợp và kỹ thuật mạng Nơ-ron,các thuật toán học của mạng Nơ-ron, đặc biệt là thuật toán lan truyền ngược(Back propagation algorithm)

Bên cạnh đó, tôi cũng sẽ tìm hiểu các chiến lược, hoạt động kinh doanhngành ngân hàng trong thực tế Từ đó, phục vụ cho việc xem xét tính toán độrủi ro trong việc phê duyệt một đơn vay tín dụng của ngân hàng rồi đi đếnquyết định là có cho vay đối với đơn vay đó hay là từ chối cho vay Ngoài ra,cũng cần phải nắm được các kỹ thuật lập trình cơ bản trên nền Window

4 Phương pháp nghiên cứu

Thu thập, phân tích các tài liệu và thông tin liên quan đến đề tài

Xem xét, lựa chọn phương hướng giải quyết vấn đề

Xây dựng mô hình theo lý thuyết

Triển khai xây dựng chương trình ứng dụng trên máy tính

Kiểm tra, thử nghiệm và đánh giá kết quả.

5 Ý nghĩa khoa học và thực tiễn của đề tài

Ý nghĩa khoa học của đề tài là nghiên cứu và phát triển một mô hìnhkhai phá dữ liệu nhằm dự báo độ rủi ro trong việc phê duyệt đơn vay tín dụngcủa ngân hàng, dựa trên kỹ thuật mạng Nơ-ron Việc dự báo các kết quả sẽ hỗtrợ, trợ giúp cho nhà quản lý trong việc ra các quyết định tối ưu

6 Bố cục của luận văn

Luận văn bao gồm các phần như sau:

Trang 10

về giải pháp của đề tài trong việc ứng dụng thực tiễn của vấn đề cũng như cónhững so sánh với các giải pháp khác.

Kết luận của đề tài về các mặt làm được, khả năng ứng dụng, những ưu vànhược điểm và hướng phát triển trong tương lai

Trang 11

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT

1.1 GIỚI THIỆU VỀ KHAI PHÁ TRI THỨC

Phát hiện tri thức là khái niệm ra đời vào những năm cuối của thập kỷ 80

và đã trở thành một lĩnh vực được nguyên cứu rộng rãi trên toàn cầu Sự rađời của phát hiện tri thức là sự kết hợp kết quả nguyên cứu của nhiều ngànhkhoa học khác lại với nhau như: Quản trị cơ sở dữ liệu, học máy, thống kê …

1.2 ĐỊNH NGHĨA KHAI PHÁ TRI THỨC

Khai phá tri thức (Khai phá tri thức-Knowledge Discovery in Databases)trong các cơ sở dữ liệu là quá trình phát hiện những tri thức tiềm ẩn, khôngbiết trước, và có ích trong trong cơ sở dữ liệu Thực chất đó là quá trình tìmkiếm những thông tin có trong cơ sở dữ liệu nhưng bị che giấu trong các khối

dữ liệu

Tri thức ở đây có thể được hiểu là một biểu thức trong một ngôn ngữ nàođó diễn tả một hoặc nhiều mối quan hệ giữa các thuộc tính trong các dữ liệuđó Các ngôn ngữ thường dùng để diễn tả tri thức trong việc biểu diễn tri thứctrong quá trình phát hiện tri thức từ cơ sở dư liệu là các khung (frames), cáccây và đồ thị, các luật, các công thức trong logic mệnh đề hoặc logic tân từcấp một

Việc khai phá tri thức thường được áp dụng để giải quyết một loạt nhữngyều cầu phục vụ những mục đích nhất định Do vậy nên quá trình phát hiện trithức mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức màphát hiện những tri thức phục vụ tốt một nhiệm vụ đề ra Vì vậy, quá trìnhphát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặcmột chuyên gia phân tích với các công cụ tin học

Trang 12

1.3 CÁC GIAI ĐOẠN QUÁ TRÌNH KHAI PHÁ TRI THỨC

Quá trình khai phá tri thức,từ những cơ sở dữ liệu thực tế sau một hoặcmột số bước của quá trình sẽ rút ra được những tri thức mới Các bước trongquá trình này có thể lặp đi lặp lại nhiều lần và được mô tả theo hình sau:

Hình 1.1 Sơ đồ mô tả quá trình khai phá tri thức

Bước 1: Hình thành, xác định được vấn đề Là tìm hiểu lĩnh vực ứng

dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành.Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phépchọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng vàbản chất của dữ liệu

Bước 2: Thu thập và tiền xử lý dữ liệu Là thu thập và xử lý thô, còn

được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lýviệc thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếucần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trìnhphát hiện tri thức Do dữ liệu được lấy từ nhiều nguồn khác nhau, không đồngnhất, … có thể gây ra các nhầm lẫn Sau bước này, dữ liệu sẽ nhất quán, đầy

đủ, được rút gọn và rời rạc hoá

Hình thành và

xác định vấn đề

Khai phá dữ liệu, rút ra các tri thức

Trang 13

Bước 3: Khai phá dữ liệu, rút ra các tri thức Là khai phá dữ liệu, hay

nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu.Giai đoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm

vụ và mục đích của khai phá dữ liệu, dùng phương pháp khai phá nào Thôngthường, các vấn đề khai phá dữ liệu bao gồm: các bài toán mang tính mô tả -đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việcphát hiện các suy diễn dựa trên dữ liệu hiện có, tuỳ theo bài toán xác địnhđược mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp

Bước 4: Giải thích kết quả và đánh giá các mẫu, tìm được ở giai đoạn 3 Bước 5: Sử dụng các tri thức phát hiện được Là hiểu tri thức đã tìm

được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Các bước trên có thể lặp

đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cảcác lần thực hiện Các kết quả của quá trình phát hiện tri thức có thể được đưa

và ứng dụng trong các lĩnh vực khác nhau Do các kết quả có thể là các dựđoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ raquyết định nhằm tự động hóa quá trình này

1.4 MÔ HÌNH KHAI PHÁ TRI THỨC

Trang 14

Hình 1.2 Mô hình khai phá tri thức

1.5 KHO DỮ LIỆU (DATA WAREHOUSE)

Là các cơ sở dữ liệu tích hợp, hướng theo các chủ đề nhất định, đượcthiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệuliên quan đến một khoảng thời gian cụ thể

Kho dữ liệu thường có dung lượng rất lớn, thường là hàng Gigabytes haycó khi tới hàng Terabytes

Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập từ nhiều nguồn,nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụngcủa các công nghệ hiện đại và vừa có thể kế thừa được từ các hệ thống đã cótừ trước Dữ liệu được phát sinh từ các hoạt động hàng ngày và được thu thậpxử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức, vì vậy thường

được gọi là dữ liệu tác nghiệp và hoạt động xử lý dữ liệu này gọi là xử lý giao

dịch trực tuyến (OLPT - On Line Transaction Processing).

1.6 LUẬT KẾT HỢP

Trang 15

Nhằm phát hiện ra các Luật kết hợp giữa các thành phần dữ liệu trong cơ

sở dữ liệu Mẫu đầu ra của giải thuật khai phá tri thức từ dữ liệu là tập luật kếthợp tìm được Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sựkết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bảnghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A => B

- Cho một lược đồ R={A1, …, Ap} các thuộc tính với miền giá trị {0,1}, vàmột quan hệ r trên R Một luật kết hợp trên r được mô tả dưới dạng X=>B với

X ⊆ R và B ∈ R\X Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật nhưsau: nếu một bản ghi của bảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giátrị của thuộc tính B cũng là 1 trong cùng bản ghi đó Ví dụ như ta có tập cơ sở

dữ liệu về các gói tín dụng trong ngân hàng, các dòng tương ứng với các ngày

vay gói tín dụng đó, các cột tương ứng với các khoản tiền thì giá trị 1 tại ô

(20/10, vay) xác định rằng gói tín dụng đã vay ngày hôm đó cũng kéo theo sựxuất hiện giá trị 1 tại ô (20/10, nợ)

Cho W ⊆ R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng

tỷ lệ của các hàng trong r có giá trị 1 tại mỗi cột thuộc W Tần số xuất hiệncủa luật X=>B trong r được định nghĩa là s(X ∪ {B}, r) còn gọi là độ hỗ trợcủa luật, độ tin cậy của luật là s(X ∪ {B}, r)/s(X, r) Ở đây X có thể gồmnhiều thuộc tính, B là giá trị không cố định Nhờ vậy mà không xảy ra việctạo ra các luật không mong muốn trước khi quá trình tìm kiếm bắt đầu Điềuđó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của sốlượng các thuộc tính ở đầu vào Do vậy cần phải chú ý khi thiết kế dữ liệu choviệc tìm kiếm các luật kết hợp

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luậtX=>B sao cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tincậy của luật không nhỏ hơn ngưỡng θ cho trước Từ một cơ sở dữ liệu ta cóthể tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp

Trang 16

Ta gọi một tập con X ⊆ R là thường xuyên trong r nếu thỏa mãn điềukiện s(X, r)≥σ Nếu biết tất cả các tập thường xuyên trong r thì việc tìm kiếmcác luật rất dễ dàng Vì vậy, giải thuật tìm kiếm các luật kết hợp trước tiên đitìm tất cả các tập thường xuyên này, sau đó tạo dựng dần các luật kết hợpbằng cách ghép dần các tập thuộc tính dựa trên mức độ thường xuyên.

Các luật kết hợp có thể là một cách hình thức hóa đơn giản Chúng rấtthích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân Giới hạn cơbản của phương pháp này là ở chỗ các quan hệ cần phải thưa theo nghĩakhông có tập thường xuyên nào chứa nhiều hơn 15 thuộc tính Giải thuật tìmkiếm các luật kết hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến

và nếu như một tập phổ biến có kích thước K thì phải có ít nhất là 2K tập phổbiến Thông tin về các tập phổ biến được sử dụng để ước lượng độ tin cậy củacác tập luật kết hợp

1.6.1 Lý thuyết về luật kết hợp

Cho một tập I = {I1, I2, ,Im} các tập m khoản mục (item), một giaodịch (transaction) T được định nghĩa như một tập con (subset) của các khoảnmục trong I (T I) Tương tự như khái niệm tập hợp, các giao dịch khôngđược trùng lặp, nhưng có thể nới rộng tính chất này của tập hợp và trong cácthuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giaodịch và trong tất cả các tập mục (item set) khác, có thể coi chúng đã được sắpxếp theo thứ tự từ điển của các item

Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn vớimột định danh duy nhất (Unique Transasction Identifier) Nói rằng, một giaodịch T∈D hỗ trợ (support) cho một tập X I nếu nó chứa tất cả các item của

X, nghã là X T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉtập các giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ

Trang 17

phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩalà:

Sup(X)

Độ hỗ trợ tối thiểu (minimum support) minsup là một giá trị cho trước

bởi người sử dụng Nếu tập mục X có sup(X) ≥ minsup thì ta nói X là một tậpcác mục phổ biến (hoặc large itemset) Một tập phổ biến được sử dụng nhưmột tập đáng quan tâm trong các thuật toán, ngược lại, những tập không phảitập phổ biến là những tập không đáng quan tâm Trong các trình bày sau này,

ta sẽ sử dụng những cụm từ khác như “X có độ hỗ trợ tối thiểu”, hay “Xkhông có độ hỗ trợ tối thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏamãn support(X) ≥ minsup

Một khoản mục X được gọi là k- itemset nếu lực lượng của X bằng k,tức là |X|=k

1.6.2 Định nghĩa luật kết hợp

Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục, X, Y

I và X ∩Y = Ø X được gọi là tiên đề và Y được gọi là hệ quả của luật

Luật X => Y tồn tại một độ tin cậy c (confidence-conf) Độ tin cậy c

được định nghĩa là khả năng giao dịch T hỗ trợ X thì cúng hỗ trợ Y Ta có

công thức tính độ tin cậy c như sau:

conf(X =>Y) = p(Y I | X I ) = =

Tuy nhiên, không phải bất cứ luật kết hợp nào có mặt trong tập các luậtcó thể được sinh ra cũng đều có ý nghĩa trên thực tế Mà các luật đều phảithoả mãn một ngưỡng hỗ trợ và tin cậy cụ thể Thực vậy, cho một tập các giaodịch D, bài toán phát hiện luật kết hợp là sinh ra tất cả các luật kết hợp mà có

Trang 18

độ tin cậy conf lớn hơn độ tin cậy tối thiểu mincon và độ hỗ trợ sup lớn hơn

độ hỗ trợ tối thiểu minsup tương ứng do người dùng xác định Khai phá luậtkết hợp được phân thành hai bài toán con:

Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tốt

thiểu do người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu đượcgọi là các tập mục phổ biến

Bài toán 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn.

Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng tacó thể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy:

Conf =

nếu conf ≥ mincon thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối

thiểu vì ABCD là phổ biến)

1.6.3 Một số tính chất liên quan đến các hạng mục phổ biến (frequent itemset)

Tính chất 1: Độ hỗ trợ (support) cho tất cả các tập con (subset): nếu A

⊑ B, A, B là tập các mục thì sup(A) ≥ sup(B) vì tất cả các giao dịch của D hỗtrợ B thì cũng hỗ trợ A

Tính chất 2: Nếu một mục trong A không có độ hỗ trợ tối thiểu trên D

nghĩa là support(A)< minsup thì một tập con B của A sẽ không phải là mộttập phổ biến vì support(B) ≤ support(A) < minsup

Tính chất 3: Nếu mục B là mục phổ biến trên D, nghĩa là support(B) ≥

minsup thì mọi tập con A của B là tập phổ biến trên D vì support(A) ≥support(B) > minsup

Trang 19

1.6.4 Một số hướng tiếp cận trong khai phá luật kết hợp

Luật kết hợp nhị phân (binary association rule hoặc boolean associationrule)

Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative andcategorial association rule)

Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base

on rough set): Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô

Luật kết nhiều mức (multi-level association rule)

Luật kết hợp mờ (fuzzy association rule)

Luật kết với thuộc tính được đánh trọng số (association rule withweighted items)

Luật kết hợp song song (parallel mining of association rules)

Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhànghiên cứu còn chú trọng đề xuất những thuật toán nhằm tăng tốc quá trìnhtìm kiếm tập phổ biến từ cơ sở dữ liệu

Ngoài ra, còn có một số hướng nghiên cứu khác về khai thác luật kết hợpnhư: khai thác luật kết hợp trực tuyến, khai thác luật kết hợp được kết nối trựctuyến đến các kho dữ liệu đa chiều (Multidimensional data, data warehouse) thông qua công nghệ OLAP (Online Analysis Processing), MOLAP (Mutidie)ROLAP (Relational OLAP), ADO (Active X Data Object) for OLAP v v

1.6.5 Phát biểu bài toán phát hiện luật kết hợp

Xét ví dụ đối tượng trong giao dịch cho vay khách hàng tại đơn vị Tậpcác giao dịch (ở đây coi là tập các mục) I = {khá, tốt, trung bình, xấu} và sốcác đối tượng cho vay là 4 giao dịch (|T| = 4), trong đó T = {1, 2, 3, 4} – kýhiệu các giao dịch TID

Trang 20

TID Tập các mục trong giao dịch

1 Khá, Tốt, Xấu

2 Tốt, Trung bình, Xấu

4 Khá, Tốt Từ bảng giao dịch trên ta rút ra:

TT Tập các mục trong giao dịch Độ hỗ trợ tương ứng

1 Ø Không có đối tượng nào 0%

Với giá trị độ hỗ trợ tối thiểu minsup = 50 % thì tập mục phổ biến là:

TT Tập các mục phổ biến Độ hỗ trợ tương ứng

Trang 21

Nếu cho độ tin cậy tối thiểu là mincon = 60 % thì ta có các luật sau:

1.6.6 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân

Hệ thông tin nhị phân

Tập chỉ báo phổ biến nhị phân

Các luật kết hợp phổ biến nhị phân và hệ số tin cậy

Các vectơ chỉ báo nhị phân và các phép toán

Tích vectơ chỉ báo nhị phân

Độ hỗ trợ các vectơ chỉ báo nhị phân

1.6.7 Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị phân

Thuật toán Apriori-Tid có hai pha:

Pha 1: Phát hiện các tập chỉ báo phổ biến dựa trên ngưỡng minsup cho

trước

Pha 2: Xây dựng các luật kết hợp dựa trên một ngưỡng mincom cho

trước

Cho ma trận thông tin nhị phân SB = (O, D, B,χ) và một ngưỡng Ө, β ∈

(0, 1) Trong đó Ө là minsup và β là mincon

1.6.8 Khai phá luật kết hợp trên hệ thông tin mờ

Các định nghĩa về tập mờ

Trang 22

Các phép toán cơ bản trên tập logic mờ: Phép hợp hai tập mờ, phép giao, phép bù, phép bằng nhau, tập con, luật DeMorgan.

Áp dụng tập mờ để rời rạc hoá dữ liệu và quan điểm của phương pháp này: Phương pháp áp dụng và các ưu điểm của phương pháp này

Thuật toán Apriori

1.7 MẠNG NEURON

Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triểncác cấu trúc toán học với khả năng lọc Các phương pháp là kết quả của việcnghiên cứu mô hình học của hệ thống thần kinh con người Mạng neuron cóthể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thểđược sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phứctạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiệnđược

Khi đề cập đến khai phá dữ liệu, người ta thường đề cập nhiều đến mạngneuron Tuy mạng neuron có một số hạn chế gây khó khăn trong việc áp dụng

và triển khai nhưng nó cũng có những ưu điểm đáng kể Một trong số những

ưu điểm phải kể đến của mạng neuron là khả năng tạo ra các mô hình dự đoáncó độ chính xác cao, có thể áp dụng được cho rất nhiều loại bài toán khácnhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp,phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian,…

Đặc điểm của mạng neuron là không cần gia công dữ liệu nhiều trướckhi bắt đầu quá trình học như các phương pháp khác Tuy nhiên, để có thể sử

Trang 23

dụng mạng neuron có hiệu quả cần phải xác định các yếu tố khi thiết kế mạngnhư:

Mô hình mạng là gì?

Mạng cần có bao nhiêu nút?

Khi nào thì việc học dừng để tránh bị “học quá”?

…

Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữliệu trước khi đưa vào mạng neuron để mạng có thể hiểu được (ví dụ như việcchuẩn hoá dữ liệu, đưa tất cả các tiêu chuẩn dự đoán về dạng số)

Mạng neuron được đóng gói với những thông tin trợ giúp của cácchuyên gia đáng tin cậy và được các chuyên gia đảm bảo các mô hình nàylàm việc tốt Sau khi học, mạng có thể được coi là một chuyên gia trong lĩnhvực thông tin mà nó vừa được học

Kỹ thuật mạng Nơ-ron là kỹ thuật mới liên quan đến việc phát triển cáccấu trúc toán học với khả năng học Mạng Nơ-ron có thể đưa ra ý nghĩa từ dữliệu phức tạp nhiều chiều và phát hiện xu hướng của dữ liệu mà các kỹ thuậtkhác không thể thực hiện được Mạng Nơ-ron có khả năng mô hình hoánhững dữ liệu phức tạp và nhiều chiều Khi dữ liệu tăng lên, các kỹ thuậttruyền thống khác có thể không giải quyết được, nhưng mạng Nơ-ron có khảnăng giải quyết tốt

1.7.1 Khái niệm mạng Nơ-ron

Mạng Nơ-ron là một hệ thống bao gồm nhiều phần tử xử lý đơn giảncùng hoạt động song song

Trang 24

Tính năng hoạt động của hệ thống phụ thuộc vào cấu trúc hệ thống,cường độ liên kết giữa các phần tử trong hệ thống và quá trình xử lý bên trongcác phần tử đó Hệ thống có thể học từ các số liệu và có khả năng tổng quáthoá từ các dữ liệu.

Trang 25

Trong mạng truyền thẳng, tất cả các đường nối có hướng từ tầng vào đến tầng

ra Mạng phản hồi có đường nối phản hồi hoặc có chu trình giữa các nút Sauđây là cấu trúc của một mạng phản hồi:

Hình 1.4 Cấu trúc mạng Nơ-ron phản hồi

1.7.4 Giải pháp kỹ thuật của mạng Nơ-ron

Mạng Nơ-ron được hiểu theo có hai khía cạnh: tính toán và học Phầntính toán được thực hiện theo thứ tự: dữ liệu được nhập vào các nút nhập, sauđó được truyền đến xử lý tính toán trên các nút ẩn, cuối cùng chuyển đến cácnút xuất xử lý và cho kết quả Phần học thì được thực hiện ngược lại: với sốliệu tính toán đầu ra không khớp với mục tiêu, sai số này sẽ làm cơ sở để thayđổi các trọng số nút xuất, sau đó được lan truyền để thay đổi trọng số các nút

ẩn Quá trình này được thực hiện nhiều lần cho đến khi kết xuất của mạng tiếngần đến mục tiêu đề ra

1.8 QUÁ TRÌNH TÍNH TOÁN CỦA MẠNG NƠ-RON

1.8.1 Hàm truyền

Trong một nút Nơ-ron, sự tính toán của nó có sử dụng một hàm toán họcgọi là hàm truyền mà với tham số là tổng các trọng số nhân với các giá trị đầuvào Về mặt hình học, hàm truyền có dạng chữ S nên nó được gọi là hàmdạng S

Tầng vào Tầng ẩn Tầng ra

Trang 26

Một hàm s(u) là một hàm truyền nếu nó thoả: s(u) là hàm bị chặn, đơnđiệu tăng và liên tục Do tính bị chặn nên khi u tăng thì s(u) lớn dần nhưngkhông bao giờ vượt quá cận trên và tương tự như vậy cho cận dưới.

Mọi hàm có 3 tính chất trên đều có thể sử dụng làm hàm truyền Tuynhiên, các hàm sau đây là hay được dùng:

Hàm logistic:

u

e

u g

1 1

1 ) (

1.8.2 Tính toán của mạng

Mạng ron là một công cụ tính toán, theo nghĩa nào đó thì mạng ron làm việc với tư cách là một bảng tra mà không biết phụ thuộc hàm tường

Nơ-minh giữa x và y Việc tính toán của mạng Nơ-ron phụ thuộc vào các kiểu

mạng khác nhau, tức là số nút có trong mạng

Trang 27

Sau khi các nút ẩn tính toán xong, kết xuất của chúng là các yj (j = 1 J).Với J: số nút ẩn Các yj này sẽ truyền sang nút xuất Nút xuất sẽ tính toán nhưsau:

Vậy giá trị kết xuất của nút xuất là z = g(v) Với yj là kết xuất của nút

Trang 28

trong đó, J nút ẩn có nút kết xuất y j , b jk là các trọng trên các cung liên kết

từ nút ẩn j đến nút xuất k, còn b 0k là các trọng ngưỡng của nút xuất thứ k.

d Lan truyền tiến

Quá trình tính toán như trên gọi là tiến trình lan truyền tiến, quá trìnhnày tính toán các giá trị nút xuất từ các trường hợp của dạng chuẩn nhập vàomạng Tiến trình này được sử dụng trong hai tình huống: khi huấn luyệnmạng và khi sử dụng mạng

Khi luyện mạng, lan truyền tiến được sử dụng lặp đi lặp lại từ mẫu nàyđến mẫu khác cho đến khi các trọng số đạt được giá trị thích hợp Khi sửdụng, lan truyền tiến được sử dụng một lần cho từng trường hợp nhập vào

1.8.3 Sự chuẩn bị và học dữ liệu

Học là một trong những đặc tính quan trọng nhất của mạng Nó chỉ racách điều chỉnh trọng số trong quá trình học Trong quá trình học, ta cần biếtmức tích cực thực tế so sánh với mức tích cực mong muốn để tính sai số Sai

số này sử dụng để điều chỉnh trọng số của mạng

Học là quá trình tìm các trọng số của mạng sao cho giá trị đầu ra của nókhớp với bộ dữ liệu chứa các mẫu của hàm đích (mục tiêu) Sai số trung bình

Trang 29

bình phương thường được sử dụng để đo lường sự trùng khớp giữa kết xuất

mạng và hàm đích cho trước Sai số trung bình bình phương E được tính như

sau:

K N

t z E

N k

kn kn N

n

.

) (

t kn = (t k1 , ,t kn ) các giá trị đầu ra của mạng Nơ-ron

z kn = (z k1 , ,z kn ) các giá trị đầu ra của hàm đích

Hồi qui tuyến tính là phương pháp cho phép xác định tập các hệ số của

mô hình tuyến tính của một tập mẫu cho trước sao cho sai số trung bình bìnhphương là nhỏ nhất Trong mô hình mạng Nơ-ron thì việc xác định sai số ítnhất là rất khó Phương pháp giảm gradient thường được sử dụng trong các

trường hợp này Phương pháp xem E là một mặt lỗi và xác định các trọng số

qua các bước chính như sau:

(1) Chọn một điểm ngẫu nhiên x 0 trong không gian trọng số

(2) Tính độ dốc của mặt lỗi tại x 0

(3) Cập nhật các trọng số theo hướng dốc nhất của mặt lỗi

(4) Xem điểm này như điểm x 0 mới

(5) Lặp đi lặp lại quá trình từ (2) đến (4) thì đến một lúc nào đó các giátrị của bộ trọng số sẽ tiếp cận đến điểm thấp nhất trong mặt lỗi Trong toán

Trang 30

học, độ dốc mặt lỗi được xác định qua đạo hàm riêng của từng trọng số trongmạng Nơ-ron Sau khi biết được độ dốc của mặt lỗi, thông tin này có thể đượcsử dụng nhiều cách khác nhau để cập nhật các trọng số.

Đạo hàm hàm lỗi đơn giản là tổng đạo hàm hàm lỗi tính trên từng trườnghợp của tập mẫu Do đó, tập trung phân tích và tìm cách tính đạo hàm hàm lỗitrên từng trường hợp Phương pháp này dựa trên qui tắc chuỗi như sau:

w

w w

là đạo hàm riêng của hàm lỗi E lấy theo trọng số w và trọng

số này tương ứng trên các nút ẩn, nút xuất của mạng w1, w2, , wn là các hàm

Do vậy mạng Nơ-ron thực chất cũng là một hàm hợp của nhiều hàm

Trước tiên, ta xét các trọng số của nút ẩn ảnh hưởng đến hàm lỗi như thếnào Rõ ràng trọng số nút ẩn đã ảnh hưởng trực tiếp đến tổng trọng hoá trênnút nhập và làm thay đổi giá trị hàm truyền của nút này Giá trị này chuyểncho tất cả các nút xuất, cuối cùng giá trị kết xuất của mạng sẽ so sánh với kếtxuất đích để xác định sai số Thuật toán học lan truyền ngược xem xét tácđộng này bằng cách đi ngược quá trình trên

a Trọng số nút xuất

Chuỗi tính trọng số nút xuất b có ba số hạng:

b

v v

z z

E b

Một nút xuất không ảnh hưởng gì đến các sai số của nút xuất khác nếu

nút xuất đang xét có giá trị là z và giá trị đúng của nó là t, thì sai số bình

phương là:

2( )2

1

t z

Trang 31

Vì t không đổi nên bất kỳ thay đổi nào của z cũng làm thay đổi E và tỉ lệ

1

1 ) 1 ( 1

1

1 1

1 )

(

2 2

2 '

z z

v

z

z z e

e e

e v

z

e v

z

e v

g

z

v

v v

v v v

− +

= +

j j

j y b b

v

1 0

trong đó, b0 là trọng ngưỡng, bj là các trọng số liên kết đến nút xuất và yj

các giá trị xuất của các nút ẩn

z

=

∂

, tức là v thay đổi cùng tỉ lệ với trọng

số b0 và v thay đổi một lượng bằng với giá trị nút ẩn tương ứng.

Trong trường hợp tồn tại các cung nối trực tiếp từ các nút nhập đến các

nút xuất, ta có i

j

x b

Trang 32

Đặt (z t)z( 1 z)

v

z z

j p

b

E

J j

j j

y y

k

v v

z z

E

y

E

1

Công thức này thể hiện việc ảnh hưởng của nút ẩn vào hàm E là một

tổng của tích 3 số hạng theo tất cả các nút xuất (k = 1,…,K) Hai số hạng đầucó ý nghĩa tương tự như trong phần a, chúng là thay đổi của lỗi theo kết xuất

của nút xuất và thay đổi của nút xuất theo tổng trọng hóa các đầu vào của nó Với p được đặt như trên, ta có:

y

v p

Trang 33

biểu diễn tác động của kết xuất nút ẩn trên tổng trọng hóa các

dữ liệu nhập của nút xuất Khi kết xuất nút ẩn tăng, tổng trọng hóa bằng giá

trị các trọng số của nó trên nút ẩn đó Vì thế: k

k k

diễn tả sự thay đổi trong kết xuất của nút ẩn đối với tổng trọng

các dữ liệu nhập vào nó: y( 1 y)

E q

k k k

j q

a

u

i i

1.9 MỘT SỐ THUẬT TOÁN ÁP DỤNG TRONG VIỆC HỌC CỦA MẠNG NƠ-RON

1.9.1 Lý thuyết thống kê học

Trước khi tìm hiểu về nguyên lý của mạng Nơ-ron, ta cùng tìm hiểu mộtvài kết quả của lý thuyết thống kê học Những kết quả này sẽ cung cấp khảnăng nhìn nhận thấu đáo các vấn đề mang tính chuyên sâu, nhiều kinh nghiệmkhi học từ các mẫu giới hạn Ta cùng xem xét ví dụ sau

Trang 34

* Ví dụ: Một ngân hàng đang phải đương đầu với việc là xem xét, kiểm

tra các khách hàng của mình, xem khả năng hoàn trả các khoản vay tín dụngcủa họ như thế nào Để giải quyết vấn đề này, ngân hàng tiến hành thu thập

các thông tin trong một mẫu với n thuộc tính về khách hàng, chẳng hạn như

tuổi tác, giới tính, nơi cư trú, Chúng ta sẽ biểu diễn mỗi thuộc tính này bởi

một biến X i ⊆ R và mỗi khách hàng được mô tả bởi một vectơ n chiều: x =

(x1, , xn) ∈ X ⊆ Rn

Gọi X là không gian chứa đầu vào khi tất cả khách hàng được mô tả như

là các điểm trong không gian này Việc khách hàng có khả năng hoàn trả các

khoản vay được biểu diễn bởi y = 1 và ngược lại, không có khả năng hoàn trả các khoản vay là y = -1 Không gian của tất cả các tình huống đầu ra gọi là

không gian ra Y và trong trường hợp này chỉ với 2 phần tử Lúc này ngânhàng đã có một mẫu giới hạn { ( ) }l

i i

i y x

S = , =1với kích thước là l Mục đích của việc học phân lớp này – dựa trên mẫu S đã cho – là để tìm ra hàm h: X → Y

được gán cho mỗi khách hàng mới (mỗi khách hàng được mô tả bởi một

vectơ x) cho các lớp tin cậy (y = 1) hoặc không tin cậy (y = -1) Để tìm ra một bản đồ như vậy, thông thường được gọi là người phân lớp, ngân hàng sẽ gán một rủi ro cho mỗi giả thiết h Ở đây, rủi ro của việc phân lớp h này có thể xảy ra tình huống là việc gán sai lớp cho một khách hàng x nào đó, nghĩa là một khách hàng ở nhóm tin cậy sang nhóm không tin cậy và ngược lại Lý

thuyết thống kê học làm cho rủi ro này càng hiện rõ bởi việc gán một khảnăng PXY trong việc chọn lựa khách hàng một cách ngẫu nhiên (lấy từ không

gian X) là tin cậy (y = 1) hoặc không tin cậy (y = -1) Giá trị của việc gán 1 khách hàng vào lớp ŷ với lớp y đúng được cho bởi:

ˆ 1

ˆ 0

ˆ ,

y y y

y L

Trang 35

Đây được gọi là mất mát không-một dùng để mô tả chi phí của lỗi phân

lớp Trong các ứng dụng liên quan, một cách khác dùng để xác định mất mátcó tính thực tế hơn là dựa vào chi phí thực tế để định lỗi Giá trị L trong PXY –thường gọi là giá trị lỗi – là khả năng xảy ra mất lớp Độ rủi ro được xác địnhnhư sau:

) 2 1 ( )

, ( )) ( , ( )

XY

P x h y L h R

và độ rủi ro cực tiểu sẽ là tốt nhất đối với ngân hàng Trong trường hợp tập

mẫu giới hạn S (tập huấn luyện), chỉ có độ rủi ro kinh nghiệm (lỗi huấn luyện)

được xác định:

) 3 1 ( ))

( , (

1 ) (

) , ( ∑

∈

=

S y x

i i emp

i i

x h y L l h R

Ta tìm hiểu tập H của phân lớp h đã được trình bày trong giả thiết Trong việc học của mạng Nơ-ron, khả năng thực hiện của tập H là tập các hàm với tham số h(x; α) = sign(α 1 x 1 +…+ α n x n ) và được gọi là một đối tượng học

(perceptron) (Rosenblatt, 1962) Việc phân lớp này được mô tả bởi một vectơ

tham số α = (α 1 , , α n ) và nhiệm vụ của việc học là tìm ra vectơ α * có khả

năng làm cho cực tiểu R(h(.; α)) mà không cần biết đến PXY Cực tiểu

))

(.;

(h α

R emp là một cách để làm cực tiểu R (h(.; α )) Nguyên tắc này được gọi là

cực tiểu rủi ro kinh nghiệm (Empirical Risk Minimization) Trong các phần

trình bày sau, ta gọi tắt R (h(.; α ))bởi α và H = {h(.;α)| α ∈Λ} bởi Λ.

* Vấn đề học: Để tổng kết lại các kết quả từ ví dụ trên, ta có thể công

thức hóa lại việc thống kê học như sau: cho 1 mẫu giới hạn

, ( ))

; ( , ( min

arg

R(

min arg

α α

Trang 36

mà không có các thông tin gì về PXY.

1.9.2 Cực tiểu rủi ro kinh nghiệm

Trong Vanik và Chervonekis (1971) một nguyên lý là công thức được

dùng để tìm kiếm một phân lớp α l để thực thi là nhằm tiến tới xác lập một α *

-độc lập với không gian giả thiết và bất kỳ giả định nào trong P XY Nguyên lý

chọn α l như sau:

) 5 1 ( ))

; ( , (

1 min arg

( R min arg

) , (

emp

∑

∈ Λ

i i l

i i

x h y L

α α

dẫn đầu tập hợp các tham số của α l nhằm làm cực tiểu độ chênh |R(α*)-R(α l)|

Nguyên lý này được gọi là Cực tiểu rủi ro kinh nghiệm (Empirical Risk

Minimization - ERM).

1.9.3 Generalization

Ta gọi lại theo cách khác một cách chính xác của sự sai khác trong giới

hạn |R(α*)-R(α l )| Theo cách nhìn của việc Học mạng Nơ-ron, sự khác biệt này được gọi là lỗi tổng quát Và ta có thể giới hạn lỗi tổng quát này bằng bất

đẳng thức sau:

, ) ( )

( max ) ( (

) ( )

Với số hạng thứ hai lớn hơn hoặc bằng |R(α l )-R emp (α l )| Mặc dù α* duy nhất

được định nghĩa bởi công thức (4), α l phụ thuộc rất nhiều vào giá trị ngẫu

nhiên trong tập S Vì vậy, ta giới hạn maxα ∈ Λ|R(α)-R emp (α)|.

1.9.4 Bất đẳng thức cơ bản

Từ công thức nếu Λ chứa một số hữu hạn các phân lớp, nguyên tắc chọn

α l xấp xỉ α* là phù hợp Phù hợp có nghĩa là lỗi tổng quát có thể được giới

hạn với một khả năng nếu l tiến tới vô hạn Điều này đúng với luật số lớn, từ

Trang 37

khi R(α) được cho là độ mất mát của α và R emp (α) được hiểu độ mất mát của α

với độ hội tụ đều

) 1

2 (ln exp

4

| ) ( ) (

l c

R R

học, bất đẳng thức

) 7 1 (

4 / ln ) 1

2 (ln )

( )

(

l c

l c R

δ α

α

− + +

giữ một đại lượng 1 – δ Với việc học của mạng thì đây có nghĩa độ rủi ro

R(α) có thể được tính toán bằng tổng của hai số hạng: độ rủi ro kinh nghiệm

R emp (α), có thể được tính từ tập huấn luyện, và một số hạng có khả năng chứa,

được coi là độ phức tạp trong không gian H trong quan hệ giữa số các mẫu huấn luyện Ở đây, ERM như được trình bày ở trên nhằm cực tiểu R emp (α).

Mục tiêu của chọn mô hình là nhằm tìm kiếm sự cân bằng giữa năng lực

giảng giải và khả năng điều khiển của mạng Nơ-ron Sau đây là hai định

nghĩa liên quan đến chiều VC c Λ

Định nghĩa 1: (Shattering) một tập con x1, , xn ∈ Xn được gọi làshattering Λ, nếu với mỗi 2 lớp có nhãn là yi = 1 hoặc yi = -1 tồn tại một hàm

α ∈ Λ có thể phân lớp được theo cách này

Trang 38

Định nghĩa 2: (Chiều VC) Chiều VC cΛ của tập hợp các hàm Λ là sốlượng cực đại của các yếu tố x1, , xcΛ ⊂ X xcΛ có thể được shattered bởi cáchàm Λ.

Kiến trúc cực tiểu rủi ro: Vapnik (1982) mô tả một nguyên lý học và

được gọi là Kiến trúc cực tiểu rủi ro (Structural Risk Minimization – SRM),

đây là nguyên lý có thể dễ dàng được chứng minh bởi bất đẳng thức (3.8) Ýtưởng của nguyên lý này là định nghĩa một bộ tập con chính Λ1 ⊂ Λ2 ⊂ ⊂

Λ của các hàm và áp dụng nguyên lý ERM (huấn luyện cực tiểu rủi ro) trongmỗi một bộ Λi đạt được trong phân lớp αl i Phân tích bất đẳng thức, một khả

năng có thể chấp nhận là phân lớp αl i*với vế phải của bất đẳng thức (3.8) là

cực tiểu Và vì vậy, thuật toán học không chỉ tìm ra phân lớp tốt nhất trongtập các hàm đã cho mà còn tìm ra tập của các hàm với các lớp tốt nhất vớinhau

Như trên đã trình bày các kiểu mạng Nơ-ron khác nhau, trong phần này

sẽ trình bày một số thuật toán áp dụng cho việc học của mạng Nơ-ron Ở đâycũng chỉ trình bày các vấn đề mang tính nguyên lý hơn là đi vào chi tiết củathuật toán

1.9.5 Mạng Nơ-ron truyền thẳng (Feed-Foward Neural Networks)

a Perceptron và luật Delta

Với trường hợp đơn giản r = n, m = 1, Y = {-1, +1}, f 1 (x;β) = x, và

i i

2 ( ; γ ) ( γ ) ( γ ' ) Kiểu mạng này được gọi là Perceptron Việc

học là nhằm làm giảm bớt việc tìm kiếm véc tơ α = γ để cực tiểu R emp (α).

Chúng ta sẽ xem xét trường hợp chỉ tồn tại véc tơ α = γ mà R emp (α) = 0 Ta

viết lại độ rủi ro kinh nghiệm của véc tơ α là = ∑=l

t

t emp

1 )

Trang 39

) 8 1 ( )

) ' ( ( )

,

t t t

Để cực tiểu hàm này, ta sử dụng Luật Delta.

Hình 1.5 Mô hình mạng Nơ-ron 2 lớp

với lớp vào X = R n = R 2 , lớp ẩn R r = R 3 và lớp ra Y = R m = R 1 Ở đây,

không xem lớp vào như là một lớp tính toán

Bắt đầu với một giá trị khởi tạo α 0, bước lặp sau được sử dụng:

) 9 1 ( )

) ' ( ( 2

1 :

phân lớp mỗi một mẫu huấn luyện x i bằng cách sử dụng α t

if x i là lớp lỗi then

xt+1 := xt + yixi, t:= t + 1

end if

while thoát các mẫu huấn luyện lỗi

Input layer (n units)

Hidden layer (r units)

Output layer (m units)

Trang 40

b Tri thức đa lớp và Lan truyền ngược

Việc thêm vào các Nơ-ron ẩn làm gia tăng chiều VC của mạng vàđây cũng chính là yếu tố làm tăng tính hiệu quả của mô hình dữ liệu Trongtrường hợp hai lớp chọn f1(x;β) = (g1(β’1x),…, g1(β’rx))’ và f2(z;γ) =g2(γ’;z), với z là một véc tơ r chiều của lớp ẩn hoạt động, β = (β1,…, βr)’, và

g1: R  R và g2: R  R là các hàm “di chuyển” của Nơ-ron Thường thì ở

đây có sự khác nhau trong hàm xích ma, ví dụ: gi(a) = tanh(c.a) Kiểu mạngnày được gọi là tri thức đa lớp (Multilayer perceptron - MLP) Trong trườnghợp phân loại m = 1 và Y = {-1, +1} Khi lớp cuối cùng kích hoạt hàm g2được sử dụng, điều đó trở nên cần thiết cho việc sắp xếp các lớp ra đến mộtdạng quyết định nhị phân Điều này có thể được thực hiện bằng ngưỡng củađầu ra, ví dụ: sign(h(x;α)- θ)

Như trên đã trình bày, việc học của một mạng Nơ-ron là nhằm giảm bớtviệc tìm kiếm véc tơ α = (β,γ)’ để có thể cực tiểu đại lượng Remp(α) Bằngcách sử dụng:

2

1 2

1 )

r j

t j j t

γ α

Khi tính ∇γRemp(α,xt) và R emp( ,x t)

j α

β

∇ để áp dụng độ dốc Công thức trêncó liên quan đến phân số của đối tượng lỗi lớp trong trường hợp c  ∞ Liêntục thực hiện phép lấy vi phân, ta được:

( )

) ,

2 t t t

t t

1 ' '

t t

Học lan truyền ngược (MLP Network)

α0 = (β1, ,r;0, γ0)’ := giá trị khởi tạo ngẫu nhiên

Định dạng
Số trang	87
Dung lượng	2,96 MB