Một số áp dụng của giải tích toán học trong machine learning và deep learning

ĐĂNG HẢI TRIỀUMỘT SỐ ÁP DỤNG CỦA GIẢI TÍCH TOÁN HỌC TRONG MACHINE LEARNING VÀ DEEP LEARNING LUẬN VĂN THẠC SĨ TOÁN HỌC Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN... Lời cam đoanTôi xi

Trang 1

ĐĂNG HẢI TRIỀU

MỘT SỐ ÁP DỤNG CỦA GIẢI TÍCH

TOÁN HỌC TRONG MACHINE LEARNING

VÀ DEEP LEARNING

LUẬN VĂN THẠC SĨ TOÁN HỌC

Bộ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC QUY NHƠN

Trang 2

Bình Đinh - Năm 2020 ĐẶNG HẢI TRIỀU

Trang 3

Kết luận 45

Trang 4

Lời cam đoan

Tôi xin cam đoan mọi kết quả của đề tài: “ Một số áp dụng của Giải tích toán

học trong Machine learning và Deep learning” là một công trình nghiên cứu độc lập

của tôi dưới sự hướng dẫn của giảng viên: TS Mai Thành Tấn, ngoài ra không có bất

cứ sự sao chép nào của người khác

Đề tài, nội dung luận văn này là kết quả nỗ lực nghiên cứu của bản thân tôi trongquá trình học tập tại trường và nơi làm việc Các tài liệu được tham khảo, kế thừa vàtrích dẫn đều được liệt kê trong danh mục Tài liệu tham khảo

Tôi xin chịu hoàn toàn trách nhiệm, kỷ luật của bộ môn và nhà trường đề ra nếunhư có vấn đề xảy ra

Quy Nhơn, tháng 7 năm 2020

Học viên

Đặng Hải Triều

Trang 5

Lời cảm ơn

Luận văn được hoàn thành nhờ sự hướng dẫn và giúp đỡ tận tình của thầy hướngdẫn TS Mai Thành Tấn, Trường Đại học Quy Nhơn Nhân dịp này tôi xin bày tỏ sựkính trọng và lòng biết ơn sâu sắc đến Thầy đã giúp đỡ tôi trong suốt quá trình họctập và thực hiện luận văn

Xin gửi lời cảm ơn đến quý Ban lãnh đạo Trường Đại học Quy Nhơn, PhòngĐào tạo Sau Đại học, Khoa Toán và Thống kê tạo điều kiện thuận lợi cho tôi trongquá trình học tập và thực hiện đề tài

Xin gửi cảm ơn đến FPT Software Quy Nhơn, team Trí Tuệ Nhân Tạo FWI.AAA

đã tạo điều kiện cho tôi được làm việc trong một môi trường chuyên nghiệp, bêncạnh đó đã hỗ trợ cho tôi được tiếp xúc gần hơn với ngành công nghiệp AI Nhờ đó

đã giúp tôi hoàn thiện tốt đề tài của mình

Xin được bày tỏ lòng biết ơn của tôi đến quý thầy, cô giảng dạy lớp cao họcToán Giải Tích số khóa 21, những người đã dày công truyền đạt kiến thức cũng nhưđạo đức sư phạm cho chúng tôi trong suốt khóa học

Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình và bạn bè tôi, nhữngngười đã tạo điều kiện thuận lợi để tôi hoàn thành tốt khóa học và luận văn này

Quy Nhơn, tháng 7 năm 2020

Đặng Hải Triều

Trang 6

Danh mục hình vẽ và đồ thị

Trang

1.1 4.1

Trang 8

1.27 Lời nói đầu

1.28 Trong tất cả các ngành khoa học, toán học đóng vai trò quan trọng trongviệc phát triển các ngành khoa học đặc thù Ví dụ toán học xác xuất thống kê trong sinhhọc, toán học trong vật lý, toán học trong hóa học, Đặc biệt trong lĩnh vực công nghệthông tin, toán học luôn đi trước mở đường cho ngành công nghệ thông tin Một số lĩnhvực của toán học là tiền đề, xương sống trong sự phát triển của công nghệ thông tin.1.29 Trí tuệ nhân tạo (Artificial Intelligence - AI) đã và đang trở thành thànhphần cốt lõi trong các hệ thống công nghệ cao Trong xã hội hiện đại, chúng ta bắt gặp

AI ở khắp mọi nơi AI ứng dụng trong kinh tế, y học, kỹ thuật quân sự, khoa học máymóc, các thiết bị công nghệ phục vụ sinh hoạt và các ứng dụng giải trí Điển hình nhưtrong các kĩnh vực chế tạo người máy, trò chơi điện tử, trợ lý ảo, nhà ở thông minh, côngnghệ thực tế ảo VR,

1.30 Machine Learning và Deep Learning là một trong những lĩnh vực của Trítuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép hệ thống

"tự học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể

1.31 Hiện tại, tôi đã và đang có cơ hội được tiếp xúc cũng như làm về thuậttoán, tìm hiểu về các thuật toán thì càng thấy rằng ý nghĩa, tầm quan trọng của toán họcvới tin học rất lớn và ngày càng lớn Gần đây ta nghe thấy nhiều về lĩnh vực Trí tuệ nhântạo và từ ngữ này rất phổ biến hiện nay Trí tuệ nhân tạo nổi lên như một bằng chứng củacuộc cách mạng công nghiệp lần thứ tư

1.32 Luận văn: “ Một số ứng dụng của giải tích trong machine learning và deep

learning” nhằm tìm hiểu một số vấn đề về toán học giải tích có ứng dụng trong lĩnh vực

Machine Learning và Deep Learning Nội dung của luận văn gồm bốn chương:

1.33 Chương 1 Một số kiến thức chuẩn bị

1.34 Chương này trình bày một số kiến thức cơ bản về giải tích lồi, toán tối ưu,giải tích ma trận

1.35 Chương 2 Mạng nơ-ron

1.36 Chương này trình bày về Mạng nơ-ron, một thuật ngữ quan trọng trong AI,kèm theo đó là giải quyết một số vấn đề của toán giải tích có liên quan trực tiếp.1.37 Chương 3 Hồi quy tuyến tính

Trang 8

Trang 9

1.38 Chương này trình bày một số vấn đề của toán về giải tích ma trận để giải quyết một số bài toán hồi quy.

1.39 Chương 4 Support Vector Machine

1.40 Chương này trình bày một số vấn đề về tối ưu, đặc biệt là tối ưu lồi để giải quyết bài toán phân chia 2 lớp dữ liệu

1.41 Mặc dù luận văn được thực hiện với tinh thần nghiêm túc cùng với sự nỗ lực và cố gắng hết sức của bản thân, nhưng bởi trình độ kiến thức và kinh nghiệm nghiêncứu còn hạn chế nên luận văn khó tránh khỏi những thiếu sót Chình vì thế, rất mong nhận được những góp ý của quý thầy cô để luận văn được hoàn thiện hơn

1.42 Quy Nhơn, tháng 7 năm 2020

1.43 Tác giả

Trang 9

Trang 10

1.44 Chương 1

1.46 Chương này trình bày một số kiến thức cơ bản về Lý thuyết độ đo, giải

tích hàm, lý thuyết tối ưu, một số khái niệm trong Machine learning Các kết quả trong

chương này chủ yếu được tham khảo từ các tài liệu [1], [3], [4] và [7] trong: “Danh mục

tài liệu tham khảo”.

a) Nếu X = {a, b, c, d}, một ơ - đại số trên X có thể là A = {0, {a, b}, {c, d}, {a, b, c,

d}} Nhìn chung, một đại số hữu hạn luôn là một ơ - đại số

b) Nếu {A1, A2,An} là một phân hoạch đếm được trên X thì tập của hợp tất

1.51 cả các tập phân hoạch (bao gồm cả tập rỗng) là một ơ— đại số

1.1.3. ơ đại số Borel

1.52 Định nghĩa 1.1.5 Một ơ— đại số nhỏ nhất bao hàm lớp các tập mở trong không

Trang 11

gian mêtric X được gọi là ơ— đại số Borel của không gian X Mỗi phần tử của ơ— đại số

này được gọi là tập Borel.

1.1.4 Độ đo

1.53 Định nghĩa 1.1.6 Cho L là một đại số trên X Hàm tập : L —> R được gọi là một

độ đo trên L nếu

i)^(A) > 0 với mọi A G L;

ii) ^(0) = 0;

iii) là ơ— cộng tính Tức là, với mọi dãy tập {Ai}i eNc L thỏa mãn Ajn Aj = 0

1.54 với mọi i = j và I^J Aj G L thì

1.55 i=1

1.56 ( ro \ ro

1.57 u Ai) = V(AỈ )

1.58 i=1 i=1

1.59 Nếu là một độ đo trên (X, L) thì (X, L,^) được gọi là không gian độ đo

1.60 Ví dụ 1.1.7 Cho X là tập đếm được và : P(X) —> R được xác định bởi

1.61 {n nếu A có n phần tử1.62 ■ 'X nếu A có vô hạn phần tử1.63 Khi đó là một độ đo Ta gọi độ đo này là độ đo đếm

1.1.5 Hàm đo được

1.64 Định nghĩa 1.1.8 Cho (X, M) và (Y,N) là các không gian đo được Một ánh xạ f : X

—> Y được gọi là (M,N)- đo được nếu f-1(E) G M, VE G N

1.65 Từ định nghĩa trên ta có hệ quả sau:

1.66 Hệ quả 1.1.9 Cho X và Y là các không gian metric, nếu f : X —> Y là liên tục thì

(B X , B Y) - đo được

1.67 Chứng minh Để chỉ ra rằng f là (BX, BY) - đo được, ta cần chỉ ra rằng VE G BY, f

-1(E) G BX Đặt E G BY tùy ý Trong đó, BYlà ơ - đại số của các tập mở

1.68 Như vậy, E là tập mở Vì f liên tục, theo định nghĩa của liên tục trong giải tích cổ điển (f là liên tục nếu f-1(U) là mở trong X với mỗi mở U c Y), ta có

1.69

Trang 12

iii)I(I(U)) = I(U) ,

1.71 Ví dụ 1.2.2 Cho S là một tập tùy ý Khi đó ánh xạ đồng nhất I(U) = U là một toán

tử trong trên S

1.2.2 Không gian định chuẩn

1.72 Định nghĩa 1.2.3 Cho X là một không gian vectơ trên trường K, với K là trường sốthực R hoặc trường số phức C Ánh xạ p : X —> R được gọi là một chuẩn trên X nếu cácđiều kiện sau được thỏa mãn:

i)p(x) > 0 với mọi x G X;

ii) p(Ax) = |A|.p(x) với mọi x G X, A G K ;

iii)p(x + y) < p(x) + p(y) với mọi x, y G X

1.73 Khi đó X cùng với chuẩn p được gọi là một không gian định chuẩn và ký

Trang 13

1.83 là một phiếm hàm tuyến tính trên không gian C[ a ; b].

1.84 Định nghĩa 1.2.7 Cho X là không gian vector thực, một phiếm hàm dưới tuyến

1.89 Định nghĩa 1.2.9 Một phiếm hàm tuyến tính I trên Cc(X) là dương nếu

1.90 I(f) > 0 với mọi f > 0

1.91 Định lí 1.2.10 (Định lý Haln Banach) Cho X là không gian vector thực, p là một phiếm hàm dưới tuyến tính trên X , M là không gian con của X và f là phiếm hàm tuyến tính trên M sao cho f (x) < p(x) với mọi x E M Khi đó tồn tại một phiếm hàm tuyến tính F

trên X sao cho F(x) < p(x) với mọi x E X và F|M=f.

1.3 Lý thuyết tối ưu

1.3.1 Hàm Lagrange của bài toán tối ưu

1.92 Xét bài toán tối ưu tổng quát

Trang 14

1.108.Định lí 1.3.2 (Định lý đối ngẫu yếu) Giả sử x * là điểm tối ưu của f với f * = f (x*)

và(u*, v*) là điểm tối ưu của g với g " = g(u*, v*) Khi đó ta có g ' < f *

1.109 Giá trị |f * — g*| được gọi là cách biệt đối ngẫu tối ưu Khi giá trị này bằng 0 thì

đối ngẫu mạnh xảy ra.

1.110 Định nghĩa 1.3.3 Một điểm khả thi của bài toán tối ưu được gọi là khả thi chặt

nếu

1.111 ci(x) < 0, i = 1, 2, , m, Ax = b.

1.112 Mệnh đề 1.3.4 (Tiêu chuẩn Slater) Nếu bài toán chính là một bài toán tối ưu lồi

và tồn tại một điểm khả thi chặt thì đối ngẫu mạnh xảy ra.

Trang 15

1.3.3 Điều kiện Karush-Kuhn-Tucker (KKT)

1.113 Điều kiện KKT đối với bài toán không lồi

1.114 Giả sử đối ngẫu mạnh xảy ra Gọi x* và (u*, v*) là một bộ điểm tối ưu chính và tối

ưu đối ngẫu Vì x* tối ưu hàm khả vi L(x, u*, v*), ta có đạo hàm hàm Lagrange tại x* bằng0

1.115 Điều kiện Karush-Kuhn-Tucker (KKT) nói rằng x * , u*, v* phải thỏa mãn các điều kiện sau:

1.4 Một số thuật ngữ trong Machine learning

1.4.1 Thuật toán Gradient Descent

1.117 Thuật toán Gradient Descent là thuật toán lặp nhằm tìm ra giá trị nhỏ nhất

của một hàm lồi khả vi bởi cấu trúc một chuỗi các điểm (xk) Thuật toán GradientDescent gồm bốn bước:

1.118

1.119 Bước 1 Chọn e > 0, n > 0, x0G Rnvà đặt k := 0;

1.120 Bước 2 Nếu Vf (xk) < e thì dừng, ngược lại tiếp tục sang bước 3 ;

1.121 Bước 3 Tính xk+1= xk- nVf (xk);

1.122 Bước 4 Đặt k := k + 1, sang bước 2

1.123 Trong đó n được gọi là tốc độ học.

1.124 Thuật toán này tuy đơn giản nhưng thường được dùng bởi nó hội tụ khátốt Chỉ lưu ý một điều là việc chọn tốc độ học n có ảnh hưởng rất lớn đến tốc độ hội tụ.Nếu chọn quá bé thì thuật toán hội tụ chậm, còn nếu chọn quá lớn thì có thể không hội

tụ Một nhược điểm khác của thuật toán này là nó thường hội tụ đến điểm cực tiểu địaphương thay vì điểm cực tiểu toàn cục

i=1

Trang 16

1.4.2 Thuật toán Perceptron

1.125 Thuật toán Perceptron (Perceptron Learning Algorithm - PLA) là mộttrong những thuật toán phân lớp dữ liệu cơ bản trong các mô hình mạng nơ-ron Ý tưởng

cơ bản nhất của thuật toán là với các lớp dữ liệu khác nhau, hãy tìm các mặt phân loại đểchia cắt các lớp này thành những vùng tách biệt Trường hợp đơn giản nhất của thuậttoán này là phân lớp nhị phân bằng một mặt phân loại tuyến tính

1.126 Cũng giống như các thuật toán khác của Machine Learning, PLA đi tìmmặt phân loại bằng cách tối thiểu hóa một hàm mất mát Hàm mất mát của PLA cầnđược xây dựng sao cho khả vi để có thể sử dụng các thuật toán Gradient Descent trongviệc tìm cực tiểu toàn cục

1.4.3 Phương pháp Flatten

1.127 Flatten (trải phẳng) là phương pháp chuyển đổi một ma trận thành 1 vectorcột Sau đó được cung cấp cho mạng nơ-ron để xử lý Kỹ thuật Flatten thường đượcdùng để trải phẳng một hình ảnh 2D thành một vector cột để làm đầu vào cho mạng nơ-ron

1.4.4 Hiện tương quá khớp (Overfitting)

1.128 Overfitting là hiện tượng mô hình tìm được quá khớp với dữ liệu training.

Việc quá khớp này có thể dẫn đến việc dự đoán nhầm nhiễu, và chất lượng mô hìnhkhông còn tốt trên dữ liệu test nữa (dữ liệu test được giả sử là không được biết trước, vàkhông được sử dụng để xây dựng các mô hình Machine Learning)

Trang 18

1.141.Chương 2

1.143 Mạng ron (Neural Network - NN), đúng hơn phải gọi là Mạng ron nhân tạo (Artificial Neural Network - ANN) được định nghĩa đơn giản nhất làmột hệ thống máy tính được tạo thành từ một số yếu số xử lý đơn giản, có tính kếtnối cao, xử lý thông tin bằng phản ứng trạng thái động của chúng với các đầu vàobên ngoài Định nghĩa mạng nơ-ron này được cung cấp bởi một trong những nhàphát minh đi đầu trong lĩnh vực mạng nơ-ron, Tiến sĩ Robert Hecht-Nielen

nơ-1.144 Giống như tên gọi, mạng nơ-ron được lấy cảm hứng từ bộ não Mạngnơ-ron nhân tạo (ANN) là một mô hình tính toán dựa trên cấu trúc và chức năng củamạng lưới thần kinh sinh học Thông tin chảy qua mạng ảnh hưởng đến cấu trúc củaANN vì mạng thần kinh thay đổi, hoặc học theo nghĩa dựa trên đầu vào và đầu ra đó.1.145 Trong chương này, tôi trình bày việc áp dụng các kỹ thuật phân tíchtoán học trong nghiên cứu về mạng nơ-ron (NN), các nơ-ron là gì và chúng được liênkết với nhau như thế nào?

1.146 Việc sử dụng NN như một phần của mô hình tổng quát hơn về điệntoán thần kinh có các ứng dụng rộng rãi trong nhận dạng mẫu và trong các loại phântích dữ liệu khác nhau

1.147 Các kết quả trong chương này chủ yếu được tham khảo từ các tài liệu

[2], [3], [6], [7], [9] trong: “Danh mục tài liệu tham khảo”.

2.1 Nơ-ron

1.148 Một đứa trẻ có thể phân biệt được các con vật, hay một con chó có thểphân biệt được người thân trong gia đình và người lạ Những việc tưởng chừng nhưrất đơn giản nhưng lại cực kì khó để thực hiện bằng máy tính Vậy sự khác biệt nằm

ở đâu? Câu trả lời nằm ở bộ não với lượng lớn các nơ-ron thần kinh liên kết vớinhau Thế thì máy tính có nên mô phỏng lại mô hình ấy để giải quyết bài toán trên.1.149 Nơ-ron là đơn vị cơ bản cấu tạo hệ thống thần kinh và là một phầnquan trọng nhất của não Não chúng ta gồm khoảng 10 triệu nơ-ron liên kết với10.000 nơ-ron khác ở mỗi nơ-ron có phần thân (soma) chứa nhân, các tín hiệu đầu

Trang 19

vào qua sợi nhánh (dendrites) và các tín hiệu đầu ra qua sợi trục (axon) kết nối vớicác nơ-ron khác Hiểu đơn giản mỗi nơ-ron nhận dữ liệu đầu vào qua sợi nhánh vàtruyền dữ liệu đầu ra qua sợi trục, đến các sợi nhánh của các nơ-ron khác.

1.150 Mỗi nơ-ron nhận xung điện từ các nơ-ron khác qua sợi nhánh Nếu cácxung điện này đủ lớn để kích hoạt nơ-ron thì tín hiệu này đi qua sợi trục đến các sợinhánh của các nơ-ron khác ở mỗi nơ-ron cần quyết định có kích hoạt nơ-ron đấy haykhông

1.151 Tuy nhiên NN chỉ là lấy cảm hứng từ bộ não và cách nó hoạt động chứkhông phải bắt chước toàn bộ các chức năng của nó Việc chính của chúng ta là dùng

mô hình đấy đi giải quyết các bài toán chúng ta cần

1.152 Theo một cách hiểu khác, NN là một đồ thị có hướng gồm tập hợp Ncác đỉnh (nơ-ron); các cạnh của đồ thị biểu thị các luồng thông tin giữa các nơ-ron.Như chúng ta sẽ thấy, có một số loại NN tùy thuộc vào cấu trúc của đồ thị cơ bản.1.153 Một nơ-ron được định nghĩa bởi một hệ số điều chỉnh ớ, một hàm kíchhoạt

1.154.ơ : R —> R1.155 và một vector trọng số w G Rn

1.156 Khi một vector đầu vào x G Rnđược đưa vào n đầu vào của nơ-ron, quátrình xử lý sẽ tính toán

1.157 y = ơ (w T x + ,

1.158 giá trị của y được lấy làm đơn vị đầu ra

1.159 Hàm kích hoạt của một nút định nghĩa đầu ra của nút đó được cung cấp

bởi một đầu vào hoặc tập các đầu vào

1.160 Hàm kích hoạt được sinh ra với mục đích bẻ gãy sự tuyến tính củamạng nơ-ron Các hàm này nên là hàm phi tuyến để mã hóa các mẫu phức tạp của dữliệu Các hàm kích hoạt được sử dụng trong mạng nơ-ron là hàm kích hoạt đa trạngthái Các hàm này có thể hiểu đơn giản như một bộ lọc quyết định xem thông tin có

đi qua mạng nơ-ron hay không

1.161 Trong sinh học, hàm kích hoạt thường là một sự trừu tượng đại diệncho tốc độ truyền của các nơ-ron

Trang 20

1.162.Ví dụ 2.1.1 Một số hàm kích hoạt phổ biến thường dùng hiện nay:

1.163 (i) Hàm Logictis

1.164 a(x) = ——— •

1.165.v 7 1 + e-x

1.166 Hàm Logictis (thường được gọi là hàm sigmoid) nhận đầu vào

là một số thực và chuyển thành một giá trị trong khoảng (0,1)

Trang 21

1.186.Định nghĩa 2.1.2 Hàm ơ : R —> R được gọi là một hàm sigmoid (hàm nén)

nếu hai điều kiện sau được thỏa mãn:

i)ơ là một hàm tăng;

ii) lim ơ(x) = 1 và lim ơ(x) = 0.

1.187. -xx >—^

Trang 22

1.188.Ví dụ 2.1.3 Một số hàm sigmoid phổ biến được liệt kê dưới đây:

1.228.Định nghĩa 2.1.4 Cho x0là điểm gián đoạn của hàm số f Khi đó

1.229 jump(f, x0) = lim f(x) - lim f(x)

1.230 x x + x x

1.231 được gọi là bước nhảy của f tại điểm xo

1.232.Định nghĩa 2.1.5 Một dãy có độ dài n trên tập X là hàm

1.233.x : {0,1,n — 1} —> X.

1.234 Tập các dãy có độ dài n trên tập X được ký hiệu là Seqn(X)

1.235.Định lí 2.1.6 Cho f : X —> R là hàm đơn điệu, trong đó X c R Khi đó tất cả

các điểm gián đoạn của f đều là điểm gián đoạn loại I.

1.236 Chứng minh Rõ ràng hàm đơn điệu có giới hạn một bên tại mỗi điểm

trên tập xác định Ta cần chứng minh rằng các giới hạn một bên đó là hữu hạn.1.237 Thật vậy, không giảm tổng quát, giả sử rằng hàm f là một hàm tăng Khi đó, với mọi u, v G X thỏa mãn u < x < v, ta có

1.238.f (u) < f (x) < f (v)

Trang 23

1.239 tức là

1.240 t >x- f ( u) < lim f (t) < Hm t > x + f (t) < f (v)

1.242.Định lí 2.1.7 Tập hợp các điểm gián đoạn của hàm đơn điệu là đếm được.

1.243 Chứng minh Không giảm tổng quát, giả sử rằng hàm đơn điệu

Trang 24

1.285 tức là số lượng điểm gián đoạn mà bước nhảy lớn hơn a là hữu hạn.1.286.Đặt C1là tập hợp các điểm gián đoạn của f trong đó bước nhảy tối thiểubằng 1 và với n > 2 ta gọi

1.287 Cn= I c ị (a; b)| c là điểm gián đoạn

1.305.Từ f (x < c), x là một điểm gián đoạn loại I của f suy ra V là đếm được

vì f có một tập các điểm gián đoạn loại I là đếm được

1.306 Như vậy, V là tập Borel

1.307 Vì f-1(-rc), c) = u u V suy ra f-1(-rc), c) là tập Borel

1 < jump (f, c) < n

và

: J —> R là hàm đơn điêu và

Trang 25

1.311 trong đó G = (N, E) là một đồ thi và w : E —> R là một hàm chỉ đinh trọng số

w(i; j) của cạnh (i; j) giữa các nơ-ron i và j

1.312 Ta ký hiệu Wij = w(i; j) là trọng số kết nối giữa các nơ-ron i và j

1.313 Một mạng nơ-ron đơn giản bao gồm một lớp của n đơn đầu vào và một lớp đơn vi xử lý (lớp ẩn) m

1.314

1.315

1.316.Hình 2.4: Mạng nơ-ron đơn giản với n nơ-ron đầu vào và m nơ-ron xử lý

1.317 Một mạng nơ-ron có thể được mỏ rộng bao gồm đơn vi đầu ra là tổng các đầu ra của các đơn vi xử lý

1.318

1.319 Hình 2.5: Mạng nơ-ron với một đầu ra

Trang 26

1.320 Mạng nơ-ron có thể được huấn luyện để xấp xỉ một lớp hàm F có dạng

1.321. -f : Rn > Rm

1.322 Khi mạng được cung cấp các mẫu dữ liệu (x, f (x)), trong đó x G Rnmộtthuật toán được áp dụng để điều chỉnh các trọng số wi j và các hệ số điều chỉnh 0j saocho độ lệch giữa f (x) và mạng đầu ra y = (yi, ,y r n ) T là nhỏ nhất

2.3 Mạng nơ-ron như là xấp xỉ phổ quát

1.323 Xét khối lập phương n chiều

1.324.In := [0, 1]n

1.325 Tập hữu hạn độ đo có dấu Borel chính quy trên Inđược ký hiệu bằng

M(In) và tổng của hàm sigmoid có dạng

1.326.^2 n/T(wj x + 0j)

1.327 i=1

1.328 là trù mật trong không gian C(In) của giá trị thực liên tục trên In đã trang bịmetric dsupcho bất kỳ hàm sigmoid ơ

1.329.Định nghĩa 2.3.1 Cho m là độ đo có dấu Borel chính quy hữu hạn trên I n Một

hàm ơ G C(In) là phân biệt theo m nếu

1.336 Chứng minh Khẳng định này đúng với mọi f G C(In) và £ > 0 Bây giờ,

rõ ràng tồn tại một tổng g(x) có dạng trên sao cho

1.337.|g(x) - f (x) |< £

1.2.(wTx + 0) dm = 0,

Trang 27

1.342.Hiển nhiên, S là không gian con tuyến tính của C(I n )

1.343.Giả sử rằng tôpô đóng R := K(S) của S là tập con thực sự trong C(I n ) ,

nghĩa là S không trù mật trong C(I n ) Khi đó, R là một không gian con đóng thực

1.352.Định lí 2.3.3 Bất kỳ hàm sigmoid bị chặn và đo được đều là phân biệt.

1.353 Chứng minh Cho ơ E C(I n ) là một hàm sao cho

1.354

1.356 với mọi w G Invà 0 G R Lưu ý rằng, hàm ơ \ được định nghĩa bởi

1.357.ơ \,ộ (x) = ơ(X(w T x + 0) + ộ)

1.358 với x G Incụ thể là1.359.ơ \,ộ (w T x + 0) dm = 0, Vw G I , 0 E R

(wTx + 0) dm = 0, V w, 0,

(wTx + 0) dm = 0

Định dạng
Số trang	55
Dung lượng	247,23 KB