Một số áp dụng của giải tích toán học trong machine learning và deep learning

Machine Learning và Deep Learning là một trong những lĩnh vực của Trítuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép hệ thống "tự học" tự động từ dữ liệu để

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN

Trang 3

Mục lục

Trang

Lời cam đoan iii

Lời cảm ơn iv

Danh mục hình vẽ và đồ thị v

Danh mục ký hiệu vi

Lời nói đầu 1 Chương 1 Một số kiến thức chuẩn bị 3 1.1 Lý thuyết độ đo 3

1.2 Giải tích hàm 5

1.3 Lý thuyết tối ưu 6

1.4 Một số thuật ngữ trong Machine learning 8

Chương 2 Mạng nơ-ron 11 2.1 Nơ-ron 11

2.2 Mạng nơ-ron 18

2.3 Mạng nơ-ron như là xấp xỉ phổ quát 19

2.4 Điều chỉnh trọng số bằng lan truyền ngược 23

2.5 Ví dụ minh họa 27

Chương 3 Hồi quy tuyến tính 29 3.1 Đặt vấn đề 30

3.2 Xây dựng hàm mất mát 31

3.3 Nghiệm của hàm mất mát 32

Chương 4 Máy vector hỗ trợ 37 4.1 Tập dữ liệu có thể phân tách tuyến tính 38

4.2 Xây dựng bài toán tối ưu cho SVM 39

4.3 Bài toán đối ngẫu 41

Trang 4

Kếtlluận 45Tài liệu tham khảo 46

Trang 5

Lời cam đoan

Tôi xin cam đoan mọi kết quả của đề tài: “ Một số áp dụng của Giải tíchtoán học trong Machine learning và Deep learning ” là một công trình nghiêncứu độc lập của tôi dưới sự hướng dẫn của giảng viên: TS Mai Thành Tấn,ngoài ra không có bất cứ sự sao chép nào của người khác

Đề tài, nội dung luận văn này là kết quả nỗ lực nghiên cứu của bản thântôi trong quá trình học tập tại trường và nơi làm việc Các tài liệu được thamkhảo, kế thừa và trích dẫn đều được liệt kê trong danh mục Tài liệu tham khảo.Tôi xin chịu hoàn toàn trách nhiệm, kỷ luật của bộ môn và nhà trường đề

ra nếu như có vấn đề xảy ra

Quy Nhơn, tháng 7 năm 2020

Học viên

Đặng Hải Triều

Trang 6

Lời cảm ơn

Luận văn được hoàn thành nhờ sự hướng dẫn và giúp đỡ tận tình của thầyhướng dẫn TS Mai Thành Tấn, Trường Đại học Quy Nhơn Nhân dịp này tôixin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến Thầy đã giúp đỡ tôi trongsuốt quá trình học tập và thực hiện luận văn

Xin gửi lời cảm ơn đến quý Ban lãnh đạo Trường Đại học Quy Nhơn, PhòngĐào tạo Sau Đại học, Khoa Toán và Thống kê tạo điều kiện thuận lợi cho tôitrong quá trình học tập và thực hiện đề tài

Xin gửi cảm ơn đến FPT Software Quy Nhơn, team Trí Tuệ Nhân TạoFWI.AAA đã tạo điều kiện cho tôi được làm việc trong một môi trường chuyênnghiệp, bên cạnh đó đã hỗ trợ cho tôi được tiếp xúc gần hơn với ngành côngnghiệp AI Nhờ đó đã giúp tôi hoàn thiện tốt đề tài của mình

Xin được bày tỏ lòng biết ơn của tôi đến quý thầy, cô giảng dạy lớp cao họcToán Giải Tích số khóa 21, những người đã dày công truyền đạt kiến thức cũngnhư đạo đức sư phạm cho chúng tôi trong suốt khóa học

Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình và bạn bè tôi, nhữngngười đã tạo điều kiện thuận lợi để tôi hoàn thành tốt khóa học và luận văn này

Quy Nhơn, tháng 7 năm 2020Đặng Hải Triều

Trang 7

Danh mục hình vẽ và đồ thị

Trang

1.1 Overfitting 10

2.1 Đồ thị hàm Logictis 14

2.2 Đồ thị hàm tanh 14

2.3 Đồ thị hàm ReLu 14

2.4 Mạng nơ-ron đơn giản với n nơ-ron đầu vào và m nơ-ron xử lý 18

2.5 Mạng nơ-ron với một đầu ra 18

2.6 Mạng nơ-ron đa tầng 25

3.1 Biểu đồ dữ liệu về giá và diện tích 35

3.2 Kết quả của model 36

4.1 Tập dữ liệu có thể phân tách tuyến tính 38

4.2 Siêu phẳng có thể phân tách tập dữ liệu 39

4.3 Support Vector 40

Trang 8

Danh mục ký hiệu

diag(λ1, λ2, , λr) Ma trận đường chéo

Trang 9

Lời nói đầu

Trong tất cả các ngành khoa học, toán học đóng vai trò quan trọng trongviệc phát triển các ngành khoa học đặc thù Ví dụ toán học xác xuất thống kêtrong sinh học, toán học trong vật lý, toán học trong hóa học, Đặc biệt tronglĩnh vực công nghệ thông tin, toán học luôn đi trước mở đường cho ngành côngnghệ thông tin Một số lĩnh vực của toán học là tiền đề, xương sống trong sựphát triển của công nghệ thông tin

Trí tuệ nhân tạo (Artificial Intelligence - AI) đã và đang trở thành thànhphần cốt lõi trong các hệ thống công nghệ cao Trong xã hội hiện đại, chúng tabắt gặp AI ở khắp mọi nơi AI ứng dụng trong kinh tế, y học, kỹ thuật quân sự,khoa học máy móc, các thiết bị công nghệ phục vụ sinh hoạt và các ứng dụnggiải trí Điển hình như trong các kĩnh vực chế tạo người máy, trò chơi điện tử,trợ lý ảo, nhà ở thông minh, công nghệ thực tế ảo VR,

Machine Learning và Deep Learning là một trong những lĩnh vực của Trítuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép

hệ thống "tự học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể

Hiện tại, tôi đã và đang có cơ hội được tiếp xúc cũng như làm về thuật toán,tìm hiểu về các thuật toán thì càng thấy rằng ý nghĩa, tầm quan trọng của toánhọc với tin học rất lớn và ngày càng lớn Gần đây ta nghe thấy nhiều về lĩnhvực Trí tuệ nhân tạo và từ ngữ này rất phổ biến hiện nay Trí tuệ nhân tạo nổilên như một bằng chứng của cuộc cách mạng công nghiệp lần thứ tư

Luận văn: “ Một số ứng dụng của giải tích trong machine learning và deeplearning ” nhằm tìm hiểu một số vấn đề về toán học giải tích có ứng dụng tronglĩnh vực Machine Learning và Deep Learning Nội dung của luận văn gồm bốnchương:

Chương 1 Một số kiến thức chuẩn bị

Chương này trình bày một số kiến thức cơ bản về giải tích lồi, toán tối ưu,giải tích ma trận

Chương 2 Mạng nơ-ron

Trang 10

kèm theo đó là giải quyết một số vấn đề của toán giải tích có liên quan trựctiếp.

Chương 3 Hồi quy tuyến tính

Chương này trình bày một số vấn đề của toán về giải tích ma trận để giảiquyết một số bài toán hồi quy

Chương 4 Support Vector Machine

Chương này trình bày một số vấn đề về tối ưu, đặc biệt là tối ưu lồi để giảiquyết bài toán phân chia 2 lớp dữ liệu

Mặc dù luận văn được thực hiện với tinh thần nghiêm túc cùng với sự nỗ lực

và cố gắng hết sức của bản thân, nhưng bởi trình độ kiến thức và kinh nghiệmnghiên cứu còn hạn chế nên luận văn khó tránh khỏi những thiếu sót Chình vìthế, rất mong nhận được những góp ý của quý thầy cô để luận văn được hoànthiện hơn

Quy Nhơn, tháng 7 năm 2020

Tác giả

Trang 11

Chương 1

MỘT SỐ KIẾN THỨC CHUẨN BỊ

Chương này trình bày một số kiến thức cơ bản về Lý thuyết độ đo, giải tíchhàm, lý thuyết tối ưu, một số khái niệm trong Machine learning Các kết quảtrong chương này chủ yếu được tham khảo từ các tài liệu [1], [3], [4] và [7] trong:

“ Danh mục tài liệu tham khảo ”

1.1 Lý thuyết độ đo

1.1.1 Đại số

Định nghĩa 1.1.1 Cho X là một tập không rỗng Một đại số là một lớp chứa

X,∅ và đóng đối với mọi phép toán hữu hạn về tập hợp

Ví dụ 1.1.2 x

a) P(X) = {A : A ⊂ X} là một đại số

b) Nếu A ⊂ X thì C = {X, A, Ac,∅} là một đại số

1.1.2 σ− đại số

Định nghĩa 1.1.3 Một σ−đại số là một lớp chứa X,∅ và đóng đối với mọi

phép toán hữu hạn hay đếm được về tập hợp

Ví dụ 1.1.4 x

a) NếuX = {a, b, c, d}, mộtσ- đại số trênXcó thể làA = {∅, {a, b}, {c, d}, {a, b, c, d}}.Nhìn chung, một đại số hữu hạn luôn là mộtσ - đại số

b) Nếu {A 1 , A 2 , , A n } là một phân hoạch đếm được trên X thì tập của hợp tất

cả các tập phân hoạch (bao gồm cả tập rỗng) là một σ−đại số

Trang 12

Định nghĩa 1.1.6 Cho L là một đại số trên X. Hàm tập µ :L−→R được gọi

là một độ đo trên L nếu

i) µ(A) ≥ 0 với mọi A ∈L;

Nếu µ là một độ đo trên (X,L) thì (X,L, µ) được gọi là không gian độ đo

Ví dụ 1.1.7 Cho X là tập đếm được và µ : P(X) −→R được xác định bởi

µ(A) =

(

n nếu A có n phần tử

+∞ nếu A có vô hạn phần tửKhi đó µ là một độ đo Ta gọi độ đo này là độ đo đếm

1.1.5 Hàm đo được

Định nghĩa 1.1.8 Cho (X, M) và (Y, N ) là các không gian đo được Một ánh

xạ f : X −→ Y được gọi là (M, N )−đo được nếu f−1(E) ∈ M, ∀E ∈ N

Từ định nghĩa trên ta có hệ quả sau:

Hệ quả 1.1.9 Cho X và Y là các không gian metric, nếu f : X −→ Y là liêntục thì (BX, BY) - đo được

Chứng minh Để chỉ ra rằngf là(BX, BY)- đo được, ta cần chỉ ra rằng∀E ∈ BY,

f−1(E) ∈ BX Đặt E ∈ BY tùy ý Trong đó, BY là σ - đại số của các tập mở.Như vậy, E là tập mở Vì f liên tục, theo định nghĩa của liên tục trong giảitích cổ điển (f là liên tục nếu f−1(U ) là mở trong X với mỗi mở U ⊆ Y), ta có

Trang 13

1.2 Giải tích hàm

1.2.1 Toán tử trong

Định nghĩa 1.2.1 Một toán tử trong trên tập S là ánh xạ I : P(S) −→ P(S)

với U, V ∈ P(S) thỏa mãn các điều kiện:

1.2.2 Không gian định chuẩn

Định nghĩa 1.2.3 Cho X là một không gian vectơ trên trường K, với K làtrường số thực R hoặc trường số phức C. Ánh xạ p : X −→ R được gọi là một

chuẩn trên X nếu các điều kiện sau được thỏa mãn:

i) p(x) ≥ 0 với mọi x ∈ X;

ii) p(λx) = |λ|.p(x) với mọi x ∈ X, λ ∈ K;

iii) p(x + y) ≤ p(x) + p(y) với mọi x, y ∈ X.

Khi đó X cùng với chuẩn p được gọi là một không gian định chuẩn và kýhiệu là (X, p).

Từ định nghĩa trên ta có ngay

Trang 14

là một phiếm hàm tuyến tính trên không gian C[a ;b].

Định nghĩa 1.2.7 Cho X là không gian vector thực, một phiếm hàm dướituyến tính trên X là một ánh xạ p : X −→R thỏa mãn

là một phiếm hàm dưới tuyến tính trên không gian C[a ;b].

Định nghĩa 1.2.9 Một phiếm hàm tuyến tính I trên Cc(X) là dương nếu

I(f ) ≥ 0 với mọi f ≥ 0

Định lí 1.2.10 (Định lý Haln Banach) Cho X là không gian vector thực,

p là một phiếm hàm dưới tuyến tính trên X, M là không gian con của X và f

là phiếm hàm tuyến tính trên M sao cho f (x) ≤ p(x) với mọi x ∈ M Khi đó tồntại một phiếm hàm tuyến tính F trên X sao cho F (x) ≤ p(x) với mọi x ∈ X và

F|M = f

1.3 Lý thuyết tối ưu

1.3.1 Hàm Lagrange của bài toán tối ưu

Xét bài toán tối ưu tổng quát

x∗ = argmin

x

f (x)

Trang 15

Định lí 1.3.2 (Định lý đối ngẫu yếu) Giả sử x∗ là điểm tối ưu của f với

f∗ = f (x∗)và(u∗, v∗)là điểm tối ưu của g vớig∗= g(u∗, v∗) Khi đó ta cóg∗ ≤ f∗.

Giá trị|f∗− g∗| được gọi là cách biệt đối ngẫu tối ưu Khi giá trị này bằng 0 thìđối ngẫu mạnh xảy ra

Định nghĩa 1.3.3 Một điểm khả thi của bài toán tối ưu được gọi là khả thichặt nếu

ci(x) < 0, i = 1, 2, , m, Ax = b.

Mệnh đề 1.3.4 (Tiêu chuẩn Slater) Nếu bài toán chính là một bài toán tối

ưu lồi và tồn tại một điểm khả thi chặt thì đối ngẫu mạnh xảy ra

Trang 16

1.3.3 Điều kiện Karush-Kuhn-Tucker (KKT)

Điều kiện KKT đối với bài toán không lồi

Giả sử đối ngẫu mạnh xảy ra Gọi x∗ và (u∗, v∗) là một bộ điểm tối ưu chính

và tối ưu đối ngẫu Vì x∗ tối ưu hàm khả vi L(x, u∗, v∗), ta có đạo hàm hàmLagrange tại x∗ bằng 0

Điều kiện Karush-Kuhn-Tucker (KKT) nói rằng x∗, u∗, v∗ phải thỏa mãn cácđiều kiện sau:

1.4 Một số thuật ngữ trong Machine learning

1.4.1 Thuật toán Gradient Descent

Thuật toán Gradient Descent là thuật toán lặp nhằm tìm ra giá trị nhỏ nhấtcủa một hàm lồi khả vi

Bước 4 Đặt k := k + 1, sang bước 2

Trong đó η được gọi là tốc độ học

Thuật toán này tuy đơn giản nhưng thường được dùng bởi nó hội tụ khátốt Chỉ lưu ý một điều là việc chọn tốc độ học η có ảnh hưởng rất lớn đến tốc

Trang 17

độ hội tụ Nếu chọn quá bé thì thuật toán hội tụ chậm, còn nếu chọn quá lớnthì có thể không hội tụ Một nhược điểm khác của thuật toán này là nó thườnghội tụ đến điểm cực tiểu địa phương thay vì điểm cực tiểu toàn cục.

1.4.2 Thuật toán Perceptron

Thuật toán Perceptron (Perceptron Learning Algorithm - PLA) là một trongnhững thuật toán phân lớp dữ liệu cơ bản trong các mô hình mạng nơ-ron Ýtưởng cơ bản nhất của thuật toán là với các lớp dữ liệu khác nhau, hãy tìm cácmặt phân loại để chia cắt các lớp này thành những vùng tách biệt Trường hợpđơn giản nhất của thuật toán này là phân lớp nhị phân bằng một mặt phân loạituyến tính

Cũng giống như các thuật toán khác của Machine Learning, PLA đi tìm mặtphân loại bằng cách tối thiểu hóa một hàm mất mát Hàm mất mát của PLAcần được xây dựng sao cho khả vi để có thể sử dụng các thuật toán GradientDescent trong việc tìm cực tiểu toàn cục

1.4.3 Phương pháp Flatten

Flatten (trải phẳng) là phương pháp chuyển đổi một ma trận thành 1 vectorcột Sau đó được cung cấp cho mạng nơ-ron để xử lý Kỹ thuật Flatten thườngđược dùng để trải phẳng một hình ảnh 2D thành một vector cột để làm đầu vàocho mạng nơ-ron

1.4.4 Hiện tượng quá khớp (Overfitting)

Overfitting là hiện tượng mô hình tìm được quá khớp với dữ liệu training.Việc quá khớp này có thể dẫn đến việc dự đoán nhầm nhiễu, và chất lượng môhình không còn tốt trên dữ liệu test nữa (dữ liệu test được giả sử là không đượcbiết trước, và không được sử dụng để xây dựng các mô hình Machine Learning)

Trang 18

Hình 1.1: Overfitting

Trang 19

Chương 2

MẠNG NƠ-RON

Mạng nơ-ron (Neural Network - NN), đúng hơn phải gọi là Mạng nơ-ronnhân tạo (Artificial Neural Network - ANN) được định nghĩa đơn giản nhất làmột hệ thống máy tính được tạo thành từ một số yếu số xử lý đơn giản, cótính kết nối cao, xử lý thông tin bằng phản ứng trạng thái động của chúng vớicác đầu vào bên ngoài Định nghĩa mạng nơ-ron này được cung cấp bởi mộttrong những nhà phát minh đi đầu trong lĩnh vực mạng nơ-ron, Tiến sĩ RobertHecht-Nielen

Giống như tên gọi, mạng nơ-ron được lấy cảm hứng từ bộ não Mạng nơ-ronnhân tạo (ANN) là một mô hình tính toán dựa trên cấu trúc và chức năng củamạng lưới thần kinh sinh học Thông tin chảy qua mạng ảnh hưởng đến cấutrúc của ANN vì mạng thần kinh thay đổi, hoặc học theo nghĩa dựa trên đầuvào và đầu ra đó

Trong chương này, tôi trình bày việc áp dụng các kỹ thuật phân tích toánhọc trong nghiên cứu về mạng nơ-ron (NN), các nơ-ron là gì và chúng được liênkết với nhau như thế nào?

Việc sử dụng NN như một phần của mô hình tổng quát hơn về điện toánthần kinh có các ứng dụng rộng rãi trong nhận dạng mẫu và trong các loại phântích dữ liệu khác nhau

Các kết quả trong chương này chủ yếu được tham khảo từ các tài liệu [2],[3], [6], [7], [9] trong: “ Danh mục tài liệu tham khảo ”

2.1 Nơ-ron

Một đứa trẻ có thể phân biệt được các con vật, hay một con chó có thể phânbiệt được người thân trong gia đình và người lạ Những việc tưởng chừng nhưrất đơn giản nhưng lại cực kì khó để thực hiện bằng máy tính Vậy sự khác biệtnằm ở đâu? Câu trả lời nằm ở bộ não với lượng lớn các nơ-ron thần kinh liên

Trang 20

bài toán trên.

Nơ-ron là đơn vị cơ bản cấu tạo hệ thống thần kinh và là một phần quantrọng nhất của não Não chúng ta gồm khoảng 10 triệu nơ-ron liên kết với 10.000nơ-ron khác Ở mỗi nơ-ron có phần thân (soma) chứa nhân, các tín hiệu đầu vàoqua sợi nhánh (dendrites) và các tín hiệu đầu ra qua sợi trục (axon) kết nối vớicác nơ-ron khác Hiểu đơn giản mỗi nơ-ron nhận dữ liệu đầu vào qua sợi nhánh

và truyền dữ liệu đầu ra qua sợi trục, đến các sợi nhánh của các nơ-ron khác.Mỗi nơ-ron nhận xung điện từ các nơ-ron khác qua sợi nhánh Nếu các xungđiện này đủ lớn để kích hoạt nơ-ron thì tín hiệu này đi qua sợi trục đến các sợinhánh của các nơ-ron khác Ở mỗi nơ-ron cần quyết định có kích hoạt nơ-ronđấy hay không

Tuy nhiên NN chỉ là lấy cảm hứng từ bộ não và cách nó hoạt động chứ khôngphải bắt chước toàn bộ các chức năng của nó Việc chính của chúng ta là dùng

mô hình đấy đi giải quyết các bài toán chúng ta cần

Theo một cách hiểu khác, NN là một đồ thị có hướng gồm tập hợp N cácđỉnh (nơ-ron); các cạnh của đồ thị biểu thị các luồng thông tin giữa các nơ-ron.Như chúng ta sẽ thấy, có một số loại NN tùy thuộc vào cấu trúc của đồ thị cơbản

Một nơ-ron được định nghĩa bởi một hệ số điều chỉnh θ, một hàm kích hoạt

giá trị của y được lấy làm đơn vị đầu ra

Hàm kích hoạt của một nút định nghĩa đầu ra của nút đó được cung cấp bởimột đầu vào hoặc tập các đầu vào

Hàm kích hoạt được sinh ra với mục đích bẻ gãy sự tuyến tính của mạngnơ-ron Các hàm này nên là hàm phi tuyến để mã hóa các mẫu phức tạp của dữliệu Các hàm kích hoạt được sử dụng trong mạng nơ-ron là hàm kích hoạt đatrạng thái Các hàm này có thể hiểu đơn giản như một bộ lọc quyết định xemthông tin có đi qua mạng nơ-ron hay không

Trong sinh học, hàm kích hoạt thường là một sự trừu tượng đại diện cho tốc

độ truyền của các nơ-ron

Trang 21

Ví dụ 2.1.1 Một số hàm kích hoạt phổ biến thường dùng hiện nay:

Trang 22

Hình 2.1: Đồ thị hàm Logictis

Hình 2.2: Đồ thị hàm tanh

Hình 2.3: Đồ thị hàm ReLu

Trang 23

Định nghĩa 2.1.2 Hàm σ : R −→R được gọi là một hàm sigmoid (hàm nén)

nếu hai điều kiện sau được thỏa mãn:

f (x) − lim

x−→x−0

f (x)

được gọi là bước nhảy của f tại điểm x0.

Định nghĩa 2.1.5 Một dãy có độ dài n trên tập X là hàm

x : {0, 1, , n − 1} −→ X.

Tập các dãy có độ dài n trên tập X được ký hiệu là Seqn(X)

Định lí 2.1.6 Cho f : X −→R là hàm đơn điệu, trong đó X ⊆ R Khi đó tất

cả các điểm gián đoạn của f đều là điểm gián đoạn loại I

Chứng minh Rõ ràng hàm đơn điệu có giới hạn một bên tại mỗi điểm trêntập xác định Ta cần chứng minh rằng các giới hạn một bên đó là hữu hạn.Thật vậy, không giảm tổng quát, giả sử rằng hàm f là một hàm tăng Khi

đó, với mọi u, v ∈ X thỏa mãn u < x < v, ta có

Trang 25

tức là số lượng điểm gián đoạn mà bước nhảy lớn hơn α là hữu hạn.

Đặt C1 là tập hợp các điểm gián đoạn của f trong đó bước nhảy tối thiểubằng 1 và với n ≥ 2 ta gọi

Định lí 2.1.8 Cho J là một khoảng con của R và f : J −→R là hàm đơn điệu

có tập các điểm gián đoạn loại I là đếm được trên J Khi đó, f là hàm đo đượcgiữa các không gian đo được (J, B(J )) và (R, B(R))

Chứng minh Ta thấy rằng với mỗi c ∈R, tập f−1(−∞ ; c) là một tập Borel.Thật vậy, đặt

Từ f (x < c), x là một điểm gián đoạn loại I của f suy ra V là đếm được

vì f có một tập các điểm gián đoạn loại I là đếm được

Như vậy, V là tập Borel

Vìf−1(−∞, c) = U ∪ V suy ra f−1(−∞, c) là tập Borel

Trang 26

2.2 Mạng nơ-ron

Định nghĩa 2.2.1 Một mạng nơ-ron (Neural Network - NN) là một bộ ba

ℵ = (N, E, w),

trong đó G = (N, E) là một đồ thị và w : E −→R là một hàm chỉ định trọng sốw(i; j) của cạnh (i; j) giữa các nơ-ron i và j

Ta ký hiệu wij = w(i; j) là trọng số kết nối giữa các nơ-ron i và j

Một mạng nơ-ron đơn giản bao gồm một lớp của n đơn đầu vào và một lớpđơn vị xử lý (lớp ẩn) m

Hình 2.4: Mạng nơ-ron đơn giản với n nơ-ron đầu vào và m nơ-ron xử lý

Một mạng nơ-ron có thể được mở rộng bao gồm đơn vị đầu ra là tổng cácđầu ra của các đơn vị xử lý

Hình 2.5: Mạng nơ-ron với một đầu ra

Trang 27

Mạng nơ-ron có thể được huấn luyện để xấp xỉ một lớp hàm F có dạng

f :Rn −→Rm.

Khi mạng được cung cấp các mẫu dữ liệu (x, f (x)), trong đó x ∈ Rn mộtthuật toán được áp dụng để điều chỉnh các trọng số w ij và các hệ số điều chỉnh

θ j sao cho độ lệch giữa f (x) và mạng đầu ra y = (y 1 , , y m )T là nhỏ nhất

2.3 Mạng nơ-ron như là xấp xỉ phổ quát

Xét khối lập phương n chiều

Định dạng
Số trang	54
Dung lượng	0,96 MB