Machine Learning và Deep Learning là một trong những lĩnh vực của Trítuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép hệ thống "tự học" tự động từ dữ liệu để
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN
Trang 3Mục lục
Trang
Lời cam đoan iii
Lời cảm ơn iv
Danh mục hình vẽ và đồ thị v
Danh mục ký hiệu vi
Lời nói đầu 1 Chương 1 Một số kiến thức chuẩn bị 3 1.1 Lý thuyết độ đo 3
1.2 Giải tích hàm 5
1.3 Lý thuyết tối ưu 6
1.4 Một số thuật ngữ trong Machine learning 8
Chương 2 Mạng nơ-ron 11 2.1 Nơ-ron 11
2.2 Mạng nơ-ron 18
2.3 Mạng nơ-ron như là xấp xỉ phổ quát 19
2.4 Điều chỉnh trọng số bằng lan truyền ngược 23
2.5 Ví dụ minh họa 27
Chương 3 Hồi quy tuyến tính 29 3.1 Đặt vấn đề 30
3.2 Xây dựng hàm mất mát 31
3.3 Nghiệm của hàm mất mát 32
3.4 Ví dụ minh họa 34
Chương 4 Máy vector hỗ trợ 37 4.1 Tập dữ liệu có thể phân tách tuyến tính 38
4.2 Xây dựng bài toán tối ưu cho SVM 39
4.3 Bài toán đối ngẫu 41
4.4 Ví dụ minh họa 44
Trang 4Kếtlluận 45Tài liệu tham khảo 46
Trang 5Lời cam đoan
Tôi xin cam đoan mọi kết quả của đề tài: “ Một số áp dụng của Giải tíchtoán học trong Machine learning và Deep learning ” là một công trình nghiêncứu độc lập của tôi dưới sự hướng dẫn của giảng viên: TS Mai Thành Tấn,ngoài ra không có bất cứ sự sao chép nào của người khác
Đề tài, nội dung luận văn này là kết quả nỗ lực nghiên cứu của bản thântôi trong quá trình học tập tại trường và nơi làm việc Các tài liệu được thamkhảo, kế thừa và trích dẫn đều được liệt kê trong danh mục Tài liệu tham khảo.Tôi xin chịu hoàn toàn trách nhiệm, kỷ luật của bộ môn và nhà trường đề
ra nếu như có vấn đề xảy ra
Quy Nhơn, tháng 7 năm 2020
Học viên
Đặng Hải Triều
Trang 6Lời cảm ơn
Luận văn được hoàn thành nhờ sự hướng dẫn và giúp đỡ tận tình của thầyhướng dẫn TS Mai Thành Tấn, Trường Đại học Quy Nhơn Nhân dịp này tôixin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến Thầy đã giúp đỡ tôi trongsuốt quá trình học tập và thực hiện luận văn
Xin gửi lời cảm ơn đến quý Ban lãnh đạo Trường Đại học Quy Nhơn, PhòngĐào tạo Sau Đại học, Khoa Toán và Thống kê tạo điều kiện thuận lợi cho tôitrong quá trình học tập và thực hiện đề tài
Xin gửi cảm ơn đến FPT Software Quy Nhơn, team Trí Tuệ Nhân TạoFWI.AAA đã tạo điều kiện cho tôi được làm việc trong một môi trường chuyênnghiệp, bên cạnh đó đã hỗ trợ cho tôi được tiếp xúc gần hơn với ngành côngnghiệp AI Nhờ đó đã giúp tôi hoàn thiện tốt đề tài của mình
Xin được bày tỏ lòng biết ơn của tôi đến quý thầy, cô giảng dạy lớp cao họcToán Giải Tích số khóa 21, những người đã dày công truyền đạt kiến thức cũngnhư đạo đức sư phạm cho chúng tôi trong suốt khóa học
Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình và bạn bè tôi, nhữngngười đã tạo điều kiện thuận lợi để tôi hoàn thành tốt khóa học và luận văn này
Quy Nhơn, tháng 7 năm 2020Đặng Hải Triều
Trang 7Danh mục hình vẽ và đồ thị
Trang
1.1 Overfitting 10
2.1 Đồ thị hàm Logictis 14
2.2 Đồ thị hàm tanh 14
2.3 Đồ thị hàm ReLu 14
2.4 Mạng nơ-ron đơn giản với n nơ-ron đầu vào và m nơ-ron xử lý 18
2.5 Mạng nơ-ron với một đầu ra 18
2.6 Mạng nơ-ron đa tầng 25
3.1 Biểu đồ dữ liệu về giá và diện tích 35
3.2 Kết quả của model 36
4.1 Tập dữ liệu có thể phân tách tuyến tính 38
4.2 Siêu phẳng có thể phân tách tập dữ liệu 39
4.3 Support Vector 40
Trang 8Danh mục ký hiệu
diag(λ1, λ2, , λr) Ma trận đường chéo
Trang 9Lời nói đầu
Trong tất cả các ngành khoa học, toán học đóng vai trò quan trọng trongviệc phát triển các ngành khoa học đặc thù Ví dụ toán học xác xuất thống kêtrong sinh học, toán học trong vật lý, toán học trong hóa học, Đặc biệt tronglĩnh vực công nghệ thông tin, toán học luôn đi trước mở đường cho ngành côngnghệ thông tin Một số lĩnh vực của toán học là tiền đề, xương sống trong sựphát triển của công nghệ thông tin
Trí tuệ nhân tạo (Artificial Intelligence - AI) đã và đang trở thành thànhphần cốt lõi trong các hệ thống công nghệ cao Trong xã hội hiện đại, chúng tabắt gặp AI ở khắp mọi nơi AI ứng dụng trong kinh tế, y học, kỹ thuật quân sự,khoa học máy móc, các thiết bị công nghệ phục vụ sinh hoạt và các ứng dụnggiải trí Điển hình như trong các kĩnh vực chế tạo người máy, trò chơi điện tử,trợ lý ảo, nhà ở thông minh, công nghệ thực tế ảo VR,
Machine Learning và Deep Learning là một trong những lĩnh vực của Trítuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép
hệ thống "tự học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể
Hiện tại, tôi đã và đang có cơ hội được tiếp xúc cũng như làm về thuật toán,tìm hiểu về các thuật toán thì càng thấy rằng ý nghĩa, tầm quan trọng của toánhọc với tin học rất lớn và ngày càng lớn Gần đây ta nghe thấy nhiều về lĩnhvực Trí tuệ nhân tạo và từ ngữ này rất phổ biến hiện nay Trí tuệ nhân tạo nổilên như một bằng chứng của cuộc cách mạng công nghiệp lần thứ tư
Luận văn: “ Một số ứng dụng của giải tích trong machine learning và deeplearning ” nhằm tìm hiểu một số vấn đề về toán học giải tích có ứng dụng tronglĩnh vực Machine Learning và Deep Learning Nội dung của luận văn gồm bốnchương:
Chương 1 Một số kiến thức chuẩn bị
Chương này trình bày một số kiến thức cơ bản về giải tích lồi, toán tối ưu,giải tích ma trận
Chương 2 Mạng nơ-ron
Trang 10kèm theo đó là giải quyết một số vấn đề của toán giải tích có liên quan trựctiếp.
Chương 3 Hồi quy tuyến tính
Chương này trình bày một số vấn đề của toán về giải tích ma trận để giảiquyết một số bài toán hồi quy
Chương 4 Support Vector Machine
Chương này trình bày một số vấn đề về tối ưu, đặc biệt là tối ưu lồi để giảiquyết bài toán phân chia 2 lớp dữ liệu
Mặc dù luận văn được thực hiện với tinh thần nghiêm túc cùng với sự nỗ lực
và cố gắng hết sức của bản thân, nhưng bởi trình độ kiến thức và kinh nghiệmnghiên cứu còn hạn chế nên luận văn khó tránh khỏi những thiếu sót Chình vìthế, rất mong nhận được những góp ý của quý thầy cô để luận văn được hoànthiện hơn
Quy Nhơn, tháng 7 năm 2020
Tác giả
Trang 11Chương 1
MỘT SỐ KIẾN THỨC CHUẨN BỊ
Chương này trình bày một số kiến thức cơ bản về Lý thuyết độ đo, giải tíchhàm, lý thuyết tối ưu, một số khái niệm trong Machine learning Các kết quảtrong chương này chủ yếu được tham khảo từ các tài liệu [1], [3], [4] và [7] trong:
“ Danh mục tài liệu tham khảo ”
1.1 Lý thuyết độ đo
1.1.1 Đại số
Định nghĩa 1.1.1 Cho X là một tập không rỗng Một đại số là một lớp chứa
X,∅ và đóng đối với mọi phép toán hữu hạn về tập hợp
Ví dụ 1.1.2 x
a) P(X) = {A : A ⊂ X} là một đại số
b) Nếu A ⊂ X thì C = {X, A, Ac,∅} là một đại số
1.1.2 σ− đại số
Định nghĩa 1.1.3 Một σ−đại số là một lớp chứa X,∅ và đóng đối với mọi
phép toán hữu hạn hay đếm được về tập hợp
Ví dụ 1.1.4 x
a) NếuX = {a, b, c, d}, mộtσ- đại số trênXcó thể làA = {∅, {a, b}, {c, d}, {a, b, c, d}}.Nhìn chung, một đại số hữu hạn luôn là mộtσ - đại số
b) Nếu {A 1 , A 2 , , A n } là một phân hoạch đếm được trên X thì tập của hợp tất
cả các tập phân hoạch (bao gồm cả tập rỗng) là một σ−đại số
Trang 12Định nghĩa 1.1.6 Cho L là một đại số trên X. Hàm tập µ :L−→R được gọi
là một độ đo trên L nếu
i) µ(A) ≥ 0 với mọi A ∈L;
Nếu µ là một độ đo trên (X,L) thì (X,L, µ) được gọi là không gian độ đo
Ví dụ 1.1.7 Cho X là tập đếm được và µ : P(X) −→R được xác định bởi
µ(A) =
(
n nếu A có n phần tử
+∞ nếu A có vô hạn phần tửKhi đó µ là một độ đo Ta gọi độ đo này là độ đo đếm
1.1.5 Hàm đo được
Định nghĩa 1.1.8 Cho (X, M) và (Y, N ) là các không gian đo được Một ánh
xạ f : X −→ Y được gọi là (M, N )−đo được nếu f−1(E) ∈ M, ∀E ∈ N
Từ định nghĩa trên ta có hệ quả sau:
Hệ quả 1.1.9 Cho X và Y là các không gian metric, nếu f : X −→ Y là liêntục thì (BX, BY) - đo được
Chứng minh Để chỉ ra rằngf là(BX, BY)- đo được, ta cần chỉ ra rằng∀E ∈ BY,
f−1(E) ∈ BX Đặt E ∈ BY tùy ý Trong đó, BY là σ - đại số của các tập mở.Như vậy, E là tập mở Vì f liên tục, theo định nghĩa của liên tục trong giảitích cổ điển (f là liên tục nếu f−1(U ) là mở trong X với mỗi mở U ⊆ Y), ta có
Trang 131.2 Giải tích hàm
1.2.1 Toán tử trong
Định nghĩa 1.2.1 Một toán tử trong trên tập S là ánh xạ I : P(S) −→ P(S)
với U, V ∈ P(S) thỏa mãn các điều kiện:
1.2.2 Không gian định chuẩn
Định nghĩa 1.2.3 Cho X là một không gian vectơ trên trường K, với K làtrường số thực R hoặc trường số phức C. Ánh xạ p : X −→ R được gọi là một
chuẩn trên X nếu các điều kiện sau được thỏa mãn:
i) p(x) ≥ 0 với mọi x ∈ X;
ii) p(λx) = |λ|.p(x) với mọi x ∈ X, λ ∈ K;
iii) p(x + y) ≤ p(x) + p(y) với mọi x, y ∈ X.
Khi đó X cùng với chuẩn p được gọi là một không gian định chuẩn và kýhiệu là (X, p).
Từ định nghĩa trên ta có ngay
Trang 14là một phiếm hàm tuyến tính trên không gian C[a ;b].
Định nghĩa 1.2.7 Cho X là không gian vector thực, một phiếm hàm dướituyến tính trên X là một ánh xạ p : X −→R thỏa mãn
là một phiếm hàm dưới tuyến tính trên không gian C[a ;b].
Định nghĩa 1.2.9 Một phiếm hàm tuyến tính I trên Cc(X) là dương nếu
I(f ) ≥ 0 với mọi f ≥ 0
Định lí 1.2.10 (Định lý Haln Banach) Cho X là không gian vector thực,
p là một phiếm hàm dưới tuyến tính trên X, M là không gian con của X và f
là phiếm hàm tuyến tính trên M sao cho f (x) ≤ p(x) với mọi x ∈ M Khi đó tồntại một phiếm hàm tuyến tính F trên X sao cho F (x) ≤ p(x) với mọi x ∈ X và
F|M = f
1.3 Lý thuyết tối ưu
1.3.1 Hàm Lagrange của bài toán tối ưu
Xét bài toán tối ưu tổng quát
x∗ = argmin
x
f (x)
Trang 15Định lí 1.3.2 (Định lý đối ngẫu yếu) Giả sử x∗ là điểm tối ưu của f với
f∗ = f (x∗)và(u∗, v∗)là điểm tối ưu của g vớig∗= g(u∗, v∗) Khi đó ta cóg∗ ≤ f∗.
Giá trị|f∗− g∗| được gọi là cách biệt đối ngẫu tối ưu Khi giá trị này bằng 0 thìđối ngẫu mạnh xảy ra
Định nghĩa 1.3.3 Một điểm khả thi của bài toán tối ưu được gọi là khả thichặt nếu
ci(x) < 0, i = 1, 2, , m, Ax = b.
Mệnh đề 1.3.4 (Tiêu chuẩn Slater) Nếu bài toán chính là một bài toán tối
ưu lồi và tồn tại một điểm khả thi chặt thì đối ngẫu mạnh xảy ra
Trang 161.3.3 Điều kiện Karush-Kuhn-Tucker (KKT)
Điều kiện KKT đối với bài toán không lồi
Giả sử đối ngẫu mạnh xảy ra Gọi x∗ và (u∗, v∗) là một bộ điểm tối ưu chính
và tối ưu đối ngẫu Vì x∗ tối ưu hàm khả vi L(x, u∗, v∗), ta có đạo hàm hàmLagrange tại x∗ bằng 0
Điều kiện Karush-Kuhn-Tucker (KKT) nói rằng x∗, u∗, v∗ phải thỏa mãn cácđiều kiện sau:
1.4 Một số thuật ngữ trong Machine learning
1.4.1 Thuật toán Gradient Descent
Thuật toán Gradient Descent là thuật toán lặp nhằm tìm ra giá trị nhỏ nhấtcủa một hàm lồi khả vi
Bước 4 Đặt k := k + 1, sang bước 2
Trong đó η được gọi là tốc độ học
Thuật toán này tuy đơn giản nhưng thường được dùng bởi nó hội tụ khátốt Chỉ lưu ý một điều là việc chọn tốc độ học η có ảnh hưởng rất lớn đến tốc
Trang 17độ hội tụ Nếu chọn quá bé thì thuật toán hội tụ chậm, còn nếu chọn quá lớnthì có thể không hội tụ Một nhược điểm khác của thuật toán này là nó thườnghội tụ đến điểm cực tiểu địa phương thay vì điểm cực tiểu toàn cục.
1.4.2 Thuật toán Perceptron
Thuật toán Perceptron (Perceptron Learning Algorithm - PLA) là một trongnhững thuật toán phân lớp dữ liệu cơ bản trong các mô hình mạng nơ-ron Ýtưởng cơ bản nhất của thuật toán là với các lớp dữ liệu khác nhau, hãy tìm cácmặt phân loại để chia cắt các lớp này thành những vùng tách biệt Trường hợpđơn giản nhất của thuật toán này là phân lớp nhị phân bằng một mặt phân loạituyến tính
Cũng giống như các thuật toán khác của Machine Learning, PLA đi tìm mặtphân loại bằng cách tối thiểu hóa một hàm mất mát Hàm mất mát của PLAcần được xây dựng sao cho khả vi để có thể sử dụng các thuật toán GradientDescent trong việc tìm cực tiểu toàn cục
1.4.3 Phương pháp Flatten
Flatten (trải phẳng) là phương pháp chuyển đổi một ma trận thành 1 vectorcột Sau đó được cung cấp cho mạng nơ-ron để xử lý Kỹ thuật Flatten thườngđược dùng để trải phẳng một hình ảnh 2D thành một vector cột để làm đầu vàocho mạng nơ-ron
1.4.4 Hiện tượng quá khớp (Overfitting)
Overfitting là hiện tượng mô hình tìm được quá khớp với dữ liệu training.Việc quá khớp này có thể dẫn đến việc dự đoán nhầm nhiễu, và chất lượng môhình không còn tốt trên dữ liệu test nữa (dữ liệu test được giả sử là không đượcbiết trước, và không được sử dụng để xây dựng các mô hình Machine Learning)
Trang 18Hình 1.1: Overfitting
Trang 19Chương 2
MẠNG NƠ-RON
Mạng nơ-ron (Neural Network - NN), đúng hơn phải gọi là Mạng nơ-ronnhân tạo (Artificial Neural Network - ANN) được định nghĩa đơn giản nhất làmột hệ thống máy tính được tạo thành từ một số yếu số xử lý đơn giản, cótính kết nối cao, xử lý thông tin bằng phản ứng trạng thái động của chúng vớicác đầu vào bên ngoài Định nghĩa mạng nơ-ron này được cung cấp bởi mộttrong những nhà phát minh đi đầu trong lĩnh vực mạng nơ-ron, Tiến sĩ RobertHecht-Nielen
Giống như tên gọi, mạng nơ-ron được lấy cảm hứng từ bộ não Mạng nơ-ronnhân tạo (ANN) là một mô hình tính toán dựa trên cấu trúc và chức năng củamạng lưới thần kinh sinh học Thông tin chảy qua mạng ảnh hưởng đến cấutrúc của ANN vì mạng thần kinh thay đổi, hoặc học theo nghĩa dựa trên đầuvào và đầu ra đó
Trong chương này, tôi trình bày việc áp dụng các kỹ thuật phân tích toánhọc trong nghiên cứu về mạng nơ-ron (NN), các nơ-ron là gì và chúng được liênkết với nhau như thế nào?
Việc sử dụng NN như một phần của mô hình tổng quát hơn về điện toánthần kinh có các ứng dụng rộng rãi trong nhận dạng mẫu và trong các loại phântích dữ liệu khác nhau
Các kết quả trong chương này chủ yếu được tham khảo từ các tài liệu [2],[3], [6], [7], [9] trong: “ Danh mục tài liệu tham khảo ”
2.1 Nơ-ron
Một đứa trẻ có thể phân biệt được các con vật, hay một con chó có thể phânbiệt được người thân trong gia đình và người lạ Những việc tưởng chừng nhưrất đơn giản nhưng lại cực kì khó để thực hiện bằng máy tính Vậy sự khác biệtnằm ở đâu? Câu trả lời nằm ở bộ não với lượng lớn các nơ-ron thần kinh liên
Trang 20bài toán trên.
Nơ-ron là đơn vị cơ bản cấu tạo hệ thống thần kinh và là một phần quantrọng nhất của não Não chúng ta gồm khoảng 10 triệu nơ-ron liên kết với 10.000nơ-ron khác Ở mỗi nơ-ron có phần thân (soma) chứa nhân, các tín hiệu đầu vàoqua sợi nhánh (dendrites) và các tín hiệu đầu ra qua sợi trục (axon) kết nối vớicác nơ-ron khác Hiểu đơn giản mỗi nơ-ron nhận dữ liệu đầu vào qua sợi nhánh
và truyền dữ liệu đầu ra qua sợi trục, đến các sợi nhánh của các nơ-ron khác.Mỗi nơ-ron nhận xung điện từ các nơ-ron khác qua sợi nhánh Nếu các xungđiện này đủ lớn để kích hoạt nơ-ron thì tín hiệu này đi qua sợi trục đến các sợinhánh của các nơ-ron khác Ở mỗi nơ-ron cần quyết định có kích hoạt nơ-ronđấy hay không
Tuy nhiên NN chỉ là lấy cảm hứng từ bộ não và cách nó hoạt động chứ khôngphải bắt chước toàn bộ các chức năng của nó Việc chính của chúng ta là dùng
mô hình đấy đi giải quyết các bài toán chúng ta cần
Theo một cách hiểu khác, NN là một đồ thị có hướng gồm tập hợp N cácđỉnh (nơ-ron); các cạnh của đồ thị biểu thị các luồng thông tin giữa các nơ-ron.Như chúng ta sẽ thấy, có một số loại NN tùy thuộc vào cấu trúc của đồ thị cơbản
Một nơ-ron được định nghĩa bởi một hệ số điều chỉnh θ, một hàm kích hoạt
giá trị của y được lấy làm đơn vị đầu ra
Hàm kích hoạt của một nút định nghĩa đầu ra của nút đó được cung cấp bởimột đầu vào hoặc tập các đầu vào
Hàm kích hoạt được sinh ra với mục đích bẻ gãy sự tuyến tính của mạngnơ-ron Các hàm này nên là hàm phi tuyến để mã hóa các mẫu phức tạp của dữliệu Các hàm kích hoạt được sử dụng trong mạng nơ-ron là hàm kích hoạt đatrạng thái Các hàm này có thể hiểu đơn giản như một bộ lọc quyết định xemthông tin có đi qua mạng nơ-ron hay không
Trong sinh học, hàm kích hoạt thường là một sự trừu tượng đại diện cho tốc
độ truyền của các nơ-ron
Trang 21Ví dụ 2.1.1 Một số hàm kích hoạt phổ biến thường dùng hiện nay:
Trang 22Hình 2.1: Đồ thị hàm Logictis
Hình 2.2: Đồ thị hàm tanh
Hình 2.3: Đồ thị hàm ReLu
Trang 23Định nghĩa 2.1.2 Hàm σ : R −→R được gọi là một hàm sigmoid (hàm nén)
nếu hai điều kiện sau được thỏa mãn:
f (x) − lim
x−→x−0
f (x)
được gọi là bước nhảy của f tại điểm x0.
Định nghĩa 2.1.5 Một dãy có độ dài n trên tập X là hàm
x : {0, 1, , n − 1} −→ X.
Tập các dãy có độ dài n trên tập X được ký hiệu là Seqn(X)
Định lí 2.1.6 Cho f : X −→R là hàm đơn điệu, trong đó X ⊆ R Khi đó tất
cả các điểm gián đoạn của f đều là điểm gián đoạn loại I
Chứng minh Rõ ràng hàm đơn điệu có giới hạn một bên tại mỗi điểm trêntập xác định Ta cần chứng minh rằng các giới hạn một bên đó là hữu hạn.Thật vậy, không giảm tổng quát, giả sử rằng hàm f là một hàm tăng Khi
đó, với mọi u, v ∈ X thỏa mãn u < x < v, ta có
Trang 25tức là số lượng điểm gián đoạn mà bước nhảy lớn hơn α là hữu hạn.
Đặt C1 là tập hợp các điểm gián đoạn của f trong đó bước nhảy tối thiểubằng 1 và với n ≥ 2 ta gọi
Định lí 2.1.8 Cho J là một khoảng con của R và f : J −→R là hàm đơn điệu
có tập các điểm gián đoạn loại I là đếm được trên J Khi đó, f là hàm đo đượcgiữa các không gian đo được (J, B(J )) và (R, B(R))
Chứng minh Ta thấy rằng với mỗi c ∈R, tập f−1(−∞ ; c) là một tập Borel.Thật vậy, đặt
Từ f (x < c), x là một điểm gián đoạn loại I của f suy ra V là đếm được
vì f có một tập các điểm gián đoạn loại I là đếm được
Như vậy, V là tập Borel
Vìf−1(−∞, c) = U ∪ V suy ra f−1(−∞, c) là tập Borel
Trang 262.2 Mạng nơ-ron
Định nghĩa 2.2.1 Một mạng nơ-ron (Neural Network - NN) là một bộ ba
ℵ = (N, E, w),
trong đó G = (N, E) là một đồ thị và w : E −→R là một hàm chỉ định trọng sốw(i; j) của cạnh (i; j) giữa các nơ-ron i và j
Ta ký hiệu wij = w(i; j) là trọng số kết nối giữa các nơ-ron i và j
Một mạng nơ-ron đơn giản bao gồm một lớp của n đơn đầu vào và một lớpđơn vị xử lý (lớp ẩn) m
Hình 2.4: Mạng nơ-ron đơn giản với n nơ-ron đầu vào và m nơ-ron xử lý
Một mạng nơ-ron có thể được mở rộng bao gồm đơn vị đầu ra là tổng cácđầu ra của các đơn vị xử lý
Hình 2.5: Mạng nơ-ron với một đầu ra
Trang 27Mạng nơ-ron có thể được huấn luyện để xấp xỉ một lớp hàm F có dạng
f :Rn −→Rm.
Khi mạng được cung cấp các mẫu dữ liệu (x, f (x)), trong đó x ∈ Rn mộtthuật toán được áp dụng để điều chỉnh các trọng số w ij và các hệ số điều chỉnh
θ j sao cho độ lệch giữa f (x) và mạng đầu ra y = (y 1 , , y m )T là nhỏ nhất
2.3 Mạng nơ-ron như là xấp xỉ phổ quát
Xét khối lập phương n chiều