Nếu chúng ta liên hệ mẫu đơn giản này với nơron sinh học mà chúng ta thảo luận trong chương 1, trọng lượng w tương đương với sức mạnh của khớp thần kinh, tế bào cơ thể này được đặc trưng
Trang 1MỤC LỤC
Chương 2: Cấu trúc mạng và mô hình nơron 2
Lý thuyết và các ví dụ 2
1 Các ký hiệu 2
2 Mô hình nơron 3
2.1 Nơron đầu vào đơn 3
2.2 Các hàm số chuyển 4
2.3 Nơron nhiều đầu vào 6
3 Các cấu trúc mạng 8
3.1 Một tầng nơron 9
3.2 Mạng đa tầng 10
3.3 Mạng hồi quy 12
KẾT LUẬN 21
Trang 2Chương 2: Cấu trúc mạng và mô hình nơron
Trong chương 1, chúng tôi đã trình bày một mô tả đơn giản về các mạng nơronsinh học và mạng nơron Bây giờ chúng tôi sẽ giới thiệu về mô hình toán học đơn giản
về nơron và sẽ giải thích các nơron nhân tạo này có thể được liên kết tương tác để tạothành nhiều cấu trúc mạng Chúng tôi cũng sẽ minh họa hoạt động cơ bản của cácmạng này thông qua một số ví dụ đơn giản Khái niệm và ký hiệu được sử dụng trongchương này sẽ được sử dụng trong suốt cuốn sách này
Chương này không bao hàm tất cả các cấu trúc mà sẽ được sử dụng trong cuốnsách này nhưng nó giới thiệu các khối lắp ghép cơ bản Các cấu trúc phức tạp hơn sẽđược giới thiệu và thảo luận khi cần thiết trong những chương sau Tuy nhiên nhiềuchi tiết được trình bày ở đây Hãy chú ý rằng người đọc không cần thiết nhớ tất cả tàiliệu/ công thức/ kí hiệu trong chương này ở lần đọc đầu tiên Thay vào đó, hãy đọcsách như một tiền đề để bạn bắt đầu và như một nguồn để bạn có thể xem lại
Lý thuyết và các ví dụ
1 Các ký hiệu
Các mạng nơron mới đến nỗi mà các kí hiệu toán học và sự biểu diễn cấu trúctiêu chuẩn cho chúng chưa được thiết lập vững chắc Hơn nữa, giấy tờ và sách về cácmạng nơron đến từ nhiều lĩnh vực khác nhau, bao gồm kỹ thuật, vật lý, tâm lý và toánhọc và nhiều tác giả có xu hướng sử dụng từ vựng cá biệt cho chuyên môn của họ Kếtquả là, nhiều cuốn sách và giây tờ trong lĩnh vực này khó để đọc và các khái niệm
được tạo dường như phức tạp hơn Đây là một điều đáng tiếc khi nó tránh mở rộng các
ý tưởng mới quan trọng Điều này kìm hãm sự ra đời của những ý tưởng mới
Trong cuốn sách này chúng tôi cố gắng sử dụng ký hiệu tiêu chuẩn ở chỗ có làm
rõ ràng và giữ cho các vấn để đơn giản mà không mất đi tính chính xác Đặc biệt làchúng tôi có gắng xác định các quy ước thực tế và sử dụng chúng một cách thích hợp.Các hình minh họa, các phương trình toán học và chữ thảo luận, cả hình minhhọa và các phương trình toán học sẽ sủ dụng các ký hiệu sau:
Vô hướng: chữ nhỏ in nghiêng: a, b, c.
Véctơ: chữ nhỏ in đậm: a, b, c.
Ma trận: chữ viết hoa in đậm: A,B,C.
Trang 3Ký hiệu thêm mà liên quan tới cấu trúc mạng sẽ được giới thiệu khi bạn đọcchương này Một danh sách hoàn chỉnh về các kí hiệu mà chúng tôi sử dụng xuyênsuốt cuốn sách này được ghi ở Phụ lục B, vì thế bạn có tể xem nếu bạn có thắc mắc.
2 Mô hình nơron
2.1 Nơron đầu vào đơn.
Một nơron đầu vào đơn được chỉ ra trong hình 2.1, đầu vào vô hướng p được nhân lên nhờ khối lượng vô hướng w để tạo thành wp, sau đó được gửi tới bộ cộng.
Một đầu vào khác, l, được nhân lên nhờ một đường chéo b và rồi qua bộ cộng Đầu ra
bộ cộng là n, luôn được xem như một đầu vào mạng, tới một hàm số chuyển f mà tạo
ra đầu ra nơron vô hướng a (Một số tác giả dùng thuật ngữ “hàm số kích hoạt” thay
cho hàm chuyển và “offset” thay cho giá trị ngưỡng.)
Nếu chúng ta liên hệ mẫu đơn giản này với nơron sinh học mà chúng ta thảo luận
trong chương 1, trọng lượng w tương đương với sức mạnh của khớp thần kinh, tế bào
cơ thể này được đặc trưng bởi bộ cộng và hàm chuyển, đầu ra nơron a tương ứng cho
tín hiệu thần kinh (axon)
Hình 2.1 Nơron đầu vào đơn
Nơron được tính toán nhờ
Trang 4Chú ý rằng cả w và b là các tham số vô hướng có thể điều chỉnh được của nơron Điển hình là, hàm số chuyển được chọn do nhà thiết kế và khi đó các tham số w và b sẽ
được điều chỉnh nhờ một số quy tắc học tập để mối quan hệ đầu ra/đầu vào nơron đạtđược một số mục tiêu cụ thể ( xem chương 4 cho phần giới thiệu các quy tắc học ).Như được mô tả trong phần tiếp theo, chúng tôi có các các hàm số chuyển khác nhaucho các mục đích khác nhau
2.2 Các hàm số chuyển
Hàm số chuyển trong hình 2.1 có thể là hàm tuyến tính hoặc một hàm phi tuyến
tính của n Một hàm số chuyển cụ thể được chọn để thỏa mãn một số đặc điểm của vấn
đề mà nơron đang cố gắng giải quyết
Nhiều hàm số chuyển được đưa ra trong cuốn sách này Ba trong các hàm số
được sử dụng thường xuyên nhất được thảo luận dưới đây
Hàm số chuyển hard limit, được chỉ ra ở bên trái hình 2.2, đặt đầu ra của nơron là
0 nếu đối số hàm số nhỏ hơn 0, hoặc 1 nếu đối số của nó lớn hơn hoặc bằng 0 Chúng
ta sẽ sử dụng hàm số để tạo ra các nơron mà phân lọai đầu vào thành 2 loại riêng biệt.Điều này sẽ được sử dụng rộng rãi trong chương 4
Hình 2.2: Hàm số chuyển hạn chế cứng/nghiêm ngặt
Hình ở bên phải hình 2.2 minh họa cho đặc tính đầu ra/ đầu vào của một nơron
đầu vào đơn mà sử dụng hàm số chuyển hạn chế nghiêm ngặt Ở đây chúng ta có thể
thấy tác động của khối lượng và giá trị ngưỡng Chú ý rằng một biểu tượng cho hàm
số chuyển hạn chế cứng được chỉ ra giữa 2 hình Các biểu tượng như vậy sẽ thay thế
toàn bộ f trong các biểu đồ mạng lưới để chỉ ra các hàm số cụ thể đang được sử dụng.
Đầu ra là một hàm số chuyển tuyến tính bằng với đầu vào của nó
a = n , (2.1)
Như minh họa ở hình 2.3
Trang 5Hình 2.3 Hàm số chuyển tuyến
Đầu ra (a) chống lại đặc tính đầu vào (p) của nơron tuyến tính đầu vào đơn với
một bias được chỉ ra trong hình 2.3
Hàm số chuyển log-sigmoid được chỉ ra trong hình 2.4
Hình 2.4 Hàm số chuyển Log-sigmoidHàm số chuyển này đưa đầu vào ( mà có bất cứ giá trị nào giữa dương vô cùng
và âm vô cùng) và bỏ đầu ra trong giới hạn từ 0 đến 1, theo mô tả sau:
Hàm số chuyển log-sigmoid thường được sử dụng trong các mạng đa tầng màđược huấn luyện khi sử dụng thuật toán truyền lan ngược, một phần do hàm này có thểphân biệt ( xem chương 11)
Trang 6Hầu hết các hàm số chuyển này được sử dụng trong cuốn sách này được tóm tắttrong bảng 2.1 Có thể xác định các hàm chuyển khác thêm vào những hàm đó màđược chỉ ra trong bảng 2.1 nếu muốn.
a = 0 tất cả nơron khác
Compet
2.3 Nơron nhiều đầu vào
Cụ thể là một nơron có nhiều hơn một đầu vào Một nơron với đầu vào R được
chỉ ra trong hình 2.5
Trang 7Hình 2.5 Nơron nhiều đầu vào
Nơron này có một bias b, mà được tóm tắt với các đầu vào trọng lượng để tạo thành đầu vào mạng n:
n = w 1,1 p 1 + w 1,2 p 2 +…+ w 1.R p R + b (2.3)
Có thể viết dưới dạng ma trận
n = Wp + b (2.4)
Trong đó ma trận W cho trường hợp nơron đơn chỉ có một hàng
Bây giờ đầu ra nơron có thể được viết như
a = f(Wp + b) (2.5)
May mắn là các mạng nơron có thể thường xuyên được mô tả với các ma trận.Loại diễn đạt ma trận này sẽ được sử dụng xuyên suốt cuốn sách này Đừng lo lắngnếu bạn ít thực hành với các phép toán ma trận và véctơ Chúng tôi sẽ giới thiệu lại cácchủ đề này trong chương 5 và 6, và chúng tôi sẽ đưa ra nhiều ví dụ và giải quyết cácvấn đề mà sẽ giải thích các thủ tục
Chúng tôi đã nhận một quy ước cụ thể trong việc chia các bảng chú dẫn về cácyếu tố của ma trận weight Bảng chú dẫn đầu tiên cho biết nơi đến của nơron cụ thểđối với khối lượng đó Chú dẫn thứ hai cho biết nguồn của tín hiệu cho nơron này Do
đầu tiên ( và duy nhất) từ nguồn thứ hai Tất nhiên là quy ước này hữu ích hơn nếu cónhiều hơn một nơron, khi đó sẽ là trường hợp sau ở trong chương này
Chúng tôi muốn vẽ các mạng với một vài nơron, mỗi nơron có một vài đầu ra
Hơn nữa, chúng tôi muốn có nhiều hơn mộ tầng nơron Bạn có thể tưởng tượng một
mạng như vậy phức tạp như thế nào có thể xuất hiện nếu tất cả các đường được vẽ Sẽmất nhiều mực, không thể đọc được và nhiều chi tiết có thể làm mở đi các đặc trưng
Trang 8chính Do vậy, chúng tôi sẽ sử dụng một ký hiệu tắt Một nơron nhiều đầu vào sử dụng
ký hiệu này được minh họa trong hình 2.6
Hình 2.6 Nơron với đầu ra R , ký hiệu tắt.
Như minh họa ở hình 2.6, vectơ đầu vào p được biểu diễn bởi vạch thẳng đứng
đặc ở bên trái Kích thước của p được hiển thị dưới giá trị có thể có ví dụ Rx1, cho biết
rằng đầu vào là một vectơ của các yếu tố R Các đầu vào này cùng với ma trận weight
W, mà có các cột R nhưng chỉ một hàng trong trường hợp nơron đơn này 1 không đổi thêm vòa nơron như một đầu vào và được nhân với một ngưỡng b vô hướng Đầu vào lưới tới hàm số chuyển f là một n, mà là tổng của ngưỡng b này và một sản phẩm Wp Đầu ra a của nơron này là một vô hướng trong trường hợp này Nếu chúng tôi có hơn
một nơron, đầu ra mạng có thể là một vectơ
Thứ nguyên của các biến số này trong các hình ký hiệu tắt này sẽ luôn luôn đượctính đến, để bạn cóthể nói ngay lập tức nếu chúng tôi nói về vô hướng hoặc vectorhoặc ma trận Bạn sẽ không phải đoán loại biến số hoặc thứ nguyên của nó
Chú ý rằng con số đầu vào cho một mạng được đặt bởi các đặc điểm kỹ thuật bênngoài của vấn đề Ví dụ, nếu, bạn muốn thiết kế một mạng nơron mà là để dự báo cácđiều kiện cho diều bay và các đầu vào là nhiệt độ không khí, vận tốc gió và độ ẩm, khi
đó có 3 đầu vào cho mạng này
Để nghiên cứu một nơron hai đầu vào, sử dụng Neural Network DesignDemonstration Two-Input Neuron (nnd2n2)
3 Các cấu trúc mạng
Thông thường thì một nơron, thậm chí với nhiều đầu vào có thể không đủ Chúngtôi có thể cần 5 hoặc 10, họat động song song, mà chúng tôi gọi là một “lớp” Kháiniệm về một tầng được thảo luận ở dưới
Trang 93.1 Một tầng nơron.
Một mạng đơn tang của nơron S được minh họa trong hình 2.7 Chú ý là mỗi đầu
vào R được nối với mỗi nơron và bây giờ ma trận weight có các hàng S.
Hình 2.7 Tầng của các nơron S
Tầng này bao gồm ma trận weight, các summer, vectơ bias b, các khung hàm số chuyển và vectơ đầu ra a Một số tác giả cho rằng các đầu vào như một tầng khác,
nhưng ở đây chúng tôi không cho là như vậy
Mỗi yếu tố của vectơ p được nối với mỗi nơron thông qua ma trận weight W
với nhau, các đầu ra hình thành nên vectơ đầu ra a
Thông thường thì số đầu vào cho một tầng là khác với số nơron (ví dụ, R≠S).
Bạn có thể thắc mắc nếu tất cả các nơron trong một tầng phải có cùng hàm sốchuyển Câu trả lời là không, bạn có thể xác định một tầng đơn ( ghép) của các nơron
có các hàm chuyển khác nhau do việc kết hợp các mạng được chỉ ra tương ứng dướiđây Cả mạng có các đầu vào như nhau và mỗi mạng sẽ tạo ra một vài đầu ra
Các yếu tố vectơ đầu vào thêm vào mạng thông qua ma trận weight W
Trang 10Như trước đây đã lưu ý rằng các chú dẫn của các yếu tố của ma trận W cho biết
nơron nơi đến được liên hợp với ma trận weight này, trong khi các chú dẫn cột cho
weight này đại diện cho sự kết nối với nơron thứ ba từ nguồn thứ hai
May mắn là, nơron S, đầu vào R, mạng một tầng cũng có thể được vẽ bằng ký
hiệu tắt, như hình 2.8
Hình 2.8 Tầng của các nơron S, ký hiệu minh họa.
Ở đây các biểu tượng dưới các biến số cho bạn biết là đối với tầng này, p là một
vectơ của độ dài R, W là một ma trận S x R và a và b là các vectơ của chiều dài S Khi
được xác định trước đây, tầng gồm ma trận weight, các phép cộng và nhân, vectơ bias
b, các hộp hàm số chuyển và vectơ đầu ra
3.2 Mạng đa tầng
Bây giờ coi một mạng với nhiều tầng Mỗi tầng có ma trận weight W của chính
nó, vectơ bias b, vectơ đầy vào lưới n và một vectơ đầu ra a Chúng tôi cần giới thiệu
một số ký hiệu thêm để phân biệt giữa các tầng Chúng tôi sẽ sử dụng chữ viết bên trênnhận dạng các lớp Đặc biệt là, chúng tôi thêm vào số tầng như một chữ viết bên trên
mạng ba tầng trong hình 2.9
Trang 11Hình 2.9 Mạng ba tầng
hai… Chú ý rằng, các tầng khác nhau có thể có số nơron khác nhau
Các đầu ra của các tầng một và hai là các đầu vào của tầng hai và ba Do đó tầng
S2 và một ma trận W2, S1x S2
Đầu vào cho tầng 2 là a1 và đầu ra a2.Một tầng mà đầu ra của nó là một đầu ra mạng được gọi là tầng đầu ra Các tầngkhác được gọi là các tầng ẩn Mạng được chỉ ra phía dưới có tầng đầu ra ( tầng 3) vàhai tầng ẩn ( tâng 1 và tầng 2)
Mạng 3 tầng tương tự được thảo luận trước đó cũng có thể vẽ được nhờ sử dụngcác ký hiệu tắt của chúng tôi, như hình 2.10
Trang 12Các mạng đa tầng mạnh hơn các mạng đơn tầng Ví dụ như, một mạng hai tầng
có tầng đầu sigmoid và tầng thứ hai tuyến tính có thể được huấn luyện để gần giống
với hầu hết các hàm Các mạng đơn tầng không thể làm điều này.
Với quan điểm này, số các lựa chọn được tạo ra nhờ việc chỉ rõ một mạng có thểtrông lấn án, vì vậy chúng ta hãy cân nhắc chủ đề này Vấn đề không phải nó trông tệthế nào Đầu tiên, xem lại số đầu vào cho mạng này và số đầu ra từ mạng này được xác
định nhờ các đặc điểm kỹ thuật vấn đề ở bên ngoài Vì vậy nếu có 4 biến số bên ngoài
được sử dụng như các đầu vào, có 4 đầu vào cho mạng này Tương tự, sẽ có 7 đầu ra
từ mạng này, phải có 7 nơron trong tầng đầu ra Cuối cùng các đặc tính mong muốncủa tín hiệu đầu ra cũng giúp chọn ra hamg số chuyển cho tầng dầu ra Nếu một đầu ravừa không là -1 hoặc là 1 thì khi đó hàm số chuyển hạn chế cứng đối xứng nên được
sử dụng Do đó, cấu trúc của một mạng đơn tầng là hầu hết được xác định hoàn chỉnhnhờ các đặc tính kỹ thuật vấn đề, bao gồm số cụ thể các đầu vào và đầu ra và đặc điểmtín hiệu đầu ra
Bây giờ, nếu chúng ta có nhiều hơn hai tầng? Ở đây, vấn đề bên ngoài không nóitrực tiếp cho bạn số nơron được yêu cầu trong các tầng ẩn Thực tế là có một số vấn đềcho ai có thể dự đoán số nơron tối ưu nhất cần trong một mạng ẩn Vấn đề này la mộtphần thực sự của nghiên cứu Chúng tôi sẽ xây dựng một số cảm nghĩ về vấn đề nàykhi chúng tôi thực hiện chương 11, thuật toán truyền ngược
Còn về số tầng, các mạng nơron thực tiễn nhất chỉ có hai hoặc ba tầng Bốn hoặcnhiều tầng hơn hiếm khi được dùng
Chúng tôi nên nó một vài điều về cách sử dụng các ngưỡng Một người có thể
chọn các nơron có hoặc không có các ngưỡng Ngưỡng cho mạng một biến số mongđợi và vì vậy bạn có thể mong đợi rằng các mạng với các bias sẽ mạnh hơn mạngkhông có, và đó là sự thật Ví dụ, chú ý tới một nơron không có một bias sẽ luôn có
đầu vào mạng n là 0 khi các đầu ra mạng p là 0 Điều này có thể không mong muốn và
có thể tránh được nhờ sử dụng một bias Tác động của bias được thảo luận đầy đủ hơntrong chương 3,4 và 5
Trong các chương sau chúng tôi sẽ bỏ sót một bias trong một vài ví dụ hoặcchứng minh Trong một vài trường hợp thì thực hiện đơn giản để giảm số tham sốmạng Chỉ với 2 biến số, chúng tôi có thể vẽ sự hội tụ hệ thống trong một mặt phẳng 2thứ nguyên 3 hoặc nhiều biến số hơn sẽ khó hiển thị
3.3 Mạng hồi quy
Trước khi chúng tôi thảo luận về các mạng hồi quy, chúng tôi cần giới thiệu vềmột vài khối xây dựng đơn giản Đầu tiên là khối trễ, được minh họa trong hình 2.11
Trang 13thức 2.7 yêu cầu tằng đầu ra được cho giá trị ban đầu tại thời điểm t ≈0 Điều kiện ban
đầu được trình bày trong hình 2.11 nhờ đường cong tới điểm cuối của khối trễ
Khối xây dựng liên quan khác mà chúng tôi sẽ sử dụng trong các mạng hồi quythời gian tiếp diễn trong chương 15 – 18, là máy tích phân, mà được trình bày tronghình 2.12
Hình 2.12 Khối máy tích phân
Trang 14Đầu vào máy tích phân a(t) được tính toán từ đầu vào u(t) của chính nó, như sau
Điều kiện ban đầu a(0) được trình bày nhờ đường cong đến từ cuối của khối máytích phân
Bây giờ chúng tôi sẵng sang giới thiệu các mạng tuần hoàn Một mạng tuần hoàn
là một mạng có thông tin phản hồi; một số đầu ra của nó được kết nối với các đầu vào.Điều này hơi khác so với các mạng mà chúng ta nghiên cứu trước mà hoàn toàn làthông tin không có các kết nối trở lại Một loại mạng tuần hoàn thời gian rời rạc đượctrình bày trong hình 2.13
Hình 2.13 Mạng tuần hoànTrong mạng cụ thể này, vectơ p cung cấp các điều kiện ban đầu ( ví dụ, a (0) =p) Khi đó các đầu ra tương lai của mạng được tính toán nhờ các đầu ra trước đó
Các mạng hồi quy mạnh hơn các mạng truyền thẳng và có thể đưa ra các hành viliên quan đến thời gian Các kiểu mạng này được trình bày trong chương 3 và 15-18.Tóm tắt các kết quả