TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐÀO TẠO SAU ĐẠI HỌC TIỂU LUẬN MÔN HỌC CHUYÊN ĐỀ ĐỀ TÀI NEURON MODEL ANH NETWORK ARCHITECTURES Giảng viên hướng dẫn TS NGUYỄN HỮU TRUNG Nhóm 14 ĐỖ HỮU TRỌNG PAGE 1 14 VÕ ANH TUẤN PAGE 15 20 Lớp KTTT1 MỤC LỤC Chương 2 Cấu trúc mạng và mô hình nơron 2 Lý thuyết và các ví dụ 2 1 Các ký hiệu 2 2 Mô hình nơron 3 2 1 Nơron đầu vào đơn 3 2 2 Các hàm số chuyển 4 3 Kết luận 20 Chương 2 Cấu trúc mạng và mô hình nơron Trong chương 1, chúng tôi đã trình bày một mô tả đơn.
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN ĐÀO TẠO SAU ĐẠI HỌC
TIỂU LUẬN MÔN HỌC
CHUYÊN ĐỀ
ĐỀ TÀI:
NEURON MODEL ANH NETWORK ARCHITECTURES
Giảng viên hướng dẫn : TS NGUYỄN HỮU TRUNG Nhóm 14 : ĐỖ HỮU TRỌNG PAGE 1-14
VÕ ANH TUẤN PAGE 15-20
Trang 2
MỤC LỤC Chương 2: Cấu trúc mạng và mô hình nơron 2
Lý thuyết và các ví dụ 2
1 Các ký hiệu 2
2 Mô hình nơron 3
2.1 Nơron đầu vào đơn 3
2.2 Các hàm số chuyển 4
3 Kết luận 20
Trang 3
Chương 2: Cấu trúc mạng và mô hình nơron
Trong chương 1, chúng tôi đã trình bày một mô tả đơn giản về các mạng nơron sinhhọc và mạng nơron Bây giờ chúng tôi sẽ giới thiệu về mô hình toán học đơn giản vềnơron và sẽ giải thích các nơron nhân tạo này có thể được liên kết tương tác để tạo thànhnhiều cấu trúc mạng Chúng tôi cũng sẽ minh họa hoạt động cơ bản của các mạng nàythông qua một số ví dụ đơn giản Khái niệm và ký hiệu được sử dụng trong chương này
sẽ được sử dụng trong suốt cuốn sách này
Chương này không bao hàm tất cả các cấu trúc mà sẽ được sử dụng trong cuốn sáchnày nhưng nó giới thiệu các khối lắp ghép cơ bản Các cấu trúc phức tạp hơn sẽ được giớithiệu và thảo luận khi cần thiết trong những chương sau Tuy nhiên nhiều chi tiết đượctrình bày ở đây Hãy chú ý rằng người đọc không cần thiết nhớ tất cả tài liệu/ công thức/
kí hiệu trong chương này ở lần đọc đầu tiên Thay vào đó, hãy đọc sách như một tiền đề
để bạn bắt đầu và như một nguồn để bạn có thể xem lại
Lý thuyết và các ví dụ
1 Các ký hiệu
Các mạng nơron mới đến nỗi mà các kí hiệu toán học và sự biểu diễn cấu trúc tiêuchuẩn cho chúng chưa được thiết lập vững chắc Hơn nữa, giấy tờ và sách về các mạngnơron đến từ nhiều lĩnh vực khác nhau, bao gồm kỹ thuật, vật lý, tâm lý và toán học vànhiều tác giả có xu hướng sử dụng từ vựng cá biệt cho chuyên môn của họ Kết quả là,nhiều cuốn sách và giây tờ trong lĩnh vực này khó để đọc và các khái niệm được tạo
dường như phức tạp hơn Đây là một điều đáng tiếc khi nó tránh mở rộng các ý tưởng
mới quan trọng
Trong cuốn sách này chúng tôi cố gắng sử dụng ký hiệu tiêu chuẩn ở chỗ có làm rõràng và giữ cho các vấn để đơn giản mà không mất đi tính chính xác Đặc biệt là chúngtôi có gắng xác định các quy ước thực tế và sử dụng chúng một cách thích hợp
Các hình minh họa, các phương trình toán học và chữ thảo luận, cả hình minh họa
và các phương trình toán học sẽ sủ dụng các ký hiệu sau:
Vô hướng: chữ nhỏ in nghiêng: a, b, c.
Véctơ: chữ nhỏ in đậm: a, b, c.
Trang 4
Ma trận: chữ viết hoa in đậm: A,B,C.
Ký hiệu thêm mà liên quan tới cấu trúc mạng sẽ được giới thiệu khi bạn đọc chươngnày Một danh sách hoàn chỉnh về các kí hiệu mà chúng tôi sử dụng xuyên suốt cuốn sáchnày được ghi ở Phụ lục B, vì thế bạn có tể xem nếu bạn có thắc mắc
2 Mô hình nơron
2.1 Nơron đầu vào đơn.
Một nơron đầu vào đơn được chỉ ra trong hình 2.1, đầu vào vô hướng p được nhân
lên nhờ khối lượng vô hướng w để tạo thành wp, một trong những thuật ngữ mà được gửi
tới the summer Một đầu vào khác, l, được nhân lên nhờ một đường chéo b và rồi qua the
summer Đầu ra summer, n, luôn được xem như một đầu vào mạng, tới một hàm số
chuyển f mà tạo ra đầu ra nơron vô hướng a (Một số tác giả dùng thuật ngữ “hàm số hoạt
hóa” hơn là sử dụng hàm số biến đổi và “offset” hơn là bias.)
Nếu chúng ta liên hệ mẫu đơn giản này với nơron sinh học mà chúng ta thảo luận
trong chương 1, trọng lượng w tương đương với sức mạnh của khớp thần kinh, tế bào cơ thể này được giới thiệu nhờ bản tóm tắt và hàm số chuyển và đầu ra nơron a trình bày
cho tín hiệu của sợi trục thần kinh
Hình 2.1 Nơron đầu vào đơn
Nơron được tính toán nhờ
a =f(wp +b).
Ví dụ nếu w = 3, p = 2 và b = -1,5, khi đó
a =f(3(2)- 1,5) = f(4,5)
Trang 5ví dụ về điều này trong chương 3, 7 và 14.
Chú ý rằng cả w và b là các tham số vô hướng có thể điều chỉnh được của nơron Điển hình là, hàm số chuyển được chọn do nhà thiết kế và khi đó các tham số w và b sẽ được
điều chỉnh nhờ một số quy tắc học tập để mối quan hệ đầu ra/đầu vào nơron đạt được một
số mục tiêu cụ thể ( xem chương 4 cho phần giới thiệu các quy tắc học tập) Như được
mô tả trong phần tiếp theo, chúng tôi có các các hàm số chuyển khác nhau cho các mụcđích khác nhau
2.2 Các hàm số chuyển
Hàm số chuyển trong hình 2.1 có thể là hàm tuyến tính hoặc một hàm phi tuyến tính
của n Một hàm số chuyển cụ thể được chọn để thỏa mãn một số đặc điểm của vấn đề mà
nơron đang cố gắng giải quyết
Nhiều hàm số chuyển được đưa ra trong cuốn sách này Ba trong các hàm số được
sử dụng thường xuyên nhất được thảo luận dưới đây
Hàm số chuyển hạn chế cứng/nghiêm ngặt, được chỉ ra ở bên trái hình 2.2, đặt đầu
ra của nơron là 0 nếu đối số hàm số nhỏ hơn 0, hoặc 1 nếu đối số của nó lớn hơn hoặcbằng 0 Chúng ta sẽ sử dụng hàm số để tạo ra các nơron mà phân lọai đầu vào thành 2loại riêng biệt Điều này sẽ được sử dụng rộng rãi trong chương 4
Hình 2.2: Hàm số chuyển hạn chế cứng/nghiêm ngặt
Hình ở bên phải hình 2.2 minh họa cho đặc tính đầu ra/ đầu vào của một nơron đầu
vào đơn mà sử dụng hàm số chuyển hạn chế nghiêm ngặt Ở đây chúng ta có thể thấy tác
Trang 6
động của khối lượng và bias Chú ý rằng một biểu tượng cho hàm số chuyển hạn chế
cứng được chỉ ra giữa 2 hình Các biểu tượng như vậy sẽ thay thế toàn bộ f trong các
biểu đồ mạng lưới để chỉ ra các hàm số cụ thể đang được sử dụng
Đầu ra là một hàm số chuyển tuyến tính bằng với đầu vào của nó
a = n , (2.1)
Như minh họa ở hình 2.3
Các nơron với hàm số chuyển này được sử dụng trong các mạng ADALINE, màđược thảo luận trong chương 10
Hình 2.3 Hàm số chuyển tuyến
Đầu ra (a) chống lại đặc tính đầu vào (p) của nơron tuyến tính đầu vào đơn với một
bias được chỉ ra trong hình 2.3
Hàm số chuyển log-sigmoid được chỉ ra trong hình 2.4
Trang 7
Hình 2.4 Hàm số chuyển Log-sigmoidHàm số chuyển này đưa đầu vào ( mà có bất cứ giá trị nào giữa dương vô cùng và
âm vô cùng) và bỏ đầu ra trong giới hạn từ 0 đến 1, theo mô tả sau:
Hàm số chuyển log-sigmoid thường được sử dụng trong các mạng đa tầng mà đượchuấn luyện khi sử dụng thuật toán truyền lan ngược, một phần do hàm này có thể phânbiệt ( xem chương 11)
Hầu hết các hàm số chuyển này được sử dụng trong cuốn sách này được tóm tắttrong bảng 2.1 Có thể xác định các hàm chuyển khác thêm vào những hàm đó mà đượcchỉ ra trong bảng 2.1 nếu muốn
Để thí nghiệm với một nơron đầu vào đơn, sử dụng Neural Network DesignDemonstration One-Input Neural nnd2n1
Trang 8a = 0 tất cả nơron khác
Compet
Nơron nhiều đầu vào
Cụ thể là một nơron có nhiều hơn một đầu vào Một nơron với đầu vào R được chỉ
ra trong hình 2.5
Hình 2.5 Nơron nhiều đầu vào
Trang 9Trong đó ma trận W cho trường hợp nơron đơn chỉ có một hàng
Bây giờ đầu ra nơron có thể được viết như
May mắn là các mạng nơron có thể thường xuyên được mô tả với các ma trận Loạidiễn đạt ma trận này sẽ được sử dụng xuyên suốt cuốn sách này Đừng lo lắng nếu bạn ítthực hành với các phép toán ma trận và véctơ Chúng tôi sẽ giới thiệu lại các chủ đề nàytrong chương 5 và 6, và chúng tôi sẽ đưa ra nhiều ví dụ và giải quyết các vấn đề mà sẽgiải thích các thủ tục
Chúng tôi đã nhận một quy ước cụ thể trong việc chia các bảng chú dẫn về các yếu
tố của ma trận weight Bảng chú dẫn đầu tiên cho biết nơi đến của nơron cụ thể đối vớikhối lượng đó Chú dẫn thứ hai cho biết nguồn của tín hiệu cho nơron này Do đó các chú
dẫn chi w1,2 cho biết rằng khối lượng này đại diện cho sự kết nối tới nơron đầu tiên ( và
duy nhất) từ nguồn thứ hai Tất nhiên là quy ước này hữu ích hơn nếu có nhiều hơn mộtnơron, khi đó sẽ là trường hợp sau ở trong chương này
Chúng tôi muốn vẽ các mạng với một vài nơron, mỗi nơron có một vài đầu ra Hơn
nữa, chúng tôi muốn có nhiều hơn mộ tầng nơron Bạn có thể tưởng tượng một mạng như
vậy phức tạp như thế nào có thể xuất hiện nếu tất cả các đường được vẽ Sẽ mất nhiềumực, không thể đọc được và nhiều chi tiết có thể làm mở đi các đặc trưng chính Do vậy,chúng tôi sẽ sử dụng một ký hiệu tắt Một nơron nhiều đầu vào sử dụng ký hiệu này đượcminh họa trong hình 2.6
Trang 10
Hình 2.6 Nơron với đầu ra R , ký hiệu tắt.
Như minh họa ở hình 2.6, vectơ đầu vào p được biểu diễn bởi vạch thẳng đứng đặc
ở bên trái Kích thước của p được hiển thị dưới giá trị có thể có ví dụ Rx1, cho biết rằng
đầu vào là một vectơ của các yếu tố R Các đầu vào này cùng với ma trận weight W, mà
có các cột R nhưng chỉ một hàng trong trường hợp nơron đơn này 1 không đổi thêm vòa nơron như một đầu vào và được nhân với một bias b vô hướng Đầu vào lưới tới hàm số chuyển f là một n, mà là tổng của bias b này và một sản phẩm Wp Đầu ra a của nơron
này là một vô hướng trong trường hợp này Nếu chúng tôi có hơn một nơron, đầu ramạng có thể là một vectơ
Thứ nguyên của các biến số này trong các hình ký hiệu tắt này sẽ luôn luôn đượctính đến, để bạn cóthể nói ngay lập tức nếu chúng tôi nói về vô hướng hoặc vector hoặc
ma trận Bạn sẽ không phải đoán loại biến số hoặc thứ nguyên của nó
Chú ý rằng con số đầu vào cho một mạng được đặt bởi các đặc điểm kỹ thuật bênngoài của vấn đề Ví dụ, nếu, bạn muốn thiết kế một mạng nơron mà là để dự báo cácđiều kiện cho diều bay và các đầu vào là nhiệt độ không khí, vận tốc gió và độ ẩm, khi đó
có 3 đầu vào cho mạng này
Để nghiên cứu một nơron hai đầu vào, sử dụng Neural Network DesignDemonstration Two-Input Neuron (nnd2n2)
Trang 11
Một mạng đơn tang của nơron S được minh họa trong hình 2.7 Chú ý là mỗi đầu
vào R được nối với mỗi nơron và bây giờ ma trận weight có các hàng S.
Hình 2.7 Tầng của các nơron S
Tầng này bao gồm ma trận weight, các summer, vectơ bias b, các khung hàm số chuyển và vectơ đầu ra a Một số tác giả cho rằng các đầu vào như một tầng khác, nhưng
ở đây chúng tôi không cho là như vậy
Mỗi yếu tố của vectơ p được nối với mỗi nơron thông qua ma trận weight W Mỗi
nơron có một bias b, một summer, một hàm số chuyển f và một đầu ra ai Đi cùng với
nhau, các đầu ra hình thành nên vectơ đầu ra a
Thông thường thì số đầu vào cho một tầng là khác với số nơron (ví dụ, R≠S).
Bạn có thể thắc mắc nếu tất cả các nơron trong một tầng phải có cùng hàm sốchuyển Câu trả lời là không, bạn có thể xác định một tầng đơn ( ghép) của các nơron cócác hàm chuyển khác nhau do việc kết hợp các mạng được chỉ ra tương ứng dưới đây Cảmạng có các đầu vào như nhau và mỗi mạng sẽ tạo ra một vài đầu ra
Các yếu tố vectơ đầu vào thêm vào mạng thông qua ma trận weight W
Trang 12
Như trước đây đã lưu ý rằng các chú dẫn của các yếu tố của ma trận W cho biết
nơron nơi đến được liên hợp với ma trận weight này, trong khi các chú dẫn cột cho biết
nguồn của đầu vào cho ma trận weight Do đó, các chú dẫn trong w3,2 cho biết weight này
đại diện cho sự kết nối với nơron thứ ba từ nguồn thứ hai
May mắn là, nơron S, đầu vào R, mạng một tầng cũng có thể được vẽ bằng ký hiệu
tắt, như hình 2.8
Hình 2.8 Tầng của các nơron S, ký hiệu minh họa.
Ở đây các biểu tượng dưới các biến số cho bạn biết là đối với tầng này, p là một
vectơ của độ dài R, W là một ma trận S x R và a và b là các vectơ của chiều dài S Khi
được xác định trước đây, tầng gồm ma trận weight, các phép cộng và nhân, vectơ bias b,các hộp hàm số chuyển và vectơ đầu ra
Các tầng bội của các nơron
Trang 13
Bây giờ coi một mạng với nhiều tầng Mỗi tầng có ma trận weight W của chính nó,
vectơ bias b, vectơ đầy vào lưới n và một vectơ đầu ra a Chúng tôi cần giới thiệu một số
ký hiệu thêm để phân biệt giữa các tầng Chúng tôi sẽ sử dụng chữ viết bên trên nhậndạng các lớp Đặc biệt là, chúng tôi thêm vào số tầng như một chữ viết bên trên các têncho mỗi biến số này Do đó, ma trận weight cho tầng đầu tiên được viết là W1, và ma trậnweight cho tầng thứ hai được viết là W2 Đây là ký hiệu được sử dụng trong mạng ba tầngtrong hình 2.9
Hình 2.9 Mạng ba tầng
Như hình, có các đầu vào R, nơron S1 trong tầng đầu tiên, nơron S2 trong tầng thứhai… Chú ý rằng, các tầng khác nhau có thể có số nơron khác nhau
Các đầu ra của các tầng một và hai là các đầu vào của tầng hai và ba Do đó tầng 2
có thể đựoc nhìn nhận như một mạng một tầng với các đầu vào R = S1, các nơron S = S2
và một ma trận W2, S1x S2
Đầu vào cho tầng 2 là a1 và đầu ra a2.Một tầng mà đầu ra của nó là một đầu ra mạng được gọi là tầng đầu ra Các tầngkhác được gọi là các tầng ẩn Mạng được chỉ ra phía dưới có tầng đầu ra ( tầng 3) và haitầng ẩn ( tâng 1 và tầng 2)
Mạng 3 tầng tương tự được thảo luận trước đó cũng có thể vẽ được nhờ sử dụng các
ký hiệu tắt của chúng tôi, như hình 2.10
Trang 14
Hình 2.10 Mạng ba tầng, ký hiệu tắtCác mạng tầng bội mạnh hơn các mạng đơn tầng Ví dụ như, một mạng hai tầng cótầng đầu sigmoid và tầng thứ hai tuyến tính có thể được huấn luyện để gần giống với hầu
hết các hàm Các mạng đơn tầng không thể làm điều này.
Với quan điểm này, số các lựa chọn được tạo ra nhờ việc chỉ rõ một mạng có thểtrông lấn án, vì vậy chúng ta hãy cân nhắc chủ đề này Vấn đề không phải nó trông tệ thếnào Đầu tiên, xem lại số đầu vào cho mạng này và số đầu ra từ mạng này được xác định
nhờ các đặc điểm kỹ thuật vấn đề ở bên ngoài Vì vậy nếu có 4 biến số bên ngoài được sử
dụng như các đầu vào, có 4 đầu vào cho mạng này Tương tự, sẽ có 7 đầu ra từ mạng này,phải có 7 nơron trong tầng đầu ra Cuối cùng các đặc tính mong muốn của tín hiệu đầu racũng giúp chọn ra hamg số chuyển cho tầng dầu ra Nếu một đầu ra vừa không là -1 hoặc
là 1 thì khi đó hàm số chuyển hạn chế cứng đối xứng nên được sử dụng Do đó, cấu trúccủa một mạng đơn tầng là hầu hết được xác định hoàn chỉnh nhờ các đặc tính kỹ thuậtvấn đề, bao gồm số cụ thể các đầu vào và đầu ra và đặc điểm tín hiệu đầu ra
Bây giờ, nếu chúng ta có nhiều hơn hai tầng? Ở đây, vấn đề bên ngoài không nóitrực tiếp cho bạn số nơron được yêu cầu trong các tầng ẩn Thực tế là có một số vấn đềcho ai có thể dự đoán số nơron tối ưu nhất cần trong một mạng ẩn Vấn đề này la mộtphần thực sự của nghiên cứu Chúng tôi sẽ xây dựng một số cảm nghĩ về vấn đề này khichúng tôi thực hiện chương 11, thuật toán truyền ngược
Còn về số tầng, các mạng nơron thực tiễn nhất chỉ có hai hoặc ba tầng Bốn hoặcnhiều tầng hơn hiếm khi được dùng
Chúng tôi nên nó một vài điều về cách sử dụng các bias Một người có thể chọn các
nơron có hoặc không có các bias Bias cho mạng một biến số mong đợi và vì vậy bạn cóthể mong đợi rằng các mạng với các bias sẽ mạnh hơn mạng không có, và đó là sự thật
Trang 15
Ví dụ, chú ý tới một nơron không có một bias sẽ luôn có đầu vào mạng n là 0 khi các đầu
ra mạng p là 0 Điều này có thể không mong muốn và có thể tránh được nhờ sử dụng mộtbias Tác động của bias được thảo luận đầy đủ hơn trong chương 3,4 và 5
Trong các chương sau chúng tôi sẽ bỏ sót một bias trong một vài ví dụ hoặc chứngminh Trong một vài trường hợp thì thực hiện đơn giản để giảm số tham số mạng Chỉ với
2 biến số, chúng tôi có thể vẽ sự hội tụ hệ thống trong một mặt phẳng 2 thứ nguyên 3hoặc nhiều biến số hơn sẽ khó trình bày
yêu cầu tằng đầu ra được cho giá trị ban đầu tại thời điểm t ≈0 Điều kiện ban đầu được
trình bày trong hình 2.11 nhờ đường cong tới điểm cuối của khối trễ
Trang 16
Khối xây dựng liên quan khác mà chúng tôi sẽ sử dụng trong các mạng tuần hoànthời gian tiếp diễn trong chương 15 – 18, là máy tích phân, mà được trình bày trong hình2.12
Hình 2.12 Khối máy tích phân
Đầu vào máy tích phân a(t) được tính toán từ đầu vào u(t) của chính nó, như sau
Điều kiện ban đầu a(0) được trình bày nhờ đường cong đến từ cuối của khối máytích phân
Bây giờ chúng tôi sẵng sang giới thiệu các mạng tuần hoàn Một mạng tuần hoàn làmột mạng có thông tin phản hồi; một số đầu ra của nó được kết nối với các đầu vào Điềunày hơi khác so với các mạng mà chúng ta nghiên cứu trước mà hoàn toàn là thông tinkhông có các kết nối trở lại Một loại mạng tuần hoàn thời gian rời biệt được trình bàytrong hình 2.13