CHƯƠNG 1 GIỚI THIỆU VỀ DEEP LEARNING CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG NƠ-RON CHƯƠNG 3 GIỚI THIỆU VỀ MẠNG TÍCH CHẬP CONV NEURAL NETWORKS CHƯƠNG 4 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 1) CHƯƠNG 5 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 2) CHƯƠNG 6 PHẦN CỨNG VÀ PHẦN MỀM CHO HỌC SÂU CHƯƠNG 7 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 1) CHƯƠNG 8 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 2) CHƯƠNG 9 MẠNG HỒI QUY CHƯƠNG 10 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 1) CHƯƠNG 11 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 2) CHƯƠNG 12 MÔ HÌNH SINH DỮ LIỆU
Trang 1BÀI GIẢNG DEEP LEARNING HỌC SÂU VÀ ỨNG DỤNG
2
Trang 2KẾT CẤU BÀI GIẢNG
CHƯƠNG 1 GIỚI THIỆU VỀ DEEP LEARNING
CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG NƠ-RON
CHƯƠNG 3 GIỚI THIỆU VỀ MẠNG TÍCH CHẬP CONV NEURAL NETWORKS
CHƯƠNG 4 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 1)
CHƯƠNG 5 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 2)
CHƯƠNG 6 PHẦN CỨNG VÀ PHẦN MỀM CHO HỌC SÂU
CHƯƠNG 7 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 1)
CHƯƠNG 8 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 2)
CHƯƠNG 9 MẠNG HỒI QUY
Trang 3KẾT CẤU BÀI GIẢNG
CHƯƠNG 1 GIỚI THIỆU VỀ DEEP LEARNING
CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG NƠ-RON
CHƯƠNG 3 GIỚI THIỆU VỀ MẠNG TÍCH CHẬP CONV NEURAL NETWORKS
CHƯƠNG 4 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 1)
CHƯƠNG 5 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 2)
CHƯƠNG 6 PHẦN CỨNG VÀ PHẦN MỀM CHO HỌC SÂU
CHƯƠNG 7 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 1)
CHƯƠNG 8 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 2)
CHƯƠNG 9 MẠNG HỒI QUY
CHƯƠNG 10 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 1) CHƯƠNG 11 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 2) CHƯƠNG 12 MÔ HÌNH SINH DỮ LIỆU
2
Trang 4Chương 1:
Giới thiệu về học sâu
Trang 5Thế nào là học sâu?
• Là phương pháp học máy sử dụng mạng nơ-ron nhântạo để trích xuất đặc trưng tự động từ dữ liệu
3
Trang 6Tại sao cần học sâu?
• Phương pháp học máy truyền thống đòi hỏi trích xuấtđặc trưng một cách thủ công, đòi hỏi kinh nghiệm vàphụ thuộc từng bài toán cụ thể
• Học sâu cho phép trích chọn đặc trưng tự động từ dữliệu
Trang 7Tại sao giờ mới bùng nổ học sâu?
5
Trang 8Học máy có giám sát
Trang 9Tập huấn luyện và tập kiểm tra
7
Training set
(observed)
Universal set (unobserved)
Testing set (unobserved)
Trang 10Hiện tượng overfit và underfit
• Underfitting: mô hình quá “đơn giản” để biểu diễn các
tính chất của dữ liệu
• Bias cao và variance thấp
• Sai số cao trên tập huấn luyện và tập kiểm tra
• Overfitting: mô hình quá “phức tạp” dẫn tới học cả
nhiễu trong dữ liệu
• Bias thấp và variance cao
• Sai số thấp trên tập huấn luyện và sai số cao trên tập kiểm tra
Trang 11Minh họa Bias-Variance
9
Trang 12Phân lớp tuyến tính
Trang 13Phân lớp tuyến tính
11
Trang 14Phân lớp tuyến tính: 3 góc nhìn
Trang 15Hàm mục tiêu
13
Trang 16Hàm mục tiêu
Trang 17Hiệu chỉnh
15
Trang 18Bộ phân loại softmax
Trang 19Hồi quy tuyến tính
¡ 𝑓 𝑥; 𝑤 = 𝑤! + ∑"#$% 𝑤"𝑥" = 𝑤&𝑥′
17
Trang 20Hồi quy tuyến tính
• Nên chọn hàm mục tiêu nào?
Trang 21Tối ưu hàm mục tiêu
19
Trang 22Gradient Descent
Trang 23Gradient Descent
21
Trang 24Gradient Descent
• Chọn tốc độ học learning rate 𝜂
• Khởi tạo 𝑤 ngẫu nhiên
• Khởi tạo 𝑤 từ các phân bố thường gặp như phân bố đều hoặc phân bố chuẩn (gauss)
• Chừng nào 𝑤 vẫn chưa hội tụ
• Cập nhật 𝑤 ← 𝑤 − 𝜂∇𝐽 𝑤; 𝐗, 𝐘
Trang 25Stochastic Gradient Descent (SGD)
23
Trang 26Giới thiệu công cụ và môi trường
• Google Colab: https://colab.research.google.com/
• Miễn phí GPU (Tesla T4/P100)
• Dùng liên tục 10 tiếng mỗi session
Trang 27Google Colab
• Thiết lập GPU: Edit / Notebook settings
25
Trang 29Google Colab
• Tạo nhiều tài khoản google
• Share dữ liệu cho nhiều tài khoản google cùng dùng
Trang 30Jupyter Notebook
• Hướng dẫn sử dụng và cài đặt:
https://www.dataquest.io/blog/jupyter-notebook-tutorial/
Trang 3129
Trang 32Tensorflow/Keras/PyTorch
Trang 33Tài liệu tham khảo
1 Khóa cs231n của Stanford: http://cs231n.stanford.edu
31
Trang 34Thank you for
your attention!
Trang 35Bias trick
• Before: f(xi,W,b)=Wxi+b
• After: f(xi,W)=Wxi
33
Trang 36SVM vs Softmax
Trang 37Chương 2
Giới thiệu về mạng nơ-ron
2
Trang 38Mạng nơ-ron và bộ não
• Mạng nơ-ron mô phỏng cấu trúc kết nối của não người
• Não người tạo bởi nhiều nơ-ron liên kết với nhau
Trang 39• Bắn xung “fire” nếu tổng có trọng số của các đầu vào
với “bias” T không âm
4
Trang 40Perceptron mềm (logistic)
• Sử dụng một hàm khả vi thay cho hàm xung
• Hàm kích hoạt sigmoid được dùng để xấp xỉ hàm xung
• Hàm kích hoạt là hàm tác động lên tổng có trọng số
Trang 41Perceptron mềm (logistic)
6
Trang 42Một số hàm kích hoạt thường gặp
• ReLU là lựa chọn mặc định tốt cho nhiều bài toán
Trang 43Tầm quan trọng của hàm kích hoạt
• Mục đích sử dụng hàm kích hoạt là đưa các lớp phi tuyếnvào mạng nơ-ron
8
Hàm kích hoạt tuyến tính luôn
sinh ra đường phân cách
tuyến tính bất kể mạng có lớn
cỡ nào
Các lớp phi tuyến cho phép chúng ta xấp xỉ các hàm phức tạp
Trang 44Perceptron đơn giản hóa
Trang 45Perceptron đơn giản hóa
10
Trang 46Perceptron nhiều đầu ra
Trang 47Mạng nơ-ron một lớp ẩn
12
Trang 48Mạng nơ-ron một lớp ẩn
Trang 49Mạng nơ-ron nhiều lớp
14
Trang 51Định lý xấp xỉ tổng quát
• Theorem (Universal Function Approximators) Một
mạng nơ-ron từ hai lớp trở lên với số lượng nơ-ron đủlớn có thể xấp xỉ bất kỳ hàm liên tục nào với độ chínhxác tùy ý
16
Trang 52Universal Function Approximation Theorem*
• In words: Given any continuous function f(x), if a 2-layer
neural network has enough hidden units, then there is a
choice of weights that allow it to closely approximate f(x)
Trang 53Tại sao cần mạng nhiều lớp?
• Mạng nơ-ron nhiều lớp (thậm chí chỉ cần duy nhất một lớp ẩn!) là hàm xấp xỉ tổng quát
• Mạng nơ-ron có thể biểu diễn hàm bất kỳ nếu nó đủ rộng (số nơ-ron trong một lớp đủ nhiều), đủ sâu (số lớp đủ lớn).
• Nếu muốn giảm độ sâu của mạng trong nhiều trường hợp sẽ phải bù lại bằng cách tăng chiều rộng lên lũy thừa lần!
• Mạng nơ-ron một lớp ẩn có thể cần tới số lượng nơ-ron cao gấp lũy thừa lần so với một mạng nhiều tầng
• Mạng nhiều lớp cần số lượng nơ-ron ít hơn rất nhiều so với các mạng nông (shallow networks) để cùng biểu diễn một hàm số giống nhau
18
Trang 54Cực tiểu hóa hàm mục tiêu
• Tìm trọng số của mạng để hàm mục tiêu đạt giá trị cựctiểu
Trang 55Cực tiểu hóa hàm mục tiêu
• Thuật toán Gradient Descent
20
Trang 56Giải thuật lan truyền ngược
• Đánh giá sự thay đổi nhỏ ở một trọng số nào đó ảnhhưởng như thế nào tới hàm mục tiêu của mạng?
Trang 57Giải thuật lan truyền ngược
• Đánh giá sự thay đổi nhỏ ở một trọng số nào đó ảnhhưởng như thế nào tới hàm mục tiêu của mạng?
22
Trang 58Giải thuật lan truyền ngược
• Đánh giá sự thay đổi nhỏ ở một trọng số nào đó ảnhhưởng như thế nào tới hàm mục tiêu của mạng?
Trang 59Giải thuật lan truyền ngược
• Đánh giá sự thay đổi nhỏ ở một trọng số nào đó ảnhhưởng như thế nào tới hàm mục tiêu của mạng?
24
Trang 60Giải thuật lan truyền ngược
• Đánh giá sự thay đổi nhỏ ở một trọng số nào đó ảnhhưởng như thế nào tới hàm mục tiêu của mạng?
Trang 61Giải thuật lan truyền ngược
• Lặp lại cách ước lượng này cho tất cả các trọng số
trọng mạng dựa trên gradients đã tính ở các lớp trước
26
Trang 62Giải thuật lan truyền ngược
• Giả sử có sự thay đổi nhỏ ∆𝑤!"# giá trị của trọng số 𝑤!"#
ở lớp thứ 𝑙
Trang 63Giải thuật lan truyền ngược
• Sự thay đổi sẽ ảnh hưởng tới giá trị đầu ra của hàm
kích hoạt nơ-ron tương ứng
28
Trang 64Giải thuật lan truyền ngược
• Và sau đó sẽ làm thay đổi giá trị đầu ra của tất cả cáchàm kích hoạt ở các lớp ngay phía sau
Trang 65Giải thuật lan truyền ngược
• Sự thay đổi sẽ lan truyền tiếp tới các lớp sau nữa vàcuối cùng sẽ ảnh hưởng tới hàm mục tiêu, gây ra mộtlượng thay đổi ∆𝐶
30
Trang 66Giải thuật lan truyền ngược
• Như vậy có thể tính đạo hàm riêng của hàm mục tiêuđối với trọng số 𝑤!"# bằng cách theo dõi xem sự thayđổi của trọng số ∆𝑤!"# từng bước ảnh hưởng đến sự
thay đổi của hàm mục tiêu ra sao
• Đầu tiên ∆𝑤!"# làm thay đổi hàm kích hoạt của nơ-rontương ứng một lượng ∆𝑎!#
Trang 67Giải thuật lan truyền ngược
• Sự thay đổi của hàm kích hoạt 𝑎!# tiếp tục ảnh hưởngtới các hàm kích hoạt ở lớp kế tiếp
32
Trang 68Giải thuật lan truyền ngược
• Sự thay đổi ∆𝑎$#%& tiếp tục ảnh hưởng các hàm kích
hoạt phía sau và lan tới hàm mục tiêu
• Ta có thể tưởng tượng ra một đường đi trong mạng từ
𝑤!"# tới hàm mục tiêu 𝐶, theo đó sự thay đổi ∆𝑤!"# sẽ
dần dần ảnh hưởng tới các hàm kích hoạt trong đường
đi và lan tới 𝐶 Giả sử đường đi chứa các hàm kích
hoạt 𝑎!#, 𝑎$#%&, … , 𝑎'()&, 𝑎*( (𝐿 là số lớp của mạng) Khi đó
ta có công thức:
Trang 69Giải thuật lan truyền ngược
• Sự thay đổi ∆𝑎!"#$ tiếp tục ảnh hưởng các hàm kích hoạt phía sau
và lan tới hàm mục tiêu
• Ta có thể tưởng tượng ra một đường đi trong mạng từ 𝑤%&" tới hàm mục tiêu 𝐶, theo đó sự thay đổi ∆𝑤%&" sẽ dần dần ảnh hưởng tới các hàm kích hoạt trong đường đi và lan tới 𝐶 Giả sử đường đi chứa các hàm kích hoạt 𝑎%", 𝑎!"#$, … , 𝑎'()$, 𝑎*( (𝐿 là số lớp của
mạng) Khi đó ta có công thức:
• Hiển nhiên có nhiều đường đi như vậy Hàm mục tiêu sẽ bị thay đổi theo tất cả các đường đi:
34
Trang 70Giải thuật lan truyền ngược
• Cuối cùng ta thu được công thức:
Trang 71Giải thuật lan truyền ngược
36
Trang 72Tài liệu tham khảo
1 Khóa học Intro to DL của MIT:
http://introtodeeplearning.com/
2 Online book “Neural Networks and Deep Learning”:
http://neuralnetworksanddeeplearning.com/
Trang 73Chương 3 Giới thiệu về mạng tích chập
Conv Neural Networks
2
Trang 74Lịch sử CNNs
• Ý tưởng CNNs xuất phát đầu tiên từ công trình của Fukushima năm 1980
Trang 75Lịch sử CNNs
• Năm 1998, LeCun áp dụng BackProp huấn luyện mạng CNNs cho bài toán nhận dạng văn bản
4
Trang 76Lịch sử CNNs
• Năm 2012, CNNs gây tiếng vang lớn khi vô địch cuộc thi ILSRC 2012, vượt xa phương pháp đứng thứ 2 theo
Trang 77Lịch sử CNNs
• Hiện nay CNNs ứng dụng khắp nơi, ví dụ trong bài toán phân loại ảnh, truy vấn ảnh
6
Trang 78Lịch sử CNNs
• Ứng dụng CNNs trong bài toán phát hiện đối tượng,
Trang 79Lịch sử CNNs
• Ứng dụng CNNs trong nhận dạng dáng người
(human pose), trong trò chơi…
8
Trang 80bản đồ kích hoạt (activation map)
• Chiều sâu của nơ-ron tích chập bằng chiều sâu của khối
dữ liệu đầu vào
Trang 81Lớp tích chập
…
• Bước nhảy stride = 1
• Đầu vào kích thước 7x7, nơ-ron kích thước 3x3
• Đầu ra kích thước 5x5
10
Trang 82Lớp tích chập
• Bước nhảy stride = 2
• Đầu vào kích thước 7x7, nơ-ron kích thước 3x3
Trang 83Lớp tích chập
12
Trang 84Lớp tích chập
• Để bảo toàn kích thước
thường thêm viền bởi các
Trang 87• Mạng nơ-ron tích chập là một dãy các lớp tích chập nối liên tiếp nhau xen kẽ bởi các hàm kích hoạt (ví
dụ ReLU)
16
Trang 88Lớp gộp (pooling layer)
• Giúp giảm độ phân giải của khối dữ liệu để giảm bộ nhớ
và khối lượng tính toán
• Hoạt động độc lập trên từng bản đồ kích hoạt
• Lớp gộp max pooling giúp mạng biểu diễn bất biến đối với các thay đổi tịnh tiến (translation invariance) hoặc biến dạng (deformation invariance) của dữ liệu đầu vào
Trang 89Lớp gộp max pooling
18
Trang 90CNNs
Trang 93• ImageNet Classification with Deep Convolutional
Neural Networks - Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton; 2012
• Một trong những mạng CNNs lớn nhất tại thời điểm đó
• Có 60M tham số số so với 60k tham số LeNet-5
[Krizhevsky et al., 2012]
22
Trang 94ImageNet Large Scale Visual Recognition Challenge (ILSVRC) winners
• “Olympics” thường niên về lĩnh vực thị giác máy tính.
• Các teams khắp thế giới thi đấu với nhau để xem ai
là người có mô hình CV tốt nhất cho các bài toán như phân loại ảnh, định vị và phát hiện đối tượng trong ảnh
Trang 96.
4096 4096
Softmax 1000
Trang 97ImageNet Large Scale Visual Recognition Challenge (ILSVRC) winners
Slide taken from Fei-Fei & Justin Johnson & Serena Yeung Lecture 9 26
Trang 98ImageNet Large Scale Visual Recognition Challenge (ILSVRC) winners
Trang 99• Very Deep Convolutional Networks For Large Scale Image Recognition - Karen Simonyan and Andrew Zisserman; 2015
• Á quân tại cuộc thi ILSVRC 2014
• Sâu hơn rất nhiều so với AlexNet
• 140 triệu tham số
Trang 100• Nơ-ron kích thước bé Chỉ dùng conv 3x3, stride 1, pad 1
và 2x2 MAX POOL , stride 2
• Mạng sâu hơn AlexNet: 8 lớp VGGNet: 16 - 19 lớp
• ZFNet: 11.7% top 5 error in ILSVRC’13
• VGGNet: 7.3% top 5 error in ILSVRC’14
Trang 101• Tại sao dùng filter bé? (3x3 conv)
• Chồng 3 lớp 3x3 conv (stride 1) có cùng hiệu quả
thu nhận thông tin như một lớp 7x7 conv.
• Nhưng sâu hơn, nhiều lớp phi tuyến hơn
kênh của mỗi lớp
Trang 102Input memory: 224*224*3=150K params: 0
3x3 conv, 64 memory: 224*224*64=3.2M params: (3*3*3)*64 = 1,728
3x3 conv, 64 memory: 224*224*64=3.2M params: (3*3*64)*64 = 36,864
3x3 conv, 128 memory: 112*112*128=1.6M params: (3*3*64)*128 = 73,728
3x3 conv, 128 memory: 112*112*128=1.6M params: (3*3*128)*128 = 147,456
3x3 conv, 256 memory: 56*56*256=800K params: (3*3*128)*256 = 294,912 3x3 conv, 256 memory: 56*56*256=800K params: (3*3*256)*256 = 589,824 3x3 conv, 256 memory: 56*56*256=800K params: (3*3*256)*256 = 589,824
3x3 conv, 512 memory: 28*28*512=400K params: (3*3*256)*512 = 1,179,648 3x3 conv, 512 memory: 28*28*512=400K params: (3*3*512)*512 = 2,359,296 3x3 conv, 512 memory: 28*28*512=400K params: (3*3*512)*512 = 2,359,296
3x3 conv, 512 memory: 14*14*512=100K params: (3*3*512)*512 = 2,359,296 3x3 conv, 512 memory: 14*14*512=100K params: (3*3*512)*512 = 2,359,296 3x3 conv, 512 memory: 14*14*512=100K params: (3*3*512)*512 = 2,359,296
Trang 103ImageNet Large Scale Visual Recognition Challenge (ILSVRC) winners
Slide taken from Fei-Fei & Justin Johnson & Serena Yeung Lecture 9 32
Trang 104• Going Deeper with Convolutions - Christian
Szegedy et al.; 2015
• Vô địch ILSVRC 2014
• Sâu hơn nhiều so với AlexNet
• Số tham số ít hơn 12 lần so với AlexNet
• Tập trung vào giảm độ phức tạp tính toán
Trang 105• Vô địch tác vụ phân loại ảnh
ILSVRC’14 (6.7% top 5 error)
[Szegedy et al., 2014]
34
Trang 106GoogleNet - Nạve Inception Model
Previous layer
1x1 conv 128 3x3 conv 192 5x5 conv 96 3x3 max pooling
Trang 107• Giải pháp: lớp nút cổ chai “bottleneck” sử dụng
conv 1x1 để giảm chiều sâu khối dữ liệu.
Filter concatenation
Previous layer
1x1
convolution
3x3 convolution convolution 5x5 convolution 1x1
1x1 convolution convolution 1x1 3x3 max pooling
[Szegedy et al., 2014]
36
Trang 108Filter concatenation
Previous layer
1x1 conv 128 3x3 conv 192 5x5 conv 96 1x1 conv 64
1x1 conv 64 1x1 conv 64 3x3 max pooling
Trang 109ImageNet Large Scale Visual Recognition Challenge (ILSVRC) winners
Slide taken from Fei-Fei & Justin Johnson & Serena Yeung Lecture 9 38
Trang 110• Deep Residual Learning for Image Recognition
-Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian
Sun; 2015
• Mạng rất sâu, tới 152 lớp
• Mạng càng sâu càng khó huấn luyện.
• Mạng càng sâu càng chịu nhiều ảnh hưởng của vấn
đề triệt tiêu và bùng nổ gradient.
• ResNet đề xuất phương pháp học phần dư (residual
learning) cho phép huấn luyện hiệu quả các mạng
sâu hơn rất nhiều so với các mạng xuất hiện trước
Trang 111• Vô địch tác vụ phân loại ILSVRC’15
(3.57% top 5 error, trong khi sai số của con
Trang 112• Điều gì xảy ra khi chúng ta tăng độ sâu mạng nơ-ron?
• Mạng 56 lớp làm việc kém hơn cả trên tập huấn luyện lẫn
tập test (không phải do overfitting gây ra)
• Hiện tượng suy biến của các mạng sâu
Trang 113• Giả thiết: Vấn đề ở chỗ bài toán tối ưu Mạng rất sâu sẽ khó
hơn để tối ưu
• Giải pháp: Dùng các lớp mạng để học biểu diễn phần dư (sự
sai khác giữa đầu ra và đầu vào) thay vì học trực tiếp đầu ra
Trang 114• Kiến trúc ResNet đầy đủ:
• Chồng các khối phần dư residual
blocks
• Mỗi khối có hai lớp 3x3 conv
• Định kỳ tăng gấp đôi số lượng filter
và giảm độ phân giải bằng conv bước
Trang 116Recent SOTA
Trang 117Recent SOTA
46
Trang 118Accuracy comparison
The best CNN architecture that we currently have and is a
great innovation for the idea of residual learning
Trang 119Tài liệu tham khảo
1 Khóa học Intro to DL của MIT:
http://introtodeeplearning.com/
2 Khóa học cs231n của Stanford:
http://cs231n.stanford.edu/
48
Trang 1204
Chương : Huấn luyện mạng nơ-ron
(Phần 1)
Trang 122Hàm kích hoạt
Trang 123Hàm kích hoạt
5
Trang 124Hàm kích hoạt
• Nhận giá trị trong khoảng[0,1]
• Được dùng phổ biếntrong lịch sử mạng nơ-ron do chúng mô phỏngtốt tỉ lệ bắn xung (firing rate) của nơ-ron
• Có 3 nhược điểm:
- Nơ-ron bão hòa triệt tiêugradient
Trang 125Hàm kích hoạt
• Điều gì sẽ xảy ra khi x = -10?
• Điều gì sẽ xảy ra khi x = 0?
• Điều gì sẽ xảy ra khi x = 10?
7
Trang 126Hàm kích hoạt
• Nhận giá trị trong khoảng[0,1]
• Được dùng phổ biếntrong lịch sử mạng nơ-ron do chúng mô phỏngtốt tỉ lệ bắn xung (firing rate) của nơ-ron
• Có 3 nhược điểm:
- Nơ-ron bão hòa triệt tiêugradient
- Trung bình đầu ra khác 0
Trang 127Hàm kích hoạt
• Điều gì xảy ra nếu tất cả đầu
• Khi đó gradient của hàm mục
tiêu đối với w sẽ ra sao?
• Tất cả các phần tử của w đều
cùng dấu với f’(w), tức là cùng
âm hoặc cùng dương
• Khi đó gradient chỉ có thể
hướng theo một số chiều nhất
định trong không gian tìm kiếm
9