Bài Giảng Deep Learning - Học Sâu Và Ứng Dụng ( Combo Full Slides 12 Chương )

CHƯƠNG 1 GIỚI THIỆU VỀ DEEP LEARNING CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG NƠ-RON CHƯƠNG 3 GIỚI THIỆU VỀ MẠNG TÍCH CHẬP CONV NEURAL NETWORKS CHƯƠNG 4 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 1) CHƯƠNG 5 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 2) CHƯƠNG 6 PHẦN CỨNG VÀ PHẦN MỀM CHO HỌC SÂU CHƯƠNG 7 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 1) CHƯƠNG 8 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 2) CHƯƠNG 9 MẠNG HỒI QUY CHƯƠNG 10 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 1) CHƯƠNG 11 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 2) CHƯƠNG 12 MÔ HÌNH SINH DỮ LIỆU

Trang 1

BÀI GIẢNG DEEP LEARNING HỌC SÂU VÀ ỨNG DỤNG

2

Trang 2

KẾT CẤU BÀI GIẢNG

CHƯƠNG 1 GIỚI THIỆU VỀ DEEP LEARNING

CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG NƠ-RON

CHƯƠNG 3 GIỚI THIỆU VỀ MẠNG TÍCH CHẬP CONV NEURAL NETWORKS

CHƯƠNG 4 HUẤN LUYỆN MẠNG NƠ-RON (PHẦN 1)

CHƯƠNG 6 PHẦN CỨNG VÀ PHẦN MỀM CHO HỌC SÂU

CHƯƠNG 7 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG THỊ GIÁC MÁY (PHẦN 1)

CHƯƠNG 9 MẠNG HỒI QUY

Trang 3

KẾT CẤU BÀI GIẢNG

CHƯƠNG 1 GIỚI THIỆU VỀ DEEP LEARNING

CHƯƠNG 2 GIỚI THIỆU VỀ MẠNG NƠ-RON

CHƯƠNG 3 GIỚI THIỆU VỀ MẠNG TÍCH CHẬP CONV NEURAL NETWORKS

CHƯƠNG 6 PHẦN CỨNG VÀ PHẦN MỀM CHO HỌC SÂU

CHƯƠNG 9 MẠNG HỒI QUY

CHƯƠNG 10 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 1) CHƯƠNG 11 MỘT SỐ ỨNG DỤNG HỌC SÂU TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (PHẦN 2) CHƯƠNG 12 MÔ HÌNH SINH DỮ LIỆU

2

Trang 4

Chương 1:

Giới thiệu về học sâu

Trang 5

Thế nào là học sâu?

• Là phương pháp học máy sử dụng mạng nơ-ron nhântạo để trích xuất đặc trưng tự động từ dữ liệu

3

Trang 6

Tại sao cần học sâu?

• Phương pháp học máy truyền thống đòi hỏi trích xuấtđặc trưng một cách thủ công, đòi hỏi kinh nghiệm vàphụ thuộc từng bài toán cụ thể

• Học sâu cho phép trích chọn đặc trưng tự động từ dữliệu

Trang 7

Tại sao giờ mới bùng nổ học sâu?

5

Trang 8

Học máy có giám sát

Trang 9

Tập huấn luyện và tập kiểm tra

7

Training set

(observed)

Universal set (unobserved)

Testing set (unobserved)

Trang 10

Hiện tượng overfit và underfit

• Underfitting: mô hình quá “đơn giản” để biểu diễn các

tính chất của dữ liệu

• Bias cao và variance thấp

• Sai số cao trên tập huấn luyện và tập kiểm tra

• Overfitting: mô hình quá “phức tạp” dẫn tới học cả

nhiễu trong dữ liệu

• Bias thấp và variance cao

• Sai số thấp trên tập huấn luyện và sai số cao trên tập kiểm tra

Trang 11

Minh họa Bias-Variance

9

Trang 12

Phân lớp tuyến tính

Trang 13

Phân lớp tuyến tính

11

Trang 14

Phân lớp tuyến tính: 3 góc nhìn

Trang 15

Hàm mục tiêu

13

Trang 16

Hàm mục tiêu

Trang 17

Hiệu chỉnh

15

Trang 18

Bộ phân loại softmax

Trang 19

Hồi quy tuyến tính

¡ 𝑓 𝑥; 𝑤 = 𝑤! + ∑"#$% 𝑤"𝑥" = 𝑤&𝑥′

17

Trang 20

Hồi quy tuyến tính

• Nên chọn hàm mục tiêu nào?

Trang 21

Tối ưu hàm mục tiêu

19

Trang 22

Gradient Descent

Trang 23

Gradient Descent

21

Trang 24

Gradient Descent

• Chọn tốc độ học learning rate 𝜂

• Khởi tạo 𝑤 ngẫu nhiên

• Khởi tạo 𝑤 từ các phân bố thường gặp như phân bố đều hoặc phân bố chuẩn (gauss)

• Chừng nào 𝑤 vẫn chưa hội tụ

• Cập nhật 𝑤 ← 𝑤 − 𝜂∇𝐽 𝑤; 𝐗, 𝐘

Trang 25

Stochastic Gradient Descent (SGD)

23

Trang 26

Giới thiệu công cụ và môi trường

• Google Colab: https://colab.research.google.com/

• Miễn phí GPU (Tesla T4/P100)

• Dùng liên tục 10 tiếng mỗi session

Trang 27

Google Colab

• Thiết lập GPU: Edit / Notebook settings

25

Trang 29

Google Colab

• Tạo nhiều tài khoản google

• Share dữ liệu cho nhiều tài khoản google cùng dùng

Trang 30

Jupyter Notebook

• Hướng dẫn sử dụng và cài đặt:

https://www.dataquest.io/blog/jupyter-notebook-tutorial/

Trang 31

29

Trang 32

Tensorflow/Keras/PyTorch

Trang 33

Tài liệu tham khảo

1 Khóa cs231n của Stanford: http://cs231n.stanford.edu

31

Trang 34

Thank you for

your attention!

Trang 35

Bias trick

• Before: f(xi,W,b)=Wxi+b

• After: f(xi,W)=Wxi

33

Trang 36

SVM vs Softmax

Trang 37

Chương 2

Giới thiệu về mạng nơ-ron

2

Trang 38

Mạng nơ-ron và bộ não

• Mạng nơ-ron mô phỏng cấu trúc kết nối của não người

• Não người tạo bởi nhiều nơ-ron liên kết với nhau

Trang 39

• Bắn xung “fire” nếu tổng có trọng số của các đầu vào

với “bias” T không âm

4

Trang 40

Perceptron mềm (logistic)

• Sử dụng một hàm khả vi thay cho hàm xung

• Hàm kích hoạt sigmoid được dùng để xấp xỉ hàm xung

• Hàm kích hoạt là hàm tác động lên tổng có trọng số

Trang 41

Perceptron mềm (logistic)

6

Trang 42

Một số hàm kích hoạt thường gặp

• ReLU là lựa chọn mặc định tốt cho nhiều bài toán

Trang 43

Tầm quan trọng của hàm kích hoạt

• Mục đích sử dụng hàm kích hoạt là đưa các lớp phi tuyếnvào mạng nơ-ron

8

Hàm kích hoạt tuyến tính luôn

sinh ra đường phân cách

tuyến tính bất kể mạng có lớn

cỡ nào

Các lớp phi tuyến cho phép chúng ta xấp xỉ các hàm phức tạp

Trang 44

Perceptron đơn giản hóa

Trang 45

Perceptron đơn giản hóa

10

Trang 46

Perceptron nhiều đầu ra

Trang 47

Mạng nơ-ron một lớp ẩn

12

Trang 48

Mạng nơ-ron một lớp ẩn

Trang 49

Mạng nơ-ron nhiều lớp

14

Trang 51

Định lý xấp xỉ tổng quát

• Theorem (Universal Function Approximators) Một

mạng nơ-ron từ hai lớp trở lên với số lượng nơ-ron đủlớn có thể xấp xỉ bất kỳ hàm liên tục nào với độ chínhxác tùy ý

16

Trang 52

Universal Function Approximation Theorem*

• In words: Given any continuous function f(x), if a 2-layer

neural network has enough hidden units, then there is a

choice of weights that allow it to closely approximate f(x)

Trang 53

Tại sao cần mạng nhiều lớp?

• Mạng nơ-ron nhiều lớp (thậm chí chỉ cần duy nhất một lớp ẩn!) là hàm xấp xỉ tổng quát

• Mạng nơ-ron có thể biểu diễn hàm bất kỳ nếu nó đủ rộng (số nơ-ron trong một lớp đủ nhiều), đủ sâu (số lớp đủ lớn).

• Nếu muốn giảm độ sâu của mạng trong nhiều trường hợp sẽ phải bù lại bằng cách tăng chiều rộng lên lũy thừa lần!

• Mạng nơ-ron một lớp ẩn có thể cần tới số lượng nơ-ron cao gấp lũy thừa lần so với một mạng nhiều tầng

• Mạng nhiều lớp cần số lượng nơ-ron ít hơn rất nhiều so với các mạng nông (shallow networks) để cùng biểu diễn một hàm số giống nhau

18

Trang 54

Cực tiểu hóa hàm mục tiêu

• Tìm trọng số của mạng để hàm mục tiêu đạt giá trị cựctiểu

Trang 55

Cực tiểu hóa hàm mục tiêu

• Thuật toán Gradient Descent

20

Trang 56

Giải thuật lan truyền ngược

• Đánh giá sự thay đổi nhỏ ở một trọng số nào đó ảnhhưởng như thế nào tới hàm mục tiêu của mạng?

Trang 57

22

Trang 58

Trang 59

24

Trang 60

Trang 61

• Lặp lại cách ước lượng này cho tất cả các trọng số

trọng mạng dựa trên gradients đã tính ở các lớp trước

26

Trang 62

• Giả sử có sự thay đổi nhỏ ∆𝑤!"# giá trị của trọng số 𝑤!"#

ở lớp thứ 𝑙

Trang 63

• Sự thay đổi sẽ ảnh hưởng tới giá trị đầu ra của hàm

kích hoạt nơ-ron tương ứng

28

Trang 64

• Và sau đó sẽ làm thay đổi giá trị đầu ra của tất cả cáchàm kích hoạt ở các lớp ngay phía sau

Trang 65

• Sự thay đổi sẽ lan truyền tiếp tới các lớp sau nữa vàcuối cùng sẽ ảnh hưởng tới hàm mục tiêu, gây ra mộtlượng thay đổi ∆𝐶

30

Trang 66

• Như vậy có thể tính đạo hàm riêng của hàm mục tiêuđối với trọng số 𝑤!"# bằng cách theo dõi xem sự thayđổi của trọng số ∆𝑤!"# từng bước ảnh hưởng đến sự

thay đổi của hàm mục tiêu ra sao

• Đầu tiên ∆𝑤!"# làm thay đổi hàm kích hoạt của nơ-rontương ứng một lượng ∆𝑎!#

Trang 67

• Sự thay đổi của hàm kích hoạt 𝑎!# tiếp tục ảnh hưởngtới các hàm kích hoạt ở lớp kế tiếp

32

Trang 68

• Sự thay đổi ∆𝑎$#%& tiếp tục ảnh hưởng các hàm kích

hoạt phía sau và lan tới hàm mục tiêu

• Ta có thể tưởng tượng ra một đường đi trong mạng từ

𝑤!"# tới hàm mục tiêu 𝐶, theo đó sự thay đổi ∆𝑤!"# sẽ

dần dần ảnh hưởng tới các hàm kích hoạt trong đường

đi và lan tới 𝐶 Giả sử đường đi chứa các hàm kích

hoạt 𝑎!#, 𝑎$#%&, … , 𝑎'()&, 𝑎*( (𝐿 là số lớp của mạng) Khi đó

ta có công thức:

Trang 69

• Sự thay đổi ∆𝑎!"#$ tiếp tục ảnh hưởng các hàm kích hoạt phía sau

và lan tới hàm mục tiêu

• Ta có thể tưởng tượng ra một đường đi trong mạng từ 𝑤%&" tới hàm mục tiêu 𝐶, theo đó sự thay đổi ∆𝑤%&" sẽ dần dần ảnh hưởng tới các hàm kích hoạt trong đường đi và lan tới 𝐶 Giả sử đường đi chứa các hàm kích hoạt 𝑎%", 𝑎!"#$, … , 𝑎'()$, 𝑎*( (𝐿 là số lớp của

mạng) Khi đó ta có công thức:

• Hiển nhiên có nhiều đường đi như vậy Hàm mục tiêu sẽ bị thay đổi theo tất cả các đường đi:

34

Trang 70

• Cuối cùng ta thu được công thức:

Trang 71

36

Trang 72

1 Khóa học Intro to DL của MIT:

http://introtodeeplearning.com/

2 Online book “Neural Networks and Deep Learning”:

http://neuralnetworksanddeeplearning.com/

Trang 73

Chương 3 Giới thiệu về mạng tích chập

Conv Neural Networks

2

Trang 74

Lịch sử CNNs

• Ý tưởng CNNs xuất phát đầu tiên từ công trình của Fukushima năm 1980

Trang 75

Lịch sử CNNs

• Năm 1998, LeCun áp dụng BackProp huấn luyện mạng CNNs cho bài toán nhận dạng văn bản

4

Trang 76

Lịch sử CNNs

• Năm 2012, CNNs gây tiếng vang lớn khi vô địch cuộc thi ILSRC 2012, vượt xa phương pháp đứng thứ 2 theo

Trang 77

Lịch sử CNNs

• Hiện nay CNNs ứng dụng khắp nơi, ví dụ trong bài toán phân loại ảnh, truy vấn ảnh

6

Trang 78

Lịch sử CNNs

• Ứng dụng CNNs trong bài toán phát hiện đối tượng,

Trang 79

Lịch sử CNNs

• Ứng dụng CNNs trong nhận dạng dáng người

(human pose), trong trò chơi…

8

Trang 80

bản đồ kích hoạt (activation map)

• Chiều sâu của nơ-ron tích chập bằng chiều sâu của khối

dữ liệu đầu vào

Trang 81

Lớp tích chập

…

• Bước nhảy stride = 1

• Đầu vào kích thước 7x7, nơ-ron kích thước 3x3

• Đầu ra kích thước 5x5

10

Trang 82

Lớp tích chập

• Bước nhảy stride = 2

• Đầu vào kích thước 7x7, nơ-ron kích thước 3x3

Trang 83

Lớp tích chập

12

Trang 84

Lớp tích chập

• Để bảo toàn kích thước

thường thêm viền bởi các

Trang 87

• Mạng nơ-ron tích chập là một dãy các lớp tích chập nối liên tiếp nhau xen kẽ bởi các hàm kích hoạt (ví

dụ ReLU)

16

Trang 88

Lớp gộp (pooling layer)

• Giúp giảm độ phân giải của khối dữ liệu để giảm bộ nhớ

và khối lượng tính toán

• Hoạt động độc lập trên từng bản đồ kích hoạt

• Lớp gộp max pooling giúp mạng biểu diễn bất biến đối với các thay đổi tịnh tiến (translation invariance) hoặc biến dạng (deformation invariance) của dữ liệu đầu vào

Trang 89

Lớp gộp max pooling

18

Trang 90

CNNs

Trang 93

• ImageNet Classification with Deep Convolutional

Neural Networks - Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton; 2012

• Một trong những mạng CNNs lớn nhất tại thời điểm đó

• Có 60M tham số số so với 60k tham số LeNet-5

[Krizhevsky et al., 2012]

22

Trang 94

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) winners

• “Olympics” thường niên về lĩnh vực thị giác máy tính.

• Các teams khắp thế giới thi đấu với nhau để xem ai

là người có mô hình CV tốt nhất cho các bài toán như phân loại ảnh, định vị và phát hiện đối tượng trong ảnh

Trang 96

.

4096 4096

Softmax 1000

Trang 97

Slide taken from Fei-Fei & Justin Johnson & Serena Yeung Lecture 9 26

Trang 98

Trang 99

• Very Deep Convolutional Networks For Large Scale Image Recognition - Karen Simonyan and Andrew Zisserman; 2015

• Á quân tại cuộc thi ILSVRC 2014

• Sâu hơn rất nhiều so với AlexNet

• 140 triệu tham số

Trang 100

• Nơ-ron kích thước bé Chỉ dùng conv 3x3, stride 1, pad 1

và 2x2 MAX POOL , stride 2

• Mạng sâu hơn AlexNet: 8 lớp VGGNet: 16 - 19 lớp

• ZFNet: 11.7% top 5 error in ILSVRC’13

• VGGNet: 7.3% top 5 error in ILSVRC’14

Trang 101

• Tại sao dùng filter bé? (3x3 conv)

• Chồng 3 lớp 3x3 conv (stride 1) có cùng hiệu quả

thu nhận thông tin như một lớp 7x7 conv.

• Nhưng sâu hơn, nhiều lớp phi tuyến hơn

kênh của mỗi lớp

Trang 102

Input memory: 224*224*3=150K params: 0

3x3 conv, 64 memory: 224*224*64=3.2M params: (3*3*3)*64 = 1,728

3x3 conv, 256 memory: 56*56*256=800K params: (3*3*128)*256 = 294,912 3x3 conv, 256 memory: 56*56*256=800K params: (3*3*256)*256 = 589,824 3x3 conv, 256 memory: 56*56*256=800K params: (3*3*256)*256 = 589,824

3x3 conv, 512 memory: 28*28*512=400K params: (3*3*256)*512 = 1,179,648 3x3 conv, 512 memory: 28*28*512=400K params: (3*3*512)*512 = 2,359,296 3x3 conv, 512 memory: 28*28*512=400K params: (3*3*512)*512 = 2,359,296

3x3 conv, 512 memory: 14*14*512=100K params: (3*3*512)*512 = 2,359,296 3x3 conv, 512 memory: 14*14*512=100K params: (3*3*512)*512 = 2,359,296 3x3 conv, 512 memory: 14*14*512=100K params: (3*3*512)*512 = 2,359,296

Trang 103

Trang 104

• Going Deeper with Convolutions - Christian

Szegedy et al.; 2015

• Vô địch ILSVRC 2014

• Sâu hơn nhiều so với AlexNet

• Số tham số ít hơn 12 lần so với AlexNet

• Tập trung vào giảm độ phức tạp tính toán

Trang 105

• Vô địch tác vụ phân loại ảnh

ILSVRC’14 (6.7% top 5 error)

[Szegedy et al., 2014]

34

Trang 106

GoogleNet - Nạve Inception Model

Previous layer

1x1 conv 128 3x3 conv 192 5x5 conv 96 3x3 max pooling

Trang 107

• Giải pháp: lớp nút cổ chai “bottleneck” sử dụng

conv 1x1 để giảm chiều sâu khối dữ liệu.

Filter concatenation

Previous layer

1x1

convolution

3x3 convolution convolution 5x5 convolution 1x1

1x1 convolution convolution 1x1 3x3 max pooling

[Szegedy et al., 2014]

36

Trang 108

Filter concatenation

Previous layer

1x1 conv 128 3x3 conv 192 5x5 conv 96 1x1 conv 64

1x1 conv 64 1x1 conv 64 3x3 max pooling

Trang 109

Trang 110

• Deep Residual Learning for Image Recognition

-Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian

Sun; 2015

• Mạng rất sâu, tới 152 lớp

• Mạng càng sâu càng khó huấn luyện.

• Mạng càng sâu càng chịu nhiều ảnh hưởng của vấn

đề triệt tiêu và bùng nổ gradient.

• ResNet đề xuất phương pháp học phần dư (residual

learning) cho phép huấn luyện hiệu quả các mạng

sâu hơn rất nhiều so với các mạng xuất hiện trước

Trang 111

• Vô địch tác vụ phân loại ILSVRC’15

(3.57% top 5 error, trong khi sai số của con

Trang 112

• Điều gì xảy ra khi chúng ta tăng độ sâu mạng nơ-ron?

• Mạng 56 lớp làm việc kém hơn cả trên tập huấn luyện lẫn

tập test (không phải do overfitting gây ra)

• Hiện tượng suy biến của các mạng sâu

Trang 113

• Giả thiết: Vấn đề ở chỗ bài toán tối ưu Mạng rất sâu sẽ khó

hơn để tối ưu

• Giải pháp: Dùng các lớp mạng để học biểu diễn phần dư (sự

sai khác giữa đầu ra và đầu vào) thay vì học trực tiếp đầu ra

Trang 114

• Kiến trúc ResNet đầy đủ:

• Chồng các khối phần dư residual

blocks

• Mỗi khối có hai lớp 3x3 conv

• Định kỳ tăng gấp đôi số lượng filter

và giảm độ phân giải bằng conv bước

Trang 116

Recent SOTA

Trang 117

Recent SOTA

46

Trang 118

Accuracy comparison

The best CNN architecture that we currently have and is a

great innovation for the idea of residual learning

Trang 119

1 Khóa học Intro to DL của MIT:

http://introtodeeplearning.com/

2 Khóa học cs231n của Stanford:

http://cs231n.stanford.edu/

48

Trang 120

4

Chương : Huấn luyện mạng nơ-ron

(Phần 1)

Trang 122

Hàm kích hoạt

Trang 123

Hàm kích hoạt

5

Trang 124

Hàm kích hoạt

• Nhận giá trị trong khoảng[0,1]

• Được dùng phổ biếntrong lịch sử mạng nơ-ron do chúng mô phỏngtốt tỉ lệ bắn xung (firing rate) của nơ-ron

• Có 3 nhược điểm:

- Nơ-ron bão hòa triệt tiêugradient

Trang 125

Hàm kích hoạt

• Điều gì sẽ xảy ra khi x = -10?

• Điều gì sẽ xảy ra khi x = 0?

• Điều gì sẽ xảy ra khi x = 10?

7

Trang 126

Hàm kích hoạt

• Nhận giá trị trong khoảng[0,1]

• Được dùng phổ biếntrong lịch sử mạng nơ-ron do chúng mô phỏngtốt tỉ lệ bắn xung (firing rate) của nơ-ron

• Có 3 nhược điểm:

- Nơ-ron bão hòa triệt tiêugradient

- Trung bình đầu ra khác 0

Trang 127

Hàm kích hoạt

• Điều gì xảy ra nếu tất cả đầu

• Khi đó gradient của hàm mục

tiêu đối với w sẽ ra sao?

• Tất cả các phần tử của w đều

cùng dấu với f’(w), tức là cùng

âm hoặc cùng dương

• Khi đó gradient chỉ có thể

hướng theo một số chiều nhất

định trong không gian tìm kiếm

9

Định dạng
Số trang	625
Dung lượng	48,49 MB