1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Deep learning, mạng nơ ron nhân tạo nhiều lớp MLP và bài toán nhận dạng hình ảnh mạng nơ ron tích chập (convolution neural network CNN)

89 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 89
Dung lượng 6,55 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cấu trúc bài báo cáo đề tài Nội dung bài đô an gồm 4 chương: Chương 1: Deep Learning, Mang Nơ-ron nhân tao nhiều lớpMLP và bài toán nhận dạng hì̀nh ảnh Chương 2: Mạng nơ-ron tí́ch ch

Trang 1

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Khoa Học cùng các thầy cô trong khoa Điện, Điện Tử va Công Nghệ Vật Liệu đã nhiệt tình giúp đỡ, giảng dạya vmang đến cho em những điều bổ ích về̀ các môn đại cương cũng như các môn chuyên ngành, giú́p em có được nề̀n tảng

cơ sở lý thuyế́t vững chắc và kiế́n thức cần thiế́t để có thể thực hiện bài đồ án tốt nghiệp va xa hơn la co đươc hướng đi tôt trong tương lai

Tiế́p theo đó, em xin chân thành cảm ơn các bạn trong lớ́p Điện tử - Viễnthông K40, gia đình va nhữ̃ng người đã luôn đông hanh, khích lệ, giúp đỡ vađộng viên em trong suôt thơi gian vừa qua

Đặc biệt nhất, em xin gửi lời cám ơn chân thanh đế́n Thạc sĩ VươngQuang Phướ́c, giảng viên Bộ môn Kỹ thuật Viễn thông - trường Đại học KhoaHọc, người đã hướ́ng dẫn, cung cấp tài liệu, động viên và chỉ bảo nhiệt tì̀nh để

em có thể hoàn thành bài đồ án tốt nghiệp này

Trong suốt quá trì̀nh thực hiện đồ án, chắ́c chắ́n sẽ không tránh khỏinhữ̃ng sai sót Em rất mong nhận được sự đóng góp từ̀ các thầy, cô để có thểhoàn thiện hơn bài đồ án tốt nghiệp này Em xin chân thành cám ơn!

Sinh viên thực hiện

Nguyên Trí Định

Trang 2

MỤC LỤC

LỜI CẢM ƠN .i

MỤC LỤC ii

DANH MỤC HÌNH Ả̉NH iv

DANH MỤC BẢ̉NG BIỂU vi

DANH MỤC CÁC CHỮ VIẾT TẮT .vii

MỞ ĐẦU .1

CHƯƠNG 1 DEEP LEARNING, MẠNG NƠ-RON NHÂN TẠO NHIỀU LỚP MLP VÀ BÀI TOÁN NHẬN DẠ̣NG HÌNH Ả̉NH .3

1.1 Giớ́i thiệu chương 1 .3

1.2 Deep learning .3

1.3 Mang nơ-ron nhân tao .5

1.3.1 Perceptron .6

1.3.2 Sigmoid .8

1.3.3 Mang nơ-ron nhân tao nhiều lớp MLP .1

1.3.4 Bai toan nhận dang hình anh .2

1.4 Kết luận chương 1 .4

CHƯƠNG 2 LÝ THUYÊT CƠ BẢN VỀ MẠNG NƠ-RON TÍCH CHẬP CNN VA CAC THAM SỐ LIÊN QUAN .5

2.1 Giớ́i thiệu chương 2 .5

2.2 Mang nơ-ron tích chập .5

2.3 Lớ́p tí́ch chập .6

2.3.1 Phép tích chập .6

2.3.2 Vung tiếp nhận cục b ộ .7

Trang 3

2.9 Kế́t luận chương 2 16

CHƯƠNG 3 SO SANH MÔ HÌNH MLP VỚI CNN VA KHẢO SAT SỰ ẢNH HƯƠNG CỦA CAC THAM SỐ 17

3.1 Giớ́i thiệu chương 3 17

3.2 Cơ sở dữ̃ liệu, so sanh mô hì̀nh 17

3.2.1 Cơ sở dữ̃ liệu 17

3.2.2 So sanh mô hình MLP va CNN 18

3.3 Đanh gia anh hương của cac tham sô 21

3.3.1 Lớp tí́ch chập 21

3.3.2 Ham kích hoat: 26

3.3.3 Pooling: 27

3.3.4 Dropout 28

3.3.5 Tỉ lệ học 30

3.3.6 Kết luận: 31

3.4 Kết luận chương 3 32

CHƯƠNG 4 SỬ DUNG MÔ HINH CNN TỐI ƯU CHO VIỆC PHÂN LOẠ I CỦ QUẢ 33

4.1 Giớ́i thiệu chương 4 33

4.2 Cơ sơ dữ liệu 33

4.3 Khao sat với mang Lenet 37

4.4 Khao sat với mô hình CNN tôi ưu: 39

4.5 Mơ rộng cơ ơs dữ liệu 43

4.6 Kế́t luận chương 4 48

KẾT LUẬN VÀ HƯỚ́NG PHÁT TRIỂN 49

TÀI LIỆU THAM KHẢ̉O 51

PHỤ LỤC 54

Trang 4

DANH MỤC HÌNH Ả̉NH

Hình 1.1 Mối quan hệ giữ̃a AI/Machine Learning/Deep Learning [2] 4

Hình 1.2 Sơ đồ mô tả cách mạng nơ-ron hoạt động [3] 6

Hình 1.3 Một mạng nơ-ron nhân tạo cơ bản 7

Hình 1.4 Cấu trú́c củ̉a một perceptron vớ́i 5 đầu vào 8

Hình 1.5 Mạng nơ-ron tí́ch chập [5] 10

Hình 1.6 Thuật toán Gradient descent 14

Hình 1.7 Thuật toán SGD vớ́i động lượng (Stochastic gradient descent with momentum) [9] 15

Hình 1.8 Hì̀nh ảnh dướ́i góc nhì̀n củ̉a máy tí́nh [13] 19

Hình 2.1 Nơ-ron ở lớ́p ẩn kế́t nối vớ́i vùng tiế́p nhận cụ̣c bộ .21

Hình 2.2 Quá trì̀nh trượt củ̉a vùng tiế́p nhận cụ̣c bộ theo chiề̀u ngang và chiề̀u dọc 22

Hình 2.3 Quá trì̀nh hì̀nh thành lớ́p ẩn sau khi trượt vùng tiế́p nhận cụ̣c bộ 22

Hình 2.4 Giá trị̣ stride bằng 1 (a) và stride bằng 2 (b) 23

Hình 2.5 Lớ́p ẩn giữ̃ nguyên kí́ch thướ́c lớ́p ngõ̃ vào khi được thêm zero padding 24

Hình 2.6 Lớ́p ngõ̃ vào (a), bộ lọc (b) và bản đồ đặc tí́nh (c) 26

Hình 2.7 Đồ thị̣ hàm ReLu 27

Hình 2.8 Lớ́p ngõ̃ vào (a) và lớ́p ngõ̃ ra sau khi áp dụ̣ng lớ́p pooling (b) 28

Hình 2.9 Mạng nơ-ron sau khi được áp dụ̣ng Dropout [16] 29

Hình 3.1 Hì̀nh ảnh chữ̃ số viế́t tay từ̀ tập MNIST [17] 32

Trang 6

Hình 3.9 Khảo sát mạng CNN vớ́i tỉ lệ học khác nhau. 43

Hình 3.10 Kế́t quả mạng CNN khi tăng số khối tí́ch chập. 44

Hình 3.11 Kế́t quả mạng CNN khi tăng số lượng bản đồ đặc tí́nh. 44

Hình 3.12 Kế́t quả mạng CNN khi thay đổ̉i giá trị̣ Dropout. 45

Hình 3.13 Sơ đồ biểu diễn kí́ch thướ́c củ̉a bộ lọc ảnh hưởng tớ́i mô hì̀nh. 47

Hình 3.14 Sơ đồ thể hiện kí́ch thướ́c củ̉a các bướ́c trượt ảnh hưởng tớ́i mô hì̀nh mạng. 48

Hình 3.15 Sơ đồ thể hiện các loại lấy mẫu xuống ảnh hưởng tớ́i mô hì̀nh mạng. 49

Hình 3.16 Sơ đồ khối mô hì̀nh CNN sử dụ̣ng để đánh giá. 50

Hình 3.17 Tỉ lệ mất mát củ̉a các thuật toán tối ưu trên tập dữ̃ liệu MNIST 51

Hình 3.18 Tỉ lệ nhận dạng đú́ng củ̉a các thuật toán trên tập huấn luyện và tập đánh giá. 52

Hình 3.19 Tỉ lệ mất mát củ̉a các thuật toán tối ưu trên tập dữ̃ liệu CIFAR-10 53

Hình 3.20 Tỉ lệ nhận dạng đú́ng củ̉a các thuật toán trên tập huấn luyện và tập đánh giá. 53

Hình 4.1 Chế́ độ xem các project (dự án). 56

Hình 4.2 Các mo-đun dự án củ̉a hệ thống. 57

Hình 4.3 Bộ mô phỏng cho các loại thiế́t bị̣ 59

Hình 4.4 Mô hì̀nh mạng CNN sử dụ̣ng để phát triển lên ứng dụ̣ng 61

Hình 4.5 Tham số weight ở mô hì̀nh tensorflow. 64

Hình 4.6 Tham số weight ở mô hì̀nh tensorflow lite. 64

Hình 4.7 Mô hì̀nh CNN vớ́i đị̣nh dạng tensorflow 65

Hình 4.8 Mô hì̀nh CNN vớ́i đị̣nh dạng tensorflow lite 65

Hình 4.9 Giao diện củ̉a ứng dụ̣ng nhận dạng chữ̃ số viế́t tay. 66

Trang 7

Bang 3.2 Kế́t quả mạng CNN khi thay đổ̉i kí́ch thướ́c gói con. 46

Bang 4.1 Chuyển đổ̉i đị̣nh dạng h5 thành tflite. 63

Bang 4.2 Xây dựng mô hì̀nh MLP để tiế́n hành đánh giá bằng ngôn ngữ̃

Trang 8

DANH MỤC CÁC CHỮ VIẾT TẮT

Network

tí́nh

dốc

Trang 9

Xây dưng mô hình thích hơp dưa trên những đanh gia trên đê ap dụng vao bai toan phân loai củ qua.

Trong qua trình thưc hiện đô an, em đa hoc hoi va rèn luyện đươc một sôkiến thưc va ky năng như:

Nâng cao ky năng lập trình với ngôn ngữ Python, mô phong trên google colab

Phat triên ky năng bao cao nhom, lam việc nhom

Nâng cao ky năng đoc tai liệu khoa hoc, tai liệu tiếng anh

Bộ cơ sở dữ̃ liệu CIFAR10 vớ́i 60000 hì̀nh ảnh màu gồm: máy bay, ô tô,chim, mè̀o, hươu, chó, ế́ch, ngựa, tàu và xe tải có kí́ch thướ́c 32x32 pixel

Bộ cơ ơs dữ liệu Fruit-360 với 30080anh mau thuộc 48 lớp với 22783anh huân luyện av 7297 anh kiêm tra, kích thước mỗi anh la 100x100 pixel

Deep Learning(Mang MLP va CNN – Cac thông sô, câu trúc mang)

Ngôn ngữ lập trình Python ( Thư viện Keras, numpy, matplotlib…)

Ngôn ngữ̃ lập trì̀nh Python

1

Trang 10

4 Phương pháp đanh gia

Nghiên cưu ly thuyết, đánh giá thông qua mô phong thưc nhiệm bằng Google Colaboratory (Google Colab)

Qua trình thưc hiện ômg cac bước:

Chuân bị cơ sơ dữ liệu

Xây dưng mô hình mang

Chon phương phap đanh gia, ham kích hoat, ham tôi ưu va ham tổn hao

Huân luyện mô hình đê tôi ưu cac thông sô weight va bias

Đanh gia mô hình va dư đoan với dữ liệu mới

5 Cấu trúc bài báo cáo đề tài

Nội dung bài đô an gồm 4 chương:

Chương 1: Deep Learning, Mang Nơ-ron nhân tao nhiều lớpMLP và bài toán nhận dạng hì̀nh ảnh

Chương 2: Mạng nơ-ron tí́ch chập (Convolution neural network - CNN)

Chương 3: So sanh mô hì̀nh MLP với CNN va khao sat đanhgia cac thông sô đê xây dưng mô hình

Trang 11

DEEP LEARNING, MẠNG NƠ-RON NHÂN TẠO NHIỀU LỚP

MLP VÀ BÀI TOÁN NHẬN DẠ̣NG HÌNH Ả̉NH Giới thiệu chương 1

Deep Learning la một yk thuật huân luyện đang đươc nghiên cưu cungnhư ưng dụng rộng ai,r va bai toan nhận dang hình anh la môt trong nhữngvân đề đươc quan tâm hang đâu Chương 1 sẽ giớ́i thiệu tổ̉ng quan về̀ DeepLearning, cach thưc câu thanh mang nơ-ron, va phương pháp học, đặc điểmbài toán nhận dạng

Deep learning

Thuật ngữ AI Artificial( Intelligence) hay còn goi là trí́ thông minh nhântạo được nghiên cứu và biế́t đế́n vào nhữ̃ng năm 1956, AI dung đê chinhững cổ may đươc chế tao phưc tap, sơ hữu những đặc tính gân giông vớitrí thông minh của con ngươi

3

Trang 12

Machine Learning là một linh vưc con củ̉a AI, sử dụ̣ng các thuật toáncho phé́p máy tí́nh có thể học từ̀ dữ̃ liệu để đưa ra quyế́t đị̣nh, dự đoán ngõ̃

ra hay thực hiện các công việc thay vì̀ được lập trì̀nh một cách rõ̃ ràng.Machine Learning được phân thành 2 loại:

Học có giám sát (Supervised Learning) : La một yk thuật may hoc đê hoc tập từ tập dữ liệuơcđưgian nhan cho trước Nhiệm vụ của hoc co giam sat la dư đoan đâu ra mong muôn dưa vao gia trị đâu vao Hoc co giam sat đươc ap dụng chủ yếu cho 2 bai toan chính la baitoan dư đoan va bai toan phân lớp (classification problem)

Hoc không giam sat (Unsupervised Learning) : La một yk thuật của may hoc nhăm tìm ra một mô hình hay âuc trúc ân bơi tập dữ liệu không đươc gan nhan cho trước Tập dữ liệu huân luyện của hoc không giam sat không do con ngươi gan nhan, ma may tính se tư hoc hoan toan

Deep Learning la một nhanh nho của nganh Machine Learning bao gômcac thuật toan đươc xây dưng dưa trên câu trúc của nao bộ con ngươi (đươcgoi la mang neuron nhân tao), mang nơ-ron nhân tao không cân con ngươilập trình đê thưc hiện công việc, amchi cân cung câp cho may tính một thuậttoan hoc va lương lớn dữ liệu thì may tính se tư hoc đươc cach đê nhận dangmột đôi tương Khơi đâu của Deep Learning la những nghiên cưu về mangnơ-ron nhân tao ANN(Artificial Neural Network), lây cam hưng từ cac môhình nơ-ron sinh hoc Perceptron

Trang 13

giành chiế́n thắ́ng 4/5 trướ́c nhà vô đị̣ch cờ vây Tại sao Deep Learning là ngày càng thành công, trở thành công cụ̣ đắ́c lực củ̉a AI:

Cơ sở dữ̃ liệu cho việc huấn luyện ngày càng nhiề̀u

Khả năng tí́nh toán song song tốc độ cao củ̉a GPU

Nhiề̀u kĩ thuật mớ́i tăng độ chí́nh xác cho mô hì̀nh: Dropout, Batch Normalization, Data Augmentation

Nhiề̀u thư viện hỗ̃ trợ cho việc huấn luyện mạng nơ-ron nhân tạo sâu vớ́i GPU: Theano, Tensorflow, Pytorch, Keras,…

Nhiề̀u kĩ thuật tối ưu mớ́i : SGD, RMSProp, Adam,…

Sự cải tiế́n củ̉a các cấu trú́c mạng: CNN, RNN, RCNN…

Mạng nơ-ron nhân tạo

Mang nơ-ron nhân tao la một yk thuật may hoc phổ biến đươc mô phongdưa trên nơ-ron sinh hoc Bộ nao chúng ta sư dụng mang lớn cac nơ-ron liênkết với nhau đê xư ly thông tin Bên dưới la câu trúc cơ ban của một nơ-ronsinh hoc:

5

Trang 14

đi nơi khac

Perceptron

Perceptron là đơn vị̣ nhỏ cấu thành mạng nơ-ron nhân tạo Mộtperceptron sẽ nhận tí́n hiệu/dữ̃ liệu từ̀ các ngõ̃ vào, thực hiện tí́nh toán vàđưa quyế́t đị̣nh ở ngõ̃ ra Giá trị̣ ngõ̃ ra có thể là 0 hoặc 1 tương ứng vớ́i kế́tquả không hoặc có Cấu trú́c một Perceptron đơn giản được mô tả như sau:

Trang 15

Trong đó:

vào (input) so vớ́i ngõ̃ ra (output)

Nguyên ly lam việc của Perceptron dưa trên phương phap sư dụng cactrong sô đê xét va lưa chon gia trị ngõ ra Đê quyết định ngõ ra của cac nơ-ron nhân tao ngươi ta sư dụng cac ham kích hoat đê thưc hiện tính toan.Ham kích hoat đươc dừng trong Perceptron la ham bước (step function) – lamột ham tính tổng của cac trong sô nhân với ngõ vao tương ưng va so sanhvới một mưc ngưỡng (bias) đê đưa ra quyết định ngõ ra tương ưng, côngthưc:

7

Trang 16

output = 0nế u

Trong đó:

g

ư ỡ

Co thê thấy ngõ̃ ra củ̉a Perceptron phụ̣ thuộc vào tổ̉ng củ̉a các tí́ch ngõ̃vào và trọng số Đê đơn gian cho việc Perceptron quyết định ngõ ra al 0 hay

1, ta thay thế́ giá trị̣ ngưỡ̃ng bằng đại lượng bias = – b và công thưc (1) đượcviế́t lại thành:

Trang 18

Với mang nơ-ron Perceptron thì ham kích hoat la ham bước, la một hamkích hoat dưa vao ngưỡng Nếu gia trị đâu vao năm trong 1 ngưỡng xacđịnh, nơ-ron se đươc kích hoat va gưi chính dữ liệu đo qua lớp tiếp theo.Nhưng vân đề kho khăn ơ ham bước la không cho nhiều đâu ra (chi 0 hoặc 1).

Đê giai quyết đươc kho khăn nay thì Sigmoid ra đơi Về cơ ban Sigmoidcung tương tư như Perceptron(cung co cac ngõ vao x1,x2 … va bias), tuynhiên điêm khac biệtơ Sigmoid la khi co sư thay đổi nho thông sô hệ thôngthì ngõ ra se thay đổi tương ưng Khac với Perceptron chi co cac ngõ vaonhận al 0/1 thì với Sigmoid ngõ vao co thê la bât kì gia trị nao năm trongkhoang (0,1) va từ đo ngõ ra se co gia trị o = ( + ) với đươc goi la ham

Trang 19

Vớ́i z¿ ngõ̃ ra củ̉a Sigmoid neuron được viế́t lại theo các

tham số w, x và b như sau:

n o r a

1

j w

j+b)

Một ôs ham kích hoat:

Trang 21

ham đẹp nên thương hay khắc phục nhươc điêm của phưc tap tôn nhiều chi phí

- Đôi xưng qua 0 khắc phục

sư dụng công thưc đơn giannên thơi gian tính toan nhanh

sigmoid

trung tâm la 0 gây kho khăn

cho việt hội tụ

Trang 23

Mạng nơ-ron nhân tạo nhiêu lơp MLP

Mang nơ-ron nhân tao nhiều lớp MLP (Mutil Layer Perceptron) la sư kết hơp của nhiều lớp Perceptron va co câu tao như hình dưới:

Mỗ̃i mô hì̀nh mạng MLP sẽ co 3 dang:

+ Lớ́p ngõ̃ vào (Input layer): Tiếp nhận dữ liệu đưaaov mang

+ Lớp ẩn (Hidden layer): Thưc hiện tính toan cac thông sô dưa trên dữ liệu đươc đưa vao mang từ lớp ngõ vao va chuyên tiếp kết qua tới lớp ngõ ra Co thê co 1 hoặc nhiều lớpân

Trang 24

+ Lớ́p ngõ̃ ra (Output layer): Co nhiệm vụ̣ thể hiện kế́t quả đạt được từ̀ lớ́p

ẩn dựa trên các thuật toán

1.1.2 Bai toan nhận dạng hình ảnh

Hình ảnh dươi góc nhìn của con người:

Hình ảnh dươi góc nhìn của may tính:

Trang 25

Về̀ cơ bản, nhận dạng hì̀nh ảnh là quá trì̀nh trí́ch xuất các thông tin chứatrong ảnh để phân loại đối tượng trong ảnh Va dưới goc nhìn của hệ thông, dữliệu khi đưa vao mang đươc biêu diên băng ma trận (matrix) ôs liệu hay tổngquat la ma trận nhiều chiều (tensor)

Một hì̀nh ảnh bất kì̀ đề̀u được biểu diễn dướ́i dạng một ma trận 3 chiề̀u cókí́ch thướ́c H x W x D trong đó H x W là chiề̀u dài và rộng củ̉a ảnh, D là sốlượng kênh củ̉a ảnh (thể hiện chiề̀u sâu củ̉a ảnh) Với cac anh xam, sô lươngkênh D của anh se băng 1 (D = 1), ví dụ anh trong tập dữ liệu Mnist đươc biêudiên dưới một ma trậnanh xam co kích thước (28x28x1) Vớ́i một hì̀nh ảnhmàu thì̀ ma trận có kí́ch thướ́c (H x W x 3), D = 3 tương ứng vớ́i 3 kênh màuRed, Green, Blue

Trang 26

Với bộ nao con ngươi chi cân chưa tới vai giây ta co thê nhận dang đươcđôi tương Tuy nhiên đây lai la một ânv đề kho khăn đôi với hệ thông maytính Thậm chí trong một strương hơp ban thân con ngươi cung co thê khôngnhận dang đươc đôi tương Một số thách thức đối vớ́i bài toán nhận dạng hì̀nhảnh có thể kể đế́n như:

Sự sai khác góc nhì̀n: Các góc nhì̀n khác nhau sẽ đưa ra các dự đoán khác nhau đối vớ́i cùng một đối tượng

Về vân đề che khuât: Đôi tương bị che khuât một phân

Nhâm lân bôi canh: Đôi tương bị hòa tron vao môi trương xung quanhtrong anh

Sự sai khác về̀ tỉ lệ, hình dang của đôi tương: Ti lệanh lớn – nho, bịlệch hướng so vớianh goc cung gây anh hương đến kết qua dư đoan

1.2 Kêt luận chương 1

Chương này đã giớ́i thiệu sơ lược về̀ sự phát triển củ̉a Deep Learning,phương pháp nhận dạng hì̀nh ảnh củ̉a máy tí́nh sử dụ̣ng Deep Learning, về̀bài toán và phương pháp củ̉a Deep Learning trong nhận dạng hì̀nh ảnh cũngnhư các thuật toán tối ưu Chương 2 sẽ trì̀nh bày cơ sở lý thuyế́t và các đơn vị̣cấu thành mạng nơ-ron nhân tạo CNN

Trang 27

CHƯƠNG 2 LÝ THUYÊT CƠ BẢN VỀ MẠNG NƠ-RON TÍCH CHẬP

CNN VA CAC THAM SỐ LIÊN QUAN 2.1 Giới thiệu chương 2

Chương 2 sẽ đi sâu vào giớ́i thiệu các khái niệm, các thành phần cơ bảncấu tạo thành mô hì̀nh mạng CNN và cách mà mô hì̀nh mạng hoạt động

2.2 Mạng nơ-ron tích chập

Trong chương 1, em đa trình bay về mang nơ-ron nhân tao nhiều lớpMLP Tuy nhiên việcưng dụng mô hình nay vao giai quyết bai toan phân loạiảnh lại cần được cân nhắ́c: Việc sử dụ̣ng các lớ́p Full connection, mỗ̃i dữ̃ liệungõ̃ vào sẽ được đưa đế́n tất cả các nơ-ron củ̉a lớ́p ẩn thứ nhất, và giá trị̣ sau

đó lại tiế́p tụ̣c được đưa đế́n tất cả các nơ-ron củ̉a lớ́p ẩn thứ hai Nhận thấy,vớ́i kí́ch thướ́c dữ̃ liệu lớ́n, thì̀ hệ thống sẽ trở nên rât phưc tap và số lượngphé́p tí́nh tăng vọt sau mỗ̃i lớ́p ẩn

Gia sư với một ưcb anh mau 100*100 đươc biêu diên dưới dang 1 Tensor100*100*3 (Tensor là một kiểu dữ̃ liệu dạng mảng có nhiề̀u chiề̀u) Nếu đê biêuthị hết nội dung của bưc anh thì cân truyền vao lớp đâu vao tât ca cac pixel(100*100*3 = 30000) Nghia la đâu vao giơ co 30000 nơ-ron Giả sử số lượng nơ-ron trong lớp ân thư nhât là 1000 Số lượng trong sô giữ̃a lớp đâu vao và lớp

ân thư nhât là 30000*1000 = 30000000, số lượng bias là 1000 Như vậy, ổ̉ngt sốthông sô là: 30001000 Đây mớ́i chỉ là thông sô giữ̃a lớp đâu vao và lớp ân thưnhât, trong hệ thông cò̀n nhiề̀u lớp khac nữ̃a, và nế́u kí́ch thướ́c ảnh tăng, ví́

Trang 28

dụ̣ 1000*1000 thì̀ số lượng thông sô tăng cực kì̀ nhanh Vì vậy ânc một giai phap thích hơp hơn đo la sư dụng mang nơ-ron tích chập CNN.

Mạng CNN sử dụ̣ng 3 ý tưởng cơ bản là Local Receptive Field (vùng tiế́pnhận cụ̣c bộ), Shared Weight And Bias (trọng số chung) và Pooling (lấy mẫu)[1] Để làm rõ̃ hơn về̀ nguyên lý hoạt động củ̉a CNN, chú́ng ta đi vào chi tiế́t các phân sau

2.3 Lớp tí́ch chập

Lớ́p tí́ch chập đóng vai trò̀ cốt lõ̃i củ̉a mạng CNN, là nhân tố giú́p mạnglọc và học các đặc điểm củ̉a hì̀nh ảnh, tăng khả năng phân loại ảnh chí́nh xáchơn Lớ́p tí́ch chập có các đặc điểm sau:

2.3.1 Phép tích chập

Phé́p tí́ch chập được thực hiện bằng cách tí́nh tổ̉ng củ̉a giá trị̣ củ̉a vùngtiế́p nhận cụ̣c bộ nhân vớ́i ma trận trọng số có kí́ch thướ́c tương đương Điểmkhác biệt giữ̃a mạng CNN và mạng MLP chí́nh là các trọng số ở mạng MLP làhoàn toàn khác nhau giữ̃a các nơ-ron và trong cùng một nơ-ron Vớ́i mạngCNN, các ma trận trọng số sẽ được dùng chung cho một lớ́p ẩn [4] Các giá trị̣dùng chung này được gọi là shared weights và shared biases Việc sử dụ̣ngchung các giá trị̣ shared weights và shared biases sẽ giú́p mạng tí́ch chập giảmđược số lượng lớ́n các thông số Ví́ dụ̣ vớ́i một vùng tiế́p nhận cụ̣c bộ có kí́ch

Trang 29

Hì̀nh mô tả cách hì̀nh thành các bản đồ đặc tí́nh vớ́i lớ́p ngõ̃ vào 6 x 6, bộlọc có kí́ch thướ́c 3 x 3, stride = 1 (dấu nhân thể hiện phé́p tí́ch chập) Ví́ dụ̣ vớ́igiá trị̣ đầu tiên trong lớ́p bản đồ đặc tí́nh được tí́nh như sau: [2 x (-1) + 2 x (-1)

+ 1 x (-1)] + [0 x 0 + 1 x 0 + 0 x 0] + [0 x 1 + 0 x 1 + 1 x 1] = − ¿ 4

Vùng tiế́p nhận cụ̣c bộ sẽ được chập vớ́i bộ lọc sau mỗ̃i bướ́c trượt trên lớ́pngõ̃ vào tạo thành một nơ-ron ở lớ́p ẩn tương ứng Quá trì̀nh này lặp lại chođế́n khi vùng tiế́p nhận cụ̣c bộ trượt đế́n hế́t lớ́p ngõ̃ vào sẽ tạo thành một bản

đồ đặc tí́nh Vớ́i mỗ̃i bộ lọc sẽ tạo thành một bản đồ đặc tí́nh khác nhau Trênthực tế́, các lớ́p ẩn sẽ có nhiề̀u bản đồ đặc tí́nh vớ́i các bộ lọc khác nhau nhằmtrí́ch xuất nhiề̀u thông tin củ̉a hì̀nh ảnh như: đường thẳng, đường cong, vùngbiên, đường ché́o Việc cho phé́p xử lý, trí́ch xuất các thông tin theo chiề̀ukhông gian giú́p mạng CNN thể hiện được nhữ̃ng kế́t quả tốt đối vớ́i các bàitoán nhận dạng hì̀nh ảnh

2.3.2 Vùng tiêp nhận ucc bộ

lớp phía trước va phía sau Ở mạng CNN, lớ́p ngõ̃ vào sẽ được giữ̃ nguyên kí́chthướ́c cũng như số chiề̀u củ̉a hì̀nh ảnh ban đầu, mỗ̃i nơ-ron ở lớ́p ẩn sẽ

Trang 30

được kế́t nối vớ́i một vùng nhỏ ở lớ́p ngõ̃ vào Mỗ̃i vùng nhỏ ở lớ́p ngõ̃ vàođược gọi là các cửa sổ̉ hoặc các vùng tiế́p nhận cụ̣c bộ (local receptive field).

Ví́ dụ̣ như hì̀nh 2.3.2 vung có kí́ch thướ́c 3x3 tại lớ́p ngõ̃ vào đươc goi lavung tiếp nhận cục bộ.Vớ́i mỗ̃i vùng tiế́p nhận cụ̣c bộ ở lớ́p ngõ̃ vào, ta sẽ cótương ứng một nơ-ron ở lớ́p ẩn tiế́p theo Các nơ-ron ở lớ́p ẩn này có nhiệm vụ̣học các đặc tí́nh củ̉a vùng cụ̣c bộ ở lớ́p ngõ̃ vào Mỗ̃i nơ-ron sẽ có một đặc tí́nhkhác nhau dựa trên đặc tí́nh củ̉a vùng tiế́p nhận cụ̣c bộ ở lớ́p ngõ̃ vào Để cóđược một lớ́p ẩn gồm các nơ-ron ẩn, quá trì̀nh này được thực hiện bằng cáchtrượt vùng tiế́p nhận cụ̣c bộ trên dữ̃ liệu củ̉a lớ́p ngõ̃ vào Quá trì̀nh trượt theoquy tắ́c dị̣ch từ̀ trái sang phải, từ̀ trên xuống dướ́i, được mô tả như hì̀nh 2.3.3:

Trang 31

Sau khi vùng tiế́p nhận cụ̣c bộ trượt qua hế́t ngõ̃ vào, ta có được một lớ́p

ẩn vớ́i các nơ-ron có kí́ch thướ́c nhỏ hơn so vớ́i kí́ch thướ́c lớ́p ngõ̃ vào (hì̀nh2.3)

Trang 32

2.3.3 Sô bươc trươt (Strides)

Như đa mô ta ơ trên, quá trì̀nh hì̀nh thành lớ́p ẩn phụ̣ thuộc vào nguyêntắ́c trượt vùng tiế́p nhận cụ̣c bộ Ngoài việc tuân theo quy tắ́c đã được nêu ra,kí́ch thướ́c lớ́p ẩn cò̀n phụ̣ thuộc vào số bướ́c trượt vùng tiế́p nhận cụ̣c bộ Mộtcách ngắ́n gọn, số bướ́c trượt chí́nh là số pixel mà vùng tiế́p nhận cụ̣c bộ sẽdị̣ch chuyển so vớ́i vị̣ trí́ trướ́c đó Giả sử chọn vùng tiế́p nhận cụ̣c bộ có kí́chthướ́c 4x4 pixel, vớ́i giá trị̣ bước trươt bằng 1, vùng tiế́p nhận cụ̣c bộ sẽ dị̣chchuyển 1 pixel (hì̀nh 2.4a), vớ́i bước trươt bằng 2, vùng tiế́p nhận cụ̣c bộ sẽdị̣ch chuyển 2 pixel (hì̀nh 2.4b) Giá trị̣ bước trươt càng lớ́n, kí́ch thướ́c củ̉a lớ́p

ẩn sẽ càng nhỏ

Ta co công thưc tổng quat kích thước của lớp ân như sau với gia trị bướctrươt bât kì như sau:

Trang 34

10 x 10, vùng tiế́p nhận có cụ̣c bộ có kí́ch thướ́c 4 x 4 pixel thì H = (10-4)/1 + 1 =

7 pixel

2.3.4 Zero padding

Ơ trên, ta thây gia trị lớp ngõ vao từ 10x10 pixel qua lớp tích chập thì kíchthước dữ liệu bị rút gon lai còn 7x7 pixel, nếu tiếp tục cho dữ liệu qua nhiều lớp tíchchập thì đâu ra tiếp tục giam dân đến cac vân đề: Thư nhât, sô lương lớp ân se bị hanchế, trong khi đê khai thac đươc nhiều cac đặc tính cơ anb của dữ liệu, chúng taailcân nhiều lớp ân Thư hai, thông tin se bị mât mat dân sau khi qua bộ ocl tích chập

Để xây dựng được nhiề̀u lớ́p ẩn hơn nhưng vẫn giữ̃ nguyên kí́ch cỡ̃ củ̉a lớ́p ẩn nhằmmụ̣c đí́ch nâng cao hiệu quả củ̉a mô hì̀nh và tránh mất mát các thông tin, các lớ́p zeropadding (gọi tắ́t padding) cho phé́p thực hiện điề̀u nay bằng cách thêm vào các nơ-ron có giá trị̣ 0 bao quanh đương biên

Trang 35

vao trơ thanh 10x10 pixel Gia sư ap dụng vung tiếp nhận cục bộo kích thước3x3 pixel, bước trươt băng 1 Theo công thưc 2.1 ta đươc lớp ân co kích thước

H = (10 – 3)/1 + 1 = 8x8 pixel Gia trị nay băng với kích thước ban đâu trước khithêm padding của lớp ngõ vao Như vậy, việc thêm padding khắc phục đươc

sư mât mat thông tin Tổng quat, với H la kích thước lớp anh, n la kích thướclớp ngõ vao, k la kích thước vung tiếp nhận cục bộ, as gial trị bước trươt, p lagia trị padding,, ta co đươc công thưc sau:

2.4 Lây mẫu xuông (Pooling)

Việc mạng CNN sử dụ̣ng các trọng số dùng chung giú́p hạn chế́ được sốlượng thông số trong mạng Tuy nhiên, nế́u các lớ́p tí́ch chập chứa nhiề̀u các

Trang 37

Với Max Pooling, sau khi đi qua lớ́p pooling, các bản đồ đặc tí́nh sẽ được giảm kí́ch thướ́c bằng cách: một cửa sổ̉ nhỏ ở lớ́p trướ́c sẽ được thay thế́ bằng giá trị̣ lớ́n nhất củ̉a nơ-ron ở lớ́p đó, tức lấy giá trị̣ lớ́n nhất củ̉a vùng nơ-ron đó Với Average Pooling thì cac ban đô đặc tính es đươc giam băng cach: một cưa sổ nho ơ lớp trước se đươc thay thế băng tổng trung bình của cac nơ-ron ơ lớp

đo Hì̀nh 2.8a la max pooling, 2.8b la average pooling vớ́i vùng nơ-ron có kí́ch

Trang 38

pooling, kí́ch thướ́c củ̉a lớ́p ngõ̃ ra sẽ được giảm một nửa Cac kích thướcpooling lớn hơn se lam mât mat thông tin dữ liệu nhiều hơn.

2.5 Lơp Dropout

Dropout là phương pháp cho phé́p huấn luyện mạng nơ-ron nhân tạotránh được trường hợp overfitting [16] Overfitting là một trường hợp thườnggặp khi huấn luyện các mạng nơ-ron, khi mô hì̀nh huấn luyện bám quá sát dữ̃liệu huấn luyện, dẫn tớ́i kế́t quả trên tập dữ̃ liệu huấn luyện rất cao trong khithử nghiệm mô hì̀nh trên tập dữ̃ liệu đánh giá cho kế́t quả thấp hơn đáng kể.Vớ́i các mô hì̀nh thực tế́, việc overfitting là không thể tránh khỏi bởi vì̀ khi việchuấn luyện các mô hì̀nh, mụ̣c đí́ch cuối cùng chí́nh là tỉ lệ nhận dạng đú́ngcàng cao càng tốt Để đạt được điề̀u đó, mô hì̀nh mạng phải được xây dựngphức tạp, phải được huấn luyện nhiề̀u lần khi đó hiện tượng overfitting sẽxuất hiện

Trang 39

tất cả trọng số củ̉a nơ-ron đó bằng 0, đồng nghĩa vớ́i các liên kế́t tớ́i nơ-ron đó

đề̀u không có giá trị̣ (hình trên bên phai), khi đó mô hì̀nh sẽ phải cố gắ́ng nhận

dạng đú́ng trong khi thiế́u thông tin từ̀ các nơ-ron bị̣ loại bỏ Điề̀u này sẽ giú́p

tăng tỉ lệ nhận dạng củ̉a mô hì̀nh nhưng không quá phụ̣ thuộc vào dữ̃ liệu

huấn luyện

2.6 Ham kích hoạt ngõ ra Softmax

Ham softmax được sử dụ̣ng để đưa ra quyế́t đị̣nh củ̉a mạng Hàm softmax

sẽ chuyển các giá trị̣ ngõ̃ ra củ̉a mạng thành phân phối xác suất thỏa mãn 2

yêu cầu: xác suất dự đoán củ̉a một nơ-ron luôn lớ́n hơn 0 và tổ̉ng xác suất dự

đoán củ̉a mạng bằng 1 Thay vì̀ dự đoán đầu ra theo các giá trị̣ ngõ̃ ra, mạng

sử dụ̣ng hàm softmax sẽ dự đoán đầu ra dựa vào xác suất củ̉a các ngõ̃ ra

tương ứng Giá trị̣ ron ngõ̃ ra càng lớ́n, xác suất dự đoán rơi vào ngõ̃ ra

nơ-ron đó càng cao Công thức hàm softmax được cho bởi:

ngõ̃ ra tại nơ-ron thứ i chia cho tổ̉ng tất cả các giá trị̣ nơ-ron tại lớ́p ngõ̃ ra.

2.7 Ham tổn hao Cross Entropy

Cross Entropy đươc sư dụng rộng air ngay nay trong cac mang co chưa

cac lớp softmax ơ ngõ ra Cross Entropy sư dụng gia trị xac suât của ngõ ra dư

đoan đê so sanh với ngõ ra thưc sư Công thưc ham tổn hao đươc cho bơi:

Trang 40

mô hì̀nh sẽ bị̣ phạt càng nặng từ̀ đó có thể hiệu chỉnh các thông số phù hợp.

VD: Nhan dan của 1 ngõ vao la [1; 0; 1] tai ngõ ra co 3 nơ-ron co cac gia trịlân lươt la [3; 4; 5] Gia trị ngõ ra sau khi qua ham softmax co gia trị ngõ ra 3:e3/(e3 + e4 + e5) = 0.09, tương tư ngõ ra 4 = 0.24, ngõ ra 5 = 0.66 Với CrossEntropy gia trị ham tổn hao [1; 0; 1] la: 1*log(0.09) + 0*log(0.24) + 1*log(0.66) =1.2

2.8 Tỷ lệ hoc

Tỉ lệ học có vai trò̀ quan trọng trong việc quyế́t đị̣nh mô hì̀nh mạng họcnhanh hay chậm Việc cập nhật trọng số và bias lên quan đế́n tỉ lệ học Tỉ lệhọc càng lớ́n, các giá trị̣ cập nhật củ̉a trọng số và bias càng lớ́n đồng nghĩa vớ́i

Ngày đăng: 03/08/2022, 16:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w