ĐỒ ÁN CƠ SỞ NGHIÊN CỨU NHẬN DẠNG CHỮ SỐ VIẾT TAY DÙNG MẠNG NEURAL NHÂN TẠO.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ NGHIÊN CỨU NHẬN DẠNG CHỮ SỐ VIẾT TAY DÙNG MẠNG NEURAL NHÂN TẠO Giảng viên hướng dẫn ThS VƯƠNG XUÂN CHÍ Sinh. LỜI CẢM ƠN Em bày tỏ lòng biết ơn sâu sắc tới Thầy Vương Xuân Chí đã tận tình hỗ trợ em hết mình trong quá trình thực hiện đồ án cơ sở. Thầy đã tạo điều kiện rất tốt từ khâu chuẩn bị đến việc hoàn thành đồ án. Cùng với những buổi học trên lớp lý thuyết và thực hành giúp em tiếp thu thêm nhiều kiến thức mới. Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế của chúng em, bài báo cáo này không thể tránh được những thiếu sót. Em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của các quý thầy cô để bổ sung kiến thức và khắc phục những sai sót để làm tốt hơn khi làm những bài đồ án hay tiểu luận sau này. LỜI MỞ ĐẦU Hiện nay, với hệ thống dữ liệu hình ảnh khổng lồ trên toàn thế giới, việc phân tích, xử lý để khai thác sử dụng thông tin trong ảnh là một nhu cầu thiết yếu. Tuy nhiên, với số lượng dữ liệu khổng lồ, việc phân tích, xử lý thủ công sẽ mất rất nhiều thời gian và nguồn nhân lực. Thực tiễn đã chứng minh, việc ứng dụng trí tuệ nhân tạo nói chung hay Deep Learning nói riêng vào các nhiệm vụ trên đã giúp tiết kiệm được nhiều thời gian và công sức. Từ giữa năm 2011, Google đã giới thiệu dự án Deep Learning sử dụng mạng neural nhân tạo dùng cho nhận dạng giọng nói và sau đó mở rộng lên các lĩnh vực khác như Gmail, Google dịch, Google ảnh. Đối với bài toán nhận dạng chữ số viết tay, mạng neural nhiều lớp sẽ được huấn luyện dựa trên các pixel, đơn vị nhỏ nhất của hình ảnh. Vì vậy mạng neural nhân tạo là công cụ vô cùng thích hợp cho việc xử lý, phân tích hình ảnh và mang lại kết quả rất khả quan. MỤC LỤC CHƯƠNG 1 : Giới thiệu khái niệm Mạng Neural, Deep Learning 12 1.1 Mạng neural 12 1.2 Deep Learning 14 Chương 2: Mô hình và các dạng mạng neural, ứng dụng vào thực tiễn. 15 2.1 Mô hình Neural Network 15 2.2 Các dạng mạng Nerual 17 2.3 Mạng nơ ron nhân tạo được ứng dụng cho rất nhiều lĩnh vực như : 23 Chương 3 : Các thuật toán liên quan đến nhận dạng Deep Learning. 24 3.1 Mạng nơron tích chập 24 3.2 Mạng CNN 24 3.3 Object Detection 26 3.4 Image Segmentation – Phân đoạn ảnh 27 3.5 Hệ thống nhận dạng khuôn mặt (Face recognition) 29 Chương 4: Ý tưởng về nhận dạng chữ viết tay, đơn vị cấu tạo nhỏ nhất tạo thành mạng neural nhân tạo đa lớp và cấu trúc, thông số của mô hình mạng neural đa lớp. 30 4.1 Đơn vị cấu tạo nhỏ nhất tạo thành mạng neural nhân tạo đa lớp và cấu trúc(multilayer perceptronMLP), thông số của mô hình mạng neural đa lớp 30 4.2 Thực nghiệm ý tưởng và kết quả 32 Chương 5: KẾT LUẬN 36

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

NGHIÊN CỨU NHẬN DẠNG CHỮ SỐ VIẾT TAY DÙNG MẠNG

Giảng viên hướng dẫn: ThS VƯƠNG XUÂN CHÍ

Sinh viên thực hiện: Nguyễn Lê Tài

MSSV: 2000001633

Chuyên ngành: KHOA HỌC DỮ LIỆU

Môn học: ĐỒ ÁN CƠ SỞ KHOA HỌC DỮ LIỆU

Khóa: 2020

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

NGHIÊN CỨU NHẬN DẠNG CHỮ SỐ VIẾT TAY DÙNG MẠNG

NEURAL NHÂN TẠO.

Giảng viên hướng dẫn: ThS VƯƠNG XUÂN CHÍ

Sinh viên thực hiện: Nguyễn Lê Tài

MSSV: 2000001633

Chuyên ngành: KHOA HỌC DỮ LIỆU

Môn học: ĐỒ ÁN CƠ SỞ KHOA HỌC DỮ LIỆU

Khóa: 2020

Tp.HCM, tháng 9 năm 2022

1

Trang 3

LỜI CẢM ƠN

Em bày tỏ lòng biết ơn sâu sắc tới Thầy Vương Xuân Chí đã tận tình hỗ trợ em hết mình trong quá trình thực hiện đồ án cơ sở Thầy đã tạo điều kiện rất tốt từ khâu chuẩn bị đến việc hoàn thành đồ án Cùng với những buổi học trên lớp lý thuyết vàthực hành giúp em tiếp thu thêm nhiều kiến thức mới

Với điều kiện thời gian cũng như kinh nghiệm còn hạn chế của chúng em, bài báo cáo này không thể tránh được những thiếu sót Em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của các quý thầy cô để bổ sung kiến thức và khắc phục nhữngsai sót để làm tốt hơn khi làm những bài đồ án hay tiểu luận sau này

Họ và tên sinh viên

Nguyễn Lê Tài

Trang 4

LỜI MỞ ĐẦU

Hiện nay, với hệ thống dữ liệu hình ảnh khổng lồ trên toàn thế giới, việc phân tích,

xử lý để khai thác sử dụng thông tin trong ảnh là một nhu cầu thiết yếu Tuy nhiên,với số lượng dữ liệu khổng lồ, việc phân tích, xử lý thủ công sẽ mất rất nhiều thờigian và nguồn nhân lực Thực tiễn đã chứng minh, việc ứng dụng trí tuệ nhân tạonói chung hay Deep Learning nói riêng vào các nhiệm vụ trên đã giúp tiết kiệmđược nhiều thời gian và công sức Từ giữa năm 2011, Google đã giới thiệu dự ánDeep Learning sử dụng mạng neural nhân tạo dùng cho nhận dạng giọng nói và sau

đó mở rộng lên các lĩnh vực khác như Gmail, Google dịch, Google ảnh Đối với bàitoán nhận dạng chữ số viết tay, mạng neural nhiều lớp sẽ được huấn luyện dựa trêncác pixel, đơn vị nhỏ nhất của hình ảnh Vì vậy mạng neural nhân tạo là công cụ vôcùng thích hợp cho việc xử lý, phân tích hình ảnh và mang lại kết quả rất khả quan

3

Trang 5

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

TRUNG TÂM KHẢO THÍ

KỲ THI KẾT THÚC HỌC PHẦN HỌC KỲ … … NĂM HỌC …… -….…

PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN

Môn thi: Đồ án cơ sở Lớp học phần: 20DTH2A

Nhóm sinh viên thực hiện :

1 Tham gia đóng góp: Nguyễn Lê Tài

2 Tham gia đóng góp: Lưu Phi Tường

Ngày thi: Phòng thi:

Đề tài tiểu luận/báo cáo của sinh viên : Nghiên cứu nhận dạng chữ số viết tay dùng mạng neural nhân tạo.

Phần đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):

Tiêu chí (theo CĐR HP) Đánh giá của GV Điểm tối đa Điểm đạt

Trang 6

PHẦN NHẬN XÉT CỦA GIẢNG VIÊN

TPHCM, Ngày … tháng … năm 2022

5

Trang 8

Trường Đại học Nguyễn Tất Thành

Khoa Công Nghệ Thông Tin

(Sinh viên phải đóng tờ này vào báo cáo)

Họ và tên: Nguyễn Lê Tài

Chuyên ngành: Khoa học dữ liệu

Email: nguyenletai23102002@gmail.com

MSSV: 2000001633 Lớp: 20DTH2A SĐT:0845000423 Tên đề tài: nghiên cứu nhận dạng chữ số viết tay dùng mạng neural nhân tạo.

Gíao viên hướng dẫn: Vương Xuân Chí

Thời gian thực hiện: 20 /6 /2022 đến 20 /9 /2022

MÔ TẢ ĐỀ TÀI:

Nghiên cứu khái niệm, cách thức tạo mạng Neural nhận tạo nhiều lớp, áp dụng cho việc nhận dạng chữ số từ 0 đến 10, các chữ số này được viết tay và xây dựng mô hình nhận diện chữ số viết tay bằng mạng neural nhân tạo cho tỷ lệ nhận dạng đúng

NỘI DUNG VÀ PHƯƠNG PHÁP:

- Giới thiệu khái niệm Mạng neural, Deep learning

- Mô hình và các dạng mạng neural, ứng dụng vào thực tiễn

- Các thuật toán liên quan đến nhận dạng Deep learning

- Ý tưởng về nhận dạng chữ viết tay, đơn vị cấu tạo nhỏ nhất tạo thành mạng neural nhântạo đa lớp và cấu trúc, thông số của mô hình mạng neural đa lớp

- Kết luận

YÊU CẦU:

- Có kiến thức, đam mê, hiểu biết về công nghệ mới như Mạng neural, Machine

Learning, Deep Learning… Đọc hiểu tài liệu tiếng Anh, kỹ năng trình bày văn bản trên máy tính tốt.

- Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả năng làm việc độc lập hoặc làm việc trong nhóm tốt.

Nội dung và yêu cầu đã được thông qua Bộ môn.

7

Trang 10

MỤC LỤC

CHƯƠNG 1 : Giới thiệu khái niệm Mạng Neural, Deep Learning 12

Chương 2: Mô hình và các dạng mạng neural, ứng dụng vào thực tiễn 15

2.3 Mạng nơ ron nhân tạo được ứng dụng cho rất nhiều lĩnh vực như : 23

Chương 3 : Các thuật toán liên quan đến nhận dạng Deep Learning 24

Chương 4: Ý tưởng về nhận dạng chữ viết tay, đơn vị cấu tạo nhỏ nhất tạo thành mạng neural nhân tạo đa lớp và cấu trúc, thông số của mô hình

4.1 Đơn vị cấu tạo nhỏ nhất tạo thành mạng neural nhân tạo đa lớp và cấu

trúc(multilayer perceptron-MLP), thông số của mô hình mạng neural đa lớp 30

9

Trang 11

MỤC LỤC HÌNH ẢNH

Hình 1.2 Deep Learning hoạt động……… 13

Hình 2.2 Mô hình Multilayer Perceptron……… 17

Hình 2.3 Mạng Rơ-ron tích chập (CNN)……… 18

Hình 2.4 Mạng nơ-ron hồi quy (RNN)……… 20

Hình 2.5 Autoencoder……… 20

Hình 2.6 Backpropagation……… 21

Hình 3.1 CNN được ứng dụng vô cùng rộng rãi……… 25

Hình 3.2: So sánh đầu ra của bài toán classification với locolization và detection 25 Hình 3.3: Phân biết bài toán classification, object localization, object detection 26

Hình 3.4: Phân biệt đầu ra của bài toán Detection và Segmentation……… 27

3.5 Kết quả của bài toán Semantic segmentation……… 27

Hình 3.6 Kết quả của bài toán Instance segmentation……… 28

Hình 3.7 Face recognition steps……… 29

Hình 4.1 Một mô hình mạng neural nhân tạo cơ bản……… 30

Hình 4.2 Một số ảnh đã được gắn nhãn tương ứng……… 32

Hình 4.3 Tỷ lệ nhận dạng của mạng MLP với tỷ lệ học LR = 0,3 (a) và tỷ lệ học LR = 3 (b)……….………… 33

Hình 4.4 Kết quả mạng MLP khi kết hợp 2 giá trị LR khác nhau……….……… 34

Hình 4.5 Tỷ lệ nhận dạng đúng với các số lượng lớp ẩn khác nhau……….…… 34

Trang 13

DANH SÁNH TỪ VIẾT TẮT

Trang 14

THÀNH VIÊN NHÓM

13

Trang 15

CHƯƠNG 1 : Giới thiệu khái niệm Mạng Neural, Deep Learning

1.1 Mạng neural

Mạng neural nhân tạo hay thường gọi ngắn gọn là (artificial neural network - ANN

hay neural network) là một mô hình toán học hay mô hình tính toán được xây

dựng dựa trên các mạng neural sinh học Nó gồm có một nhóm các neural nhân tạo (nút) nối với nhau, và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút (cách tiếp cận connectionism đối với tính toán) Trong nhiều

trường hợp, mạng neural nhân tạo là một hệ thống thích ứng (adaptive system) tự

thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trong chảy qua mạng trong quá trình học

Neural nhân tạo được xây dựng trên ý tưởng từ neural sinh học, đơn vị cấu

tạo thành hệ thần kinh của não bộ con người Những neural này có nhiệm vụ nhận tín hiệu từ não bộ và truyền tín hiệu đến các bộ phận khác nhau trên cơ thể Một cách tương tự, ta có các neural nhân tạo hay perceptron là đơn vị cấu thành mạng neural nhân tạo Một perceptron sẽ nhận các đầu vào có giá trị x1, x2, xn và đầu

ra của perceptron sẽ cho ra giá trị nhị phân Hình 1 mô tả cấu trúc của một

perceptron đơn giản với 2 giá trị đầu vào X1, X2

Trang 16

Hình 1.1 Mô hình Perceptron đơn giản.

Nhiệm vụ của perceptron là sử dụng các giá trị đầu vào để tính toán và xác

định giá trị đầu ra là 0 hoặc 1 Trong một mạng neural nhân tạo, đầu ra của neurallớp trước sẽ là đầu vào của lớp tiếp theo

1.1.1 Trọng số (Weight – w)

Weight hay trọng số (w) là con số biểu thị mức độ quan trọng của đầu vào so

với đầu ra Giá trị đầu ra của perceptron phụ thuộc vào tổng giữa trọng số và đầuvào:

Trong đó : đầu vào thứ của perceptron; : trọng số của đầu vào ;

ngưỡng : mức ngưỡng quyết định giá trị đầu ra Hàm xác định đầu ra ở (1) còn được

gọi là hàm step

1.1.2 Bias – b

Để đơn giản cho perceptron quyết định giá trị đầu ra 0 hay 1, có thể thay thế

giá trị ngưỡng (threshold) bằng nghịch đảo số Bias hay ngưỡng = -b.

Và có thể viết lại như sau:

15

Trang 17

1.2 Deep Learning

Deep Learning (học sâu) có thể được xem là một lĩnh vực con của Machine

Learning (học máy) – ở đó các máy tính sẽ học và cải thiện chính nó thông qua các thuật toán Deep Learning được xây dựng dựa trên các khái niệm phức tạp hơn rấtnhiều, chủ yếu hoạt động với các mạng nơ-ron nhân tạo để bắt chước khả năng tư duy và suy nghĩ của bộ não con người

Deep Learning hoạt động:

Deep Learning là một phương pháp của Machine Learning Mạng nơ-ron nhân tạo trong Deep Learning được xây dựng để mô phỏng khả năng tư duy của bộ não con người

Một mạng nơ-ron bao gồm nhiều lớp (layer) khác nhau, số lượng layer càng nhiều thì mạng sẽ càng “sâu” Trong mỗi layer là các nút mạng (node) và được liên kết với những lớp liền kề khác Mỗi kết nối giữa các node sẽ có một trọng số tương ứng, trọng số càng cao thì ảnh hưởng của kết nối này đến mạng nơ-ron càng lớn.Mỗi nơ-ron sẽ có một hàm kích hoạt, về cơ bản thì có nhiệm vụ “chuẩn hoá” đầu

Trang 18

Hình 1.2 Deep Learning hoạt động Trong quá trình huấn luyện mô hình mạng nơ-ron, các trọng số sẽ được thay đổi vànhiệm vụ của mô hình là tìm ra bộ giá trị của trọng số sao cho phán đoán là tốt nhất.

Các hệ thống Deep Learning yêu cầu phần cứng phải rất mạnh để có thể xử lý đượclượng dữ liệu lớn và thực hiện các phép tính phức tạp Nhiều mô hình Deep

Learning có thể mất nhiều tuần, thậm chí nhiều tháng để triển khai trên những phần cứng tiên tiến nhất hiện nay

Ưu điểm:

Deep Learning là một bước ngoặt to lớn trong lĩnh vực trí tuệ nhân tạo, cho phép khác nhà khoa học dữ liệu xây dựng nhiều mô hình có độ chính xác rất cao trong lĩnh vực nhận dạng ảnh, xử lý ngôn ngữ tự nhiên, xử lý giọng nói,… Một số ưu điểmvượt trội của Deep Learning gồm có:

● Kiến trúc mạng nơ-ron linh hoạt, có thể dễ dàng thay đổi để phù hợp với nhiều vấn

đề khác nhau

● Có khả năng giải quyết nhiều bài toán phức tạp với độ chính xác rất cao

● Tính tự động hoá cao, có khả năng tự điều chỉnh và tự tối ưu

17

Trang 19

● Có khả năng thực hiện tính toán song song, hiệu năng tốt, xử lý được lượng dữ liệulớn.

Nhược điểm:

Bên cạnh những ưu điểm, mặt khác, hiện nay Deep Learning vẫn còn nhiều khó khăn và hạn chế, chẳng hạn như:

● Cần có khối lượng dữ liệu rất lớn để tận dụng tối đa khả năng của Deep Learning

● Chi phí tính toán cao vì phải xử lý nhiều mô hình phức tạp

● Chưa có nền tảng lý thuyết mạnh mẽ để lựa chọn các công cụ tối ưu cho Deep Learning

Chương 2: Mô hình và các dạng mạng neural, ứng dụng vào

thực tiễn

2.1 Mô hình Neural Network

Neural Network có cấu trúc gần giống như hệ thần kinh của chúng ta Thuật toán làmột hàm ánh xạ từ bộ dữ liệu đầu vào với kết quả đầu ra tương ứng

Một mạng nơ-ron gôm những cấu phần sau:

● Dữ liệu đầu vào – input layer, x

● Lớp ẩn – hidden layers

● Dữ liệu đầu ra – output layer, ŷ

● Các tham số trọng lượng tương ứng W và ngưỡng quyết định b

● Hàm ánh xạ cho lớp ẩn σ Trong bài này, tôi sẽ chọn hàm Sigmoid

Trang 20

Ví dụ như ở hình trên có 1 input layer, 2 hidden layer và 1 output layer Số lượng layer của mô hình là 3 layer.

Mỗi node trong hidden layer và output layer :

● Liên kết với tất cả các node ở layer trước đó với các hệ số w riêng

● Mỗi node có 1 hệ số bias b riêng

● Diễn ra 2 bước: tính tổng linear và áp dụng activation function

19

Trang 21

2.2.1 Perceptron Learning Algorithm (PLA)

The Perceptron là một neural network lâu đời và đơn giản nhất Kiến trúc này được phát triển vào năm 1958 với một neural đơn nhất trong mạng lưới Mặc dù đóng vai trò quan trọng như là nền tảng phát triển, Perceptron không thực sự hiệuquả vì chính sự đơn giản dẫn đến sự thiếu hụt khả năng trong xử lý dữ liệu

Perceptron là một thuật toán Classification cho trường hợp đơn giản nhất: chỉ có

hai class (lớp) (bài toán với chỉ hai class được gọi là binary classification) và cũng

chỉ hoạt động được trong một trường hợp rất cụ thể Tuy nhiên, nó là nền tảng cho một mảng lớn quan trọng của Machine Learning là Neural Networks và sau này

là Deep Learning

2.2.2 Multilayer Perceptron

Thực chất, Multilayer Perceptron (MPL) là một dạng perceptron nhưng phức tạp hơn Sự phức tạp đến từ khái niệm multi-layer Ở đây, MPL sử dụng nhiều layer gồm một hoặc nhiều neural và kết nối chúng để xử lý dữ liệu

Một MPL thường sẽ bao gồm một input layer, một hoặc nhiều hidden layer, và

Trang 22

Hình 2.2 Mô hình Multilayer Perceptron

2.2.3 Mạng Nơ-ron tích chập (CNN)

Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) là một kiến trúc

mạng nơ-ron nhân tạo nâng cao, được xây dựng để giải quyết các bài toán phức tạp, đặc biệt là liên quan đến xử lý hình ảnh

Tích chập là một khái niệm trong xử lý tín hiệu số nhằm biến đổi thông tin đầu vào qua một phép tích chập với bộ lọc, nhằm trả về đầu ra là một tín hiệu mới Tín hiệunày sẽ giảm bớt những đặc trưng mà bộ lọc không quan tâm, giữ lại những đặc trưng chính và quan trọng nhất

Bên cạnh input layer và output layer, mô hình CNN còn có thêm một sampling layer để giới hạn số lượng nơ-ron tham gia vào các layer tương ứng Việc xây dựng

mô hình trải qua ba giai đoạn chính:

● Quá trình tích chập (convolution): Thông qua các tích chập giữa ma trận đầu vào

với bộ lọc để tạo thành các đơn vị trong một tầng mới Quá trình này có thể diễn raliên tục ở phần đầu của mạng và thường sử dụng kèm với hàm kích hoạt ReLU Mục tiêu của tầng này là trích suất đặc trưng hai chiều

21

Trang 23

● Quá trình tổng hợp (max pooling): Giảm kích thước khối ma trận đầu vào thông

qua việc tìm ra 1 giá trị đại diện cho mỗi một vùng không gian mà bộ lọc đi qua sẽ không làm thay đổi các đường nét chính của bức ảnh nhưng lại giảm được kích thước của ảnh

● Quá trình kết nối hoàn toàn (fully connected): Sau khi đã giảm kích thước đến

một mức độ hợp lý, ma trận cần được trải phẳng (flatten) thành một vector và sử dụng các kết nối hoàn toàn giữa các tầng Tầng kết nối hoàn toàn cuối cùng (fully connected layer) sẽ có số lượng đơn vị bằng với số lớp

Dựa vào những đặc điểm của mình, các ứng dụng phổ biến nhất của mạng CNN gồm có: Nhận diện, phân tích và phân khúc hình ảnh, phân tích video, xử lý ngôn ngữ tự nhiên,…

Trang 24

của một chuỗi với đầu ra phụ thuộc vào cả các phép tính trước đó Vì vậy mạng RNN có khả năng nhớ các thông tin được tính toán trước đó.

Có hai thiết kế chính của RNN:

● LSTM (Long Short-Term Memory): Được dùng để dự đoán dữ liệu dạng chuỗi thời

gian, có khả năng bỏ đi hoặc thêm các thông tin cần thiết, được điều chỉnh bởi các nhóm được gọi là cổng (gate): Input, Output và Forget

● Gated RNN: Cũng là một thiết kế phổ biến trong lĩnh vực dự đoán dữ liệu của

chuỗi thời gian, có hai cổng là Update và Reset

Các dạng bài toán RNN:

● One to one: Chỉ có một input kết nối với một output duy nhất, chẳng hạn như các

bài toán phân loại hình ảnh

● One to many: Một input liên kết với nhiều chuỗi output, phổ biến là các bài toán

đặt caption cho ảnh

● Many to One: Nhiều input nhưng chỉ có output, ví dụ phổ biến là bài toán phân

loại cảm xúc

● Many to many: Nhiều input và nhiều output, chẳng hạn như phân loại video.

Hình 2.4 Mạng nơ-ron hồi quy (RNN)

23

Trang 25

2.2.5 Autoencoder

Autoencoder là một loại mạng neural nhân tạo được sử dụng để học các loại mã

hóa dữ liệu không giám sát (unsupervised learning) Nói cách khác giả sử từ một hình ảnh bạn hoàn toàn có thể tái tạo ra một bức ảnh có liên quan với bức ảnh đầuvào đó một cách chặt chẽ

Mục đích của Autoencoder là học cách biểu diễn chiều nhỏ hơn (mã hóa) cho dữ liệu có chiều cao hơn Đây cũng là lý do mà Autoencoder thường được dùng cho các bài toán giảm chiều dữ liệu hay trích xuất đặc trưng

Ngoài ra, Autoencoder còn có thể được sử dụng với chức năng tạo ra các mô hình học tập trung (Generative learning models)

Định dạng
Số trang	43
Dung lượng	5,21 MB