Nhận dạng vân tay sử dụng mạng neural nhân tạo ứng dụng vào hệ thống thang máy

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGÔ VĂN TIẾN NHẬN DẠNG VÂN TAY SỬ DỤNG MẠNG NEURAL NHÂN TẠO ỨNG DỤNG VÀO HỆ THỐNG THANG MÁY LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ Đà Nẵng – Năm 2

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGÔ VĂN TIẾN

NHẬN DẠNG VÂN TAY SỬ DỤNG MẠNG NEURAL NHÂN TẠO ỨNG DỤNG VÀO

HỆ THỐNG THANG MÁY

LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ

Đà Nẵng – Năm 2020

DUT.LRCC

Trang 2

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGÔ VĂN TIẾN

NHẬN DẠNG VÂN TAY SỬ DỤNG MẠNG NEURAL NHÂN TẠO ỨNG DỤNG VÀO

Trang 3

Tôi xin cam đoan mọi kết quả của đề tài: “Nhận dạng vân tay sử dụng mạng

neural nhân tạo ứng dụng vào hệ thống thang máy ” là công trình nghiên cứu của cá

nhân tôi và chưa từng được công bố trong bất cứ công trình khoa học nào khác cho tới thời điểm này

Học viên thực hiện

Ngô Văn Tiến

DUT.LRCC

Trang 4

TÓM TẮT LUẬN VĂN

NHẬN DẠNG VÂN TAY SỬ DỤNG MẠNG NEURAL NHÂN TẠO ỨNG

DỤNG VÀO HỆ THỐNG THANG MÁY

Học viên thực hiện : Ngô Văn Tiến Chuyên ngành: Kỹ thuật điện tử

Mã số : Khoá : K37-38 Trường Đại học Bách Khoa – ĐHĐN

Tóm tắt – Nhận dạng vân tay là một trong những phương pháp nhận dạng sinh trắc học cá

nhân phổ biến và đáng tin cậy Luận văn mô tả hệ thống nhận dạng vân tay thời gian thực áp dụng vào quản lý sử dụng hệ thống thang máy bao gồm các bước thu nhận hình ảnh, tiền xử

lý, trích xuất đặc trưng và nhận dạng Phần tiền xử lý tăng cường, lọc nhiễu làm rõ đường vân,

so sánh hiệu suất, tốc độ của phương pháp xử dụng xử lý ảnh so với phương pháp sử dụng mô hình tích chập phân vùng ngữ nghĩa Sử dụng mô hình tích chập với phương pháp học một lần trích xuất đặc trưng của vân tay và tính khoảng cách ơ-clid để định danh vân tay Luận văn trình bày tổng quan về hệ thống sinh trắc học, mạng neural nhân tạo, mạng neural tích chập, phương pháp học một lần, các thuật toán huấn luyện mô hình Nghiên cứu, thiết kế và thực thi phần mềm và phần cứng, đánh giá chi tiết độ chính xác và thời gian xử lý của hệ thống Tác giả đã tóm tắt các kết quả đã đạt được và đưa ra hướng phát triển tiếp theo

Từ khoá –tích chập ; phân vùng ngữ nghĩa ; học một lần ; sinh trắc học ; nhận dạng vân tay

FINGERPRINT IDENTIFICATION USING ARTIFICIAL NEURAL

NETWORK APPLY TO THE ELEVATOR SYSTEM

Abstract – Fingerprint identification is one of the most popular and reliable personal

biometric identification methods The thesis describes the real-time fingerprint recognition system applied to the management and use of the elevator system, including the steps of image acquisition, pre-processing, feature extraction and identification Enhanced pre-processing, filter noise to clarify the pattern, compare the performance and speed of the method of using image processing compared with the method of using the semantic segmentation convolution model Use a convolution model with a one-time learning method that extracts fingerprint features and calculates euclidean distance to identify a fingerprint The thesis presents an overview of biometric systems, artificial neural networks, convolutional neural networks, one-shot learning methods, and train algorithms Research, design and implement software and hardware, detail the accuracy and processing time of the system The author has summarized the results achieved and gave the next development direction

Key words – covolution neural network ; semantic segmentation ; one-shot learning ;

biometrics ; fingerprint identification

DUT.LRCC

Trang 5

MỤC LỤC

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn của đề tài 3

6 Thời gian thực hiện đề tài 3

7 Cấu trúc luận văn 4

Chương 1 TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP NHẬN DIỆN DẤU VÂN TAY 5

1.1 Tổng quát về các hệ thống sinh trắc học 5

1.1.1 Các khối và chức năng 6

1.1.2 Các bước xử lý 7

1.2 Cơ sở lý thuyết về vân tay 7

1.2.1 Đặc tính vân tay 7

1.2.2 Cấu trúc vân tay 7

1.2.3 Các đặc trưng vân tay và cách biểu diễn 9

1.3 Các yếu tố ảnh hưởng đến nhận dạng vân tay 10

1.4 Kết luận chương 11

Chương 2 GIỚI THIỆU MẠNG NEURAL NHÂN TẠO, MẠNG NEURAL TÍCH CHẬP VÀ ONE-SHOT LEARNING 12

2.1 Tổng quan về mạng neural nhân tạo 12

2.1.1 Mạng neural nhân tạo là gì ? 12

2.1.2 Cấu trúc của một mạng neural nhân tạo 12

2.2 Kiến trúc mạng neural 16

2.3 Huấn luyện mạng neural nhận tạo 17

2.3.1 Các phương pháp học 17

2.3.2 Thuật toán huấn luyện mạng neural 17

2.3.3 Thuật toán tối ưu Adam 18

2.4 Mạng neural tích chập (CNN) 20

2.4.1 Định nghĩa mạng neural tích chập 20

2.4.2 Lớp tích chập 20

2.4.3 Lớp tích chập chuyển vị (Transposed Conlution layer) 22

2.4.4 Lớp tinh chỉnh đơn vị tuyến tính (ReLU layer) 23

DUT.LRCC

Trang 6

2.4.5 Pooling layer 24

2.4.6 Lớp kết nối hoàn chỉnh (The Fully connected layer) 25

2.4.7 Hàm mất mát (Loss function) 25

2.5 One-shot learning 26

2.6 Kết luận Chương 28

Chương 3 THIẾT KẾ, XÂY DỰNG CHƯƠNG TRÌNH NHẬN DIỆN VÂN TAY

SỬ DỤNG ONE-SHOT LEARNING ỨNG DỤNG VÀO HỆ THỐNG THANG MÁY 29

3.1 Thiết kế mô hình nhận diện vân tay phiên bản với bộ lọc Gabor 29

3.1.1 Nâng cao hình ảnh vân tay 30

3.1.2 Nhận dạng hình ảnh vân tay 35

3.2 Thiết kế mô hình nhận diện vân tay phiên bản với mạng tích chập 36

3.2.1 Nâng cao hình ảnh vân tay sử dụng mạng phân vùng ngữ nghĩa 37

3.2.2 Nhận dạng hình ảnh vân tay 38

3.3 Thiết kế thiết bị thu thập, nhận diện vân tay và điều khiển hệ thống thang máy 39

3.3.1 Khối thu thập vân tay 39

3.3.2 Khối xử lý nhận dạng 39

3.4 Kết luận Chương 42

Chương 4 KẾT QUẢ 43

4.1 Tiêu chí đánh giá 43

4.2 Xây dựng cơ sở dữ liệu và phân tích kết quả 44

4.2.1 Xây dựng cơ sở dữ liệu 44

4.2.2 Đánh giá và so sánh thời gian xử lý, kết quả nhận dạng mô hình nhận diện vân tay phiên bản với bộ lọc Gabor và với mạng tích chập 45

4.3 Kết luận chương 46

KẾT LUẬN 47 DANH MỤC TÀI LIỆU THAM KHẢO

PHỤ LỤC

DUT.LRCC

Trang 7

DANH SÁCH CÁC THUẬT NGỮ TIẾNG ANH, CHỮ VIẾT TẮT

Convolution Neural Network CNN Mạng neural tích chập

DUT.LRCC

Trang 8

Convoled feature Đặc trưng của phép chập

Rectified Linear Unit ReLU Tinh chỉnh đơn vị tuyến tính

True positive rate DUT.LRCCTPR Tỉ lệ đúng tích cực

Trang 9

DANH MỤC CÁC BẢNG

Số hiệu

4.2 Kết quả nhận dạng cho mô hình phiên bản với bộ lọc Gabor với bộ

4.3 Kết quả nhận dạng cho mô hình phiên bản với mạng tích chập với

4.4 Bảng so sánh kết quả thống kê EER, ACC, FAR, FRR của hai

DUT.LRCC

Trang 10

DANH MỤC CÁC HÌNH

Số hiệu

1.9 Các điểm minutiae Rigde Ending và Bifurcation [9] 10 1.10 Bề mặt của ảnh vân tay với các đường vân (ridge) và các rãnh

1.11

Hình ảnh vân tay do các yếu tố xấu gây ra Từ trái qua phải : Sự đổi

chỗ, Sự quay, Sự chồng chéo đường vân, Sự nhiễu phi tuyến và

2.6 Sơ đồ huấn luyện mạng neural trong học giám sát với y:Tín hiệu ra

của mạng d : Tín hiệu ra mong muốn x Tín hiệu vào của mạng 18

2.12 So sánh giữa lớp tích chập và lớp tích chập chuyển vị 23 2.13 Lớp tích chập chuyển vị với ma trận bộ lọc kích thước 2x2 23

DUT.LRCC

Trang 11

Số hiệu

3.1 Sơ đồ mô tả mô hình nhận diện vân tay phiên bản với bộ lọc Gabor 29 3.2 Hình ảnh đầu vào và kết quả sau khi phân vùng vân tay 30 3.3 Hình ảnh đầu vào và kết quả sau khi dự đoán hướng biên cục bộ 31

3.5 Hình ảnh đầu vào và kết quả sau khi dự đoán tần số biên cục bộ 33

3.7 Hình ảnh đầu vào và kết quả sau khi nâng cao hình ảnh vân tay 35

3.10 Sơ đồ mô tả mô hình nhận diện vân tay phiên bản với mạng tích

3.16 Giao diện chính chương trình nhận diện vân tay trước vào sau khi

DUT.LRCC

Trang 12

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Nhận dạng dấu vân tay là một trong những công nghệ sinh trắc học được ứng dụng rộng rãi Sự phát triển của công nghệ đã làm thay đổi từ việc lăn tay trên mực và lưu trữ trên giấy sang quét trên máy và lưu trữ kỹ thuật số Nhờ đó đạt được nhiều kết quả quan trọng và trở thành một trong những phương pháp sinh trắc học tin cậy nhất

Đa số các hệ thống bảo mật hiện nay sử dụng mật khẩu hay mã PIN (Personal Identification Number) nhưng không thật sự hiệu quả vì khó nhớ, dễ quên, dễ bị đánh cắp và có nhiều trở ngại trong quá trình sử dụng Hệ thống nhận dạng sinh trắc học nói chung và vân tay nói riêng ra đời để khắc phục khuyết điểm đó Độ ổn định, tính phân biệt cao và tính bảo mật tốt là các đặc điểm nổi bật của hệ thống nhận dạng dấu vân tay giúp công nghệ này ngày càng được ứng dụng phổ biến

Thực tế, hiện nay đã có rất nhiều hệ thống nhận dạng dấu vân tay AFIS đạt tới

độ chính xác rất cao, được ứng dụng cho các mục đích khác nhau như: bảo mật, giám sát, chấm công… với cơ sở dữ liệu đơn giản hay đồ sộ tùy vào mục đích sử dụng Được áp dụng trong nhiều lĩnh vực như tài chính, quân sự, y học, kinh tế điện tử,… Trong đó, có thể kể đến các hệ thống nhận dạng dấu vân tay được ứng dụng trong thực

tế như:

· Hệ thống IAFIS của FBI có cơ sở dữ liệu tới hàng trăm triệu vân tay

· Hệ thống điều khiển truy cập: tài khoản ngân hàng, website, cửa ra vào các tòa nhà công cộng, nhà ở thông minh, trường học, bệnh viện, cơ quan chính phủ,…

cho việc điều khiển cũng như giám sát theo ý muốn người dùng

Thiết bị nhận dạng vân tay thông minh INVIXIUM X

· Thiết bị nhận dạng dấu vân tay cho các bệnh viện, khu công nghiệp, cơ quan như Finger Hamter 2, Verifiti P5100, Secugen Hamter Plus,…

· Hệ thống nhận dạng vân tay được sử dụng trên các điện thoại thông minh

DUT.LRCC

Trang 13

Công nghệ Touch ID ứng dụng trên Iphone

· Hệ thống giám sát, theo dõi, hộ chiếu điện tử,…

· Ứng dụng thay thế thẻ tính tiền siêu thị, thẻ thanh toán quốc tế, thẻ ATM [1]

Hệ thống nhận diện vân tay ứng dụng trên máy rút tiền ATM

2 Mục tiêu nghiên cứu

Xây dựng một chương trình phần mềm của hệ thống nhận dạng vân tay sử dụng mạng neural tích chập với phương pháp one-shot learning trên máy tính với hiệu suất trên 90% và độ tin vậy cao ứng dụng vào hệ thống điều khiển thang máy

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu:

Lý thuyết công nghệ sinh trắc và vấn đề bảo mật

Cơ sở nhận dạng vân tay

Trang 14

Cơ sở dữ liệu

Thiết kế và phân tích hệ thống

4 Phương pháp nghiên cứu

Phương pháp luận của luận văn là kết hợp nghiên cứu lý thuyết và mô phỏng để làm rõ nội dung đề tài Cụ thể như sau:

Nghiên cứu phương pháp nâng cao ảnh vân tay trên cơ sở thuật toán xử lý ảnh

Nghiên cứu mô hình nhận dạng ảnh vân tay

Chương trình nhận dạng vân tay được xây dựng bằng ngôn ngữ Python, với thư viện OpenCV, Tensorflow Giao diện của chương trình được xây dựng bằng công cụ QtDesign và thư viện PyQT5

Đánh giá kết quả thực hiện

5 Ý nghĩa khoa học và thực tiễn của đề tài

Bên cạnh thuật toán mang ý nghĩa khoa học trong lĩnh vực nhận dạng vân tay,

đề tài còn đề xuất phương án xây dựng một chương trình mô phỏng, xử lý ảnh vân tay

để đối sánh vân tay và ứng dụng mục đích vào hệ thống thang máy thông minh nhận dạng vân tay

6 Thời gian thực hiện đề tài

Tháng 12 / 2019

Xây dựng đề cương chi tiếtNghiên cứu cơ sở lý thuyết nhận dạng vân tay

Hoàn thiện đề cương chi tiết

Thực hiện chương 1Tháng 1 / 2020

Nghiên cứu về hệ thống nhận dạng vân tayTìm hiểu về phương pháp nhận dạng vân tay

Hoàn thiện chương 1Thực hiện chương 2

Tháng 6 / 2020 Hoàn chỉnh toàn bộ luận văn

Kết luận và đề xuất hướng phát triển đề tài Hoàn thiện luận văn

DUT.LRCC

Trang 15

7 Cấu trúc luận văn

Với đề tài “Nhận dạng vân tay sử dụng mạng neural nhân tạo ứng dụng vào hệ thống thanh máy”, Tập trung vào việc nghiên cứu, xây dựng và thực thi hệ

thống nhận dạng dấu vân tay sử dụng mạng neural tích chập với phép học one-shot

Nội dung đồ án gồm 4 chương :

Chương 1 : Tổng quan về các phương pháp nhận dạng vân tay

Chương 2 : Giới thiệu mạng neural nhân tạo, mạng neural tích chập và one-shot

learning Chương 3 : Thiết kế, xây dựng chương trình nhận diện vân tay sử dụng one-shot

learning ứng dụng vào hệ thống thang máy Chương 4 : Thực nghiệm và kết quả đánh giá

DUT.LRCC

Trang 16

Chương 1 TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP NHẬN DIỆN DẤU VÂN TAY

Ngày nay, kỹ thuật sinh trắc học được ứng dụng ngày càng rộng rãi Trong đó, nhận dạng dấu vân tay được xem là một trong những kỹ thuật hoàn thiện và đáng tin cậy nhất Chương này trình bày tổng quát các hệ thống sinh trắc học và sơ lược về các quá trình cần thiết và điều cần quan tâm khi xây dựng hệ thống nhận dạng dấu vân tay

1.1 Tổng quát về các hệ thống sinh trắc học

Kết quả của việc xây dựng các hệ thống sinh trắc học thực tế là xác định xem đặc trưng riêng của các nhân sẽ được nhận biết như thế nào Dựa vào phạm vi ứng dụng, hệ thống sinh trắc học có thể được gọi là hệ thống đăng ký, hệ thống xác thực hoặc hệ thống nhận dạng

Hình 1.1 Mô tả quy trình lấy mẫu vân tay đầu vào

Hệ thống đăng ký mẫu (Enrollment System) thực hiện các việc lấy vân tay sau

đó trích xuất các đặc trưng đi kèm của vân tay đó sau đó lưu lại tập đặc trưng đó làm database để xây dựng các hệ thống nhận dạng

Hệ thống xác thực (Verification System) dùng để chứng thực một cá nhân có thuộc hệ thống hay không, bằng cách so sánh đặc tính sinh trắc học thu được với mẫu sinh trắc học được lấy trước đó của cùng một cá nhân và đã được lưu trong hệ thống

Hệ thống xác thực có thể từ chối hoặc chấp nhận định danh mà cá nhân khai báo

Hệ thống định danh (Identification System) thực hiện nhận dạng cá nhân bằng cách tìm kiếm trong toàn bộ cơ sở dữ liệu để nhận dạng Việc so sánh một – nhiều này được thành lập nếu dữ liệu của cá nhân đó hiện có trong cơ sở dữ liệu và hệ thống sẽ trả về định danh của mẫu trong cơ sở dữ liệu trùng khớp với cá nhân đó Trong trường hợp không tìm thấy mẫu trùng khớp hệ thống sẽ đưa ra thông báo phù hợp

DUT.LRCC

Trang 17

Hình 1.2 Sơ đồ khối của hệ thống đăng ký [6]

Hình 1.3 Sơ đồ khối của hệ thống xác thực [6]

Hình 1.4 Sơ đồ khối của hệ thống định danh [6]

1.1.1 Các khối và chức năng

Scanner: đây là khối quan trọng để thu thập mẫu vân tay thông qua bộ cảm

biến sinh trắc học thường là đầu đọc vân tay Ngoài ra, khối này còn có thể có các thành phần khác như bàn phím, màn hình,… để lấy mẫu các loại dữ liệu khác trong một hệ thống nhận dạng dấu vân tay

Feature extractor: đây là khối sẽ rút trích đặc trưng từ vân tay thu thập được từ

khối scanner đầu vào Mục đích của khối rút trích đặc trưng này để tạo ra mẫu với những chi tiết riêng biệt của vân tay đó nhưng không gian nhỏ hơn để nhận dạng vân tay Đây chính là cơ sở cho việc nhận dạng

Template Storage: khối dùng để lưu trữ những tập đặc trưng ứng với từng vân

tay sau đó sắp xếp và lưu trữ trong hệ thống

Matcher: khối đối sánh thực hiện so khớp giữa tập đặc trưng được lưu trữ trong

khối lưu trữ và tập đặc trưng vân tay đầu vào bằng cách tính toán sự tương đồng của từng cặp điểm giữa tập đặc trưng sau đó so sánh với ngưỡng cho trước để cho ra kết quả cuối cùng Nếu điểm trùng khớp lớn hơn ngưỡng thì cá nhân đó được chấp nhận, ngược lại thì bị từ chối

DUT.LRCC

Trang 18

1.1.2 Các bước xử lý

Sử dụng bốn thành phần trên, ba bước xử lý có thể được thực hiện là đăng ký, xác thực và định danh Hệ thống xác thực sử dụng các bước đăng ký và xác thực còn

hệ thống định danh sử dụng các bước đăng ký và định danh Sau đây là ba bước xử lý:

 Đăng ký: người dùng đăng ký thông tin cá nhân vào hệ thống lưu trữ sinh

trắc học Trong suốt quá trình đăng ký, các đặc trưng sinh trắc học của đối tượng được lấy bằng máy quét sinh trắc học để tạo thành mẫu Bước kiểm tra chất lượng được thực hiện để chắc chắn rằng mẫu lấy được sẽ được xử lý một cách tin cậy ở các bước kế tiếp Sau đó, khối trích đặc trưng được sử dụng để tạo ra tập đặc trưng và tạo mẫu đăng

ký Cuối cùng, mẫu sẽ được đưa vào lưu trữ trong hệ thống cùng với các thông tin của người dùng

 Xác thực: bước xác thực thích hợp cho việc khẳng định lại việc khai báo

định danh của đối tượng Trong suốt quá trình nhận dạng, ID của đối tượng được cung cấp để khai báo danh tính, máy quét sinh trắc học sẽ lấy các đặc trưng của đối tượng

và chuyển nó sang mẫu và được xử lý kỹ hơn bằng bước trích đặc trưng để hình thành tập đặc trưng Tập đặc trưng này sẽ được đưa vào khâu đối sánh để so sánh với mẫu đã đăng ký của đối tượng Bước xác thực sẽ quyết định là khớp hay không khớp

 Định danh: trong quá trình định danh, đối tượng không cần khai báo ID và hệ

thống sẽ so sánh tập đặc trưng của đối tượng lấy từ mẫu sinh trắc học từ máy quét với tất

cả các mẫu có trong cơ sở dữ liệu, kết quả đầu ra là danh sách các đối tượng rỗng (nếu không trùng khớp) hoặc bao gồm một hoặc nhiều ID trùng với mẫu đã đăng ký

1.2 Cơ sở lý thuyết về vân tay

1.2.1 Đặc tính vân tay

Tính cá thể: không có sự giống nhau tuyệt đối hai vân tay của hai người bất kì

trên thế giới dù đó là song sinh cùng trứng

Tính bền vững: vân tay của một người không thay đổi trong suốt thời gian

sống Nếu có gặp phải tổn thương thì vân tay sẽ phục hồi lại cấu trúc đường vân trước

đó

Tính pháp lý: vân tay này được ghi nhận về mặt pháp lý Đồng thời chúng ta

cũng có rất nhiều công cụ hữu hiệu để chứng minh tính xác thực của một vân tay như

là kỹ thuật phân tích méo, kỹ thuật tách vân

1.2.2 Cấu trúc vân tay

Vân tay được thu nhận từ lớp biểu bì da với cấu trúc dễ nhận thấy nhất là vân lồi và vân lõm Trong ảnh vân tay, vân lồi có màu tối trong khi vân lõm có màu sáng Vân lồi có độ rộng từ 100 µm đến 300 µm Độ rộng của một cặp vân lồi lõm cạnh nhau là 500 µm Cấu trúc đường vân có thể khôi phục khi gặp chấn thương Vân lồi và

DUT.LRCC

Trang 19

vân lõm thường chạy song song với nhau rồi có thể rẽ nhánh hoặc kết thúc Ở mức độ tổng thể, vân tay có thể chia thành các dạng là loop, delta, whorl và được kí hiệu tương ứng là ∩, Δ , Ω Vùng whorl có thể được mô tả bởi hai vùng loop đối diện nhau

Hình 1.5 Vùng Whorl, Loop, Arch trên vân tay [8]

Ở mức độ cục bộ, Francis Galton (1822-1911) là người đầu tiên phân loại chi tiết theo bốn loại bao gồm: điểm kết thúc, điểm rẽ hai, điểm rẽ ba và điểm không xác định Trong khi đó mô hình chi tiết của cục điều tra liên bang Mỹ chỉ có hai loại chi tiết là điểm kết thúc và điểm rẽ hai Mỗi chi tiết được đặc trưng bởi phân lớp, hệ tọa độ (x,y), góc tạo bởi tiếp tuyến của đường vân tại chi tiết và trục ngang [3]

Theo giải phẫu vân tay thì có 7 loại chi tiết trên vân tay như hình bên dưới:

Vân kết thúc: Ridge ending

Vân rẽ nhánh: Bifurcation

Vân vòng: Lake

Vân độc lập: Independent Ridge

Vân đơn: Point or Island

Vân cựa gà: Spur

Vân chéo: Crossover

DUT.LRCC

Trang 20

Hình 1.6 7 chi tiết thường gặp trên vân tay [8]

1.2.3 Các đặc trưng vân tay và cách biểu diễn

Trên các ảnh vân tay có các đặc điểm đặc trưng Đó là những điểm đặc biệt mà

vị trí của nó không trùng lặp trên các vân tay khác nhau Điểm đặc trưng của vân tay được phân thành hai loại là singularity và minutiae

1.2.3.1 Điểm Singularity

Đây là những vùng có cấu trúc khác thường so với những vùng bình thường khác (thường có cấu trúc song song) được gọi là singularity Có hai loại singularity là core và delta

Hình 1.7 Các điểm singularity core và delta [8]

Điểm core thường có một số dạng như sau:

Hình 1.8 Một số loại core thường gặp [6]

DUT.LRCC

Trang 21

1.2.3.2 Điểm Minutiate

Những điểm đường vân kết thúc (Rigde Ending) hoặc rẽ nhánh (Bifurcation) được gọi chung là minutiae

Hình 1.9 Các điểm minutiae Rigde Ending và Bifurcation [9]

1.2.3.3 Cách biểu diễn vân tay

Hình ảnh vân tay thường được biểu diễn như là một bề mặt hai chiều Với các vân lồi (có màu tối) và các vân lõm (có màu sáng) trong không gian

Hình 1.10 Bề mặt của ảnh vân tay với các đường vân (ridge) và các rãnh (ravine) [9]

1.3 Các yếu tố ảnh hưởng đến nhận dạng vân tay

Nhận dạng dấu vân tay là một bái toán cực kì khó, chủ yếu do sự thay đổi dấu

in của cùng một vân tay Các yếu tố chính làm các dấu in khác nhau được trình bày dưới đây:

 Sự đổi chỗ: một ngón tay có thể đặt ở các vị trí khác nhau trên bộ cảm biến

làm tịnh tiến ảnh vân tay

 Sự quay: cùng một vân tay có thể quay ở các góc quay khác nhau trên bề

mặt bộ cảm biến Mặc dù bộ hướng dẫn ngón tay được gắn liền trên các máy quét thương mại, nhưng trong thực tế tồn tại sự quay không cố ý lên tới ±200 theo chiều dọc

 Sự chồng chéo đường vân: sự đổi chỗ và sự quay vân tay thường làm cho

một phần vân tay bị đổ ra ngoài vùng nhìn thấy của bộ cảm biến, kết quả là xuất hiện

sự chồng chéo giữa các vùng vân cạnh nhau của mẫu và các vân tay đầu vào

 Sự nhiễu phi tuyến và méo vân: do áp lực da gây ra các biến dạng kéo dãn

khác nhau, mồ hôi cũng như bề mặt vân và cảm biến gây ra nhiễu với nhiều mức độ

DUT.LRCC

Trang 22

 Các lỗi trích chọn đặc trưng: tính gần đúng và tính chất không hoàn hảo

các phép biến đổi làm cho gây ra các lỗi khi trích chọn đặc trưng trước khi nhận dạng

Hình 1.11 Hình ảnh vân tay do các yếu tố xấu gây ra

Từ trái qua phải : Sự đổi chỗ, Sự quay, Sự chồng chéo đường vân, Sự nhiễu phi tuyến

và méo vân

1.4 Kết luận chương

Qua chương này, ta đã có cái nhìn tổng quan về các hệ thống sinh trắc học nói chung cũng như hệ thống nhận dạng dấu vân tay nói riêng và những khái niệm cơ bản

về cấu tạo, đặc tính vân tay Đồng thời cho biết sơ lược về các yếu tố ảnh hưởng đến

hệ thống Đến chương sau sẽ trình bày rõ ràng và chi tiết hơn về các thuật toán được

sử dụng để xây dựng hệ thống nhận dạng dấu vân tay

DUT.LRCC

Trang 23

Chương 2 GIỚI THIỆU MẠNG NEURAL NHÂN TẠO, MẠNG NEURAL TÍCH

CHẬP VÀ ONE-SHOT LEARNING

Chương này tập trung nói về mạng neural nhân tạo, mạng neural tích chập và phép học one-shot, tìm hiểu mô tình mạng, thuật toán huấn luyện

2.1 Tổng quan về mạng neural nhân tạo

2.1.1 Mạng neural nhân tạo là gì ?

Mạng neural nhân tạo, Artificial Neural Network (ANN) gọi tắt là mạng neural,

là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ neural sinh học Nó được tạo nên từ một số lượng lớn các phần tử (gọi là phần tử xử lý hay neural) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó

Một mạng neural nhân tạo được cấu hình cho một ứng dụng cụ thể nào đó như nhận dạng mẫu, phân loại dữ liệu,… thông qua một quá trình học từ tập các mẫu huấn luyện Về bản chất, học chính là quá trình hiệu chỉnh các trọng số liên kết giữa các neural Trong một vài năm trở lại đây, mạng neural nhân tạo đã được nhiều nhà nghiên cứu quan tâm và đã áp dụng thành công trong nhiều lĩnh vực khác nhau như tài chính, y tế, địa chất, vật lý và kỹ thuật Thật vậy, bất cứ ở đâu

có vấn đề về dự báo, phân loại và điều khiển, mạng neural nhân tạo đều có thể ứng dụng được Sự thành công nhanh chóng của mạng neural nhân tạo có thể là

do một số nhân tố chính sau:

 Năng lực: Mạng neural nhân tạo là kỹ thuật mô phỏng rất tinh vi, có khả

năng mô phỏng các hàm cực kỳ phức tạp Đặc biệt, mạng neural nhân tạo hoạt động phi tuyến Trong nhiều năm, mô hình tuyến tính là kỹ thuật được sử dụng rộng rãi trong hầu hết các lĩnh vực, vì thế mô hình tuyến tính có tính chiến lược tối ưu hóa được biết nhiều nhất

2.1.2 Cấu trúc của một mạng neural nhân tạo

Để mô phỏng các tế bào thần kinh và các khớp nối thần kinh của bộ não con người, trong mạng neural nhân tạo cũng có các thành phần có vai trò tương tự là các neural nhân tạo cùng các khớp nối thần kinh

Một neural nhân tạo là một đơn vị tính toán hay đơn vị xử lý thông tin cơ cở cho hoạt động của một mạng neural Cấu trúc của một neural nhân tạo được mô tả ở hình dưới

DUT.LRCC

Trang 24

Hình 2.1 Mô hình cấu trúc của neural nhân tạo

Các thành phần cơ bản của một neural nhân tạo bao gồm:

 Tập các đầu vào: là các tín hiệu vào (input signals) của neural, các tín hiệu

này thường được đưa vào dưới dạng một vector N chiều

 Tập các liên kết: mỗi liên kết được thể hiện bởi một trọng số (gọi là trọng số

liên kết – synaptic weight) Trọng số liên kết giữa tín hiệu vào thứ j với neural k thường được kí hiệu là Thông thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình huấn luyện mạng

 Bộ tổ hợp tuyến tính: thường dùng để tính tổng của tích các đầu vào với

trọng số liên kết của nó

 Hệ số hiệu chỉnh hay còn gọi là độ lệch (bias): hệ số này thường được đưa

vào như một thành phần của hàm kích hoạt

 Hàm kích hoạt: hàm này được dùng để giới hạn phạm vi đầu ra của mỗi

neural Nó nhận đầu vào là kết quả của bộ tổ hợp tuyến tính và hệ số hiệu chỉnh đã cho Thông thường, phạm vi đầu ra của mỗi neural được giới hạn trong đoạn [0,1] hoặc [-1,1] Các hàm kích hoạt rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến Việc lựa chọn hàm kích hoạt nào là tùy thuộc vào từng bài toán và kinh nghiệm của người thiết kế mạng Một số hàm kích hoạt thường sử dụng trong các mô hình mạng neural được đưa ra trong Hình 2.2

 Đầu ra: là tín hiệu đầu ra của một neural, với mỗi neural sẽ có tối đa là một

đầu ra

Dưới dạng công thức toán học, chúng ta có thể mô tả cấu trúc của một neural k bằng cặp công thức sau:

DUT.LRCC

Trang 25

= (2.1)

= ( + )(2.2)

Với x1, x2, , xm là các tín hiệu đầu vào; wk1,wk2, ,wkm là các trọng số liên kết của neural k; vk là đầu ra bộ tổ hợp tuyến tính tương ứng; bk là hệ số hiệu chỉnh; f

là hàm kích hoạt và yk là tín hiệu đầu ra của neural

Hệ số hiệu chỉnh bk là một tham số ngoài của neural nhân tạo k Chúng ta có thể thấy được sự có mặt của nó trong công thức (2.2)

Các hàm kích hoạt, ký hiệu bởi f(v), xác định đầu ra của neural Dưới đây là

các kiểu hàm kích hoạt cơ bản:

 Hàm giới hạn: hàm này được mô tả trong Hình 2.3a, có:

( ) = 1:0: ≥ 0< 0 (2.3)

Hàm giới hạn này thường được gọi là hàm Heaviside

 Hàm giới hạn đối xứng: hàm này được mô tả trong Hình 2.3b:

- Hàm sigmoid (mô tả hình 2.3f) là dạng chung nhất của hàm kích hoạt được

sử dụng trong cấu trúc mạng neural nhân tạo Đầu vào là số thực âm rất nhỏ sẽ cho đầu

ra tiệm cận với 0, ngược lại, nếu đầu vào là một số thực dương lớn sẽ cho đầu ra là một số tiệm cận với 1:

Với a là tham số độ dốc

DUT.LRCC

Trang 26

- Hàm tansig (mô tả hình 2.3g): đầu vào là một số thực và chuyển thành một

giá trị trong khoảng (-1; 1) Cũng như Sigmoid, hàm tansig bị bão hoà ở 2 đầu

(gradient thay đổi rất ít ở 2 đầu) :

Hình 2.2 Một số hàm kích hoạt thông dụng

DUT.LRCC

Trang 27

2.2 Kiến trúc mạng neural

Cách thức kết nối các neural trong mạng xác định kiến trúc của mạng Các neural trong mạng có thể kết nối đầy đủ (fully connected) tức là mỗi neural đều được kết nối với tất cả các neural khác, hoặc kết nối cục bộ (partially connnected) chẳng hạn chỉ kết nối các neural trong các tầng khác nhau Người ta chia ra các loại kiến trúc mạng sau :[13][14][21]

Mạng tự tổ chức (self-organizing): là mạng có các neural đầu vào cũng là các

neural đầu ra Mạng Hopfield là một kiểu mạng tự tổ chức [21]

Hình 2.3 Mạng tự tổ chức

Mạng truyền thẳng (feed–forward): là kiểu kiến trúc mạng không có các kết

nối ngược trở lại từ các neural đầu ra về các neural đầu vào; mạng không lưu lại các giá trị output trước và các trạng thái kích hoạt của neural Các mạng neural truyền thẳng cho phép tín hiệu di chuyển theo một đường duy nhất, từ đầu vào tới đầu ra, đầu

ra của một tầng bất kì sẽ không ảnh hưởng tới tầng đó Các mạng kiểu Perceptron là mạng truyền thẳng

Hình 2.4 Mạng có kiến trúc truyền thẳng

Mạng hồi quy (feed–back): là kiểu kiến trúc mạng có các kết nối từ neural đầu

ra tới neural đầu vào Mạng lưu lại các trạng thái trước đó và trạng thái tiếp theo không

DUT.LRCC

Trang 28

chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc vào các trạng thái trước đó của mạng

Hình 2.5 Mạng có kiến trúc hồi quy

Trong tất cả các kiến trúc mạng neural nói ở trên thì mạng neural truyền thẳng

đa lớp (Multi-Layer Perceptron – MLP) được sử dụng rộng rãi nhất Một mạng MLP tổng quát là mạng có n (n ≥ 2) lớp Trong đó gồm một lớp đầu ra (lớp thứ n) và (n-1) lớp ẩn Thông thường, trong mạng MLP thì lớp đầu vào không được tính đến Tuy nhiên chỉ cần với một lớp ẩn thì mạng neural đã có thể mô tả được mọi hàm phi tuyến

2.3 Huấn luyện mạng neural nhận tạo

Có ba phương pháp học phổ biến là học có giám sát (Supervised Learning), học không giám sát (Unsupervised Learning) và học tăng cường (Reinforcement Learning) [13][21]

2.3.2 Thuật toán huấn luyện mạng neural

Huấn luyện mạng neural là điều chỉnh, xác lập các giá trị trọng số liên kết – còn được gọi là bộ trọng số kết nối của mạng (ký hiệu là W) giữa các neural trong mạng và của các ngưỡng theo một thuật toán nào đó Trong học giám sát, các cặp tín hiệu vào

ra được dùng để huấn luyện mạng sao cho tín hiệu ra của mạng tiệm cận tới tín hiệu ra mong muốn của hệ thống (Hình 2.6) [16]

DUT.LRCC

Trang 29

Sai số dự báo là sai lệch giữa tín hiệu ra mong muốn và tín hiệu ra của mạng:

( , ) = ( ) − ( , ) (2.10)

Bộ trọng số của mạng nhận được sau huấn luyện chính là ma trận W làm tối thiểu tiêu chuẩn ước lượng:

Hình 2.6 Sơ đồ huấn luyện mạng neural trong học giám sát với

y:Tín hiệu ra của mạng

d : Tín hiệu ra mong muốn

x Tín hiệu vào của mạng

Chúng ta không chỉ cần một thuật toán để thay đổi các trọng số của mạng mà chúng ta còn phải thiết lập một thuật toán huấn luyện phù hợp với bài toán đưa ra Không có bất kỳ thuật toán nào là tối ưu nhất mà chỉ là thuật toán đó tốt nhất cho bài toán cụ thể nào mà thôi Vì vậy cần tìm ra thuật toán nào là tốt nhất cho bài toán của chúng ta

Mục tiêu của huấn luyện mạng là để có đầu ra mong muốn với một số đầu vào đưa ra Lỗi là sự chênh lệch giữa đầu ra thực tế và đầu ra mong muốn, lỗi này phụ thuộc vào các trọng số và cần phải điều chỉnh trọng số để giảm thiểu lỗi

Một mạng neural tùy ý được đưa ra với vector W là vector trọng số thuộc không gian RN, N là số lượng trọng số và ngưỡng

Trong phạm vi luận văn này, mạng truyền thẳng đa lớp và thuật toán lan truyền ngược các sai số (Back-Propagation) được sử dụng để huấn luyện mạng neural [14]

2.3.3 Thuật toán tối ưu Adam

Adaptive Moment Estimation (Adam)[14] là thuật toán tối ưu có khả năng cập nhật trọng số của mạng neural trong quá trình đào tạo có nhưng ưu điểm :

- Đơn giản để thực hiện

DUT.LRCC

Trang 30

- Tính toán mang lại hiệu quả

- Yêu cầu ít bộ nhớ

- Thích hợp với các bài toán có độ biến thiên không ổn định và dữ liệu training phân mảnh

- Phù hợp với bài toán có dữ liệu hoặc tham số lớn

- Các siêu tham số được biến thiên một cách hiệu quả và yêu cầu ít điều chỉnh Giống với Adadelta và RMSprop, thuật toán Adam duy trì trung bình bình phương độ dốc (slope) quá khứ và cũng đồng thời duy trì trung bình độ dốc quá khứ , giống momentum

Trong khi momentum giống như một quả cầu lao xuống dốc, thì Adam lại giống như một quả cầu rất nặng và có ma sát (friction), nhờ vậy dễ dàng vượt qua local minimum và đạt tới điểm tối ưu nhất (flat minimum)

Giá trị trung bình bình phương độ dốc quá khứ và trung bình độ dốc quá khứ được tính bằng công thức sau :

Trong đó :

· = ∇ ( ) là độ dốc, tức là vector của đạo hàm riêng

· , là tỷ lệ suy giảm theo cấp số nhân cho mỗi thời điểm Có giá trị mặc định lần lượt là 0.9 và 0.999

Công thức (2.12, 2.13) cập nhật giá trị trung bình động theo cấp số nhân của độ dốc và bình phương độ dốc mà ở đó tham số , ∈ [0, 1) kiểm soát tỉ lệ suy giảm theo cấp số nhân của trung bình động Bản thân trung bình động là quá trình tối

ưu tại thời điểm đầu tiên (trung bình) và thời điểm thứ hai (phương sai không kiểm soát) của độ dốc Tuy nhiên, trung bình động này được khởi tạo là vector 0’s, dẫn đến thời điểm tối ưu bị lệch về không, đặc biệt trong suốt thời gian khởi tạo, và đặc biệt khi có tỷ lệ suy giảm nhỏ Để chống lại sự sai lệch đó bằng cách tối ưu thời điểm thứ nhất và thời điểm thứ hai ( , ) :

Trang 31

nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay drone giao hàng tự động

Convolution Neural Network (CNN – Mạng neural tích chập) là một trong những mô hình Học sâu (Deep Learning) tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay Cụ thể CNN là một

mô hình mạng neural nhân tạo, mô hình thường được dùng trong bài toán phân loại ảnh đối tượng hoặc một mô-đun rút trích đặc trưng của hình ảnh trong nhiều bài toán khác nhau Về cơ bản, mô hình bao gồm các lớp như sau :

· Convolution layer (lớp tích chập)

· Rectified Linear Unit layer (ReLU layer - lớp tinh chỉnh đơn vị tuyến tính)

· Pooling layer (lớp gộp chung)

· Fully connected layer (lớp kết nối hoàn chỉnh)

Ngoài ra, thuật toán dùng để huấn luyện Stochastic gradient descent và tính toán hàm mất mát (loss function) cũng sẽ được giới thiệu ở phần này

Trang 32

Hình 2.8 Các thành phần của tích chập[21]

Để dễ hình dung, ta có thể xem tích chập như một cửa sổ trượt (sliding window)

áp đặt lên một ma trận Bạn có thể theo dõi cơ chế của tích chập qua hình minh họa bên dưới

Hình 2.9 Minh họa tích chập

Ta coi ma trận bên trái là một ảnh có 2 giá trị là 0 và 1 Mỗi giá trị của ma trận tương đương với một điểm ảnh (pixel), 0 là màu đen, 1 là màu trắng (nếu là ảnh grayscale thì giá trị biến thiên từ 0 đến 255)

Cửa sổ trượt là hành động của các bộ lọc (filter) hay bộ trích đặc trưng (feature detector) Ở đây, ta thường dùng một ma trận bộ lọc 3×3 nhân từng thành phần tương ứng (element-wise) với ma trận ảnh bên trái Giá trị đầu ra do tích của các thành phần này cộng lại Kết quả của tích chập là một ma trận (convoled feature) sinh ra từ việc trượt ma trận bộ lọc và thực hiện tích chập cùng lúc lên toàn bộ ma trận ảnh bên trái Dưới đây là một vài ví dụ của phép toán tích chập

Ta có thể làm mờ bức ảnh ban đầu bằng cách lấy giá trị trung bình của các điểm ảnh xung quanh cho vị trí điểm ảnh trung tâm :

DUT.LRCC

Trang 33

Hình 2.10 Ảnh mờ hơn sau khi áp dụng phép tích chập

Ngoài ra, ta có thể phát hiện biên cạnh bằng cách tính vi phân (độ dị biệt) giữa các điểm ảnh lân cận

Hình 2.11 Ảnh được phát hiện biên sau khi chập

2.4.3 Lớp tích chập chuyển vị (Transposed Conlution layer)

Vai trò của tích chập chuyển vị xuất phát từ nhu cầu biến đổi theo quá trình ngược lại của mạng tích chập thông thường hay còn gọi là giải chập (Deconvolutional Neural Network) Gỉa sử từ ma trận đầu vào có kích thước ( , ℎ ) sau khi áp dụng phép tích chập thông thường thu được kích thước ( , ℎ ) Tích chập chuyển vị sẽ biến đổi từ một ma trận có kích thước ( , ℎ ) của đầu ra sang ma trận có kích thước ( , ℎ ) của đầu vào trong khi vẫn duy trì được các kiểu kết nối phù hợp với tích chập

Trên thực tế thì có thể coi tích chập chuyển vị là một quá trình ngược của tích chập thông thường khi mỗi một đặc trưng (feature) được ánh xạ sang các điểm ảnh thay vì ngược lại từ các điểm ảnh sang đặc trưng (feature)

DUT.LRCC

Trang 34

Hình 2.12 So sánh giữa lớp tích chập và lớp tích chập chuyển vị

Tính tích chập chuyển vị bằng cách di chuyển các điểm ảnh của ma trận đầu vào từ trái qua phải và từ trên xuống dưới Sau đó lấy giá trị của điểm ảnh nhân với ma trận bộ lọc sẽ thu được ma trận đầu ra có kích thước tương đương Tùy vào bước nhảy quy định là bao nhiêu mà sẽ di chuyển kết quả của mỗi lần nhân điểm ảnh với bộ lọc sang bấy nhiêu đơn vị Sau cùng tính tổng các vị trí tương ứng của các ma trận kết quả

để thu được ma trận chuyển vị Trong trường hợp bước nhảy không bằng kích thước

ma trận bộ lọc thì ma trận kết quả tích chập sẽ chồng chéo lên nhau lên nhau Khi đó

sẽ cộng dồn chúng

Hình 2.13 Lớp tích chập chuyển vị với ma trận bộ lọc kích thước 2x2

Có ba tham số chính ảnh hưởng đến kích thước của đầu ra trong phép nhân tích chập chuyển vị bao gồm số bước nhảy , kích thước bộ lọc và kích thước của ma trận đầu vào Công thức chung được tính như sau:

= ( − 1) × + (2.17) Trong trường hợp có thêm đệm vào đầu ra thì có giá trị:

= ( − 1) × + + (2.18)

Ví dụ : = 2, = 3, = 2, = 2 thì đầu ra có kích thước là = 7

Từ công thức (2.18) suy ngược ra :

2.4.4 Lớp tinh chỉnh đơn vị tuyến tính (ReLU layer)

Lớp này thường được cài đặt ngay sau lớp Convolutional Lớp này sử dụng hàm

kích hoạt ReLU:

DUT.LRCC

Trang 35

Hình 2.14 Đồ thị hàm ReLU

Hàm ReLU có công thức như sau :

Nói một cách đơn giản, lớp này có nhiệm vụ chuyển toàn bộ giá trị âm trong kết

quả lấy từ lớp Convolutional thành giá trị 0

Ý nghĩa của cách cài đặt này chính là tạo nên tính phi tuyến cho mô hình Tương tự như trong mạng truyền thẳng, việc xây dựng dựa trên các phép biến đổi tuyến tính sẽ khiến việc xây dựng đa tầng đa lớp trở nên vô nghĩa Có rất nhiều cách

để khiến mô hình trở nên phi tuyến như sử dụng các hàm kých hoạt sigmoid, tanh,…

nhưng hàm f(x)=max(0, x) dễ cài đặt, tính toán nhanh mà vẫn hiệu quả

Việc sử dụng hàm ReLU (Rectified Linear Unit) cho kết quả tốt hơn ở các khía

cạnh:

· Tính toán đơn giản

· Tạo ra tính thưa (sparsity) ở các neural ẩn Ví dụ như sau bước khởi tạo ngẫu nhiên các trọng số, khoảng 50% các neural ẩn được kích hoạt (có giá

Các phương thức lấy phổ biến trong lớp Pooling :

· MaxPooling ( lấy giá trị lớn nhất)

· MinPooling (lấy giá trị nhỏ nhất)

· AveragePooling (lấy giá trị trung bình)

DUT.LRCC

Trang 36

Loại Pooling ta thường gặp nhất là Max pooling , lấy giá trị lớn nhất trong một pooling window Pooling hoạt động gần giống với convolution, nó cũng có 1 cửa

sổ trượt gọi là pooling window, cửa sổ này trượt qua từng giá trị của ma trận dữ liệu

đầu vào (thường là các feature map trong convolutional layer), chọn ra một giá trị từ các gía trị nằm trong cửa sổ trượt (với max pooling ta sẽ lấy giá trị lớn nhất)

Để hiểu rõ hơn chúng ta xét một ảnh có kých thước 6×6 như sau:

Hình 2.15 Tính toán với phương pháp MaxPooling

· Filter có kých thước 2×2

· Bước trượt stride = 2,

· Phương pháp sử dụng là MaxPooling

Filter sẽ lần lượt duyệt qua ảnh, với mỗi lần duyệt chỉ có giá trị lớn nhất trong 4

giá trị nằm trong vùng cửa sổ 2×2 của filter được giữ lại và đưa ra đầu ra

Như vậy sau khi qua lớp Pooling, ảnh đầu ra có kých thước 3×3 (kých thước mỗi chiều giảm 2 lần)

2.4.6 Lớp kết nối hoàn chỉnh (The Fully connected layer)

Lớp này tương tự với lớp trong mạng neural truyền thẳng, các giá trị ảnh được liên kết đầy đủ vào node trong lớp tiếp theo Sau khi ảnh được xử lý và rút trích đặc trưng từ các lớp trước đó, dữ liệu ảnh sẽ không còn quá lớn so với mô hình truyền thẳng nên ta có thể sử dụng mô hình truyền thẳng để tiến hành nhận dạng

Tóm lại, lớp Fully-connected đóng vai trò như một mô hình phân lớp đưa ra kết quả và tiến hành dựa trên dữ liệu đã được xử lý ở các lớp trước đó

2.4.7 Hàm mất mát (Loss function)

Trong các bài toán về nhận dạng, phân loại đối tượng, ta cần biết được kết quả

dự đoán cuối cùng mà mô hình dự đoán đối tượng đầu vào sẽ thuộc nhóm nào Để huấn luyện một mạng phân loại đối tượng ta cần xây dựng một hàm mất mát – Loss function Hàm mất mát được áp dụng ở lớp cuối cùng- lớp output của mạng Về cơ bản hàm này thực hiện công việc so sánh sai số giữa giá trị dự đoán hθ(x) của mô hình và

DUT.LRCC

Tiêu đề	Nhận dạng vân tay sử dụng mạng neural nhân tạo ứng dụng vào hệ thống thang máy
Tác giả	Ngô Văn Tiến
Người hướng dẫn	TS. Tăng Anh Tuấn, PGS.TS. Tăng Tấn Chiến
Trường học	Đại Học Bách Khoa - ĐH Đà Nẵng
Chuyên ngành	Kỹ thuật Điện tử
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Đà Nẵng

Định dạng
Số trang	73
Dung lượng	12,53 MB