1. Trang chủ
  2. » Giáo Dục - Đào Tạo

HỆ THỐNG mở KHÓA cửa tự ĐỘNG sử DỤNG NHẬN DẠNG KHUÔN mặt

36 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 2,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Báo cáo đồ án PBL5 - Kỹ thuật máy tínhđã ứng dụng các công nghệ trí tuệ nhân tạo trong việc phân tích và xử lý hình ảnh, API từ Django REST Framework trong việc giao tiếp giữa server và

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN PBL5 - KỸ THUẬT MÁY TÍNH

ĐÀ NẴNG, 06/2022

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 2

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

đã ứng dụng các công nghệ trí tuệ nhân tạo trong việc phân tích và xử lý hình ảnh, API

từ Django REST Framework trong việc giao tiếp giữa server và ứng dụng di động,ESP8266, ESP32 Cam để chụp ảnh, xây dựng ứng dụng di động với React Native đểhiển thị camera thời gian thực, lịch sử các lần nhận diện và điều khiển đóng mở cửa.Sau khi tiến hành và thực hiện đề tài, hệ thống đã sử dụng ổn và hiệu quả Tuy nhiên,vẫn còn một số thiếu sót Trong thời gian đến, nhóm sẽ cố gắng hoàn thiện sản phẩmtốt nhất có thể

Trang 3

BẢNG PHÂN CÔNG NHIỆM VỤ

Sinh viên

Ngô Lê Gia Hưng

Quách Minh Nhật

Nguyễn Mạnh Đức

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1: Sơ đồ tổng quan hệ thốngHình 2: Sơ đồ hoạt động tổng quanHình 3: Mô hình RESTful APIHình 4: Sơ đồ hoạt động RESTful APIHình 5: Django REST FrameworkHình 6: Sơ đồ hệ thống nhận diện khuôn mặtHình 7: Loss function

Hình 8: Norm 1 và norm 2 trong không gian hai chiềuHình 9: Logo React Native

Hình 10: Biểu đồ UsecaseHình 11: Cơ sở dữ liệuHình 12: Bộ dữ liệuHình 13: Ảnh được crop cụ thể của đối tượngHình 14: Vector các ảnh

Hình 15: Kết quả nhận diện khuôn mặtHình 16: Kết quả 50 lần test

Hình 17: Giao diện đăng nhậpHình 18: Giao diện đăng kýHình 19: Giao diện màn hình chínhHình 20: Giao diện xem camera và điều khiển cửaHình 21: Giao diện danh sách lịch sử các lần nhận diệnHình 22: Giao diện chi tiết lịch sử nhận diện

Hình 23: Giao diện thông tin người dùng

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 6

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

LỜI CẢM ƠN

Trong thời gian triển khai thực hiện đồ án, nhóm chúng em xin chân thành cảm

ơn đến cô Bùi Thị Thanh Thanh đã hỗ trợ và hướng dẫn tận tình Trong quá trình thựchiện, khó tránh khỏi những thiếu sót rất mong các thầy cô bỏ qua Nhóm em xin chânthành cảm ơn

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng

Trang 7

MỤC LỤC

TÓM TẮT ĐỒ ÁN

BẢNG PHÂN CÔNG NHIỆM VỤ

DANH MỤC HÌNH ẢNH

LỜI CẢM ƠN

MỤC LỤC

CHƯƠNG 1: TỔNG QUAN

1.Giới thiệu

1.1 Giới thiệu sản phẩm:

1.2 Mục tiêu:

1.3 Các vấn đề cần giải quyết

CHƯƠNG 2: GIẢI PHÁP

2 Các giải pháp

2.1 Sơ đồ tổng quan của hệ thống

2.2 Sơ đồ hoạt động tổng quan

2.3 Linh kiện sử dụng

2.4 Giải pháp truyền thông

2.5 Giải pháp phát hiện và nhận diện khuôn mặt

2.5.1 Tổng quan về hệ thống nhận diện:

2.5.2 Face Detector

2.5.3 Face Encoder

2.5.4 Face identifier

2.5.5 Các pretrain model

2.6 Giải pháp ứng dụng di động

2.6.1 Bài toán

2.6.2 Công nghệ sử dụng

2.6.3 Biểu đồ usecase hệ thống

2.6.4 Server

CHƯƠNG 3: KẾT QUẢ

3 Tổng quan kết quả đạt được

3.1 Kết quả thực tế

3.1.1 Quá trình thực hiện và kết quả phân tích và nhận diện khuôn mặt

3.1.2 Ứng dụng di động

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4 Kết luận và hướng phát triển

4.1 Đánh giá sản phẩm

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 8

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

4.2 Hướng phát triển 25

TÀI LIỆU THAM KHẢO 26

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng

Trang 9

• Xử lý ảnh từ Camera của ESP32 và dữ liệu trước đó.

• Kết nối và cài đặt ESP8266

• Xây dựng hệ thống phân tích và nhận diện khuôn mặt

• Lập trình và viết mã nguồn cho các chức năng

• Ghép nối các phần và chạy thử từ đó điều chỉnh mô hình

Trang 11

Ứng dụng

Server

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 12

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

CHƯƠNG 2: GIẢI PHÁP

2. Các giải pháp 2.1 Sơ đồ tổng quan của hệ thống

Hình 1: Sơ đồ tổng quan hệ thống

Hệ thống bao gồm ESP8266 và ESP32 Cam dùng để chụp ảnh, thiết bị smartphone dùng tương tác và hiển thị kết quả và Django REST Framework để thiết lậpServer Thông qua mạng không dây, điện thoại và ESP32 Cam có thể giao tiếp vớiServer bằng API API này được lập trình dựa trên Django REST Framework

2.2 Sơ đồ hoạt động tổng quan

Hình 2: Sơ đồ hoạt động tổng quan Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Trang 13

Module CP2102

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Trang 15

Restful API:

RESTful API là một tiêu chuẩn dùng trong việc thiết kế API cho các ứng dụng web(thiết kế Web services) để tiện cho việc quản lý các resource Nó chú trọng vào tài nguyên

hệ thống (tệp văn bản, ảnh, âm thanh, video, hoặc dữ liệu động…), bao gồm các trạng thái

tài nguyên được định dạng và được truyền tải qua HTTP.[1]

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 16

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

Hình 3: Mô hình RESTful API

Các thành phần của RESTful API

API (Application Programming Interface) là một tập các quy tắc và cơ chế màtheo đó, một ứng dụng hay một thành phần sẽ tương tác với một ứng dụng hay thànhphần khác API có thể trả về dữ liệu mà bạn cần cho ứng dụng của mình ở những kiểu

dữ liệu phổ biến như JSON hay XML

REST (REpresentational State Transfer) là một dạng chuyển đổi cấu trúc dữ liệu,một kiểu kiến trúc để viết API Nó sử dụng phương thức HTTP đơn giản để tạo cho giaotiếp giữa các máy Vì vậy, thay vì sử dụng một URL cho việc xử lý một số thông tinngười dùng, REST gửi một yêu cầu HTTP như GET, POST, DELETE,… đến một URL

để xử lý dữ liệu

RESTful API là một tiêu chuẩn dùng trong việc thiết kế các API cho các ứng dụngweb để quản lý các resource RESTful là một trong những kiểu thiết kế API được sử dụngphổ biến ngày nay để cho các ứng dụng (web, mobile…) khác nhau giao tiếp với nhau

Chức năng quan trọng nhất của REST là quy định cách sử dụng các HTTPmethod (như GET, POST, PUT, DELETE…) và cách định dạng các URL cho ứng dụngweb để quản các resource RESTful không quy định logic code ứng dụng và không giớihạn bởi ngôn ngữ lập trình ứng dụng, bất kỳ ngôn ngữ hoặc framework nào cũng có thể

sử dụng để thiết kế một RESTful API

Phương thức RESTful hoạt động:

Hình 4: Sơ đồ hoạt động RESTful API Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Trang 17

REST hoạt động chủ yếu dựa vào giao thức HTTP Các hoạt động cơ bản nêu trên

sẽ sử dụng những phương thức HTTP riêng

❖ GET (SELECT): Trả về một Resource hoặc một danh sách Resource

Những phương thức hay hoạt động này thường được gọi là CRUD tương ứng vớiCreate, Read, Update, Delete – Tạo, Đọc, Sửa, Xóa

Giới thiệu về Django REST Framework:

Hình 5: Django REST Framework

Django REST Framework là một framework được cài vào Django, có đầy đủchức năng, đủ sức mạnh để tạo ra các Web APIs mạnh mẽ nhằm làm cầu nối cho các hệthống khác nhau như giữa các client với server Client ở đây là web, mobile, tablet,…

server ở đây là Django, database MySQL,…[2]

Django REST Framework hỗ trợ giao thức truyền tải dữ liệu HTTP thông quacác phương thức như Post, Get, Put, Delete

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 18

Báo cáo đồ án PBL5 - Kỹ thuật máy tính 2.5 Giải pháp phát hiện và nhận diện khuôn mặt 2.5.1 Tổng quan về hệ thống nhận diện:

Hình 6: Sơ đồ hệ thống nhận diện khuôn mặt 2.5.2 Face Detector

Face detection là một module trong hệ thống dùng để xác định các gương mặt có

trong bức ảnh và đánh dấu bằng bounding box Sử dụng model chính đó là MTCNN.[3]

MTCNN viết tắt của Multi-task Cascaded Convolutional Networks Nó là baogồm 3 mạng CNN xếp chồng và đồng thời hoạt động khi detect khuôn mặt Mỗi mạng

có cấu trúc khác nhau và đảm nhiệm vai trò khác nhau trong task

MTCNN có 3 lớp mạng khác biệt, tượng trưng cho 3 stage chính là P-Net, R-Net

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Trang 19

và O-Net Đầu vào của MTCNN là 1 bức ảnh một người hoặc một tập thể Đầu ra của MTCNN là vị trí khuôn mặt và các điểm trên mặt như: mắt, mũi, miệng…

2.5.3 Face Encoder

Face encoder: là một module trong hệ thống được dùng để trích xuất đặc trưngcủa một gương mặt có trong bức ảnh

Sử dụng model facenet để đi trích xuất đặc trưng Facenet gồm có hai thành phần

chính đó là siam network và triple loss function.[3]

SIAM NETWORK: Là kiến trúc mạng mà khi bạn đưa vào mô hình 2 bức ảnh,

sau đó mô hình sẽ trả lời câu hỏi: 2 bức hình đó có thuộc về cùng một người hay không?Thay vì dự đoán trực tiếp bức ảnh đó là thuộc về ai, thì sẽ nhận vào 2 bức ảnh và nóixem nó có cùng một loại hay không?

Ví dụ: muốn phân loại người A với một bức ảnh, ta chỉ cần đưa bức ảnh củangười A đó cùng với bức ảnh chụp được cần phân loại, khi 2 bức ảnh đi qua model thì sẽtrả về kết quả xem chúng có cùng người hay khác loại với nhau

Input của mạng Siam là hai bức ảnh bất kì, Output là hai vector đặc trưng của bứcảnh Mà vector đặc trưng biểu diễn ở dạng số học nên có thể sử dụng chúng để kiểm traxem độ tương đồng giữa các bức ảnh bằng cách đưa vào một loss function Hàm lossthường được dùng là một norm bậc 2

LOSS FUNCTION: Với 2 vectơ tương ứng với biểu diễn của 2 ảnh input, ta đưa

vào hàm loss function để đo lường sự khác biệt giữa chúng Thông thường hàm lossfunction là một hàm chuẩn bậc 2

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 20

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

TRIPLE LOSS: Ta chọn 3 bức ảnh trong đó sẽ có 1 bức ảnh làm chính (Anchor

Image), bên cạnh đó sẽ có 1 bức ảnh giống (Positive) và một bức ảnh khác (Negative)với bức ảnh Anchor Kí hiệu lần lượt là A,P,N

Hàm loss function là tối thiểu hóa khoảng cách giữa 2 ảnh khi chúng là Negative

và tối đa hóa khoảng cách khi chúng là Positive Như vậy chúng ta cần lựa chọn các bộ 3ảnh sao cho:

❖ Ảnh Anchor và Positive khác nhau nhất: cần lựa chọn để khoảng cáchd(A,P) lớn Điều này cũng tương tự như bạn lựa chọn một ảnh của mình hồi nhỏ so vớihiện tại để thuật toán học khó hơn Nhưng nếu nhận biết được thì nó sẽ thông minh hơn

❖ Ảnh Anchor và Negative giống nhau nhất: cần lựa chọn để khoảng cáchd(A,N) nhỏ Điều này tương tự như việc thuật toán phân biệt được ảnh của một ngườianh em giống bạn với bạn

Triplot loss function luôn lấy 3 bức ảnh làm input và trong mọi trường hợp ta kìvọng:

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Trang 21

( , , ) = ∑ =0 (|| ( ) − ( )|| − || ( ) − ( )|| + , 0)

Khi áp dụng Triple loss ta có thể tạo ra các biểu diễn vectơ tốt nhất cho mỗi bứcảnh, phân biệt các ảnh Negative rất giống ảnh Positive Và ta luôn phải xác định (A,P)thuộc cùng một người và N được chọn ngẫu nhiên từ người khác

THUẬT TOÁN FACENET: Facenet chính là một dạng siam network có tác

dụng biểu diễn các bức ảnh trong một không gian Euclide n chiều (thường là 128 hoặc512) sao cho khoảng cách giữa các vector embedding càng nhỏ, mức độ tương đồng giữa

chúng càng lớn.[3]

Các thuật toán nhận diện trước đây đều biểu diễn khuôn mặt bằng một vectorembedding thông qua một layer bottle neck có tác dụng giảm chiều dữ liệu Hạn chế củacác thuận toán trước đây là:

❖ Số lượng chiều embedding tương đối lớn (thường >= 1000) và ảnh hưởng tới tốc độ của thuật toán

❖ Hàm loss function chỉ đo lường khoảng cách giữa 2 bức ảnhFacenet đã giải quyết cả 2 vấn đề trên bằng các hiệu chỉnh nhỏ nhưng mang lại hiệu quả lớn:

❖ Base network áp dụng một mạng convolutional neural network và giảmchiều dữ liệu xuống chỉ còn 128 chiều Do đó quá trình suy diễn và dự báo nhanh hơn vàđồng thời độ chính xác vẫn được đảm bảo

❖ Sử dụng loss function là hàm triplot loss có khả năng học được đồng thời

sự giống nhau giữa 2 bức ảnh cùng nhóm và phân biệt các bức ảnh không cùng nhóm

Do đó hiệu quả hơn rất nhiều so với các phương pháp trước đây

2.5.4 Face identifier

Face identifier là một quá trình mà hệ thống dùng để nhận dạng một gương mặt

đó là ai hay thuộc về một nhãn nào đó, sau khi đã trích xuất được đặc trưng của gươngmặt thành vector 128 chiều hoặc 512 chiều

Sử dụng khoảng cách Euclid để đo khoảng cách giữa các vector và cho ra nhãn,xác định gương mặt

KHÔNG GIAN EUCLIDE N-CHIỀU: Không gian vectơ (hay còn gọi là không

gian tuyến tính) là một tập hợp của các đại lượng gọi là vector, một đại lượng có thể cộng

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 22

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

và nhân bởi một số, được gọi là vô hướng

Một không gian vector n-chiều với các khái niệm về khoảng cách và góc thỏa mãn các quan hệ Euclide được gọi là không gian Euclide n-chiều

Sau này, Siam network dựa trên base network là một Convolutional neural network đã được loại bỏ output layer có tác dụng encoding ảnh thành vector embedding

CHUẨN NORM CỦA VECTOR:

nói bằng ngôn ngữ thông thường là đường chim bay.

Đôi khi, để đi từ một điểm này tới một điểm kia, con người chúng ta không thể đibằng đường chim bay được mà còn phụ thuộc vào việc đường đi nối giữa hai điểm códạng như thế nào nữa

Việc đo khoảng cách giữa hai điểm dữ liệu nhiều chiều, tức hai vector, là rất cầnthiết trong Machine Learning Chúng ta cần đánh giá xem điểm nào là điểm gần nhất củamột điểm khác; chúng ta cũng cần đánh giá xem độ chính xác của việc ước lượng Đó là

Giả sử các vectors x=[x1;x2;…;xn], y=[y1;y2;…;yn]

Với p là một số bất kỳ không nhỏ hơn 1, hàm số sau đây:

||x||p = ( |x1|p + |x2|p + …|xn|p )1/pVậy, khi:

- p = 2 ta có norm 2 ( đường màu xanh trên đồ thị)

- p = 1 ta có norm 1 là tổng các trị tuyệt đối của từng phần tử của x (đường màu

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Trang 23

Những mô hình pretrain được huấn luyện trên các dữ liệu lên tới hàng triệu ảnh.

Do đó có khả năng mã hóa rất tốt các bức ảnh trên không gian 128 chiều Việc còn lạicủa chúng ta là sử dụng lại mô hình, tính toán embedding véc tơ và huấn luyện

embedding véc tơ bằng một classifier đơn giản để phân loại classes.[4]

Một số bộ dữ liệu public về face

Hai bộ dữ liệu về face phổ biến nhất, được sử dụng nhiều trong các bài báo và nghiên cứu về face recognition

CASIA-WebFace: Bộ dữ liệu bao gồm gần 500k ảnh được thu thập từ khoảng

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 24

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

Bảng 4: Các pretrain model phổ biến 2.6 Giải pháp ứng dụng di động

- React Native là framework chính để phát triển ứng dụng di động.[5]

- Webview để xem camera realtime qua ip của ESP32Cam

- Ứng dụng di động lấy dữ liệu từ các URL remote từ REST APIs của Server

- Firebase Authentication: Quản lý đăng ký đăng nhập tài khoản

- AsyncStorage: Lưu trữ data vào bộ nhớ khi mất internet

Hình 9: Logo React Native

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Trang 25

2.6.3 Biểu đồ usecase hệ thống

Hình 10: Biểu đồ Usecase 2.6.4 Server

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

TIEU LUAN MOI download : skknchat123@gmail.com moi nhat

Trang 26

Báo cáo đồ án PBL5 - Kỹ thuật máy tính

Hình 11: Cơ sở dữ liệu

Nhóm 49 – Hệ thống mở khóa cửa tự động sử dụng nhận dạng khuôn mặt

Ngày đăng: 24/10/2022, 16:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Xây dựng API với Django Rest Framework, https://viblo.asia/p/xay-dung-api-voi-django-rest-framework-Do754PXJ5M6 Link
[2] Django REST Framework, https://www.django-rest-framework.org/ Link
[3] Quang Trần, MTCNN và FaceNet, https://viblo.asia/p/nhan-dien-khuon-mat-voi-mang-mtcnn-va-facenet-phan-1-Qbq5QDN4lD8 Link
[4] phamdinhkhanh, Facenet, https://bom.so/MqPy2I Link
[5] React Native Docs, https://reactnative.dev/docs/getting-started Link
[6] davidsandberg(2018), Facenet, https://github.com/davidsandberg/facenet Link

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w