TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐIỆN ĐIỆN TỬ NGÀNH KỸ THUẬT MÁY TÍNH BÁO CÁO ĐỀ TÀI HỆ THỐNG PHÁT HIỆN GIỚI TÍNH VÀ TUỔI TỪ KHUÔN MẶT Giảng viên PhD Trần Vũ Hoàng Sinh viên Trần Tuấn Anh 17119057 Sinh viên Nguyễn Minh Huy 17119078 MỤC LỤC 1 Đặt vấn đề xây dựng đề tài 2 Mục tiêu đề tài đạt được 3 Các thử thách đề tài 4 Các phương pháp sử dụng 1 Đặt vấn đề xây dựng đề tài Phát hiện khuôn mặt là một ứng dụng cơ bản thiết yếu của lĩnh vực phát hiện đối tượng(objects detection) nó.
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH
KHOA ĐIỆN ĐIỆN TỬ NGÀNH KỸ THUẬT MÁY TÍNH
BÁO CÁO ĐỀ TÀI
HỆ THỐNG PHÁT HIỆN GIỚI TÍNH VÀ TUỔI
TỪ KHUÔN MẶT
Giảng viên: PhD Trần Vũ Hoàng
Sinh viên: Trần Tuấn Anh- 17119057 Sinh viên: Nguyễn Minh Huy-17119078
Trang 2MỤC LỤC
1 Đặt vấn đề xây dựng đề tài
2 Mục tiêu đề tài đạt được
3 Các thử thách đề tài
4 Các phương pháp sử dụng
Trang 31 Đặt vấn đề xây dựng đề tài
Phát hiện khuôn mặt là một ứng dụng cơ bản thiết yếu của lĩnh vực phát hiện đối tượng(objects detection) nói chung và là khâu đầu tiên của bất kỳ hệ thống phát hiện và nhận dạng khuôn mặt tự động nào Ngoài
ra, phát hiện khuôn mặt còn được ứng dụng rộng rãi trong những lĩnh vực an ninh, sinh trắc học, thiết lập giao diệnmới giữa người và máy tính, và nhiều ứng dụng quan trọng khác Mục tiêu của v iệc phát hiện khuôn mặt là xác định và chỉ ra vị trí và kích thước của những khuôn mặt người trong hình ảnh tĩnh hoặc hình ảnh động
Giới tính và tuổi tác từ lâu đã được biết có ảnh hưởng đến điện tâm
đồ của con người Một số biến số sinh học và các yếu tố giải phẫu có thể góp phần vào sự khác biệt liên quan đến giới tính và tuổi tác trên điện tâm đồ
Các nhà khoa học này còn đưa ra giả thuyết rằng sự khác biệt giữa tuổi dự đoán của theo công nghệ trí tuệ nhân tạo và tuổi thực theo thời gian có thể đóng vai trò là thước đo sinh lý của sức khỏe, nghiên cứu xem việc áp dụng thuật toán AI vào bộ dữ liệu lớn (Big Data) về điện tâm đồ của BN có thể giúp dự đoán tuổi và giới tính độc lập với các dữ liệu lâm sàng bổ sung hay không và tìm cách xác định sự khác biệt giữa tuổi đo được thông qua điện tâm đồ và tuổi thực theo thời gian có thể là dấu hiệu của sức khỏe sinh lý hay không
Bằng việc phân loại hồ sơ khách hàng, các bạn có thể chủ động hiển thị các nội dung quảng cáo tại điểm bán theo từng đối tượng khách hàng,
Trang 4nang cao hiệu quả của các chương trình quảng cáo Và khi dữ liệu về độ tuổi - giới tính được kết nối với hệ thống đếm người People Counting (Shopper Count), team Marketing có thể xây triển khai các chiến lược sáng tạo để thu hút nhiều khách hàng và gắn kết họ với thương hiệu hơn, xây dựng những trải nghiệm đánh nhớ với khách hàng
Đó chính là lí do chúng mình thực hiện đề tài này Với đề tài này chúng ta có thể ứng dụng trong camera an ninh, trong dự đoán tuổi tác
và giới tính trong các ứng dụng trong game hay mạng xã hội
2.Mục tiêu đạt được
Đề tài chúng mình nghiên cứu có phạm vi sử dụng để học tập và nó
ở mức môi trường nhỏ, độ chính xác có thể không tuyệt đối có thể sẽ sai, nhưng nó có thể nhận diện liên tục khi có khuôn mặt và cập nhập dữ liệu
về giới tính và tuổi tác liên tục trong vòng 1s
Mình đã test thử và ứng dụng có thể chạy và hoạt động được với độ chính xác cũng tầm khá 80%
Để xây dựng một máy dò giới tính và tuổi tác có thể đoán khoảng giới tính và tuổi của người (khuôn mặt) trong một bức tranh bằng cách
sử dụng Deep Learning trên bộ dữ liệu Adience
3.Các thử thách của đề tài
Về khách quan vì nó mới và khá khó với những sinh viên mới học nên tìm tài liệu và để chạy được ứng dụng này thì khá khó
Về thực tế, thì khi nhận diện thì với việc khi một bức ảnh hay nhận diện từ camera, thì khi 1 người con gái để tóc ngắn, hay con trai để tóc
Trang 5dài thì khá là khó để nhận diện được Còn tùy thuộc vào độ sáng từ hình ảnh và camera nữa thì khá là khó khăn để chính xác và cái đó là khuyết điểm mà bọn mình chưa xử lí được Hoặc là 1 người mang khẩu trang, đội nón thì cũng khó nhận diện được
Có lẽ nếu như muốn thuận lợi để dùng thì nên đặt chú ý là bỏ hết vật dụng trên khuôn mặt
4 Các phương pháp sử dụng trong đề tài
Mình sẽ nêu khái quát các khái niệm lí thuyết mà để tài này sử dụng để thực hiện được
Để xây dựng công cụ phát hiện giới tính và tuổi có thể đoán gần đúng giới tính và tuổi của người (khuôn mặt) trong ảnh bằng cách sử dụng AI trên tập dữ liệu đối tượng
Thị giác máy tính là gì?
Thị giác máy tính là lĩnh vực nghiên cứu cho phép máy tính nhìn và nhận dạng các hình ảnh và video kỹ thuật số như con người Những thách thức mà nó phải đối mặt phần lớn xuất phát từ sự hiểu biết hạn chế
về tầm nhìn sinh học Computer Vision bao gồm việc thu thập, xử lý, phân tích và hiểu các hình ảnh kỹ thuật số để trích xuất dữ liệu chiều cao
từ thế giới thực nhằm tạo ra thông tin tượng trưng hoặc số sau đó có thể được sử dụng để đưa ra quyết định Quá trình này thường bao gồm các phương pháp như nhận dạng đối tượng, theo dõi video, ước tính chuyển động và khôi phục hình ảnh
Convolutional Neural Network là gì?
Trang 6Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) là một trong những mô hình tiên tiến Nó giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay
CNN được sử dụng nhiều trong các bài toán nhận dạng các object trong ảnh Để tìm hiểu tại sao thuật toán này được sử dụng rộng rãi cho việc nhận dạng (detection)
Mạng CNNs là một tập hợp các lớp Convolution chồng lên nhau và
sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt các trọng số trong các node Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tintrừu tượng hơn cho các lớp tiếp theo Trong mô hình mạng truyền ngược(feedforward neural network) thì mỗi neural đầu vào (input node) chomỗi neural đầu ra trong các lớp tiếp theo
Mô hình này gọi là mạng kết nối đầy đủ (fully connected layer) hay mạng toàn vẹn (affine layer) Còn trong mô hình CNNs thì ngược lại Các layer liên kết được với nhau thông qua cơ chế convolution
Layer tiếp theo là kết quả convolution từ layer trước đó, nhờ vậy mà
ta cóđược các kết nối cục bộ Như vậy mỗi neuron ở lớp kế tiếp sinh ra
từ kếtquả của filter áp đặt lên một vùng ảnh cục bộ của neuron trước đó Mỗi một lớp được sử dụng các filter khác nhau thông thường có hàngtrăm hàng nghìn filter như vậy và kết hợp kết quả của chúng lại Ngoài racó một số layer khác như pooling/subsampling layer dùng để chắt lọc lạicác thông tin hữu ích hơn (loại bỏ các thông tin nhiễu)
Trong quá trình huấn luyện mạng (traning) CNNs tự động học các giá trịqua các lớp filter dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thông số tối ưu cho các
Trang 7filtertương ứng theo thứ tự raw pixel > edges > shapes > facial > high-levelfeatures Layer cuối cùng được dùng để phân lớp ảnh
CNNs được chia thành 3 chiều: rộng, cao và sâu Tiếp theo, các tế bàothần kinh trong mạng không hoàn toàn kết nối với toàn bộ tế bào thầnkinh tiếp theo, mà chỉ đến một vùng nhỏ Cuối cùng, một lớp đầu ra đượcthu nhỏ lại thành vectơ giá trị của tính năng
Trang 8Phát hiện khuôn mặt sự dụng khuôn mặt dựa trên mạng nơron
Đầu vào là một bức ảnh hay từ camera
Với đề tài này thì kiến trúc CNN Mạng nơ-ron phức hợp cho dự án python này có 3 lớp tích hợp:
-Lớp chuyển đổi; 96 nút, kích thước hạt nhân 7
-Lớp chuyển đổi; 256 nút, kích thước hạt nhân 5
-Lớp chuyển đổi; 384 nút, kích thước hạt nhân 3
Trang 9Nó có 2 lớp được kết nối đầy đủ, mỗi lớp có 512 nút và một lớp đầu
ra cuối cùng thuộc loại softmax
Để đi về dự án python, chúng tôi sẽ:
-Phát hiện khuôn mặt
-Phân loại thành Nam / Nữ
-Phân loại vào một trong 8 độ tuổi
-Đưa kết quả lên hình ảnh và hiển thị
Xác định chính xác giới tính và tuổi của một người từ một hình ảnh duy nhất của khuôn mặt Giới tính được dự đoán có thể là một trong
Trang 10'Nam' và 'Nữ’.
Độ tuổi dự đoán có thể là một trong các phạm vi sau- (0 - 2), (4 - 6), (8 - 12), (15 - 20) , (25 - 32), (38 - 43), (48 - 53), (60 - 100) (8 nút trong lớp softmax cuối cùng) Rất khó để đoán chính xác tuổi chính xác
từ một hình ảnh duy nhất vì các yếu tố như trang điểm, ánh sáng, vật cản
và nét mặt Và do đó, chúng tôi coi đây là một vấn đề phân loại thay vì biến nó thành một trong những hồi quy