5. CÁC THÍ NGHIỆM VÀ KẾT QUẢ THÍ NGHIỆM
5.4. Kết quả thí nghiệm
5.4.2. Kết quả đánh giá các mô hình
Đánh giá độ chính xác cho phương pháp nhận diện
Bảng thống kê kết quả đánh giá độ chính xác của các phương pháp:
37
Bảng 5-1 Kết quả đánh giá các mô hình nhận diện khuôn mặt
Mô hình Dữ liệu
huấn luyện
Dữ liệu đánh giá
Độ chính xác (%)
Ngưỡng đề xuất
Sphereface gốc CASIA LFW 98.72 +- 0.50 0.3434 +-
0.0052 Sphereface không chuẩn hóa
landmark
CASIA LFW 98.60 +- 0.37 0.3221 +- 0.0009 Sphereface
cải tiến
CASIA LFW 98.88 +- 0.33 0.3364 +- 0.0003 Sphereface triển khai CASIA LFW 97.85 +- 0.43 0.3426 +-
0.0009
Phương pháp Sphereface được hiện thực và huấn luyện từ đầu đạt độ chính xác 98.72% trên tập đánh giá LFW. Sphereface không dùng chuẩn hóa landmark chỉ đạt 98.60%, kém 0.12%. Phương pháp đề xuất là Sphereface cải tiến dùng kết nối dày đặc đạt độ chính xác cao nhất 98.88%, tăng 0.16% so với phương pháp gốc.
Sphereface triển khai được huấn luyện tiếp để tinh chỉnh đầu vào đạt độ chính xác 97.85%.
Qua các số liệu thống kê ta có thể thấy được rằng phép chuẩn hóa khuôn mặt giúp tăng độ chính xác hơn so với không dùng. Kiến trúc Sphereface dense connec- tion cho thấy tính hiệu quả khi làm tăng nhẹ độ chính xác. Sphereface triển khai mới được huấn luyện tiếp chỉ thêm 4 epoch nên có thể chưa hội tụ hết, nhưng qua đó ta thấy rằng việc làm tốt (refine) mô hình từ bộ trọng số đã huấn luyện sẵn của mô hình đã có giúp ta tiết kiệm rất nhiều thời gian huấn luyện trong deep learning.
Đây cũng là một trong những điểm ưu việt của deep learning mà ta có thể khai thác để huấn luyện đa dạng mô hình đi tiếp bộ mô hình đã có.
Một số ảnh kết quả định tính cho kết quả nhận diện dùng mô hình Sphere- face:
Hình 5-11 Nhận diện khuôn mặt ngược sáng
38
Hình 5-12 Nhận diện phân biệt được nhiều khuôn mặt
Hình 5-13 Nhận diện người lạ
Đánh giá độ chính xác cho phương pháp phát hiện
Kết quả đánh giá mAP cho mô hình phát hiện khuôn mặt SSD300 đạt giá trị 0.91 trên tập dữ liệu đánh giá PEOPLE20. Tập dữ liệu này chứa các hình ảnh khuôn mặt người có kích thước từ trung bình đến to trên toàn ảnh. Giá trị mAP cao trên tập dữ liệu này thể hiện phương pháp phát hiện khuôn mặt SSD300 hoạt động rất tốt trên tập dữ liệu đánh giá.
Nhược điểm của SSD300 là phát hiện đối tượng nhỏ chưa tốt. Muốn phát hiện khuôn mặt nhỏ có thể dùng S3FD [3] với đầu vào ảnh 640x640 để có thể phát hiện mặt với kích thước nhỏ trở lên. Đánh đổi của phát hiện đối tượng trên đa dạng kích thước là về tốc độ xử lý. Ảnh đầu vào lớn cho mạng deep learning thường mất nhiều thời gian huấn luyện cũng như tốc độ xử lý. Về mặt triển khai ứng dụng trên hệ thống như bo mạch Jetson TX2 dùng phương pháp SSD300 là hợp lý.
39
Hình 5-14 Một số hình kết quả phát hiện bởi phương pháp SSD300
Kết quả đánh giá thời gian xử lý của các mô hình
Tốc độ thời gian inference của các mô hình được đánh giá lần lượt trên các dòng máy có card P4, 1080 và P100. Các thí nghiệm đánh giá đều chạy trên 1 card và với cấu hình batch size lần lượt là 1, 4, 8, 16. Tốc độ khung hình trên giây (FPS) chỉ đo riêng cho inference của mô hình. Các bước tiền, hậu xử lý đều không được tính vào các bảng kết quả đo bên dưới.
Bảng 5-2 Tốc độ xử lý của các mô hình nhận diện với batch-size = 1
Mô hình Tốc độ xử lý (FPS)
P4 1080 P100
Sphereface gốc 66.61 89.58 116.59
Sphereface cải tiến 64.82 91.96 113.78
Sphereface triển khai 71.36 93.26 121.90
Bảng 5-3 Tốc độ xử lý của các mô hình nhận diện với batch-size = 4
Mô hình Tốc độ xử lý (FPS)
P4 1080 P100
Sphereface gốc 153.49 169.38 361.19
Sphereface cải tiến 154.15 171.91 365.34
Sphereface triển khai 154.91 172.70 368.26
40
Bảng 5-4 Tốc độ xử lý của các mô hình nhận diện với batch-size = 8
Mô hình Tốc độ xử lý (FPS)
P4 1080 P100
Sphereface gốc 164.15 181.00 396.85
Sphereface cải tiến 160.25 182.86 398.79
Sphereface triển khai 163.45 183.19 399.72
Bảng 5-5 Tốc độ xử lý của các mô hình nhận diện với batch-size = 16
Mô hình Tốc độ xử lý (FPS)
P4 1080 P100
Sphereface gốc 169.61 188.14 417.51
Sphereface cải tiến 167.86 189.22 419.15
Sphereface triển khai 168.76 189.41 416.92
Nhằm mục đích có một cái nhìn trực quan hơn khi so sánh tốc độ xử lý của mô hình học sâu trên các dòng card đồ họa. Biểu đồ so sánh tốc độ xử lý của mô hình mạng Sphereface cải tiến được biểu diễn như hình bên dưới.
Hình 5-15 Biểu đồ so sánh tốc độ xử lý mô hình Sphereface cải tiến trên các máy
Qua bảng thống kê tốc độ xử lý của các kiến trúc mô hình nhận diện trên Sphereface có thể nói rằng các phiên bảng của Sphereface có tốc độ xử lý ngang nhau. Tốc độ xử lý trên P100 là cao nhất, thấp nhất là trên máy P4. Dòng card P4 là loại card chuyên cho tính toán inference được hỗ trợ bởi các bộ framework do NVIDA cung cấp như TensorRT, Deepstream. Máy 1080 có tốc độ xử lý khá tốt, và
41
lượng GPU RAM cũng khá ổn. Dòng card này vừa thích hợp cho render đồ họa game cũng như các thử nghiệm huấn luyện mô hình deep learning nhờ giá thành hợp lý.
Tốc độ xử lý của phát hiện và nhận diện khuôn mặt chạy trên Jetson TX2 đạt 5.45 FPS. Đo đạt tốc độ này là đã bao gồm tất cả các bước từ tiền xử lý, inference và cả hậu xử lý cho bộ hai bước phát hiện nhận diện. Tốc độ khoảng 5 khung hình trên giây trên một board nhúng chạy mô hình deep learning đã là một con số hợp lý.
Vì thông thường người ta phải dùng những card đồ họa khác mạnh hơn để chạy các mô hình deep learning vì tính chất nó có khối lượng tính toán cực lớn mà chưa thể làm tốt trên CPU. Máy Jetson TX2 có kích thước nhỏ gọn và giá thành rẻ so với các dòng card như P4, 1080 nên nó rất phù hợp cho việc triển khai các ứng dụng thực tế. Hình bên dưới là hình chụp ứng dụng demo trên máy Jetson TX2.
Hình 5-16 Xử lý trực tuyến nhận diện khuôn mặt trên Jetson TX2
42