Thí nghiệm các phương pháp nhận diện

Một phần của tài liệu Nhận diện khuôn mặt bằng deep learning (Trang 43 - 47)

5. CÁC THÍ NGHIỆM VÀ KẾT QUẢ THÍ NGHIỆM

5.3. Thí nghiệm các phương pháp nhận diện

5.3.1. Thí nghim hun luyn mng nhn din Sphereface

Một số cấu hình máy dùng để thực hiện thí nghiệm được liệt kê như sau đây.

Cu hình máy P4:

• Intel(R) Xeon(R) CPU E5-2630 v2 @ 2.60GHz

• GPU NVIDIA Tesla P4

• 32GB RAM Cu hình máy 1080:

• Intel(R) Core i5-2500 @ 3.30Ghz

• NVIDIA GeForce GTX 1080 (x2), bộ nhớ mỗi card 11GB GPU RAM

• 16GB RAM Cu hình máy P100:

• Intel(R) Xeon(R) Silver 4114 CPU @ 2.20GHz

• GPU NVIDIA Tesla P100, bộ nhớ 16GB GPU RAM

• 189GB RAM

Cu hình máy Jetson TX2:

• 2 CPUs: ARM Cortex-A57 (quad-core) @ 2GHz

• NVIDIA Denver2 (dual-core) @ 2GHz

• 256-core Pascal @ 1300MHz

• 8Gb bộ nhớ chia sẻ chung giữ CPU và GPU

• Công suất điện tiêu thụ: 7.5W

Ảnh chụp máy Jetson TX2 như hình bên dưới:

Hình 5-5 Bo nhúng Jetson TX2 trong hp nhôm

Thí nghim 1: hun luyn mng nhn din Sphereface 20 lp.

31

Mục đích chính của thí nghiệm này là dựng lại được phương pháp Sphere- face trong bài báo gốc [1]. Kiến trúc mạng được lựa chọn là Sphereface 20 lớp bởi nó không quá sâu cũng như kết quả độ chính xác báo cáo ở bài báo gốc ở mức tương đối cao (99.26%) và gần đạt bằng Sphereface 64 lớp (99.42%).

• Thí nghiệm được tiến hành trên kiến trúc mạng Sphereface 20 lớp.

• Tập dữ liệu huấn luyện: CASIA Webface.

• Tập dữ liệu đánh giá: LFW.

• Áp dụng chuẩn hóa khuôn mặt dựa trên landmark (warping).

• Làm giàu dữ liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh 4 pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5).

• Kích thước bó (batch size): 256 ảnh.

• Huấn luyện: 70 epoch (biểu đồ hàm lỗi gần như không giảm nữa).

• Hệ số học: 0.1. Momentum: 0.9. Weight Decay: 0.0005.

• Giảm hệ số học tại các epoch: 10, 15, 18. Hệ số giảm cho hệ số học: 0.1.

• Sau khi huấn luyện 25 epoch đầu, dùng tiếp mô hình đã lưu tại epoch thứ 25 để huấn luyện tiếp với hệ số học bằng 0.01. Thiết lập giảm hệ số học tại các epoch 45, 60.

• Đánh giá: độ chính xác và tốc độ xử lý.

• Quá trình huấn luyện được thực hiện trên máy 1080.

Thí nghim 2: hun luyn mng nhn din Sphereface 20 lp vi cách căn chnh khuôn mt kiu đơn gin.

Thử nghiệm này mục đích kiểm chứng kiến trúc mạng đầu vào ảnh không áp dụng chuẩn hóa căn chỉnh khuôn mặt. Thay vào đó, từ 5 điểm landmark, ta áp dụng tính toán đơn giản để cắt vùng khuôn mặt và chỉnh kích thước ảnh về cao 112 pixel và rộng 96 pixel.

• Thí nghiệm được tiến hành trên kiến trúc mạng Sphereface 20 lớp.

• Tập dữ liệu huấn luyện: CASIA Webface.

• Tập dữ liệu đánh giá: LFW.

• Áp dụng cắt ảnh khuôn mặt quanh vùng landmark.

• Làm giàu dữ liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh 4 pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5).

• Kích thước bó (batch size): 256 ảnh.

• Huấn luyện: 60 epoch (biểu đồ hàm lỗi gần như không giảm nữa).

32

• Hệ số học: 0.1. Momentum: 0.9. Weight Decay: 0.0005.

• Giảm hệ số học tại các epoch: 25, 40, 50. Hệ số giảm: 0.1.

• Đánh giá: độ chính xác và tốc độ xử lý.

• Quá trình huấn luyện được thực hiện trên máy 1080

5.3.2. Thí nghim hun luyn Sphereface theo phương pháp đề xut

Thí nghim 3: hun luyn mng nhn din Sphereface 20 lp vi kết ni dày đặc (dense connection).

Thí nghiệm này muốn kiểm chứng tính hiệu quả của kết nối dày đặc so với kết nối các bản đồ đặc trưng bằng phép cộng.

• Thí nghiệm được tiến hành trên kiến trúc mạng Sphereface 20 lớp, ta thay phép cộng ở những residual block thành phép nối (concat), các kết nối dày đặc này giúp mạng dễ học hơn và đặc trưng trích xuất tốt hơn khi kết hợp các khối bản đồ đặc trưng lại với nhau.

• Tập dữ liệu huấn luyện: CASIA Webface.

• Tập dữ liệu đánh giá: LFW.

• Áp dụng chuẩn hóa khuôn mặt dựa trên landmark (warping).

• Làm giàu dữ liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh 4 pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5).

• Kích thước bó (batch size): 256 ảnh.

• Huấn luyện: 67 epoch (biểu đồ hàm lỗi gần như không giảm nữa).

• Hệ số học: 0.1. Momentum: 0.9. Weight Decay: 0.0005.

• Giảm hệ số học tại các epoch: 16, 32, 40. Hệ số giảm: 0.1.

• Đánh giá: độ chính xác và tốc độ xử lý.

• Quá trình huấn luyện được thực hiện trên máy P100

5.3.3. Thí nghim hun luyn mô hình phát hin và nhn din khuôn mt trin khai trên Jetson TX2

Thí nghim 4: hun luyn mô hình phát hin dùng kiến trúc mng SSD300.

Mạng phát hiện khuôn mặt cho triển khai chương trình nhận diện khuôn mặt trên Jetson TX2 dùng SSD300 được huấn luyện trên tập dữ liệu khuôn mặt WIDER FACE. Ưu điểm lớn của phương pháp SSD nói chung là: end-to-end, tốc độ nhanh, độ chính xác tốt.

• Kiến trúc mạng: SSD300.

33

• Tập dữ liệu huấn luyện: WIDER FACE.

• Tập dữ liệu đánh giá: PEOPLE20.

• Làm giàu dữ liệu: chỉnh màu ngẫu nhiên, chỉnh xám ngẫu nhiên, ngẫu nhiên cắt ảnh, ngẫu nhiên mở rộng ảnh, ngẫu nhiên lật ngang ảnh, ngẫu nhiên làm mờ, ngẫu nhiên gieo nhiễu, chuẩn hóa ảnh (mean = [104.0, 117.0, 123.0], std = [255.0, 255.0, 255.0]).

• Kích thước bó (batch size): 8 ảnh.

• Huấn luyện: 200 epoch (biểu đồ hàm lỗi gần như không giảm nữa).

• Hệ số học: 0.001. Momentum: 0.9. Weight Decay: 0.0005.

• Giảm hệ số học tại các epoch: 60, 100, 130, 150. Hệ số giảm: 0.5.

• Đánh giá: độ chính xác và tốc độ xử lý.

• Quá trình huấn luyện được thực hiện trên máy P100

• Triển khai thực hiện trên máy Jetson TX2

Thí nghim 5: hun luyn mô hình nhn din Sphereface tương thích vi mô hình phát hin SSD300.

Mạng nhận diện khuôn mặt cần đầu vào chuẩn hóa theo cùng một quy cách xác định. Vì vậy khi ta phát hiện khuôn mặt SSD thì cần dùng mô hình mạng này để phát hiện khuôn mặt. Từ đó, kết quả phát hiện đầu ra của SSD được đưa vào mạng nhận diện Sphereface.

• Thí nghiệm được tiến hành trên kiến trúc mạng Sphereface 20 lớp.

• Tập dữ liệu huấn luyện: CASIA Webface.

• Tập dữ liệu đánh giá: LFW.

• Áp dụng chuẩn hóa khuôn mặt dựa trên khuôn mặt phát hiện bởi mô hình SSD300 đã huấn luyện ở thí nghiệm trên.

• Làm giàu dữ liệu: ngẫu nhiên lật ngang ảnh (random horizontal flip), cắt ảnh ngẫu nhiên thêm biên ảnh 4 pixel (random crop, padding = 4), chuẩn hóa ảnh (mean = 127.5, std = 127.5).

• Kích thước bó (batch size): 256 ảnh.

• Huấn luyện tiếp từ mô hình Sphereface đã trải qua:

• Huấn luyện Sphereface như phương pháp gốc đến epoch thứ 45.

• Huấn luyện tiếp từ epoch thứ 45 đến epoch thứ 73 cho phép chuẩn hóa căn chỉnh không dùng warping (tương tự thí nghiệm 2).

• Hệ số học: 0.01. Momentum: 0.9. Weight Decay: 0.0005.

• Huấn luyện này huấn luyện thêm 4 epoch.

• Đánh giá: độ chính xác và tốc độ xử lý.

34

• Quá trình huấn luyện được thực hiện trên máy 1080, P100

• Triển khai thực hiện trên máy Jetson TX2

Một phần của tài liệu Nhận diện khuôn mặt bằng deep learning (Trang 43 - 47)

Tải bản đầy đủ (PDF)

(58 trang)