2. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
2.3. Tổng quan các phương pháp về nhận diện khuôn mặt
2.3.1. Facenet: triplet loss
Facenet [6] là mô hình mạng học sâu dùng hàm học Triplet Loss. Ở giai đoạn huấn luyện, ta cần tìm bộ ba vector đặc trưng của các mẫu, trong có hai mẫu cùng lớp và một mẫu khác lớp. Với bộ ba này ta cần cực tiểu hóa khoảng cách của cặp mẫu dương và cực đại hóa khoảng cách của cặp mẫu âm. Công thức Triplet Loss:
‖ ‖
9 Giải thích ký hiệu:
• : vector đặc trưng của mẫu đang xét
• : vector đặc trưng cùng nhóm của mẫu đang xét.
• : vector đặc trưng của mẫu khác nhóm với mẫu đang xét.
• : khoảng cách giữa cặp mẫu âm và cặp mẫu dương cần phân tách.
Thử thách của việc huấn luyện mô hình dùng Triplet Loss đó là ta phải tìm bộ ba mẫu trong bó dữ liệu. Cặp mẫu dương nhóm tác giả chọn cặp mẫu dương có khoảng cách xa nhau nhất. Đối với cặp mẫu âm thì chọn cặp có khoảng cách gần nhau nhất. Ý đồ của việc chọn bộ ba có tính chất như trên là kéo cặp mẫu dương cùng lớp về gần nhau hơn và đẩy xa nhau ra với mẫu khác nhóm. Kết quả của học hội tụ là mô hình có khả năng rút trích đặc trưng phân biệt cho từng người và đặc trưng của từng người sẽ ở gần một tâm cụm nào đó trong miền không gian đặc trưng.
Hình 2-6 Minh họa ý tưởng Triplet Loss
Hình trên minh họa ý tưởng chính của Triplet Loss. Các đặc trưng của mẫu âm ban đầu chưa phân tách có thể nằm gần trong nhóm mẫu dương. Qua quá trình học điều chỉnh bằng hàm lỗi triplet, các đặc trưng của mẫu dương cùng nhóm sẽ tách biệt nhau ra.
2.3.2. Center Loss
Phương pháp Center Loss đề xuất áp dụng hàm Center Loss kết hợp với Cross Entropy cho bài toán nhận diện khuôn mặt. Ý tưởng lớn của phương pháp này là ta tìm cách thu nhỏ khoảng cách của các vector đặc trưng đến vector đặc trưng trung tâm của nhãn tương ứng. Các vector đặc trưng trung tâm sẽ được cập nhật trong quá trình huấn luyện. Sau khi huấn luyện xong mô hình mạng sử dụng phương pháp Center Loss thì các vector đặc trưng học được cùng một cá thể có khuynh hướng hội tụ về gần tâm của các thể đó.
Bằng việc phân tách các vector đặc trưng cho chúng gom gần về một tâm, phương pháp này làm việc tốt cho bài toán nhận diện khuôn mặt. Các thí nghiệm của nhóm tác giả cũng chỉ ra được sự gia tăng tính hiệu quả cho xác thực khuôn mặt và xác thực danh tính bằng cách sử dụng Center Loss.
10
Hình 2-7 Hiệu ứng hành xử của mô hình khi học bằng Center Loss cho bài toán phân loại ký tự MNIST
Kiến trúc mạng đề xuất của nhóm tác giả Center Loss sử dụng các lớp kết nối đầy đủ, max-pooling, lớp kết nối cục bộ (locally connected layer).
Hình 2-8 Kiến trúc mạng của phương pháp Center Loss
Kiến trúc mạng của bài báo Center Loss sử dụng nhiều lớp tích chập, max- pooling, locally connected layer, và cuối cùng là lớp kết nối đầy đủ. Mô hình này được huấn luyện theo hàm lỗi trung tâm và hàm lỗi cross entropy.
11 2.3.3. Sphereface
Phương pháp Sphereface đề xuất hàm lỗi Angular Softmax mới dựa trên cơ sở của hàm lỗi Cross Entropy. Ý tưởng chính của phương pháp là chỉnh sửa hàm Cross Entropy và tổng quát hóa chỉnh sửa này để những đặc trưng sau khi học của các lớp khác nhau sẽ cách nhau bởi một khoảng cách biên về góc nhất định trên siêu cầu.
Bên dưới là công thức hàm cross entropy chuẩn:
1
log
∑
Bài báo Sphereface đã phân tích và đề xuất phiên bản chỉnh sửa của Cross Entropy !"#":
!"#" 1
log ‖$‖%&' (,
∑ ‖$‖%&' (,
Điểm khác biệt ở đây chính là bộ trọng số của lớp W đã được chuẩn hóa về 1 và thiết lập bias bằng zero. Vì vậy, khi ta cho mô hình học với hàm lỗi L chỉnh sửa này thì mô hình sẽ tìm cách phân tách góc của vector đặc trưng giữa các lớp đối tượng. Điều này làm mô hình học hiệu quả hơn so với hàm lỗi nguyên gốc, các thí nghiệm của nhóm tác giả đã cho thấy điều đó.
Kiến trúc mạng Sphereface:
Hình 2-9 Các cấu hình kiến trúc mạng Sphereface
Sphereface 64 lớp cho kết quả độ chính xác cao nhất trên các tập đánh giá.
12